Conjunto de Entrenamiento de Filtro de Spam Disponible Públicamente [cerrado]


Soy nuevo en el aprendizaje automático, y para mi primer proyecto me gustaría escribir un filtro de spam Bayes ingenuo. Me preguntaba si hay algún conjunto de capacitación disponible públicamente de correos electrónicos etiquetados como spam/no spam, preferiblemente en texto plano y no un volcado de una base de datos relacional (a menos que los impriman bastante?).

Sé que existe una base de datos disponible públicamente para otros tipos de clasificación de texto, específicamente texto de artículo de noticias. Simplemente no he sido capaz de encontrar el mismo tipo de cosas para correos electrónicos.

Author: JeremyKun, 2011-01-20

6 answers

Esto es lo que estaba buscando: http://untroubled.org/spam /

Este archivo tiene alrededor de un gigabyte de mensajes de spam acumulados comprimidos que datan de 1998 a 2011. Ahora solo necesito recibir correo electrónico no spam. Así que simplemente consultaré mi propio Gmail para eso usando el programa getmail y el tutorial en mattcutts.com

 27
Author: JeremyKun,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-01-22 21:00:39

Claro, hay Spambase, que es hasta donde yo sé, es el conjunto de datos de spam más citado en la literatura de aprendizaje automático.

He utilizado este conjunto de datos muchas veces; cada vez me impresiona cuánto esfuerzo se ha puesto en el formato y la documentación de este conjunto de datos.

Algunas características del conjunto de Spambase:

  • 4601 puntos de datos complete todos completos

  • Cada uno compuesto por 58 función (atributos)

  • Cada punto de datos está etiquetado como "spam" o 'no spam'

  • Aprox. 40% están etiquetados como spam

  • De las características, todas son continuas (vs discretos)

  • Una característica representativa: promedio secuencia continua de capital cartas


Spambase está archivado en el UCI Machine Learning Repository; además, también está disponible en el Sitio web para el excelente ML / Tratado de Cálculo Estadístico, Elementos del Aprendizaje Estadístico por Hastie et al.

 9
Author: doug,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-01-20 08:45:48

SpamAssassin tiene un corpus público de mensajes spam y no spam, aunque no se ha actualizado en unos pocos años. Lee el readme.archivo html para saber qué hay allí.

 8
Author: ViennaMike,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2013-12-07 22:22:55

Podría considerar echar un vistazo al corpus de spam/ham de TREC (que creo que es la colección de correos electrónicos de Enron que se hizo pública desde el caso judicial). TREC generalmente ejecuta un montón de tareas de procesamiento de texto competitivas, por lo que podría darle algunas referencias para la comparación.

La desventaja es que están almacenados en formato raw mbox, aunque hay analizadores disponibles en muchos idiomas (Apache Tika es un buen ejemplo).

La página web no es TREC, pero esto parece ser un buena visión general de la tarea con enlaces a los datos: http://plg.uwaterloo.ca / ~gvcormac / spam /

 6
Author: Keith Trnka,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-01-28 23:39:35

Un conjunto de entrenamiento de spam más moderno se puede encontrar en kaggle. Además, puede probar la precisión de su clasificador en su sitio web cargando sus resultados.

 4
Author: warmspringwinds,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2014-12-13 12:15:42

También tengo una respuesta, aquí puede encontrar una base de datos bayesiana actualizada diariamente para el entrenamiento inicial y también un archivo creado diariamente que contiene spams capturados. Encontrará las instrucciones de cómo usarlo en el sitio.

 0
Author: Frantique,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2014-04-17 11:10:57