Diferencia entre Algoritmos de Minería de Patrones Secuenciales Cerrados y abiertos


Quiero usar algunos algoritmos para extraer mis datos de registro.

Encontré un marco de minería de patrones en: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

He probado varios algoritmos, el algoritmo BIDE+ funciona mejor.

El algoritmo BIDE+ es para minar patrones secuenciales cerrados frecuentes de una base de datos de secuencias.

¿Puede alguien explicar la definición sobre los patrones secuenciales "cerrados" y los abiertos?

Author: Cœur, 2013-04-22

3 answers

Me alegro de que estés usando mi software SPMF.

El soporte de un patrón secuencial es el número de secuencias que contiene el patrón secuencial.

Un patrón secuencial frecuente es un patrón que aparece en al menos secuencias "minsup" de una base de datos de secuencias, donde minsup es un parámetro establecido por el usuario.

Un patrón secuencial cerrado frecuente es un patrón secuencial frecuente tal que no se incluye en otro patrón secuencial que tiene exactamente el mismo soporte.

Algoritmos como PrefixSpan encuentra patrones secuenciales frecuentes. Algoritmos como BIDE+ encuentra patrones secuenciales cerrados frecuentes. BIDE + suele ser mucho más rápido que PrefixSpan porque utiliza técnicas de poda para evitar generar todos los patrones secuenciales. Además, el conjunto de patrones cerrados suele ser mucho más pequeño que el conjunto de patrones secuenciales, por lo que BIDE + también es más memoria eficiente.

Otra cosa importante a saber es que los patrones secuenciales cerrados son una representación compacta y sin pérdidas de todos los patrones secuenciales. Esto significa que el conjunto de patrones secuenciales cerrados suele ser mucho más pequeño pero sin pérdidas, lo que significa que permite recuperar el conjunto completo de patrones secuenciales (ninguna información es pérdida), lo cual es muy conveniente.

Les puedo dar un ejemplo sencillo.

Consideremos 4 secuencias:

a  b  c  d  e
a  b  d
b  e  a  
b  c  d  e

Vamos a digamos que minsup = 2.

b c es un patrón secuencial frecuente porque aparece en dos secuencias (tiene un soporte de 2). b c no es un patrón secuencial cerrado porque está contenido en un patrón secuencial mayor b c d que tiene el mismo soporte.

b c d tiene un soporte de 2. Tampoco es un patrón secuencial cerrado porque está contenido en un patrón secuencial mayor b c d e que tiene el mismo soporte. b c d e es un patrón secuencial cerrado porque no lo es incluido en cualquier otro patrón secuencial que tenga el mismo soporte.

Por cierto, también puede consultar mi encuesta sobre minería de patrones secuenciales. Da una buena introducción sobre este tema y los diferentes algoritmos.

 42
Author: Phil,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-10-25 07:36:07
 2
Author: babalu,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2013-04-25 18:42:34

Google para "cerrado itemsets frecuentes". Habrá muchas páginas explicando esto, al igual que cualquier libro de minería de datos (busque el algoritmo APRIORI).

"Cerrado" dice que no hay un conjunto de elementos más grande con el mismo soporte. Puede haber conjuntos de artículos más grandes, pero deben tener un soporte más bajo.

Para la mayoría de los casos de uso es suficiente mirar maximal o solo itemsets cerrados.

 1
Author: Anony-Mousse,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2013-04-23 07:59:42