n-gram

n-gramos en pitón, cuatro, cinco, seis gramos?

Estoy buscando una manera de dividir un texto en n-gramos. Normalmente haría algo como: import nltk from nltk import bigram ... amas y trigramas, pero ¿hay alguna manera de dividir mi texto en cuatro gramos, cinco gramos o incluso cien gramos? Gracias!

Implementación simple de N-Gram, tf-idf y similitud de coseno en Python

Necesito comparar documentos almacenados en una base de datos y obtener una puntuación de similitud entre 0 y 1. El método ... de tf-idf y similitud de coseno. ¿hay algún programa que pueda hacer esto? ¿O debería empezar a escribir esto desde cero?

Python: Reduciendo el uso de memoria del diccionario

Estoy tratando de cargar un par de archivos en la memoria. Los archivos tienen cualquiera de los siguientes 3 formatos: s ... ido: deben estar usando mucho de técnicas + mucha potencia de los servidores? Muchas Gracias. Espero con interés su consejo.

Generación de N-gramo a partir de una oración

Cómo generar un n-gramo de una cadena como: String Input="This is my car." Quiero generar n-gramo con esta entrada: Inpu ... tando de usar este NGramTokenizer pero está dando n-gram de secuencia de caracteres y quiero n-gram de secuencia de palabras.

Búsqueda de nombres de archivo con ElasticSearch

Quiero usar ElasticSearch para buscar nombres de archivo (no el contenido del archivo). Por lo tanto, necesito encontrar una ... lename:2012.01.13 ' for file in ${FILES} do echo; echo; echo ">>> ${file}" curl "${file}&pretty=true" done