mapreduce

Buenos ejemplos de MapReduce [cerrado]

No se me ocurrió ningún buen ejemplo aparte de la tarea "cómo contar palabras en un texto largo con MapReduce". Descubrí que ... impresión de lo poderosa que puede ser esta herramienta. No estoy buscando fragmentos de código, solo ejemplos "textuales".

Java8: HashMap a HashMap usando Stream / Map-Reduce / Collector

Sé cómo "transformar" un simple Java List desde Y -> Z, es decir: List<String> x; List<Integer> y = x.stream ... arse a String -> Integer. Al igual que en el ejemplo List anterior, me gustaría llamar a cualquier método (o constructor).

¿Cómo se dividen los registros de proceso de Hadoop a través de los límites de bloques?

Según el Hadoop - The Definitive Guide Los registros lógicos que FileInputFormats definen no suelen encajar perfectament ... segundo bloque (b2) que el primer registro está incompleto y debe procesarse a partir del segundo registro en el bloque (b2)?

¿Cómo funciona el algoritmo de ordenación MapReduce?

Uno de los ejemplos principales que se utiliza para demostrar el poder de MapReduce es el Terasort benchmark. Estoy teniendo ... onces, ¿cómo se hace esto realmente? ¿Cómo funciona este algoritmo de ordenación MapReduce? Gracias por ayudarme a entender.

El nodo Nombre está en modo seguro. No poder salir

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/r ... Lo hice root# bin/hadoop fs -safemode leave Pero mostrando safemode: Unknown command ¿Cuál es el problema? Solución

combinar archivos de salida después de reducir la fase

En mapreduce cada tarea reduce escribe su salida en un archivo llamado part-r-nnnnn donde nnnnn es un ID de partición asociado con la tarea reduce. ¿mapea/reduce combina estos archivos? Si es así, ¿cómo?

Qué es Map / Reduce?

Escucho mucho sobre map/reduce, especialmente en el contexto del sistema de cómputo paralelo masivo de Google. ¿Qué es exactamente?

Integration testing Hive jobs

Estoy tratando de escribir un trabajo de Colmena no trivial usando las interfaces Hive Thrift y JDBC, y estoy teniendo proble ... . El problema, como se ha dicho, es que esta no es una solución viable para probar eficazmente los flujos de trabajo de Hive.

Equivalente al Procedimiento Almacenado de MongoDB

Tengo un archivo CSV grande que contiene una lista de tiendas, en la que uno de los campos es ZipCode. Tengo una base de dato ... nda y guardar eso también. No estoy muy familiarizado con el concepto de Mapa/Reducir, pero ¿sería relevante aquí? ¡Gracias!

¿Cuándo comienza reducir tareas en Hadoop?

En Hadoop ¿cuándo comienzan las tareas de reducción? ¿Comienzan después de que se complete un cierto porcentaje (umbral) de mapeadores? En caso afirmativo, ¿se ha fijado este umbral? ¿Qué tipo de umbral se utiliza normalmente?

Contar líneas en archivos grandes

Comúnmente trabajo con archivos de texto de ~20 Gb de tamaño y me encuentro contando el número de líneas en un archivo dado m ... ea tan simple como ejecutar una línea, como la solución wc -l, pero no estoy seguro de cuán factible sea ser. ¿Alguna idea?

El contenedor se está ejecutando más allá de los límites de memoria

En Hadoop v1, he asignado cada ranura de mapeador y reductor de 7 con un tamaño de 1 GB, mis mapeadores y reductores funciona ... o. El problema es cómo puedo asegurarme de que a cada contenedor no se le asignen más divisiones de las que pueda manejar.

Buscar todos los documentos duplicados en una colección MongoDB por un campo clave

Supongamos que tengo una colección con algún conjunto de documentos. algo como esto. { "_id" : ObjectId("4f127fa55e724271820 ... entradas duplicadas en esta colección por el campo "nombre". Por ejemplo, " foo "aparece dos veces y" bar " aparece 3 veces.

Qué es Hive: Devuelve el código 2 de org.apache.hadoop.colmena.ql.exec.MapRedTask

Estoy recibiendo: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Al intentar hacer ... ob = job_201206191101_4557 with errors FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask

Explota la matriz de Struct en la colmena

Esta es la siguiente Tabla de Colmenas CREATE EXTERNAL TABLE IF NOT EXISTS SampleTable ( USER_ID BIGINT, NEW_ITEM ARRAY<S ... _item.timestamps) myTable2 AS myCol2; ¿Puede alguien ayudarme qué mal estoy haciendo? Cualquier sugerencia será apreciada.

Qué son los archivos SUCCESS y part-r-00000 en hadoop

Aunque uso Hadoop con frecuencia en mi máquina Ubuntu, nunca he pensado en los archivos SUCCESS y part-r-00000. La salida sie ... chivo de salida tiene el nombre part-r-0000? ¿Hay alguna significación / nomenclatura o se trata de una definición aleatoria?

Hadoop un mapa y reducción múltiple

Tenemos un conjunto de datos grande para analizar con múltiples funciones reduce. All reduce el algoritmo trabaja en el mi ... ciones reduce. ¿Puedo hacer esto con Hadoop? He buscado los ejemplos y el intarweb pero no pude encontrar ninguna solución.

La mejor manera de hacer uno a muchos "UNIRSE" en CouchDB

Estoy buscando un CouchDB equivalente a "SQL joins". En mi ejemplo hay documentos CouchDB que son elementos de lista: { "t ... puede cambiar. EDITAR: No te pierdas el comentario de JasonSmith a su respuesta, donde describe cómo hacer esto más corto.

compatibilidad con gzip en Spark

Para un proyecto de Big Data, estoy planeando usar spark, que tiene algunas características agradables como cálculos en memo ... mente la lectura de archivos comprimidos con gzip o ya está descomprimiendo se realiza automáticamente al leer a .gz archivo?

En MongoDB mapreduce, ¿cómo puedo aplanar el objeto values?

Estoy tratando de usar MongoDB para analizar los archivos de registro de Apache. He creado una colección receipts a partir de ... "count" : 3 }, "/videos/6/buffers_listed_and_hidden.ogv" : { "count" : 1 } } }