mapreduce

Buenos ejemplos de MapReduce [cerrado]

No se me ocurrió ningún buen ejemplo aparte de la tarea "cómo contar palabras en un texto largo con MapReduce". Descubrí que ... impresión de lo poderosa que puede ser esta herramienta. No estoy buscando fragmentos de código, solo ejemplos "textuales".

mapreduce

Java8: HashMap a HashMap usando Stream / Map-Reduce / Collector

Sé cómo "transformar" un simple Java List desde Y -> Z, es decir: List<String> x; List<Integer> y = x.stream ... arse a String -> Integer. Al igual que en el ejemplo List anterior, me gustaría llamar a cualquier método (o constructor).

java java-8 java-stream collectors mapreduce

¿Cómo se dividen los registros de proceso de Hadoop a través de los límites de bloques?

Según el Hadoop - The Definitive Guide Los registros lógicos que FileInputFormats definen no suelen encajar perfectament ... segundo bloque (b2) que el primer registro está incompleto y debe procesarse a partir del segundo registro en el bloque (b2)?

split mapreduce hadoop block hdfs

¿Cómo funciona el algoritmo de ordenación MapReduce?

Uno de los ejemplos principales que se utiliza para demostrar el poder de MapReduce es el Terasort benchmark. Estoy teniendo ... onces, ¿cómo se hace esto realmente? ¿Cómo funciona este algoritmo de ordenación MapReduce? Gracias por ayudarme a entender.

algorithm sorting parallel-processing mapreduce hadoop

El nodo Nombre está en modo seguro. No poder salir

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/r ... Lo hice root# bin/hadoop fs -safemode leave Pero mostrando safemode: Unknown command ¿Cuál es el problema? Solución

mapreduce hadoop

combinar archivos de salida después de reducir la fase

En mapreduce cada tarea reduce escribe su salida en un archivo llamado part-r-nnnnn donde nnnnn es un ID de partición asociado con la tarea reduce. ¿mapea/reduce combina estos archivos? Si es así, ¿cómo?

mapreduce hadoop

Qué es Map / Reduce?

Escucho mucho sobre map/reduce, especialmente en el contexto del sistema de cómputo paralelo masivo de Google. ¿Qué es exactamente?

language-agnostic mapreduce

Integration testing Hive jobs

Estoy tratando de escribir un trabajo de Colmena no trivial usando las interfaces Hive Thrift y JDBC, y estoy teniendo proble ... . El problema, como se ha dicho, es que esta no es una solución viable para probar eficazmente los flujos de trabajo de Hive.

java testing mapreduce hadoop hive

Equivalente al Procedimiento Almacenado de MongoDB

Tengo un archivo CSV grande que contiene una lista de tiendas, en la que uno de los campos es ZipCode. Tengo una base de dato ... nda y guardar eso también. No estoy muy familiarizado con el concepto de Mapa/Reducir, pero ¿sería relevante aquí? ¡Gracias!

mongodb stored-procedures geolocation mapreduce

¿Cuándo comienza reducir tareas en Hadoop?

En Hadoop ¿cuándo comienzan las tareas de reducción? ¿Comienzan después de que se complete un cierto porcentaje (umbral) de mapeadores? En caso afirmativo, ¿se ha fijado este umbral? ¿Qué tipo de umbral se utiliza normalmente?

reduce mapreduce hadoop

Contar líneas en archivos grandes

Comúnmente trabajo con archivos de texto de ~20 Gb de tamaño y me encuentro contando el número de líneas en un archivo dado m ... ea tan simple como ejecutar una línea, como la solución wc -l, pero no estoy seguro de cuán factible sea ser. ¿Alguna idea?

linux mapreduce

El contenedor se está ejecutando más allá de los límites de memoria

En Hadoop v1, he asignado cada ranura de mapeador y reductor de 7 con un tamaño de 1 GB, mis mapeadores y reductores funciona ... o. El problema es cómo puedo asegurarme de que a cada contenedor no se le asignen más divisiones de las que pueda manejar.

mapreduce hadoop yarn mrv2

Buscar todos los documentos duplicados en una colección MongoDB por un campo clave

Supongamos que tengo una colección con algún conjunto de documentos. algo como esto. { "_id" : ObjectId("4f127fa55e724271820 ... entradas duplicadas en esta colección por el campo "nombre". Por ejemplo, " foo "aparece dos veces y" bar " aparece 3 veces.

mongodb duplicates aggregation-framework mapreduce

Qué es Hive: Devuelve el código 2 de org.apache.hadoop.colmena.ql.exec.MapRedTask

Estoy recibiendo: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Al intentar hacer ... ob = job_201206191101_4557 with errors FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask

mapreduce hadoop hive

Explota la matriz de Struct en la colmena

Esta es la siguiente Tabla de Colmenas CREATE EXTERNAL TABLE IF NOT EXISTS SampleTable ( USER_ID BIGINT, NEW_ITEM ARRAY<S ... _item.timestamps) myTable2 AS myCol2; ¿Puede alguien ayudarme qué mal estoy haciendo? Cualquier sugerencia será apreciada.

mapreduce hadoop hive hiveql

Qué son los archivos SUCCESS y part-r-00000 en hadoop

Aunque uso Hadoop con frecuencia en mi máquina Ubuntu, nunca he pensado en los archivos SUCCESS y part-r-00000. La salida sie ... chivo de salida tiene el nombre part-r-0000? ¿Hay alguna significación / nomenclatura o se trata de una definición aleatoria?

mapreduce hadoop

Hadoop un mapa y reducción múltiple

Tenemos un conjunto de datos grande para analizar con múltiples funciones reduce. All reduce el algoritmo trabaja en el mi ... ciones reduce. ¿Puedo hacer esto con Hadoop? He buscado los ejemplos y el intarweb pero no pude encontrar ninguna solución.

mapreduce hadoop

La mejor manera de hacer uno a muchos "UNIRSE" en CouchDB

Estoy buscando un CouchDB equivalente a "SQL joins". En mi ejemplo hay documentos CouchDB que son elementos de lista: { "t ... puede cambiar. EDITAR: No te pierdas el comentario de JasonSmith a su respuesta, donde describe cómo hacer esto más corto.

couchdb mapreduce

compatibilidad con gzip en Spark

Para un proyecto de Big Data, estoy planeando usar spark, que tiene algunas características agradables como cálculos en memo ... mente la lectura de archivos comprimidos con gzip o ya está descomprimiendo se realiza automáticamente al leer a .gz archivo?

java scala apache-spark gzip mapreduce

En MongoDB mapreduce, ¿cómo puedo aplanar el objeto values?

Estoy tratando de usar MongoDB para analizar los archivos de registro de Apache. He creado una colección receipts a partir de ... "count" : 3 }, "/videos/6/buffers_listed_and_hidden.ogv" : { "count" : 1 } } }

mongodb mapreduce