hadoop

¿Cuál es la diferencia entre Apache Spark y Apache Flink? [cerrado]

¿cuáles son las diferencias entre Apache Spark y Apache Flink? Will Apache Flinkreplace Hadoop?

Advertencia de Hadoop "No se puede cargar la biblioteca nativa de hadoop para su plataforma"

Actualmente estoy configurando hadoop en un servidor que ejecuta CentOS. Cuando corro start-dfs.sh o stop-dfs.sh, obtengo el ... al / hadoop/lib / " Export HADOOP_COMMON_LIB_NATIVE_DIR= "/ usr / local / hadoop / lib / native / " Cualquiera ideas?

Diferencia entre HBase y Hadoop / HDFS

Esta es una pregunta ingenua, pero soy nuevo en el paradigma NoSQL y no sé mucho al respecto. Así que si alguien puede ayudar ... o de datos. Hbase proporciona una capa lógica sobre HDFS al igual que SQL. Es correcto? Pls no dude en corregirme. Gracias.

¿Cómo desactivar el registro de INFORMACIÓN en Spark?

Instalé Spark usando la guía AWS EC2 y puedo iniciar el programa bien usando el script bin/pyspark para llegar al prompt de s ... x=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"

Spark-cargar archivo CSV como DataFrame?

Me gustaría leer un CSV en spark y convertirlo como DataFrame y almacenarlo en HDFS con df.registerTempTable("table_name") ... run(ForkJoinWorkerThread.java:107) ¿Cuál es el comando correcto para cargar un archivo CSV como DataFrame en Apache Spark?

Procesamiento de datos a gran escala Hbase vs Cassandra [cerrado]

Casi aterrizo en Cassandra después de mi investigación sobre soluciones de almacenamiento de datos a gran escala. Pero en gen ... ras y sin punto de falla características. Y también mantiene la función de índice secundario por lo que es una buena ventaja.

¿Cómo se dividen los registros de proceso de Hadoop a través de los límites de bloques?

Según el Hadoop - The Definitive Guide Los registros lógicos que FileInputFormats definen no suelen encajar perfectament ... segundo bloque (b2) que el primer registro está incompleto y debe procesarse a partir del segundo registro en el bloque (b2)?

¿Cómo funciona el algoritmo de ordenación MapReduce?

Uno de los ejemplos principales que se utiliza para demostrar el poder de MapReduce es el Terasort benchmark. Estoy teniendo ... onces, ¿cómo se hace esto realmente? ¿Cómo funciona este algoritmo de ordenación MapReduce? Gracias por ayudarme a entender.

El nodo Nombre está en modo seguro. No poder salir

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/r ... Lo hice root# bin/hadoop fs -safemode leave Pero mostrando safemode: Unknown command ¿Cuál es el problema? Solución

combinar archivos de salida después de reducir la fase

En mapreduce cada tarea reduce escribe su salida en un archivo llamado part-r-nnnnn donde nnnnn es un ID de partición asociado con la tarea reduce. ¿mapea/reduce combina estos archivos? Si es así, ¿cómo?

Cómo copiar archivos de HDFS al sistema de archivos local

Cómo copiar archivos de HDFS al sistema de archivos local . No hay una ubicación física de un archivo debajo del archivo, ni siquiera un directorio . ¿cómo puedo moverlos a mi local para más validaciones.estoy probado a través de winscp .

Diferencia entre las tablas internas de Hive y las tablas externas?

Puede alguien decirme la diferencia entre la tabla externa de Hive y las tablas internas. Sé que la diferencia viene cuando s ... as internas y solo los metadatos se eliminan en las tablas externas. Puede alguien explicarme en términos de nodos por favor.

Integration testing Hive jobs

Estoy tratando de escribir un trabajo de Colmena no trivial usando las interfaces Hive Thrift y JDBC, y estoy teniendo proble ... . El problema, como se ha dicho, es que esta no es una solución viable para probar eficazmente los flujos de trabajo de Hive.

¿Dónde almacena Hive archivos en HDFS?

Me gustaría saber cómo encontrar la asignación entre las tablas Hive y los archivos HDFS reales (o más bien, directorios) que representan. Necesito acceder a los archivos de la tabla directamente. ¿Dónde almacena Hive sus archivos en HDFS?

¿Cuáles son los pros y los contras del formato de parquet en comparación con otros formatos?

Las características de Apache Parquet son: Autodescripción Formato columnar Independiente del lenguaje En comparación ... cceso a los datos y el almacenamiento de datos en cada uno de estos formatos. Cómo parquet tiene una ventaja sobre el ¿otros?

Diferencias entre Amazon S3 y S3n en Hadoop

Cuando conecté mi clúster de Hadoop a Amazon storage y descargé archivos a HDFS, descubrí que s3:// no funcionaba. Al buscar ... Cuando usé S3n funcionó. No entiendo las diferencias entre usar S3 y S3n con mi clúster de Hadoop, ¿puede alguien explicarme?

Error de Memoria en Hadoop

He intentado instalar Hadoop después de esto http://hadoop.apache.org/common/docs/stable/single_node_setup.html documento. ... .java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.util.RunJar.main(RunJar.java:156)

¿Cómo conocer las versiones de Hive y Hadoop desde el símbolo del sistema?

¿Cómo puedo encontrar qué versión de la colmena estoy usando desde el símbolo del sistema? A continuación se muestran los de ... nera de que desde el símbolo del sistema pueda encontrar qué versión de la colmena estoy usando ¿y la versión Hadoop también?

Buiding Hadoop with Eclipse / Maven-Missing artifact jdk.herramientas:jdk.herramientas:jar:1.6

Estoy tratando de importar la organización de cloudera.apache.hadoop: hadoop-cliente: 2.0.0-cdh4.0.0 desde cdh4 maven repo ... específico, maven afirma que falta el siguiente artefacto Missing artifact jdk.tools:jdk.tools:jar:1.6 Cómo resolver esto?

Java vs Python en Hadoop

Estoy trabajando en un proyecto que utiliza Hadoop y parece incorporar de forma nativa Java y proporcionar soporte de streami ... ano en el proceso donde puedo ir de cualquier manera si hay una diferencia significativa de rendimiento de una manera u otra.