hadoop

¿Cuál es la diferencia entre Apache Spark y Apache Flink? [cerrado]

¿cuáles son las diferencias entre Apache Spark y Apache Flink? Will Apache Flinkreplace Hadoop?

Advertencia de Hadoop "No se puede cargar la biblioteca nativa de hadoop para su plataforma"

Actualmente estoy configurando hadoop en un servidor que ejecuta CentOS. Cuando corro start-dfs.sh o stop-dfs.sh, obtengo el ... al / hadoop/lib / " Export HADOOP_COMMON_LIB_NATIVE_DIR= "/ usr / local / hadoop / lib / native / " Cualquiera ideas?

java linux hadoop hadoop2 nativelibrary

Diferencia entre HBase y Hadoop / HDFS

Esta es una pregunta ingenua, pero soy nuevo en el paradigma NoSQL y no sé mucho al respecto. Así que si alguien puede ayudar ... o de datos. Hbase proporciona una capa lógica sobre HDFS al igual que SQL. Es correcto? Pls no dude en corregirme. Gracias.

nosql difference hadoop hbase hdfs

¿Cómo desactivar el registro de INFORMACIÓN en Spark?

Instalé Spark usando la guía AWS EC2 y puedo iniciar el programa bien usando el script bin/pyspark para llegar al prompt de s ... x=y") # - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers export SPARK_SUBMIT_CLASSPATH="$FWDIR/conf"

python apache-spark hadoop pyspark yarn

Spark-cargar archivo CSV como DataFrame?

Me gustaría leer un CSV en spark y convertirlo como DataFrame y almacenarlo en HDFS con df.registerTempTable("table_name") ... run(ForkJoinWorkerThread.java:107) ¿Cuál es el comando correcto para cargar un archivo CSV como DataFrame en Apache Spark?

scala apache-spark hadoop hdfs apache-spark-sql

Procesamiento de datos a gran escala Hbase vs Cassandra [cerrado]

Casi aterrizo en Cassandra después de mi investigación sobre soluciones de almacenamiento de datos a gran escala. Pero en gen ... ras y sin punto de falla características. Y también mantiene la función de índice secundario por lo que es una buena ventaja.

nosql cassandra hadoop hbase data-processing

¿Cómo se dividen los registros de proceso de Hadoop a través de los límites de bloques?

Según el Hadoop - The Definitive Guide Los registros lógicos que FileInputFormats definen no suelen encajar perfectament ... segundo bloque (b2) que el primer registro está incompleto y debe procesarse a partir del segundo registro en el bloque (b2)?

split mapreduce hadoop block hdfs

¿Cómo funciona el algoritmo de ordenación MapReduce?

Uno de los ejemplos principales que se utiliza para demostrar el poder de MapReduce es el Terasort benchmark. Estoy teniendo ... onces, ¿cómo se hace esto realmente? ¿Cómo funciona este algoritmo de ordenación MapReduce? Gracias por ayudarme a entender.

algorithm sorting parallel-processing mapreduce hadoop

El nodo Nombre está en modo seguro. No poder salir

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/r ... Lo hice root# bin/hadoop fs -safemode leave Pero mostrando safemode: Unknown command ¿Cuál es el problema? Solución

mapreduce hadoop

combinar archivos de salida después de reducir la fase

En mapreduce cada tarea reduce escribe su salida en un archivo llamado part-r-nnnnn donde nnnnn es un ID de partición asociado con la tarea reduce. ¿mapea/reduce combina estos archivos? Si es así, ¿cómo?

mapreduce hadoop

Cómo copiar archivos de HDFS al sistema de archivos local

Cómo copiar archivos de HDFS al sistema de archivos local . No hay una ubicación física de un archivo debajo del archivo, ni siquiera un directorio . ¿cómo puedo moverlos a mi local para más validaciones.estoy probado a través de winscp .

copy hadoop hdfs

Diferencia entre las tablas internas de Hive y las tablas externas?

Puede alguien decirme la diferencia entre la tabla externa de Hive y las tablas internas. Sé que la diferencia viene cuando s ... as internas y solo los metadatos se eliminan en las tablas externas. Puede alguien explicarme en términos de nodos por favor.

hadoop hive hiveql

Integration testing Hive jobs

Estoy tratando de escribir un trabajo de Colmena no trivial usando las interfaces Hive Thrift y JDBC, y estoy teniendo proble ... . El problema, como se ha dicho, es que esta no es una solución viable para probar eficazmente los flujos de trabajo de Hive.

java testing mapreduce hadoop hive

¿Dónde almacena Hive archivos en HDFS?

Me gustaría saber cómo encontrar la asignación entre las tablas Hive y los archivos HDFS reales (o más bien, directorios) que representan. Necesito acceder a los archivos de la tabla directamente. ¿Dónde almacena Hive sus archivos en HDFS?

hadoop hdfs hive

¿Cuáles son los pros y los contras del formato de parquet en comparación con otros formatos?

Las características de Apache Parquet son: Autodescripción Formato columnar Independiente del lenguaje En comparación ... cceso a los datos y el almacenamiento de datos en cada uno de estos formatos. Cómo parquet tiene una ventaja sobre el ¿otros?

file hadoop avro hdfs parquet

Diferencias entre Amazon S3 y S3n en Hadoop

Cuando conecté mi clúster de Hadoop a Amazon storage y descargé archivos a HDFS, descubrí que s3:// no funcionaba. Al buscar ... Cuando usé S3n funcionó. No entiendo las diferencias entre usar S3 y S3n con mi clúster de Hadoop, ¿puede alguien explicarme?

amazon-s3 hadoop hdfs

Error de Memoria en Hadoop

He intentado instalar Hadoop después de esto http://hadoop.apache.org/common/docs/stable/single_node_setup.html documento. ... .java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.util.RunJar.main(RunJar.java:156)

java hadoop

¿Cómo conocer las versiones de Hive y Hadoop desde el símbolo del sistema?

¿Cómo puedo encontrar qué versión de la colmena estoy usando desde el símbolo del sistema? A continuación se muestran los de ... nera de que desde el símbolo del sistema pueda encontrar qué versión de la colmena estoy usando ¿y la versión Hadoop también?

hadoop hive

Buiding Hadoop with Eclipse / Maven-Missing artifact jdk.herramientas:jdk.herramientas:jar:1.6

Estoy tratando de importar la organización de cloudera.apache.hadoop: hadoop-cliente: 2.0.0-cdh4.0.0 desde cdh4 maven repo ... específico, maven afirma que falta el siguiente artefacto Missing artifact jdk.tools:jdk.tools:jar:1.6 Cómo resolver esto?

maven java maven-2 hadoop cloudera

Java vs Python en Hadoop

Estoy trabajando en un proyecto que utiliza Hadoop y parece incorporar de forma nativa Java y proporcionar soporte de streami ... ano en el proceso donde puedo ir de cualquier manera si hay una diferencia significativa de rendimiento de una manera u otra.

java python hadoop