rdd

Diferencia entre DataFrame (en Spark 2.0 es decir, Conjunto de datos [Fila]) y RDD en Spark

Me pregunto cuál es la diferencia entre un RDD y DataFrame (Spark 2.0.0 DataFrame es un mero alias de tipo para Dataset[Row]) ¿en Apache Spark? ¿Se puede convertir uno a otro?

Cómo convertir un objeto rdd a dataframe en spark

Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un Dataframe org.apache.spark.sql.DataFrame. Convertí un dataframe a rdd usando .rdd. Después de procesarlo, lo quiero de vuelta en dataframe. ¿Cómo puedo hacer esto ?

Apache Spark: map vs mapPartitions?

¿Cuál es la diferencia entre un RDD map y mapPartitions método? ¿Y flatMap se comporta como map o como mapPartitions? Graci ... A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.map(fn) }

¿Cómo funciona HashPartitioner?

He leído sobre la documentación de HashPartitioner. Desafortunadamente, no se explicó mucho, excepto por las llamadas a la AP ... new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) Entonces, ¿cómo funciona HashPartitioner en realidad?

¿Qué operaciones conservan el orden RDD?

RDD tiene un significativo (a diferencia de algún orden aleatorio impuesto por el modelo de almacenamiento) si fue procesado ... cir, no hay manera para distinguir el resultado utilizando operaciones a nivel de usuario (es decir, sin leer registros y c).

Spark lee el archivo desde S3 usando sc.textFile ("s3n://…)

Tratando de leer un archivo ubicado en S3 usando spark-shell: scala> val myRdd = sc.textFile("s3n://myBucket/myFile1.log ... para Hadoop 2.60, como parece sugerir este post . Voy a probar Spark para Hadoop 2.40 para ver si esto resuelve el problema.

Spark especificar múltiples condiciones de columna para la unión de dataframe

Cómo dar más condiciones de columna al unir dos dataframes. Por ejemplo, quiero ejecutar lo siguiente: val Lead_all = Leads ... as coincidan. Pero la sintaxis anterior no es válida ya que cols solo toma una cadena. Entonces, ¿cómo consigo lo que quiero?

Cómo leer de hbase usando spark

El siguiente código leerá desde la hbase, luego lo convertirá a la estructura json y lo convertirá a schemaRDD , pero el prob ... ; System.out.println(schemaRDD.take(2)); } finally { table.close(); } } }

reduceByKey: ¿Cómo funciona internamente?

Soy nuevo en Spark y Scala. Estaba confundido sobre la forma en que la función reduceByKey funciona en Spark. Supongamos que ... internamente? ¿"a" apunta a la clave? Alternativamente, ¿"a" apunta a "s"? Entonces, ¿qué representa a + b? ¿cómo se llenan?

Concatenación de conjuntos de datos de diferentes RDD en Apache spark usando scala

¿Hay una manera de concatenar conjuntos de datos de dos RDD s diferentes en spark? El requisito es - Creo dos RDDs intermed ... o para acceder a la interfaz de usuario. ¿Cómo combino los conjuntos de datos aquí? Los RDD son de tipo spark.sql.SchemaRDD

Spark RDD-Mapeo con argumentos adicionales

¿Es posible pasar argumentos adicionales a la función de asignación en pySpark? Específicamente, tengo la siguiente receta d ... def processDataLine(dataline, arg1, arg2) ¿Cómo puedo pasar los argumentos adicionales arg1 y arg2 a la función flaMap?

Qué es RDD en spark

La definición dice: RDD es una colección distribuida inmutable de objetos No entiendo muy bien lo que significa. ¿Es ... or Estoy realmente confundido entendiendo RDD en general y en relación con spark y hadoop. Puede alguien por favor ayudar.

Spark: Manera eficiente de probar si un RDD está vacío

No hay un método isEmpty en los RDD, así que ¿cuál es la forma más eficiente de probar si un RDD está vacío?

¿Cómo divido un RDD en dos o más RDD?

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto es Scala Spark: ¿Dividir la colecci ... tó en dos conjuntos de datos distintos. Tendría que ser persistido inmediatamente para obtener los resultados que pretendo...

Cómo obtener un elemento por índice en Spark RDD (Java)

Conozco el método rdd.first () que me da el primer elemento en un RDD. También existe el método rdd.toma (num) Que me da los primeros elementos "num". ¿Pero no existe la posibilidad de obtener un elemento por índice? Gracias.

¿Cómo selecciono un rango de elementos en Spark RDD?

Me gustaría seleccionar un rango de elementos en un RDD de Spark. Por ejemplo, tengo un RDD con cien elementos, y necesito se ... hay un método correspondiente para tomar los últimos elementos i, o elementos i desde el medio a partir de un cierto índice.