spark-dataframe

Diferencia entre DataFrame (en Spark 2.0 es decir, Conjunto de datos [Fila]) y RDD en Spark

Me pregunto cuál es la diferencia entre un RDD y DataFrame (Spark 2.0.0 DataFrame es un mero alias de tipo para Dataset[Row]) ¿en Apache Spark? ¿Se puede convertir uno a otro?

Cómo convertir un objeto rdd a dataframe en spark

Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un Dataframe org.apache.spark.sql.DataFrame. Convertí un dataframe a rdd usando .rdd. Después de procesarlo, lo quiero de vuelta en dataframe. ¿Cómo puedo hacer esto ?

Cómo seleccionar la primera fila de cada grupo?

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") ... -------+ Podría ser útil poder seleccionar las N filas superiores de cada grupo también. Cualquier ayuda es muy apreciada.

¿Cómo agrego una nueva columna a un DataFrame de Spark (usando PySpark)?

Tengo un DataFrame de Spark (usando PySpark 1.5.1) y me gustaría agregar una nueva columna. He intentado lo siguiente sin ni ... andomed_hours)) Entonces, ¿cómo agrego una nueva columna (basada en el vector Python) a un DataFrame existente con PySpark?

Extraer valores de columna de Dataframe como Lista en Apache Spark

Me gustaría convertir una columna de cadena de un dataframe a una lista. Lo que puedo encontrar de la API Dataframe es RDD, a ... de convertir una columna en una lista o una forma de eliminar los corchetes. Cualquier sugerencia sería apreciar. ¡Gracias!

¿Cómo agregar una columna constante en un DataFrame de Spark?

Quiero agregar una columna en un DataFrame con algún valor arbitrario (que es el mismo para cada fila). Obtengo un error cuan ... 1, dt=4809600.0, new_column=10)] Esto es supremamente hacky, ¿verdad? Supongo que hay una forma más legítima de hacer esto?

Actualización de una columna dataframe en spark

Mirando la nueva api de spark dataframe, no está claro si es posible modificar las columnas de dataframe. ¿Cómo cambiaría u ... a anterior, puede agregar el paso adicional: df = df.drop('update_col').withColumnRenamed('new_column_name', 'update_col')

SparkSQL: aplicar funciones agregadas a una lista de columnas

¿Hay una manera de aplicar una función aggregate a todas (o a una lista de) columnas de un dataframe, al hacer un groupBy? E ... e evitar hacer esto para cada columna: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

Spark Dataframe distinguir columnas con nombre duplicado

Así que como sé en Spark Dataframe, que para varias columnas puede tener el mismo nombre como se muestra en la siguiente inst ... guir las columnas de los nombres duplicados de nuevo? ¿o tal vez alguna forma de dejarme cambiar los nombres de las columnas?

Cómo hacer buenos ejemplos de marcos de datos Apache Spark reproducibles

He estado pasando una buena cantidad de tiempo leyendo algunas preguntas con las etiquetas pyspark y spark-dataframe y muy ... rame de esta pregunta de pandas como una guía que se pueda vincular. Entonces, ¿cómo se crea un buen ejemplo reproducible?

Convertir spark DataFrame column a python list

Trabajo en un dataframe con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 ... lect() firstvalue = mvv_list[0].getInt(0) Pero recibo un mensaje de error con la segunda línea: AttributeError: getInt

Obtener el número actual de particiones de un DataFrame

¿Hay alguna forma de obtener el número actual de particiones de un DataFrame? Revisé el DataFrame javadoc (spark 1.6) y no encontré un método para eso, o simplemente me lo perdí? (En el caso de JavaRDD hay un método getNumPartitions ().)

Buscar fila máxima por grupo en Spark DataFrame

Estoy tratando de usar marcos de datos de Spark en lugar de RDDs, ya que parecen ser de más alto nivel que RDDs y tienden a p ... , Row(id_sa=a2, max_id_sb=b2)] Pero tal vez estoy tratando de usar la herramienta equivocada y debería volver a usar RDDs.

Subir una lista para seleccionar varias columnas de un marco de datos de spark

Tengo un marco de datos spark df. ¿Hay alguna forma de sub-seleccionar algunas columnas usando una lista de estas columnas? ... ay una manera de pasar esto a df.¿seleccionar? df.select(cols) lanza un error. Algo así como df.select(*cols) como en python

Cómo convertir DataFrame a RDD en Scala?

¿Puede alguien por favor compartir cómo se puede convertir un dataframe a un RDD?

Spark: Añadir columna al dataframe condicionalmente

Estoy tratando de tomar mis datos de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3 Y ... ner que escribir una consulta SQL dentro de Scala. He intentado .withColumn, pero no puedo conseguir que haga lo que quiero.

cómo filtrar un valor nulo de spark dataframe

He creado un dataframe en spark con el siguiente esquema: root |-- user_id: long (nullable = false) |-- event_id: long (nu ... ent_owner", ($"friend_id" != null)?1:0) Este código tampoco funciona. ¿Alguien puede decirme cómo puedo arreglarlo? Gracias

Sobrescribir particiones específicas en el método de escritura de spark dataframe

Quiero sobrescribir particiones específicas en lugar de todas en spark. Estoy intentando el siguiente comando: df.write.orc( ... obrescribir solo aquellas particiones presentes en df en la ruta hdfs especificada. Puede alguien por favor, ayúdame en esto.

Spark DataFrame groupBy y ordenar en orden descendente (pyspark)

Estoy usando pyspark(Python 2.7.9/Spark 1.3.1) y tengo un GroupObject de dataframe que necesito filtrar y ordenar en orden de ... 10").sort('count', ascending=False) Pero arroja el siguiente error. sort() got an unexpected keyword argument 'ascending'

Filtrar DataFrame usando la longitud de una columna

Quiero filtrar un DataFrame usando una condición relacionada con la longitud de una columna, esta pregunta podría ser muy fác ... . Leí la Documentación de la columna, pero no encontré ninguna propiedad útil para este asunto. Agradezco cualquier ayuda!