pyspark

Buscar fila máxima por grupo en Spark DataFrame

Estoy tratando de usar marcos de datos de Spark en lugar de RDDs, ya que parecen ser de más alto nivel que RDDs y tienden a p ... , Row(id_sa=a2, max_id_sb=b2)] Pero tal vez estoy tratando de usar la herramienta equivocada y debería volver a usar RDDs.

Llamar a la función Java/Scala desde una tarea

Antecedentes Mi pregunta original aquí fue ¿Por qué usar DecisionTreeModel.predict dentro de la función de mapa plantea un ... clases Spark a través de Conversiones implícitas o agregando algún tipo de envoltorios usando la pasarela Py4j directamente

Unir dos marcos de datos, seleccionar todas las columnas de una y algunas columnas de la otra

Digamos que tengo un marco de datos spark df1, con varias columnas (entre las cuales la columna 'id') y un marco de datos df2 ... plementar esta combinación en una función y no quiero que me obliguen a tener SQLContext como parámetro de función. Gracias!

Cómo establecer valores de configuración de hadoop desde pyspark

La versión Scala de SparkContext tiene la propiedad sc.hadoopConfiguration Lo he usado con éxito para establecer las propi ... guna forma de establecer valores de configuración de Hadoop en la Configuración de Hadoop utilizada por el contexto PySpark?

Spark RDD-Mapeo con argumentos adicionales

¿Es posible pasar argumentos adicionales a la función de asignación en pySpark? Específicamente, tengo la siguiente receta d ... def processDataLine(dataline, arg1, arg2) ¿Cómo puedo pasar los argumentos adicionales arg1 y arg2 a la función flaMap?

Eliminar duplicados de filas basados en columnas específicas en un DataFrame RDD/Spark

Digamos que tengo un conjunto de datos bastante grande en la siguiente forma: data = sc.parallelize([('Foo',41,'US',3), ... En Python, esto podría hacerse especificando columnas con .drop_duplicates(). ¿Cómo puedo lograr lo mismo en Spark/Pyspark?

pyspark recoger conjunto o recoger lista con groupby

¿Cómo puedo usar collect_set o collect_list en un dataframe después de groupby. por ejemplo: df.groupby('key').collect_set('values'). Me sale un error: AttributeError: 'GroupedData' object has no attribute 'collect_set'

Cuente el número de entradas no NaN en cada columna de Spark dataframe con Pyspark

Tengo un conjunto de datos muy grande que se carga en la colmena. Consta de alrededor de 1,9 millones de filas y 1450 column ... puedo usar pandas, ya que actualmente no está disponible en el clúster en el que trabajo y no tengo derechos para instalarlo.

Cómo derretir Spark DataFrame?

¿Hay un equivalente de la función Pandas Melt en Apache Spark en PySpark o al menos en Scala? Estaba ejecutando un conjunto de datos de muestra hasta ahora en python y ahora quiero usar Spark para todo el conjunto de datos. Gracias de antemano.

¿Cómo divido un RDD en dos o más RDD?

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto es Scala Spark: ¿Dividir la colecci ... tó en dos conjuntos de datos distintos. Tendría que ser persistido inmediatamente para obtener los resultados que pretendo...

Spark DataFrame groupBy y ordenar en orden descendente (pyspark)

Estoy usando pyspark(Python 2.7.9/Spark 1.3.1) y tengo un GroupObject de dataframe que necesito filtrar y ordenar en orden de ... 10").sort('count', ascending=False) Pero arroja el siguiente error. sort() got an unexpected keyword argument 'ascending'

ERROR de spark extraño en AWS EMR

Tengo un script PySpark realmente simple que crea un dataframe a partir de algunos datos de parquet en S3 y luego llama al mé ... Me devolvieron el conteo con éxito. Solo me pregunto si alguien sabe por qué sucede esto y cómo deshacerse de él. Gracias

Pyspark: Dividir múltiples columnas de matriz en filas

Tengo un dataframe que tiene una fila y varias columnas. Algunas de las columnas son valores individuales y otras son listas. ... l dataframe, pero eso tampoco parece funcionar: df_split = df.rdd.map(lambda col: df.withColumn(col, explode(col))).toDF()

Remodelación / pivote de datos en marcos de datos Spark RDD y / o Spark

Tengo algunos datos en el siguiente formato (ya sea RDD o Spark DataFrame): from pyspark.sql import SQLContext sqlContext = ... tir Python .pivot() ¿en una función invocable mientras se mapea un RDD o un DataFrame Spark? Cualquier ayuda sería apreciada!

Filtrar DataFrame usando la longitud de una columna

Quiero filtrar un DataFrame usando una condición relacionada con la longitud de una columna, esta pregunta podría ser muy fác ... . Leí la Documentación de la columna, pero no encontré ninguna propiedad útil para este asunto. Agradezco cualquier ayuda!