pyspark-sql

Cómo cambiar los nombres de columna de dataframe en pyspark?

Vengo del fondo de pandas y estoy acostumbrado a leer datos de archivos CSV en un dataframe y luego simplemente cambiar los n ... alizado. ¿Hay una manera mejor y más eficiente de hacer esto como lo hacemos en los pandas ? Mi versión de spark es 1.5.0

Cómo hacer buenos ejemplos de marcos de datos Apache Spark reproducibles

He estado pasando una buena cantidad de tiempo leyendo algunas preguntas con las etiquetas pyspark y spark-dataframe y muy ... rame de esta pregunta de pandas como una guía que se pueda vincular. Entonces, ¿cómo se crea un buen ejemplo reproducible?

Unir dos marcos de datos, seleccionar todas las columnas de una y algunas columnas de la otra

Digamos que tengo un marco de datos spark df1, con varias columnas (entre las cuales la columna 'id') y un marco de datos df2 ... plementar esta combinación en una función y no quiero que me obliguen a tener SQLContext como parámetro de función. Gracias!