apache-spark-dataset
Diferencia entre DataFrame (en Spark 2.0 es decir, Conjunto de datos [Fila]) y RDD en Spark
Me pregunto cuál es la diferencia entre un RDD y DataFrame (Spark 2.0.0 DataFrame es un mero alias de tipo para Dataset[Row]) ¿en Apache Spark?
¿Se puede convertir uno a otro?
¿Cómo almacenar objetos personalizados en Dataset?
De acuerdo con La introducción de conjuntos de datos Spark :
Mientras esperamos Spark 2.0, planeamos algunas mejoras in ... entrada para una respuesta Wiki de la Comunidad. Siéntase libre de actualizar / mejorar tanto la pregunta como la respuesta.
Error del codificador al intentar asignar la fila del marco de datos a la fila actualizada
Cuando estoy tratando de hacer lo mismo en mi código como se menciona a continuación
dataframe.map(row => {
val row1 = ... chispa.im plicits._ Soporte para serializar otros tipos se
se añadirán en el futuro lanzar.
Nota: estoy usando spark 2.0!