Subir una lista para seleccionar varias columnas de un marco de datos de spark


Tengo un marco de datos spark df. ¿Hay alguna forma de sub-seleccionar algunas columnas usando una lista de estas columnas?

scala> df.columns
res0: Array[String] = Array("a", "b", "c", "d")

Sé que puedo hacer algo como df.select("b", "c"). Pero supongamos que tengo una lista que contiene algunos nombres de columna val cols = List("b", "c"), hay una manera de pasar esto a df.¿seleccionar? df.select(cols) lanza un error. Algo así como df.select(*cols) como en python

Author: Prasad Khode, 2016-01-22

5 answers

Use df.select(cols.head, cols.tail: _*)

Avísame si funciona:)

Explicación de @Ben:

La clave es la firma del método select:

select(col: String, cols: String*)

La entrada cols:String* toma un número variable de argumentos. :_* descomprime argumentos para que puedan ser manejados por este argumento. Muy similar a desempaquetar en python con *args. Ver aquí y aquí para otros ejemplos.

 58
Author: Shagun Sodhani,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-10-29 21:31:56

Puede encasillar la cadena a la columna spark de la siguiente manera:

import org.apache.spark.sql.functions._
df.select(cols.map(col): _*)
 17
Author: Kshitij Kulshrestha,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2016-07-12 05:58:39

Otra opción que acabo de aprender.

import org.apache.spark.sql.functions.col
val columns = Seq[String]("col1", "col2", "col3")
val colNames = columns.map(name => col(name))
val df = df.select(colNames:_*)
 14
Author: vEdwardpc,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2016-10-01 20:33:35

Puede pasar argumentos de tipo Column* a select:

val df = spark.read.json("example.json")
val cols: List[String] = List("a", "b")
//convert string to Column
val col: List[Column] = cols.map(df(_))
df.select(col:_*)
 1
Author: raam86,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-01-16 13:41:07

Puedes hacer así

String[] originCols = ds.columns();
ds.selectExpr(originCols)

Código fuente de Spark selectExp

     /**
   * Selects a set of SQL expressions. This is a variant of `select` that accepts
   * SQL expressions.
   *
   * {{{
   *   // The following are equivalent:
   *   ds.selectExpr("colA", "colB as newName", "abs(colC)")
   *   ds.select(expr("colA"), expr("colB as newName"), expr("abs(colC)"))
   * }}}
   *
   * @group untypedrel
   * @since 2.0.0
   */
  @scala.annotation.varargs
  def selectExpr(exprs: String*): DataFrame = {
    select(exprs.map { expr =>
      Column(sparkSession.sessionState.sqlParser.parseExpression(expr))
    }: _*)
  }
 0
Author: geosmart,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-05-10 06:21:27