apache-spark-mllib

Forma óptima de crear una canalización de ml en Apache Spark para conjuntos de datos con un gran número de columnas

Estoy trabajando con Spark 2.1.1 en un conjunto de datos con ~2000 características y tratando de crear una tubería de ML bási ... argo, se lanza la misma excepción. Además de eso, establecer spark.sql.codegen.wholeStage a false no resuelve el problema.

Cómo asignar números contiguos únicos a elementos en un RDD de Spark

Tengo un conjunto de datos de (user, product, review), y quiero introducirlo en el algoritmo ALS de mllib. El algoritmo nece ... o enfoque que he pensado es escribir un RDD personalizado que esencialmente enumere 1 a n, luego llame a zip on los dos RDDs.

Llamar a la función Java/Scala desde una tarea

Antecedentes Mi pregunta original aquí fue ¿Por qué usar DecisionTreeModel.predict dentro de la función de mapa plantea un ... clases Spark a través de Conversiones implícitas o agregando algún tipo de envoltorios usando la pasarela Py4j directamente