apache-spark-mllib
Forma óptima de crear una canalización de ml en Apache Spark para conjuntos de datos con un gran número de columnas
Estoy trabajando con Spark 2.1.1 en un conjunto de datos con ~2000 características y tratando de crear una tubería de ML bási ... argo, se lanza la misma excepción.
Además de eso, establecer spark.sql.codegen.wholeStage a false no resuelve el problema.
Cómo asignar números contiguos únicos a elementos en un RDD de Spark
Tengo un conjunto de datos de (user, product, review), y quiero introducirlo en el algoritmo ALS de mllib.
El algoritmo nece ... o enfoque que he pensado es escribir un RDD personalizado que esencialmente enumere 1 a n, luego llame a zip on los dos RDDs.
Llamar a la función Java/Scala desde una tarea
Antecedentes
Mi pregunta original aquí fue ¿Por qué usar DecisionTreeModel.predict dentro de la función de mapa plantea un ... clases Spark a través de Conversiones implícitas o agregando algún tipo de envoltorios
usando la pasarela Py4j directamente