¿Cómo evitar que los ejecutores de Spark se pierdan al usar el modo cliente de YARN?


Hola tengo un trabajo de Spark que se ejecuta bien localmente con menos datos, pero cuando lo programo en YARN para ejecutar sigo recibiendo el siguiente ERROR y lentamente todos los ejecutores se eliminan de la interfaz de usuario y mi trabajo falla

15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 8 on myhost1.com: remote Rpc client disassociated
15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 6 on myhost2.com: remote Rpc client disassociated

Utilizo el siguiente comando para programar el trabajo de spark en modo yarn-client

 ./spark-submit --class com.xyz.MySpark --conf "spark.executor.extraJavaOptions=-XX:MaxPermSize=512M" --driver-java-options -XX:MaxPermSize=512m --driver-memory 3g --master yarn-client --executor-memory 2G --executor-cores 8 --num-executors 12  /home/myuser/myspark-1.0.jar

No sé cuál es el problema por favor guía. Soy nuevo en Spark. Gracias de antemano.

Author: Antoine, 2015-07-30

2 answers

Tuve un problema muy similar. Tenía muchos ejecutores perdidos sin importar cuánta memoria les asignamos.

La solución si estás usando yarn fue establecer --conf spark.yarn.executor.memoryOverhead=600, alternativamente si tu clúster usa mesos puedes probar --conf spark.mesos.executor.memoryOverhead=600 en su lugar.

En spark 2.3.1 + la opción de configuración es ahora --conf spark.yarn.executor.memoryOverhead=600

Parece que no estábamos dejando suficiente memoria para el HILO en sí y los contenedores estaban siendo asesinados debido a ello. Después de establecer que hemos tenido diferentes fuera de la memoria errores, pero no el mismo problema de ejecutor perdido.

 26
Author: whaleberg,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-09-19 15:27:02

Yo también estaba enfrentando el mismo problema. Para mí la eliminación de registros y liberar más espacio hdfs trabajado.

 -3
Author: Karn_way,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-04-24 10:24:03