Apache Spark vs Apache Storm [cerrado]


¿cuáles son las diferencias entre Apache Spark y Apache Storm? ¿Cuáles son los casos de uso adecuados para cada uno?

Author: Peter Mortensen, 2014-06-09

1 answers

Apache Spark es una plataforma de análisis de datos distribuidos en memoria, dirigida principalmente a acelerar los trabajos de análisis por lotes, los trabajos de aprendizaje automático iterativo, las consultas interactivas y el procesamiento de gráficos.

Una de las principales distinciones de Spark es su uso de RDDs o Conjuntos de Datos Distribuidos Resilientes. Los RDD son excelentes para canalizar operadores paralelos para el cálculo y son, por definición, inmutables, lo que permite a Spark una forma única de tolerancia a fallas basada en la información del linaje. Si usted es interesado en, por ejemplo, ejecutar un trabajo de Hadoop MapReduce mucho más rápido, Spark es una gran opción (aunque se deben considerar los requisitos de memoria).

Apache Storm se centra en el procesamiento de flujos o lo que algunos llaman procesamiento de eventos complejos. Storm implementa un método tolerante a fallas para realizar un cálculo o canalizar múltiples cálculos en un evento a medida que fluye hacia un sistema. Uno podría usar Storm para transformar datos no estructurados a medida que fluyen en un sistema en un formato.

Storm y Spark se centran en casos de uso bastante diferentes. La comparación más "manzanas a manzanas" sería entre Storm Trident y Spark Streaming. Dado que los RDD de Spark son inherentemente inmutables, Spark Streaming implementa un método para "procesar por lotes" las actualizaciones entrantes en intervalos de tiempo definidos por el usuario que se transforman en sus propios RDD. Los operadores paralelos de Spark pueden realizar cálculos en estos RDD. Esto es diferente de Tormenta que se ocupa de cada evento individual.

Una diferencia clave entre estas dos tecnologías es que Spark realiza Cálculos en paralelo de datos mientras que Storm realiza Cálculos en Paralelo de tareas. Cualquiera de los dos diseños hace concesiones que vale la pena conocer. Yo sugeriría revisar estos enlaces.

Editar: descubierto esto hoy

 460
Author: plambre,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-01-29 05:35:42