Cómo comenzar con el análisis de Big Data [cerrado]


He sido usuario de R durante mucho tiempo y recientemente he comenzado a trabajar con Python. Usando sistemas RDBMS convencionales para el almacenamiento de datos, y R/Python para el cálculo de números, siento la necesidad ahora de ensuciarme las manos con el Análisis de Big Data.

Me gustaría saber cómo empezar con Big Data crunching. - Cómo empezar simple con Map / Reduce y el uso de Hadoop

  • ¿Cómo puedo aprovechar mis habilidades en R y Python para comenzar con el análisis de Big Data? Usando Python Disco project por ejemplo.
  • Usando el paquete RHIPE y encontrando conjuntos de datos toy y áreas problemáticas.
  • Encontrar la información correcta que me permita decidir si necesito pasar a NoSQL desde bases de datos de tipo RDBMS

En general, me gustaría saber cómo comenzar poco a poco y desarrollar gradualmente mis habilidades y conocimientos en el análisis de Big Data.

Gracias por sus sugerencias y recomendaciones. Me disculpo por la naturaleza genérica de esta consulta, pero estoy buscando obtener más perspectiva con respecto a este tema.

  • Harsh
Author: Caleb Bell, 2010-12-01

2 answers

Usando el proyecto Python Disco por ejemplo.

Bueno. Juega con eso.

Usando el paquete RHIPE y encontrando conjuntos de datos toy y áreas problemáticas.

Bien. Juega con eso también.

No te preocupes por encontrar conjuntos de datos "grandes". Incluso los conjuntos de datos pequeños presentan problemas muy interesantes. De hecho, cualquier conjunto de datos es un punto de partida.

Una vez construí un pequeño esquema de estrellas para analizar el presupuesto de 6 60 MILLONES de una organización. Los datos de origen estaban en hojas de cálculo, y esencialmente incomprensible. Así que lo descargué en un esquema star y escribí varios programas analíticos en Python para crear informes simplificados de los números relevantes.

Encontrar la información correcta que me permita decidir si necesito pasar a NoSQL desde bases de datos de tipo RDBMS

Esto es fácil.

Primero, obtenga un libro sobre data warehousing (Ralph Kimball's The Data Warehouse Toolkit), por ejemplo.

En segundo lugar, estudiar el " Esquema de estrellas" cuidadosamente particularly particularmente todas las variantes y casos especiales que Kimball explica (en profundidad)

En tercer lugar, realice lo siguiente: SQL es para Actualizaciones y Transacciones.

Al hacer procesamiento "analítico" (grande o pequeño) casi no hay actualización de ningún tipo. SQL (y normalización relacionada) realmente no importa mucho más.

El punto de Kimball (y otros, también) es que la mayor parte de su almacén de datos no está en SQL, está en archivos planos simples. Un data mart (para ad-hoc, análisis de slice-and-dice) puede estar en una base de datos relacional para permitir un procesamiento fácil y flexible con SQL.

Así que la "decisión" es trivial. Si es transaccional ("OLTP") debe estar en una DB Relacional o OO. Si es analítico ("OLAP") no requiere SQL excepto para el análisis de slice-and-dice; e incluso entonces la base de datos se carga desde los archivos oficiales según sea necesario.

 29
Author: S.Lott,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2010-12-01 11:03:11

Una cosa que puedes considerar es el DMelt ( http://jwork.org/dmelt / ) programa de análisis de datos. Una característica notable es que tiene cientos de ejemplos usando el lenguaje Python, y algunos libros. La razón por la que lo estaba usando es que se ejecuta en mi Windows 10 (ya que utiliza Java VM), además de que tiene muy buenos gráficos en 2D/3D que se pueden exportar al formato de gráficos vectoriales.

 1
Author: Elia,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2016-05-30 22:49:23