Mejor sistema de archivos distribuido para commodity linux storage farm [cerrado]


Tengo muchos servidores intel Linux de repuesto (cientos) y quiero usarlos para un sistema de archivos distribuido en un entorno de alojamiento web y uso compartido de archivos. Esto no es para una aplicación de HPC, por lo que un alto rendimiento no es crítico. El requisito principal es la alta disponibilidad, si un servidor se desconecta, los datos almacenados en sus discos duros todavía están disponibles desde otros nodos. Debe ejecutarse sobre TCP / IP y proporcionar permisos de archivo POSIX estándar.

He mirado el siguiente:

  • Lustre ( http://wiki.lustre.org/index.php?title=Main_Page ): Viene realmente cerca, pero no proporciona redundancia para los datos en un nodo. Debe hacer los datos HA utilizando RAID o DRBD. Soportado por Sun y Open Source, por lo que debería estar alrededor por un tiempo

  • Gfarm ( http://datafarm.apgrid.org / ): Parece que proporciona la redundancia, pero a costa de la complejidad y la capacidad de mantenimiento. No tan bien apoyado como Lustre.

¿Alguien tiene alguna experiencia con estos o cualquier otro sistema que pueda funcionar?

Author: Eric, 2008-11-06

7 answers

Compruebe también GlusterFS

Editar (Ago-2012): Ceph finalmente se está preparando. Recientemente los autores formaron Inktank, una compañía independiente para vender soporte comercial para ella. De acuerdo con algunos presentaions, el sistema de archivos compatible con POSIX montable es la capa superior y no está realmente probado todavía, pero las capas inferiores se están utilizando en producción desde hace algún tiempo.

La parte interesante es la capa RADOS, que presenta un almacenamiento basado en objetos con un acceso 'nativo' a través de la biblioteca librados (disponible para varios idiomas) y una API RESP compatible con Amazon S3. Cualquiera de los dos lo hace más que adecuado para agregar almacenamiento masivo a un servicio web.

Este video es una buena descripción de la filosofía, la arquitectura, las capacidades y el estado actual.

 21
Author: Javier,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2012-08-31 16:13:06

En mi opinión, el mejor sistema de archivos para Linux es MooseFS , es bastante nuevo, pero tuve la oportunidad de compararlo con Ceph y Lustre y digo con seguridad que MooseFS es el mejor.

 5
Author: Adrian Goldberg,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-10-11 09:56:53

Gluster está recibiendo mucha prensa en este momento:

Http://www.gluster.org/

 4
Author: user566016,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-01-06 20:21:16

Si no alguien te obliga a usarlo, también recomendaría usar cualquier otra cosa que no sea Lustre. Por lo que escucho de otros y lo que también me dio pesadillas durante bastante tiempo es el hecho de que el Lustre se descompone con bastante facilidad en todo tipo de situaciones. Y si solo un cliente en el sistema se descompone, se pone en un modo do_nothing_loop sin fin normalmente mientras mantiene un bloqueo global importante, por lo que la próxima vez que otro cliente intente acceder al mismo información, también colgará. Por lo tanto, a menudo terminas reiniciando todo el clúster, lo que supongo que es algo que tratarías de evitar normalmente;)

Sistemas de archivos paralelos modernos como FhGFS (http://www.fhgfs.com) son mucho más robustos aquí y también le permiten hacer cosas buenas como ejecutar componentes de servidor y cliente en las mismas máquinas (aunque las características de HA incorporadas aún están en desarrollo, como me dijo alguien de su equipo, pero su implementación va a ser bastante impresionante desde lo que he oído).

 2
Author: kurtenbach,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-06-19 12:06:56

Lustre ha estado trabajando para nosotros. No es perfecto, pero es la única cosa que hemos intentado que no se ha roto sobre la carga. Todavía tenemos LBUGS de vez en cuando y tratar con sistemas de archivos de más de 100 TB nunca es fácil, pero el sistema Lustre ha funcionado y ha aumentado tanto el rendimiento como la disponibilidad.

 1
Author: Chris herzig,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2010-11-22 02:02:28

Ceph parece ser una nueva y prometedora entrada en la arena. El sitio afirma que aún no está listo para su uso en producción.

 0
Author: kbyrd,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-11-27 16:26:10

He leído mucho sobre sistemas de archivos distribuidos y creo que FhGFS es el mejor.

Http://www.fhgfs.com/

Vale la pena intentarlo. Más información en:

Http://www.fhgfs.com/wiki/

 0
Author: Edemilson Lima,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-06-12 16:13:14