Clustering de stockage avec GlusterFS

Vous con­nais­sez prob­a­ble­ment HDFS (Hadoop Dis­trib­uted File Sys­tem) ou GFS (Google File Sys­tem) qui per­me­t­tent de créer un sys­tème de fichiers dis­tribués. Nous en avons déjà dis­cuté sur ce blog. Aujour­d’hui, nous allons par­ler de Glus­terFS. C’est un sys­tème de fichiers libre dis­tribué en par­al­lèle, qui per­met de stock­er jusqu’à plusieurs pétaoctets (1015 octets), et donc d’as­sur­er une mon­tée en charge pro­gres­sive en taille, une répar­ti­tion de charge, et un mir­ror­ing (répli­ca­tion) des fichiers. Il intè­gre à cet effet des mécan­ismes évolués de ges­tion des pannes.  En gros, c’est du clus­ter­ing de stock­age !

Pour quelle util­i­sa­tion ? Imag­i­nons que vous ayez un site web sous Apache et que votre serveur est assail­li de con­nex­ions… com­ment répar­tir la charge sur 2 serveurs, tout en assur­ant une répli­ca­tion effi­cace des don­nées entre les  2 serveurs ? Autres besoins: stream­ing mul­ti­mé­dia, de l’analyse de don­nées et tout autre ser­vice requérant une charge de tra­vail et une bande pas­sante élevée. Glus­terFS répond à tous ces besoins… ou presque.

Fonc­tion­nement:

Les serveurs sont typ­ique­ment déployés comme des « briques de stock­age » (bricks), chaque serveur exé­cu­tant un dae­mon glus­terfsd qui exporte un sys­tème de fichiers local comme un vol­ume. Le proces­sus client glus­terfs qui se con­necte aux serveurs regroupe les vol­umes dis­tants en un unique volume.

Plusieurs modes sont possibles:

  • Vol­ume dis­tribué: les fichiers sont répar­tis au tra­vers des bricks serveurs — on étend la capac­ité de stockage
  • Vol­ume répliqué: chaque fichi­er existe sur chaque brick — on fait du mirroring
  • Vol­ume dis­tribué répliqué: on mélange les 2 approches.
  • D’autres modes, comme le morcelé (strip) qui per­met la découpe des fichiers…

Con­traire­ment aux autres solu­tions de stock­ages dis­tribué en réseau, Glus­ter ne néces­site aucun serveur de méta­don­née afin de savoir où les don­nées se situent sur le clus­ter. Donc  pas de serveur cen­tral, et ça c’est une bonne chose.

Con­cer­nant la répli­ca­tion des don­nées, on par­lera même de géo-répli­ca­tion, c’est à dire la capac­ité à pren­dre en compte la local­i­sa­tion des don­nées pour en opti­miser le flux (on passe alors en asyn­chrone avec un sys­tème maître/esclave). On peut égale­ment activ­er le chiffre­ment des don­nées.

Enfin, nous ter­minerons par le fait que Glus­terFS n’est pas une solu­tion open­source un peu exo­tique. Elle est fiable, est util­isée mas­sive­ment dans le monde aujour­d’hui et reste très sim­ple à met­tre en place. C’est donc une can­di­date de choix pour l’IA et le Big Data. Un arti­cle dans Lin­ux Mag n°209 lui est consacré.

Site offi­ciel: www.gluster.org

Laisser un commentaire

Fièrement propulsé par WordPress | Thème : Baskerville 2 par Anders Noren.

Retour en haut ↑

%d blogueurs aiment cette page :