Big data et open source, un livre blanc par Stefane Fermigier
Le web constitue une des plus importantes machines à générer des données que l’humanité ait pu créer. Ce sont tous les jours des quantités astronomiques de données qui transitent et sont stockées sur des serveurs au travers du monde. Face à cette problématique, l’open source apporte aujourd’hui son lot de solutions. Stefane Fermigier propose au travers d’un livre blanc de nous en décrire le paysage.
Big data ou la gestion des “grosses données”
Inutile de dire que la traduction de ce terme en français donne un résultat peu satisfaisant. Je parlerais plus de “nombreuses données” dont la totalité représente un volume potentiellement gigantesque. N’oublions pas qu’aujourd’hui, un disque dur “classique” permet de stocker 1Tera-octet soit 1 125 899 906 842 624 “caractères”. A titre de comparaison, la Bible contient 4 000 000 de caractères. Il est donc possible de stocker plus de 280 millions d’exemplaires de celle-ci sur un disque de ce type.
Ces chiffres aussi impressionnants soient-ils ne sont rien en comparaison du volume de données que compte l’ensemble des centres de données ou datacenter de la planète. Une étude de novembre 2011 réalisée par l’IDC prévoyait un volume de données mondiale de 1,8 zéttaoctet en 2011 soit 1 800 milliards de gigaoctets. L’étude IDC montre aussi que d’ici 2020, les entreprises (au plan mondial) connaîtront : une explosion du nombre de serveurs, ils seront multipliés par dix ; un accroissement du volume d’informations à traiter, cette fois c’est multiplié par 50 ; des fichiers et des conteneurs 7 fois plus nombreux.
Quelles solutions pour le Big data ?
Le livre blanc de Stéfane dénombre les défis technologiques que posent ces outils :
- Volume: les données dépassent les limites de la scalabilité verticale des outils classiques, nécessitant des solutions de stockage distribuées et des outils de traitement parallèles.
- Variété: les données sont hétérogènes ce qui rend leur intégration complexe et coûteuse.
- Vélocité: les données doivent être traitées et analysées rapidement eut égard à la vitesse de leur capture.
- Variabilité: le format et le sens des données peuvent varier au fil du temps.
Le stockage des données est dans ce cas là souvent confié à des bases de données de la famille NoSQL. Une famille elle-même sous divisée en plusieurs catégories :
- Clé-valeur : Voldemort développé par LinkedIn ou Memcached plus connu pour son utilisation dans l’optimisation de sites web.
- Orientées documents : MongoDB ou Apache CouchDB
- Orientées graphes
- Clones de BigTable : Apache Cassandra
- Systèmes de fichiers distribués et stockages de BLOBs : Lustre, un système de fichiers distribués utilisé par plus de 70% des supercalculateurs actuels, GlusterFS développé par Red Hat.
Vous trouverez d’autres références pour compléter ce panorama dans l’annexe du livre blanc.
Face à la montée en puissance des bases NoSQL, les bases de données relationnelles communément utilisées dans les entreprises cherchent à faire évoluer leurs solutions pour supporter davantage de données sans pour autant renoncer à ce qui fait leur spécificité.
L’analyse des données suppose aussi des outls adaptés. De nouvelles techniques sont apparues comme MapReduce un framework de développement informatique, introduit par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués. Citons dans cette famille Apache Hadoop développée à l’origine par Yahoo! en Java et placée ensuite sous l’égide de la Fondation Apache.
L’indexation et la recherche dans de grands volumes de données furent abordés dés la naissance des premiers moteurs de recherche sur le web. Il nous semble aujourd’hui naturel de taper une série de mots et d’obtenir dans la seconde un résultat de recherche. Nous n’avons plus conscience de la quantité de données dans laquelle cette recherche a été effectuée et la prouesse que cela représente de nous fournir un résultat de façon aussi instantanée. Les solutions d’indexation et de recherche open source ne manquent pas, on peut citer Apache Lucene ou encore des outils comme Yacy.
Il reste enfin à essayer de valoriser toutes ces données. Les techniques de machine learning et de statistiques sont alors essentielles. On peut citer respectivement des projets comme Mahout une bibliothèque Java de machine learning et de data mining qui utilise Hadoop et du côté des statistiques la montée en puissance de projets comme R ou Pandas.
Bien évidemment, pour faire fonctionner tous ces outils, il faut une infrastructure extrêmement souple et capable de monter en charge rapidement. Les outils open source trouvent là une place naturelle. Leur adaptabilité leur confère un avantage significatif. Ainsi 71.8% des grandes entreprises interrogées récemment envisagent de faire appel à des serveurs Linux pour faire face à leurs besoins de Big Data, contre seulement 35.9% pour Windows.
Les acteurs du Big Data en France
Terminons par un rapide tour d’horizon des acteurs de ce secteur en France et dans l’open source. On retrouve les sociétés de services qui commencent à proposer des prestations dans ce domaine comme OpenWide, Smile ou Zenika…
Quelques éditeurs ont également pris pied sur ce secteur comme Core-Techs, DataPublica, Nexedi, Nuxeo ou Open Search Server… N’hésitez pas à compléter ces listes dans les commentaires.
La recherche est également présente au travers de l’ANR (Agence Nationale de la Recherche) et de son document de programmation 2012.
Vous trouverez des informations plus complètes et détaillées dans le livre blanc de Stefane Fermigier que vous pouvez télécharger sur son site. Le document est placé sous une licence licence CC BY-SA 3.0.
Crédit image Certains droits réservés par NeoSpire
Réagir à cet article
Article original écrit par Philippe Scoffoni le 18/03/2012. | Lien direct vers cet article
Cette création est mise à disposition sous un contrat Creative Commons BY à l'exception des images qui l'illustrent (celles-ci demeurent placées sous leur mention légale d'origine).