« Big Data, collecte & stockage » - 1er volet de la série « Les innovations dans les Big Data » - Efrei

Ce module a été développé afin de rendre le site Efrei accessible au plus grand nombre.

Si malgré notre vigilance, vous rencontriez le moindre problème d’accessibilité sur notre site, n’hésitez pas à nous contacter à l’adresse site-groupe@efrei.fr ou par téléphone au +33 188 289 000.

20 Nov 2015
Pédagogie
  • Partager sur Twitter
  • Partager sur Facebook
  • Partager sur Linkedin
  • Partager sur Google+

« Big Data, collecte & stockage » 1er volet de la série « Les innovations dans les Big Data »

Suite aux 2 conférences internationales sur la recherche – Nostradamus et AECIA -, nous vous invitons à découvrir les dernières innovations du Big Data à travers les comptes rendus de Clémence Mertz, élèves de l’Efrei en 2e année du cycle ingénieur.

Pour rappel, les conférences étaient organisées par AllianSTIC, le laboratoire de recherche de l’Efrei et l’Esigetel, les 9 – 11 septembre 2015 et ont réuni, sur le campus du groupe Efrei, 60 chercheurs venus des 4 coins du globe.

« Big Data, collecte et stockage » est donc le premier des 3 volets de la série « Les innovations dans les Big Data » et nous nous intéresserons ici aux travaux de recherche du Professeur Milos Kudelka – enseignant-chercheur de l’université de VŠB – Technical University of Ostrava, République Tchèque : « la modélisation d’un réseau de co-auteurs à l’aide d’un graphe ».

Avec l’aide de son équipe, le Pr Milos Kudelka s’est intéressé au stockage des données, première étape du chemin que vont parcourir les données juste après avoir été collectées. Cette étape qui peut paraître bien peu intéressante est en fait très délicate car elle constitue le support de toutes les étapes suivantes : plus le support est de bonne qualité et donc intelligemment pensé,  plus le résultat sera rapide et optimal.

De façon traditionnelle, ces données sont aujourd’hui parquées dans de grandes tables mais c’est une nouvelle approche que nous a présentée le professeur, au travers d’une mise en pratique sur des données qu’il a pu collecter manuellement avec son équipe.

Sa proposition repose sur un système de graphes qui constitue le contenant des données. Ainsi l’énorme avantage de ce système est d’être entièrement dynamique : chaque entité est reliée à d’autres entités avec lesquelles elle entretient un lien, chaque lien ayant un poids en fonction de son importance.

Bien entendu adopter ce modèle permet d’abord de faciliter l’analyse des données mais il tient également à les rendre compréhensibles par un humain. Il devient de ce fait facile de détecter les communautés en se basant sur des critères simples de détections : une communauté a des liens très forts entre ses membres et faibles avec les non-membres, l’analyse est donc instantanée.

Un système comme celui-ci, utilisé pour contenir les Big Data, pourrait simplifier le travail des mathématiciens et algorithmiciens  en dégageant de lui-même des pistes d’analyse. Il pourrait également s’intégrer dans le futur hypothétique de cette science où les programmeurs interagiront directement avec des mots et des entités et non avec des « bites ».

Néanmoins il subsiste quelques problèmes avec ce modèle comme le problème du comportement : Etant donné qu’on se base ici sur le poids des relations et qu’il est tout à fait possible que deux entités aux comportements différents aient le même poids, se pose alors la problématique de la stabilité. Problématique sur laquelle les équipes du professeur Kudelka comptent se pencher tout en continuant à enrichir le réseau afin d’en découvrir les limites.