Ce module a été développé afin de rendre le site Efrei accessible au plus grand nombre.
Si malgré notre vigilance, vous rencontriez le moindre problème d’accessibilité sur notre site, n’hésitez pas à nous contacter à l’adresse site-groupe@efrei.fr ou par téléphone au +33 188 289 000.
«Les nouveaux traitements des Big Data : Big Data & Prétraitement » est le deuxième volet de la série Les innovations dans les Big Data, comptes rendus de Clémence Mertz, élève-ingénieure (M1) à l’Efrei. Ils font suite aux 2 conférences internationales sur la recherche – Nostradamus et AECIA* organisées par AllianSTIC, laboratoire de recherche des écoles d’ingénieurs de l’Efrei et l’Esigetel.
Le focus opéré ici porte sur les travaux de recherche des Professeurs Chelly de l’université de Tunis et Snasel de l’université des technologies d’Ostrava, à savoir sur l’aspect mathématique du traitement des données. Lors de son intervention, Pr Zineb Chelly a proposé de s’intéresser à l’étape qui suit le stockage à savoir la sélection et le nettoyage, étape où est allégée la quantité de données de sorte à ne conserver que celles qui ont une importance, un intérêt.
Son idée repose sur l’utilisation conjointe de différentes théories mathématiques et notamment la théorie des ensembles approximatifs. Cette théorie s’utilise sur des tables de données où chaque entité possède des caractéristiques et une décision, liées à ses caractéristiques, prise ultérieurement. On procède ainsi à des groupements d’entités en fonction de leurs caractéristiques et on compare ces groupes à ceux que l’on peut créer en utilisant les décisions. On peut ainsi dégager les groupes non-communs qui composent la région positive, c’est l’aboutissement de la théorie des ensembles approximatifs.
On peut l’associer à d’autres théories pour en dégager les bénéfices comme la théorie des probabilités ou encore la théorie de Dempster-Shafer mais celle qu’a retenue le Professeur Chelly est l’association de la théorie des ensembles approximatifs avec celle des ensembles flous. On ajoute donc à l’étape précédente le processus dit « Quick Reduct » qui consiste en un procédé récursif d’analyse de degrés de dépendance entre les éléments, d’ajout des éléments qui ont la plus forte dépendance vis-à-vis d’un ensemble de sortie dans celui-ci et de calcul de la dépendance de cet ensemble implémenté, et ce, jusqu’à ce que ce degré atteigne 1, qui en probabilité signifie que les autres éléments (ceux qui ne sont pas dans l’ensemble final) n’apporteront rien de plus si on les conserve. C’est donc seulement cet ensemble qui sera conservé.
Cette façon de prétraiter les données a pour avantage de pouvoir :
Ce tutoriel rejoint donc sur quelques points celui du Professeur Snasel portant sur l’optimisation mathématique.
Son axe de recherche consiste à trouver la meilleure solution à un problème où les objectifs sont multiples. Pour reprendre, l’exemple qu’il se plaît à citer, si l’on souhaite acheter une voiture, de nombreux paramètres entrent en compte (le prix, la puissance, le design, etc.) et l’acheteur peut être intéressé non pas seulement par un mais plusieurs de ces critères, il faut donc pouvoir trouver le bon compromis.
Il peut également y avoir plusieurs solutions : on peut vouloir une voiture à moins de 10 000 euros ou alors si le montant dépasse il faut au moins qu’elle contienne 100 chevaux. Ce problème est appelé « MOOP » ou, si les objectifs changent avec le temps, « DMOOP ».
Auparavant la résolution des MOOP était traitée avec des algorithmes génétiques, algorithmes qui simulent l’évolution génétique en procédant à des croisements de sélections de mutations et autres sur plusieurs données formant une population. Celle-ci évolue donc jusqu’à se rapprocher des solutions. Ce type d’algorithme est souvent utilisé pour les problèmes qui ne peuvent pas être résolus autrement. Cependant le conférencier met en doute la fiabilité et surtout la robustesse (stabilité/réactivité) de cette méthode du fait qu’un tracking des solutions est impossible sur un algorithme génétique.
Outre l’utilisation des fonctions de Benchmark, Pr Snasel propose l’utilisation d’un autre algorithme inspiré du vivant : l’optimisation par essaims particulaires qui simulent le déplacement d’un groupe d’oiseaux convergeant ainsi vers les meilleures solutions possibles. Chaque déplacement se fait en fonction d’une recherche locale de la meilleure solution jusqu’à ce que l’on arrive à celle qui l’est dans tout l’espace.
Pour rendre cet algorithme encore plus performant, sont ajoutés des coefficients d’accélération (nombres judicieusement choisis qui multipliés à la position précédente dans la fonction qui détermine la nouvelle permettent de « sauter des étapes » pour atteindre plus rapidement la solution finale).
Ces deux tutoriaux constituent donc une bonne ouverture sur le travail que peuvent fournir les mathématiciens dans l’amélioration des conditions d’analyses des Big data.
Cookie | Durée | Description |
---|---|---|
_calendly_session | 21 jours | Le cookie permet l'utilisation du calendrier de prise de rendez-vous sur le site internet. |
cli_user_preference | 1 an | Stocke le statut de consentement des cookies de l'utilisateur. |
cookielawinfo-checkbox-advertisement | 1 an | Stocke le statut de consentement des cookies marketing de l'utilisateur. |
cookielawinfo-checkbox-analytics | 1 an | Stocke le statut de consentement des cookies d'analyse de l'utilisateur. |
cookielawinfo-checkbox-functional | 1 an | Stocke le statut de consentement des cookies fonctionnel de l'utilisateur. |
cookielawinfo-checkbox-necessary | 1 an | Stocke le statut de consentement des cookies nécessaires à l'utilisateur. |
cookielawinfo-checkbox-others | 1 an | Stocke le statut de consentement des cookies autres à l'utilisateur. |
cookielawinfo-checkbox-performance | 1 an | Stocke le statut de consentement des cookies de performance de l'utilisateur. |
CookieLawInfoConsent | 1 an | Stocke le statut de consentement des cookies de l'utilisateur. |
lang | Session | Ce cookie est utilisé pour stocker les préférences linguistiques d'un utilisateur afin de diffuser du contenu dans cette langue stockée lors de sa prochaine visite sur le site Web. |
nextIdImgHome | 6 heures | Ce cookie est utilisé pour afficher une image différente à chaque chargement de la homepage. |
OptanonConsent | 1 an | OneTrust définit ce cookie pour stocker des détails sur la catégorie de cookies du site et vérifier si les visiteurs ont donné ou retiré leur consentement à l'utilisation de chaque catégorie. |
SESSION | Session | Le cookie stock l'ensemble des données de session nécessaire au bon fonctionnement du site internet. |
viewed_cookie_policy | 1 an | Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle. |
visitLastCov | 6 heures | Ce cookie est utilisé pour afficher uniquement une fois la pop-up du covid. |
visitLastDay | 6 heures | Ce cookie est utilisé pour un affichage unique des pop-up lors de votre première visite. |
XSRF-TOKEN | Session | Le cookie est défini par la plate-forme afin de l'utiliser à des fins de sécurité. |
Cookie | Durée | Description |
---|---|---|
_fbp | 3 mois | Ce cookie est défini par Facebook pour diffuser des publicités lorsqu'ils sont sur Facebook ou sur une plate-forme numérique alimentée par la publicité Facebook après avoir visité ce site Web. |
anj | 3 months | AppNexus définit le cookie anj qui contient des données indiquant si un identifiant de cookie est synchronisé avec des partenaires. |
bscookie | 2 ans | Ce cookie est un cookie d'identification du navigateur défini par Linked share Buttons et les tags d'emplacement publicitaire. |
CONSENT | 16 ans 7 mois 12 jours 15 heures | Ce cookie est utilisé par Youtube pour détecter si le visiteur a accepté la catégorie marketing dans la bannière des cookies. Ce cookie est nécessaire pour la conformité GDPR du site Web. |
fr | 3 mois | Le cookie est défini par Facebook pour montrer des publicités pertinentes aux utilisateurs, mesurer et améliorer les publicités. Le cookie suit également le comportement de l'utilisateur sur le Web sur les sites dotés d'un pixel Facebook ou d'un plugin social Facebook. |
IDE | 1 an 24 jours | Utilisé par Google DoubleClick et stocke des informations sur la façon dont l'utilisateur utilise le site Web et toute autre publicité avant de visiter le site Web. Ceci est utilisé pour présenter aux utilisateurs des publicités qui les concernent en fonction du profil de l'utilisateur. |
loc | 1 an 1 mois | Ce cookie est défini par Addthis. Il s'agit d'un cookie de géolocalisation pour comprendre où se trouvent les utilisateurs partageant les informations. |
mc | 1 an 1 mois | Ce cookie est associé à Quantserve pour suivre de manière anonyme comment un utilisateur interagit avec le site Web. |
NID | 6 months | Ce cookie est utilisé pour un profil basé sur l'intérêt de l'utilisateur et affiche des publicités personnalisées aux utilisateurs. |
test_cookie | 15 minutes | Ce cookie est défini par doubleclick.net. Le but du cookie est de déterminer si le navigateur de l'utilisateur prend en charge les cookies. |
UserMatchHistory | 1 mois | Le cookie est utilisé par Linkedin pour suivre les visiteurs sur plusieurs sites Web, afin de présenter des publicités pertinentes en fonction des préférences du visiteur. |
uuid2 | 3 months | Le cookie uuid2 est défini par AppNexus et enregistre des informations qui aident à différencier les appareils et les navigateurs. Ces informations sont utilisées pour sélectionner les annonces diffusées par la plate-forme et évaluer les performances de l'annonce et son paiement d'attribut. |
VISITOR_INFO1_LIVE | 5 mois 27 jours | Ce cookie est défini par Youtube. Utilisé pour suivre les informations des vidéos YouTube intégrées sur un site Web. |
Cookie | Durée | Description |
---|---|---|
_ga | 2 ans | Ce cookie est installé par Google Analytics. Le cookie est utilisé pour calculer les données du visiteur, de la session, de la campagne et pour suivre l'utilisation du site pour le rapport d'analyse du site. Les cookies stockent des informations de manière anonyme et attribuent un numéro généré de manière aléatoire pour identifier les visiteurs uniques. |
_gat_UA-129661492-1 | 1 minute | Il s'agit d'un cookie de type modèle défini par Google Analytics, où l'élément de modèle sur le nom contient le numéro d'identité unique du compte ou du site Web auquel il se rapporte. Il semble s'agir d'une variante du cookie _gat qui est utilisé pour limiter la quantité de données enregistrées par Google sur les sites Web à fort trafic. |
_gcl_au | 3 mois | Fourni par Google Tag Manager pour expérimenter l'efficacité publicitaire des sites Web utilisant leurs services. |
_gid | 1 jour | Ce cookie est installé par Google Analytics. Le cookie est utilisé pour stocker des informations sur la façon dont les visiteurs utilisent un site Web et aide à créer un rapport d'analyse de la façon dont le site Web fonctionne. Les données collectées, y compris le nombre de visiteurs, la source d'où ils viennent et les pages consultées sous forme anonyme. |
AnalyticsSyncHistory | 1 mois | Utilisé pour stocker des données sur le moment de la synchronisation avec le cookie lms_analytics (utilisé pour identifier les membres de LinkedIn dans les pays désignés à des fins d’analyse) pour les utilisateurs dans les pays désignés. |
at-rand | Persistant | AddThis définit ce cookie pour suivre les visites de pages, les sources de trafic et le nombre de partages. |
iutk | 5 mois 27 jours | Ce cookie est utilisé par le système analytique Issuu. Les cookies sont utilisés pour collecter des informations concernant l'activité des visiteurs sur les produits Issuu. |
uvc | 1 an 1 mois | Le cookie est défini par addthis.com pour déterminer l'utilisation du service Addthis.com. |
Cookie | Durée | Description |
---|---|---|
__atuvc | 1 an 1 mois | Ce cookie est défini par Addthis pour vous assurer que vous voyez le décompte mis à jour si vous partagez une page et y revenez avant que notre cache de décompte de partages ne soit mis à jour. |
__atuvs | 30 minutes | Ce cookie est défini par Addthis pour vous assurer que vous voyez le décompte mis à jour si vous partagez une page et y revenez avant que notre cache de décompte de partages ne soit mis à jour. |
bcookie | 2 ans | Ce cookie est défini par linkedIn. Le but du cookie est d'activer les fonctionnalités LinkedIn sur la page. |
li_gc | 2 ans | Utilisé pour stocker le consentement des utilisateurs invités concernant l’utilisation de cookies à des fins non essentielles. |
lidc | 1 jour | Ce cookie est défini par LinkedIn et utilisé pour le routage. |
xtc | 1 an 1 mois | Suivre anonymement les visites sur les sites qui proposent une fonction de partage de contenus sur les réseaux sociaux, dans le but d’améliorer la pertinence des services et de la publicité d’AddThis. |
Cookie | Durée | Description |
---|---|---|
YSC | Session | Ces cookies sont définis par Youtube et sont utilisés pour suivre les vues des vidéos intégrées. |
yt-remote-connected-devices | Persistent | YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée. |
yt-remote-device-id | Persistent | YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée. |
yt.innertube::nextId | Persistent | YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée. |
yt.innertube::requests | Persistent | YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée. |