Besoin d'aide ?

Ce module a été développé afin de rendre le site Efrei accessible au plus grand nombre.

Si malgré notre vigilance, vous rencontriez le moindre problème d’accessibilité sur notre site, n’hésitez pas à nous contacter à l’adresse site-groupe@efrei.fr ou par téléphone au +33 188 289 000.

Documentation Candidature Portes Ouvertes

Documentation Portes Ouvertes

Candidature

23 Juil 2021

Innovation

Solution Factory 2021 TousseAntiCovid

TousseAntiCovid : diagnostiquer la Covid19 grâce à un simple micro

Efrei a rencontré 3 étudiants de l’équipe projet TousseAntiCovid. Ce projet, monté à l’occasion du MasterCamp des L3 s’orientant vers la spécialisation en bio-numérique, consiste en un modèle prédictif de diagnostic de la Covid19, sur simple analyse de la toux d’un patient. Ils nous racontent comment ils ont vécu le projet, conçu le modèle et la suite qu’ils veulent donner à TousseAntiCovid.

L'équipe

Gül Vahide Yilmaz, qui aimerait devenir bio-informaticienne
Chourouk Jdidi, intéressée par la recherche
Capucine Grandclaude, intéressée par la recherche
Loic Lecomte, qui aimerait plus tard s’orienter vers l’analyse de données et le machine learning
Baudouin De Lavigne, qui souhaite rejoindre les formations médicales
Yasmine Maassouli, intéressée par la recherche

Pouvez-vous nous rappeler le contexte du Mastercamp Efrei et le sujet que vous avez choisi pour la Solution Factory ?

Le MasterCamp Efrei est un événement qui permet aux L3 du parcours ingénieur de s’impliquer concrètement et d’une manière très approfondie dans un sujet, de découvrir et de consolider leur choix de majeure de spécialisation pour les deux dernières années de formation, rappelle Loïc Lecomte. Au sein de notre groupe, nous souhaitons tous nous orienter vers la filière bio-numérique, c’est pourquoi nous nous sommes naturellement orientés vers le sujet proposé sur la data et la Covid. Le Mastercamp Efrei était une expérience très intéressante dans la mesure où ce temps était consacré exclusivement à un projet unique, ce qui est très engageant, rappelle Loïc.

Capucine Grandclaude résume le sujet technique proposé aux étudiants : Le sujet technique que nous avons choisi de résoudre était de proposer une solution pour détecter la Covid19 à partir d’enregistrement de toux. Pour y parvenir, nous avons commencé par récupérer des audios de personnes toussant littéralement dans un micro. Nous avons ensuite conçu un modèle de machine learning capable de détecter – après étude d’un nouveau signal – si une personne est atteinte ou non par la Covid.

Concrètement, quelle a été votre organisation technique et humaine pour livrer un produit ?

Pour Yasmine Maassouli, la répartition des tâches s’est faite assez naturellement en fonction de nos appétences et de nos compétences. Par exemple, Baudouin et Loïc apprécient la technique, ils se sont donc naturellement orientés vers la conception du modèle.

Il a fallu très naturellement se partager le travail tant le sujet est complexe, rappelle Loïc : chacun travaillait sur sa partie spécifique, tout en restant en collaboration permanente avec les autres membres du groupe. Outre l’avancement continu du projet, cela permet, en cas de blocage ou de difficulté, de s’entraider et de résoudre les problèmes ensemble. Plus précisément :

Chourouk Jdidi a fait tous nos designs et a fait le site Internet final avec Yasmine.

Baudouin De Lavigne et Capucine étaient concentrés sur le modèle de machine learning.

Capucine et Gul étaient focalisées sur la recherche du data-set et sur la préparation des données pour le modèle.

Pour Capucine, la chronologie du projet (quoique sur un délai de livraison très serré) a impliqué des efforts à tous les niveaux : trouver des données, les traiter pour qu’elles soient utilisables par notre modèle ; concevoir et former notre modèle, l’entraîner et le tester, puis l’améliorer ; créer un site et le relier à notre modèle afin d’avoir un rendu livrable et accessible à tous pour se tester.

Pour comprendre le problème posé et le livrable du côté de l’utilisateur, le groupe TousseAntiCovid a commencé par épurer les données pour qu’elles soient toutes intelligibles par un modèle prédictif, puis développer un modèle « en local » et enfin mettre en ligne le livrable pour que chaque utilisateur puisse tousser depuis chez lui et faire un test Covid avec un micro.

Loïc rappelle que le but était d’avoir un service utilisable par tous. Pour cela, un site web ou une application sont les outils les plus évidents pour garantir une utilisation simple de la part du public. A ce stade, le code que nous avons développé est sur GitHub mais pas (encore) utilisable par le grand public. Quand nous avons réfléchi à l’utilisation, nous avons hésité entre site Internet et application mobile. Notre formation et nos expertises tendaient toutes vers la première option tant les délais du MasterCamp étaient courts.

Avec plus de temps pour coder une application, nous aurions certainement proposé les deux, précise Capucine. L’idée était déjà de livrer un produit fonctionnel, efficace et pertinent, c’est pourquoi nous avons volontairement réduit notre périmètre.

Vous avez dû réfléchir à un sujet qui intègre à la fois de la data et du médical. Quelles ont été vos réflexions autour de cette problématique en termes de sécurité ou d’anonymisation ?

Notre solution n’enregistre pas les données personnelles des utilisateurs. Nous récupérons exclusivement l’audio des toux des personnes qui utilisent le service. Si nous avions voulu pousser l’application jusqu’à une livraison grand public voire une commercialisation, la question aurait été au cœur de nos enjeux. En l’état, notre objectif était la qualité de prédiction du modèle, ce que nous avons démontré. Si on pousse plus loin l’expérience, en effet, l’anonymisation des données, la sécurisation de celles-ci autant que de l’utilisateur lui-même sont fondamentaux, explique Loïc. La commercialisation et la livraison publique d’un tel projet rendent ces sujets cruciaux. Nous n’en sommes pas à ce stade.

Justement : votre projet aura-t-il une vie publique après le Mastercamp ou restera-t-il un excercice #OnlyEfreiParis ?

Capucine temporise sur ce point : Nous pourrions y réfléchir, c’est un fait. Cela dit, des applications qui vont dans le même sens que TousseAntiCovid émergent déjà aujourd’hui, ce qui témoigne d’un rodage déjà très engagé chez certaines entreprises spécialisées. Nous restons donc très lucides sur le sujet : un service de ce type verra le jour avant que nous soyons prêts à le rendre commercial. Il serait dommage de se lancer sur un tel sujet alors que le marché est déjà pris, ce qui ne dénature en rien tout l’intérêt technique d’avoir travaillé sur TousseAntiCovid.

L’effort autour du projet a permis une prise de hauteur sur l’utilisation des outils numérique. L’utilisation d’un simple micro pour faire du dépistage de maladies est très utile, rappelle Loïc. Tout le monde peut tousser dans un micro, que ce soit derrière un ordinateur portable, via une tablette ou un smartphone, là où l’étude de radios pulmonaires (ce qui existe) impose un déplacement et une mobilisation à la fois technique et humaine. Cela ouvre donc beaucoup de possibilité, y compris sur d’autres pathologies. Ceci étant dit, oui, tout le monde peut enregistrer sa toux… mais peu de gens le font réellement. C’est encore aujourd’hui très complexe de trouver des bases de données de sons de toux en ligne en grande quantité. C’est d’ailleurs l’un des soucis majeurs que nous avons rencontré sur le projet, ce qui limite le champ des possibles pour d’autres pathologies.

Quelles ont été les difficultés rencontrées durant l’élaboration de TousseAntiCovid ?

Les data-sets. Clairement ! Si l’équipe en plaisante à posteriori, Capucine explique : le sujet Covid reste assez récent et nous avons donc dû composer avec assez peu de données ou dont la qualité était parfois à la limite basse de l’exploitable. Si nous avions eu la chance (et le temps !) de faire notre propre data-set en étant sûr de la qualité et de la quantité des données, nous aurions pu avoir de meilleurs résultats.

Loïc complète : même en nous déplaçant et en enregistrant nous-même des audios, la quantité aurait été trop limitée pour avoir un modèle suffisamment probant. Il faudrait se prêter à l’exercice dans de nombreux hôpitaux ou centres médicaux, dans un délai restreint, et être certain du diagnostic posé en face de chaque enregistrement. Pour être viable, notre projet aurait besoin d’une dynamique de très grande ampleur. Cela nous a montré une limite de l’exercice : pour avoir ce type de data-set, il faut avoir la puissance de l’État ou être une multinationale pour collecter les données. Pour se donner une idée des ordres de grandeurs, il faudrait 100.000 enregistrements : 50.000 positifs Covid et autant de négatif. Pour le cas proposé au Mastercamp, nous avions 10.000 échantillons audio, ce qui est assez peu en proportion.

Avez-vous réfléchi à transposer votre modèle ou les apprentissages que vous avez acquis sur un autre projet ?

C’est encore plus complexe, précise Loïc. Il y a encore moins de data-sets sur d’autres maladies. Quoique récente, la Covid a été assez bien documentée en termes de données (radio, échantillons voire enregistrements). Les sons de toux sont très rares, même sur des maladies plus répandues. Pour Capucine, le terrain des données audio pourrait être utile à des méthodes de diagnostic ou de pré-diagnostic… mais avec un manque de données à l’origine, c’est aujourd’hui peu réalisable. Chourouk complète : en plus des données brutes, rappelons qu’il faut que tout enregistrement soit corrélé à un diagnostic avéré et vérifié pour pouvoir intégrer un data-set « propre ». Il ne s’agit pas uniquement de faire tousser les volontaires dans un micro mais réellement d’ajouter l’enregistrement à un processus traditionnel de diagnostic pour documenter au maximum les pathologies. Cette approche « documentaire » permettra, une fois réalisée pour différentes maladies, à des équipes et des modèles comme le nôtre d’émerger concrètement. Et – comme on parle de données médicales, donc sensibles par nature – cela impose un degré supplémentaire de complexité dans la collecte et le traitement.

Quelles sont les technologies que vous avez utilisées pour le projet TousseAntiCovid ?

Nos données sont de l’open source (trouvés en ligne, donc), pour le modèle de diagnostic, nous avons utilisé Python (ce qui est assez classique quand on fait du machine learning). Pour le site, nous avons utilisé Flask et Python pour pouvoir raccorder front et back.

D’un point de vue plus technique quant au diagnostic lui-même, nous transformons le son en spectrogramme. Cela donne les différentes fréquences et leur chronologie sur un fichier. C’est sur l’analyse de ce spectrogramme que se fonde le travail de notre modèle.

La force du machine learning est que c’est indétectable pour l’oreille (audio) ou l’œil (spectrogramme) humain. Le modèle analyse et trouve des points de comparaison entre tous les cas Covid avérés et est à-même de prédire un diagnostic sur tout nouveau spectrogramme qu’on lui propose.

Aucun d’entre nous n’avait d’expertise en traitement de signal audio avant ce projet. Ce que nous avons fait, en substance, est de transformer l’audio en image (le spectrogramme). Passée cette étape, nous avions plus de compétences en traitement d’image pour avoir déjà travaillé sur des modèles de diagnostics prédictifs pour des radios pulmonaires. Pour parvenir à ce process, nous avons naturellement étudié comment les applications existantes traitaient le son. De cette phase de recherche et d’inspiration, nous avons pu développer TousseAntiCovid.

Pareillement, pour palier à notre data-set trop restreint, nous avons dû augmenter artificiellement le volume de nos données. Cette étape d’amplification du data-set a été importante et nous avons beaucoup appris de solutions existantes pour parvenir à des résultats probants.

Votre code est-il opensource ou préférez-vous attendre de compléter son apprentissage avant de le rendre public ?

Le code est retrouvable en ligne intégralement sur Github et utilisable par toute personne intéressée pour compléter nos travaux (https://github.com/TousseAntiCovid). Ce que nous retenons surtout, c’est l’avis très favorable du jury qui nous a accueilli, la cohésion d’équipe qui a émergé durant l’ensemble du projet. Au niveau technique, les retours étaient bons également, pour le moment cela nous suffit.

Vous auriez un conseil pour un étudiant du Mastercamp de l’année prochaine afin qu’il profite à fond de ce moment ?

Pour Loïc, c’est clair : il faut s’investir à 100% dans le projet, c’est l’occasion de travailler en immersion sur un sujet technique et concret ou l’investissement fait la différence. On est loin des projets « traditionnels » de TP ou autre car le Mastercamp va plus loin et demande un aboutissement beaucoup plus extrême en un mois de temps. Une approche partagée par toute l’équipe qui a œuvré ensemble à la bonne conduite de TousseAntiCovid. Capucine complète : sur ce genre de projet immersif, il est important de bien s’entourer dès le départ. Une équipe bien construite permet à chacun d’avoir des faiblesses autant que des sujets d’excellence. Le collectif lisse les faiblesses et permet aux qualités de se révéler essentielles. Une bonne complémentarité entre tous est une formule qui marche. Gul en convient : le Mastercamp a été l’occasion de travailler ensemble d’une manière intensive au sein d’une équipe assez nombreuse. Nous avons tous beaucoup appris à la fois techniquement mais aussi sur la gestion et la bonne conduite d’un projet depuis sa conception jusqu’à sa livraison. Et Chourouk de conclure : cette complémentarité entre les membres d’une équipe est indispensable et permet au groupe de se dépasser. Elle fait du Mastercamp une expérience agréable et enrichissante ou peut – à l’inverse – le rendre difficile. Dans notre cas, l’émulation du groupe était très stimulante pour tous et cela se traduit par un projet réussi dans une bonne ambiance de travail.

Les cookies sur EFREI.fr

Lorsque vous visitez un site web, des informations peuvent être stockées sur votre navigateur, le plus souvent sous forme de cookies. Ces informations peuvent concerner vos préférences ou votre appareil et sont utilisées pour personnaliser le contenu et améliorer votre expérience. Certains cookies sont essentiels au bon fonctionnement du site, d'autres contribuent à améliorer votre expérience en vous donnant un aperçu de la façon dont vous utilisez EFREI.fr. Pour plus d'informations, veuillez consulter la politique de confidentialité.

Nécessaires au bon fonctionnement du site

Toujours activé

Ces cookies permettent de garantir des fonctionnalités importantes du site comme la mémorisation de vos préférences concernant les cookies, la sécurité, les données de session ou d'offrir la possibilité de prendre rendez-vous en ligne. Le site web ne pouvant fonctionner correctement sans eux, ils ne peuvent être désactivés.

Cookie	Durée	Description
_calendly_session	21 jours	Le cookie permet l'utilisation du calendrier de prise de rendez-vous sur le site internet.
cli_user_preference	1 an	Stocke le statut de consentement des cookies de l'utilisateur.
cookielawinfo-checkbox-advertisement	1 an	Stocke le statut de consentement des cookies marketing de l'utilisateur.
cookielawinfo-checkbox-analytics	1 an	Stocke le statut de consentement des cookies d'analyse de l'utilisateur.
cookielawinfo-checkbox-functional	1 an	Stocke le statut de consentement des cookies fonctionnel de l'utilisateur.
cookielawinfo-checkbox-necessary	1 an	Stocke le statut de consentement des cookies nécessaires à l'utilisateur.
cookielawinfo-checkbox-others	1 an	Stocke le statut de consentement des cookies autres à l'utilisateur.
cookielawinfo-checkbox-performance	1 an	Stocke le statut de consentement des cookies de performance de l'utilisateur.
CookieLawInfoConsent	1 an	Stocke le statut de consentement des cookies de l'utilisateur.
lang	Session	Ce cookie est utilisé pour stocker les préférences linguistiques d'un utilisateur afin de diffuser du contenu dans cette langue stockée lors de sa prochaine visite sur le site Web.
nextIdImgHome	6 heures	Ce cookie est utilisé pour afficher une image différente à chaque chargement de la homepage.
OptanonConsent	1 an	OneTrust définit ce cookie pour stocker des détails sur la catégorie de cookies du site et vérifier si les visiteurs ont donné ou retiré leur consentement à l'utilisation de chaque catégorie.
SESSION	Session	Le cookie stock l'ensemble des données de session nécessaire au bon fonctionnement du site internet.
viewed_cookie_policy	1 an	Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
visitLastCov	6 heures	Ce cookie est utilisé pour afficher uniquement une fois la pop-up du covid.
visitLastDay	6 heures	Ce cookie est utilisé pour un affichage unique des pop-up lors de votre première visite.
XSRF-TOKEN	Session	Le cookie est défini par la plate-forme afin de l'utiliser à des fins de sécurité.

Campagnes

Ces cookies sont utilisés pour diffuser des contenus ciblés en fonction de votre navigation. Ils permettent également d'établir des statistiques anonymes de nos campagnes de communication, via Google Tag Manager, pour évaluer leur diffusion et leur efficacité.

Cookie	Durée	Description
_fbp	3 mois	Ce cookie est défini par Facebook pour diffuser des publicités lorsqu'ils sont sur Facebook ou sur une plate-forme numérique alimentée par la publicité Facebook après avoir visité ce site Web.
anj	3 months	AppNexus définit le cookie anj qui contient des données indiquant si un identifiant de cookie est synchronisé avec des partenaires.
bscookie	2 ans	Ce cookie est un cookie d'identification du navigateur défini par Linked share Buttons et les tags d'emplacement publicitaire.
CONSENT	16 ans 7 mois 12 jours 15 heures	Ce cookie est utilisé par Youtube pour détecter si le visiteur a accepté la catégorie marketing dans la bannière des cookies. Ce cookie est nécessaire pour la conformité GDPR du site Web.
fr	3 mois	Le cookie est défini par Facebook pour montrer des publicités pertinentes aux utilisateurs, mesurer et améliorer les publicités. Le cookie suit également le comportement de l'utilisateur sur le Web sur les sites dotés d'un pixel Facebook ou d'un plugin social Facebook.
IDE	1 an 24 jours	Utilisé par Google DoubleClick et stocke des informations sur la façon dont l'utilisateur utilise le site Web et toute autre publicité avant de visiter le site Web. Ceci est utilisé pour présenter aux utilisateurs des publicités qui les concernent en fonction du profil de l'utilisateur.
loc	1 an 1 mois	Ce cookie est défini par Addthis. Il s'agit d'un cookie de géolocalisation pour comprendre où se trouvent les utilisateurs partageant les informations.
mc	1 an 1 mois	Ce cookie est associé à Quantserve pour suivre de manière anonyme comment un utilisateur interagit avec le site Web.
NID	6 months	Ce cookie est utilisé pour un profil basé sur l'intérêt de l'utilisateur et affiche des publicités personnalisées aux utilisateurs.
test_cookie	15 minutes	Ce cookie est défini par doubleclick.net. Le but du cookie est de déterminer si le navigateur de l'utilisateur prend en charge les cookies.
UserMatchHistory	1 mois	Le cookie est utilisé par Linkedin pour suivre les visiteurs sur plusieurs sites Web, afin de présenter des publicités pertinentes en fonction des préférences du visiteur.
uuid2	3 months	Le cookie uuid2 est défini par AppNexus et enregistre des informations qui aident à différencier les appareils et les navigateurs. Ces informations sont utilisées pour sélectionner les annonces diffusées par la plate-forme et évaluer les performances de l'annonce et son paiement d'attribut.
VISITOR_INFO1_LIVE	5 mois 27 jours	Ce cookie est défini par Youtube. Utilisé pour suivre les informations des vidéos YouTube intégrées sur un site Web.

Mesure d'audience

Ces cookies permettent de générer des statistiques anonymes de fréquentation du site via Google Analytics (le nombre de visites, les pages les plus vues, etc.) et d'autres partenaires. Ces données contribuent à identifier d'éventuels dysfonctionnements sur le site et à améliorer la qualité de nos services.

Cookie	Durée	Description
_ga	2 ans	Ce cookie est installé par Google Analytics. Le cookie est utilisé pour calculer les données du visiteur, de la session, de la campagne et pour suivre l'utilisation du site pour le rapport d'analyse du site. Les cookies stockent des informations de manière anonyme et attribuent un numéro généré de manière aléatoire pour identifier les visiteurs uniques.
_gat_UA-129661492-1	1 minute	Il s'agit d'un cookie de type modèle défini par Google Analytics, où l'élément de modèle sur le nom contient le numéro d'identité unique du compte ou du site Web auquel il se rapporte. Il semble s'agir d'une variante du cookie _gat qui est utilisé pour limiter la quantité de données enregistrées par Google sur les sites Web à fort trafic.
_gcl_au	3 mois	Fourni par Google Tag Manager pour expérimenter l'efficacité publicitaire des sites Web utilisant leurs services.
_gid	1 jour	Ce cookie est installé par Google Analytics. Le cookie est utilisé pour stocker des informations sur la façon dont les visiteurs utilisent un site Web et aide à créer un rapport d'analyse de la façon dont le site Web fonctionne. Les données collectées, y compris le nombre de visiteurs, la source d'où ils viennent et les pages consultées sous forme anonyme.
AnalyticsSyncHistory	1 mois	Utilisé pour stocker des données sur le moment de la synchronisation avec le cookie lms_analytics (utilisé pour identifier les membres de LinkedIn dans les pays désignés à des fins d’analyse) pour les utilisateurs dans les pays désignés.
at-rand	Persistant	AddThis définit ce cookie pour suivre les visites de pages, les sources de trafic et le nombre de partages.
iutk	5 mois 27 jours	Ce cookie est utilisé par le système analytique Issuu. Les cookies sont utilisés pour collecter des informations concernant l'activité des visiteurs sur les produits Issuu.
uvc	1 an 1 mois	Le cookie est défini par addthis.com pour déterminer l'utilisation du service Addthis.com.

Réseaux sociaux

Ces cookies déposés via les boutons réseaux sociaux permettent de faciliter le partage des contenus du site sur Facebook, Twitter ou LinkedIn.

Cookie	Durée	Description
__atuvc	1 an 1 mois	Ce cookie est défini par Addthis pour vous assurer que vous voyez le décompte mis à jour si vous partagez une page et y revenez avant que notre cache de décompte de partages ne soit mis à jour.
__atuvs	30 minutes	Ce cookie est défini par Addthis pour vous assurer que vous voyez le décompte mis à jour si vous partagez une page et y revenez avant que notre cache de décompte de partages ne soit mis à jour.
bcookie	2 ans	Ce cookie est défini par linkedIn. Le but du cookie est d'activer les fonctionnalités LinkedIn sur la page.
li_gc	2 ans	Utilisé pour stocker le consentement des utilisateurs invités concernant l’utilisation de cookies à des fins non essentielles.
lidc	1 jour	Ce cookie est défini par LinkedIn et utilisé pour le routage.
xtc	1 an 1 mois	Suivre anonymement les visites sur les sites qui proposent une fonction de partage de contenus sur les réseaux sociaux, dans le but d’améliorer la pertinence des services et de la publicité d’AddThis.

Vidéos

Ces cookies déposés via le service de partage de vidéos Youtube vous permettent de visionner les contenus multimédia.

Cookie	Durée	Description
YSC	Session	Ces cookies sont définis par Youtube et sont utilisés pour suivre les vues des vidéos intégrées.
yt-remote-connected-devices	Persistent	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt-remote-device-id	Persistent	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt.innertube::nextId	Persistent	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.
yt.innertube::requests	Persistent	YouTube définit ce cookie pour stocker les préférences vidéo de l'utilisateur à l'aide de la vidéo YouTube intégrée.