Projet étudiant TousseAntiCovid - Efrei Paris

TousseAntiCovid : diagnostiquer la Covid19 grâce à un simple micro

Efrei Paris a rencontré 3 étudiants de l’équipe projet TousseAntiCovid. Ce projet, monté à l’occasion du MasterCamp des L3 s’orientant vers la spécialisation en bio-numérique, consiste en un modèle prédictif de diagnostic de la Covid19, sur simple analyse de la toux d’un patient. Ils nous racontent comment ils ont vécu le projet, conçu le modèle et la suite qu’ils veulent donner à TousseAntiCovid.

L'équipe

  • Gül Vahide Yilmaz, qui aimerait devenir bio-informaticienne
  • Chourouk Jdidi, intéressée par la recherche
  • Capucine Grandclaude, intéressée par la recherche
  • Loic Lecomte, qui aimerait plus tard s’orienter vers l’analyse de données et le machine learning
  • Baudouin De Lavigne, qui souhaite rejoindre les formations médicales
  • Yasmine Maassouli, intéressée par la recherche

Pouvez-vous nous rappeler le contexte du Mastercamp Efrei Paris et le sujet que vous avez choisi pour la Solution Factory ?

Le MasterCamp Efrei Paris est un événement qui permet aux L3 du parcours ingénieur de s’impliquer concrètement et d’une manière très approfondie dans un sujet, de découvrir et de consolider leur choix de majeure de spécialisation pour les deux dernières années de formation, rappelle Loïc Lecomte. Au sein de notre groupe, nous souhaitons tous nous orienter vers la filière bio-numérique, c’est pourquoi nous nous sommes naturellement orientés vers le sujet proposé sur la data et la Covid. Le Mastercamp Efrei Paris était une expérience très intéressante dans la mesure où ce temps était consacré exclusivement à un projet unique, ce qui est très engageant, rappelle Loïc.

Capucine Grandclaude résume le sujet technique proposé aux étudiants :  Le sujet technique que nous avons choisi de résoudre était de proposer une solution pour détecter la Covid19 à partir d’enregistrement de toux. Pour y parvenir, nous avons commencé par récupérer des audios de personnes toussant littéralement dans un micro. Nous avons ensuite conçu un modèle de machine learning capable de détecter – après étude d’un nouveau signal – si une personne est atteinte ou non par la Covid.

Concrètement, quelle a été votre organisation technique et humaine pour livrer un produit ?

Tous anti covidPour Yasmine Maassouli, la répartition des tâches s’est faite assez naturellement en fonction de nos appétences et de nos compétences. Par exemple, Baudouin et Loïc apprécient la technique, ils se sont donc naturellement orientés vers la conception du modèle.

Il a fallu très naturellement se partager le travail tant le sujet est complexe, rappelle Loïc : chacun travaillait sur sa partie spécifique, tout en restant en collaboration permanente avec les autres membres du groupe. Outre l’avancement continu du projet, cela permet, en cas de blocage ou de difficulté, de s’entraider et de résoudre les problèmes ensemble. Plus précisément :

  • Chourouk Jdidi a fait tous nos designs et a fait le site Internet final avec Yasmine.
  • Baudouin De Lavigne et Capucine étaient concentrés sur le modèle de machine learning.
  • Capucine et Gul étaient focalisées sur la recherche du data-set et sur la préparation des données pour le modèle.

Pour Capucine, la chronologie du projet (quoique sur un délai de livraison très serré) a impliqué des efforts à tous les niveaux : trouver des données, les traiter pour qu’elles soient utilisables par notre modèle ; concevoir et former notre modèle, l’entraîner et le tester, puis l’améliorer ; créer un site et le relier à notre modèle afin d’avoir un rendu livrable et accessible à tous pour se tester.

Pour comprendre le problème posé et le livrable du côté de l’utilisateur, le groupe TousseAntiCovid a commencé par épurer les données pour qu’elles soient toutes intelligibles par un modèle prédictif, puis développer un modèle « en local » et enfin mettre en ligne le livrable pour que chaque utilisateur puisse tousser depuis chez lui et faire un test Covid avec un micro.

Loïc rappelle que le but était d’avoir un service utilisable par tous. Pour cela, un site web ou une application sont les outils les plus évidents pour garantir une utilisation simple de la part du public. A ce stade, le code que nous avons développé est sur GitHub mais pas (encore) utilisable par le grand public. Quand nous avons réfléchi à l’utilisation, nous avons hésité entre site Internet et application mobile. Notre formation et nos expertises tendaient toutes vers la première option tant les délais du MasterCamp étaient courts.

Avec plus de temps pour coder une application, nous aurions certainement proposé les deux, précise Capucine. L’idée était déjà de livrer un produit fonctionnel, efficace et pertinent, c’est pourquoi nous avons volontairement réduit notre périmètre.

Vous avez dû réfléchir à un sujet qui intègre à la fois de la data et du médical. Quelles ont été vos réflexions autour de cette problématique en termes de sécurité ou d’anonymisation ?

Notre solution n’enregistre pas les données personnelles des utilisateurs. Nous récupérons exclusivement l’audio des toux des personnes qui utilisent le service. Si nous avions voulu pousser l’application jusqu’à une livraison grand public voire une commercialisation, la question aurait été au cœur de nos enjeux. En l’état, notre objectif était la qualité de prédiction du modèle, ce que nous avons démontré. Si on pousse plus loin l’expérience, en effet, l’anonymisation des données, la sécurisation de celles-ci autant que de l’utilisateur lui-même sont fondamentaux, explique Loïc. La commercialisation et la livraison publique d’un tel projet rendent ces sujets cruciaux. Nous n’en sommes pas à ce stade.

Justement : votre projet aura-t-il une vie publique après le Mastercamp ou restera-t-il un excercice #OnlyEfreiParis ?

Capucine temporise sur ce point : Nous pourrions y réfléchir, c’est un fait. Cela dit, des applications qui vont dans le même sens que TousseAntiCovid émergent déjà aujourd’hui, ce qui témoigne d’un rodage déjà très engagé chez certaines entreprises spécialisées. Nous restons donc très lucides sur le sujet : un service de ce type verra le jour avant que nous soyons prêts à le rendre commercial. Il serait dommage de se lancer sur un tel sujet alors que le marché est déjà pris, ce qui ne dénature en rien tout l’intérêt technique d’avoir travaillé sur TousseAntiCovid.

L’effort autour du projet a permis une prise de hauteur sur l’utilisation des outils numérique. L’utilisation d’un simple micro pour faire du dépistage de maladies est très utile, rappelle Loïc. Tout le monde peut tousser dans un micro, que ce soit derrière un ordinateur portable, via une tablette ou un smartphone, là où l’étude de radios pulmonaires (ce qui existe) impose un déplacement et une mobilisation à la fois technique et humaine. Cela ouvre donc beaucoup de possibilité, y compris sur d’autres pathologies. Ceci étant dit, oui, tout le monde peut enregistrer sa toux… mais peu de gens le font réellement. C’est encore aujourd’hui très complexe de trouver des bases de données de sons de toux en ligne en grande quantité. C’est d’ailleurs l’un des soucis majeurs que nous avons rencontré sur le projet, ce qui limite le champ des possibles pour d’autres pathologies.

Quelles ont été les difficultés rencontrées durant l’élaboration de TousseAntiCovid ?

Les data-sets. Clairement ! Si l’équipe en plaisante à posteriori, Capucine explique : le sujet Covid reste assez récent et nous avons donc dû composer avec assez peu de données ou dont la qualité était parfois à la limite basse de l’exploitable. Si nous avions eu la chance (et le temps !) de faire notre propre data-set en étant sûr de la qualité et de la quantité des données, nous aurions pu avoir de meilleurs résultats.

Loïc complète : même en nous déplaçant et en enregistrant nous-même des audios, la quantité aurait été trop limitée pour avoir un modèle suffisamment probant. Il faudrait se prêter à l’exercice dans de nombreux hôpitaux ou centres médicaux, dans un délai restreint, et être certain du diagnostic posé en face de chaque enregistrement. Pour être viable, notre projet aurait besoin d’une dynamique de très grande ampleur. Cela nous a montré une limite de l’exercice : pour avoir ce type de data-set, il faut avoir la puissance de l’État ou être une multinationale pour collecter les données. Pour se donner une idée des ordres de grandeurs, il faudrait 100.000 enregistrements : 50.000 positifs Covid et autant de négatif. Pour le cas proposé au Mastercamp, nous avions 10.000 échantillons audio, ce qui est assez peu en proportion.

Avez-vous réfléchi à transposer votre modèle ou les apprentissages que vous avez acquis sur un autre projet ?

C’est encore plus complexe, précise Loïc. Il y a encore moins de data-sets sur d’autres maladies. Quoique récente, la Covid a été assez bien documentée en termes de données (radio, échantillons voire enregistrements). Les sons de toux sont très rares, même sur des maladies plus répandues. Pour Capucine, le terrain des données audio pourrait être utile à des méthodes de diagnostic ou de pré-diagnostic… mais avec un manque de données à l’origine, c’est aujourd’hui peu réalisable. Chourouk complète : en plus des données brutes, rappelons qu’il faut que tout enregistrement soit corrélé à un diagnostic avéré et vérifié pour pouvoir intégrer un data-set « propre ». Il ne s’agit pas uniquement de faire tousser les volontaires dans un micro mais réellement d’ajouter l’enregistrement à un processus traditionnel de diagnostic pour documenter au maximum les pathologies. Cette approche « documentaire » permettra, une fois réalisée pour différentes maladies, à des équipes et des modèles comme le nôtre d’émerger concrètement. Et – comme on parle de données médicales, donc sensibles par nature – cela impose un degré supplémentaire de complexité dans la collecte et le traitement.

Quelles sont les technologies que vous avez utilisées pour le projet TousseAntiCovid ?

Nos données sont de l’open source (trouvés en ligne, donc), pour le modèle de diagnostic, nous avons utilisé Python (ce qui est assez classique quand on fait du machine learning). Pour le site, nous avons utilisé Flask et Python pour pouvoir raccorder front et back.

D’un point de vue plus technique quant au diagnostic lui-même, nous transformons le son en spectrogramme. Cela donne les différentes fréquences et leur chronologie sur un fichier. C’est sur l’analyse de ce spectrogramme que se fonde le travail de notre modèle.

La force du machine learning est que c’est indétectable pour l’oreille (audio) ou l’œil (spectrogramme) humain. Le modèle analyse et trouve des points de comparaison entre tous les cas Covid avérés et est à-même de prédire un diagnostic sur tout nouveau spectrogramme qu’on lui propose.

Aucun d’entre nous n’avait d’expertise en traitement de signal audio avant ce projet. Ce que nous avons fait, en substance, est de transformer l’audio en image (le spectrogramme). Passée cette étape, nous avions plus de compétences en traitement d’image pour avoir déjà travaillé sur des modèles de diagnostics prédictifs pour des radios pulmonaires. Pour parvenir à ce process, nous avons naturellement étudié comment les applications existantes traitaient le son. De cette phase de recherche et d’inspiration, nous avons pu développer TousseAntiCovid.

Pareillement, pour palier à notre data-set trop restreint, nous avons dû augmenter artificiellement le volume de nos données. Cette étape d’amplification du data-set a été importante et nous avons beaucoup appris de solutions existantes pour parvenir à des résultats probants.

Votre code est-il opensource ou préférez-vous attendre de compléter son apprentissage avant de le rendre public ?

Le code est retrouvable en ligne intégralement sur Github et utilisable par toute personne intéressée pour compléter nos travaux (https://github.com/TousseAntiCovid). Ce que nous retenons surtout, c’est l’avis très favorable du jury qui nous a accueilli, la cohésion d’équipe qui a émergé durant l’ensemble du projet. Au niveau technique, les retours étaient bons également, pour le moment cela nous suffit.

Vous auriez un conseil pour un étudiant du Mastercamp de l’année prochaine afin qu’il profite à fond de ce moment ?

Tous anti covidPour Loïc, c’est clair : il faut s’investir à 100% dans le projet, c’est l’occasion de travailler en immersion sur un sujet technique et concret ou l’investissement fait la différence. On est loin des projets « traditionnels » de TP ou autre car le Mastercamp va plus loin et demande un aboutissement beaucoup plus extrême en un mois de temps. Une approche partagée par toute l’équipe qui a œuvré ensemble à la bonne conduite de TousseAntiCovid. Capucine complète : sur ce genre de projet immersif, il est important de bien s’entourer dès le départ. Une équipe bien construite permet à chacun d’avoir des faiblesses autant que des sujets d’excellence. Le collectif lisse les faiblesses et permet aux qualités de se révéler essentielles. Une bonne complémentarité entre tous est une formule qui marche. Gul en convient : le Mastercamp a été l’occasion de travailler ensemble d’une manière intensive au sein d’une équipe assez nombreuse. Nous avons tous beaucoup appris à la fois techniquement mais aussi sur la gestion et la bonne conduite d’un projet depuis sa conception jusqu’à sa livraison. Et Chourouk de conclure : cette complémentarité entre les membres d’une équipe est indispensable et permet au groupe de se dépasser. Elle fait du Mastercamp une expérience agréable et enrichissante ou peut – à l’inverse – le rendre difficile. Dans notre cas, l’émulation du groupe était très stimulante pour tous et cela se traduit par un projet réussi dans une bonne ambiance de travail.