« Mon projet explore une voie alternative, une IA hybride et interprétable pour l'analyse du son », expose Gaël Richard, de Télécom Paris

Professeur à Télécom Paris, Gaël Richard a décroché une bourse Advanced Grant de l'ERC pour son projet de recherche dans le machine listening, soit l'analyse et le traitement du son par l'intelligence artificielle. Il en dévoile les contours pour I&T.

Réservé aux abonnés
Gaël Richard Télécom Paris
Gaël Richard est aussi directeur exécutif de Hi! Paris, un centre pluridisciplinaire consacré à l’intelligence artificielle et aux données.

Vous avez décroché la bourse Advanced Grant du Conseil européen de la recherche, d'un montant de 2,5 millions d'euros. À quoi servira-t-elle ?

Cette bourse financera Hi-Audio, un projet lié au machine listening, c'est-à-dire l'utilisation de l'intelligence artificielle (IA) comme outil d'analyse et de traitement du son. La tendance actuelle consiste à entraîner des modèles d'IA de plus en plus gros en utilisant le moins possible d'informations en dehors des données d'apprentissage. Leurs performances sont donc corrélées à la quantité de données d'entrée et à la puissance de calcul, ce qui a un impact économique et environnemental non négligeable. Mon projet explore une voie alternative, une IA hybride et interprétable, d'où le sigle Hi.

En quoi consiste cette approche ?

Nous intégrons des modèles qui décrivent notre connaissance de la structure des signaux, de la production ou de la perception du son, à un réseau de neurones. Cela va contraindre l'e space des solutions, permettant d'utiliser moins de données et de limiter le nombre de paramètres du modèle, le rendant plus lisible. La parole est par exemple produite par une vibration des cordes vocales et passe parla gorge, ce qui va permettre de réduire l'espace de représentation du son. La plupart de ces modèles existent déjà. L'objectif du projet et de les rendre intégrables et différentiables afin d'optimiser les paramètres grâce à des fonctions de coût [reposant sur l'écart entre les prédictions du modèle et la réalité, ndlr].

Quels types d'applications envisagez-vous de développer ?

Nous visons deux principaux secteurs : le premier, bien sûr, est celui de la musique, avec notamment l'optimisation des outils de création. Le second est celui de l'analyse de scènes acoustiques. C'est un domaine en plein essor qui consiste en la différenciation, l'identification et l'extraction des différentes sources sonores d'un extrait. Prenez la voiture autonome : elle a des caméras, des radars et des lidars, mais pas d'oreilles. Or, il serait pertinent de savoir s'il y a une sirène ou un klaxon qui retentit derrière elle ou un individu qui parle au véhicule.

Newsletter La Quotidienne
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.