On n'arrête plus DeepMind. Célèbre pour avoir triomphé du champion du monde du jeu de Go, capable d'imiter la voix humaine à la perfection et de traduire un texte automatiquement, l'intelligence artificielle de Google vient d'ajouter une nouvelle ligne à son palmarès. Avec l'aide de chercheurs de l'université d'Oxford, l'entreprise spécialisée dans le "deep learning" a mis au point un programme capable de convertir les mouvements des lèvres en texte avec un taux d'exactitude supérieur à celui des meilleurs spécialistes humains.
Baptisé Wlas, pour "watch, listen, attend and spell", le logiciel s'est fait les dents sur des milliers de programmes diffusés par la BBC ces cinq dernières années pour apprendre à lire sur les lèvres des humains. Les réseaux neuronaux ont digéré plus de 5.000 heures d'émission, soit près de 120.000 phrases.
Les chercheurs l'ont ensuite exposé à des programmes diffusés entre mars et septembre cette année. Il est alors parvenu à reconnaître les phrases prononcées par les différents intervenants avec un taux d'exactitude de 46.9%, contre un peu moins d'un quart pour le professionnel humain soumis aux mêmes programmes. Et la plupart de ses erreurs tiennent à peu de choses, comme l'oubli d'un "s" à la fin d'un mot, difficilement décelable à l'oral. Avec ce résultat, le système Wlas surpasse tous les autres dispositifs reconnaissance labiale
Jusqu'à présent, les logiciels de reconnaissance labiale travaillaient sur des mots isolés. Le système Wlas va plus loin et prédit des phrases entières. Il y a deux semaines, un système similaire appelé LipNet, également développé par des chercheurs de l'université d'Oxford,avait déjà surpassé l'homme sur un exercice de lecture labiale. Mais celui-ci ne disposait que d'une base de données d'une cinquantaine de mots uniques quand le système Wlas en contient près de 18.000.
"Une machine capable de lire sur les lèvres ouvre la voie à de multiples applications comme la dictée d'instructions, la dictée de message à un téléphone dans un environnement bruyant, la transcription et le doublage de films sans son, la compréhension de discours où plusieurs personnes s'expriment et, plus largement, l'amélioration de la performance de la reconnaissance vocale", se sont enthousiasmés les chercheurs dans les conclusions de leur étude.
Commentaires