Aussi étonnant que celui puisse paraître, Google n’avait pas encore créé d’application Dictaphone pour les smartphones Android. Cette étrange absence est désormais comblée. Lors de la présentation du Pixel 4, ce mardi 15 octobre à New York, la firme de Mountain View a fait la démonstration d’une application Recorder dont les fonctionnalités semblent beaucoup plus avancées que celles des nombreux enregistreurs vocaux disponibles sur le magasin d’applications d’Android.
Recorder se distingue des autres applications de mémos vocaux par son intelligence artificielle embarquée. Elle peut retranscrire en temps réel les enregistrements audio mais aussi retrouver une phrase ou une séquence précise (des rires, des applaudissements, de la musique) dans les sonores en moins d’une seconde. Un rêve exaucé pour les journalistes et les nombreuses personnes dont l’activité les conduit à mener des interviews et à les retranscrire.
Contrairement à l’excellente application de transcription Otter.ai, qui effectue ces opérations à distance et nécessite de télécharger les données sur un serveur, Google va plus loin en faisant la transcription directement sur l’appareil. Comme elle l’avait annoncée lors de la conférence Google I/O en mai, l’entreprise utilise ici un nouveau modèle de traitement du langage qui a été suffisamment réduit pour pouvoir être exécuté entièrement sur le téléphone.
L’application Recorder est seulement disponible en anglais pour l’instant. Elle sera proposée en exclusivité sur les smartphones Pixel 4 le 24 octobre puis étendue à d’autres smartphones Android. Comme au lancement de Google Assistant, Google travaille à rendre cette fonctionnalité disponible dans d’autres langages, dont le français, pour le courant de l’année prochaine.
Adapter des outils de reconnaissance vocale dans de nouveaux langages est un travail de longue haleine. Google, comme les autres entreprises du secteur, doivent pour cela relever de nombreux défis.
Les technologies d'apprentissage automatique sur lesquels reposent leurs outils nécessitent des milliers d'heures d'entraînement et d'immenses quantités de données à ingérer pour être efficaces. Ces ensembles, qui doivent couvrir un large éventail d'environnements acoustiques et de champs lexicaux, sont plus ou moins abondants selon les langages. Certaines langues, comme le français, présentent en plus des difficultés supplémentaires relatives aux accents et aux variations de dialectes.
Bienvenue sur RTL
Ne manquez rien de l'actualité en activant les notifications sur votre navigateur
Cliquez sur “Autoriser” pour poursuivre votre navigation en recevant des notifications. Vous recevrez ponctuellement sous forme de notifciation des actualités RTL. Pour vous désabonner, modifier vos préférences, rendez-vous à tout moment dans le centre de notification de votre équipement.
Bienvenue sur RTL
Rejoignez la communauté RTL, RTL2 et Fun Radio pour profiter du meilleur de la radio
Je crée mon compte