Si elle n'est pas encore capable d'imiter l'intelligence humaine, l'intelligence artificielle peut désormais reproduire certains des mécanismes du cerveau humain. Les dernières semaines ont ainsi vu plusieurs outils démocratiser les avancées de l'intelligence artificielle dite "générative", qui s'appuie sur les techniques d'apprentissage à grande échelle des réseaux neuronaux pour créer des productions originales et cohérentes.
Le plus célèbre d'entre eux est sans nul doute le modèle de traitement de langage naturel ChatGPT, le phénomène technologique de ce début d'année qui cumule déjà des millions d'utilisateurs à travers le monde. Dans son sillage, des modèles d’apprentissages spécialisés dans la création de visuels, comme Midjourney ou Dall-E, capables de générer des images originales à partir de simples commandes écrites, ont aussi fait irruption dans le paysage médiatique, bousculant les secteurs de l'enseignement, du marketing et de la création.
Alors que les investisseurs s'arrachent ces nouvelles coqueluches du monde de l'intelligence artificielle, Google prépare sa contre-attaque. Attaqué sur son modèle, le géant publicitaire américain, qui investit depuis longtemps dans le machine learning, prévoirait de lancer une vingtaine de produits liés à l'IA au printemps prochain lors de sa grande conférence annuelle Google I/O, explorant de nombreux domaines, dont la création musicale.
Dans cette perspective, Google a publié le 26 janvier une première note scientifique sur MusicLM, un modèle capable de créer de la musique virtuelle dans n'importe quel genre sur simple demande. Cette IA, entraînée à partir d'une base de données de 280.000 heures de musique, fonctionne à partir de "prompts": il suffit de décrire dans une commande textuelle le genre de musique, la mélodie, l'ambiance ou les instruments souhaités pour qu'elle génère des fichiers sonores de 24 Hz cohérents de plusieurs minutes.
Pour accompagner leur article scientifique, les chercheurs de Google ont mis en ligne un site illustrant les capacités de leur algorithme musical. On y trouve par exemple des morceaux de 30 secondes illustrant "la bande originale d'un jeu d'arcade, rapide et optimiste, avec un riff de guitare accrocher" ou "une fusion de reggaeton et de musique dance électronique avec un son spatial d'un autre monde donnant l'impression d'être perdu dans l'espace et évoquant un sentiment d'émerveillement et de crainte", mais aussi des productions de 5 minutes de "techno mélodique" ou de "jazz relaxant".
Outre ces échantillons, le site comporte un mode "histoire" montre comment l'IA arrive à combiner plusieurs commandes (musique pour méditer, se réveiller puis courir) pour générer une bande son progressive. Un mode "Conditionnement" permet de générer de multiples déclinaisons d'un même air, en l'occurrence Bella Ciao décliné à la guitare, en fredonnant, au saxophone, au synthétiseur électronique ou en version air d'opéra.
Même si tous les sons ne sont pas très aboutis, la plateforme donne à voir un aperçu des capacités de l'algorithme, qui serait, d'après les ingénieurs de Google, largement au-dessus des modèles précédents. Contrairement à ChatGPT, le programme n'a pas été rendu accessible au public. Les chercheurs de Google expliquent que le développement de ce type d'IA soulève des problèmes de copyright, leur modèle s'entraînant sur des œuvres qui sont protégées par le droit d'auteur. D'autres projets de générateurs sont dans les cartons en parallèle, notamment Jukebox par OpenAI. Le site spécialisé TechCrunch rappelle que plusieurs procès en cours devant les tribunaux américains devraient préciser le cadre juridique en vigueur à l'avenir autour de ces systèmes d'aide à la création musicale.