Google vient de dévoiler une nouvelle intelligence artificielle génératrice de contenus, appelée MusicLM. Ce modèle est capable de générer de la musique à partir d’une description textuelle en utilisant un ensemble de données de 280 000 heures de musique, ce qui lui permet de créer des morceaux « cohérents pendant plusieurs minutes ».
MusicLM est capable de générer divers types de contenus musicaux, y compris des bandes sonores pour des jeux d’arcade, des morceaux de musique de 5 minutes, des contenus audio qui évoluent grâce à une séquence de « prompts » (des sons en fonction d’une image), des courts contenus audio d’une durée de 10 secondes avec différents instruments et styles, ainsi que des sons différents pour une même description.
Bien que les chercheurs affirment que MusicLM est supérieur aux systèmes précédents en termes de qualité audio et de fidélité à la description textuelle, l’IA n’est pas parfaite. Les sons générés ne sont pas toujours agréables à écouter et les paroles ne sont pas toujours compréhensibles. En outre, les chercheurs ont identifié de nombreux défis éthiques avec ce système, notamment l’intégration de contenus protégés par le droit d’auteur dans les morceaux générés. Lors d’une expérience, ils ont découvert qu’environ 1% de la musique créée par MusicLM était directement inspirée de chansons sur lesquelles il avait été formé.
Ces risques éthiques empêchent actuellement la mise à disposition de MusicLM au public. Les chercheurs expliquent qu’il est nécessaire de travailler sur ces problèmes pour rendre ce système plus équitable et éthique avant de le rendre disponible au grand public. Cependant, les résultats de MusicLM montrent le potentiel incroyable de l’IA pour la génération de contenus musicaux dans l’avenir.