Ceux qui prétendent le contraire ne savent pas réellement de quoi ils parlent. Pour en avoir le coeur net, j’ai transformé un essai de création en vue de mes conférences IA en expérience sociale in situ. Voici le retour sur cette expérience autour de l’hymne non officiel « Paris 2024 ». C’est l’heure du bilan après 8 mois.
Vous vous en souvenez peut-être, mais en avril 2024, j’ai produit avec IA une chanson intitulée « Paris 2024, Ta Flamme Olympique ». Je vais ici vous raconter la genèse de ce titre et les résultats obtenus par cette chanson qui, d’après les retours qu’on m’a fait « reste dans la tête » et « est top ! ».
Pour rappel, il m’avait fallu trois heure pour passer de l’idée à un vidéo clip complet, incluant les sous-titres. Trois heures pour engendrer des dizaines de milliers d’écoutes, des passages en radio dans le monde entier, des retours spontanés sur les réseaux sociaux, etc. et une avalanche de réactions émotionnelles humaines positives.
La création d’une chanson à base d’intelligence artificielle
Pour créer cette chanson, pas le choix, il fallait une idée de départ. Montée en puissance des Jeux Olympiques de Paris 2024, c’est assez naturellement que je me suis dit que mon exemple de création sera sur ce sujet. J’avais besoin de quelque chose à montrer lors de mes conférences sur l’IA générative.
Créer un texte de chanson
C’est alors que j’ai pris un certain nombre d’IA génératives pour avancer et passer de l’idée à un texte. Tout d’abord, j’ai mobilisé Google Gemini (entraîné sur les données de YouTube) pour générer une première version de texte que j’ai ensuite remanié via ChatGPT (GPT4, meilleur à l’époque sur les textes) et Mistral Le Chat (meilleur en français), avant de faire quelques ajustements humains sur des rimes et améliorer le storytelling de la chanson, sa progressivité. J’avais mon texte.
« Dans les rues de Paris s’allume une flamme, Un espoir qui danse dans tous les regards. Le monde entier se retrouve, une seule voix, Sur la Seine résonnent les chants de joie. »
On notera qu’il est faux de dire que l’IA va d’emblée et sans travail générer un texte de chanson correct. Ici il a fallu cascader des IA et retravailler le résultat pour obtenir quelque chose de satisfaisant. L’IA seule n’est nullement en capacité de créer, il faut la guider, et faire des allers retours, comme dans tout processus créatif.
Créer une musique / une chanson avec de l’IA
Pour créer la musique et le chant, il fallait d’autres IA car la multimodalité ne permettait pas (et ne permet toujours pas d’ailleurs) de passer du texte à la chanson dans le « même environnement ». Ici, j’ai testé deux outils autour de ma chanson : Suno (en v3) (que je connaissais déjà depuis plusieurs mois pour avoir produit Quantum Groove Odyssey un an auparavant) et Udio.
Les deux outils sont plutôt bons. Toutefois, pour cette création que je souhaitait très pop rock, variétés françaises, Udio s’est avéré trop « dark » et « urbain » dans ses rendus. C’est d’ailleurs un travers qu’il a toujours je trouve. Suno est en effet beaucoup plus polyvalent à mon sens dans ses générations et permet une plus grande richesse sonore. La V4 est d’ailleurs assez bluffante sur la qualité des voix et de la structure musicale.
Là aussi, il a fallu quelques prompts, essais puis erreurs pour arriver à produire quelque chose qui « sonnait ». L’orientation : la french touch variété grand public à fond ! Dans la version 3, le modèle ne générait que des blocs de 30-40 secondes environ. Une fois le premier bloc stabilisé, il a été facile de produire les autres blocs de la chanson. Toutefois, il fallait encore faire le recollement des blocs (et là je l’ai fait à la main). Depuis les modèles génèrent des durées plus longues et recollent automatiquement les blocs si besoin. Cela aurait été encore plus rapide de le produire aujourd’hui.
La production du clip vidéo de Paris 2024, ta flamme olympique
Pour créer les sous-titres j’ai utilisé une autre IA (appelée Rotor) qui m’a permis de synchroniser automatiquement le texte avec la chanson (gain de temps dingue car c’est le plus long cette partie des sous titres dans une vidéo). Pour les images de la vidéo, j’ai fait au plus simple car les text-to-video et autre générateurs de video étaient encore trop peu efficace (depuis j’ai fait des tests avec Gen3 de Runway en text-to-video avec le titre Couleur Turquoise et en image-to-video avec Unattainable Flame).
Aujourd’hui la production de vidéo via IA reste une opération assez longue car les générateurs produisent des blocs de 10 secondes, et il faut recoller les morceaux. Par ailleurs, Gen3 est plutôt bon sur des scènes et plans larges, mais beaucoup moins bon dans l’animation de personnages ou d’objets. Vous pouvez le voir sur les clips affichés dans cette section. Par ailleurs la persistance des personnages ne peut être obtenue qu’en mode « image to video ».
La question des droits d’auteurs
Cela reste une vraie question. Ce que je peux dire en tout cas c’est que ma création (qui n’est pas 100% IA, donc qui peut prétendre à copyright en l’état actuel des réflexions juridiques selon le Bureau Fédéral Américain du Copyright) passe sans aucun problème les dizaines de tests de « violation de copyright » que j’ai pu effectuer en la déposant sur toutes les plateformes d’écoute musicale possibles : Spotify, Deezer, Apple Music, Amazon Music, etc. Le résultat est sans appel : aucune violation de droits puisque le résultat n’est pas similaires à un titre déjà connu (ces bases en rassemblent des dizaines de millions !).
Cette création résulte bien de l’alchimie de l’intelligence biologique que je suis et de plusieurs intelligences artificielles que j’ai pilotées pour atteindre ce résultat. Toutefois, se pose la question des données d’entraînement des Suno et autres Udio et du modèle de rémunération des ayant droits qui ont « contribué » à cet entraînement. Le débat n’est toujours pas tranché à ce stade. La question est complexe car techniquement on ne sait pas relier le résultat (la génération) aux données qui ont permis de générer le résultat. Difficile d’envisager un modèle de rémunération se faisant (sauf à copier celui de la répartition générale de la SACEM par exemple).
Enfin à noter les outils proposés ici par IRCAM Amplify pour « vérifier » s’il s’agit d’une création IA. Je crains que ce type de tests ne souffrent des mêmes défauts que ceux pour les textes (voir mon article ici sur les détecteurs de contenus IA). Je n’ai fait que démarrer mes tests de « validité » de cet outil pour la musique, mais pour le texte, rappelons le, ça ne marche pas !
Les résultats de la diffusion de cette chanson IA : 120 000+ streams et bien plus
Les résultats sont assez étonnants puisque à date, Paris 2024 Ta Flamme Olympique a été (sans action marketing) :
- vue et écoutée plus de 34000 fois sur YouTube (avec un compte à 50 followers au départ de l’expérience !),
- écoutée près de 6000 fois sur Spotify (19 fois à Cracovie en Pologne, 13 à Rotterdam au Pays-Bas, 11 à Bogota en colombie,
- écoutée près de 3000 fois sur Deezer (y compris 48x en Allemagne, 17x au Danemark, 30x aux USA, et 16x au Brésil)
- écoutée près de 2000 fois sur Apple Music (dont 45 fois à Yamaguchi au Japon et 36 fois à Berlin en Allemagne)
- Shazamée plus de 400 fois (en France mais aussi en Ouzbékistan, au Brésil, au Mexique, aux USA, etc.)
- diffusée 182 fois en radio (168 par Nowe Radio à Lublin (Pologne), 3 par MC Doualiya à Paris (France), 2 par VOV2 à Hanoi (Cambodge), 2 par Kotor FM à Herceg Novi (Montenegro), et 2 par ID FM à Paris (France).
- vue sur Twitter / X (un bon 15 000 fois en cumulé des messages)
Au total cela amène à plus de 120 000 streams du morceau, produit en 3h… Par souci d’aller au bout de cette expérience « grandeur nature », j’avais tenté d’approcher quelques grandes radios françaises, et quelques animateurs radio mais aucune réponse ni positive, ni négative, ni rien : un vrai ghosting… J’avais aussi approché le Comité Olympique français via Tony Estanguet qui, lui, a été très classe. Il m’a répondu et m’a souhaité bonne chance dans « mon projet ». Une manière élégante de dire qu’ils n’étaient pas intéressés mais au moins eux ont répondu ! Ce qui n’est pas le cas de quelques autres personnalités publiques (hors media) que je ne mentionnerai évidemment pas.
Ce qui m’a fait le plus plaisir c’est plutôt les retours spontanés sur les réseaux sociaux (par dizaine). Le titre a par exemple fait danser et chanter des dizaines (centaines ?) de jeunes partout dans le monde car des collèges / lycées francophones m’ont contacté pour utiliser le morceau lors des animations JO. J’ai aussi reçu la vidéo d’une jeune enfant filmée par ses parents en train de chanter à tue-tête le titre dans son salon !
Et mon préféré, cette demande de traduction des paroles en persan sur Instagram… j’ai dit oui, mais ne sais pas parler persan. Voilà le post :
Conclusion
La conclusion c’est qu’une production musicale IA combinée à de l’intelligence humaine déclenche très clairement des réponses émotionnelles humaines. Elle amène aussi à réfléchir… N’est-ce pas là aussi le but de l’art ? Il me paraît donc important, et utile que les industries créatives s’emparent de cette technologie qui est au final un formidable accélérateur de créativité.
Dans tous les cas, cela m’a poussé à continuer mon exploration de ce sujet, à travers un premier album « Variations », lui aussi disponible partout. Vous pouvez retrouver toute ma discographie sur ce site.
Ah et pour tous ceux qui pensent que je me suis enrichi avec ces dizaines de milliers d’écoutes, je suis désolé de vous annoncer que cela paye à peine l’abonnement de deux mois à une IA générative. Un total de l’ordre de 85 euros à ce stade. Cela soulève évidemment la question de la juste rémunération des créateurs. N’est-ce pas aussi cela que vient interroger l’IA générative ?