Raphael Fruchard (The) : « Créer une musique from scratch avec une IA reste dangereux »

Adobe dévoile Firefly Image 3 : une avancée majeure dans le monde de Photoshop

Découvrez notre nouvelle école de marketing et créativité 100% online et développez des compétences uniques.

À l’heure où l’intelligence artificielle bouleverse la voix et la musique, les cofondateurs du studio de production audio « The » défendent une vision claire : l’IA est un outil puissant, mais qui ne doit jamais effacer le rôle de l’humain.

Nous avons eu le plaisir d’échanger avec Raphael Fruchard, qui nous éclaire sur les promesses, les limites et l’avenir d’une création sonore augmentée… mais toujours incarnée.

1. Quelle est la différence entre le text-to-speech et le voice mapping, et pourquoi cette nuance est essentielle ?

Le text-to-speech consiste à générer une voix à partir d’un texte, en s’appuyant sur une voix pré-enregistrée ou totalement synthétique. L’IA “joue” la phrase en ajoutant des inflexions, mais le résultat reste limité, notamment en français où les nuances émotionnelles sont encore souvent insatisfaisantes.

Le voice mapping, à l’inverse, repose sur l’interprétation d’un comédien : l’IA vient ensuite appliquer le timbre d’une autre voix sur son jeu. On conserve ainsi les intentions, l’émotion et la qualité d’interprétation, mais avec une voix différente. Les résultats peuvent être bluffants, à condition d’utiliser l’outil avec discernement : toutes les voix ne s’adaptent pas à toutes les interprétations.

C’est cette approche que nous privilégions, car rien ne remplace le talent et la sensibilité d’un comédien. Mais elle nécessite un cadre clair sur les droits et une collaboration respectueuse avec toutes les parties. L’IA n’est pas un outil magique ou gratuit : elle doit s’utiliser de manière responsable.

2. Comment utilisez-vous déjà l’IA dans vos productions chez The ?

Nous y avons recours principalement dans des contextes où les contraintes budgétaires sont fortes. La rémunération d’un comédien peut représenter 30 à 50 % du budget, calculée en fonction du nombre de formats, indépendamment du rôle réel de la voix. Avec la multiplication des déclinaisons, notamment en digital et à l’international, il est parfois difficile de rester dans l’enveloppe.

Dans ces cas précis, nous utilisons le voice mapping. C’est aussi le cas pour des mood films, les case ou des vidéos en anglais, lorsque le budget ne permet pas de faire appel à un comédien.

Mais c’est surtout sur nos podcasts jeunesse – un secteur où le modèle économique reste fragile – que nous l’employons régulièrement. Nous publions quotidiennement, et l’IA nous permet de diversifier les voix à partir d’une même base, tout en conservant le rythme de production.

3. Peux-tu donner un exemple concret où le voice mapping a vraiment fait la différence ?

Oui, dans notre podcast Il était une fois, nous avons par exemple recréé une voix de grand-père. Le comédien enregistre les textes avec les bonnes intentions, puis nous appliquons ce timbre sur son interprétation. Le résultat est vivant, crédible et parfaitement cohérent.

En publicité, nous avons aussi utilisé cette technique pour modifier des phrases après coup, quand le comédien original n’était pas disponible – mais toujours avec son accord. C’est encore un sujet sensible, car il touche directement aux revenus des comédiens. Mais les mentalités évoluent dès lors qu’on comprend que l’objectif n’est pas de casser le marché, mais de produire plus de formats avec les moyens existants.

4. Certains annonceurs voient dans l’IA un moyen de réduire les coûts en remplaçant des comédiens. Comment leur répondez-vous ?

Optimiser un budget est légitime, mais il ne faut pas confondre les usages. Certaines productions ne peuvent tout simplement pas se passer d’un comédien, tant son apport émotionnel et artistique est décisif.

Notre rôle est d’accompagner les annonceurs : ajuster les moyens à l’ambition, et livrer un résultat pertinent. Oui, il existe des cas où une voix IA suffit, mais il serait absurde d’en faire une règle générale.

C’est comme en gastronomie : on peut recevoir des amis avec des œufs de lump ou avec du caviar. Les deux font l’affaire, mais l’expérience n’est pas la même. À l’annonceur de choisir ce qu’il veut offrir, et à nous de l’aider à trouver le juste équilibre.

5. L’IA sera-t-elle surtout un outil de gain de temps et de flexibilité, ou ouvrira-t-elle de nouvelles formes de création ?

Les deux. Bien utilisée, elle permet déjà d’accélérer certaines étapes et de gagner en agilité. Mais il faut éviter l’usage compulsif : multiplier 50 versions d’un spot peut faire perdre plus de temps qu’en faire gagner.

Côté création, l’IA ouvre aussi de nouvelles perspectives. Elle permet d’explorer des pistes jusqu’ici inaccessibles. Mais cela reste un outil : c’est à nous de le piloter, pas l’inverse.

6. Et du côté de la musique, l’IA est-elle une menace ou une opportunité ?

La logique est la même que pour la voix. Mais étonnamment, dans les productions, les budgets musique sont rarement assez conséquents pour envisager sérieusement de remplacer un compositeur.

Il existe aussi un risque juridique majeur : on ignore souvent quelles sources l’IA a utilisées, et elle peut mélanger des extraits existants. Créer une musique “from scratch” avec une IA reste dangereux.

En revanche, comme outil d’aide à la composition, elle est déjà précieuse. La SACEM estimait en juin dernier que 30 % des compositeurs l’utilisent comme une aide. Là encore, c’est un soutien, pas un substitut.

7. En une phrase, quelle sera la place de l’humain dans la création audio à l’ère de l’IA ?

L’IA, est le savoir. L’humain est la connaissance, l’art et l’émotion.

Conclusion

Entre accélération technologique et respect de l’interprétation humaine, Raphael Fruchard trace une ligne claire : l’IA n’est ni un gadget ni une menace, mais un outil à manier avec discernement. Dans un monde où la production audio s’intensifie et se diversifie, c’est bien la créativité, l’émotion et la singularité des artistes qui resteront au cœur de l’expérience sonore.