La technologie Text-to-Speech (TTS) permet désormais de doubler vos vidéos à moindre coût et l'intelligence artificielle révolutionne le monde du doublage de films.
La synthèse vocale représente aujourd’hui une réelle alternative au doublage humain. Cet article s’attache à voir comment elle fonctionne et comment l’utiliser pour les projets de doublage vidéo. Par ailleurs, nous verrons pourquoi l’intelligence artificielle pourrait provoquer un véritable tsunami dans le monde du cinéma.
Comment fonctionnent le doublage humain et le doublage par voix synthétiques ?
Le doublage humain peut être réalisé avec ou sans synchronisation labiale (lip-sync ou simil-sync). Dans les deux cas, il s’agit de remplacer le dialogue d’un contenu audiovisuel par un nouvel enregistrement dans la langue cible. Cet enregistrement est réalisé par des doubleurs professionnels dont la tâche est d’interpréter les traductions adaptées, en reproduisant les mouvements des lèvres de l’acteur original à l’écran. Les doubleurs travaillent dans un studio d’enregistrement avec le directeur de plateau pour les productions cinématographiques (films ou séries tv) ou en home studio avec un directeur de production travaillant en distanciel (il peut via la synthèse vocale indiquer aux speakers exactement la synchronisation labiale qu’il souhaite). L’objectif est de restituer fidèlement les nuances et les émotions de la piste audio originale, ce qui permet de synchroniser naturellement l’audio avec la vidéo.
Le doublage automatique (c’est-à-dire la synthèse vocale) repose sur l’utilisation d’algorithmes d’apprentissage profond (deep learning) pour générer la version doublée des traductions audiovisuelles. Des logiciels tels que Sub2Dub© (dotés de nombreuses fonctions telles que l’insertion de pauses, d’intonations, l’attribution d’une voix synthétique par sous-titres…) permettent d’utiliser les fichiers de sous-titres (contenant donc une synchronisation avec des codes temporels) pour générer une nouvelle piste audio, aboutissant à une version doublée par voix synthétiques du contenu original.
Quels sont les avantages et les inconvénients du doublage humain ?
Avantages du doublage humain
Les enregistrements en studio, assistés par un directeur artistique et un directeur de plateau, donnent un résultat de haute qualité qui transmet fidèlement les émotions et les nuances du contenu audiovisuel original. Les acteurs vocaux sont des professionnels dotés d’une expérience éprouvée, ce qui leur permet d’interpréter tous les rôles. La qualité du doublage, qu’il s’agisse de synchronisation labiale ou non, est authentique si la qualité de la traduction du script est au rendez-vous.
- Haute qualité
- Voix naturelle et authentique
- Interprétation qui transmet les émotions
Inconvénients du doublage humain
Le doublage humain est chronophage, car il implique plusieurs sessions d’enregistrement et un processus de post-production. Le coût des acteurs pour le doublage est élevé, tout comme le coût des traducteurs/adaptateurs qui doivent travailler en amont. Le budget est logiquement amplifié s’il s’agit d’un doublage multilingue.
- Flux de travail laborieux
- Enregistrements coûteux
- Disponibilité limitée des comédiens de doublage
La révolution du doublage synthétique
La synthèse vocale (doublage avec des voix synthétiques) permet de doubler à des coûts nettement inférieurs à ceux du doublage humain, dans des délais nettement plus courts tout en permettant de moduler l’intonation des voix en fonction du contexte. Jusqu’à présent, on pensait que ce type de solution ne convenait qu’aux produits d’apprentissage en ligne (e-learning) ou aux formations universitaires, à certains types de documentaires, aux vidéos d’entreprise et éventuellement aux livres audio. Or, les avancées technologiques font considérablement bouger les lignes en fournissant désormais un doublage de qualité. Le doublage synthétique présente les trois avantages suivants :
- la rentabilité
- l’évolutivité
- la facilité d’utilisation
Ces récentes avancées technologiques dans l’utilisation d’algorithmes d’apprentissage profond (deep learning) permettent de reproduire automatiquement de nombreuses nuances du dialogue humain tout en en y ajoutant le naturel nécessaire. Grâce aux progrès de l’IA, qui alimente chaque jour ces bases d’enregistrements vocaux, les algorithmes peuvent « lire » un texte avec une intonation correcte et naturelle. Aujourd’hui, toutes les productions cinématographiques (films et séries télévisées) sont principalement doublées avec des acteurs humains. Cependant, même dans ce domaine, la situation évolue et le doublage synthétique commence à prendre des parts de marché en doublant des séries tv en 6 semaines au lieu de 16 semaines.
Jusqu’où ira l’intelligence artificielle dans le monde du doublage ?
Dans le domaine des productions cinématographiques, l’intelligence artificielle avance à grands pas et est déjà capable de doubler des films entiers. En effet, la start-up Deepdub est capable de doubler des films avec des voix clonées sur celles des acteurs du film original, comme cela a déjà été le cas dans « Every Time I Die » (2019) de Robi Michael pour Netflix. Autre avancée majeure : l’entreprise britannique Flawless AI a développé le logiciel TrueSync, qui permet de modifier le mouvement des lèvres des acteurs de manière à synchroniser parfaitement le doublage avec la traduction. En conclusion, l’avenir de l’intelligence artificielle dans le monde du doublage s’annonce comme une évolution fascinante, offrant davantage de possibilités créatives, de flexibilité et d’accessibilité. Il s’agira d’une synergie entre l’intelligence artificielle et l’art de l’interprétation humaine, qui conduira à des expériences audiovisuelles de plus en plus immersives et de haute qualité pour les publics du monde entier.
Notre agence de traduction offre deux alternatives concrètes pour réduire les coûts et délais inhérents au doublage réalisé en studio d’enregistrement. La première alternative est le doublage par voix de synthèse qui grâce au logiciel Sub2Dub© permet d’obtenir un doublage réalisé avec l’intelligence artificielle à moindre coût. En outre, si notre agence réalise également la traduction des sous-titres de votre vidéo, nos clients bénéficient du doublage via l’IA gratuit grâce au logiciel Sub2Dub©. La deuxième alternative consiste à réaliser le doublage avec des acteurs professionnels travaillant en home studio sous la régie de notre directeur artistique qui grâce à l’utilisation de l’IA peut indiquer exactement à l’acteur le doublage labial souhaité. Le directeur artistique peut ainsi donner en distanciel des instructions précises aux acteurs, ce qui réduit considérablement les délais et budgets. Le taux de satisfaction de nos clients est très élevé.