A l’aide de HeyGen, cette vidéo a pu être réalisée. Heygen est un outil IA qui permet de générer des vidéos avec notre voix grâce à l’IA. Il suffit de faire une vidéos vocale de 30 secondes, pour que l’outil puisse faire notre avatar. Ensuite, il suffit de lui donner un texte ( ou même un vocal) pour retransmettre ce texte en vidéos. L’objectif de cet outil est de simplifier la création de vidéos: il n’y plus besoin de refaire la prise, ou d’investir sur des matériels spécifique( son, …). Ainsi des vidéos de présentation, de formation peuvent être publiés sur le site.
La voix de cette vidéo parait monotôme et robotique, elle manque donc d’expresivité et de naturel.
Pour une voix plus naturelle, Il est préférable d’utiliser Elenlabs, un logiciel utilisant l’ IA pour la synthèse vocable au son naturelle. Ce logiciel permet de faire 3 paramétrages de notre voix:
Stabilité
Le curseur de stabilité détermine à quel point la voix est stable et la randomisation entre chaque génération. Diminuer ce curseur introduit une gamme émotionnelle plus large pour la voix.
Comme mentionné précédemment, cela est également fortement influencé par la voix originale. Régler le curseur trop bas peut entraîner des performances étranges qui sont excessivement aléatoires et amener le personnage à parler trop rapidement. D’autre part, le régler trop haut peut conduire à une voix monotone avec une émotion limitée.
Similitude
Le curseur de similitude dicte à quel point l’IA doit adhérer à la voix originale lorsqu’elle tente de la reproduire. Si l’audio original est de mauvaise qualité et que le curseur de similitude est réglé trop haut, l’IA peut reproduire des artefacts ou des bruits de fond en essayant d’imiter la voix si ceux-ci étaient présents dans l’enregistrement original.
Exagération du Style
Avec l’introduction des modèles plus récents, nous avons également ajouté un paramètre d’exagération de style. Ce paramètre tente d’amplifier le style du locuteur original. Il consomme des ressources informatiques supplémentaires et peut augmenter la latence s’il est réglé sur autre chose que 0. Il est important de noter que l’utilisation de ce paramètre a montré qu’il rend le modèle légèrement moins stable, car il s’efforce d’accentuer et d’imiter le style de la voix originale.
En général, nous recommandons de garder ce paramètre à 0 en tout temps.
La vidéo suivante a été fait avec les paramètres suivants: