Open SourceLe personnage 3 transforme une seule photo et un fichier audio en une vidéo réaliste d'une tête parlante. Il analyse la parole pour créer une synchronisation labiale précise, une animation faciale expressive et des mouvements de tête subtils tout en préservant l'identité et le style du sujet. Les sorties sont généralement de 24 à 30 images par seconde jusqu'à 512 à 1024 pixels, avec des résolutions plus élevées possibles sur un matériel plus puissant. Les meilleurs résultats sont obtenus avec une image bien éclairée de face et un audio propre. Il y a un compromis entre qualité et vitesse : une résolution plus élevée et un audio plus long prennent plus de temps et de ressources. Si les résultats ne sont pas satisfaisants, essayez de recadrer plus près du visage, de raccourcir l'audio ou de relancer avec une parole réduite au bruit et clairement articulée.