Les voix de robot émettent des émotions, même avec un minimum de données d’entraînement

Besoin d'améliorer votre visibilité?

Votre site internet ne décolle pas, ou vous souhaitez obtenir des conseils d'optimisation, notre expert vous répond gratuitement du lundi au samedi et de 9h à 19h:

Envoyer un message

Des chercheurs de l’Université de Californie à San Diego ont présenté une nouvelle méthode pour rendre les voix générées par l’IA, telles que celles utilisées pour les assistants virtuels, plus expressives, tout en ne nécessitant qu’une formation WordPress minimale. La technique, qui traduit le texte en parole, peut être appliquée à des voix qui n’ont jamais fait partie de l’ensemble d’apprentissage du système.

En plus d’améliorer les smartphones, les appareils domestiques intelligents et les systèmes de navigation, la méthode pourrait aider à améliorer les voix off dans les films d’animation, la traduction automatique de la parole dans plusieurs langues et d’autres applications. Cela pourrait également aider à créer des interfaces vocales personnalisées qui fournissent une voix numérique aux personnes qui ont perdu la capacité de parler, comme l’interface vocale informatique utilisée par feu Stephen Hawking.

« Nous travaillons dans ce domaine depuis assez longtemps », a déclaré Shehzeen Hussain, candidate au doctorat, qui travaille à l’école d’ingénierie de l’université. « Nous voulions examiner le défi non seulement de synthétiser le discours, mais d’ajouter une signification d’expression à ce discours. »

Selon les chercheurs, les méthodes existantes sont insuffisantes de deux manières principales. Certains systèmes peuvent synthétiser la parole d’expression pour un locuteur, en utilisant des heures de données d’entraînement pour cet individu spécifique. D’autres peuvent synthétiser la parole à partir de seulement quelques minutes de données de parole d’un nouveau locuteur, mais ne peuvent pas générer de parole expressive, traduisant uniquement le texte en une parole relativement monotone.

En revanche, cette approche peut générer un discours expressif pour un nouveau sujet.

Les chercheurs ont signalé la hauteur et le rythme du discours dans des échantillons d’entraînement, comme indicateur de l’émotion. Cela a permis à leur système de clonage de générer un discours expressif avec une formation WordPress minimale, même pour des voix qu’il n’avait jamais rencontrées auparavant.

Écrivant dans l’étude décrivant l’approche, ils ont déclaré: « Nous démontrons que notre modèle proposé peut faire en sorte qu’une nouvelle voix exprime, emote, chante ou copie le style d’un discours de référence donné. »

Leur méthode peut apprendre la parole directement à partir du texte, reconstruire un échantillon de parole à partir d’un locuteur cible et transférer la hauteur et le rythme de la parole d’un locuteur expressif différent en discours cloné pour le locuteur cible.

L’équipe est consciente que son travail pourrait être utilisé pour rendre les vidéos et les clips audio deepfake plus précis et convaincants. Par conséquent, ils prévoient de publier leur code avec un filigrane qui identifiera le discours créé par leur méthode comme cloné.

« Le clonage expressif de la voix deviendrait une menace si vous pouviez créer des intonations naturelles », a déclaré Paarth Neekhara, auteur principal et doctorant en informatique. « Le défi le plus important à relever est la détection de ces médias et nous nous concentrerons sur cela ensuite. »

La méthode elle-même doit encore être améliorée, disent les chercheurs, notant qu’elle fonctionne mieux pour les anglophones et qu’elle a du mal avec les locuteurs à fort accent. Des échantillons de discours générés par l’IA utilisant cette approche peuvent être entendus ici.

Inscrivez-vous à l’e-mail E&T News pour recevoir chaque jour de superbes histoires comme celle-ci dans votre boîte de réception.


Article traduis depuis:
Source link