Baidu/Deep Voice apprend à parler en quelques heures seulement !

Non, il ne s’ag­it pas du logo d’une nou­velle mar­que d’al­i­ments pour chien ! Hey, on est sur un blog qui par­le tech­no ou pas ? Rap­pelez-vous, nous avons par­lé il y a quelques temps de Deep­Mind qui est devenu le cham­pi­on inter­na­tion­al de Go grâce au Deep Learn­ing (Ten­sor­flow). Aujour­d’hui, nous allons par­ler de Deep… Voice ! Rien à voir avec Google, mais plutôt avec les chi­nois de Baidu ! Chez Google, la tech­nolo­gie Ten­sor­flow est présente à tous les étages et a per­mis de d’amélior­er grande­ment des ser­vices comme Google Trans­late (vous ver­rez, bien­tôt, les tra­duc­tions seront par­faites: elles le sont en anglais-chi­nois déjà). Des tech­nolo­gies comme la recon­nais­sance ou la syn­thèse vocale dérivent un peu de tout ça. Qu’en est-il chez Baidu ? Déjà qu’ils ont 80% du traf­fic coté moteur de recherche en chine… veu­lent-ils inve­stir d’autres domaines avec force et rage ?

Baidu a ouvert en 2013 un lab­o­ra­toire de recherche en intel­li­gence arti­fi­cielle (IA) dans la Sil­i­con Val­ley. Il s’est lancé dans un tra­vail sur la syn­thèse de la parole.

Les sys­tèmes Text-to-speech (syn­thèse vocale comme le Dr Sbait­so ! pour les plus vieux) sont fam­i­liers dans le monde mod­erne dans les applis de nav­i­ga­tion, hor­loges par­lantes, répon­deurs télé­phonique. Je me rap­pelle encore de ce petit boi­ter que je bran­chais der­rière mon CPC 464 et qui épataient mes amis en faisant par­ler le bouzin  ! C’é­tait l’époque “Les petits génies” (The Whiz kids) et Joshua de Wargames !

Désolé, j’ai pas pu m’empêche, c’é­tait la séquence nostalgie 😉

La syn­thèse vocale anci­enne généra­tion pas­sait par l’en­reg­istrement d’une grande base de don­nées de voca­bles d’une seule per­son­ne, élé­ments ensuite recom­binés pour faire de nou­velles phras­es. Un peu comme dans le film “les experts” (Sneak­ers) avec cette phrase dev­enue célèbre “ma voix est mon passe­port, con­trôlez moi”…

 Le prob­lème, avec ces sys­tèmes, est qu’il est dif­fi­cile de réalis­er des mod­i­fi­ca­tions sur la voix sans enreg­istr­er une base de don­nées entière­ment nou­velle. le tra­vail a donc porté sur une autre approche, syn­thé­tis­er la parole en temps réel à par­tir de zéro !

L’an­née dernière, Deep­Mind de Google a fait une per­cée impor­tante dans ce domaine. Il a dévoilé un réseau de neu­rones qui apprend à par­ler en écoutant les ondes sonores de la parole et en la com­para­nt à un doc­u­ment écrit du même texte. Après la for­ma­tion, il a été en mesure de pro­duire la parole syn­thé­tique à base de nou­veau texte. Google Deep­Mind a appelé son sys­tème WaveNet.

La prin­ci­pale dif­fi­culté de la syn­thèse vocale est la diminu­tion du temps de retraite­ment par des experts humains. Pour y faire face, Baidu a sur­mon­té le prob­lème et obtenu une vitesse de cal­cul 400 fois plus rapi­de que WaveNet (à matériel équiv­a­lent). Donc, moins de besoins de ce coté là.

Le sys­tème com­prend cinq blocs de con­struc­tion majeurs, avec réseau neur­al pour chaque:

  • un mod­èle de seg­men­ta­tion pour localis­er les lim­ites de phonèmes (réseaux neu­ronaux pro­fonds util­isant une perte de clas­si­fi­ca­tion tem­porelle con­nex­ion­niste (CTC)),
  • un mod­èle de con­ver­sion de grapheme-to-phonème,
  • un mod­èle de pré­dic­tion de durée de phonème (pour le rythme je suppose)
  • un mod­èle de pré­dic­tion de fréquence fon­da­men­tale (pour les into­na­tions je suppose)
  • et un mod­èle de syn­thèse audio (vari­ante de Wavenet, plus rapide).

Par exem­ple, pour dire hel­lo, nous avons:  « (silence HH), (HH, EH), (EH, L), (L, OW), (OW, silence) », chaque phonème sera pris dans le sys­tème de syn­thèse vocale.

Ain­si, son sys­tème de syn­thèse vocale de qual­ité est entière­ment con­stru­it à par­tir des réseaux de neu­rones pro­fonds. Il n’y a pas de retraite­ment humain derrière !

Deep Voice apprend ain­si à par­ler de façon flu­ide en quelques heures avec peu ou pas d’interférence humaine.

« Pour effectuer le tra­vail en temps réel, nous devons pren­dre grand soin de ne jamais recal­culer aucun résul­tat, stock­er l’ensem­ble du mod­èle dans le cache du processeur et d’u­tilis­er de façon opti­male les unités de cal­cul disponibles », dis­ent les chercheurs Baidu.

Écoutez quelques exem­ples ici.

 

Laisser un commentaire

Fièrement propulsé par WordPress | Thème : Baskerville 2 par Anders Noren.

Retour en haut ↑

%d blogueurs aiment cette page :