A Microsoft desenvolveu uma inteligência artificial capaz de replicar vozes humanas a partir de amostras de pelo menos três segundos. Treinada com mais de 60 mil horas de áudios em inglês, a IA VALL-E consegue simular criar falas a partir de texto simulando emoções, diferentes tons de voz e até criar expressões e falas inexistentes no áudio original.

O VALL-E é uma inteligência artificial text-to-speech (“texto para fala”, em português, ou TTS) e é objeto de estudo de um projeto apresentado na Universidade de Cornell, em Nova York, Estados Unidos. Trata-se de um modelo de linguagem codec natural capaz de sintetizar falas personalizadas de alta qualidade com apenas gravações de três segundos.

A plataforma toma pequenas faixas de voz como exemplo e as modifica para ler um trecho pequeno de texto, com pausas e diferentes entonações dependendo da pontuação do trecho.

No GitHub, a Microsoft apresentou vários resultados de simulações de voz feitas pelo VALL-E. Algumas das vozes simuladas são convincentes e leem o trecho apresentado de forma coesa e coerente, enquanto outros exemplos são claramente gerados por computador, mais travados e robotizados.

