Ir al contenido
Inicio » VALL-E, la inteligencia artificial capaz de imitar cualquier voz tras escuchar un audio de 3 segundos

VALL-E, la inteligencia artificial capaz de imitar cualquier voz tras escuchar un audio de 3 segundos

Es una tecnología desarrollada por Microsoft. Cómo probarlo.

Mientras que la sofisticación del chatbot el debate sobre la inteligencia artificial crece y se intensifica, microsoft se encuentra en pleno desarrollo de su propia tecnología. Es sobre VALLE y tiene la capacidad de aprender e imitar cualquier voz simplemente tomando una grabación de tres segundos como ejemplo.

La empresa fundada por Bill Gates también trabaja en proyectos para sumar el chat desarrollado por OpenAI ChatGPT en sus buscadores y en la suite Office, según varios medios estadounidenses. Entre otros, integraría Word, PowerPoint y Outlook. También piensas usarlo en tu buscador Bing y así entrar en competencia con Google.

Cómo es VALL-E, la inteligencia artificial de Microsoft

El modelo VALL-E.


El modelo VALL-E.

El gigante tecnológico de Redmond presentó su proyecto de IA VALLEun modelo de lenguaje Text-to-Speech (TTS) capaz de sintetizar texto para transformarlo en voz.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo. arriba”, explica la compañía en su sitio web.

La máquina está preparada a conciencia. Durante el período previo, se ingresaron datos de capacitación de TTS en 60,000 horas de habla inglesa, “cientos de veces más grandes que los sistemas existentes”.

La novedad de esta tecnología desarrollada por Microsoft es tu capacidad de aprendizaje en contexto que, a través de grabaciones de audio de tan solo tres segundos, es capaz de imitar las voces de estas grabaciones.

“VALL-E emerge capacidades de aprendizaje en contexto y se puede utilizar para sintetizar un discurso personalizado de alta calidad con solo una grabación de tres segundos de un hablante invisible como un aviso acústico”, dijeron.

La multinacional estadounidense se muestra muy satisfecha con los resultados, entendiendo que “superan significativamente al sistema TTS de última generación en términos de naturalidad del habla y similitud de los hablantes”.

Sus desarrolladores también señalan que las muestras tomadas sugieren que VALL-E podría “preservar la emoción del hablante y el entorno acústico del mensaje”.

El gigante de Redmond apunta todo a la IA.  (Foto: Reuters)


El gigante de Redmond apunta todo a la IA. (Foto: Reuters)

La noticia no acaba aquí. VALL-E es que está siendo desarrollado para trabajar con “otros modelos generativos de IA”, como GPT-3. En un futuro no muy lejano, esta característica ofrece posibilidades de integrar VALL-E en otras tecnologías como ChatGPT.

En la misma línea que Microsoft, otros gigantes de la industria también se han adentrado en el campo de estas tecnologías inteligentes.

Los investigadores de Meta (Facebook) desarrollaron recientemente un programa llamado Cicerón, en honor al estadista romano Cicerón.

El software probó Diplomacy, un juego de mesa que requiere que los participantes muestren sus talentos de negociación.

“Si no hablas como una persona real, mostrando empatía, construyendo relaciones y hablando correctamente, no podrás forjar alianzas con otros jugadores”, explicó el gigante de las redes sociales en un comunicado.

personaje.ai, una startup fundada por exingenieros de Google, lanzó un chatbot experimental en línea en octubre que puede adoptar cualquier personalidad. Los usuarios crean personajes basados ​​en una breve descripción y luego pueden “chatear” con un falso Sherlock Holmes, Sócrates o incluso Donald Trump.

Este grado de sofisticación fascina, pero también preocupa a muchos observadores con la idea de que estas tecnologías no se utilizan para engañar a los humanos, difundiendo información falsa, por ejemplo, o creando estafas cada vez más creíbles.

SL

mira también

Leer la nota Completa > VALL-E, la inteligencia artificial capaz de imitar cualquier voz tras escuchar un audio de 3 segundos