OpenAI trabaja en Bidi 1, una nueva voz para ChatGPT que permite escuchar y hablar a la vez

 

OpenAI se encuentra en la fase final del lanzamiento de un nuevo modelo de voz para ChatGPT, conocido como Bidi 1. Esta tecnología está diseñada para ofrecer conversaciones mucho más naturales, gracias a una capacidad poco común en los asistentes de inteligencia artificial: la habilidad de escuchar y hablar simultáneamente.

La información fue revelada por el portal especializado TestingCatalog, que detectó referencias al nuevo sistema dentro del código interno de la aplicación de ChatGPT, indicando que su implementación podría comenzar la próxima semana.

Si se confirma, Bidi 1 representaría la evolución más significativa del modo de voz avanzado que OpenAI presentó hace más de dos años, permitiendo por primera vez mantener diálogos fluidos y en tiempo real con el chatbot.

Una de las principales innovaciones de Bidi 1 radica en su capacidad para procesar tanto la entrada como la salida de voz de manera simultánea. Esto implica que el sistema puede continuar escuchando al usuario mientras está hablando, reaccionando a interrupciones, interpretando pausas naturales y ajustando su respuesta en tiempo real, sin tener que esperar a que el usuario termine su frase.

De acuerdo a las pruebas publicadas por TestingCatalog, el modelo tiene la capacidad de adaptarse de inmediato a cambios de instrucciones en medio de una conversación. Por ejemplo, si el usuario solicita que cuente hasta diez y, en medio de esa tarea, le pide que cuente hacia atrás, puede dejar de lado la acción anterior y comenzar la nueva sin reiniciar la conversación.

Otro de los avances significativos es la mejora en la conservación del contexto durante diálogos largos. El sistema podría recordar mejor los elementos mencionados anteriormente y responder de forma más coherente a medida que la conversación progresa.

Además, Bidi 1 incluiría señales conversacionales más similares a las que utilizan las personas, como expresiones breves de confirmación, por ejemplo, «ok», o respuestas de seguimiento cuando detecta pausas o cambios en el ritmo del habla. Este tipo de interacciones busca disminuir la sensación de estar hablando con una máquina y acercar la experiencia a una conversación humana natural.

Desde que se introdujo el modo de voz avanzado, OpenAI ha estado trabajando para transformar a ChatGPT en un asistente cada vez más conversacional. La compañía ha implementado mejoras en la velocidad de respuesta, la comprensión del lenguaje natural, la memoria y la capacidad de interpretar distintos tonos de voz.

Con Bidi 1, la meta parece ser eliminar una de las últimas barreras que aún separan a los asistentes virtuales de las conversaciones entre personas: la habilidad de escuchar activamente mientras se habla. Según las demostraciones proporcionadas por TestingCatalog, el sistema mantiene diálogos fluidos sin cortes perceptibles y responde de inmediato a las intervenciones del usuario.

Con información de Montevideo Portal

RELACIONADAS

ULTIMAS