Especificación del Proyecto: Asistente de Voz en Tiempo Real usando OpenAI Realtime API
Objetivo del Proyecto
Desarrollar un prototipo funcional de un asistente de voz en tiempo real que responda de manera inmediata utilizando la API Realtime de OpenAI (o una API equivalente). La intención es contar con un asistente de voz fluido y eficiente que responda a consultas en tiempo real mediante streaming de audio, garantizando una interacción continua sin latencias significativas.
Requerimientos de Desarrollo
Lenguajes de Programación Preferidos:
Primarias:
Node.js o Go
Alternativa: Python (solo si se justifica por la compatibilidad o facilidad con librerías de audio)
Características Principales del Prototipo:
Implementar una integración básica con la API Realtime de OpenAI o una alternativa adecuada.
Captura de Audio: Escucha en tiempo real y procesamiento de voz de entrada del usuario.
Transcripción de Audio a Texto (STT): Uso de una API de reconocimiento de voz para convertir el audio en texto.
Generación de Respuestas en Tiempo Real (TTS): La respuesta generada debe convertirse nuevamente a audio para ser enviada al usuario por streaming.
Streaming de Respuesta en Tiempo Real: Al enviar las respuestas por streaming, es crucial que no haya cortes perceptibles en la voz.
Requisitos de Ejemplo Funcional:
Se espera un prototipo operativo donde:
El usuario pueda hablar con el asistente y recibir respuestas de inmediato.
El código esté documentado para facilitar el entendimiento de la configuración y uso de la API Realtime.
Incluya un ejemplo mínimo y funcional que capture la interacción completa (entrada de voz → procesamiento → respuesta de voz).
Ideal que sepa de Asterisk, nosotros somos expertos en Asterisk para apoyar.
Delivery term: Not specified