Notebookcheck Logo

OpenAI lanza tres nuevos modelos de API de audio en tiempo real, incluido GPT-Realtime-2

El GPT-Realtime-2 de OpenAI aporta un razonamiento de clase GPT-5 a los agentes de voz en directo, lanzándose junto con dos modelos adicionales de audio en tiempo real a través de la API de OpenAI.
ⓘ Openai.com
El GPT-Realtime-2 de OpenAI aporta un razonamiento de clase GPT-5 a los agentes de voz en directo, lanzándose junto con dos modelos adicionales de audio en tiempo real a través de la API de OpenAI.
OpenAI ha lanzado GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper a través de su API Realtime, ya disponible de forma general para los agentes de voz de producción.

OpenAI ha lanzado tres nuevos modelos de audio en tiempo real a través de su API, impulsando la IA de voz desde las interacciones básicas de pregunta y respuesta hacia agentes que pueden escuchar, razonar, traducir y actuar dentro de una única conversación en directo. El lanzamiento también marca la salida de la API en tiempo real de la versión beta, haciéndola disponible en general para su uso en producción por primera vez.

En el centro del lanzamiento se encuentra GPT-Realtime-2, el primer modelo de voz de OpenAI construido sobre el razonamiento de clase GPT-5. A diferencia de la arquitectura paso a paso en la que se basan la mayoría de los sistemas de voz, GPT-Realtime-2 procesa el audio en un flujo continuo, lo que le permite interpretar el habla a medida que se produce y responder sin el desfase causado por las etapas separadas de transcripción y síntesis. El modelo admite una ventana de contexto de tokens de 128K, frente a los 32K de la versión anterior, lo que hace que las sesiones de voz más largas y los complejos flujos agénticos de varios pasos resulten prácticos sin andamiaje de memoria externo.

Qué puede hacer GPT-Realtime-2

El modelo está construido específicamente para lo que OpenAI denomina "comportamiento agéntico" durante las llamadas de voz. Los preámbulos le permiten decir "Déjame comprobarlo" o "Un momento" mientras ejecuta las llamadas a herramientas, para que los usuarios no se queden con el aire muerto. Las llamadas a herramientas en paralelo le permiten ejecutar varias solicitudes de back-end simultáneamente y narrar cuál está en vuelo. Un comportamiento de recuperación más sólido significa que gestiona los fallos en voz alta en lugar de congelarse a mitad de la conversación. El ajuste del tono le permite cambiar de estilo en función del contexto: más comedido para las llamadas de asistencia y más optimista para las confirmaciones.

GPT-Realtime-2 obtiene una puntuación un 15,2% superior a GPT-Realtime-1.5 en Big Bench Audio, la prueba comparativa de razonamiento de audio de OpenAI, y un 13,8% superior en Audio Multichallenger para el seguimiento de instrucciones. En las pruebas realizadas en el mundo real, Zillow informa de un aumento de 26 puntos en la tasa de éxito de llamadas en su punto de referencia adversarial más duro, pasando del 69% al 95% tras la optimización puntual en GPT-Realtime-2. El modelo tiene un precio de 32 dólares por millón de tokens de entrada de audio y de 64 dólares por millón de tokens de salida de audio, con 0,40 dólares por millón de tokens de entrada almacenados en caché.

GPT-Realtime-Translate y GPT-Realtime-Whisper

El segundo modelo, GPT-Realtime-Translatees un sistema dedicado a la traducción de voz en directo. Procesa la entrada hablada de forma continua y emite traducciones en tiempo real sin necesidad de que los hablantes hagan pausas o terminen frases completas. El modelo es compatible con más de 70 idiomas de entrada y 13 de salida, y está dirigido a entornos de atención al cliente, educación, eventos en directo y ventas transfronterizas. BolnaAI, una empresa de IA de voz que está construyendo para los mercados lingüísticos indios, informa de tasas de error de palabras un 12,5% más bajas en hindi, tamil y telugu en comparación con el enfoque de traducción anterior. GPT-Realtime-Translate tiene un precio de 0,034 dólares por minuto de procesamiento de audio.

GPT-Realtime-Whisper es el tercer modelo, que amplía la tecnología de reconocimiento de voz Whisper de OpenAI, ampliamente adoptada, a un sistema de transmisión. Mientras que el Whisper original se creó para la transcripción posterior a la grabación, esta versión produce subtítulos en directo mientras se habla. Los casos de uso incluyen reuniones en directo, documentación para tribunales, transcripción para redacciones y herramientas de accesibilidad para usuarios con deficiencias auditivas. Es la más asequible de las tres, a 0,017 dólares por minuto. Los tres modelos ya están disponibles a través de la API de OpenAI y el patio de recreo para desarrolladores.

El lanzamiento también añade compatibilidad con servidores MCP, capacidades de introducción de imágenes e integración de llamadas telefónicas SIP a la API Realtime, lo que amplía la gama de flujos de trabajo de telefonía empresarial y agénticos que los desarrolladores pueden crear sin salir de la API.

El espacio de las herramientas de IA también ha atraído a atacantes que buscan explotar el interés por los nuevos productos. Notebookcheck informó ayer sobre un falsa Claude AI que promocionaba la puerta trasera Beagle Windows a través de resultados de búsqueda patrocinados por Google mediante un instalador troyanizado Claude-Pro Relay.

Fuente(s)

Please share our article, every link counts!
Mail Logo
Darryl Linington, 2026-05- 9 (Update: 2026-05- 9)