OpenAI lanza tres nuevos modelos de API de audio en tiempo real, incluido GPT-Realtime-2

OpenAI ha lanzado tres nuevos modelos de audio en tiempo real a través de su API, impulsando la IA de voz desde las interacciones básicas de pregunta y respuesta hacia agentes que pueden escuchar, razonar, traducir y actuar dentro de una única conversación en directo. El lanzamiento también marca la salida de la API en tiempo real de la versión beta, haciéndola disponible en general para su uso en producción por primera vez.
En el centro del lanzamiento se encuentra GPT-Realtime-2, el primer modelo de voz de OpenAI construido sobre el razonamiento de clase GPT-5. A diferencia de la arquitectura paso a paso en la que se basan la mayoría de los sistemas de voz, GPT-Realtime-2 procesa el audio en un flujo continuo, lo que le permite interpretar el habla a medida que se produce y responder sin el desfase causado por las etapas separadas de transcripción y síntesis. El modelo admite una ventana de contexto de tokens de 128K, frente a los 32K de la versión anterior, lo que hace que las sesiones de voz más largas y los complejos flujos agénticos de varios pasos resulten prácticos sin andamiaje de memoria externo.
Qué puede hacer GPT-Realtime-2
El modelo está construido específicamente para lo que OpenAI denomina "comportamiento agéntico" durante las llamadas de voz. Los preámbulos le permiten decir "Déjame comprobarlo" o "Un momento" mientras ejecuta las llamadas a herramientas, para que los usuarios no se queden con el aire muerto. Las llamadas a herramientas en paralelo le permiten ejecutar varias solicitudes de back-end simultáneamente y narrar cuál está en vuelo. Un comportamiento de recuperación más sólido significa que gestiona los fallos en voz alta en lugar de congelarse a mitad de la conversación. El ajuste del tono le permite cambiar de estilo en función del contexto: más comedido para las llamadas de asistencia y más optimista para las confirmaciones.
GPT-Realtime-2 obtiene una puntuación un 15,2% superior a GPT-Realtime-1.5 en Big Bench Audio, la prueba comparativa de razonamiento de audio de OpenAI, y un 13,8% superior en Audio Multichallenger para el seguimiento de instrucciones. En las pruebas realizadas en el mundo real, Zillow informa de un aumento de 26 puntos en la tasa de éxito de llamadas en su punto de referencia adversarial más duro, pasando del 69% al 95% tras la optimización puntual en GPT-Realtime-2. El modelo tiene un precio de 32 dólares por millón de tokens de entrada de audio y de 64 dólares por millón de tokens de salida de audio, con 0,40 dólares por millón de tokens de entrada almacenados en caché.
GPT-Realtime-Translate y GPT-Realtime-Whisper
El segundo modelo, GPT-Realtime-Translatees un sistema dedicado a la traducción de voz en directo. Procesa la entrada hablada de forma continua y emite traducciones en tiempo real sin necesidad de que los hablantes hagan pausas o terminen frases completas. El modelo es compatible con más de 70 idiomas de entrada y 13 de salida, y está dirigido a entornos de atención al cliente, educación, eventos en directo y ventas transfronterizas. BolnaAI, una empresa de IA de voz que está construyendo para los mercados lingüísticos indios, informa de tasas de error de palabras un 12,5% más bajas en hindi, tamil y telugu en comparación con el enfoque de traducción anterior. GPT-Realtime-Translate tiene un precio de 0,034 dólares por minuto de procesamiento de audio.
GPT-Realtime-Whisper es el tercer modelo, que amplía la tecnología de reconocimiento de voz Whisper de OpenAI, ampliamente adoptada, a un sistema de transmisión. Mientras que el Whisper original se creó para la transcripción posterior a la grabación, esta versión produce subtítulos en directo mientras se habla. Los casos de uso incluyen reuniones en directo, documentación para tribunales, transcripción para redacciones y herramientas de accesibilidad para usuarios con deficiencias auditivas. Es la más asequible de las tres, a 0,017 dólares por minuto. Los tres modelos ya están disponibles a través de la API de OpenAI y el patio de recreo para desarrolladores.
El lanzamiento también añade compatibilidad con servidores MCP, capacidades de introducción de imágenes e integración de llamadas telefónicas SIP a la API Realtime, lo que amplía la gama de flujos de trabajo de telefonía empresarial y agénticos que los desarrolladores pueden crear sin salir de la API.
El espacio de las herramientas de IA también ha atraído a atacantes que buscan explotar el interés por los nuevos productos. Notebookcheck informó ayer sobre un falsa Claude AI que promocionaba la puerta trasera Beagle Windows a través de resultados de búsqueda patrocinados por Google mediante un instalador troyanizado Claude-Pro Relay.
Fuente(s)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck









