Los investigadores duplican la velocidad de entrenamiento de la IA domando las ineficiencias de cola larga en la utilización del procesador

Una imagen decorativa que muestra un chip con el acrónimo "AI" escrito en él

Un novedoso sistema aprovecha la potencia de cálculo ociosa para entrenar sobre la marcha un modelo de borrador más pequeño, lo que acelera drásticamente el aprendizaje por refuerzo de grandes modelos lingüísticos complejos sin sacrificar la precisión.

Chibuike Okpara (traducido por DeepL / Ninh Duy), Publicado 02/28/2026 🇺🇸 🇵🇹 ...

AI Science

El desarrollo de grandes modelos lingüísticos con capacidad de razonamiento, capaces de una programación avanzada y de una planificación en varios pasos, requiere recursos informáticos masivos. Durante el proceso estándar de aprendizaje por refuerzo, los modelos generan múltiples respuestas potenciales para aprender la mejor respuesta. Esta fase de generación, conocida como despliegue, puede consumir hasta el 85% del tiempo total de ejecución. Crea un cuello de botella crítico caracterizado por una distribución de cola larga, en la que los procesadores que terminan las respuestas más cortas permanecen inactivos mientras esperan a que otros completen las consultas más largas.

Para eliminar este tiempo de inactividad desperdiciado, investigadores del Instituto Tecnológico de Massachusetts, junto con colaboradores de la industria y del mundo académico, desarrollaron un sistema denominado "Taming the Long Tail" (TLT). El enfoque utiliza un modelo de borrador adaptable que se entrena continuamente en los procesadores inactivos. Este modelo ligero adivina rápidamente las salidas futuras del modelo objetivo más grande, que luego verifica todas las conjeturas simultáneamente mediante una técnica llamada decodificación especulativa.

Mientras que la descodificación especulativa tradicional se basa en un borrador estático que se queda rápidamente obsoleto durante las continuas actualizaciones del entrenamiento, el sistema TLT realinea continuamente el borrador durante el entrenamiento sin ningún coste computacional adicional. Un motor de despliegue adaptativo integrado optimiza aún más el proceso manteniendo un conjunto de grafos precapturados eficiente en memoria y seleccionando dinámicamente la mejor estrategia de descodificación para cada nuevo lote de entrada.

Las evaluaciones realizadas en múltiples modelos de razonamiento demuestran que esta solución sin pérdidas acelera la velocidad de entrenamiento de extremo a extremo entre un 70 y un 110% en comparación con los sistemas más avanzados. Al preservar los niveles de precisión originales y proporcionar un modelo de borrador de alta calidad como subproducto de despliegue gratuito, este método ofrece una vía muy eficaz para reducir las cargas energéticas y financieras del desarrollo de arquitecturas avanzadas de inteligencia artificial.