Tencent desvela cuatro modelos compactos de Hunyuan de código abierto con parámetros de 0,5B, 1,8B, 4B y 7B

Tencent ha puesto en código abierto su modelo de IA Hunyuan, lanzando cuatro modelos lingüísticos compactos de código abierto (Fuente de la imagen: Tencent)

Tencent ha puesto en código abierto su modelo de IA Hunyuan, lanzando cuatro modelos de lenguaje compactos con 0,5 billones, 1,8 billones, 4 billones y 7 billones de parámetros que pueden ejecutarse en una única GPU de consumo.

Nathan Ali (traducido por Ninh Duy), Publicado 08/04/2025 🇺🇸 🇵🇹 ...

AI Open Source Chinese Tech

Tencent ha lanzado un nuevo conjunto de modelos compactos Hunyuan: 0.5.000 millones, 1.800 millones, 4.000 millones y 7.000 millones de parámetros; están dirigidos a despliegues de bajo consumo y de borde. Las cuatro configuraciones ya están disponibles en GitHub y Hugging Face, y cada una de ellas puede ejecutar la inferencia en una sola tarjeta gráfica de consumo, lo que las hace adecuadas para ordenadores portátiles, teléfonos inteligentes, sistemas de cabina inteligente y otro hardware con recursos limitados.

A pesar de su pequeño tamaño, los modelos obtienen puntuaciones punteras en comprensión lingüística, matemáticas y razonamiento en varios puntos de referencia públicos. Tencent atribuye estos resultados a una arquitectura de "razonamiento de fusión" que permite a los usuarios seleccionar entre un modo de pensamiento rápido para respuestas concisas y un modo de pensamiento lento para razonamientos más elaborados de varios pasos.

Una característica técnica clave es la ventana de contexto nativa de 256K tokens, que es suficiente para ingerir aproximadamente 500.000 palabras en inglés en una sola pasada. Tencent destaca aplicaciones internas como Tencent Meeting y WeChat Reading, en las que los modelos pueden analizar de una sola vez la transcripción de toda una reunión o un libro completo, manteniendo las relaciones entre los personajes y los detalles de la trama para consultas posteriores.

Los cuatro LLM compactos se integran con los principales marcos de inferencia, incluidos SGLang, vLLM y TensorRT-LLM, y admiten múltiples formatos de cuantización. Las aprobaciones iniciales de Arm, Qualcomm, Intel y MediaTek indican próximos paquetes de despliegue optimizados para sus respectivos procesadores cliente.

Los primeros casos de uso subrayan el enfoque práctico del lanzamiento. Tencent Mobile Manager informa de la interceptación de spam a nivel de milisegundos sin transferencia de datos fuera del dispositivo. Al mismo tiempo, un esquema de doble modelo en el asistente de cabina inteligente de Tencent equilibra el consumo de energía a bordo con la profundidad de la conversación. Estos ejemplos, según Tencent, demuestran que los modelos pequeños pueden ofrecer capacidades de agente de nivel empresarial cuando se diseñan cuidadosamente.