Gemma 4 en Cara de abrazo: La sorpresa de Pascua de Google para descargar

Gemma-4

Google lanza Gemma 4: La nueva familia de modelos (E2B a 31B) lleva las capacidades de razonamiento y la multimodalidad directamente a portátiles y smartphones. Con una enorme ventana de contexto de hasta 256.000 tokens y licencia Apache 2.0, Google está dando ejemplo de IA local libre.

Marc Herter (traducido por DeepL / Ninh Duy), Publicado 04/03/2026 🇺🇸 🇩🇪 ...

Justo antes de Semana Santa, Google dejó caer una gran sorpresa en Hugging Face: la esperada Gemma 4 ya está disponible para su descarga. El lanzamiento presenta cuatro clases de tamaño principales: E2B, E4B, 26B A4B y 31B. Todos los modelos cuentan con un modo "Pensar" integrado, que les permite procesar problemas complejos paso a paso antes de ofrecer una respuesta final. El entusiasmo que rodea al lanzamiento es evidente, ya que Gemma 4 se puede utilizar localmente en herramientas como LM Studio y Unsloth a las pocas horas de su debut.

Según Googleesta nueva generación prioriza la eficacia sobre el tamaño bruto. Una mejora destacada con respecto a la iteración anterior de Gemma 3 es que los modelos más pequeños de la serie actual ya igualan los niveles de rendimiento del modelo Gemma 3 más grande en varios puntos de referencia. En términos prácticos, esto significa que las tareas que antes requerían hardware de gama alta ahora pueden realizarse localmente en un smartphone.

La arquitectura varía en función del caso de uso previsto. Mientras que la variante 31B utiliza una estructura relativamente clásica, el modelo 26B-A4B emplea un enfoque de mezcla de expertos (MoE). Durante la inferencia -el proceso de cálculo propiamente dicho- sólo se activan unos cuatro mil millones de parámetros, a pesar de que el modelo posee 26 mil millones en total. Esto garantiza una gran velocidad y un consumo moderado de recursos sin sacrificar la profundidad del conocimiento. Los modelos más pequeños E2B y E4B utilizan Per-Layer Embeddings (PLE), que proporcionan información especializada para cada token en cada capa del modelo, optimizando el rendimiento específicamente para los procesadores móviles.

También hay avances significativos en la ventana de contexto, es decir, la cantidad de datos que el modelo puede tener "en mente" simultáneamente. Los modelos E2B y E4B admiten 128.000 tokens, mientras que las variantes más grandes (26B A4B y 31B) pueden manejar hasta 256.000 tokens. Esta capacidad permite a los usuarios analizar documentos masivos o estructuras de código complejas en una sola pasada.

La multimodalidad está profundamente integrada en Gemma 4, lo que permite a los usuarios mezclar sin problemas texto e imágenes en una sola consulta. Los modelos son capaces de reconocer objetos, leer documentos PDF y realizar reconocimiento óptico de caracteres (OCR). Además, los modelos de borde (E2B y E4B) incluyen procesamiento nativo para formatos de vídeo y audio, lo que permite funciones como el reconocimiento automático del habla.

Otra potente característica es la compatibilidad nativa con la "Llamada a funciones" Esto permite a la IA actuar como un asistente virtual, ejecutando de forma independiente comandos de software o utilizando herramientas externas para completar tareas. Un claro ejemplo de esta tendencia es la herramienta "OpenClaw", actualmente popular en China, que se basa en este principio de los agentes de IA. Con Gemma 4, implantar este tipo de sistemas íntegramente en el propio dispositivo resulta mucho más fácil.

El marco legal también es un cambio bienvenido: los modelos se liberan bajo la licencia Apache 2.0. Esto significa que no sólo son de uso libre, sino que también pueden integrarse de forma flexible en proyectos propietarios y utilizarse comercialmente, lo que reduce drásticamente la barrera para los desarrolladores. Anteriormente, todos los modelos Gemma se publicaban bajo una licencia personalizada cuya autoría correspondía a Google.

Las pruebas prácticas iniciales subrayan las impresionantes capacidades lingüísticas y la mayor eficacia de estos modelos. Utilizando LM Studio en un Bosgame M5alcanzamos una velocidad de respuesta de algo más de 10 tokens por segundo (tok/s) con el modelo Gemma 4 31B, más rápido de lo que un lector medio puede procesar la información. Los modelos más pequeños son aún más ágiles: las variantes E4B y 26B A4B superan fácilmente los 40 tok/s, y el modelo más pequeño alcanza los 60 tok/s. Sin embargo, aquellos que deseen utilizar todo el tamaño del contexto del modelo Gemma 4 más grande pueden encontrar que incluso 128 GB de RAM (como se encuentra en el Bosgame M5) son escasos; la IA puede reclamar más de 80 GB para sí misma, dejando poca memoria disponible para otras tareas.