La IA generativa en los iPhones, un paso más cerca gracias a los investigadores de Apple

Apple está trabajando para llevar al iPhone funciones de IA generativa en el dispositivo. (Imagen: Notebookcheck)

Los rumores apuntan a que Apple está introduciendo una versión de Siri con IA generativa que debutará con iOS 18 en la próxima generación de la serie iPhone 16, prevista para finales de 2024. Los investigadores de la empresa acaban de detallar una forma en la que un iPhone podrá superar las limitaciones de RAM para ejecutar con éxito una sofisticada LLM en el dispositivo.

Sanjiv Sathiah (traducido por Ninh Duy), Publicado 12/24/2023 🇺🇸 🇫🇷 ...

AI Apple Smartphone

Apple investigadores han documentado en https://arxiv.org/pdf/2312.11514.pdf (pdf) un nuevo método para permitir que los Grandes Modelos Lingüísticos (LLM), se ejecuten en el dispositivo con un método único para superar las limitaciones de RAM en los dispositivos móviles. La versión completa de un LLM como el ChatGPT 4 de Open AI tiene alrededor de 1,7 billones de parámetros y requiere servidores potentes para poder manejar el procesamiento. Sin embargo, la nueva Gemini AI - que, según afirma, puede superar a GPT-4, viene en un sabor "Nano" para smartphones y utiliza técnicas de cuantización para reducir el modelo a 1.800 millones de parámetros o 3.600 millones de parámetros. Una de estas variantes de Gemini Nano se está ejecutando actualmente en los teléfonos inteligentes Pixel 8 Pro de Google (curr. reducido a $ 799 de Amazon - normalmente $ 999).

Qualcomm afirma que su nuevo Snapdragon 8 Gen 3 SoC puede soportar LLMs de IA generativa de hasta 10 billones de parámetros de tamaño - aunque considerablemente más capaz que lo que Google es capaz de hacer funcionar en la serie Pixel 8, esto es todavía muy lejos de los 1,7 billones de parámetros necesarios para hacer que GPT-4 funcione tan impresionantemente como lo hace. La cuantización, que hace que los LLM sean más fáciles de procesar para los SoC móviles, también significa que pierden precisión y eficacia. Por ello, todo lo que pueda ayudar a aumentar el tamaño de los modelos que se pueden meter con calzador en un dispositivo móvil, mejor será el rendimiento del LLM.

Para que los teléfonos inteligentes puedan manejar las tareas gen AU en el dispositivo, los requisitos de RAM de https://medium.com/@TitanML/deploying-llms-on-small-devices-an-introduction-to-quantization-76502d28d0b2 también son considerables. Un LLM reducido a un modelo de 8 bits por parámetro con 7.000 millones de parámetros (como la Llama 2 de Meta, que es compatible con el Snapdragon 8 Gen 3), requeriría un smartphone con al menos 7 GB de RAM. La serie iPhone 15 Pro cuenta con 8 GB de RAM, por lo que esto sugiere que un LLM desarrollado por Apple como Llama 2 estaría en el límite superior de lo que soportarían los iPhone actuales. Apple's investigadores han encontrado una forma de sortear este límite de RAM a bordo.

En un artículo de investigación titulado "LLM in a flash: Efficient Large Language Model Inference with Limited Memory", los investigadores de IA generativa de Applehan desarrollado un método para utilizar el almacenamiento flash de un iPhone para complementar la RAM del sistema a bordo del dispositivo. El ancho de banda del almacenamiento flash no está a la altura de la memoria RAM móvil LDDR5/X, pero los investigadores de Applehan desarrollado un método que supera esta limitación inherente. Mediante el uso de una combinación de "windowing" (en la que el modelo de IA reutiliza algunos de los datos almacenados en el almacenamiento flash que ya ha procesado) y "row-column bundling" (que agrupa los datos del LLM de forma que se procesen con mayor eficacia, acelerando la velocidad de lectura).

Por supuesto, aún no hemos visto un LLM de Apple, aunque los rumores sugieren que podríamos ver una versión más inteligente de Siri basada en un LLM que está previsto que debute como parte de iOS 18 y podrá ejecutarse en el dispositivo en la próxima generación del iPhone 16 Pro de próxima generación. Pero cuando lo hagamos, parece que habrá muchas posibilidades de que Apple utilice este método de ampliación de la RAM para asegurarse de que ofrece un modelo LLM con el mayor número posible de parámetros que pueda ejecutar eficazmente en el dispositivo. Con Samsung mejorando su juego de IA generativa para el lanzamiento del Galaxy S24 el mes que viene, 2024 se perfila como el año en que la IA generativa se generalice también en los smartphones.