ChatGPT es fantástico, pero tiene un pequeño problema: para usarlo necesitamos conectarnos a su servicio a la nube. OpenAI hace uso de cientos (¿miles?) de carísimas GPUs profesionales para dar servicio a los usuarios, y eso hace que el coste de dar el servicio y de utilizarlo pueda ser elevado. A esa carrera para ganar la batalla de los modelos de IA generativa ahora se le suma otra: la de lograr que podamos usarlos no en la nube, sino de forma local (e incluso offline) en nuestros smartphones.
Un miniChatGPT para tu móvil. Teniendo en cuenta los ingentes recursos que consume ChatGPT uno pensaría que poder tener un chatbot con esa capacidad corriendo nativamente en nuestro móvil parece impensable, pero no lo es. De hecho, en las últimas semanas hemos conocido varios proyectos que apuntan a ese futuro.
Google y Gecko. Uno de ellos es Gecko, que es una de las variantes en las que la empresa de Mountain View plantea el despliegue de su nuevo modelo LLM PaLM 2 —que compite con el GPT-4 de OpenAI—. Según Google Gecko es lo suficientemente pequeño para poder correr nativamente en un smartphone —consiguieron hacerlo funcionar en un Samsung Galaxy, por ejemplo—, y aunque no hicieron demostración de esa capacidad, la declaración de intenciones era contundente.
IA híbrida. Algunas empresas como Qualcomm comienzan a hablar ya de plataformas híbridas de inteligencia artificial en las que usemos tanto modelos como ChatGPT en la nube como otros como Gecko en el móvil. Cristiano Amon, CEO de la empresa, explicaba en Financial Times cómo depender solo de los modelos en la nube saldría muy caro. Combinar ese uso con el de modelos LLM capaces de correr en un móvil permitiría reducir los costes. En Qualcomm ya han experimentado con esa opción, y lograron hacer que Stable Diffusion corriese en uno de sus SoC de forma nativa y local.
LLaMA. Esta tendencia a «miniaturizar» ChatGPT ganó fuerza con la aparición de LLaMA, el modelo LLM de Meta. Este modelo cuenta con una versión —entre otras— que tiene un tamaño de 7.000 millones de parámetros («7B»), que es trasladable a un dispositivo móvil para su ejecución de forma local. Precisamente eso es lo que hizo un equipo de la Universidad de Stanford, que creó una versión específica que lograron hacer funcionar en un Pixel 6 de Google. Funcionaba lento, sí, pero funcionaba. Esa misma institución publicaría también Alpaca, un modelo «afinado» basado en LLaMA 7B que era capaz de ejecutarse en hardware mucho más modesto que el modelo de Meta.
Y hay (bastantes) más. La aparición de modelos de IA generativa preparados para funcionar en el móvil está despegando. Hace unos días aparecía el proyecto Open Source MLC LLM con un objetivo claro: poder desplegar modelos LLM en distintas plataformas hardware entre las que las que estaban, cómo no, los móviles. Este proyecto se puede instalar en varios MacBook, pero también en algunos iPad o en el iPhone 14 Pro. El rendimiento es muy modesto: en el iPhone 14 Pro de unos 7,2 tokens/segundo, algo así como si ChatGPT escribiera sus respuestas a 4-6 palabras por segundo.
Que el ritmo no pare. Algunos hablan ya de una especie de «momento Android» en el ámbito de la IA por esa explosión de proyectos Open Source. En Madrona hablaban de proyectos prometedores como Dolly (Databricks), OpenChainKit (Together.xyz), Cerebras-GPT (Cerebras) o HuggingFace. La propia Apple acaba de hacer un pequeño guiño a este segmento con el anuncio estos días de la característica que permite entrenar al iPhone para que lea frases con tu voz (y ejecutando todo en el dispositivo). Al ritmo que todo está yendo en este ámbito, no parece descartable que pronto tengamos un ChatGPT funcionando directamente en local en el móvil sin necesidad de conectarnos a la nube.