Mientras los grandes modelos de lenguaje (LLMs) como ChatGPT o Gemini asombran por su potencia, también generan preocupaciones por su alto costo energético y económico. Entrenar modelos con cientos de miles de millones de parámetros requiere enormes centros de datos y cifras astronómicas: Google, por ejemplo, habría gastado más de 190 millones de dólares solo en su modelo Gemini 1.0 Ultra. Además, cada consulta a uno de estos modelos consume unas 10 veces más energía que una búsqueda en Google.
Por eso, cada vez más investigadores apuestan por una alternativa más eficiente: los modelos de lenguaje pequeños (SLMs), con menos de 10 mil millones de parámetros. Aunque no están pensados para tareas generales, estos modelos pueden sobresalir en tareas específicas, como resumir conversaciones, asistir en aplicaciones médicas o funcionar en dispositivos inteligentes. Su principal ventaja: pueden operar incluso desde un celular o laptop, sin necesidad de servidores de alto rendimiento.
Estos modelos se entrenan de manera más eficiente gracias a dos estrategias clave. La primera, llamada knowledge distillation, consiste en usar un modelo grande para generar datos limpios y de calidad, que luego sirven como base para entrenar modelos pequeños. La segunda es el pruning o poda, un proceso que elimina parámetros innecesarios del modelo original, inspirado en cómo el cerebro humano se vuelve más eficiente con la edad.
Además, los SLM permiten experimentar con nuevas ideas de forma más económica y transparente. Para muchos investigadores, representan el laboratorio ideal para explorar cómo piensan los modelos de lenguaje sin los riesgos que implican los gigantes de la IA. Como concluye el científico Leshem Choshen: “Estos modelos eficientes pueden ahorrar dinero, tiempo y recursos de cómputo”.
Entérate más en el artículo de Stephen Ornes para Quanta Magazine.