Seleccione idioma

Spanish

Down Icon

Seleccione país

Netherlands

Down Icon

La destilación puede hacer que los modelos de IA sean más pequeños y económicos

La destilación puede hacer que los modelos de IA sean más pequeños y económicos
Una técnica fundamental permite a los investigadores utilizar un modelo grande y costoso para entrenar otro modelo por menos dinero.
Ilustración: Nico H. Brausch para Quanta Magazine

La versión original de esta historia apareció en Quanta Magazine .

La empresa china de inteligencia artificial DeepSeek lanzó un chatbot a principios de este año llamado R1, que atrajo muchísima atención. La mayor parte se centró en el hecho de que una empresa relativamente pequeña y desconocida afirmó haber desarrollado un chatbot que rivalizaba en rendimiento con los de las empresas de inteligencia artificial más famosas del mundo, pero utilizando una fracción de la potencia y el coste de los ordenadores. Como resultado, las acciones de muchas empresas tecnológicas occidentales se desplomaron; Nvidia, que vende los chips que ejecutan los principales modelos de inteligencia artificial, perdió más valor en un solo día que cualquier otra empresa en la historia.

Parte de esa atención implicó un elemento de acusación. Fuentes alegaron que DeepSeek había obtenido , sin permiso, información del modelo o1 patentado de OpenAI mediante una técnica conocida como destilación. Gran parte de la cobertura mediática presentó esta posibilidad como una sorpresa para la industria de la IA, insinuando que DeepSeek había descubierto una forma nueva y más eficiente de desarrollar IA.

Pero la destilación, también llamada destilación de conocimiento, es una herramienta ampliamente utilizada en IA, un tema de investigación informática que se remonta a una década y que las grandes empresas tecnológicas utilizan en sus propios modelos. «La destilación es una de las herramientas más importantes que las empresas tienen hoy en día para optimizar sus modelos», afirmó Enric Boix-Adsera , investigador que estudia la destilación en la Wharton School de la Universidad de Pensilvania.

Conocimiento oscuro

La idea de la destilación surgió con un artículo de 2015 de tres investigadores de Google, entre ellos Geoffrey Hinton, el llamado padrino de la IA y premio Nobel de 2024. En aquel entonces, los investigadores solían ejecutar conjuntos de modelos —«muchos modelos pegados entre sí», explicó Oriol Vinyals , científico principal de Google DeepMind y uno de los autores del artículo— para mejorar su rendimiento. «Pero era increíblemente engorroso y costoso ejecutar todos los modelos en paralelo», añadió Vinyals. «Nos intrigaba la idea de destilar todo eso en un único modelo».

Los investigadores pensaron que podrían avanzar abordando un punto débil notable en los algoritmos de aprendizaje automático: todas las respuestas incorrectas se consideraban igualmente malas, independientemente de lo erróneas que fueran. En un modelo de clasificación de imágenes, por ejemplo, «confundir un perro con un zorro se penalizaba de la misma manera que confundir un perro con una pizza», explicó Vinyals. Los investigadores sospecharon que los modelos de conjunto contenían información sobre qué respuestas incorrectas eran menos malas que otras. Quizás un modelo de «estudiante» más pequeño podría usar la información del modelo de «profesor» más grande para comprender más rápidamente las categorías en las que debía clasificar las imágenes. Hinton lo denominó «conocimiento oscuro», invocando una analogía con la materia oscura cosmológica.

Tras analizar esta posibilidad con Hinton, Vinyals desarrolló una forma de que el modelo docente, de gran tamaño, transmitiera más información sobre las categorías de imágenes a un modelo estudiantil, de menor tamaño. La clave residía en centrarse en las "objetivos fáciles" del modelo docente, donde asigna probabilidades a cada posibilidad, en lugar de respuestas definitivas. Un modelo, por ejemplo, calculó que había un 30 % de probabilidades de que una imagen mostrara un perro, un 20 % de que mostrara un gato, un 5 % de que mostrara una vaca y un 0,5 % de que mostrara un coche. Al utilizar estas probabilidades, el modelo docente reveló al estudiante que los perros son bastante similares a los gatos, no tan diferentes de las vacas y muy distintos de los coches. Los investigadores descubrieron que esta información ayudaría al estudiante a aprender a identificar imágenes de perros, gatos, vacas y coches con mayor eficiencia. Un modelo grande y complejo podía reducirse a uno más simple sin apenas pérdida de precisión.

Crecimiento explosivo

La idea no tuvo un éxito inmediato. El artículo fue rechazado en una conferencia, y Vinyals, desanimado, se dedicó a otros temas. Pero la destilación llegó en un momento clave. Por aquel entonces, los ingenieros descubrían que cuantos más datos de entrenamiento alimentaban las redes neuronales, más eficaces se volvían. El tamaño de los modelos pronto se disparó, al igual que sus capacidades , pero los costes de su funcionamiento aumentaron a la par con su tamaño.

Muchos investigadores recurrieron a la destilación para crear modelos más pequeños. En 2018, por ejemplo, los investigadores de Google presentaron un potente modelo de lenguaje llamado BERT , que la compañía pronto comenzó a usar para analizar miles de millones de búsquedas web. Sin embargo, BERT era grande y costoso de ejecutar, por lo que al año siguiente, otros desarrolladores destilaron una versión más pequeña, sensatamente llamada DistilBERT, que se generalizó en los negocios y la investigación. La destilación se volvió omnipresente y ahora se ofrece como servicio por empresas como Google , OpenAI y Amazon . El artículo original sobre destilación, que todavía se publica solo en el servidor de preimpresiones arxiv.org, ha sido citado más de 25 000 veces .

Considerando que la destilación requiere acceso a las entrañas del modelo docente, no es posible que un tercero destile datos de forma sigilosa de un modelo de código cerrado como el o1 de OpenAI, como se creía que DeepSeek había hecho. Dicho esto, un modelo de estudiante podría aprender bastante de un modelo docente simplemente planteándole ciertas preguntas y utilizando las respuestas para entrenar sus propios modelos: un enfoque de destilación casi socrático.

Mientras tanto, otros investigadores siguen encontrando nuevas aplicaciones. En enero, el laboratorio NovaSky de la Universidad de California en Berkeley demostró que la destilación funciona bien para entrenar modelos de razonamiento en cadena , que utilizan el pensamiento multipaso para responder mejor a preguntas complejas. El laboratorio afirma que entrenar su modelo Sky-T1, totalmente de código abierto, costó menos de 450 dólares y logró resultados similares a los de un modelo de código abierto mucho más grande. «Nos sorprendió sinceramente lo bien que funcionó la destilación en este contexto», afirmó Dacheng Li, estudiante de doctorado de Berkeley y codirector del equipo NovaSky. «La destilación es una técnica fundamental en la IA».

Historia original reimpresa con permiso de Quanta Magazine , una publicación editorialmente independiente de la Fundación Simons cuya misión es mejorar la comprensión pública de la ciencia cubriendo los desarrollos de investigación y las tendencias en matemáticas y ciencias físicas y de la vida.

wired

wired

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow