DeepMind prueba los límites de los grandes sistemas de lenguaje de IA con un modelo de 280 mil millones de parámetros

Cerebro con circuito digital y programador con laptop. Aprendizaje automático, inteligencia artificial, cerebro digital y concepto de proceso de pensamiento artificial. Vector ilustración aislada.

La generación de lenguaje es lo más popular en IA en este momento, con una clase de sistemas conocidos como “modelos de lenguaje grande” (o LLM) que se utilizan para todo, desde mejorar el motor de búsqueda de Google hasta crear juegos de fantasía basados ​​en texto. Pero estos programas también tienen serios problemas, que incluyen regurgitar el lenguaje sexista y racista además de fallar las pruebas de razonamiento lógico. Una gran pregunta es: ¿se pueden mejorar estas debilidades simplemente agregando más datos y potencia de cómputo, o estamos llegando a los límites de este paradigma tecnológico?

Este es uno de los temas que el laboratorio de inteligencia artificial de Alphabet, DeepMind, está abordando en un trío de artículos de investigación ya publicados. La conclusión de la empresa es que la ampliación de estos sistemas debería ofrecer muchas mejoras. “Un hallazgo clave del documento es que el progreso y las capacidades de los grandes modelos de lenguaje siguen aumentando. Esta no es un área que se ha estancado”, dijo a los periodistas el científico investigador de DeepMind, Jack Rae, en una conferencia telefónica.

“Esta no es una zona que haya platado”.

DeepMind, que regularmente incorpora su trabajo a los productos de Google, ha probado las capacidades de estos LLM mediante la construcción de un modelo de lenguaje con 280 mil millones de parámetros llamado Gopher. Los parámetros son una medida rápida del tamaño y la complejidad de los modelos de un lenguaje, lo que significa que Gopher es más grande que el GPT-3 de OpenAI (175 mil millones de parámetros) pero no tan grande como algunos sistemas más experimentales, como el modelo Megatron de Microsoft y Nvidia (530 mil millones de parámetros).

En general, en el mundo de la IA es cierto que cuanto más grande es mejor, y los modelos más grandes suelen ofrecer un mayor rendimiento. La investigación de DeepMind confirma esta tendencia y sugiere que la ampliación de LLM ofrece un rendimiento mejorado en los puntos de referencia más comunes que prueban cosas como el análisis de sentimientos y el resumen. Sin embargo, los investigadores también advirtieron que algunos problemas inherentes a los modelos de lenguaje necesitarán más que solo datos y computación para solucionarlos.

Creo que ahora mismo parece que el modelo puede fallar de varias formas“, dijo Rae. “Algunos subconjuntos de esas formas se deben a que el modelo simplemente no tiene una comprensión suficientemente buena de lo que está leyendo, y creo que, para esa clase de problemas, simplemente veremos un rendimiento mejorado con más datos y escala“.

No todos los problemas con sistemas de lenguaje de IA se pueden resolver a escala

Pero, agregó, hay “otras categorías de problemas, como el modelo que perpetúa los prejuicios estereotipados o el modelo que es persuadido de dar falsedades, que […] nadie en DeepMind cree que la escala será la solución“. En estos casos, los modelos de lenguaje necesitarán “rutinas de entrenamiento adicionales“, como la retroalimentación de los usuarios humanos, señaló.

Para llegar a estas conclusiones, los investigadores de DeepMind evaluaron una variedad de modelos de lenguaje de diferentes tamaños en 152 tareas de lenguaje o puntos de referencia. Descubrieron que los modelos más grandes generalmente ofrecían resultados mejorados, y la propia Gopher ofrecía un rendimiento de vanguardia en aproximadamente el 80 por ciento de las pruebas seleccionadas por los científicos.

En otro documento, la compañía también analizó la amplia gama de daños potenciales involucrados con la implementación de LLM. Estos incluyen el uso de lenguaje tóxico por parte de los sistemas, su capacidad para compartir información errónea y su potencial para ser utilizado con fines maliciosos, como compartir spam o propaganda. Todos estos problemas serán cada vez más importantes a medida que los modelos de lenguaje de IA se implementen más ampliamente, como chatbots y agentes de ventas, por ejemplo.

Sin embargo, vale la pena recordar que el rendimiento en los puntos de referencia no es lo más importante en la evaluación de los sistemas de aprendizaje automático. En un artículo reciente, varios investigadores de inteligencia artificial (incluidos dos de Google) exploraron las limitaciones de los puntos de referencia y señalaron que estos conjuntos de datos siempre tendrán un alcance limitado y no podrán igualar la complejidad del mundo real. Como suele ocurrir con las nuevas tecnologías, la única forma fiable de probar estos sistemas es ver cómo funcionan en la realidad. Con modelos de lenguaje grandes, veremos más de estas aplicaciones muy pronto.

Dejar un comentario