Lucentia Research Presenta su Investigación en la Conferencia Internacional AISTATS 2024
Twitter Linkedin
Gabriela Minga
Marketing y Publicidad
«“Inteligencia artificial, aprendizaje profundo, aprendizaje automático… te dediques a lo que te dediques, si no lo comprendes tienes que ponerte con ello y aprender qué es. Porque de lo contrario serás un dinosaurio dentro de 3 años “..»
— Mark Cuban


Social Media
Linkedin TwitterSuscríbete a nuestra Newsletter
NewsletterEn Lucentia Research, grupo de investigación de la Universidad de Alicante, estamos emocionados de anunciar que a principios de mayo, nuestros investigadores Jorge García-Carrasco, Alejandro Maté y nuestro director Juan Trujillo presentaron su innovador artículo en la 27th International Conference on Artificial Intelligence and Statistics (AISTATS), uno de los congresos más importantes en el campo de la Inteligencia Artificial.
El artículo, titulado «How does GPT-2 Predict Acronyms? Extracting and Understanding a Circuit via Mechanistic Interpretability», aborda un tema de gran relevancia en el mundo actual de la Inteligencia Artificial. Los Large Language Models (LLMs), como GPT, están suponiendo una auténtica revolución, pero su funcionamiento interno sigue siendo un misterio, lo que plantea serias preocupaciones de seguridad y limita su aplicación en ciertos ámbitos.
La investigación presentada por nuestros expertos se centra en Mechanistic Interpretability (MI), un enfoque que busca desentrañar y entender los comportamientos de las redes neuronales en términos de componentes comprensibles para los humanos. En su trabajo, García-Carrasco, Maté y Trujillo se propusieron entender cómo GPT-2 Small realiza la tarea de predecir acrónimos de tres letras, un desafío que va más allá de los estudios anteriores que solo se enfocan en la predicción de un solo token.
A través de su investigación, nuestros científicos descubrieron que la predicción de acrónimos se lleva a cabo mediante un circuito compuesto por 8 cabezas de atención, que representan aproximadamente el 5% del total de cabezas del modelo. Estas cabezas fueron clasificadas en tres grupos según su función y se demostró que concentran la capacidad de predicción de acrónimos. Además, interpretaron las cabezas más relevantes del circuito y descubrieron que utilizan información posicional que se propaga a través del mecanismo de máscara causal.
Este trabajo pionero no sólo desvela cómo GPT-2 predice múltiples tokens consecutivos, sino que también sienta las bases para entender comportamientos más complejos en modelos de lenguaje. Esperamos que esta investigación inspire nuevos avances en el campo y contribuya a una comprensión más profunda y segura de las LLMs.
En Lucentia Research, continuamos comprometidos con la exploración y el desarrollo de tecnologías avanzadas, siempre con el objetivo de hacer que el mundo de la Inteligencia Artificial sea más transparente y accesible para todos.
Para más detalles sobre nuestra investigación, visita el artículo completo aquí: https://arxiv.org/abs/2405.04156
Linkedin Post
Otros post que podrían interesarte…






¡Suscríbete a nuestra Newsletter!
Mantente informado sobre nuestros avances
Únete a nuestra comunidad y recibe nuestros últimos avances directamente en tu correo electrónico.
NewsletterProyecto Balladeer
© 2019 Lucentia Research Group DLSI, University of Alicante, Alicante, Spain.
Legal Policy. All rights Reserved.
Departamento de Lenguages y Sistemas Informáticos Universidad de Alicante, PO BOX 99 E-03080, Alicante
Siguenos en RRSS
Twitter Linkedin

