Lucentia Research Presenta su Investigación en la Conferencia Internacional AISTATS 2024
Twitter LinkedinGabriela Minga
Marketing y Publicidad
«“Inteligencia artificial, aprendizaje profundo, aprendizaje automático… te dediques a lo que te dediques, si no lo comprendes tienes que ponerte con ello y aprender qué es. Porque de lo contrario serás un dinosaurio dentro de 3 años “..»
— Mark Cuban
Lucentia ResearchSocial Media
Linkedin TwitterSuscríbete a nuestra Newsletter
NewsletterEn Lucentia Research, grupo de investigación de la Universidad de Alicante, estamos emocionados de anunciar que a principios de mayo, nuestros investigadores Jorge García-Carrasco, Alejandro Maté y nuestro director Juan Trujillo presentaron su innovador artículo en la 27th International Conference on Artificial Intelligence and Statistics (AISTATS), uno de los congresos más importantes en el campo de la Inteligencia Artificial.
El artículo, titulado “How does GPT-2 Predict Acronyms? Extracting and Understanding a Circuit via Mechanistic Interpretability”, aborda un tema de gran relevancia en el mundo actual de la Inteligencia Artificial. Los Large Language Models (LLMs), como GPT, están suponiendo una auténtica revolución, pero su funcionamiento interno sigue siendo un misterio, lo que plantea serias preocupaciones de seguridad y limita su aplicación en ciertos ámbitos.
La investigación presentada por nuestros expertos se centra en Mechanistic Interpretability (MI), un enfoque que busca desentrañar y entender los comportamientos de las redes neuronales en términos de componentes comprensibles para los humanos. En su trabajo, García-Carrasco, Maté y Trujillo se propusieron entender cómo GPT-2 Small realiza la tarea de predecir acrónimos de tres letras, un desafío que va más allá de los estudios anteriores que solo se enfocan en la predicción de un solo token.
A través de su investigación, nuestros científicos descubrieron que la predicción de acrónimos se lleva a cabo mediante un circuito compuesto por 8 cabezas de atención, que representan aproximadamente el 5% del total de cabezas del modelo. Estas cabezas fueron clasificadas en tres grupos según su función y se demostró que concentran la capacidad de predicción de acrónimos. Además, interpretaron las cabezas más relevantes del circuito y descubrieron que utilizan información posicional que se propaga a través del mecanismo de máscara causal.
Este trabajo pionero no sólo desvela cómo GPT-2 predice múltiples tokens consecutivos, sino que también sienta las bases para entender comportamientos más complejos en modelos de lenguaje. Esperamos que esta investigación inspire nuevos avances en el campo y contribuya a una comprensión más profunda y segura de las LLMs.
En Lucentia Research, continuamos comprometidos con la exploración y el desarrollo de tecnologías avanzadas, siempre con el objetivo de hacer que el mundo de la Inteligencia Artificial sea más transparente y accesible para todos.
Para más detalles sobre nuestra investigación, visita el artículo completo aquí: https://arxiv.org/abs/2405.04156
Linkedin Post
Otros post que podrían interesarte…
Sin categoría La Noche Europea de los Investigadores 2024: Ciencia y Tecnología para Todos 19 septiembre, 2024 Lucentia Research en… Eventos Noticias Taller Internacional de Inteligencia Artificial para la Neurociencia 2024 12 septiembre, 2024 Taller Internacional… Noticias Diagnóstico del TDAH a través de los Videojuegos: Innovaciones y Retos del Proyecto Balladeer 04 septiembre, 2024 En un mundo donde la… eHealth con IA El proyecto Balladeer atraviesa fronteras para innovar en eHealth gracias a la IA 30 julio, 2024 El proyecto Balladeer… Eventos Noticias Lucentia Research Presenta su Investigación en la Conferencia Internacional AISTATS 2024 03 julio, 2024 En Lucentia Research,… Sin categoría Machine Learning applied to healthcare data 21 febrero, 2024 Machine Learning applied…¡Suscríbete a nuestra Newsletter!
Mantente informado sobre nuestros avances
Únete a nuestra comunidad y recibe nuestros últimos avances directamente en tu correo electrónico.
NewsletterProyecto Balladeer
© 2019 Lucentia Research Group DLSI, University of Alicante, Alicante, Spain.
Legal Policy. All rights Reserved.
Departamento de Lenguages y Sistemas Informáticos Universidad de Alicante, PO BOX 99 E-03080, Alicante
Siguenos en RRSS
Twitter Linkedin