Lucentia Research Presenta su Investigación en la Conferencia Internacional AISTATS 2024

Gabriela Minga

Marketing y Publicidad

«“Inteligencia artificial, aprendizaje profundo, aprendizaje automático… te dediques a lo que te dediques, si no lo comprendes tienes que ponerte con ello y aprender qué es. Porque de lo contrario serás un dinosaurio dentro de 3 años “..»

— Mark Cuban

Lucentia Research

Social Media

Linkedin Twitter

Suscríbete a nuestra Newsletter

Newsletter

En Lucentia Research, grupo de investigación de la Universidad de Alicante, estamos emocionados de anunciar que a principios de mayo, nuestros investigadores Jorge García-Carrasco, Alejandro Maté y nuestro director Juan Trujillo presentaron su innovador artículo en la 27th International Conference on Artificial Intelligence and Statistics (AISTATS), uno de los congresos más importantes en el campo de la Inteligencia Artificial.

El artículo, titulado «How does GPT-2 Predict Acronyms? Extracting and Understanding a Circuit via Mechanistic Interpretability», aborda un tema de gran relevancia en el mundo actual de la Inteligencia Artificial. Los Large Language Models (LLMs), como GPT, están suponiendo una auténtica revolución, pero su funcionamiento interno sigue siendo un misterio, lo que plantea serias preocupaciones de seguridad y limita su aplicación en ciertos ámbitos.

La investigación presentada por nuestros expertos se centra en Mechanistic Interpretability (MI), un enfoque que busca desentrañar y entender los comportamientos de las redes neuronales en términos de componentes comprensibles para los humanos. En su trabajo, García-Carrasco, Maté y Trujillo se propusieron entender cómo GPT-2 Small realiza la tarea de predecir acrónimos de tres letras, un desafío que va más allá de los estudios anteriores que solo se enfocan en la predicción de un solo token.

A través de su investigación, nuestros científicos descubrieron que la predicción de acrónimos se lleva a cabo mediante un circuito compuesto por 8 cabezas de atención, que representan aproximadamente el 5% del total de cabezas del modelo. Estas cabezas fueron clasificadas en tres grupos según su función y se demostró que concentran la capacidad de predicción de acrónimos. Además, interpretaron las cabezas más relevantes del circuito y descubrieron que utilizan información posicional que se propaga a través del mecanismo de máscara causal.

Este trabajo pionero no sólo desvela cómo GPT-2 predice múltiples tokens consecutivos, sino que también sienta las bases para entender comportamientos más complejos en modelos de lenguaje. Esperamos que esta investigación inspire nuevos avances en el campo y contribuya a una comprensión más profunda y segura de las LLMs.

En Lucentia Research, continuamos comprometidos con la exploración y el desarrollo de tecnologías avanzadas, siempre con el objetivo de hacer que el mundo de la Inteligencia Artificial sea más transparente y accesible para todos.

Para más detalles sobre nuestra investigación, visita el artículo completo aquí: https://arxiv.org/abs/2405.04156

Linkedin Post

Otros post que podrían interesarte…

Sin categoría La Noche Europea de los Investigadores 2024: Ciencia y Tecnología para Todos 19 septiembre, 2024 Lucentia Research en…

Eventos Noticias Taller Internacional de Inteligencia Artificial para la Neurociencia 2024 12 septiembre, 2024 Taller Internacional…

Noticias Diagnóstico del TDAH a través de los Videojuegos: Innovaciones y Retos del Proyecto Balladeer 04 septiembre, 2024 En un mundo donde la…

eHealth con IA El proyecto Balladeer atraviesa fronteras para innovar en eHealth gracias a la IA 30 julio, 2024 El proyecto Balladeer…

Eventos Noticias Lucentia Research Presenta su Investigación en la Conferencia Internacional AISTATS 2024 03 julio, 2024 En Lucentia Research,…

Sin categoría Machine Learning applied to healthcare data 21 febrero, 2024 Machine Learning applied…

¡Suscríbete a nuestra Newsletter!

Mantente informado sobre nuestros avances

Únete a nuestra comunidad y recibe nuestros últimos avances directamente en tu correo electrónico.

Newsletter

Proyecto Balladeer

Departamento de Lenguages y Sistemas Informáticos Universidad de Alicante, PO BOX 99 E-03080, Alicante

Siguenos en RRSS

Twitter Linkedin

Etiquetado Inteligencia artificial, redes neuronales, seguridad