Improving LLM Attributions with Randomized Path-Integration

Oren Barkan, Yehonatan Elisha, Yonatan Toib, Jonathan Weill, Noam Koenigstein

פרסום מחקרי: פרק בספר / בדוח / בכנספרסום בספר כנסביקורת עמיתים

תקציר

We present Randomized Path-Integration (RPI)-a path-integration method for explaining language models via randomization of the integration path over the attention information in the model.RPI employs integration on internal attention scores and their gradients along a randomized path, which is dynamically established between a baseline representation and the attention scores of the model.The inherent randomness in the integration path originates from modeling the baseline representation as a randomly drawn tensor from a Gaussian diffusion process.As a consequence, RPI generates diverse baselines, yielding a set of candidate attribution maps.This set facilitates the selection of the most effective attribution map based on the specific metric at hand.We present an extensive evaluation, encompassing 11 explanation methods and 5 language models, including the Llama2 and Mistral models.Our results demonstrate that RPI outperforms latest state-of-the-art methods across 4 datasets and 5 evaluation metrics.Our code is available at: https://github.com/rpiconf/rpi.

שפה מקוריתאנגלית
כותר פרסום המארחEMNLP 2024 - 2024 Conference on Empirical Methods in Natural Language Processing, Findings of EMNLP 2024
עורכיםYaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen
מוציא לאורAssociation for Computational Linguistics (ACL)
עמודים9430-9446
מספר עמודים17
מסת"ב (אלקטרוני)9798891761681
סטטוס פרסוםפורסם - 2024
אירוע2024 Conference on Empirical Methods in Natural Language Processing, EMNLP 2024 - Hybrid, Miami, ארצות הברית
משך הזמן: 12 נוב׳ 202416 נוב׳ 2024

סדרות פרסומים

שםEMNLP 2024 - 2024 Conference on Empirical Methods in Natural Language Processing, Findings of EMNLP 2024

כנס

כנס2024 Conference on Empirical Methods in Natural Language Processing, EMNLP 2024
מדינה/אזורארצות הברית
עירHybrid, Miami
תקופה12/11/2416/11/24

הערה ביבליוגרפית

Publisher Copyright:
© 2024 Association for Computational Linguistics.

טביעת אצבע

להלן מוצגים תחומי המחקר של הפרסום 'Improving LLM Attributions with Randomized Path-Integration'. יחד הם יוצרים טביעת אצבע ייחודית.

פורמט ציטוט ביבליוגרפי