A Learning-based Approach for Explaining Language Models

Oren Barkan, Yonatan Toib, Yehonatan Elisha, Noam Koenigstein

פרסום מחקרי: פרק בספר / בדוח / בכנספרסום בספר כנסביקורת עמיתים

תקציר

We present Learning Attributions (LA), a novel method for explaining language models. The core idea behind LA is to train a dedicated attribution model that functions as a surrogate explainer for the language model. This attribution model is designed to identify which tokens are most influential in driving the model's predictions. By optimizing the attribution model to mask the minimal amount of information necessary to induce substantial changes in the language model's output, LA provides a mechanism to understand which tokens in the input are critical for the model's decisions. We demonstrate the effectiveness of LA across several language models, highlighting its superiority over multiple state-of-the-art explanation methods across various datasets and evaluation metrics.

שפה מקוריתאנגלית
כותר פרסום המארחCIKM 2024 - Proceedings of the 33rd ACM International Conference on Information and Knowledge Management
מוציא לאורAssociation for Computing Machinery
עמודים98-108
מספר עמודים11
מסת"ב (אלקטרוני)9798400704369
מזהי עצם דיגיטלי (DOIs)
סטטוס פרסוםפורסם - 21 אוק׳ 2024
אירוע33rd ACM International Conference on Information and Knowledge Management, CIKM 2024 - Boise, ארצות הברית
משך הזמן: 21 אוק׳ 202425 אוק׳ 2024

סדרות פרסומים

שםInternational Conference on Information and Knowledge Management, Proceedings
ISSN (מודפס)2155-0751

כנס

כנס33rd ACM International Conference on Information and Knowledge Management, CIKM 2024
מדינה/אזורארצות הברית
עירBoise
תקופה21/10/2425/10/24

הערה ביבליוגרפית

Publisher Copyright:
© 2024 ACM.

טביעת אצבע

להלן מוצגים תחומי המחקר של הפרסום 'A Learning-based Approach for Explaining Language Models'. יחד הם יוצרים טביעת אצבע ייחודית.

פורמט ציטוט ביבליוגרפי