تخطي إلى التنقل الرئيسي تخطي إلى البحث تخطي إلى المحتوى الرئيسي

LLM Explainability via Attributive Masking Learning

  • Oren Barkan
  • , Yonatan Toib
  • , Yehonatan Elisha
  • , Jonathan Weill
  • , Noam Koenigstein

نتاج البحث: فصل من :كتاب / تقرير / مؤتمرمنشور من مؤتمرمراجعة النظراء

ملخص

In this paper, we introduce Attributive Masking Learning (AML), a method designed for explaining language model predictions by learning input masks.AML trains an attribution model to identify influential tokens in the input for a given language model's prediction.The central concept of AML is to train an auxiliary attribution model to simultaneously 1) mask as much input data as possible while ensuring that the language model's prediction closely aligns with its prediction on the original input, and 2) ensure a significant change in the model's prediction when applying the inverse (complement) of the same mask to the input.This dual-masking approach further enables the optimization of the explanation w.r.t.the metric of interest.We demonstrate the effectiveness of AML on both encoder-based and decoder-based language models, showcasing its superiority over a variety of state-of-the-art explanation methods on multiple benchmarks.Our code is available at: https://github.com/amlconf/aml.

اللغة الأصليةالإنجليزيّة
عنوان منشور المضيفEMNLP 2024 - 2024 Conference on Empirical Methods in Natural Language Processing, Findings of EMNLP 2024
المحررونYaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen
ناشرAssociation for Computational Linguistics (ACL)
الصفحات9522-9537
عدد الصفحات16
رقم المعيار الدولي للكتب (الإلكتروني)9798891761681
المعرِّفات الرقمية للأشياء
حالة النشرنُشِر - 2024
الحدث2024 Findings of the Association for Computational Linguistics, EMNLP 2024 - Hybrid, Miami, الولايات المتّحدة
المدة: ١٢ نوفمبر ٢٠٢٤١٦ نوفمبر ٢٠٢٤

سلسلة المنشورات

الاسمEMNLP 2024 - 2024 Conference on Empirical Methods in Natural Language Processing, Findings of EMNLP 2024

!!Conference

!!Conference2024 Findings of the Association for Computational Linguistics, EMNLP 2024
الدولة/الإقليمالولايات المتّحدة
المدينةHybrid, Miami
المدة١٢/١١/٢٤١٦/١١/٢٤

ملاحظة ببليوغرافية

Publisher Copyright:
© 2024 Association for Computational Linguistics.

بصمة

أدرس بدقة موضوعات البحث “LLM Explainability via Attributive Masking Learning'. فهما يشكلان معًا بصمة فريدة.

قم بذكر هذا