Data-driven morphological analysis and disambiguation for morphologically rich languages and universal dependencies

Amir More, Reut Tsarfaty

פרסום מחקרי: פרק בספר / בדוח / בכנספרסום בספר כנסביקורת עמיתים

תקציר

Parsing texts into universal dependencies (UD) in realistic scenarios requires infrastructure for morphological analysis and disambiguation (MA&D) of typologically different languages as a first tier. MA&D is particularly challenging in morphologically rich languages (MRLs), where the ambiguous space-delimited tokens ought to be disambiguated with respect to their constituent morphemes. Here we present a novel, language-agnostic, framework for MA&D, based on a transition system with two variants, word-based and morpheme-based, and a dedicated transition to mitigate the biases of variable-length morpheme sequences. Our experiments on a Modern Hebrew case study outperform the state of the art, and we show that the morpheme-based MD consistently outperforms our word-based variant. We further illustrate the utility and multilingual coverage of our framework by morphologically analyzing and disambiguating the large set of languages in the UD treebanks.

שפה מקוריתאנגלית
כותר פרסום המארחCOLING 2016 - 26th International Conference on Computational Linguistics, Proceedings of COLING 2016
כותר משנה של פרסום המארחTechnical Papers
מוציא לאורAssociation for Computational Linguistics, ACL Anthology
עמודים337-348
מספר עמודים12
מסת"ב (מודפס)9784879747020
סטטוס פרסוםפורסם - 2016
אירוע26th International Conference on Computational Linguistics, COLING 2016 - Osaka, יפן
משך הזמן: 11 דצמ׳ 201616 דצמ׳ 2016

סדרות פרסומים

שםCOLING 2016 - 26th International Conference on Computational Linguistics, Proceedings of COLING 2016: Technical Papers

כנס

כנס26th International Conference on Computational Linguistics, COLING 2016
מדינה/אזוריפן
עירOsaka
תקופה11/12/1616/12/16

הערה ביבליוגרפית

Publisher Copyright:
© 1963-2018 ACL.

טביעת אצבע

להלן מוצגים תחומי המחקר של הפרסום 'Data-driven morphological analysis and disambiguation for morphologically rich languages and universal dependencies'. יחד הם יוצרים טביעת אצבע ייחודית.

פורמט ציטוט ביבליוגרפי