A Multiplexed Network for End-to-End, Multilingual OCR

Jing Huang, Guan Pang, Rama Kovvuri, Mandy Toh, Kevin J. Liang, Praveen Krishnan, Xi Yin, Tal Hassner

פרסום מחקרי: פרק בספר / בדוח / בכנספרסום בספר כנסביקורת עמיתים

תקציר

Recent advances in OCR have shown that an end-to-end (E2E) training pipeline that includes both detection and recognition leads to the best results. However, many existing methods focus primarily on Latin-alphabet languages, often even only case-insensitive English characters. In this paper, we propose an E2E approach, Multiplexed Multilingual Mask TextSpotter, that performs script identification at the word level and handles different scripts with different recognition heads, all while maintaining a unified loss that simultaneously optimizes script identification and multiple recognition heads. Experiments show that our method outperforms the single-head model with similar number of parameters in end-to-end recognition tasks, and achieves state-of-the-art results on MLT17 and MLT19 joint text detection and script identification benchmarks. We believe that our work is a step towards the end-to-end trainable and scalable multilingual multi-purpose OCR system. Our code and model will be released.

שפה מקוריתאנגלית
כותר פרסום המארחProceedings - 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2021
מוציא לאורIEEE Computer Society
עמודים4545-4555
מספר עמודים11
מסת"ב (אלקטרוני)9781665445092
מזהי עצם דיגיטלי (DOIs)
סטטוס פרסוםפורסם - 2021
פורסם באופן חיצוניכן
אירוע2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2021 - Virtual, Online, ארצות הברית
משך הזמן: 19 יוני 202125 יוני 2021

סדרות פרסומים

שםProceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition
ISSN (מודפס)1063-6919

כנס

כנס2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2021
מדינה/אזורארצות הברית
עירVirtual, Online
תקופה19/06/2125/06/21

הערה ביבליוגרפית

Publisher Copyright:
© 2021 IEEE

טביעת אצבע

להלן מוצגים תחומי המחקר של הפרסום 'A Multiplexed Network for End-to-End, Multilingual OCR'. יחד הם יוצרים טביעת אצבע ייחודית.

פורמט ציטוט ביבליוגרפי