ملخص
In video understanding, the spatial patterns formed by local space-time interest points hold discriminative information. We encode these spatial regularities using a word2vec neural network, a recently proposed tool in the field of text processing. Then, building upon recent accumulator based image representation solutions, input videos are represented in a hybrid manner: the appearance of local space time interest points is used to collect and associate the learned descriptors, which capture the spatial patterns. Promising results are shown on recent action recognition benchmarks, using well established methods as the underlying appearance descriptors.
اللغة الأصلية | الإنجليزيّة |
---|---|
عنوان منشور المضيف | Proceedings - 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2014 |
ناشر | IEEE Computer Society |
الصفحات | 520-525 |
عدد الصفحات | 6 |
رقم المعيار الدولي للكتب (الإلكتروني) | 9781479943098, 9781479943098 |
المعرِّفات الرقمية للأشياء | |
حالة النشر | نُشِر - 24 سبتمبر 2014 |
الحدث | 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2014 - Columbus, الولايات المتّحدة المدة: ٢٣ يونيو ٢٠١٤ → ٢٨ يونيو ٢٠١٤ |
سلسلة المنشورات
الاسم | IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops |
---|---|
رقم المعيار الدولي للدوريات (المطبوع) | 2160-7508 |
رقم المعيار الدولي للدوريات (الإلكتروني) | 2160-7516 |
!!Conference
!!Conference | 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPRW 2014 |
---|---|
الدولة/الإقليم | الولايات المتّحدة |
المدينة | Columbus |
المدة | ٢٣/٠٦/١٤ → ٢٨/٠٦/١٤ |
ملاحظة ببليوغرافية
Publisher Copyright:© 2014 IEEE.