Finding pages on the unarchived Web

Hugo C. Huurdeman, Anat Ben-David, Jaap Kamps, Thaer Samar, Arjen P. De Vries

نتاج البحث: فصل من :كتاب / تقرير / مؤتمرمنشور من مؤتمرمراجعة النظراء

ملخص

Web archives preserve the fast changing Web, yet are highly incomplete due to crawling restrictions, crawling depth and frequency, or restrictive selection policies - most of the Web is unarchived and therefore lost to posterity. In this paper, we propose an approach to recover significant parts of the unarchived Web, by reconstructing descriptions of these pages based on links and anchors in the set of crawled pages, and experiment with this approach on the DutchWeb archive. Our main findings are threefold. First, the crawled Web contains evidence of a remarkable number of unarchived pages and websites, potentially dramatically increasing the coverage of theWeb archive. Second, the link and anchor descriptions have a highly skewed distribution: popular pages such as home pages have more terms, but the richness tapers off quickly. Third, the succinct representation is generally rich enough to uniquely identify pages on the unarchived Web: in a known-item search setting we can retrieve these pages within the first ranks on average.

اللغة الأصليةالإنجليزيّة
عنوان منشور المضيف2014 IEEE/ACM Joint Conference on Digital Libraries, JCDL 2014
ناشرInstitute of Electrical and Electronics Engineers Inc.
الصفحات331-340
عدد الصفحات10
رقم المعيار الدولي للكتب (الإلكتروني)9781479955695
المعرِّفات الرقمية للأشياء
حالة النشرنُشِر - 1 ديسمبر 2014
منشور خارجيًانعم
الحدث2014 14th IEEE/ACM Joint Conference on Digital Libraries, JCDL 2014 - London, بريطانيا
المدة: ٨ سبتمبر ٢٠١٤١٢ سبتمبر ٢٠١٤

سلسلة المنشورات

الاسمProceedings of the ACM/IEEE Joint Conference on Digital Libraries
رقم المعيار الدولي للدوريات (المطبوع)1552-5996

!!Conference

!!Conference2014 14th IEEE/ACM Joint Conference on Digital Libraries, JCDL 2014
الدولة/الإقليمبريطانيا
المدينةLondon
المدة٨/٠٩/١٤١٢/٠٩/١٤

ملاحظة ببليوغرافية

Publisher Copyright:
© 2014 IEEE.

بصمة

أدرس بدقة موضوعات البحث “Finding pages on the unarchived Web'. فهما يشكلان معًا بصمة فريدة.

قم بذكر هذا