Remove ads
процес збирання та дублювання вебсторінок З Вікіпедії, вільної енциклопедії
Архівува́ння вебса́йтів (вебархівува́ння, англ. web archiving) — процес збирання та «дублювання» вебсторінок та цілих сайтів з метою збереження інформації та доступу до неї у майбутньому, якщо джерело виявиться недоступним. Передумовами розвитку вебархівування стали проблеми вимирання посилань і потенційний наступ цифрових темних століть. 1996 року створено «Архів Інтернету» — першу некомерційну організацію, яка поставила собі за мету створити «знімки» всіх сторінок в інтернеті. 2001 року «Архів» запустив сервіс із архівування сайтів Wayback Machine, через який станом на 2021 рік було збережено понад 600 млрд вебсторінок.
Від початку 2000-х років практики збереження вебсайтів активно впроваджують у багатьох країнах, зокрема й на державному рівні. При цьому діють майданчики для розробки стандартів та загальних практик у сфері вебархівування, наприклад, Міжнародний семінар архівування інтернету (IWAW) (від 2001-го) та Міжнародний консорціум збереження інтернету[en] (від 2003-го).
Найчастіше інформацію зі статичних сайтів збирають за допомогою пошукових роботів (наприклад, Heritrix[en], Webrecorder, HTTrack), які надсилають HTTP-запити на вебсервери і «захоплюють» передаваний контент зі всіма гіперпосиланнями з просканованих вебсторінок. Натомість, скрипти, шаблони та контент динамічних сайтів зберігаються на вебсерверах як окремі ресурси, тому архівувати такі портали значно складніше. Процес має два основні етапи — збереження файлових даних зі структури каталогів вебсайту та подальше архівування інформації з бази даних.
Терміни вебархівування та вебзбереження (англ. web preservation) часто використовують як взаємозамінні, проте між ними існує важлива відмінність: перший визначає весь процес збереження інтернет-ресурсу, а другий лише один з етапів[1]. Міжнародний консорціум збереження інтернету[en] визначає вебархівування як:
[...] процес збирання частин всесвітньої павутини, збереження колекцій в архівному форматі та подальше обслуговування архівів з метою надання до них доступу та використання. |
Від початку 1990-х років створення, зберігання та поширення інформації відбувається переважно в цифровому середовищі. Вже до середини 1990-х років почали старіти раніше популярні носії інформації, такі як магнітні стрічки, дискети, ZIP-накопичувачі та компакт-диски, а доступ до старих файлових форматів ускладнився[2][3]. Стали зникати багато великих баз даних, які не було скопійовано на інші носії чи продубльовано на папері[4]. Так, усі дані великомасштабного проєкту BBC Domesday Project, проведеного в 1980-ті роки за участю понад мільйон осіб, було записано на кілька дисків, які до початку 2000-х років або пошкодились, або були втрачені[5][6].
Повсюдна втрата даних призвела до того, що окремі дослідники почали обговорювати потенційне настання «цифрових темних століть» (англ. digital dark age) — періоду, що характеризується практично повною відсутністю писемних свідчень[7][8]. Деякі дослідники називають XXI століття «інформаційною чорною дірою» через побоювання, що програмне забезпечення та комп'ютери майбутнього не зможуть відтворити створених раніше даних[9]. 2003 року ЮНЕСКО випустила «Хартію про збереження цифрової спадщини»[10], яка визначає важливість резервації цифрових даних, втрата яких може призвести до «збіднення» людської спадщини[11][12]. 2015 року із заявою про те, що людство рухається до «цифрових темних століть», виступив американський учений і віце-президент Google Вінтон Серф[13][14][15][16].
Іншою передумовою для розвитку вебархівування є вимирання посилань — ситуація, коли сторінки стають недоступними за попередніми URL або змінюється їх зміст[17][18][19]. Аналіз, який провели 2017 року португальські дослідники, показав, що близько 80 % інтернет-сторінок недоступні в початковому вигляді вже через рік після опублікування, при цьому 13 % посилань у наукових статтях зникали в середньому через 27 місяців[11]. 2021 року вчені юридичного факультету Гарвардського університету разом із журналістами The New York Times (NYT) проаналізували життєздатність посилань у більш ніж 550 тисячах випущених NYT онлайн-публікаціях у період за 2000—2017 роки — близько чверті використаних URL-адрес «вимерли»[20][21][22][23]. Середня тривалість життя вебсторінки становить 44—100 днів, а на сайтах новин і в соціальних мережах інформація може зникати ще швидше[24][25].
Інформація в інтернеті може зникати і з інших причин. Так, 2015 року Державний департамент США і Агентство США з міжнародного розвитку ініціювали видалення матеріалів про війну в Афганістані з метою вберегти тих, хто співпрацював з американською владою, від переслідування з боку талібів[26]. Інший приклад — висунуті в грудні 2021 року вимоги Роскомнадзору видалити з низки російських ЗМІ матеріали про розслідування видання «Проект», яке раніше визнано небажаною організацією[27][28].
Починаючи від 1980-х років, окремі архіви та бібліотеки почали зберігати електронні ресурси з метою задокументувати хроніку актуальних подій. Однак відправною точкою вебархівування вважають створення 1996 року «Архіву Інтернету» — некомерційної організації, що поставила амбітну мету зберегти всі веб-сторінки всього інтернету, яких на той момент було відносно небагато[29][1]. Наприкінці 1990-х — на початку 2000-х років уряди багатьох розвинених країн стали впроваджувати практики вебархівування, поклавши відповідальність за їх ведення на національні бібліотеки, які мають необхідний досвід та засоби для архівування[30][11][12]. До 2000 року національні вебархіви з'явилися в багатьох країнах, зокрема, у Великій Британії, Новій Зеландії, США та Чехії[31][32][19].
Відтоді кількість проєктів із вебархівування зростає[11]. 2011 року у світі діяло 42 програми, більшість із яких збирали регіональні вебджерела[12]. Дослідження 2020 року показало експоненційне зростання кількості установ, що мають власні репозиторії, роботу яких підтримують найняті фахівці та спеціалізоване обладнання. Більшість таких репозиторіїв поповнюється за принципом самоархівування — автори самостійно розміщують там свої матеріали[33]. На 2019 рік вебархіви на національному рівні запроваджено практично у всіх країнах Європейського Союзу, найчастіше — у рамках роботи національних бібліотек[31][34].
Першою найбільшою ініціативою з веб-архівування став «Архів Інтернету» — некомерційна організація, створена 1996 року для збереження всіх розміщених в інтернеті матеріалів[19]. Творцем став американський програміст Брюстер Кейл, який одночасно запустив «Архів» і комерційну систему вебархівування Alexa Internet . 1997 року він розробив браузерний плагін, через який Alexa Internet автоматично визначала і зберігала в «Архів» «цінні» веб-сторінки, ранжуючи їх за кількістю відвідувань, перехресних посилань і «клацань»[35]. Від 1998 року кількість сторінок для архівування зростала вдвічі кожні 3—6 місяців[36].
24 жовтня 2001 року «Архів Інтернету» запустив сервіс Wayback Machine, через який користувачі могли отримати доступ до більш ніж 10 млрд заархівованих веб-сторінок. Тоді дані зберігалися на серверах Hewlett Packard і uslab.com і керувалися через операційні системи FreeBSD і Linux[36].
На 2021 рік колекція «Архіву Інтернету» містила багато підколекцій архівованих веб-сайтів, оцифрованих книг, аудіо та відео файлів, ігор, програмного забезпечення[37]; при цьому кількість заархівованих вебсторінок склала понад 622 млрд[38].
Сервіс WebCite, запущений 2003 року, став першим інструментом вебархівування, що дозволяє користувачам зберігати вебсайти за запитом. Він швидко набрав популярності і вже на 2005 рік близько 200 журналів просили авторів перед надсиланням рукописів архівувати використовувані вебсторінки через WebCite[39]. Сервіс не використовує пошукових роботів для «захоплення» сторінок, архівування відбувається безпосередньо за запитом користувача[39].
2013 року WebCite був під загрозою закриття через брак фінансування, проте завдяки публічній кампанії зі збору коштів творця Гюнтера Айзенбаха портал продовжував свою роботу ще шість років. Від 2019 року він став доступним лише для читання та припинив приймати запити на архівування[40][41].
Сервіс archive.today (спосатку archive.is) запустила 2012 року однойменна некомерційна організація[42]. Проєкт фінансують приватні спонсори. Так само, як і WebCite, archive.today зберігає вебсторінки за запитами користувачів[43][44], розміщуючи у відкритому доступі робочу копію вебсторінки та знімок екрана зі статичною візуалізацією сторінки у форматі PNG[45]. Розмір заархівованої сторінки з усіма зображеннями не може перевищувати 50 МБ[42].
Творці archive.today також запустили розширення для браузера Mozilla Firefox, яке автоматично зберігає і викладає у спільний доступ копію кожної вебсторінки, яку користувач додав у закладки[45][46].
У більшості розвинених країн діють закони про обов'язковий примірник, які покладають юридичну відповідальність на національні бібліотеки зберігати один примірник кожного опублікованого в цій країні друкованого видання. З розвитком засобів електронної комунікації дію закону поширили і на веб-сайти[1][47]. Так, згідно із Законом про публічні записи 1967 року[en], Національні архіви Великої Британії[en] та Ірландії[en] зобов'язані зберігати всі важливі постанови уряду Великої Британії. Оскільки чиновники все частіше публікують свої звіти в інтернеті, вебархів щомісяця відвідують понад 100 млн. користувачів (станом на 2013 рік)[24].
1996 року Національна бібліотека Швеції ініціювала проект Kulturar, у рамках якого здійснювалося великомасштабне збереження всієї шведської мережі доменів[48]. На початку 2005 року зібрано понад 350 000 вебсайтів або близько 10 терабайт даних, завдяки чому вебархів став найбільшим на той момент у світі[19]. 1997 року створено спільну ініціативу національних бібліотек Данії, Фінляндії, Ісландії, Норвегії, Швеції під назвою Nordic Web Archive (NWA). У рамках NWA велася розробка інструментів та обговорювалися методи вебархівування для скандинавських країн. 2004 року NWA випустив програмний пакунок для доступу до архівованих вебдокументів, який згодом ліг в основу IIPC[en] Toolkit[19][49]. Цього ж року Національна бібліотека Австралії запустила Pandora[en] — проєкт збереження електронних ресурсів Австралії[50][51][19]. 2019 року колекція Pandora увійшла до Australian Web Archive[en] — одного з найбільших національних вебархівів у світі[52].
2001 року створено Міжнародний семінар архівування Інтернету (IWAW)[53] — майданчик для обміну дослідженнями та досвідом у сфері вебархівування[54], а 2003-го з ініціативи «Архіву Інтернету» засновано Міжнародний консорціум збереження Інтернету[en] (IIPC), у рамках якого розробляються стандарти та засоби вебархівування[36][55]. Крім «Архіву», до складу IIPC увійшли національні бібліотеки Франції, Австралії, Канади, Данії, Фінляндії, Ісландії, Італії, Норвегії, Швеції, Великої Британії, США. 2008 року в рамках IIPC розроблено Web ARChive[en] або WARC — формат файлів для архівування вебресурсів[12]. На 2021 рік у IIPC перебувало більше 50 членів[56].
Організації часто співпрацюють для створення об'єднаних веб-архівів. Так, від 2004 до 2018 року діяв Європейський цифровий архів (згодом перейменований на Internet Memory Foundation[en]), який збирає електронні документи в країнах Європейського Союзу[57][19][12]. Серед інших, до його складу входили Національні архіви Великої Британії, Товариство імені Макса Планка, Берлінський технічний університет, Саутгемптонський університет, Institut Mines-Télécom[en]. На початку 2000-х років департаменти китаєзнавства Гейдельберзького та Лейденського університетів спільно запустили вебархів DACHS, що містить електронні матеріали з синології[58][19]. Консорціуми NWA та UKWAC проводили програми спільного збору даних у партнерстві з іншими організаціями[59][19][60]. Наприкінці 1990-х років Європейська комісія профінансувала створення Networked European Deposit Library (NEDLIB) — проекту зі збирання, описування, зберігання та відкриття доступу до збережених європейських вебсайтів[61]. Випущений 2000 року NEDLIB Harvester став одним із перших пошукових роботів, спеціально створених для архівування даних. Згодом його використовували в низці проєктів, зокрема для збору даних із нідерландських, естонських та ісландських вебдоменів[19][62].
У липні 2011 року Національний архів Великої Британії спільно з Internet Memory Foundation запустили пілотний проєкт з вебархівування цифрових даних для місцевих органів влади. Проєкт діяв у семи архівах муніципальних утворень, що охоплюють понад 20 місцевих органів влади. Персонал пройшов безкоштовне навчання зі створення кураторського вебархіву для своєї галузі[63].
Університети розвинених країн також беруть участь у розвитку вебархівування. Наприклад, у Мічиганському, Індіанському, Каліфорнійському, Іллінойському та інших університетах пропонують курси з навчання архівуванню цифрових матеріалів[53], а кілька установ створили для дослідних цілей власні вебархіви — Stanford WebBase Archive (Стенфордський університет), Socio-Sense (Токійський університет), вебінформаційний центр (Пекінський університет) [12].
Перед початком архівування кожна організація визначає критерії відбору джерел. Таких критеріїв може бути один або декілька, залежно від розміру та цілей організації[19][64]. Деякі веб-архіви, такі як «Архів Інтернету», мають на меті зібрати всі можливі вебсторінки — такий підхід називають неселективним або широким скануванням. В його основі лежить принцип взаємопов'язаності всесвітнього павутиння, згідно з яким по-справжньому «зберегти» якусь тему можна лише зібравши всі наявні вебсторінки, оскільки вони пов'язані між собою. Крім цього, відбір вебсайтів є дорогим і трудомістким процесом, який також може призвести до суб'єктивної вибірки[19]. Однак підхід «Архіву» вважають нездійсненним на практиці — збереження всіх сторінок неможливе через обмеження, пов'язані з авторським правом, і навіть «Архів Інтернету» зберігає лише доступні громадськості матеріали[65].
Альтернативою неселективного підходу до відбору є вибірковий підхід або вибір ресурсів, ґрунтуючись на їх відповідності певним критеріям — домену (наприклад, .gov або .edu), темі, події, типу мультимедіа або жанру[19]. Вибірковий підхід часто поєднують із практиками широкого сканування, наприклад, якщо організація архівує всі портали з певним доменним ім'ям. Так, Національна бібліотека Швеції від 1996 року збирає всі вебсайтів з доменом «.se»[19][66], а Національна бібліотека Великої Британії архівує веб-сайти з доменами «.gov.uk», «.org.uk» та «.co.uk». Бібліотека НАСА Центру космічних польотів Ґоддарда зберігає всі вебсторінки з доменним ім'ям Центру[19]. Головною перевагою вибіркового архівування є те, що такий підхід дозволяє створити більш керовані за розміром колекції пов'язаних ресурсів[19].
Вибірковий підхід застосовують для створення тематичних колекцій. Наприклад, DACHS збирає соціальні та культурні ресурси зі синології, а Бібліотека Конгресу, спільно з Архівом Інтернету, скомпілювала вебархіви про президентські вибори в США та події 11 вересня 2001 року. Британська бібліотека спеціалізується на вебсайтах, що становлять цінність для національної культури[66]. Такий підхід застосовує і проєкт Pandora Національної бібліотеки Австралії[19][53]. 2006 року «Архів Інтернету» запустив сервіс Archive It зі створення тематичних вебколекцій[67], яким часто користуються окремі організації, наприклад Національний музей жіночого мистецтва[en][68].
Деякі організації архівують ресурси, зважаючи на тип джерел. Так, бібліотека Центру космічних польотів Годдарда уникає сканування великих відеофайлів та програмних продуктів. Навпаки, інші проєкти вебархівують відео на Youtube або збирають блоги, віртуальні газети, наприклад, Національна бібліотека Франції створила окрему вебколекцію для Живих Журналів[53].
Що простіший і статичніший сайт, то легше його архівувати[69] — копії даних завантажуються з вебсервера у вигляді файлів, які згодом можна перетворити на інші формати[70][71][72].
Процес автоматичного збирання вебсторінок через пошукові роботи називають «скануванням» (англ. web harvesting). Роботу передають список URL-адрес, за якими він надсилає HTTP-запити на вебсервери і «захоплює» переданий контент і всі гіперпосилання з просканованих вебсторінок[72]. Потім автоматизоване ПЗ перетворює інформацію у формат WARC, і результатом є файл, який можна відтворити, наприклад, за допомогою Wayback Machine[73]. Приклади пошукових роботів — розроблений «Архівом Інтернету» 2004 року Heritrix[en][74], а також HTTrack[75] і Wget[76]. Мережа «сканерів» дозволяє організаціям зберігати копії вибраних сайтів з деякою періодичністю, наприклад, щодня або щорічно[73]. Для більш точкового архівування використовують інструменти меншого масштабу, наприклад HTTrack, який дозволяє завантажувати копії вебсайтів на локальний комп'ютер[73].
Архівувати динамічні сайти значно складніше, ніж статичні, оскільки контент, скрипти та шаблони зберігаються на вебсервері як окремі ресурси. а вигляд та вміст сторінки формується залежно від браузера клієнта та налаштувань сервера. На відміну від статичних веб-сайтів, автоматичного оброблення HTTP-запиту недостатньо, оскільки з боку сервера сайт генерує контент, використовуючи базу даних[70]. Тому збереження таких ресурсів відбувається у два етапи — збереження файлових даних, що знаходяться в структурі каталогів веб-сайту, та архівування інформації бази даних[70]. Для динамічних сайтів використання пошукових роботів має обмеження[19]. До інструментів веб-архівування динамічного контенту відносять програмне забезпечення Software Independent Archiving of Relational Databases (SIARD), розроблене Швейцарським федеральним архівом, та DeepArc Національної бібліотеки Франції. SIARD автоматично аналізує та відображає структуру початкової бази даних. Потім він експортує структуру в текстовий файл, що містить визначення даних, описане з використанням SQL — міжнародного стандарту для опису реляційних баз даних. Згодом вміст експортується як звичайний текстовий файл, а метадані зберігаються як XML-документ[19].
Перші проєкти з архівування соціальних мереж почали з'являтися від 2008 року як систематичне широке сканування платформ. Так, Національна бібліотека Нової Зеландії[en] розпочала роботу зі створення архіву повідомлень, опублікованих у Твіттері, а Національна бібліотека Франції сканувала Facebook. Однак через великий обсяг контенту, відсутність технічних стандартів зі збору та зберігання інформації, а також постійні зміни технічних деталей роботи порталів, згодом організації почали застосовувати вибірковий підхід до вебархівування соціальних мереж та зберігати повідомлення лише про конкретні події або надзвичайні ситуації. Окремі організації, наприклад, Національна бібліотека Франції або Національна бібліотека Канади, запустили безперервне автоматизоване збирання новин та контенту соціальних мереж, щоб не упустити реакцію людей на непередбачені події. Вибірка здійснюється за заданими хештегами або ключовими словами, за певний період або на конкретній платформі[77][78].
Для збирання вебсайтів використовують різні інструменти вебархівування. Найчастіше зустрічається пошуковий робот Heritrix — доступний за ліцензією вільного програмного забезпечення вебсканер загального призначення, розроблений з урахуванням завдань вебархівування. Heritrix зберігає файли у форматі WARC і добре підходить для великомасштабних операцій сканування, однак меншою мірою захоплює динамічні сайти або сторінки в соціальних мережах. Розроблений на основі Heritrix NetarchiveSuite має додаткові функції щодо довгострокового зберігання та доступу до матеріалів[1].
Webrecorder використовує для збирання вмісту вебсайтів браузер, тим самим вирішуючи часті проблеми інших пошукових роботів — захоплення динамічного контенту, Adobe Flash, мультимедіа. Програма записує вебсторінки під час їх перегляду, тому добре підходить для вибіркового сканування. Вміст також зберігається у форматі WARC[1]. Інший пошуковий робот, Brozzler[79], використовує для збору сторінок браузер Google Chrome і пропонує ті ж переваги, що й Webrecorder, але під час сканування не потребує взаємодії з користувачем[1].
HTTrack дозволяє завантажувати копії вебсайтів на локальний комп'ютер, і згодом користувач може переглянути їх у браузері[80]. Wget та аналогічний інструмент Wpull — універсальні інструменти командного рядка, які мають вбудовані функції сканування вебсторінок, подібні до функцій HTTrack. Wpull найкраще підходить для масштабного архівування[1].
Через динамічну структуру сайтів соціальних мереж для їх архівації потрібні спеціалізовані інструменти. Зазвичай вебархівування виконується за допомогою інтерфейсів прикладного програмування (API), які надають розробники. F(b)arc — інструмент командного рядка, який можна використати для архівування даних за допомогою Facebook Graph. Twarc — інструмент та бібліотека командного рядка, які спрощують використання API-інтерфейсів Twitter. Social Feed Manager дозволяє збирати дані з Twitter, Tumblr, Flickr та Sina Weibo[1].
Найчастіше для архівування використовують формати ARC та WARC. Більшість ініціатив використовують для підтримки повнотекстового пошуку рішення на основі Lucene, зокрема, NutchWAX або Solr, а для підтримки пошуку URL та відображення заархівованого контенту — Wayback Machine[11]. Для читання та вилучення метаданих із файлів WARC використовують інструменти JWAT, node-warc, WARCAT, warcio та warctools[1].
Чи підпорядковуватиметься організація стандарту винятків для роботів і чи запитуватиме дозвіл на архівування у власників сайту, залежить від багатьох факторів — виду контенту, масштабів вебархівування, правового середовища[53][1]. Однак навіть при зверненні по дозвіл лише близько 30—50 % власників сайтів відгукуються на прохання[81].
Як правило, урядові організації, наділені законним правом зберігати публічні записи (наприклад, Національне управління архівів та документації (США) і національні архіви Великої Британії), не потребують дозволу на сканування. Згідно зі французьким законом Про авторське право[en] від 2006 року, Національна бібліотека Франції може під час скануванні сайтів із національними доменами нехтувати robots.txt[53][1]. Інші організації, такі як «Архів Інтернету», використовують принцип відмови — дані видаляються з колекції на прохання правовласників, які можуть довести авторські права, надавши опис матеріалу, контактні дані заявника і підписану заяву[82][53][24].
Вебархіви зазвичай мають ієрархічну структуру — сеанс сканування захоплює багато сайтів, кожен з яких веде на окрему вебсторінку, яка містить відео, текст та файли зображень. Для кожного з «рівнів» генеруються метадані[53][19].
Підхід до створення метаданих залежить від масштабу та ресурсів, якими володіє організація. Так, великі вебархіви часто покладаються на автоматичне створення метаданих. Деякі метадані, зокрема час збору, код стану (наприклад, помилка 404 для не знайденого або 303 для перенаправлення), розмір у байтах, URI або тип MIME (наприклад, text/ HTML) пошукові роботи захоплюють автоматично. Інформацію також можна добути з метатегів HTML-сторінок[53][19].
Для невеликих вебархівів метадані можуть створюватися вручну. Літературний архів Каліфорнійського університету в Лос-Анджелесі використовує для генерування метаданих докладні нотатки, які створює персонал у процесі збирання та аналізу веб-сторінок[53][83]. У вебархіві Національного університету Тайваню діє трирівнева ієрархічна класифікація. Метадані можуть також бути створені за допомогою користувацьких тегів, коментарів або оцінок[53][83][84].
Користувачі звертаються до вебархівів з різних причин — для досліджень, компіляції власної бази даних або перегляду старих версій окремих вебресурсів. Однак найчастіше доступ до таких колекцій ускладнений відсутністю загального пошуку в доступних базах даних і незручним інтерфейсом. Для доступу та обробки збереженої інформації часто потрібні технічні навички роботи зі спеціалізованими форматами файлів[85][60][86]. Окремі дослідники вважають, що саме з цих причин посилання на вебархіви, як і раніше, рідко зустрічаються в наукових працях, а колекції — не вивчаються[87][88].
Колекція вебархіву може виявитися неповною або упередженою через неможливість заархівувати «закриті» сайти та/або непрофесійну розробку стратегій архівування — наприклад, коли архівують лише англомовні портали великих західних країн. Попри те, що частина архівів має юридичне право нехтувати стандарт винятків для роботів, колекції інших організацій суттєво обмежені через дотримання стандарту[69][89][69].
Автоматичне вебархівування через пошукові роботи дозволяє «захопити» багато інформації[33], проте деякі інтерактивні елементи JavaScript зберегти неможливо і архівна версія втрачає функціональність[69][90].
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.