Как устроена веб-архивация в мире?
Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.
Ненаправленные веб архивы
Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.
Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.
Сфокусированные архивы
Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности
Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.
Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.
Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.
Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.
В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.
Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
#webarchival #digitalpreservation
Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.
Ненаправленные веб архивы
Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.
Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.
Сфокусированные архивы
Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности
Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.
Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.
Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.
Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.
В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.
Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
#webarchival #digitalpreservation
UK Government Web Archive
We capture, preserve, and make accessible UK central government information published on the web from 1996 to present.
Новости проекта на 23 марта 2022 года
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.
Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/
#digitalpreservation #webarchival
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.
Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/
#digitalpreservation #webarchival
www.ica.org
FADGI publishes the Technical Guidelines for Digitizing Cultural Heritage Material (3rd ed) for public comment | International…
The Federal Agencies Digital Guidelines Initiative ( FADGI) Still Image Working Group has published revision of Still Image Digitization Guidelines, 3rd
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
Telegram
Большая российская энциклопедия
Уважаемые коллеги, пользователи портала!
Компания, обеспечивающая размещение портала «Большая российская энциклопедия» и работу редакционного комплекса в сети Интернет, продлила срок предоставления хостинга до сентября текущего года с учётом обращения Минцифры…
Компания, обеспечивающая размещение портала «Большая российская энциклопедия» и работу редакционного комплекса в сети Интернет, продлила срок предоставления хостинга до сентября текущего года с учётом обращения Минцифры…