Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.

Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int

А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru

Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.

Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru

Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.

#webarchives #digitalpreservation #un
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.

В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.

Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.

Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.

Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.

Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.

Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive

#opendata #digitalpreservation #webarchives
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.

Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.

Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.

Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF

#memorial #webarchives #archives #digitalpreservation
В Интернет архиве появился архив нескольких телеканалов России, Беларуси и Украины [1] созданный вместе с проектом GDELT [2] собирающем данные о человеческом обществе по всему миру.

Архив состоит из большого числа нарезок видеозаписей и покрывает период времени начиная с 1 января 2022 года. Цель архива также в том чтобы обеспечить распознавание и последующий поиск по распознанным текстам для помощи работе журналистов и исследователей.

Ссылки:
[1] https://blog.archive.org/2022/06/02/a-new-approach-to-understanding-war-through-television-news-introducing-the-tv-news-visual-explorer-amp-the-belarusian-russian-amp-ukrainian-tv-news-archive/
[2] https://www.gdeltproject.org/

#tv #internetarchive
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.


Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/

#digitalpreservation #webarchival
Форматы хранения архивных файлов - это головная боль всех архивистов работающих с цифровыми материалами. Программы перестают поддерживаться, технологические стеки меняются и если формат хранения не стандартизирован и, более того, проприетарен, то есть шанс потерять возможность работать с сохранённым знанием.

International Comparison of Recommended File Formats [1] - это проект от Open Preservation Foundation по сопоставлению рекомендаций и требований к форматам хранения файлов ведущих национальных архивов Австралии, Канады, Дании, Эстонии, Финляндии, Голландии, Новой Зеландии, Норвегии, Швеции, Швейцарии, США и Великобритании.

В обзоре собраны сравнения форматов файлов для хранения:
- изображений
- видео
- текстов
- научных данных
- статистики
- сканированного текста
- аудио
- 3D
- CAD
- календарей
- контейнеров
- электронной почты
- геоданных
- баз данных
- презентаций
- веб-архивов

Если Вы создаете личный архив или работаете с архивом государства или компании, эта таблица пригодится для формирования стратегии долгосрочного сохранения файлов.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1XjEjFBCGF3N1spNZc1y0DG8_Uyw18uG2j8V2bsQdYjk/edit#gid=605033917

#digitalpreservation #fileformats
Продолжается кампания по архивации российских сайтов СМИ, медиа и культурных инициатив

Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.

Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.

Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.

В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.

Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.
Инструменты для работы и исследования веб-архивов

metawarc
— инструмент командной строки для извлечения метаданных из изображений, документов и других файлов внутри архивов WARC (Web ARChive). С помощью команды analyze возвращает список типов mime со статистикой в виде количества файлов и общего размера файлов. Ссылка: https://github.com/datacoon/metawarc.

CDX Summary — инструмент для обобщения коллекции WARC. CDX Summary позволяет пользователям понять, что находится в CDX файле, содержащем большую коллекцию WARC файлов, предоставляя человекочитаемое резюме. Сводка включает в себя временной разброс, типы mime, ведущие хосты и примеры URI из коллекции. Ссылка: https://github.com/internetarchive/cdx-summary.

SolrWayback — интерфейс, позволяющий исследователям изучать файлы ARC и WARC, аналогичное Internet Archive Wayback Machine. SolrWayback позволяет осуществлять типичный полнотекстовый поиск и исследовательские способы просмотра архива, включая создание графов гиперссылок. Ссылка:
https://github.com/netarchivesuite/Solrwayback.

Рекомендуем также использовать список инструментов Awesome digital preservation: https://github.com/ruarxive/awesome-digital-preservation.
Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․

Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.

Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.

Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1

#digitalpreservation #opensource #ruarxive
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО).


Что случилось
?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.


Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.

Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.

Список ИКМО доступен здесь: гугл-таблица.

Напишите нам, если вы готовы помочь в комментариях к посту или на почту [email protected].
Национальный цифровой архив
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО). Что случилось? 14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит:…
Как сохранять исходный код? Как сохранять код публичных репозиториев, который может исчезнуть, например, в связи с закрытием организации или проектов?

Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].

А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.

Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/

#digitalpreservation #opensource #sourcecode
Как начать работу по веб-архивации?

Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.

Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.

2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.

3. Ресурсы сообщества: блоги, рассылки.

Подробнее: https://github.com/iipc/awesome-web-archiving
Forwarded from Ivan Begtin (Ivan Begtin)
Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]

В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.

Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.

В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]

Ссылки:
[1] https://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org

#digitalpreservation #webarchives
Как сохранить журналистику данных

Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:

1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.

Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism

Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972

#datajournalism #digitalpreservation #digitalarchive
Подборка статей о веб-архивах от международного рецензируемого журнала «Internet Histories»

1. Киран Хегарти исследует в статье «Изобретение архивной сети: отслеживание влияния библиотечных фреймворков», как «архивирование сети» стало возможным в Национальной библиотеке Австралии с 1993 года. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/eprint/URHIKGDIHBX9SAYTBENC/full?target=10.1080/24701475.2022.2103988

2. Джессика Огден в статье «Все в интернете можно сохранить: Archive Team, Tumblr и культурное значение веб-архивирования» с помощью этнографического исследования команды Archive Team изучает подходы веб-архивирования и принципы выбора сайтов, "достойных" сохранения. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2021.1985835

3. Кэти Макиннон в статье «Смерть GeoCities: поиски разрушения и восхваления платформы в веб-архивах» демонстрирует, как использовать веб-архивы популярных платформ из прошлого и исследовать их цифровые следы. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2051331

4. Терри Ли Харел в статье «Архивы в процессе создания: документирование бунта в Капитолии 6 января на Reddit» рассматривает на примере бунта, как пользователи Reddit объединились для документирования того, что они воспринимали как важное историческое событие в истории США. Требуется доступ к полному тексту статьи. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2103989.

Полный список статей на эту и смежные темы: https://www.tandfonline.com/action/showAxaArticles?journalCode=rint20
Веб-архив сайтов Испании стал источником построения языковой модели для искусственного интеллекта

Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.

На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.

Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.

По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.

#language #digitalpreservation #spain
Venom: как проверить веб-архив на наличие нелегального контента из даркнета

Исследователи из проекта Venom опубликовали руководство о том, как проверить содержание веб-архивов на предмет контрабандных материалов из дарквеба. Рекомендации помогут архивистам и библиотекарям безопасно выявлять и удалять нелегальные материалы из своих архивов.

Проект Venom изучает, как лучше всего архивировать нелегальные части даркнета, используя инструменты, методы и практику, созданные для публичных веб-архивов.

Подробнее: https://www.mitre.org/publications/technical-papers/how-to-check-your-web-archive-for-dark-web-contraband
Digital Preservation Coalition опубликовало новое руководство для начинающих специалистов по сохранению цифровой информации.

Подробнее: https://www.dpconline.org/news/comp-access-guide-general
Зачем журналисту копии веб-страниц?

Цифровые архивы для СМИ: пользовательские задачи журналистов при работе с веб-архивами.

1. Просмотр копии веб-страницы в Internet Archive, которая больше не доступна в первоисточнике.

2. Отслеживание изменений в контенте веб-страниц в течение времени. Например, поиск определенных слов и предложений, которые могут быть удалены со страницы, но сохранены в веб-архиве. Другие задачи в этой категории включают: расчет жизненного цикла контента, сравнение прошлой версии с текущей и изучение эволюции терминологии на странице.

3. Потребность в надежных ссылках на упоминания и источники информации. Обычных ссылок на веб-страницы недостаточно, так как их контент со временем меняется. Дрейф контента — основная причина, из-за которой нужно делать копию текущей версии веб-страницы на момент написания статьи. Для этого можно использовать такие сервисы, как инструмент «Save page now» от Internet Archive или Archive.today.

Подробнее в статье.
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных Bible geocoding data [1] набор данных по геокодированию мест упомянутых в библии. Автор занимался этим с 2007 года и в прошлом году существенно обновил предыдущую работу. О самой инициативе и данные для Google Earth в формате KMZ есть на его сайте [2] и там же у него на сайте OpenBible разного рода эксперименты по визуализации [3].

Из весьма интересного - это AI-Assisted Bible Study [4] суммаризатор ответов и вопросов по главам библии через использование ИИ.

В данном случае библия важный пример, но сам подход ей не ограничивается. Один из путей/способов развития цифровой гуманитаристики - это подходы "всё-код" и "всё-данные". Любое художественное, религиозное или документальное произведение можно рассматривать как базу данных. Можно, например, геокодировать "Войну и мир", превращать в граф знаний "Властелин колец" и остальные произведения Толкиена, проводить интерактивную реконструкцию исторических событий. О многих подобных проектах я пишу время от времени [5].

Важное отличие современных проектов в этой области - это открытость данных и кода. Открытые проекты позволяют создавать новые проекты/продукты/исследования на их основе.

Ссылки:
[1] https://github.com/openbibleinfo/Bible-Geocoding-Data
[2] https://www.openbible.info/geo/
[3] https://www.openbible.info/labs/
[4] https://www.openbible.info/labs/ai-bible-study/
[5] https://t.iss.one/begtin/4147

#datasets #opensource #opendata #digitalhumanities