Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Почему веб архивы неполны, охватывают не всё и даже самостоятельно сохранив сайт в нём можно не найти то что видно пользователю?

Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.

Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.

Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.

Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii

Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.

Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam

Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.

Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.

#guides #digitalpreservation #webarchives #crawl
Всем привет! Представляем обновленный сайт проекта «Национальный цифровой архив»: https://ruarxive.org.

Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.

В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.
Новости проекта на 5 апреля 2022 г.

- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow

#news #digitalpreservation #webarchives
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.

Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.

Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.

Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov

#opendata #datasets #history #digitalpreservation #usa
Всех кто архивирует и использует архивы каналов в Telegram приглашаем к тестированию tgarchive-viewer утилиты разработанной Павлом Шуваловым. Подробнее о её работе в чате канала Ruarxive и там же можно поделиться идеями как можно доработать/развивать интересный продукт.

Обратите, также, внимание на другие задачи для волонтеров и предлагайте другие задачи.

#telegram #archives
Forwarded from Ivan Begtin (Ivan Begtin)
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.

Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI

А также репозиторий в Github https://github.com/ruarxive/rudatarchive

Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/

Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.

Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.

Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.

#opendata #data #archives #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь

Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI

Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.

Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.

Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.

Больше про архивационные кампании будет на канале @ruarxive.

#opendata #datasets #dataportals #russia #archives #digitalpreservation
Инструменты для цифровых архивистов. Определение типа файлов

При цифровой архивации, особенно данных и материалов которым много лет, очень часто возникают задачи понимания тех файлов и форматов которые изначально использовались. Без этого невозможно понять как воспроизводить такие архивные файлы, нужно ли их преобразовывать, существуют ли ещё поддерживающие их программные продукты.

Цифровые архивисты используют и создают инструменты для решения этой задачи .

- PRONOM - база форматов файлов от Национальных архивов Великобритании. Распространяются как открытые данные, используются многими инструментами
- DROID (Digital Record and Object Identification) - также утилита от Национальных архивов Великобритании по идентификации типов файлов
- Apache Tika - утилита и библиотека кода на языке Java для определения типов файлов и извлечения данных из определяемых типов файлов, например, файлов MS Office.
- Siegfried - утилита командной строки идентифицирующая типы файлов на основании базы сигнатур PRONOM и других источников
- TrID - утилита идентификации форматов файлов, бесплатна для частного использования
- NARA File Analyzer and Metadata Harvester - утилита анализа форматов и сбора метаданных от Национальных архивов США. Не обновлялась уже 6 лет.

Существует множество других инструментов для цифровых архивов, мы будем делать регулярные обзоры инструментов разной сложности и под разные задачи.

#tools #digitalpreservation #fileidentification
Задача: обогащение метаданных архива Эха Москвы

Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции «Эхо Москвы» (Echo of Moscow) от Ruarxive на сайте Internet Archive.

Для этого нам нужно обогатить метаданные архива, что настроить фильтры и использование расширенного поиска по архиву (информация о программах, ведущих и др. на русском и английском языках).

Просим помощи у волонтеров! Выполнение задачи не требует навыков программирования.

Подробное описание задачи: https://ruarxive.org/kb/volunteers/metadata-echo-moscow-archive
Приглашаем вас на конференцию по вопросам цифрового сохранения и веб-архивирования (conference.ruarxive.org).

В программе:
— Дискуссии на темы сохранения культурного наследия и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.

Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту [email protected].

Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.

Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.

➡️ Подробности и регистрация
📌 Хакатон Роскомсвободы Demhack 4

Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.

Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.

Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.

На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.

🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
Серия докладов в программу конференции по цифровым архивам: принимаем заявки

Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.

Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.

Формат участия: очно или онлайн.

Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту [email protected].

Подробнее о конференции и регистрация: https://conference.ruarxive.org.
Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что

Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]

Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.

Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/

#archiveorg #internetarchive
Опубликована программа конференции по цифровым архивам

Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:

1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»

2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».

А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!

Подробнее о программе: conference.ruarxive.org.

Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».

Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
Forwarded from Ivan Begtin (Ivan Begtin)
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.

Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int

А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru

Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.

Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru

Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.

#webarchives #digitalpreservation #un
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.

В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.

Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.

Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.

Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.

Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.

Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive

#opendata #digitalpreservation #webarchives