Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.

Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.

Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.

Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov

#opendata #datasets #history #digitalpreservation #usa
Всех кто архивирует и использует архивы каналов в Telegram приглашаем к тестированию tgarchive-viewer утилиты разработанной Павлом Шуваловым. Подробнее о её работе в чате канала Ruarxive и там же можно поделиться идеями как можно доработать/развивать интересный продукт.

Обратите, также, внимание на другие задачи для волонтеров и предлагайте другие задачи.

#telegram #archives
Forwarded from Ivan Begtin (Ivan Begtin)
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.

Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI

А также репозиторий в Github https://github.com/ruarxive/rudatarchive

Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/

Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.

Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.

Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.

#opendata #data #archives #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь

Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI

Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.

Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.

Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.

Больше про архивационные кампании будет на канале @ruarxive.

#opendata #datasets #dataportals #russia #archives #digitalpreservation
Инструменты для цифровых архивистов. Определение типа файлов

При цифровой архивации, особенно данных и материалов которым много лет, очень часто возникают задачи понимания тех файлов и форматов которые изначально использовались. Без этого невозможно понять как воспроизводить такие архивные файлы, нужно ли их преобразовывать, существуют ли ещё поддерживающие их программные продукты.

Цифровые архивисты используют и создают инструменты для решения этой задачи .

- PRONOM - база форматов файлов от Национальных архивов Великобритании. Распространяются как открытые данные, используются многими инструментами
- DROID (Digital Record and Object Identification) - также утилита от Национальных архивов Великобритании по идентификации типов файлов
- Apache Tika - утилита и библиотека кода на языке Java для определения типов файлов и извлечения данных из определяемых типов файлов, например, файлов MS Office.
- Siegfried - утилита командной строки идентифицирующая типы файлов на основании базы сигнатур PRONOM и других источников
- TrID - утилита идентификации форматов файлов, бесплатна для частного использования
- NARA File Analyzer and Metadata Harvester - утилита анализа форматов и сбора метаданных от Национальных архивов США. Не обновлялась уже 6 лет.

Существует множество других инструментов для цифровых архивов, мы будем делать регулярные обзоры инструментов разной сложности и под разные задачи.

#tools #digitalpreservation #fileidentification
Задача: обогащение метаданных архива Эха Москвы

Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции «Эхо Москвы» (Echo of Moscow) от Ruarxive на сайте Internet Archive.

Для этого нам нужно обогатить метаданные архива, что настроить фильтры и использование расширенного поиска по архиву (информация о программах, ведущих и др. на русском и английском языках).

Просим помощи у волонтеров! Выполнение задачи не требует навыков программирования.

Подробное описание задачи: https://ruarxive.org/kb/volunteers/metadata-echo-moscow-archive
Приглашаем вас на конференцию по вопросам цифрового сохранения и веб-архивирования (conference.ruarxive.org).

В программе:
— Дискуссии на темы сохранения культурного наследия и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.

Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту [email protected].

Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.

Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.

➡️ Подробности и регистрация
📌 Хакатон Роскомсвободы Demhack 4

Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.

Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.

Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.

На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.

🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
Серия докладов в программу конференции по цифровым архивам: принимаем заявки

Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.

Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.

Формат участия: очно или онлайн.

Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту [email protected].

Подробнее о конференции и регистрация: https://conference.ruarxive.org.
Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что

Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]

Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.

Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/

#archiveorg #internetarchive
Опубликована программа конференции по цифровым архивам

Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:

1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»

2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».

А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!

Подробнее о программе: conference.ruarxive.org.

Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».

Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
Forwarded from Ivan Begtin (Ivan Begtin)
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.

Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int

А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru

Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.

Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru

Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.

#webarchives #digitalpreservation #un
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.

В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.

Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.

Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.

Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.

Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.

Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive

#opendata #digitalpreservation #webarchives
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.

Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.

Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.

Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF

#memorial #webarchives #archives #digitalpreservation
В Интернет архиве появился архив нескольких телеканалов России, Беларуси и Украины [1] созданный вместе с проектом GDELT [2] собирающем данные о человеческом обществе по всему миру.

Архив состоит из большого числа нарезок видеозаписей и покрывает период времени начиная с 1 января 2022 года. Цель архива также в том чтобы обеспечить распознавание и последующий поиск по распознанным текстам для помощи работе журналистов и исследователей.

Ссылки:
[1] https://blog.archive.org/2022/06/02/a-new-approach-to-understanding-war-through-television-news-introducing-the-tv-news-visual-explorer-amp-the-belarusian-russian-amp-ukrainian-tv-news-archive/
[2] https://www.gdeltproject.org/

#tv #internetarchive
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.


Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/

#digitalpreservation #webarchival
Форматы хранения архивных файлов - это головная боль всех архивистов работающих с цифровыми материалами. Программы перестают поддерживаться, технологические стеки меняются и если формат хранения не стандартизирован и, более того, проприетарен, то есть шанс потерять возможность работать с сохранённым знанием.

International Comparison of Recommended File Formats [1] - это проект от Open Preservation Foundation по сопоставлению рекомендаций и требований к форматам хранения файлов ведущих национальных архивов Австралии, Канады, Дании, Эстонии, Финляндии, Голландии, Новой Зеландии, Норвегии, Швеции, Швейцарии, США и Великобритании.

В обзоре собраны сравнения форматов файлов для хранения:
- изображений
- видео
- текстов
- научных данных
- статистики
- сканированного текста
- аудио
- 3D
- CAD
- календарей
- контейнеров
- электронной почты
- геоданных
- баз данных
- презентаций
- веб-архивов

Если Вы создаете личный архив или работаете с архивом государства или компании, эта таблица пригодится для формирования стратегии долгосрочного сохранения файлов.

Ссылки:
[1] https://docs.google.com/spreadsheets/d/1XjEjFBCGF3N1spNZc1y0DG8_Uyw18uG2j8V2bsQdYjk/edit#gid=605033917

#digitalpreservation #fileformats
Продолжается кампания по архивации российских сайтов СМИ, медиа и культурных инициатив

Веб-архивы сайтов доступны для скачивания в формате WARC и открываются в приложении ReplayWeb.page.

Сведения о планах архивации и сохраненных ресурсах доступны в открытой таблице.

Если вы знаете, какой сайт может стать утерянным, сообщите нам об этом с помощью специальной формы.

В это же время в Великобритании в национальной библиотеке проходит выставка «Breaking the News», для которой используются сохраненные новости из веб-архива Великобритании (UKWA). Коллекция «Новости» в UKWA содержит веб-архивы более 2700 новостных сайтов. Туда входят крупные национальные новостные издания — BBC, Guardian, Daily Mail и т.д. Помимо этого собираются веб-архивы тысячи местных новостных сайтов, посвященных жизни отдельных городов и деревень.

Большинство архивов можно просмотреть только в читальных залах библиотек Великобритании, однако есть и те, которые доступны для просмотра онлайн, например, веб-архив сайта Brixton Blog.