Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.

Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет

Архивация

Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.

Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.

Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.

Приоритетные задачи

Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .

Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.

И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.

Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.

Почему это важно

Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.

В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.

И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.

#archive #ruarxive #webarchives #digitalpreservation
Как устроены общественные проекты по цифровой архивации в мире

В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.

Climate Mirror (https://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.

DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое

End of term web archive (https://eotarchive.cdlib.org/)

Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.

SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.

А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.

Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.

#ruarxive #archives #webarchives #digitalpreservation
Новости проекта на начало недели

Начата архивация издания Бумага (paperpaper.ru) в связи с его блокировкой в России и возможной приостановкой деятельности в будущем, поскольку как минимум домен издания находится в зоне .ru и может быть разделегирован.

Идёт перенос медиа-архива записей на Эхе Москвы в облачное хранилище и дополнительных мест для его хранения. Это порядка 465GB файлов mp3 около 20тысяч записей передач. К сожалению сохранить удалось не всё.

Идет работа над обновлением сайта проекта и созданием интерфейса над последними созданными архивами. Вначале хотя бы в самом базовом виде, так чтобы можно было посмотреть архивные материалы по коллекциям и скачать файлы архивов.
Ранее собранные архивы можно посмотреть в таблице "Планы архивации" на Airtable.


Если Вы знаете сайты и иные цифровые ресурсы которые могут исчезнуть в ближайшее время, напишите в чате @ruarxivechat или заполните форму.
Напомню что ключевые критерии сохранения сайта/цифрового ресурса в нашем архиве:
1) Цифровой ресурс представляет общественную ценность даже для небольшой группы людей
2) Цифровой ресурс имеет существенные риски исчезновения в ближайшее время, от дней до месяцев.

#ruarxive #news #archives
Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․

Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.

Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.

Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1

#digitalpreservation #opensource #ruarxive
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive