Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Как можно помочь в цифровой архивации если Вы программист?

Многие умеют программировать и хотят выступить волонтерами и помочь в архивации. Как можно это сделать? Какие задачи есть?

Задач много, не все удаётся описать сразу в виде готового ТЗ, но я постараюсь описать хотя бы кратко:
1. Агрегация из нестандартных источников (не веб).
Есть разные каналы обмена информацией, например, есть каналы в Viber, открытые чаты в WhatsApp и другие сервисы. Нужны инструменты дающие возможность данные скачивать. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит. Возможно есть и другие источники важных знаний которые также надо сохранить.

2. Выгрузка данных из Instagram
Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader не работает без авторизации и регулярно сталкивается с блокировками. Поэтому любые инструменты сбора данных из Instagram нужны. Лучше всего работающие с командной строки

3. Переделка текущих инструментов веб-архивации
Для веб архивации есть много инструментов. От самых простых таких как httrack и wget, до довольно сложных таких как Nutch и Heritrix. А есть несколько инструментов между ними по сложности такие как wpull и grab-site. Wpull - это переделанный wget с расширениями на Python, а grab-site - это надстройка над wpull'ом для динамического мониторинга архивации сайтов. У обоих проектов есть проблема - они не поддерживаются несколько лет, не работают, например, в Python выше 3.5 и родная операционка для них устаревшая Ubuntu 18.04. Соответственно нужна помощь очень опытных программистов в том чтобы обновить их до поддержки последних версий Python и сделать их нормально портируемых на последние версии Ubuntu, чтобы работали под Windows и тд. без плясок с бубном вокруг Python 3.5.

4. Визуализация и поиск по архивам каналов и чатов в Telegram.
Есть много чатов и телеграм каналов которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент строящий веб интерфейс для поиска по архивированным чатам, файлам и тд. Сейчас ничего такого нет, а рано или поздно создавать такой интерфейс над копиями телеграм каналов потребуется.


#tools #archives #webarchives #helpneeded
Новости проекта на 23 марта 2022 года

- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.

Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.

#digest #archives #webarchival #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется цифровой архивацией, поделюсь презентацией на эту тему с которой я в разных вариациях выступал в прошлом году [1]

Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.


Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA

#webarchives #digitalpreservation #archives
Начата архивация

Издания:
- Частный корреспондент (chaskor.ru) - основание, кратковременная недоступность. Возможное исчезновение
- Троицкий вариант (trv-science.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности

НКО и их проекты
- Друзья Балтики (baltfriends.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- КАФ Россия (cafrussia.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- Благо.ру (blago.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Журнал Филантроп (philantropy.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Проект Щедрый вторник (givingthursday.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности

Также идёт поиск и архивация социальных сетей и телеграм каналов данных организаций и проектов.

Если Вы знаете другие цифровые ресурсы связанные с этими организациями, напишите нам в чате @ruarxivechat или заполните форму https://airtable.com/shriiNZvNhcgaStm6

#digitalpreservation #archives #webarchives
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]

Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.

Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.

Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.

P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.

Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv

#instagram #government #archives #socialnetworks
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive
Новости проекта на 31 марта 2022 г.

- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.iss.one/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.

Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y

#digitalpreservation #archives #webarchives
Всех кто архивирует и использует архивы каналов в Telegram приглашаем к тестированию tgarchive-viewer утилиты разработанной Павлом Шуваловым. Подробнее о её работе в чате канала Ruarxive и там же можно поделиться идеями как можно доработать/развивать интересный продукт.

Обратите, также, внимание на другие задачи для волонтеров и предлагайте другие задачи.

#telegram #archives
Forwarded from Ivan Begtin (Ivan Begtin)
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.

Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI

А также репозиторий в Github https://github.com/ruarxive/rudatarchive

Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/

Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.

Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.

Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.

#opendata #data #archives #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь

Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI

Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.

Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.

Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.

Больше про архивационные кампании будет на канале @ruarxive.

#opendata #datasets #dataportals #russia #archives #digitalpreservation
Роскомсвобода пишет что Генпрокуратура заблокировала сайт НКО "Мемориал" [1], организации, ликвидированной Минюстом России в конце прошлого года.

Напомню что мы провели архивацию и в ноябре 2021 года были сохранены 67 сайтов Мемориала, включая блоги, сайты проектов, и организаций. Все сохранённые ресурсы доступны в каталоге сайтов [2] в формате WARC.

Если Вы знаете какие-либо сайты, социальные сети, телеграм каналы или иные цифровые ресурсы Мемориала не попавшие в архивационную кампанию, напишите, проведем их архивацию в ближайшее время.

Ссылки:
[1] https://t.iss.one/roskomsvoboda/8874
[2] https://airtable.com/shrrQ3hQ5RA62UJmF

#memorial #webarchives #archives #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.

Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.

Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #webarchives #archives
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
В России стартовали президентские выборы. Эфир для проведения предвыборных дебатов предоставили пять федеральных государственных телеканалов: «Россия 1», «Россия 24», Первый канал, «ТВ Центр», Общественное телевидение России (ОТР) — и три радиостанции: «Радио России», «Маяк» и «Вести ФМ». Также на региональных телеканалах проходили дебаты доверенных лиц кандидатов в президенты.

Как и в случае с выборами 2018 и 2021 годов, федеральные телеканалы не стали выкладывать записи дебатов на своих официальных ресурсах. Записей нет ни на порталах типа "Смотрим", ни на сайтах телекомпаний, ни на их каналах в сервисах Rutube, VK, Telegram. По опыту прошлых лет также отмечалось стремление правообладателей блокировать распространение записей дебатов в Интернете, в основном, на любительских YouTube-каналах и в сообществах Вконтакте, посвящённых фиксации истории телевизионной рекламы и заставок.

Если архивация основных радиостанций налажена достаточно давно и основательно (в Telegram есть канал-бот https://t.iss.one/RadioBot, позволяющий прослушать любой час эфира, начиная с 2018 года), то с телеэфиром всё несколько сложнее. Есть ресурс https://www.ontvtime.ru , где для некоторых телеканалов можно "отмотать эфир" на неделю назад, но до 7 марта (даты последних дебатов) уже не достать.

Список федеральных телеэфиров с дебатами был известен с первой половины февраля: https://www.pnp.ru/social/gde-posmotret-teledebaty-kandidatov-na-post-prezidenta-rossii.html

На сегодняшний день удалось найти на YouTube любительские записи следующих эфиров:

Россия 1
26 февраля
27 февраля
4 марта
5 марта

Россия 24
27 февраля
28 февраля
5 марта

Первый канал
27 февраля
29 февраля
5 марта
7 марта

ТВ Центр
28 февраля
4 марта
5 марта
6 марта

ОТР
1 марта
6 марта
7 марта

Записи следующих эфиров не обнауживаются поиском ни на YouTube, ни Вконтакте, ни на Rutube:

Россия 1
28 февраля

Россия 24
29 февраля
6 марта
7 марта

ТВ Центр
27 февраля

ОТР
29 февраля
5 марта

Поиск осложняется тем, что ВГТРК проводила альтернативные дебаты доверенных лиц кандидатов в президенты в региональном эфире телеканалов "Россия-1" и "Россия-24", и эти записи "забивают" выдачу поисковиков.

Мы просим помощи в поиске оставшихся шести записией федеральных телебатов. Возможно, кто-то архивировал их для себя или имеет доступ к закрытым сообществам, откуда их можно скачать.

Присылайте ссылки сразу в чат @ruarxivechat, а также если есть волонтер готовый систематизировать эти видеозаписи в таблицу - его помощь очень бы помогла

#archives #elections #debates #helpneeded
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc
Несколько часов назад Фонд "Нужна помощь" объявил о том что начинает процедуру ликвидации в связи с признанием его иноагентом и невозможностью продолжать деятельность.

Это был довольно большой и заметный некоммерческий фонд в РФ и им было создано множество цифровых ресурсов.

В ближайшее время мы начнём архивацию цифровых ресурсов Фонда и надеемся что успеем сохранить их в насколько возможно полном объёме.

Задачи в которых можно помочь:
1. Составить список ресурсов (сайты и социальные сети) созданных Фондом, желательно оформить их в виде списка: название, ссылка, тип (соцсеть, сайт и т.д.)
2. Если у Вас есть прямой выход, связаться с сотрудниками Фонда и узнать готовы ли они передать слепки их цифровых ресурсов для долгосрочной архивации. А возможно фонд сохранит самостоятельно хотя бы их часть в Интернет архиве
3. Заархивировать и выложить куда-то видеоматериалы фонда, если они есть и доступны. Это самый тяжёлый контент, он публиковался точно на Youtube, но может где-то ещё.
4. Мы начнём веб архивацию сайтов завтра с утра, 8 августа. Хочется надеяться что тут не будет как во многих подобных случаях и материалы не начнут исчезать моментально после анонса.
5. Напишите если будут ещё какие-то идеи что и как можно сохранить

Если готовы как-то помочь по списку выше, пожалуйста, напишите в чат @ruarxivechat


#webarchives #archives