Национальный цифровой архив
2.4K subscribers
58 photos
4 files
129 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Из открытого доступа исчезло содержание сайта ИА REGNUM (regnum.ru), вначале была заглушка с текстом о конфликте редакции с собственником, далее нейтральная, но в любом случае ситуация такова что всё содержание исчезло одномоментно.

Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.

Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.

Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.

#webarchives #digitalpreservation #mediaarchive
👍115🔥1
В Австралии в конце прошлого года стартовала большая общественная кампания в Twitter SaveTrove в связи с тем что правительство страны сократило финансирование национальной библиотеки и проект Trove в виде онлайн архива и поисковика по 14 миллиардам исторических объектов оказался под угрозой закрытия. И вот хорошая новость, для него нашли $33 миллиона долларов в бюджете на ближайшие 4 года.

Про уникальность Trove писали многие австралийские авторы, в частности это лишь один из двух из списка государственных сайтов 15 наиболее популярных Австралии, кроме него популярным госсайтом является ещё сайт государственного СМИ ABC. Объёмы общедоступных данных публикуемых в Trove очень велики и включают не только оцифрованные произведения и экспонаты, но и digital-born объекты такие как веб-сайты из Australian Government Web Archive и иные материалы.

Кроме того что Trove является архивом это ещё и крупная социальная сеть из волонтеров помогающих исправлять распознанные тексты выложенные онлайн. Многие из волонтеров таким образом исправили миллионы строк текста и эта работа продолжается постоянно.

Trove можно смело отнести не только к австралийскому, но и к мировому культурному достоянию. В гигантской библиотеке проекта можно найти материалы на огромном числе языков, авторов и связанных с историческими событиями по всему миру.

#digitalpreservation #australia #trove #openarchives
👍7🔥2
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярного напоминания, помимо разных общественных и коммерческих проектов я занимаюсь проектом Национальный цифровой архив (ruarxive.org, @ruarxive) в рамках которого мы архивируем born-digital цифровые ресурсы так или иначе связанные с Россией (сайты закрывающихся СМИ, госорганов, организаций, цифровых проектов и многого другого). Самым большим архивом за всё время был архив почти полностью выкаченного сайта Эха Москвы (что успели, то спасли), но и много других сайтов тоже.

Сейчас проект ведётся в режиме оперативного сохранения, когда пользователи и сообщество пишет что что-то может исчезнуть и мы стараемся оперативно сделать копию и всё сохранить. В то же время стало значительно сложнее сохранять, например, сайты госорганов которые стали закрывать от любых краулеров не с российских IP (это обходится работой с серверов в России, но тем не менее) и повсеместным использованием анти-DDoS инструментов, каптчи и тд., блокирующих краулеры.

Так вот если Вы знаете о каких-то веб сайтах или цифровых ресурсах которые могут вскоре исчезнуть, то не стесняйтесь, пишите об этом мне или в чат к каналу @ruarxivechat
аналогично если есть идеи по сотрудничеству, понимание какие стратегические архивационные направления есть, то напишите тоже. Возможно есть какие-то группы сайтов, или сообществ или ещё что-то что может срочно исчезнуть и то для чего нужна масштабная архивационная кампания или просто целенаправленные усилия.

#digitalpreservation #archives #ruarxive
👍18
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
👍131
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
🔥10👍6
Forwarded from Ivan Begtin (Ivan Begtin)
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
👍17👎2
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
👍113
Forwarded from Ivan Begtin (Ivan Begtin)
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].

Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.

Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.

Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim

#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
👍16🔥2
Роскомнадзор в прошлую пятницу заблокировал онлайн издание polit.ru Мы ведём его архивацию на случай если последуют действия по исчезновению контента/разделегированию домена и иным действиям после которых сайт может стать полностью недоступен не только в РФ, но и в других странах.

Если у Вас сохранились копии материалов или если Вы ранее делали слепок/архив материалов polit.ru - напишите в чате @ruarxivechat или по нашим контактам. Все архивные материалы мы разместим в нашем и в Интернет-архиве (archive.org).

#digitalpreservation #deathwatch #webarchives #politru
👍16
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
🔥5👍3🤓2👨‍💻1
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).

На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.

Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.

Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).

#webarchival #digitalpreservation #bigenc
🔥2515👍4❤‍🔥1🤩1
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.

Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.

Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.

P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].

Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
6👏4👍2
Закрывается Flibusta [1], независимый библиотечный ресурс, через несколько недель может прекратить свое существование. Причина - рак у его создателя и администратора.

Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.

Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.

Ссылки:
[1] https://flibusta.is/node/681117

#digitalpreservation #books #flibusta
🕊43🙏53🤔1
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).

С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.

Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt

#opensource #digitalpreservation #ai #webarchives
🤩7👍6
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.

End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB

Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV

Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB

Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]

А также существует значительное число инициатив меньшего масштаба.

Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).

Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/

#digitalpreservation #webarchives #trump #usa
5👍4🙏3🤓1
Forwarded from Ivan Begtin (Ivan Begtin)
В продолжение предыдущей публикации про API веб архива, приведу в пример текущее состояние архивации веб-сайтов российских ФОИВов Интернет Архивом (web.archive.org).

Это результаты самой поверхностной проверки, но можно увидеть что как минимум веб-сайты Минсельхоза РФ и Фельдъегерской службы не архивируются уже почти 3 года, а ряд других 9 месяцев. Если сайт Фельдъегерской службы никого не волнует, по большому счёту, то сайт Минсельхоза уже важнее. И это только поверхностная проверка потому что для ряда сайтов веб архив блокируется с возвращением 403 ошибки. Например, сайт Росархива тоже попадёт в этот список потому что веб архив сохранял его именно с ошибками.

Рано или поздно мы снова начнём архивационную кампанию по сохранению сайтов российских госорганов в рамках Национального цифрового архива (ruarxive.org). Это стало сильно сложнее поскольку теперь официальный контент часто просто невозможно индексировать, приходится прикладывать дополнительные усилия. Но хотя бы можно сохранить то что точно не попадает в веб-архив Интернет Архива.

P.S. Кроме сайтов ФОИВ аналогичная ситуация с большей частью сайтов региональных органов власти и государственных информационных систем.

#digitalpreservation #webarchives #ruarxive #russia
🔥7👍6🤔21👏1
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.

Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025

#digitalpreservation #archives #usa #kennedy
👍17🔥5🎉1
Вот уже какое-то время недоступен портал Исторические материалы (istmat.org), последняя его сохранённая версия есть в Интернет Архиве на февраль 2025 года [1] и видно что ничего нового не публиковалось с ноября 2024 года.

ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.

Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту [email protected]). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.

P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.

Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/

#digitalpreservation #archives #history
👍8🤔6🙏42🔥1🥰1
Стал недоступен портал документации и отчетности поставщиков Минэкономразвития России (портал управления проектами госпрограммы Информационное общество) aisup.economy.gov.ru [1]. В Интернет архива последняя версия от 7 февраля 2022 года [2].

Мы последний раз архивировали этот сайт 8 лет назад, его копия есть в файловом хранилище Ruarxive и составляет 33ГБ в виде WARC файлов. Напишите, если она вам понадобится.

А если у вас есть более свежие архивные копии материалов этого сайта, присылайте нам, положим их в хранилище и сделаем общедоступными.

Ссылки:
[1] https://aisup.economy.gov.ru
[2] https://web.archive.org/web/20220207104559/https://aisup.economy.gov.ru/pubportal//

#digitalpreservation #webarchives
🔥9👎1
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia
🔥19👍15💯4