Национальный цифровой архив
2.38K subscribers
41 photos
4 files
113 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
Forwarded from Ivan Begtin (Ivan Begtin)
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
Мастер-классы от "Библиотеки для открытой науки" в рамках Love Data Week 2024

«Библиотека для открытой науки» приглашает вас принять участие в мастер-классах в рамках LoveDataWeek— недельной программе, посвященной доступу к данным, управлению, безопасности, совместному использованию и сохранению данных. Тема этого года:"My kind of data / Мои данные".

Мы поддерживаем эту международную инициативу, направленную на повышение осведомленности пользователей в темах, связанных с управлением исследовательскими данными, обменом, сохранением, цитированием, повторным использованием и услугами исследовательских данных. Присоединяйтесь к празднованию пятой ежегодной недели любви к данным 12–18 февраля 2024 г. в 10:00 (МСК)!

Темы мастер-классов:

📌 12 февраля
Как я управляю своими данными?

📌 13 февраля
Какие форматы файлов я использую и как я организую файлы для долгосрочного хранения данных?

📌 14 февраля
Как я храню свои данные?

📌 15 февраля
Как мне цитировать данные?

📌 16 февраля
Как мне соблюдать авторские права при использовании исследовательских данных?

📌 17 февраля
Как мои данные должны соответствовать требованиям журналов и грантодателей?

📌 18 февраля
Как можно найти данные?

Для того, чтобы принять участие в мастер-классах, необходимо зарегистрироваться по ссылке.
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Цифровой архив госфинансов: Бюджеты Российской империи и СССР в виде книг и открытых данных

К Дню архивиста мы (Инфокультура и Институт Гайдара) запускаем новый проект - Цифровой архив госфинансов и госуправления (finlibrary.ru). Наша главная задача - сохранить и сделать доступными и машиночитаемыми исторические документы о госфинансах. Мы хотим собрать источники о государственном бюджете за 150 лет, агрегировать наиболее полную базу статистических сборников и подготовить открытые данные для разработчиков.

Среди собранных документов можно найти Государственные бюджеты СССР и РСФСР, выпуски журнала “Проблемы экономики” и бюллетени Счетной Палаты РФ, документы департаментов Минфина XIX века, книги по истории Минфина России, бюджеты городов и многое другое. Уже сейчас в нашей базе данных собраны государственные бюджеты за 80 лет, с практически непрерывным покрытием 1866-1945 гг.

При разработке проекта мы делаем акцент на следующих пунктах:

1. Полнота базы данных: мы добавляем все те источники, которые можем найти (не забывая о проверке наличия открытых лицензий). На данный момент мы частично собрали источники из проекта «Исторические документы» Минфина России и проекта «Исторические материалы», а также нашли еще несколько проектов, документы с которых агрегируем в этом году.

2. Открытые данные: мы хотим не только собрать базу документов и добавить к ним текстовый слой, но и разработать на основе них наборы открытых данных.

3. Уникальные документы: года 4 мы скупаем исторические документы с профильных площадок и сканируем их. Также для данного проекта мы отсканировали личный архив исторических книг А.Л. Кудрина (в который вошли, например, 7 томов истории Минфина России). А в 2022 году мы оцифровали архивные отчеты Счетной Палаты.

4. Метаданные: большинство документов, которые мы собрали, практически не систематизированы, поэтому мы ставим для себя задачу обогатить их метаданными и разработать для этого соответствующие классификаторы.

«Почти 25 лет назад Минфин начал сохранять, формировать и популяризировать историю государственных финансов. 
Мне приятно осознавать, что эта деятельность активно развивается и сегодня благодаря усилиям нового поколения специалистов в области компьютерной обработки информации.
 
Желаю исследователям и пользователям проекта «Цифровой архив госфинансов и госуправления» успехов в их непростой, но чрезвычайно интересной работе, требующей универсальных навыков в самых разных сферах – от истории и архивного дела до современных цифровых технологий», - Алексей Кудрин, д.э.н., главный научный сотрудник, член Попечительского совета Института Гайдара.

Иногда самые интересные книги могут быть написаны от руки. Например, исторические бюджеты Санкт-Петербурга. Такие случаи требуют особого внимания и поэтому работы предстоит очень много. Мы заинтересованы в партнерах и волонтёрах. Нам нужна помощь в следующих задачах:

⁃ сбор исторических документов с сторонних сайтов;
⁃ разметка базы данных;
⁃ разработка справочников и классификаторов;
⁃ создание наборов открытых данных;
⁃ предоставление исторических документов на оцифровку.

Будем рады пожеланиям и предложениям. Пишите на почту [email protected] (Ольге Пархимович) или в телеграм @k0shk. Более подробную информацию о проекте можно найти в анонсе: https://finlibrary.ru/s/finarchive/page/news.
В России стартовали президентские выборы. Эфир для проведения предвыборных дебатов предоставили пять федеральных государственных телеканалов: «Россия 1», «Россия 24», Первый канал, «ТВ Центр», Общественное телевидение России (ОТР) — и три радиостанции: «Радио России», «Маяк» и «Вести ФМ». Также на региональных телеканалах проходили дебаты доверенных лиц кандидатов в президенты.

Как и в случае с выборами 2018 и 2021 годов, федеральные телеканалы не стали выкладывать записи дебатов на своих официальных ресурсах. Записей нет ни на порталах типа "Смотрим", ни на сайтах телекомпаний, ни на их каналах в сервисах Rutube, VK, Telegram. По опыту прошлых лет также отмечалось стремление правообладателей блокировать распространение записей дебатов в Интернете, в основном, на любительских YouTube-каналах и в сообществах Вконтакте, посвящённых фиксации истории телевизионной рекламы и заставок.

Если архивация основных радиостанций налажена достаточно давно и основательно (в Telegram есть канал-бот https://t.iss.one/RadioBot, позволяющий прослушать любой час эфира, начиная с 2018 года), то с телеэфиром всё несколько сложнее. Есть ресурс https://www.ontvtime.ru , где для некоторых телеканалов можно "отмотать эфир" на неделю назад, но до 7 марта (даты последних дебатов) уже не достать.

Список федеральных телеэфиров с дебатами был известен с первой половины февраля: https://www.pnp.ru/social/gde-posmotret-teledebaty-kandidatov-na-post-prezidenta-rossii.html

На сегодняшний день удалось найти на YouTube любительские записи следующих эфиров:

Россия 1
26 февраля
27 февраля
4 марта
5 марта

Россия 24
27 февраля
28 февраля
5 марта

Первый канал
27 февраля
29 февраля
5 марта
7 марта

ТВ Центр
28 февраля
4 марта
5 марта
6 марта

ОТР
1 марта
6 марта
7 марта

Записи следующих эфиров не обнауживаются поиском ни на YouTube, ни Вконтакте, ни на Rutube:

Россия 1
28 февраля

Россия 24
29 февраля
6 марта
7 марта

ТВ Центр
27 февраля

ОТР
29 февраля
5 марта

Поиск осложняется тем, что ВГТРК проводила альтернативные дебаты доверенных лиц кандидатов в президенты в региональном эфире телеканалов "Россия-1" и "Россия-24", и эти записи "забивают" выдачу поисковиков.

Мы просим помощи в поиске оставшихся шести записией федеральных телебатов. Возможно, кто-то архивировал их для себя или имеет доступ к закрытым сообществам, откуда их можно скачать.

Присылайте ссылки сразу в чат @ruarxivechat, а также если есть волонтер готовый систематизировать эти видеозаписи в таблицу - его помощь очень бы помогла

#archives #elections #debates #helpneeded
Миллионы научных статей рискуют исчезнуть из онлайн-хранилищ

Анализ цифровых идентификаторов научных статей показал, что результатов исследований публикуется больше, чем архивируется. Проблема, в первую очередь, затрагивает небольшие издательства, у которых нет средств и возможностей для долгосрочного хранения большого количества опубликованных материалов.

По данным анализа более семи миллионов цифровых публикаций, около четверти всех научных статей не архивируются и не хранятся в интернете должным образом. Результаты показывают, что онлайн-хранилища не успевают за постоянно растущим потоком новых работ, передает ERR.EE

По словам Мартина Ива, одного из авторов нового исследования, вся эпистемология науки основана на списках ссылок. Другими словами, автор статьи должен быть в состоянии проверить, что о предмете его исследования говорили другие, в противном случае ему придется полагаться на слепую веру в факты, объяснение которых ему недоступно.

Для нового анализа Ив использовал выборку из 7 438 037 научных работ. Все изученные статьи снабжены цифровым идентификатором объекта, или DOI. Это последовательность цифр, букв и символов, которая действует как идентификационный код электронного документа. DOI позволяют однозначно распознать научную работу и использовать ее в качестве ссылки.

Из всех исследований, включенных в выборку, 28%, или более двух миллионов статей, не были доступны ни в одном из крупных цифровых архивов, даже если публикация имела действующий DOI. Только 58% DOI ссылались на статьи, хранящиеся хотя бы в одном архиве. Оставшиеся 14% работ были исключены из исследования, поскольку они были опубликованы слишком недавно, не являлись журнальными статьями или их изначальный источник не мог быть определен.

Полученные результаты не означают, что статьи вообще нельзя найти в сети. Например, они могут быть доступны на сайтах издательств. Однако если последние обанкротятся или что-то случится с их серверами, соответствующие научные работы могут исчезнуть из онлайн-хранилищ.

Оказалось, что менее 1% – или всего около 200 – издательств, загрузили свои статьи в несколько архивов. Около трех четвертей издателей добавили работы в три или более архивных сред. Менее 10% разместили свои материалы как минимум в двух хранилищах.

Треть издательств вообще не занимались постоянным архивированием.
По словам Мартина Ива, его анализ следует рассматривать с некоторыми оговорками. В частности, в выборку исследования вошли только статьи с DOI-метками. Кроме того, в него были включены не все цифровые хранилища, например, архивные среды самих исследовательских институтов не рассматривались.
Несмотря на эти оговорки, анализ хорошо приняли специалисты по хранению данных, не связанных с исследованием. Например, Микаэль Лааксо, сам занимающийся вопросами публикации научных работ в Школе экономики Ханкен в Хельсинки, говорит, что многие люди слепо верят в то, что наличие DOI гарантирует вечную доступность статьи. Вместе с коллегами в 2021 году он показал, что на самом деле в период с 2000 по 2019 год из интернета исчезло более 170 журналов с открытым доступом.

Кейт Виттенберг, управляющий директор Portico, поставщика услуг цифрового архива, предупреждает, что неспособность сохранять статьи ставит под удар не столько крупные, сколько мелкие издательства. Хранение опубликованного контента стоит денег и требует инфраструктуры, технологий и опыта, которыми небольшие организации не располагают.

В своем анализе Ив предлагает меры по улучшению сохранности цифрового контента. Например, можно ужесточить требования к регистрации DOI. Также, по его мнению, стоило бы повысить осведомленность о проблеме сохранности среди издателей и самих ученых.

Исследование было опубликовано в журнале Journal of Librarianship and Scholarly Communication.

#DOI
____
@rujournals - Научные журналы и базы данных
Forwarded from Ivan Begtin (Ivan Begtin)
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].

Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.

Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.

Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim

#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Роскомнадзор в прошлую пятницу заблокировал онлайн издание polit.ru Мы ведём его архивацию на случай если последуют действия по исчезновению контента/разделегированию домена и иным действиям после которых сайт может стать полностью недоступен не только в РФ, но и в других странах.

Если у Вас сохранились копии материалов или если Вы ранее делали слепок/архив материалов polit.ru - напишите в чате @ruarxivechat или по нашим контактам. Все архивные материалы мы разместим в нашем и в Интернет-архиве (archive.org).

#digitalpreservation #deathwatch #webarchives #politru
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег», 1870 г.

Удивительно, но все обоснования открытости и подотчетности государства, звучавшие при создании Открытого Правительства, разработке концепции открытых данных и развитии открытости не только в России, но и в других странах, были сформулированы еще 150 лет назад в издании Ливерпульской ассоциации финансовых реформ «Как англичане критикуют свои государственные расходы» (1870 год).

Авторы описывают необходимость открытости и подотчетности госорганов, работу государства за счет налогов граждан, необходимость бережного отношения к деньгам граждан, необходимость еще большей открытости Великобритании, а также высказывают сомнения в точности и добросовестности раскрываемой информации.

Второе издание 1908 года, пополнившее библиотеку Инфокультуры благодаря Максиму Осовскому, мы оцифровываем для проекта Цифрового архива госфинансов (@finlibraryru, подписывайтесь, будем делиться новостями проекта и находками).

Оригинал текста на скриншоте, но для удобства цитирую ниже:

«Первое и важнейшее условие существования всякой благоустроенной системы госфинансов заключается в полнейшей гласности и отчетности расходов каждого фартинга казенных денег. Государственные люди не должны забывать, что большинство доходов казны собирается в форме налогов. т.е. принудительным образом и без вознаграждения подданного каким-нибудь личным эквивалентом. Расход каждого фартинга казенных денег, поэтому, имеет особое, чуть ли не священное значение и должен совершаться с соблюдением величайшей бережливости, осторожности и гласности. … Таким образом, по мысли ливерпульского общества, власть должна производить расходы так, чтобы не только представители народа, но и всякий частный человек имел возможность проследить и проверить, куда и каким путем ушел из рук правительства каждый фартинг денег, ежегодно ассигнуемых народом на нужды государства».
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.

P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.

#deathwatch #webarchive #bigenc
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).

На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.

Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.

Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).

#webarchival #digitalpreservation #bigenc