Национальный цифровой архив
2.35K subscribers
45 photos
4 files
116 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Из открытого доступа исчезло содержание сайта ИА REGNUM (regnum.ru), вначале была заглушка с текстом о конфликте редакции с собственником, далее нейтральная, но в любом случае ситуация такова что всё содержание исчезло одномоментно.

Мы ранее не архивировали сайт Regnum'а исходя из того что СМИ редко исчезают одним днём, такое происходило ранее только с сайтом znak.com, закрывшемся в марте 2022 года, поэтому архивной копии сайта Regnum у нас нет.

Если содержание сайта Regnum не вернётся в ближайшие дни, то наша команда постарается восстановить его содержимое из кэша поисковых систем и внести к нам в архив.

Но даже в этом случае, если у кого-либо есть копия содержания сайта, или если кто-то делал его копию - просим ей поделиться и мы добавим её в Ruarxive.org и сделаем общедоступной.

#webarchives #digitalpreservation #mediaarchive
World Digital Preservation Day 2022

3 ноября прошло важное для веб-архивистов и исследователей профессиональное событие — Всемирный день сохранения цифровой информации.

По результатам WDPD 2022 Энди Джэксон, технический руководитель веб-архива Великобритании (UK Web Archive), инициировал создание глоссария цифрового сохранения с открытым исходным кодом.

Внести вклад и помочь в его создании может любой желающий. Публичное обсуждение доступно по ссылке:
https://github.com/orgs/digipres/discussions/41

Источник изображения: Digital Preservation Coalition.

#WorldDigitalPreservationDay #WDPD2022
Archive.social — сохранение тредов из Twitter в PDF

Archive.social (https://archive.social) — это сервис Гарвардской библиотечной инновационной лаборатории, позволяющий загружать подписанные PDF-файлы по URL-постов из Твиттера.

Инструмент архивации в PDF для Twitter создан для верификации скриншотов публикаций и тредов из Twitter. PDF-файлы позволяют ставить подписи к документам и временные метки, чтобы в будущем любой мог проверить, что PDF-файл, который загружен с помощью archive.social, действительно получен из Инновационной лаборатории Гарвардской библиотеки и не был отредактирован.

Сервис работает по специальному ключу API, который нужно запросить у разработчиков. В настоящее время авторы могут предоставить ограниченное количество ключей только для журналистов, интернет-ученых и архивистов.

Программное обеспечение сервиса имеет открытый исходный код, что позволяет развернуть собственный архивный сервер и поделиться им со своими друзьями: https://github.com/harvard-lil/archive.social.

Подробнее об ограничениях проверки подлинности и политике конфиденциальности сервиса рассказано на сайте: https://archive.social.
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.

Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]

Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна

Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/

#opendata #digitalhumanities
⚡️Новый сервис от Internet Archive: scholar.archive.org

Этот полнотекстовый поисковый индекс включает в себя более 25 миллионов научных статей и других научных документов, хранящихся в Архиве Интернета.

Метаданные поступают из fatcat.wiki — открытого каталога научных работ.

Подробнее о сервисе: https://scholar.archive.org/about.
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых данных библиографические данные научных публикаций в коллекции Bulk Bibliographic Metadata [1]. В этой коллекции собраны полные дампы данных интегрированных в сервис Fatcat [2] из более чем 130 миллионов научных статей в открытом доступе.

Коллекция включает такие наборы данных как։
- полный дамп базы Postgres сервиса Fatcat (более 200 GB)
- дамп базы OpenLex
- дамп метаданных Datacite
- дамп метаданных Crossref
- дамп метаданных DOAJ
- дампы базы DBLP

А также многих других. В общей сложности это 13 терабайт в сжатом виде.

На их основе и построен упоминавшийся ранее проект scholar.archive.org

Ссылки։
[1] https://archive.org/details/ia_biblio_metadata?sort=-publicdate
[2] https://fatcat.wiki/
[3] https://scholar.archive.org

#opendata #datasets #openaccess
Forwarded from Ivan Begtin (Ivan Begtin)
В дополнении к новости про архив отчетов Счетной палаты [1], копия отчетов загружена в Интернет архив [2], это будет удобнее тем кто хочет скачать их одним файлом. Там же набор данных с метаданными и ссылками на документы отчетов. Структура директорий в файле с отчетами воспроизводит структуру сайта Счетной палаты, поэтому можно по каждой ссылки из набора данных найти нужный сохранённый файл.
Общий объём 4.2 гигабайта в сжатом виде, около 5 гигабайт в распакованном виде

Архив был сделан с помощью программы с открытым кодом apibackuper [3], её настройки для выгрузки данных Счетной палаты можно найти здесь, в репозитории apibackuper-datarchive [4].

Для чего можно использовать набор данных с отчетами Счетной палаты?
1. В аналитических задачах связанных с контролем за государственными финансами.
2. В задачах идентификации именованных объектов.

Может быть можно ещё для чего-то.

Напомню что если Вы знаете о возможном исчезновении или риске исчезновения каких-либо значимых данных, напишите нам, в @ruarxive через сайт, письмом или сообщением или в чате и мы постараемся оперативно сохранить эти данные.

Ссылки։
[1] https://t.iss.one/begtin/4442
[2] https://archive.org/details/achgovru-checks
[3] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/apibackuper-dataarchive/tree/main/achgovru-checks

#opendata #datasets #government
Введение в анализ данных о культуре в Python

Это онлайн-учебник, который предлагает знакомство с языком программирования Python, специально разработанным для людей, интересующихся гуманитарными и социальными науками.

Учебник демонстрирует, как можно использовать Python для изучения культурных материалов, таких как тексты песен, рассказы, газетные статьи, твиты, сообщения на Reddit и сценарии фильмов. Она также знакомит с такими вычислительными методами, как веб-скрейпинг, API, тематическое моделирование, распознавание именованных сущностей (NER), анализ сетей и картирование.

https://melaniewalsh.github.io/Intro-Cultural-Analytics/welcome.html
Forwarded from Ivan Begtin (Ivan Begtin)
Почему нужно архивировать данные․ Каспийский трубопроводный консорциум ранее публиковал статистику по отгрузке нефтепродуктов на своём сайте. Теперь этот раздел недоступен [1], последняя публикация в интернет-архиве есть за март 2022 года. Похоже данные исчезли в март-апреле причём включая все исторические данные.

Другой пример, аналитика цен на недвижимость от сервиса Domofond. Данные перестали обновляться с апреля 2022 года [3]. Архивные данные остались, но новых данных нет. Почему данные перестали обновляться неизвестно.

Федеральное Казначейство с февраля не публикует ежемесячные отчеты об исполнении федерального бюджета [4]. Об этом уже многие писали данных далее становится постепенно всё меньше.

Не все эти данные являются открытыми в определении свободных лицензий, но это, безусловно, те общедоступные данные которые характеризуют состояние экономики.

Причём если писать о том что закрыли ещё можно, то лично я уже опасаюсь писать о тех данных которые ещё не закрыты. Потому что любые данные дающие реальную картину состояния экономики или общества могут исчезнуть.

Ссылки։
[1] https://www.cpc.ru/RU/operations/Pages/loading.aspx
[2] https://web.archive.org/web/20220314112004/https://www.cpc.ru/RU/operations/Pages/loading.aspx
[3] https://www.domofond.ru/tseny-na-nedvizhimost
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1020/

#opendata #data #russia
Мы в Инфокультуре проводим опрос по дню открытых данных в 2023 году. Одна из возможных тем - это цифровая архивация общедоступных и открытых данных. Если Вы хотите поучаствовать или даже выступить с докладом, то, пожалуйста, пройдите опрос.
Forwarded from Ivan Begtin (Ivan Begtin)
В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много.

Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными.

Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7

Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;)

#opendata #opendataday
⚡️Новый сервис «Поиск по архивам» от Яндекса

Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.

Сейчас в базе содержится более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.

В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.

Попробовать поиск по архивам: https://yandex.ru/archive
Навеки вечные

Информация кажется доступной как никогда, но способы хранения данных остаются удивительно хрупкими.

Можем ли мы сохранить что-либо навсегда? Предлагаем к просмотру часовое TED-шоу с докладчиками, которые исследуют вопросы сохранения нашего прошлого, настоящего и будущего.

Смотреть: https://www.npr.org/programs/ted-radio-hour/1151692612/for-all-eternity
Интересное мероприятие Software Source Code as documentary heritage организованное ЮНЕСКО совместно с французским некоммерческим проектом Software Heritage о сохранении исходного кода.
Там много интересных докладов, например, об организации хранения петабайтов в человеческом ДНК и о том сжатии огромных объёмов открытого кода.
Но важнее то что открытый код рассматривается как часть культурного/цифрового наследия человечества.

https://webcast.unesco.org/events/2023-02-07-software-heritage/

#opensource #opendata #software
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2023!

4 марта 2023 года состоится ежегодный День открытых данных — онлайн!

Приглашаем разработчиков, ИТ-специалистов, дата-журналистов, гражданских активистов и других участников российского движения открытости. Некоторые темы выступлений:

— Как искать данные с помощью каталогов данных. Проект datacatalogs.ru.

— Если быть точным в 2022 году: доступны ли данные по социальным проблемам.

— Мастер-класс «Визуализация открытых геоданных Москвы для медиа и соцсетей».

— Мастер-класс «Как мы визуализируем гео-данные в "билайне": от кейсов к практике».

Слушайте доклады, принимайте участие в мастер-классах и становитесь частью движения, создавая и продвигая открытые данные в своей деятельности!

Программа мероприятия и регистрация уже доступны по ссылке: https://opendataday.ru/msk

#ODD2023 #OpenDataDay #OpenData
Forwarded from Инфокультура
Уже завтра состоится онлайн-мероприятие — День открытых данных 2023.

Мероприятие стартует в 11:00. Расписание выступлений доступно здесь: https://opendataday.ru/msk#program

В программе:
— Мастер-классы о том, как обрабатывать и визуализировать гео-пространственные данные.
— Как искать данные с помощью каталогов данных. Проект datacatalogs.ru.
— Если быть точным в 2022 году: доступны ли данные по социальным проблемам.
— Использование открытых данных в общественном контроле в сфере ЖКХ.
— Цифровые архивы: как собираются цифровые коллекции открытых и общедоступных данных институтов памяти.

Трансляция мероприятия:
- https://opendataday.ru/msk#stream
- https://www.youtube.com/@Infoculture/streams

Слушайте доклады, задавайте вопросы спикерам и принимайте участие в мастер-классах и становитесь частью движения, продвигая открытые данные в своей деятельности!

#OpenDataDay #OpenData #ODD2023
#BetterTogetherThanAlone
They destroyed computer drivers, they shredded files and burned all the books in libraries 🍽

На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.

По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.

Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.

Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.

Рекомендуем к просмотру!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В течение 27 мая Архив Санкт-Петербурга будет открытым

В честь Дня города (27 мая) Архивный комитет Санкт-Петербурга открывает на сутки доступ к документам, размещенным на портале "Архивы Санкт-Петербурга» (spbarchives.ru).

На сайте доступны различные исторические документы, в том числе и финансовые, например:

- Протоколы заседаний комиссии по бюджету (1928-1929)
- Переписка о финансировании по бюджету (1941-1942)
- Отчеты об исполнении бюджета г. Ленинграда (1940)
- Проекты районного бюджета Красногвардейского района (1942)
- Местный бюджет Ленинградской губернии (1926-1927)
- Протокол заседания комиссии по пересмотру бюджета Ленинградских академических театров (1928)

Есть несколько особенностей:
- оцифровано не все, поэтому лучше сразу поставить фильтр «только с электронными образами»
- доступ только по ЕСИА (Госуслуги)
- качество электронных образов не очень высокое, есть водяные знаки. Если нужны качественные сканы, то доступ только платный - 20 руб/страница.

На конкурс «Твой Бюджет 2.0» мы подавали идею проекта «Петербургский цифровой архив госфинансов и госуправления» и услышали критику о том, что «работа архивариусов стоит дорого, поэтому за нее нужно платить». Но мы, как налогоплательщики, уже заплатили за создание архивов и работу Архивного комитета. Тем более, не зная прошлого нельзя построить будущее, особенно если для получения знаний создаются искусственные барьеры.

У Яндекса есть поиск по архивам (yandex.ru/archive), который был бы невозможен, если бы архивы 7 российских регионов не публиковались в открытом доступе. К сожалению, Санкт-Петербурга в этом списке нет, но хочется надеяться, что власти города поймут, что открытость принесла бы городу гораздо больше, чем те небольшие деньги, которые архивная служба зарабатывает на простых и не очень богатых людях, большинство из которых хотят узнать историю своей семьи с помощью высокотехнологических инструментов. И если Яндекс и другие организации (тот же Минфин России) позволяют бесплатно искать по миллионам сканированных документов (в том числе и по рукописным с использованием алгоритмов распознавания текста), то документы из «закрытых» архивов, таких как Петербургские, остаются для нас малодоступными.

#госархив #открытыеданные #архивныйкомитет #санктпетербург #твойбюджет #госфинансы