Национальный цифровой архив
2.34K subscribers
50 photos
4 files
120 links
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.

Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.

В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.

И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉

И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.

Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am

#opendata #opendataday #data #events
Пишут что генеалогический сервис MyHeritage 31 декабря предупредил пользователей из России об удалении их учётных записей с 1 февраля 2025 года [1]. Весьма вероятно что это связано со штрафом в 6 млн рублей в отношении MyHeritage за отказ от локализации данных российских пользователей [2].

Сервис постепенно уходил из России начиная с 2020 года, в 2020 году из-за ограничений на пересылку генетических материалов MyHeritage перестали присылать в Россию наборы для взятия генетических проб [3].

К сожалению, невозможно автоматизировано сохранить все удаляемые данные пользователей и, к тому же, они являются персональными данными, но если Вы пользователь MyHeritage и находитесь в России, на всякий случай стоит воспользоваться инструкцией и сделать резервную копию геномных данных, данных генеалогического дерева и всего остального что может исчезнуть.

Ссылки:
[1] https://habr.com/ru/news/871058/
[2] https://www.forbes.ru/tekhnologii/498511-sud-ostrafoval-myheritage-na-6-mln-rublej-za-povtornyj-otkaz-lokalizovat-dannye
[3] https://www.myheritage.com/help-center?a=Why-isn%27t-MyHeritage-sending-DNA-kits-to-Russia-anymore---id--B2WZDFjXR9CRdvZqGR86eQ

#genealogy #genetics #myheritage
https://dhsprogram.com/

https://dhsprogram.com/data/available-datasets.cfm

https://www.idhsdata.org/idhs/

https://www.statcompiler.com/en/

https://dhsprogram.com/Countries/index.cfm?show=map#activeType=_all&printStyle=false&mLon=12.8&mLat=11.7&mLev=2&title=Where%20We%20Work&desc=

https://dhsprogram.com/search/

https://dhsprogram.com/Research/Featured-Studies.cfm

Самая лучшая в мире база данных демографических обследований по развивающимся странам может кануть в небытие уже завтра или на днях.
Если это случится, то "спасибо" Трампу, будь он неладен.
Выражение "СЛОН в посудной лавке" играет новыми красками, преимущественно чёрными.
Скачивайте всё, что можно.
Эти данные используются в т. ч. ООН для демографического прогнозирования.
По многим странам других данных нет, или они низкого качества.
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.

End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB

Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV

Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB

Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]

А также существует значительное число инициатив меньшего масштаба.

Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).

Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/

#digitalpreservation #webarchives #trump #usa
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2025 — #ODD2025

01.03.2024, 11:00-16:00 (GMT +3), День открытых данных 2025 (https://opendataday.ru/msk) — это ежегодное международное мероприятие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества.

Мероприятие пройдет в онлайн формате.

Мы подготовили для аудитории сессии докладов, презентации кейсов и мастер-классы по актуальным вопросам различных направлений открытости и отдельных проектов.
Приглашаем исследователей, дата инженеров, аналитиков, урбанистов, разработчиков, ИТ-специалистов, дата-журналистов и других участников российского движения открытости и любителей данных во всех их формах.

#opendata #russia #events
Forwarded from Ivan Begtin (Ivan Begtin)
В продолжение предыдущей публикации про API веб архива, приведу в пример текущее состояние архивации веб-сайтов российских ФОИВов Интернет Архивом (web.archive.org).

Это результаты самой поверхностной проверки, но можно увидеть что как минимум веб-сайты Минсельхоза РФ и Фельдъегерской службы не архивируются уже почти 3 года, а ряд других 9 месяцев. Если сайт Фельдъегерской службы никого не волнует, по большому счёту, то сайт Минсельхоза уже важнее. И это только поверхностная проверка потому что для ряда сайтов веб архив блокируется с возвращением 403 ошибки. Например, сайт Росархива тоже попадёт в этот список потому что веб архив сохранял его именно с ошибками.

Рано или поздно мы снова начнём архивационную кампанию по сохранению сайтов российских госорганов в рамках Национального цифрового архива (ruarxive.org). Это стало сильно сложнее поскольку теперь официальный контент часто просто невозможно индексировать, приходится прикладывать дополнительные усилия. Но хотя бы можно сохранить то что точно не попадает в веб-архив Интернет Архива.

P.S. Кроме сайтов ФОИВ аналогичная ситуация с большей частью сайтов региональных органов власти и государственных информационных систем.

#digitalpreservation #webarchives #ruarxive #russia