Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Чуть меньше чем год назад я писал о реформе институтов развития в нашей стране о том что главное при любоей реформе - это сохранять архивы [1] Потому что помните как в пьесе Шварца "Дракон" и фильме по мотивам пьесы "Убить дракона" главный антагонист говорил "Папа всегда говорил: Уничтожай архивы!" [2]

Тогда было заархивировано 54 веб-сайта организаций институтов развития и сайты их проектов.
Что произошло за это время.
Более недоступны следующие сайты:
- www.investvostok.ru (Агентство дальнего востока по привлечению инвестиций) - организация ликвидируется
- www.madeinrussia.com (Проект Сделано в России) - выдаёт ошибку 500, возможно временно
- grant.rfbr.ru (Система Грант-экспоесс РФФИ) - сайт более не открывается
- monitoring.russez.ru (Камеры РосОЭЗ) - сайт более не открывается
- sprgm.ru (Гранты РНФ на реализацию комплексных научных программ организаций) - домен потерян, теперь продается

Скорее всего скоро исчезнут:
- hcfe.ru (Агентство по развитию человеческого капитала на Дальнем Востоке) - организация ликвидируется

Итого 5 сайтов исчезло и ещё один скорее всего исчезнет. Полный список можно посмотреть тут [3] Сохранило ли ликвидированные сайты Пр-во при реформе или головная организация ВЭБ.РФ ? Нет, конечно. Единственный государственный институт России сохраняющий сайты поглощённых им структур с 2003 года - это ЦБ РФ [4].

Нами все сайты институтов развития сохранены на конец декабря 2020 года в Национальный цифровой архив [5] и доступны всем желающим работать с ними в исследовательских целях.

Ссылки:
[1] https://t.iss.one/begtin/2464
[2] https://www.youtube.com/watch?v=Mp5LIAoKLx8
[3] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing
[4] https://cbr.ru/archive/archive_fkcb/
[5] https://ruarxive.org

#webarchival #digitalpreservation #archives
При любом историческом событии крайне важно сохранять архивы, как минимум для себя лично, как максимум для всего общества.

Поэтому, специально для тех кто понимает что необходимо всегда сохранять архивы происходящего и думают как это делать, я подготовил и отправил в рассылку Гайд по быстрой архивации цифрового контента [1] с охватом того как архивировать отдельные веб страницы, сайты, социальные сети.

Некоторые инструменты совсем простые, для некоторых нужны базовые навыки работы с командной строкой. Если Вы знаете какие-либо дополнительные инструменты или есть проблемы с архивацией контента который в гайде не представлен - пишите мне лично на почту [email protected] или в чат @begtinchat.

Ссылки:
[1] https://begtin.substack.com/p/24

#digitalpreservation #guides #webarchival #socialnetworks
Как устроена веб-архивация в мире?

Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.

Ненаправленные веб архивы

Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.

Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.

Сфокусированные архивы

Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности

Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.

Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.

Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.

Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.

В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.

Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

#webarchival #digitalpreservation
Новости проекта на 23 марта 2022 года

- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.

Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.

#digest #archives #webarchival #digitalpreservation
Продолжается архивация порталов открытых данных в РФ.

Я ранее уже писал что в таблице Airtable собран список порталов для архивации https://airtable.com/shr1rzsajTM5SSyoI, часть из них уже сохранены, это 39 порталов, часть из которых были собраны ранее, часть из которых собраны в формате веб-архива WARC, поскольку данные там лежат просто как файлы.

Но в списке гораздо больше ресурсов, некоторые из них - это цифровые репозитории где есть не только данные, а другие - это, например, порталы открытых бюджетов которые мы относили к порталам с открытыми данными поскольку чаще всего там данные публиковали машиночитаемыми.

Про некоторые наблюдения в процессе архивации данных и сайтов я уже писал, но есть что добавить.

1. Данных мало, данные плохого качества, данные редко обновляются, данные бессмысленны. Вот буквально это все вместе очень часто одновременно. Пример, Владимирская область https://avo.ru/opendata. Справедливы все эти утверждения.
2. Данные готовят и выкладывают в ручную на CMS администрации и описание их дают в виде файлов MS Word https://www.nso.ru/opendata и не обновляют их годами.

И это лишь пара примеров из многих, в целом видно что около 5% регионов в России публиковали данные осмысленно и продолжают это делать. Ещё около 50% делают это в режиме "на отвали" и оставшиеся просто забили и не обновляют свои порталы открытых данных.

Поэтому архивировать их важно и нужно. Код сбора сайтов и описание будут в репозитории на Github https://github.com/ruarxive/rudatarchive

Из ресурсов по которым может понадобиться помощь - это:
- showdata.gks.ru - витрины данных Росстата, там всё на Javascript'е и с извращениями, поэтому веб-архивация не сработает
- pod.gptl.ru - портал открытых данных ДЗЗ с картами Роскосмоса. Аналогично
- next.gptl.ru - фонд данных ДЗЗ (требует регистрации, бесплатно). Аналогично

Если Вы знаете какие-либо иные важные источники данных которые могут в ближайшее время исчезнуть - напишите об этом!

#opendata #digitalpreservation #webarchival #dataportals
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.


Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/

#digitalpreservation #webarchival
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).

На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.

Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.

Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).

#webarchival #digitalpreservation #bigenc
Свежее регулирование выдачи сертификатов российского НУЦ [1] предполагающее выдачу сертификатов национального удостоверяющего центра веб сайтам/сервисам и это к вопросу о том когда сайты российских госорганов и госучреждений начнут выпадать из поисковиков Google, Bing, а также более не архивироваться в Интернет Архиве.

Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.

Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.

Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.

Ссылки:
[1] https://t.iss.one/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org

#digitalpreservation #webarchival #russia