Ivan Begtin

Чуть меньше чем год назад я писал о реформе институтов развития в нашей стране о том что главное при любоей реформе - это сохранять архивы [1] Потому что помните как в пьесе Шварца "Дракон" и фильме по мотивам пьесы "Убить дракона" главный антагонист говорил "Папа всегда говорил: Уничтожай архивы!" [2]

Тогда было заархивировано 54 веб-сайта организаций институтов развития и сайты их проектов.
Что произошло за это время.
Более недоступны следующие сайты:
- www.investvostok.ru (Агентство дальнего востока по привлечению инвестиций) - организация ликвидируется
- www.madeinrussia.com (Проект Сделано в России) - выдаёт ошибку 500, возможно временно
- grant.rfbr.ru (Система Грант-экспоесс РФФИ) - сайт более не открывается
- monitoring.russez.ru (Камеры РосОЭЗ) - сайт более не открывается
- sprgm.ru (Гранты РНФ на реализацию комплексных научных программ организаций) - домен потерян, теперь продается

Скорее всего скоро исчезнут:
- hcfe.ru (Агентство по развитию человеческого капитала на Дальнем Востоке) - организация ликвидируется

Итого 5 сайтов исчезло и ещё один скорее всего исчезнет. Полный список можно посмотреть тут [3] Сохранило ли ликвидированные сайты Пр-во при реформе или головная организация ВЭБ.РФ ? Нет, конечно. Единственный государственный институт России сохраняющий сайты поглощённых им структур с 2003 года - это ЦБ РФ [4].

Нами все сайты институтов развития сохранены на конец декабря 2020 года в Национальный цифровой архив [5] и доступны всем желающим работать с ними в исследовательских целях.

Ссылки:
[1] https://t.iss.one/begtin/2464
[2] https://www.youtube.com/watch?v=Mp5LIAoKLx8
[3] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing
[4] https://cbr.ru/archive/archive_fkcb/
[5] https://ruarxive.org

#webarchival #digitalpreservation #archives

1.5K viewsIvan Begtin, edited 20:54

Ivan Begtin

При любом историческом событии крайне важно сохранять архивы, как минимум для себя лично, как максимум для всего общества.

Поэтому, специально для тех кто понимает что необходимо всегда сохранять архивы происходящего и думают как это делать, я подготовил и отправил в рассылку Гайд по быстрой архивации цифрового контента [1] с охватом того как архивировать отдельные веб страницы, сайты, социальные сети.

Некоторые инструменты совсем простые, для некоторых нужны базовые навыки работы с командной строкой. Если Вы знаете какие-либо дополнительные инструменты или есть проблемы с архивацией контента который в гайде не представлен - пишите мне лично на почту [email protected] или в чат @begtinchat.

Ссылки:
[1] https://begtin.substack.com/p/24

#digitalpreservation #guides #webarchival #socialnetworks

Ivan’s Begtin Newsletter on digital, open and preserved government

#24. Гайд по быстрой архивации цифровых материалов

Сейчас, когда происходят катастрофические события, идут военные действия, публикуется огромное число текстов, изображений и видео которые могут быть недостоверными и исчезнуть через несколько часов после публикации, как никогда актуальна архивация цифровых…

12.5K viewsIvan Begtin, 09:18

Ivan Begtin

Forwarded from Национальный цифровой архив

Как устроена веб-архивация в мире?

Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.

Ненаправленные веб архивы

Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.

Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.

Сфокусированные архивы

Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности

Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.

Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.

Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.

Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.

В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.

Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

#webarchival #digitalpreservation

UK Government Web Archive

We capture, preserve, and make accessible UK central government information published on the web from 1996 to present.

1.9K viewsIvan Begtin, 06:36

Ivan Begtin

Forwarded from Национальный цифровой архив

Новости проекта на 23 марта 2022 года

- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.

Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.

#digest #archives #webarchival #digitalpreservation

2.0K viewsIvan Begtin, 11:27

Ivan Begtin

Продолжается архивация порталов открытых данных в РФ.

Я ранее уже писал что в таблице Airtable собран список порталов для архивации https://airtable.com/shr1rzsajTM5SSyoI, часть из них уже сохранены, это 39 порталов, часть из которых были собраны ранее, часть из которых собраны в формате веб-архива WARC, поскольку данные там лежат просто как файлы.

Но в списке гораздо больше ресурсов, некоторые из них - это цифровые репозитории где есть не только данные, а другие - это, например, порталы открытых бюджетов которые мы относили к порталам с открытыми данными поскольку чаще всего там данные публиковали машиночитаемыми.

Про некоторые наблюдения в процессе архивации данных и сайтов я уже писал, но есть что добавить.

1. Данных мало, данные плохого качества, данные редко обновляются, данные бессмысленны. Вот буквально это все вместе очень часто одновременно. Пример, Владимирская область https://avo.ru/opendata. Справедливы все эти утверждения.
2. Данные готовят и выкладывают в ручную на CMS администрации и описание их дают в виде файлов MS Word https://www.nso.ru/opendata и не обновляют их годами.

И это лишь пара примеров из многих, в целом видно что около 5% регионов в России публиковали данные осмысленно и продолжают это делать. Ещё около 50% делают это в режиме "на отвали" и оставшиеся просто забили и не обновляют свои порталы открытых данных.

Поэтому архивировать их важно и нужно. Код сбора сайтов и описание будут в репозитории на Github https://github.com/ruarxive/rudatarchive․

Из ресурсов по которым может понадобиться помощь - это:
- showdata.gks.ru - витрины данных Росстата, там всё на Javascript'е и с извращениями, поэтому веб-архивация не сработает
- pod.gptl.ru - портал открытых данных ДЗЗ с картами Роскосмоса. Аналогично
- next.gptl.ru - фонд данных ДЗЗ (требует регистрации, бесплатно). Аналогично

Если Вы знаете какие-либо иные важные источники данных которые могут в ближайшее время исчезнуть - напишите об этом!

#opendata #digitalpreservation #webarchival #dataportals

Airtable

Airtable | Everyone's app platform

Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.

2.0K viewsIvan Begtin, 09:55

Ivan Begtin

Forwarded from Национальный цифровой архив

Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.

Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/

#digitalpreservation #webarchival

www.ica.org

FADGI publishes the Technical Guidelines for Digitizing Cultural Heritage Material (3rd ed) for public comment | International…

The Federal Agencies Digital Guidelines Initiative ( FADGI) Still Image Working Group has published revision of Still Image Digitization Guidelines, 3rd

2.1K viewsIvan Begtin, 05:29

Ivan Begtin

Forwarded from Национальный цифровой архив

Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).

На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.

Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.

Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).

#webarchival #digitalpreservation #bigenc

Большая российская энциклопедия

Уважаемые коллеги, пользователи портала!

Компания, обеспечивающая размещение портала «Большая российская энциклопедия» и работу редакционного комплекса в сети Интернет, продлила срок предоставления хостинга до сентября текущего года с учётом обращения Минцифры…

1.4K viewsIvan Begtin, 12:48

About

Blog

Apps

Platform