Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
для тех кто ищет данные с исчезающих сайтов госорганов и правоохранительных органов в частности на хабе открытых данных теперь есть группа данных которая так и называется "Архивы сайтов правоохранительных органов России"
https://hubofdata.ru/group/lawenfarchive
Там сейчас архивы только 4-х сайтов:
- ФМС России fms.gov.ru
- ФСКН России fskn.gov.ru
- Сайт внутренних войск МВД vvmvd.ru
- Портал правоохранительных органов 112.ru
Из них портал 112.ru уже не существует в сети, архив сайта ФМС сделан со старой копии по адресу 92.fms.gov.ru, остальные пока еще временно доступны.
Все доступно в виде полных архивов сайтов с выкачанными страницами и документами. В формате WARC и в виде архива для распаковки на файловой системе.
Осталось еще примерно 26 сайтов внести в эту группу, их архив давно сделаны.
Сейчас больше времени уходит на то чтобы вручную их вносить в хаб со всеми метаданными #‎opendata #‎opengov #‎webarchive
Напомню что если есть сайты госорганов или же общественно значимых проектов находящихся под угрозой их исчезновения - пишите мне в фэйсбуке на facebook.com/ibegtin, в телеграме telegram.me/ibegtin или же по почте на [email protected]
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.

Но вот никто не спросил меня про да и не пишет, а что будет со всем тем цифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?

Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.

Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.

Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.

P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!


Ссылки:
[1] https://ruarxive.org

#webarchive #ruarxive #archival
Как устроено содержание типичного госсайта на примере сайта Россвязи (только что заархивированного в 16GB в сжатом виде и 28GB в распакованном).

Всего 97 тысяч файлов:
- около 40% - это HTML страницы общим объёмом 9.1GB (средний размер веб страницы 236 килобайт)
- более 50% файлов - это изображения в jpeg, объёмом в 9.7GB среднего размера в 186 килобайт.
- большая часть документов в форматах PDF и RTF, 164 Excel файла.
- примерно 16 тысяч веб страниц - это перечень всех таксофонов (совершенная идиотская идея, не понимаю зачем они его так публиковали)
- совсем немного файлов с данными - в форматах JSON, XML, практически ничего
- а вот Excel файлов более чем на 80 мегабайт, могли бы их преобразовать хотя бы в данные, что ли

Если говорить не про историческую, а про практическую ценность веб архивов, то это задачи data discovery, выкачивать всё, а потом автоматически анализировать то какие файлы можно превращать в наборы данных.

#webarchive #archive #datasets