Ivan Begtin
9.13K subscribers
2.04K photos
3 videos
102 files
4.77K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто интересуется цифровой архивацией, поделюсь презентацией на эту тему с которой я в разных вариациях выступал в прошлом году [1]

Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.


Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA

#webarchives #digitalpreservation #archives
March 23, 2022
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]

Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.

Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.

Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.

P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.

Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv

#instagram #government #archives #socialnetworks
March 28, 2022
March 29, 2022
March 31, 2022
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.

Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI

А также репозиторий в Github https://github.com/ruarxive/rudatarchive

Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/

Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.

Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.

Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.

#opendata #data #archives #digitalpreservation
April 8, 2022
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь

Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI

Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.

Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.

Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.

Больше про архивационные кампании будет на канале @ruarxive.

#opendata #datasets #dataportals #russia #archives #digitalpreservation
April 11, 2022
May 30, 2022
September 12, 2022
October 19, 2022
April 14, 2023
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage
May 29, 2023
June 6, 2023
December 8, 2023
December 15, 2023
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
February 6, 2024
February 14, 2024