Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Почему я задумался о Wikibase и аналогичным проектам, потому что Airtable поменял уже какое-то время назад тарифы и теперь поддерживать там бесплатно большие таблицы невозможно. Какие-то таблицы вроде семантических типов данных и реестра каталогов данных я уже переносил в режим их редактирования в Github'е в виде тысяч YAML файлов. А теперь у меня закончилась квота на базы редактирования доменов, международных договоров и архивов сайтов. В общем что-то с этим надо делать и, либо найти альтернативу Airtable, либо перенести на Github и эти базы.

Главное отличие в том что у этих баз много разных связанных сущностей. В этом смысле гораздо проще вести базу каталогов данных, там основная сущность - это каталог. А даже в одной только базе госсайтов сущности включают: домен, организацию, ASN, регион и несколько десятков атрибутов.

Я всерьёз подумываю о том можно ли перенести такое на Wikibase или найти разумную альтернативу Airtable.

#opendata #datasets #data #government #domains
Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
Вдогонку к числу законов принятых в России [1], можно не дожидаться января, в 2023 году всего принято 694 закона, чуть чуть недотянули до 700. Для сравнения в 2022 году было принято 645 законов. Итого, выражаясь в терминах "палочной" статистики МВД рост составил 7,6% АППГ (к аналогичному периоду прошлого года). Можно было бы подумать как хорошо законодатели поработали в этом году, но реальность такова что больше законов - больше нормативная нагрузка на людей и бизнес. Выигрывают от них только госорганы и то не все.

Всё это напрямую относится и к регулированию данных, персональных данных, ИИ, информационной безопасности и других технологических областей. И судя по всему нет признаков того что этот тренд на рост листажа бумаги закончится.

Я хорошо помню как много лет назад когда я работал на больших ИТ проектах государственных информационных систем приёмка осуществлялась буквально килограммами бумаги. Я был свидетелем лично случая когда один начальник отдела в российском министерстве экономического хаоса указывал подрядчику показывая стопки бумаги. "Вот смотри", говорил он, "это проект на 2 миллиона и тут 200 листов, а у ты сдаёшь проект на 10 миллионов, а у тебя всего 40 листов. Надо хотя бы 400, а лучше 1000, тогда прокуроры точно утомятся читать при проверке".

Конечно, законодатели, это несколько другой случай и другая мотивация, а 99% принимаемых законов это изменения в существующие законы, но бюрократическая культура общая, в отсутствии осознания вреда от подобного нормативного "бешенства".

Ссылки։
[1] https://t.iss.one/begtin/5257

#laws #regulation #russia
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел новый релиз датасета Overture Buildings от Overture Maps [1], туда добавили данные из датасета Google и теперь единый набор данных составляет 2.3 миллиарда зданий против 1.4 в предыдущих релизах. Особенно много зданий добавлено в Азии.

Набор данных доступен в формате GeoParquet [2] и с примерами работы с ним на нескольких облачных хранилищах [3]

Данные доступны под лицензиями Odbl и CDLA Permissive 2.0.

Ссылки։
[1] https://overturemaps.org/overture-buildings-theme-hits-2-3b-buildings-with-addition-of-google-open-buildings-data/
[2] https://overturemaps.org/overture-december-2023-release-notes/
[3] https://github.com/OvertureMaps/data#data-release-feedback

#opendata #data #datasets #geodata
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
MongoDB взломали [1] и, похоже, скомпрометировали как минимум часть паролей клиентов, но пока нет подтверждений что хакеры получили доступ к данным клиентов в MongoDB Atlas. В любом случае, для SaaS сервиса обеспечивающего хранение данных этот инцидент крайне неприятный, плохо отразится на бизнесе.

Ссылки:
[1] https://www.mongodb.com/alerts

#data #saas #mongodb #security
В рубрике интересных наборов данных свежий датасет из 228 тысяч нормативных документов (законов, решений и тд.) Австралии. Автор собрал датасет и выложил на Hugging Face [1],а также описал процесс у себя в блоге [2] и само описание - это хорошее руководство того как самостоятельно создавать наборы данных и выложил исходный код использованный для создания такого датасета [3]. Во всех смыслах хороший пример - открытые данные + открытый код + датасет для машинного обучения. Особенно учитывая сложности в том что Австралия является конфедерацией и нет единой базы всего законодательства, а вместо этого отдельные системы на уровне центрального правительства и отдельные у штатов и в сейчас нет штата Виктория. Но даже при этих ограничениях - это большой корпус англоязычных документов полезный в работе многих инструментов.

Ссылки:
[1] https://huggingface.co/datasets/umarbutler/open-australian-legal-corpus
[2] https://umarbutler.com/how-i-built-the-largest-open-database-of-australian-law/
[3] https://github.com/umarbutler/open-australian-legal-corpus-creator

#dataset #opendata #data
Подборка полезных ссылок для чтения про данные и не только:
- WikiCrow [1] генератор статей для Википедии/другой вики посвящённых научным явлениям, в демо показывают генерацию статей по человеческим генам. Используют внутреннюю LLM без галлюцинаций и сравнивают результат со статьями в Википедии подчёркивая большую полноту и качество созданных статей. Уже интересно, подключат такой движок к Википедии или запретят подобное и появятся новые вики проекты подготовленные ИИ?
- How to make data open? Stop overlooking librarians [2] заметка в Nature про то что не надо игнорировать библиотекарей при подготовке открытых научных данных к публикации. С упоминанием инструментов Bitcurator и ReproZIP, но почему-то не упоминает автор про FrictionlessData.
- Meta is giving researchers more access to Facebook and Instagram data [3] в Meta сдвинулись в сторону предоставления доступа к данным соцсетей для исследователей. Весьма интересно, хорошо бы узнать потом в каких научных работах это будет упоминаться. Подозреваю что высока вероятность что первыми туда придут политологи в США чтобы изучать политическую рекламу.
- The oligopoly’s shift to open access: How the big five academic publishers profit from article processing charges [4] статья с оценками того сколько олигополия академических издательств зарабатывает на платежах за обработку научных статей. Подсказка - много, возможно слишком много.

Ссылки:
[1] https://www.futurehouse.org/wikicrow
[2] https://www.nature.com/articles/d41586-023-03935-1
[3] https://www.technologyreview.com/2023/11/21/1083760/meta-transparency-research-database-nick-clegg/
[4] https://direct.mit.edu/qss/article/doi/10.1162/qss_a_00272/118070/The-Oligopoly-s-Shift-to-Open-Access-How-the-Big

#opendata #data #ai #openaccess #readings
Долго думал как это прокомментировать, но комментарий подобрать никак не могу. Ничего хорошего, в принципе не-государственных и независящих от государства НКО в России практически не остаётся. Чтобы там кому ни нравилось в Википедии, страна сильно беднеет от того что вместо множества мнений остаётся лишь официальная идеология.
Сооснователь «Викимедиа РУ» Станислав Козловский объявил о закрытии организации.

Это произошло после того, как МГУ, где он работал доцентом факультета психологии, предложило ему написать заявление на увольнение. «Меня вызвали и сказали, что в ректорат пришла информация, что меня признают в эту пятницу иноагентом. Предложили уволиться, написать заявление по собственному желанию. Я его подписал», — сообщил РБК Козловский.

После этого прошло общее собрание «Викимедиа РУ», где было решено, что «в таких условиях работать невозможно», поэтому организацию закроют.

«Викимедиа РУ» содействует развитию «Википедии» на территории России, при этом это юридически самостоятельная организация, которая не имеет контроля над сайтами Фонда Викимедиа.
Не так сложно изнутри России найти VPN или прокси, как сложно многим уехавшим заплатить за квартиру, налоги и ещё много что. Многие госсайты блокируют любое подключение извне, в том числе Интернет-архив. Многое из публикуемого российскими госструктурами может исчезнуть одномоментно, потому что Интернет архив просто не может до них достучаться.

Вот неполная подборка, со ссылками на archive.org для подтверждения:
- Минюст России [1] - полностью не индексируется
- МВД России [2] - полностью не индексируется
- МЧС России [3] - падение индексации в несколько раз, первое полугодие 2023 года совсем не индексировался
- ФССП России [4] - с виду индексируется, по факту сайт выдаёт заглушку [5]
- Росздравнадзор [6] - с виду индексируется, по факту заглушка Forbidden [7]
- Минкультуры России [8] - падение индексации более чем в 4 раза, индексировался в первом квартале 2023 г. и немного в конце года.
- Минприроды России [9] - почти не индексировался в 2023 году, мало в 2022.
- Росприроднадзор [10] - не индексировался с середины 2022 года по середину 2023, минимально индексировался в 2023
- Минпросвещения России [11] - почти не индексировался с начала 2023 года, немного вначале года и чуть-чуть в конце
- Минвостокразвития России [12] - почти не индексировался в 2023 году, немного лишь в конце года
- Минсельхоз России [13] - не индексируется с марта 2022 года, более 1.5 лет

Список можно продолжать долго, практически бесконечно. Туда же надо смотреть многие сайты госучреждений, региональных властей и государственных информационных систем. Я подозреваю что какие-то подсети полностью выпадали из доступа не с российских IP адресов.

Последствия ровно те с которых я начал:
1) Россияне не из России не могут проделывать многие операции
2) Огромное число официальных сайтов государства теперь не архивируются, повышая безнаказанность действующего Пр-ва

Ссылки:
[1] https://web.archive.org/web/20230000000000*/https://minjust.gov.ru/ru/
[2] https://web.archive.org/web/20230000000000*/https://mvd.gov.ru
[3] https://web.archive.org/web/20230801000000*/https://mchs.gov.ru
[4] https://web.archive.org/web/20230801000000*/https://fssp.gov.ru
[5] https://web.archive.org/web/20231029194721/https://fssp.gov.ru/
[6] https://web.archive.org/web/20230000000000*/https://roszdravnadzor.gov.ru/
[7] https://web.archive.org/web/20231204003333/https://roszdravnadzor.gov.ru/
[8] https://web.archive.org/web/20230000000000*/culture.gov.ru
[9] https://web.archive.org/web/20230000000000*/www.mnr.gov.ru
[10] https://web.archive.org/web/20230000000000*/rpn.gov.ru
[11] https://web.archive.org/web/20230000000000*/edu.gov.ru
[12] https://web.archive.org/web/20230000000000*/minvr.gov.ru
[13] https://web.archive.org/web/20230000000000*/mcx.gov.ru

#webarchives #digitalpreservation #russia #government
В рубрике как это работает у них портал данных Банка международных расчётов (BIS) data.bis.org [1]. Как и у многих межгосударственных организаций портал данных является, по факту, порталом для публикации статистических индикаторов. В данном случае это экономические и финансовые индикаторы с той особенностью что они разделены по странам с детализацией до страны. Поэтому, к примеру, по Армении доступно 3455 индикаторов, а по России 9312 индикаторов. В общей сложности так получается несколько сотен тысяч индикаторов по странам и несколько тысяч/десятков тысяч глобальных таблиц. В общей сложности на портале около 1 миллиона временных рядов которые можно считать, также, наборами данных

У портала есть открытое API [2], внутри и снаружи всё на основе формата SDMX, с экспортом в CSV, Excel, XML (SDMX).

Этот портал - это хороший пример публикации и визуализации статистики, с огромными объёмами временных рядов, пояснениями, экспортом, цитированием, визуализацией и удобным поиском по всем собранным данным. Глядя на многие порталы статистики многих стран, часто, хочется подобного.

А для тех кто ищет международные данные с временными рядами напомню про такие порталы как:
- портал данных Всемирного банка data.worldbank.org
- портал данных ООН data.un.org
- портал данных ОЭСР data.oecd.org

а также существуют десятки других.

Ссылки:
[1] https://data.bis.org
[2] https://stats.bis.org/api-doc/v1/

#opendata #datasets #timeseries #datacatalogs #data