Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Во Франции Государственный совет (Conseil d’État) открыл свой портал открытых данных [1]. Куда уже выложили его решения, к 31 марта 2022 года выложат решения апелляционных судов, а к 30 июня 2022 года решения административных судов. Объём данных обещает быть большим, всё опубликовано под французской свободной лицензией созданной Etalab [2]

Ссылки:
[1] https://opendata.conseil-etat.fr/
[2] https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf

#opendata #france
Языку SQL уже много, очень много лет, но он продолжает быть чуть-ли не основным для аналитиков данных, инженеров и иных специалистов по работе с данными. Разве что дата сайентисты в некоторых задачах могут избежать счастья работать с SQL и используют Python/Java/R и др.

У SQL много достоинств и не меньше недостатков, главным из которых я бы назвал отсутствие удобных способов работы с не-плоскими данными, такими как JSON и тд. Время от времени появляются альтернативы, которые редко выходят за пределы конкретного продукта, но могут быть очень интересными.
Итак:
- SpyQL [1] гибрид SQL и Python, утилита командной строки позволяет выполнять SQL-похожие запросы с выражениями на Python внутри. Умеет работать с CSV, JSON и текстовыми файлами
- LINQ [2] объектный родной для .NET язык запросов придуманный Microsoft. Не используется за пределами экосистемы .NET
- SPARQL [3] язык запросов родом из Sematic Web. Сложен для непосвящённых, так и не получил массового распространения как и сами СУБД которые его поддерживает, но имеет немало, в первую очередь научных внедрений и использования.
- GraphQL [4] изначально язык API, но есть немало СУБД для которых он уже стал нативным. Малопопулярен в среде обработки данных, но популярен для веб-продуктов, стыковки бэкэнда и фронтэнда.
- Pony [5] специальный маппер выражений из своего синтаксиса в синтаксис SQL. Изначально написан для Python для работы с объектами для задач ORM.
- LookML [6] язык запросов сервиса по визуализации Looker, свой формат, свой синтаксис. Пока мало где используемый за пределами Looker'а
- Malloy [7] ещё один язык от Looker, относительно свежий
- Prql [8] язык запросов ориентированный на преобразование данных.

И многие другие. Защитники SQL возразят что современные SQL базы давно уже поддерживают JSON объекты и функции по работе с ними, а для гибкости пользовательские функции (UDF) можно реализовывать хоть на Python, хоть через .NET, хоть на других языках в зависимости от движка СУБД.

Появится ли у SQL стандарта достойная признанная замена? Пока непонятно, но можно экспериментировать.

Ссылки:
[1] https://github.com/dcmoura/spyql
[2] https://en.wikipedia.org/wiki/Language_Integrated_Query
[3] https://www.w3.org/TR/rdf-sparql-query/
[4] https://graphql.org/
[5] https://github.com/ponyorm/pony/
[6] https://docs.looker.com/data-modeling/learning-lookml/what-is-lookml
[7] https://github.com/looker-open-source/malloy
[8] https://github.com/max-sixty/prql

#sql #nosql #queries #datatools
Я много критиковал и критикую российский федеральный портал открытых данных data.gov.ru [1], но как-то без цифр. Сейчас, когда наконец-то докачались все доступные данные 26490 наборов данных с этого портала я могу цифры привести и дать некоторую картину его текущего состояния:
1. 29 гигабайт - это общий объём данных в федеральном портале открытых данных data.gov.ru. Большая часть этих данных несжаты, после сжатия их объём составит около 15-20 гигабайт, а может быть и меньше, сжатие этого архива ещё не закончилось.
2. Из них 6.8 гигабайт - это однократный слепок данных в ZIP архиве из системы ФИАС не обновлявшийся с октября 2019 года [2]. Вернее ссылка на этот слепок на сайте ФНС [3].
3. Всего на 5 крупнейших наборов данных приходится 50% хранимого объёма. Это данные ФИАС, вакансий и юр. лиц Роструда и сведения о малом и среднем бизнесе с сайта ФНС.
4. 3839 наборов данных имеют размер менее 1 килобайта. Это 14.5% всех наборов данных, всех уровней власти. Федерального, регионального и муниципального.
5. На самом деле даже текущие цифры являются завышенными потому что многие ссылки указывают на внешние сайты и протухли из-за реформы органов власти. Наглядный пример, данные ФСТ РФ присоединённой к ФАС РФ. Набор данных "Информация об обращениях граждан" [4] указывает на сайт fstrf.ru которые редиректит на рекламу на meta.ru.
6. Аналогично наборы данных со многих сайтов были перенесены или удалены, метаданные на data.gov.ru не обновлялись. Так не работает ссылки на все наборы данных ФТС (Таможенной службы), например тут [5].

Для сравнения:
1. 950+ наборов данных из портала data.mos.ru - это 17 гигабайт несжатых данных. Частично эти наборы импортированы в data.gov.ru, но лишь частично.
2. Данные системы ЕМИСС (fedstat.ru) это 3.4 гигабайт несжатых XML файлов, данных неполными в выгрузке на сайте и проиндексированных в data.gov.ru. Если собрать их же в полных Excel файлах, экспортируя через веб интерфейс, то это около 24 ГБ
3. В системе budget.gov.ru данных по госфинансам 31 ГБ в сжатом виде. Если их распаковать то это около 200 ГБ и с оговоркой что это далеко не все данные, поскольку ряд крупнейших датасетов мы не скачивали, это слишком долго через их API.
4. 9200+ наборов данных из системы ЕСИМО (портал о мировом океане) - это 10 ГБ данных в несжатом виде. Их никогда не было на портале data.gov.ru

Это не полный список, только самое очевидное.

Все сравнения не в пользу федерального портала открытых данных. И это с оговоркой только количественного, не качественного сравнения. Если сравнивать федеральный портал по качеству документированности данных, удобства доступа, форматам и метаданным и тд. с другими порталами, то федеральный портал оказывается бесполезен. Он не выполняет функции поисковика по данным размещённых в других порталах, как минимум к особо крупным и ценным наборам данных. Технологически data.gov.ru также сильно отстал, и от того что делают зарубежом, и от лучших российских практик. Многие региональные и ведомственные порталы данных устроены куда лучше и профессиональнее.

Сейчас я изучаю можно ли хоть что-то из data.gov.ru автоматически загрузить в DataCrafter [6] или лучше работать только с первоисточниками.

Архив данных этого и других порталов данных мы также сохраняем в рамках Национального цифрового архива [7] и он будет сохранён и доступен для выгрузки.

Если есть желающие изучать все скачанные данные уже сейчас, я выложу слепок данных с портала для выгрузки и объясню как данные выгружались и как с ними можно работать. Напишите если он Вам нужен, я пришлю ссылки пока индивидуально, а как только поместим в архивное хранилище то будет доступно всем.

Ссылки:
[1] https://data.gov.ru
[2] https://data.gov.ru/opendata/7707329152-fias
[3] https://fias.nalog.ru
[4] https://data.gov.ru/opendata/7705513068-CitizensRequest
[5] https://data.gov.ru/opendata/7730176610-p5statimpvajneytov
[6] https://data.apicrafter.ru

#opendata #dataportals #russia #datasets #datagovru
Для тех кто думает про инструменты трансформации данных и не готов/не хочет/не может использовать Dbt и подход ELT есть немало инструментов с открытым кодом, как ручных, так и автоматизированных.

- Optimus [1] библиотека для универсализации преобразования данных через Python, интегрированная с Pandas, Dusk и другими инструментами. Для тех кто выстраивает цепочки изменений на Python может быть очень удобна. Ни разу не пробовал, но выглядит любопытно.
- Glom [2] библиотека и инструмент на Python по работе с вложенными структурами. Позволяет делать выборки по словарям в Python, что особенно удобно при работе с данными со вложенными структурами, например, JSON и JSON lines файлам. От себя скажу что я вот про Glom не знал и в утилитах вроде undatum и внутри сборщика данных DataCrafter'а те же функции и логику приходилось реализовывать самостоятельно.
- OpenRefine [3] продукт для ручного преобразования и чистки данных, удобный, один из лучших способов чистить данные не покупая тяжелые решения. Умеет применять скрипты на Python и паре других языков к колонкам файлов.
- Apache Nifi [4] активно развивающийся low-code ETL с возможностью визуального проектирования пути обработки файлов и потоков. Nifi можно сравнить с другим проектом Apache, Airflow, но Airflow именно про оркестрацию потоков данных, а Nifi более похоже на классический ETL инструмент.
- Streamsets Data Collector [5] тоже ETL инструмент, похожий на Apache Nifi, подвид коммерческого облачного продукта и неизвестно сколько проживёт его open source версия. Например, CloverDX раньше тоже давали версию Community Edition своего продукта, а потом просто удалили её и всем сказали "идите в наше облако с 45 дневным триалом", а все пошли на другие open source ETL инструменты (ну не все, но многие). Тоже поддерживает преобразование данных и low-code интерфейс.

Ну а в реальной жизни на относительно небольших проектах, где нет нескольких разных команд стыкующихся между собой, чаще всего для преобразования данных используют:
- скрипты на Python и др. языках
- ручные преобразования через Jupiter Notebook и другие тетрадки
- встроенные механизмы: Javascript внутри MongoDB, Spark и др.
- корпоративные коммерческие ETL инструменты, если они ранее были закуплены

и тому подобное. Из того что я вижу в существующей экосистеме, это нехватка инструментов вроде dbt, но для NoSQL. Для NoSQL такое создать куда сложнее, нет одного протокола, стандарта формата, но сейчас получается что массовая популяризация dbt, а она реально как-то уж очень быстро идёт, оставляет NoSQL базы за пределами Modern Data Stack. То есть ELT инструментов для NoSQL баз нет, использовать то же MongoDB в качестве основаного Data warehouse (хранилища данных) можно только разрабатывая многое самостоятельно.

Поэтому рынок именно трансформации данных далеко не заполнен, а вот рынок извлечения данных и оркестрации кажется уже сильно переполненным.

Ссылки:
[1] https://hi-optimus.com/
[2] https://github.com/mahmoud/glom
[3] https://openrefine.org/
[4] https://nifi.apache.org/
[5] https://github.com/streamsets/datacollector-oss

#datatools #datatransformation #opensource
Список сайтов с бесплатным доступом появился на Госуслугах [1].

Пока скромно, нет даже сайта Пр-ва РФ.

Я правда так и не понял как предполагается указывать все зависимости сайта от CDN и хранилищ кода и контента. У Госуслуг - это gu-st.ru, а у сайта Пр-та это static.kremlin.ru.
У других сайтов их куда больше и много там разного.

Как это будут решать, каждый раз ручками вносить в каталог сайтов, сообщать провайдерам и тд?
Какова процедура, в общем?


Ссылки:
[1] https://freeinternet.gosuslugi.ru/

#internet #digital
Я каждый год подсчитываю и обновляю полуавтоматически цифры по числу постановлений и распоряжений Правительства РФ, они измеряют legislative burden, нормативную нагрузку. Неприятный факт - она растёт и усложняется. Каждый год приходится читать всё больше, старое не отменяется, нового всё больше. Поскольку читаю законов и других НПА я много, объективно с каждым годом делать это всё тяжелее. Заметно тяжелее. Вот некоторые цифры и выводы

В 2014 году было принято 1610 Постановлений Правительства РФ из которых 1498 были несекретными, около 93% всех постановлений. Общий объём принятых постановлений составил 18503 страницы.
В 2021 году было принято 2610 Постановлений Правительства РФ из которых 2397 были несекретными, около 91,8% всех постановлений. Общий объем принятых постановлений составил 34440 страниц.
Резкий рост начался ещё при Правительстве Медведева в 2019 году когда число Постановлений Правительства РФ достигло 1960 и их объём достиг 24844 страниц, далее в 2020 году 2469 постановления и 27430 страниц и за 2021 год я уже приводил.

В виде таблицы по Постановлениям Правительства РФ:

год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 1498 18503 1610 93.0435
2015 1398 13351 1538 90.8973
2016 1450 12660 1593 91.0232
2017 1570 20011 1729 90.8039
2018 1601 17165 1788 89.5414
2019 1807 24844 1960 92.1939
2020 2284 27430 2469 92.5071
2021 2397 34440 2610 91.8391

В случае распоряжений Правительства РФ, их число снижалось с 2015 по 2018 годы и выросло с 2019 по 2021 год. Распоряжения редко содержат много текста, чаще это 1-2 страницы, хотя есть и распоряжение на 522 страницы: Распоряжение Правительства Российской Федерации от 28.11.2020 № 3143-р в виде перечня современных технологий для специальных инвестиционных контрактов. А также, что характерно, в 2021 году рекорд по доле секретных распоряжение Пр-ва, их доля достигла 24.5% то есть почти каждое 4-е распоряжение Пр-ва РФ было засекречено, всего 981 распоряжение, против 683 в прошлом году.

Аналогичная таблица для Распоряжений Правительства РФ
год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 2235 10900 2796 79.9356
2015 2223 9819 2794 79.5634
2016 2240 8291 2935 76.3203
2017 2293 8754 3009 76.2047
2018 2402 8534 3053 78.6767
2019 2535 9424 3273 77.4519
2020 3039 10916 3722 81.6497
2021 3027 12034 4008 75.524

Все эти подсчеты на данных собранных с портала официального опубликования Pravo.gov.ru [1] за период 2013-2022 годы и загружаемых в проект DataCrafter [2] и подготавливаемых к архивации в рамках Национального цифрового архива.

Нормативная аналитика - это интересная задача и для этого мы накапливает наборы данных и практики их анализа.
Напишите если Вы хотите работать с этими данными уже прямо сейчас, датасеты из метаданных и документов будут общедоступны.

Ссылки:
[1] https://pravo.gov.ru
[2] https://data.apicrafter.ru

#opendata #data #statistics #legislation #legistationburden
Один важный и очевидный продукт за отсутствие которого можно и нужно критиковать Минцифры России, как и вообще критиковать чаще за то что _не делается_ чем то что делается, это отсутствие портала api.gov.ru. Кто-то скажет что есть СМЭВ, что делается НСУД, а по факту СМЭВ и НСУД для государственного внутреннего потребления с некоторым доступом крупному бизнесу.

В то время есть огромное число API которое торчит из госсайтов и официальных государственных информационных систем, чаще всего API недокументированного. Это создаёт проблемы при архивации госсайтов, потому что API не архивируются веб-краулерами, но даёт возможности по выгрузке данных. Для архивации в нацархив я сделал когда-то утилиту APIBackuper которая помогает превращать данные из API в наборы данных.

А примеры такого API собраны в коллекции документации на Postman [1] где можно найти примеры API на сайте Пр-ва Москвы, статистики госзакупок, сайте Госуслуг, портала Электронный бюджет, портала bus.gov.ru, портала pravo.gov.ru и так далее. Это примеры, а в реальности документированных и недокументированных API десятки.

Собственно я не раз уже писал что большой объём данных в DataCrafter'е выгружен через такие открытые API. Причём API нужны чаще бизнесу чем рядовым гражданам, но как-то вот нет ощущения что с доступность данных для бизнеса в повестке государства. Так что приходится собираться информацию самостоятельно, а на появление api.gov.ru пока не рассчитывать.

А вот у французов на api.gouv.fr уже собрано 112 государственных API [2] и они даже документированы и протестировать можно прямо на месте. То есть можно, если захотеть?

Ссылки:
[1] https://www.postman.com/infoculture/workspace/infoculture-public/documentation/1428203-a769e0a6-0cc9-4de4-bdcc-5f8a0fa06e36
[2] https://api.gouv.fr/rechercher-api

#openapi #opendata #government #api
Интересный свежий стартап с открытым кодом Jitsu [1] создают открытую и облачную альтернативу Segment, продукту по отслеживанию любого действия пользователя, сбора маркетинговых данных и т.д. У Jitsu достоинство в первую очередь в том что можно развернуть у себя бесплатную и открытую версию. Внутри всё на Javascript и на Go, на удивление нет нигде Python и SQL, даже преобразование данных и то на Javascript [2] хотя в облачную версию добавили интеграцию с dbt [3]

Другая особенность - обещают реальное время при сборе данных, в отличие от Segment которые, как указывается в сравнении на сайте Jitsu, грузят данные 6 часовыми батчами.

При этом многие (большая часть) источников данных подключаются через Airbyte [4] или по стандарту Singer [5], а то есть источников много по умолчанию.

У проекта основатели с российскими корнями, недавно они привлекли $2M венчурного финансирования и есть надежда что проект получит интересное развитие.

Ссылки:
[1] https://jitsu.com
[2] https://jitsu.com/docs/configuration/javascript-transform
[3] https://jitsu.com/docs/other-features/dbt-cloud-integration
[4] https://jitsu.com/docs/sources-configuration/airbyte
[5] https://jitsu.com/docs/sources-configuration/singer-taps

#datacollection #statups #dataextraction
The Economics of Data Businesses [1] полезный текст от Abraham Thomas о том как устроен внутри бизнес основанный на данных продуктами которого являются дата-продукты. Если ещё проще, то это ответ на вопрос "чем живут те кто торгуют данными?". Текст включает много инсайтов и полезных мыслей для тех, так что могу его порекомендовать всем кто изучает этот рынок.

Автор известен как основатель Quandl, стартапа по агрегации альтернативных данных купленного Nasdaq. Так что его мнение о продуктах на данных более чем обосновано.

В России, кстати, очень много тех кто пытается создавать дата-продукты. Системы проверки контрагентов такие как делает Интерфакс, нормативно-справочные системы вроде Консультанта и Гаранта и др. Рынки правда устроены так что первые/лидеры если не совершают грубых ошибок то со временем накапливают критическую массу данных (преимущества) которую новичкам надо компенсировать другими возможностями.

Ссылки:
[1] https://pivotal.substack.com/p/economics-of-data-biz

#databusiness #reading
Не могу не поделиться прекрасным опросом из циничного телешрам канала.
Рубрика "Циничный метаопрос"
Пришло время поговорить о метавселенных. Что вы думаете по поводу этой новой модной шизофрении? В контексте цифровой трансформации и вот этого вот всего, конечно.
Допускаются метаварианты ответов
Anonymous Poll
9%
Сквозь бури и штормы цифровых трансформаций - к светлой метавселенной будущего! Таков истинный путь!
7%
Мы все - аватары в метавселенной внеземного разума! Просто, как все аватары мы не осознаем этого
32%
Нам срочно нужно Министерство строительства метавселенных - Минметаверсстрой. И Росметаверснадзор
26%
Без создания ГИС "Реестр метавселенных" даже говорить не о чем. И без метадатасетов для мета-ИИ
28%
В каждом министерстве нужно назначить зама по метавселенным. И сформировать метавселенский спецназ
15%
А Центр метакомпетенций по метавселенным в Метааналитическом центре будем создавать?
15%
А кто метаметодологию создания метавселенных писать будет? Метаэксперты из МетаНИИ "МетаРасход"?
19%
Нужно подождать, пока Сбер построит свою метавселенную, а потом просто купить ее за бюджетные деньги
11%
Затея без шансов. Минфин денег не даст. Скажет - "На игрушки бюджета нету!"
31%
Этот опрос - просто какой-то метацинизм!
Для тех кто хочет самостоятельно изучить содержание федерального портала открытых данных data.gov.ru, его слепок выложен в промежуточное хранилище Национального цифрового архива (ruarxive.org).

Размер слепка 15GB, внутри метаданные полученные экспортом в CSV формате и для каждого пакета данных отдельная директория внутри которых файл files.jsonl с метаданными каждого выгруженного файла этого набора данных название файла, расширение, формат и размер. А в папке files внутри пакета сами сохранённые файлы этого набора данных.

Ограничения:
- в метаданных нередко форматы указаны неверно и в итоге файл может иметь расширение XML, а внутри это ZIP. Не удивляйтесь, просто будьте к этому готовы, это особенность первоисточника
- часть источников данных уже недоступны и не все файлы скачались. Пока не проверяли сколько да, сколько нет, но скорее не так много.
- часть источников данных сменили сайты и ссылки и вместо файлов с данными там HTML страницы. Это надо проверять по каждому файлу, пока такой проверки не проводили. Это скорее редкость, но вот у ФТС (таможни) все наборы данных в таком состоянии.

Файл пока в промежуточном хранилище с ограниченным трафиком, поэтому если хотите с этими данными поработать прямо сейчас, напишите, мне лично @ibegtin или в чат @begtinchat я дам прямую ссылку. Окончательный дамп с описанием и ссылкой на облачное хранилище будет на нашем общественном портале открытых данных hubofdata.ru, он сейчас используется для ведения метаданных и ссылок цифрового архива сайтов.

Я также напоминаю что если Вы знаете какие-либо большие общественно значимые веб сайты находящиеся под угрозой исчезновения целиком или частично, пишите мне на [email protected], мы поставим его на обязательную архивацию.

#opendata #datasets
Кстати, не могу не похвастаться, что более всего из всех площадок где я что-либо писал, получалось на Quora, англоязычной площадке вопросов и ответов. Я там был особенно активен в 2016-2017 годах [1] и до сих пор мои ответы смотрят по 2000 просмотров в неделю, в общем-то там и потребление контента не новостное с резким всплеском, а постоянное.

В последние годы как-то стало больше других дел, но в целом приятно что всё ещё читают.

А Quora неплохой источник не только ответов, но и ссылок на разного рода продукты/проекты в области открытости и данных.

Ссылки:
[1] https://www.quora.com/profile/Begtin-Ivan

#quora #reading #data
Знаете ли Вы что в каталоге нормативных документов Минюста РФ [1] сложно/затруднено искать документы Минцифры РФ? В перечне принявших органов в разделе "Нормативные правовые акты федеральных органов исполнительной власти" Минцифры нет в списке (может и ещё чего нет, всё не проверял). По органу власти невозможно найти документы.

Хотя по ключевым словам "цифровой" или "цифрового" в названии документа некоторые документы находятся, около 60. В общем выгрузить или получить все документы Минцифры из системы Минюста нельзя. Интересно почему?

Приходится смотреть в других местах и сетовать что в России нет единой нормальной системы НПА.

Ссылки:
[1] https://pravo-search.minjust.ru:8080/bigs/portal.html

#legalit #government #data #laws
Продолжая вчерашний пост про засекречивание распоряжений Правительства, публикую диаграмму выпуска приказов Минцифры. Если в Правительстве число "закрытых" (непубличных, ДСП...) распоряжений было на уровне 8-9% с тенденцией к росту, то в Минцифре открытых приказов всего... 6%. Остальные 94% - ДСПшные и иные ограниченного распространения документы. А вы говорите открытость...

PS. Спасибо Ивану Бегтину за предоставленные цифры
В 2020 году Норвежский потребительский совет выпустил исследование о том как дейтинговые приложения собирают персональные данные и торгуют ими [1]. Несмотря на то что представители компаний всегда утверждали что это обезличенные данные, это оказалось не совсем так, и некоторые из них получили штрафы. Так штраф в $11,7M был наложен на компанию создавшую приложение Grindr для знакомства людей нетрадиционной ориентации.

А полгода назад случилась весьма показательная история с высокопоставленным католическим священником, монсеньёром Jeffrey Burrill, в США. Католическое издание The Pillar провело расследование включавшее покупку данных у одного из брокеров данных (его имя они не называют), но называют изначальный источник данных и это как раз приложение Grindr. Издание сопоставило анонимизированные данные пользователей и идентифицировало именно Jeffrey Burill как посетителя многочисленных гей-баров. В исследовании особенно подчеркивается легальность получения этих данных в США. Обо всём этом написали Washington Post [2], уже после того как священник подал в отставку, а The Pillar многие обвинили в скандальных методах проникновения в частную жизнь о чём они даже написали пространный текст объяснения баланса личной жизни, общественного интереса и их позицию [3].

Процесс определения человека по анонимизированным данным называется повторной идентификацией (data re-identification). Об этом явлении хорошая статья в Википедии [4]. В некоторых странах, например, в Австралии даже пытались законодательно ввести уголовное преследование за повторную идентификацию [5], но законопроект тогда не прошёл.

На сайте The Markup в статье 2020 г. When Is Anonymous Not Really Anonymous? [6] та же проблема описывается с большим числом примеров. Например, одно из исследований показало что 87% жителей США можно идентифицировать по полу, дате рождения и почтовому индексу.

Всё это о том что утечки "анонимизированных данных" или раскрытие государством анонимизированных данных о людях не даёт гарантии невозможности повторной идентификации, возможности обогащения данных, особенно ранее полученных незаконными способами и последующего нанесения людям ущерба.

А история вроде истории католического священника показывает что и без государства и без сливов данных, часто жизнь человека может зависеть от того какими приложениями он пользуется и кому его данные продаются.

Ссылки:
[1] https://fil.forbrukerradet.no/wp-content/uploads/2020/01/mnemonic-security-test-report-v1.0.pdf
[2] https://www.washingtonpost.com/technology/2021/07/22/data-phones-leaks-church/
[3] https://twitter.com/jdflynn/status/1417872232420974592/photo/1
[4] https://en.wikipedia.org/wiki/Data_re-identification#Examples_of_de-anonymization
[5] https://www.aph.gov.au/Parliamentary_Business/Bills_Legislation/bd/bd1617a/17bd055
[6] https://themarkup.org/ask-the-markup/2020/03/24/when-is-anonymous-not-really-anonymous

#privacy #anonymity #mobileapps #stories
В рубрике интересных наборов данных The World Loanword Database (WOLD) [1] в виде базы заимствованных слов. Создатели из Института эволюционной антропологии им. Макса Планка собрали базу слов которые одни языки заимствуют из других на основе 41 источника публикаций исследователей лингвистов. В основном в базе слова заимствованные небольшими и вымирающими языками из языков более распространённых, но для специалистов в лингвистике и это может быть интересно. Общий объёмы базы невелик, около 3.5 мегабайт в ZIP архиве и 15 МБ в распакованном виде.

У Института им. Макса Планка есть плеяда проектов по компьютерной лингвистике с открытыми данными [3] включая такие проекты как: The World Atlas of Language Structures, Glottolog, Tsammalex, Dictionaria и многие другие. Во всех случаях данные публикуются, либо на сайте проекта, либо на портале Zenodo.

Ссылки:
[1] https://wold.clld.org/
[2] https://wold.clld.org/download
[3] https://clld.org/

#opendata #data #openaccess #liguistic
Профессор Albert Sanchez-Graells в заметке Let’s get real about AI’s potential to end corruption in procurement [1] пишет о применении ИИ для выявления коррупции при госзакупках, ссылается на его же статью Procurement Corruption and Artificial Intelligence: Between the Potential of Enabling Data Architectures and the Constraints of Due Process Requirements [2] и обозначает ограничения у алгоритмов ИИ, в первую очередь ограничениях в данных, их качестве, доступности ретроспективных данных и их оцифровке и юридических сложностях.

Заметка и научная статья весьма полезные с системной точки зрения автоматизации анализа госрасходов и того что в зарубежной практике называют Red Flags. критерии определения рисков связанных с госрасходами, обычно договорами и контрактами.

Здесь важно помнить что кроме чисто технических проблем, вроде доступности и стандартизации данных, есть проблемы этические и политические. Этические в том что огульные обвинения в коррупции, от ИИ, могут подорвать репутацию вполне приличных людей и компаний, на самом деле ничего не нарушавших, а политические в том что ИИ может автоматически выявить то что человек побоится.

Лично я практически прекратил расследования на базе госконтрактов, но не от того что нарушений или подозрений стало меньше, а от того что это журналистская деятельность, а уже выросла плеяда дата-журналистов научившихся работать с официальными источниками данных. Хотя, конечно, мало что от расследовательской журналистики в России сейчас остаётся.

Но есть важные особенности. Алгоритмические системы определения нарушений хорошо работают при грамотно спроектированной и работающей системе закупок, а российская система по 44-ФЗ и частично по 223-ФЗ не про качество работы, а про модель гарантированного наличия нарушений у госзаказчиков. Когда сама система выстроена так что, вне зависимости, честные ли госзаказчик и поставщик или коррумпированные, и так и так совершают одни и те же нарушения, то система анализа от формальных нарушений начинает давать сбои.

Об этом я могу говорить и писать ещё долго, в последние годы тема госфинансов меня интересует скорее с точки зрения сбора данных. И в качестве небольшой рекламы я добавлю что мы поддерживаем общественный проект Госрасходы (clearspending.ru) с данным госконтрактов, наша команда создавала и продолжает поддерживать проект Счетной палаты Госрасходы (spending.gov.ru), вернее я покинул СП, а команда продолжает его развивать.

А также у нас есть коммерческий проект APICrafter.ru где можно подключиться к данным системы госзакупок России через API и с коммерческой поддержкой. Это уже не только данные о госконтрактах, но также данные по поставщикам, заказчикам, планам закупок, закупкам, отчетам и всем остальным сведениям.

А в каталоге DataCrafter (data.apicrafter.ru) в том числе есть архивные данные контрактов, сведения из региональных систем закупок и сопутствующие данные.

Ссылки:
[1] https://www.open-contracting.org/2022/01/20/lets-get-real-about-ais-potential-to-end-corruption-in-procurement/
[2] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3952665

#opendata #procurement #ai
Как государства предоставляют данные и сервисы бизнесу? Через систематизированные каталоги API. Эти каталоги иногда интегрированы в порталы открытых данных, но чаще создаются отдельно потому что доступ через API почти всегда требует авторизации и удобного интерфейса тестирования и документации.

Такие каталоги API есть во многих странах, кроме Франции и портала api.gouv.fr который я ранее упоминал, они также есть:
- В Индии API Setu apisetu.gov.in [1] - 1343 точки подключения всех уровней власти
- В Бразилии Catálogo de APIs Governamentais www.gov.br/conecta/catalogo [2] - более 40 точек подключения
- В США API Data api.data.gov [3] - сотни API по единому ключу
- В Великобритании api.gov.uk [4] более 70 API на едином портале
- В Австралии api.gov.au [5] доступно 16 API

И так далее. Это список именно национальных каталогов API, а ещё много отдельных API для доступа к конкретным данным.
Предоставление API это взаимодействие властей с цифровым бизнесом, например, перепись США доступна через API и многие сервисы обогащения данных в США используют его для получения данных в реальном времени.

Ссылки:
[1] https://apisetu.gov.in/
[2] https://www.gov.br/conecta/catalogo/
[3] https://api.data.gov/
[4] https://www.api.gov.uk
[5] https://api.gov.au

#opendata #openapi #api #government