Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
По поводу ЦБ РФ и "закрытой комнаты" со статистикой [1], когда данные передаются исследователям внутри физически закрытой инфраструктуры - это совсем не новая идея.
Подобное достаточно давно есть во многих странах. Например, в Великобритании довольно давно существует служба UK Data Service [2] обеспечивающая доступ учёных к инфраструктуре данных имеющих "особую чувствительность", вплоть до персональных данных в некоторых случаях.

У службы есть три режима распространения данных [3]:
- открытые данные: свободные лицензии CC-BY или OGL и свободное скачивание
- защищённые данные: можно скачать после регистрации и соглашения со специальной лицензией
- контролируемые данные через SecureLab: Доступ к слишком подробным, деликатным или конфиденциальным данным осуществляется через SecureLab. После регистрации опытные исследователи могут подать заявку на доступ к контролируемым данным.

SecureLab - это специальное ПО и режим доступа к данным только с контролируемых рабочих мест, с полной записью процесса доступа к данным. Сессия пользователя записывается и сохраняется, на случай нарушения пользователем соглашения о доступе к данным. Данные нельзя скачивать, только сохранить результаты своего исследования.

В основном такой режим доступа распространяется на детальные данные переписей, опросов и детальных показателей по бизнесу. В UK многие индикаторы индивидуальные для компаний, в отличие, к примеру, от России, являются коммерческой тайной и доступны только при соблюдении определённых условий.

В чём важные характеристики UK Data Service:
1. Есть общий открытый общедоступный каталог данных где перечислены все наборы данных: открытые, закрытые, охраняемые [5]. Это означает что нет ситуации когда Вы не можете запросить данные просто поскольку не знаете о их существовании.
2. Даже закрытые данные доступные через SecureLab тщательно документированы и документация общедоступна [6]
3. К каждому набору данных приложены не только данные (для открытых данных или доступных после регистрации), но и результаты исследований на их основе [7]

Кроме Великобритании такая практика есть во многих странах, я бы даже сказал что почти во всех развитых странах, где-то это организованно системно, где-то на соглашениях исследовательских центров и статистических служб, центральных банков и тд.

Подобная практика является хорошей и допустимой при соблюдении баланса открытости и приватности, публикации документации, общедоступного каталога и при том что в закрытой части оказываются только, действительно, чувствительные данные.

Иначе говоря, если ЦБ РФ даст исследователям доступ к данным которые ранее не раскрывались и затрагивают коммерческую тайну или иные ограничения - это скорее хорошая практика, эти данные и не могли бы быть открытыми.

А если ЦБ РФ перенесёт в "закрытую комнату" ту статистику что они публикуют сейчас и она исчезнет из открытого доступа или резко сократится в объёме и детализации, то это будет исключительно плохим шагом для рынка, общества и так далее.

Поскольку подробностей пока нет, я лично не знаю какой сценарий тут предполагается.

Ссылки:
[1] https://www.vedomosti.ru/finance/articles/2023/10/24/1002303-tsb-sozdat-komnatu-s-zakritoi-statistikoi
[2] https://ukdataservice.ac.uk
[3] https://ukdataservice.ac.uk/find-data/access-conditions/
[4] https://ukdataservice.ac.uk/cd137-enduserlicence/
[5] https://beta.ukdataservice.ac.uk/datacatalogue/studies/?Search=#!?Search=&Rows=10&Sort=0&DateFrom=440&DateTo=2023&AccessFacet=Controlled&Page=1
[6] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/documentation
[7] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/resources

#opendata #banking #cbrf #data #datasets #datacatalogs
Data Provenance Explorer [1] большая инициатива по анализу, систематизации и аудиту наборов данных используемых для обучения больших языковых моделей.

В общей сложности более 1800 наборов данных с указанием их происхождения, лицензий, создателей, источников и других метаданных.

Проект является результатом написания одноимённой научной статьи The Data Provenance Initiative:
A Large Scale Audit of Dataset Licensing & Attribution in AI
[2] коллективом 18 авторов из разных академических и коммерческих организаций.

Статья не менее интересная и полезная и сама идея кажется очень правильной, заглянуть на то чём обучаются языковые модели и исправлять там где надо исправлять.

Ссылки:
[1] https://dataprovenance.org
[2] https://www.dataprovenance.org/paper.pdf

#opendata #datasets #ai #research #data
Кстати, а обратили ли вы внимание что англоязычные версии сайтов многих российских органов власти более не существуют или не обновляются? Например, у Минцифры РФ англоязычная версия не обновлялась с 2015 года [1], и ссылки с русскоязычной версии сайта на неё давно нет.

Но китайской версии тоже нет, или французской, например, хотя в Африке говорят в основном на английском и французском и это, типа, потенциально приоритетный рынок. Как и арабский язык, на котором тоже нет.

Вывода у меня из этого никакого нет, кроме того что большая часть разговоров про международные отношения у российских регуляторов с мировыми - это так, болтовня. Нет ничего такого или, настолько закрыто что можно не обращать внимание.

Ссылки:
[1] https://digital.gov.ru/en/

#government #regulation
В рубрике интересных наборов данных Платформа ИИ Минздрава РФ [1] с задачами и будущими конкурсами по теме ИИ на основе данных. Можно обратить внимание что пока Минцифры РФ уже который год пытается породить портал с данными для ИИ, а Минэкономразвития РФ ликвидировало портал открытых данных, у Минздрава вполне себе разумный по логике доступности и существования проект.

Пока там всего лишь 12 задач, с тем что первые задачи публиковались с ноября 2022 г. К каждой задаче есть датасеты и вполне себе немалого размера.

На этом хорошее всё, а теперь про плохое.
1. Для доступа к данным необходимо авторизовываться через Госуслуги
2. Одной авторизации недостаточно, регистрация лишь инициирует заявку на доступ которая рассматривается где-то внутри.
3. Кто реально за этой платформой стоит, кто за неё отвечает непонятно. Что странно, так не делают, людям которые делают такие проекты не должно быть стыдно за свою работу.
4. Вообще ничего нет про юридическую часть. Ни условий использования данных, ни их прослеживание, ни code of conduct и тд.
5. В разделе "Документы" к каждой задачи приведены ссылки на зарубежные исследования, а не исследования на основе этих данных.

В целом ощущения от инициативы что интенции может и хорошие, но думали про неё внутри Минздрава РФ мало и плохо.

Ссылки:
[1] https://ai.minzdrav.gov.ru

#data #datasets #russia #government #health
Можно сказать что в продолжение платформы данных для ИИ, о доступности данных. Посмотрим на ещё один пример, Правительство Москвы публикует так называемые "Московские датасеты" для обучения ИИ алгоритмов[1].

Чтобы получить доступ к ним надо заполнить форму заявки [2], можно увидеть её на скриншоте, а саму форму отправить по email'у на сайте.

Так вот знаете что здесь особенно выделяется? Ни один из наборов данных перечисленных в заявке не является, не то что деперсонализированными данными, но и даже конфиденциальными.

Почему, к примеру, доступ к данным метеостанций или о загрязнений почвы необходимо просить? Почему эти данные не публикуются как открытые данные на обновлённом портале открытых данных [3] вот в чём вопрос.

При том что у Правительства Москвы и его подчинённых структур порталов с данными много. Например, на портале сервисов ИИ для лучевой диагностики (mosmed.ai) [4] тоже публикуются наборы данных и куда более чувствительные чем данные метеостанций. Там публикуются данные прошедшие деперсонализацию и для их получения достаточно указать свой email.

Эти наборы данных тоже не открытые данные, но их открытость выше чем на Портале ИИ Москвы.

Итого налицо непоследовательная политика городских властей, ложащаяся в общий тренд закрытости и ограничения доступа к данным.


Ссылки:
[1] https://ai.mos.ru
[2] https://ai.mos.ru/datasets-access-form.pdf
[3] https://data-new.mos.ru
[4] https://mosmed.ai

#opendata #closeddata #russia #ai #moscow
Многие сейчас пишут о том что страны G7 приняли кодекс для разработчиков ИИ, не читайте советских газет (с), читайте первоисточники. Документ G7 это результат так называемого [1] the Hiroshima AI Process и оригиналы текстов на английском и японском языках на сайте МИД Японии [1]. Почему на японском языке? Потому что в 2023 году председателем G7 является Япония, у G8 изначально, и у G7 в итоге никогда не было отдельного сайта. Это неформальное объединение стран с ежегодной сменой председательства и под каждый год и каждое председательство создают отдельные сайты и публикуют анонсы на сайтах МИДов и Правительств входящих стран.

Полезно, также, почитать текст на сайте Еврокомиссии приветствующей это соглашение [2] и упоминающий что завершается подготовка EU AI Act [3].

Ссылки:
[1] https://www.mofa.go.jp/ecm/ec/page5e_000076.html
[2] https://ec.europa.eu/commission/presscorner/detail/en/ip_23_5379
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206

#ai #regulation #g7 #laws #ethics
Из любопытного на стыке приватности и ИИ, анализатор политик приватности, сервис Make Privacy Policies Understandable with the power of AI [1] на вход получает ссылку на политику приватности на английском языке, на выходе декомпозированные пункты того что в ней содержится.

Там есть некоторое число примеров, Tinder, Twitter, Vimeo, Github и другие, можно посмотреть их прямо на сайте.

Визуально выглядит пока что не очень и полнота разбора / перевода политик в понятный вид, тем не менее сервис даёт надежду на то что в будущем можно автоматизировать создание аналога ToSDR [2] с ИИ внутри.

Сам проект можно отнести к тем проектам LegalTech которые нацелены на то чтобы сократить потребность в юристах.


Ссылки:
[1] https://parsepolicy.com
[2] https://tosdr.org

#privacy #ai
Governing Urban Data for the Public Interest [1] свежий документ от команды The New Institute and the Free and Hanseatic City of Hamburg подготовленный в рамках инициативы The New Hanse (Новая Ганза) и посвящённый управлению данными и открытым данным в Гамбурге. Документ раскрывает темы Urban Data Platform (UDP) / Городской платформы данных (ГПД) и подход через посредников в работе с данными (data intermediaries).

Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.

Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.

В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.

Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/

#opendata #cities #europe #readings
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):

В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.iss.one/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.iss.one/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am

В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.

Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.

Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.

#opendata #russia #armenia #projects #digitalpreservation
В рубрике регулярного чтения про данные, технологии и не только:

Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.

Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage

Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.

Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.


Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en

#readings #opensource #data #datatools #ai #privacy
Команда исследователей из Microsoft и Github'а разместили препринт статьи Open Data on GitHub: Unlocking the Potential of AI [1], о том что на Github'е хостится порядка 800 миллионов файлов открытых данных общим объёмом около 142 терабайт.

Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.

Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.

В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.

Ссылки:
[1] https://arxiv.org/abs/2306.06191

#opendata #research #microsoft #github #readings
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.

Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194

#opendata #openaccess #research #science
У меня тут основательно поднакопилось "долгов" по написанию длинных текстов и пока в приоритете те что пишу не на публику, поэтому и пишу реже, а некоторые запланированные статьи/тексты пытаюсь переосмыслить и, иногда отказываться от них. Например, пока я начал писать серию заметок про корпоративные каталоги данных то чем больше думал про них тем больше приходил к выводам о том что "Если вам нужен корпоративный портал [мета]данных, то поставьте DataHub и не парьтесь (с)". Благо он с открытым кодом, но не без своих нюансов. Сравнивать платные глобальные продукты для большинства российских пользователей смысла нет, а open source продукты сейчас сводятся к DataHub или OpenMetadata. В итоге лонгрид не выходит, могу лишь напомнить про предыдущий текст Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно? [1] можно прочитать на Substack. Честно говоря я очень не люблю вот так останавливать мысль на полпути, поэтому может быть я к ней ещё и вернусь.

Другая тема про которую я думаю регулярно и которая просится в текст - это фрагментация сообществ по работе с данными и слабая их взаимосвязь. Вокруг открытости данных есть такие группы как:
- активисты/евангелисты/пользователи открытых государственных данных - open data community
- исследователи работающие с открытыми научными данными - open access / fair data community
- географы/геоинформатики/урбанисты и тд. работающие с геоданными - geodata community
- дата-инженеры и дата-сайентисты как правила из коммерческого сектора - data engineering and data science community
- статистики и социологи - statistics community
Все эти группы частично пересекаются, но куда меньше чем могли бы быть и ещё внутри них множество своих подгрупп и ещё какие-то сильно меньше/незаметнее.
Это не-пересечение и разный опыт приводит, например, к тому что когда я спрашиваю разработчиков некоторых национальных порталов с открытыми данными о том почему они дают экспорт в JSON и CSV, но, к примеру, не дают экспорта в форматы Parquet или Avro, то ответ всегда один и тот же: "А мы об этом даже не думали как-то".
Кроме того везде своя специфическая терминология, разные названия для одного и того же. В итоге всё выглядит как разные наборы ментальных установок часто приводящих к разному восприятию темы. Ранее упомянутый мной доклад The State of Open Data написан с сообщества исследователей, но за пределами этой среды Open Data - это несколько иное, если не по определению объектов наблюдения, то по логике существования тех кто этим живёт.

Ещё одно направление мыслей у меня было и частично есть для упаковки в текст - это вот эти вот все инициативы Минцифры в РФ по созданию портала с наборами данных для ИИ. Много умных мыслей я мог бы написать о том как это делают или стараются не-делать в мире, почему плохо организовывать авторизацию через ЕСИА и тд. Но всё в сводится к вопросу который, в приличном варианте, звучит как "А зачем это делается?". Если цель в практических результатах, то никакие порталы не нужны, нужно выкладывать данные для обучения ИИ на Kaggle и/или HuggingFace, а деньги тратить не на разработку софта, а на создание наборов данных. Если цель в развитии науки, то надо обязывать исследователей публиковать в открытом доступе данные на которых построены их выводы в их статьях и результаты публикации наборов данных измерять в числе статей в профильных научных журналах в которых используются эти наборы данных. Но, будем честными, заниматься в Минцифре РФ этому некому, а "Правительство - это просто группа людей, как правило, плохо организованных (с)".

Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1

#thoughts #data #opendata #texts #reflections
В рубрике как это устроено у них портал открытых данных Торонто [1], крупнейшего города Канады с численностью в 2.7 миллиона человек.

Портал построен на базе ПО каталога открытых данных CKAN поверх API которого сделан веб-интерфейс включающий дополнительные возможности такие как:
- отображение содержания набора данных
- отображение схемы/структуры данных
- метрики качества набора данных
- возможность выгрузки в разных форматах JSON/CSV/XML
- примеры кода для работы с API
- автоматизированная визуализация данных

Любопытная надстройка с открытым кодом [2].

Сам проект создан и развивается в рамках городского плана развития открытых данных [3] весьма детально описывающего стратегию города по публикации данных.

Ссылки:
[1] https://open.toronto.ca
[2] https://github.com/open-data-toronto/ckan-customization-open-data-toronto
[3] https://www.toronto.ca/legdocs/mmis/2018/ex/bgrd/backgroundfile-110740.pdf

#opendata #canada #datacatalogs