Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных проектов на данных Open Syllabus [1] проект по сбору базы данных и визуализации информации о литературе для чтения рекомендуемой на курсах в университетах и колледжах. Огромный охват курсов по США, Великобритании и другим англосаксонским странам, в меньшей степени по странам Европы, а также довольно много по Японии, Тайваню и ряду других стран. Сразу скажу что из постсоветских стран там нет России, Туркменистана, Азербайджана, Таджикистана, остальные есть, но, как я понимаю, только в англоязычной их части и привязанные к англоязычным курсам.

В то же время проект очень наглядный, хорошо демонстрирующий влияние писателей и произведений на образование. Из российских писателей времен империи ожидаемо акцент на Достоевском.

Все источники открытые, явно немало ручной работы. Сам проект имеет открытый контур в виде базы, рейтингов, визуализаций и тд.

А монетизация идёт через сервис аналитики для методистов [2].


Ссылки:
[1] https://www.opensyllabus.org
[2] https://analytics.opensyllabus.org

#opendata #readings #texts #syllabus
Сегодня я выступал на EDPC [1] с темой Прозрачность политик приватности как необходимая часть политик компаний про то как ведущие компании ведут свои политики приватности и этики в открытом доступе. Частично выступление есть в моей презентации [2], а через какое-то время будут доступны и записи выступлений на сайте мероприятия.

У многих выступающих звучала явно или опосредовано мысль про ухудшение регулирования данных в России, кто-то говорил о том что "Россия и раньше не была нормальной юрисдикцией, а что уж говорить и сейчас", а я лично не устаю повторять что "акулы почуяли кровь" (с), регуляторы почувствовали безнаказанность и готовы жертвовать экономикой ради цензуры.

И тут, как будто неслучайно, появилась новость на РБК о поручении Президента РФ по переносу игр в доменную зону .ru/.рф [3]. А почему раньше глобальные игроки этого не делали? Может быть из-за изуверских российских законов в этой области? Может быть из-за свежих законов, постановлений Пр-ва и приказов служб и министерств усиливающих право госструктур на то чтобы залезать в любые данные любых компаний? Игровая индустрия в этом смысле глобальна, юрисдикции выбираются по критериям возможности приёма платежей (штат Делавэр в США или Сингапур), по адекватности регулирования работы с данными и по техническим возможностям (отклику при передаче данных), а также по цене инфраструктуры.

Но я скажу ещё и о другом. Российское регулирование в последние годы особенно сильно скатилось к модели "президент поручил" или "вот мы такое придумали". Теперь в его основе почти никогда нет заранее проведённого анализа, исследования, подкреплённых фактами обоснований, доводов за или против и тд. Есть лоббисты обладающие административным ресурсом протаскивающие любую ересь под соусом безумности контекста и есть госолигархия и госаппарат протаскивающие усиление государственного контроля.

Здесь хотелось бы добавить какой-то не слишком пессимистичный вывод, но оптимизма мало.

Ссылки:
[1] https://edpc.network
[2] https://www.beautiful.ai/player/-Nh7XHE3Ae2sXhVDyRZz
[3] https://www.rbc.ru/technology_and_media/19/10/2023/6531212f9a794737466a98ab

#privacy #personaldata #regulation
Прекрасная история преподавателя на Python у которого навсегда забанили аккаунт для рекламы его курсов на Facebook [1] предположив что курсы про Python и Pandas - это курсы про работу с живыми питонами и пандами. Причём сделали это даже после ревью его аккаунта который однозначно показывал что его владелец учит программированию за деньги, а не дрессирует диких животных.

Что интересно так это то что из текста можно узнать о том что Facebook придерживается политики удаления данных в течении 180 дней и поэтому когда через год он через знакомых в Facebook'е попросил узнать за что же его забанили и как разбанить, оказалось что этих сведений уже нет. Пожизненная блокировка есть, а обоснований её уже нет.

Эта история одна из многих побуждающих к дискуссии о том что глобальные монополии с их правилами могут быть даже хуже чем взаимодействие с госорганами, у них может напрочь отсутствовать механизм аппеляции, например.

Ссылки:
[1] https://lerner.co.il/2023/10/19/im-banned-for-life-from-advertising-on-meta-because-i-teach-python/

#python #stories #facebook
В рубрике интересных наборов данных United Nations Parallel Corpus [1] с одной стороны многим известный, а с другой, на удивление, далеко не всем.

Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.

В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.

Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.

Ссылки:
[1] https://conferences.unite.un.org/uncorpus

#opendata #un #datasets #languages #translation
Совершенно незаслуженно упущенный мной и ранее не упомянутый вызов/challenge по созданию 30 дневных карт, 30DayMapChallenge [1]. Он организован специально для самых упоротых упорных дизайнеров, проходит 30 дней с 1 по 30 ноября в течение которых необходимо каждый день публиковать карту на заданную тему: точки, линии, полигоны и так далее. Каждый день надо публиковать результат в социальных медиа с хэштегом #30DayMapChallenge

Весь проект - это частная инициатива Topi Tjukanov который проводит эти конкурсы с 2019 года. Можно посмотреть, например, на работы 2022 года [2].

Никаких призов нет, только фан и репутации в сообществе. Это крутой челлендж, с оценкой результатов по "лайкам" и "ретвитам". Потому что это вызов (challenge), а не конкурс

Правил там немного, главное из которых я бы выделил Don’t be an asshole. Для тех кто хочет самому(-ой) себе бросить вызов - это будет прекрасная возможность, попробовать свои навыки, а потом ещё и рассказать об этом по завершению.

Ссылки:
[1] https://30daymapchallenge.com
[2] https://30daymapchallenge.com/2022/

#gis #contests #challenges #geodata #opendata
По поводу ЦБ РФ и "закрытой комнаты" со статистикой [1], когда данные передаются исследователям внутри физически закрытой инфраструктуры - это совсем не новая идея.
Подобное достаточно давно есть во многих странах. Например, в Великобритании довольно давно существует служба UK Data Service [2] обеспечивающая доступ учёных к инфраструктуре данных имеющих "особую чувствительность", вплоть до персональных данных в некоторых случаях.

У службы есть три режима распространения данных [3]:
- открытые данные: свободные лицензии CC-BY или OGL и свободное скачивание
- защищённые данные: можно скачать после регистрации и соглашения со специальной лицензией
- контролируемые данные через SecureLab: Доступ к слишком подробным, деликатным или конфиденциальным данным осуществляется через SecureLab. После регистрации опытные исследователи могут подать заявку на доступ к контролируемым данным.

SecureLab - это специальное ПО и режим доступа к данным только с контролируемых рабочих мест, с полной записью процесса доступа к данным. Сессия пользователя записывается и сохраняется, на случай нарушения пользователем соглашения о доступе к данным. Данные нельзя скачивать, только сохранить результаты своего исследования.

В основном такой режим доступа распространяется на детальные данные переписей, опросов и детальных показателей по бизнесу. В UK многие индикаторы индивидуальные для компаний, в отличие, к примеру, от России, являются коммерческой тайной и доступны только при соблюдении определённых условий.

В чём важные характеристики UK Data Service:
1. Есть общий открытый общедоступный каталог данных где перечислены все наборы данных: открытые, закрытые, охраняемые [5]. Это означает что нет ситуации когда Вы не можете запросить данные просто поскольку не знаете о их существовании.
2. Даже закрытые данные доступные через SecureLab тщательно документированы и документация общедоступна [6]
3. К каждому набору данных приложены не только данные (для открытых данных или доступных после регистрации), но и результаты исследований на их основе [7]

Кроме Великобритании такая практика есть во многих странах, я бы даже сказал что почти во всех развитых странах, где-то это организованно системно, где-то на соглашениях исследовательских центров и статистических служб, центральных банков и тд.

Подобная практика является хорошей и допустимой при соблюдении баланса открытости и приватности, публикации документации, общедоступного каталога и при том что в закрытой части оказываются только, действительно, чувствительные данные.

Иначе говоря, если ЦБ РФ даст исследователям доступ к данным которые ранее не раскрывались и затрагивают коммерческую тайну или иные ограничения - это скорее хорошая практика, эти данные и не могли бы быть открытыми.

А если ЦБ РФ перенесёт в "закрытую комнату" ту статистику что они публикуют сейчас и она исчезнет из открытого доступа или резко сократится в объёме и детализации, то это будет исключительно плохим шагом для рынка, общества и так далее.

Поскольку подробностей пока нет, я лично не знаю какой сценарий тут предполагается.

Ссылки:
[1] https://www.vedomosti.ru/finance/articles/2023/10/24/1002303-tsb-sozdat-komnatu-s-zakritoi-statistikoi
[2] https://ukdataservice.ac.uk
[3] https://ukdataservice.ac.uk/find-data/access-conditions/
[4] https://ukdataservice.ac.uk/cd137-enduserlicence/
[5] https://beta.ukdataservice.ac.uk/datacatalogue/studies/?Search=#!?Search=&Rows=10&Sort=0&DateFrom=440&DateTo=2023&AccessFacet=Controlled&Page=1
[6] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/documentation
[7] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/resources

#opendata #banking #cbrf #data #datasets #datacatalogs
Data Provenance Explorer [1] большая инициатива по анализу, систематизации и аудиту наборов данных используемых для обучения больших языковых моделей.

В общей сложности более 1800 наборов данных с указанием их происхождения, лицензий, создателей, источников и других метаданных.

Проект является результатом написания одноимённой научной статьи The Data Provenance Initiative:
A Large Scale Audit of Dataset Licensing & Attribution in AI
[2] коллективом 18 авторов из разных академических и коммерческих организаций.

Статья не менее интересная и полезная и сама идея кажется очень правильной, заглянуть на то чём обучаются языковые модели и исправлять там где надо исправлять.

Ссылки:
[1] https://dataprovenance.org
[2] https://www.dataprovenance.org/paper.pdf

#opendata #datasets #ai #research #data
Кстати, а обратили ли вы внимание что англоязычные версии сайтов многих российских органов власти более не существуют или не обновляются? Например, у Минцифры РФ англоязычная версия не обновлялась с 2015 года [1], и ссылки с русскоязычной версии сайта на неё давно нет.

Но китайской версии тоже нет, или французской, например, хотя в Африке говорят в основном на английском и французском и это, типа, потенциально приоритетный рынок. Как и арабский язык, на котором тоже нет.

Вывода у меня из этого никакого нет, кроме того что большая часть разговоров про международные отношения у российских регуляторов с мировыми - это так, болтовня. Нет ничего такого или, настолько закрыто что можно не обращать внимание.

Ссылки:
[1] https://digital.gov.ru/en/

#government #regulation
В рубрике интересных наборов данных Платформа ИИ Минздрава РФ [1] с задачами и будущими конкурсами по теме ИИ на основе данных. Можно обратить внимание что пока Минцифры РФ уже который год пытается породить портал с данными для ИИ, а Минэкономразвития РФ ликвидировало портал открытых данных, у Минздрава вполне себе разумный по логике доступности и существования проект.

Пока там всего лишь 12 задач, с тем что первые задачи публиковались с ноября 2022 г. К каждой задаче есть датасеты и вполне себе немалого размера.

На этом хорошее всё, а теперь про плохое.
1. Для доступа к данным необходимо авторизовываться через Госуслуги
2. Одной авторизации недостаточно, регистрация лишь инициирует заявку на доступ которая рассматривается где-то внутри.
3. Кто реально за этой платформой стоит, кто за неё отвечает непонятно. Что странно, так не делают, людям которые делают такие проекты не должно быть стыдно за свою работу.
4. Вообще ничего нет про юридическую часть. Ни условий использования данных, ни их прослеживание, ни code of conduct и тд.
5. В разделе "Документы" к каждой задачи приведены ссылки на зарубежные исследования, а не исследования на основе этих данных.

В целом ощущения от инициативы что интенции может и хорошие, но думали про неё внутри Минздрава РФ мало и плохо.

Ссылки:
[1] https://ai.minzdrav.gov.ru

#data #datasets #russia #government #health
Можно сказать что в продолжение платформы данных для ИИ, о доступности данных. Посмотрим на ещё один пример, Правительство Москвы публикует так называемые "Московские датасеты" для обучения ИИ алгоритмов[1].

Чтобы получить доступ к ним надо заполнить форму заявки [2], можно увидеть её на скриншоте, а саму форму отправить по email'у на сайте.

Так вот знаете что здесь особенно выделяется? Ни один из наборов данных перечисленных в заявке не является, не то что деперсонализированными данными, но и даже конфиденциальными.

Почему, к примеру, доступ к данным метеостанций или о загрязнений почвы необходимо просить? Почему эти данные не публикуются как открытые данные на обновлённом портале открытых данных [3] вот в чём вопрос.

При том что у Правительства Москвы и его подчинённых структур порталов с данными много. Например, на портале сервисов ИИ для лучевой диагностики (mosmed.ai) [4] тоже публикуются наборы данных и куда более чувствительные чем данные метеостанций. Там публикуются данные прошедшие деперсонализацию и для их получения достаточно указать свой email.

Эти наборы данных тоже не открытые данные, но их открытость выше чем на Портале ИИ Москвы.

Итого налицо непоследовательная политика городских властей, ложащаяся в общий тренд закрытости и ограничения доступа к данным.


Ссылки:
[1] https://ai.mos.ru
[2] https://ai.mos.ru/datasets-access-form.pdf
[3] https://data-new.mos.ru
[4] https://mosmed.ai

#opendata #closeddata #russia #ai #moscow
Многие сейчас пишут о том что страны G7 приняли кодекс для разработчиков ИИ, не читайте советских газет (с), читайте первоисточники. Документ G7 это результат так называемого [1] the Hiroshima AI Process и оригиналы текстов на английском и японском языках на сайте МИД Японии [1]. Почему на японском языке? Потому что в 2023 году председателем G7 является Япония, у G8 изначально, и у G7 в итоге никогда не было отдельного сайта. Это неформальное объединение стран с ежегодной сменой председательства и под каждый год и каждое председательство создают отдельные сайты и публикуют анонсы на сайтах МИДов и Правительств входящих стран.

Полезно, также, почитать текст на сайте Еврокомиссии приветствующей это соглашение [2] и упоминающий что завершается подготовка EU AI Act [3].

Ссылки:
[1] https://www.mofa.go.jp/ecm/ec/page5e_000076.html
[2] https://ec.europa.eu/commission/presscorner/detail/en/ip_23_5379
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206

#ai #regulation #g7 #laws #ethics
Из любопытного на стыке приватности и ИИ, анализатор политик приватности, сервис Make Privacy Policies Understandable with the power of AI [1] на вход получает ссылку на политику приватности на английском языке, на выходе декомпозированные пункты того что в ней содержится.

Там есть некоторое число примеров, Tinder, Twitter, Vimeo, Github и другие, можно посмотреть их прямо на сайте.

Визуально выглядит пока что не очень и полнота разбора / перевода политик в понятный вид, тем не менее сервис даёт надежду на то что в будущем можно автоматизировать создание аналога ToSDR [2] с ИИ внутри.

Сам проект можно отнести к тем проектам LegalTech которые нацелены на то чтобы сократить потребность в юристах.


Ссылки:
[1] https://parsepolicy.com
[2] https://tosdr.org

#privacy #ai
Governing Urban Data for the Public Interest [1] свежий документ от команды The New Institute and the Free and Hanseatic City of Hamburg подготовленный в рамках инициативы The New Hanse (Новая Ганза) и посвящённый управлению данными и открытым данным в Гамбурге. Документ раскрывает темы Urban Data Platform (UDP) / Городской платформы данных (ГПД) и подход через посредников в работе с данными (data intermediaries).

Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.

Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.

В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.

Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/

#opendata #cities #europe #readings
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):

В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.iss.one/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.iss.one/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am

В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.

Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.

Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.

#opendata #russia #armenia #projects #digitalpreservation
В рубрике регулярного чтения про данные, технологии и не только:

Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.

Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage

Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.

Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.


Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en

#readings #opensource #data #datatools #ai #privacy