Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных проектов на данных, о данных, публикующих данные Open Terms Archive [1] архив условий использования в виде коллекций условий использования, API, наборов данных и метаданных.

Включает такие коллекции как:
- Generative AI
- Platform Governance Archive
- P2B Compliance
- France Élections
- Dating
- France
- Contrib

Все коллекции хранятся на Github'е с автоматическим отслеживанием изменений и хранением всех версий в Git.

Проект отмеченный на многих международных площадках и даже зарегистрированный как Digital Public Good

Ссылки:
[1] https://opentermsarchive.org
[2] https://github.com/OpenTermsArchive

#datasets #opendata #opensource #terms #privacy #bigtech
В том что касается всеобщей сдачи бизнесом персональных данных государству всё идет по пессимистичному сценарию, в Ведомостях статья (жаль под пэйволом) [1], о том что крупный бизнес будет обезличивать данные сам, малый бизнес будет обязан сдавать данные о клиентах на обезличивание в принудительном порядке, а заниматься всем этим обезличивание будет НИИ Восход (подвед Минцифры РФ). Я не удивлюсь что после этого сам НИИ Восход переведут какой-то из закрытых городов или ядерных бункеров, сотрудникам запретят выезд за пределы места проживания и работы и запретят доступ в интернет плюс ещё что-то из этого. Потому что такая сверхконцентрация персональных данных - это, ммм, просто вкусняшка для всех хакеров, инсайдеров и пробивщиков. В общем я ребятам не завидую вообще ни в каком виде.

Но дело не только в этом. Хотя всё пока и выглядит так что крупный бизнес смог увернуться от принудительной сдачи данных, радоваться не стоит.
Во первых история знает слишком много случаев когда поправки в законы ужесточающие нормы принимаются быстро и почти скрыто, будучи спрятанными в совершенно не связанные законопроекты.
Во вторых ничто не помешает регуляторам вводить ограничения и против крупняка, обосновав, например, крупной утечкой данных. Особенно если компания негосударственная и регулятору её надо о чём то просить, а не просто приказать.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2023/12/05/1009333-mintsifri-predusmotrelo-dva-varianta-dlya-obezlichivaniya-personalnih-dannih

#privacy #data #regulation #laws #russia
В рубрике как это устроено у них и о разнице между подходами к регулированию деперсонализации данных в Евросоюзе и в России.

Amnesia [1] продукт с открытым кодом [2] в рамках европейского проекта OpenAIRE позволяет анонимизировать научные данные прежде чем их публиковать в научных репозиториях.

Базовый сценарией его применения:
1. Скачать код или дистрибутив к себе локально во внутреннюю сеть или рабочий компьютер.
2. Запустить Amnesia
3. Выбрать режим анонимизации
4. Проделать все необходимые операции по деперсонализации данных.

Работает только с табличными данными вроде TXT и CSV, имеет API, может использоваться как исследователями лично, так и лабораториями, интегрирован с Zenodo и Dataverse.

Финансируется в рамках European Union's Horizon 2020 Research and Innovation programme.

Всё это к вопросу о том что если бы российское Минцифры реально хотело бы получить анонимизированные данные для ИИ, то могло бы выдать гранты на создание продуктов на открытом коде или дать субсидии коммерческим компаниям /стартапам в рамках ФСИ на создание таких коммерческих продуктов, а не централизованно собирать персональные данные от бизнеса и внутри этого оператора эти данные анонимизировать.

Всё это к тому что есть другие решения, гораздо более безопасные. А от решения по централизации всех персональных данных в России выиграют только спецслужбы, продающие перс. данные инсайдеры и хакеры которые через инсайдеров эти данные получат.

Ссылки:
[1] https://amnesia.openaire.eu/
[2] https://github.com/dTsitsigkos/Amnesia

#privacy #opensource #eu #regulation
Подводить итоги 2023 года сложно, можно коротко описать как "ещё один плохой год", а я попробую себя в жанре предсказаний на 2024 г.:
1. Всё что касается регулирования интернета, данных и ИТ в целом будет ухудшаться в мире. Цензура в авторитарных странах продолжит ужесточаться вплоть до постепенному приходу к работе по белым спискам, а в демократических введут механизмы блокировок по аналогии с авторитарными режимами. Регулирование ИИ будет ужесточаться, но не в России, в России ключевые ИИ компании выторгуют, если ещё не выторговали, послабления, под страхами "потери лидерства", "утечки мозгов" и тд. Регулирование приватности и управления данными будет ухудшаться в России, в первую очередь из-за инициативы по централизованной деперсонализации данных госоператором.

2. Тема открытых данных в мире продолжится, основные данные будут раскрываться научными организациями. Открытый доступ (open access) продолжит своё развитие, в том числе в развивающихся странах. Фактически открытые научные данные будут везде где есть живая наука интегрированная в мировую. Но и основные другие инициативы никуда не исчезнут. Будет больше проектов связанных с доступностью данных машинного обучения.

3. Хайп вокруг ИИ продолжится и начнёт стихать только к концу 2024 года, когда станет понятно что все "сливки" снимут ограниченное число очень крупных игроков. Но для инвесторов сохранится приоритет на инвестиции в "поумневшие" сервисы, самого разного толка. Будет как минимум 2-3 крупных скандала вокруг ИИ игроков, регулирования, инвестиций и тд.

#opendata #predictions #2024 #ai #regulation #data #privacy
Микрофоны в туалетах начали устанавливать в Великобритании в некоторых школах [1] чтобы отслеживать вэйпинг и буллинг школьников. Сенсоры продает Triton Sensors [2]. Когда ключевое событие происходит то администрация школы автоматически уведомляется с помощью SMS.

Похожие сенсоры под брендом HALO Smart Sensors в США внедряет компания IPVideo (часть Motorola). Ими охвачено уже более 1500 школ.

Причём согласия родителей не требуют поскольку персональные данные не собираются, только предупреждения рассылаются администрации.

Интересно что дальше будет. Автоматические химические анализаторы в в унитазах и канализационных трубах для выявления наркотиков? Обязательные наручные бэнды для отслеживания уровня стресса? Есть некоторое ощущение что школы превращаются в анти-утопические центры образования.

Ссылки:
[1] https://schoolsweek.co.uk/schools-install-toilet-sensors-that-actively-listen-to-pupils/
[2] https://tritonsensors.com/3d-sense-pro/
[3] https://halodetect.com/

#privacy #security #schools
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]


Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/

#data #datatools #privacy #ml #opendata #ai
Отвлекаясь немного от темы данных и технологий.

В Испании Верховный суд постановил временно заблокировать Телеграм после жалобы группы "копирастов" из ведущих медиа компаний: Mediaset, Atresmedia, Movistar и Egeda на то что в Телеграм'е пиратят и не удаляют спираченный у них контент [1].

Не менее важна причина решения суда, главный аргумент в "недостаточной кооперации" со стороны руководства Телеграма, непонятно ли кооперация с кем, с властями страны или с владельцами контента.

В любом случае, блокировкой Телеграма, Испания присоединилась к клубу стран состоящему из Кубы, Ирана, Пакистана и Таиланда.

Что тут скажешь, пора испанцам перенимать иранский опыт по обходу блокировок соцсетей.

Ссылки:
[1] https://www.euronews.com/next/2024/03/23/spains-high-court-orders-block-on-telegram-messaging-app-as-a-precautionary-measure

#privacy #piracy #telegram
Я, в последнее время, реже пишу про тему приватности, но актуальности тема не теряет. Для тех кто интересуется этой темой в РФ, команда из Regional Privacy Professional Association (RPPA.pro) с мая месяца запускают курс по AI Governance [1] с акцентом на юридические аспекты разработки и применения AI решений.

Тем кто этой проблематикой интересуется, всячески рекомендую.

Ссылки:
[1] https://rppa.pro/training/aigovernance

#ai #privacy
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai
В рубрике закрытых данных в РФ Департамент транспорта Москвы ограничил доступ к реестру легковых такси [1], он доступен только с заполнение ГРЗ и вводом каптчи.

Ранее реестр такси был доступен в виде таблицы на сайте мэрии Москвы mos.ru

В отличие от других данных здесь меньше вероятность применения государственной цензуры и куда больше вероятность сокрытия персональных данных.

Причём произошло это примерно год назад.

Правда ещё есть реестр такси Московской области объединённый с реестром такси Москвы [2], но формально он реестром такси Москвы не является.

Что первично, раскрытие данных или приватность? В РФ до недавних пор было первое, в ЕС приватность чаще на первом месте.


Ссылки:
[1] https://transport.mos.ru/auto/reestr_taxi
[2] https://mtdi.mosreg.ru/taxi-cars

#opendata #closedata #taxi #moscow #moscowregion #privacy
У Михаила Емельяниникова в блоге публикация Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.

Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.

Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.

В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.

Чувствуете разницу?

В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.

Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".

#privacy #russia #regulation
На фоне "новости" о том что бигтехи следят за нами прослушивая микрофон непрерывно, не могу не напомнить про прекрасный проект https://trackthis.link/ по обману рекламодателей через открытие сотни табов в браузере. Там, правда, не было обновлений за 5 лет и часть открываемых ссылок уже протухли, но не все. Лично я регулярно пользуюсь профилем Doomsday Prepper и ни о чём не жалею!

#privacy #mozilla #humour
Отвлекаясь слегка от чисто технологических тем и чуть переключаясь на социальные аспекты технологий и не только и заодно про социальные рейтинги и то что к ним близко.

Оказывается, после 2016 года, попытки военного переворота в Турции правительство страны активно понижало кредитные/банковские рейтинги диссидентов, членов Движения Гюлена и Курдов.

Банки применяют две процедуры Know Your Customer (KYC) и Customer Due Diligence (CDD) для проверки своих клиентов и эти процедуры исключали многих диссидентов полностью из финансовой системы страны и закрытию их банковских счетов, как бы не про приказу правительства, а потому что банки считают их "опасными лицами причастными к терроризму".

Подробнее можно прочитать в оригинале Weaponizing Financial Systems Erdoğan's Transnational Repression to Muzzle Dissidents Abroad [1].

На мой взгляд слабая часть доклада - это упоминание ИИ и то что ИИ усиливает эти действия автоматически и алгоритмически применяя новые данные, без ручной проверки, рассматривая государственные публикации как легальный источник сведений.

Всё это к вопросу, например, о социальных рейтингах и тому подобному. Именно государства будут основными манипуляторами этих рейтингов.

Ссылки:
[1] https://www.institude.org/report/weaponizing-financial-systems-erdogans-transnational-repression-to-muzzle-dissidents-abroad

#privacy #ai #socialcreditsystems #turkey
Прекрасное чтение Watching the Watchdogs: Tracking SEC Inquiries using Geolocation Data [1] в виде научной статьи, но я перескажу простыми словами.

Если вкратце, то группа исследователей:
1) Нашли поставщика данных у которого они закупили данные по всем телефонам с которыми ходили люди в офисе комиссии по ценным бумагам в США (SEC) по своим офисам
2) Идентифицировали сотрудников из общего числа устройств,
3) Сопоставили множество геоданных, вплоть до шейпфайлов штабквартир публичных компаний
4) Определили когда сотрудники SEC приходили в эти офисы
5) Разобрали как SEC проверяет публичные компании и когда эта информация публична
6) Сопоставили проверки с изменениями стоимости ценных бумаг

И вуаля, так и хочется сказать, почему эти гении люди обо всём этом написали научную статью, вместо того чтобы существенно обогатится на полученных данных!

Многое бы бизнес во многих странах отдал бы за отслеживание того куда ходят налоговики, силовики, представители горных национальных республик и ещё много чего.

А статью рекомендую, жаль лишь что они источник данных не указывают.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4941708

#dataanalysis #research #privacy #geodata
Для тех кто интересуется темой приватности на русском языке, очень скоро состоится Eurasian Data Protection Congress [1] с большим числом выступлений и дискуссий о том что происходит с персональными данными в мире и в российском и белорусском контекстах.


Ссылки:
[1] https://edpc.network/

#privacy #events #personaldata #dataprotection
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику

Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims

#data #ai #privacy #statistics #readings
В Буэнос-Айресе в Аргентине судьи начали применять ИИ для подготовки судебных решений [1]. Специальная система PROMETEA обучена на на более чем 300 тысячах правилах и документах и за 20 секунд принимает решения с 90% точностью. При этом ни одно решение не принимается автоматически, каждое является черновиком который вычитывается юристом и только после его одобрения становится финальным решением.

Особенность в том что система применяется не для всех, а для многочисленные налоговых и административных разбирательств, которые, в основном, довольно стандартизируемы или предсказуемы. ИИ система является помощником судей, а не их заменителем.

И это поднимает вопрос о том к чему может привести и, с высокой вероятностью, приведет при внедрении ИИ в судебный процесс. Это массовые сокращения вспомогательного персонала в судах и изменение самого принципа работы судов. Хорошо это или плохо? Пока говорить рано.

А подробнее про систему PROMETEA можно прочитать в официальном отчете [2].

Ссылки:
[1] https://restofworld.org/2024/buenos-aires-courts-adopt-chatgpt-draft-rulings/
[2] https://mpfciudad.gob.ar//storage/archivos/9c8074a610f82c7ff0b47bbb1a2abee9.pdf

#ai #courts #argentina #privacy