Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Полезные ссылки про данные, технологии и не только:
- Про автоматизированное видеонаблюдение на олимпиаде в Париже [1]. Под пэйволом, но в общем-то и так понятно что использует положение об экспериментах в законе об Олимпийских играх во Франции [2]
- Devin, the first AI software engineer [3] AI помощник для программистов от Cognition. Ключевая фишка - он лучше умеет самостоятельно решать Github Issues, успешно около 13.86%. Не учитесь дети на программистов, скоро они останутся без работы! Шутка, а не шутка то что джуниорам придётся нелегко.
- Grok от X.AI (Элон Маск) в открытом коде [4] пока оставлю без комментариев, пусть его потестят и расскажут те кто тестят GPT-подобные модели на регулярной основе
- Croissant: a metadata format for ML-ready datasets [5] стандарт метаданных для ML датасетов. Теперь поддерживается основными платформами Kaggle, HuggingFace и OpenML. Google обещают поддерживать его в Google Dataset Search. Подробнее в спецификации тут [6]


Ссылки:
[1] https://www.lemonde.fr/en/pixels/article/2024/03/03/paris-olympics-2024-testing-on-algorithmic-video-surveillance-of-the-games-begins_6580505_13.html
[2] https://www.lemonde.fr/en/sports/article/2023/04/13/paris-2024-french-parliament-approves-the-olympic-bill-and-its-video-surveillance-flagship-project_6022755_9.html
[3] https://twitter.com/cognition_labs/status/1767548763134964000
[4] https://github.com/xai-org/grok-1
[5] https://blog.research.google/2024/03/croissant-metadata-format-for-ml-ready.html
[6] https://mlcommons.org/working-groups/data/croissant/

#data #datatools #privacy #ml #opendata #ai
Отвлекаясь немного от темы данных и технологий.

В Испании Верховный суд постановил временно заблокировать Телеграм после жалобы группы "копирастов" из ведущих медиа компаний: Mediaset, Atresmedia, Movistar и Egeda на то что в Телеграм'е пиратят и не удаляют спираченный у них контент [1].

Не менее важна причина решения суда, главный аргумент в "недостаточной кооперации" со стороны руководства Телеграма, непонятно ли кооперация с кем, с властями страны или с владельцами контента.

В любом случае, блокировкой Телеграма, Испания присоединилась к клубу стран состоящему из Кубы, Ирана, Пакистана и Таиланда.

Что тут скажешь, пора испанцам перенимать иранский опыт по обходу блокировок соцсетей.

Ссылки:
[1] https://www.euronews.com/next/2024/03/23/spains-high-court-orders-block-on-telegram-messaging-app-as-a-precautionary-measure

#privacy #piracy #telegram
Я, в последнее время, реже пишу про тему приватности, но актуальности тема не теряет. Для тех кто интересуется этой темой в РФ, команда из Regional Privacy Professional Association (RPPA.pro) с мая месяца запускают курс по AI Governance [1] с акцентом на юридические аспекты разработки и применения AI решений.

Тем кто этой проблематикой интересуется, всячески рекомендую.

Ссылки:
[1] https://rppa.pro/training/aigovernance

#ai #privacy
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai
В рубрике закрытых данных в РФ Департамент транспорта Москвы ограничил доступ к реестру легковых такси [1], он доступен только с заполнение ГРЗ и вводом каптчи.

Ранее реестр такси был доступен в виде таблицы на сайте мэрии Москвы mos.ru

В отличие от других данных здесь меньше вероятность применения государственной цензуры и куда больше вероятность сокрытия персональных данных.

Причём произошло это примерно год назад.

Правда ещё есть реестр такси Московской области объединённый с реестром такси Москвы [2], но формально он реестром такси Москвы не является.

Что первично, раскрытие данных или приватность? В РФ до недавних пор было первое, в ЕС приватность чаще на первом месте.


Ссылки:
[1] https://transport.mos.ru/auto/reestr_taxi
[2] https://mtdi.mosreg.ru/taxi-cars

#opendata #closedata #taxi #moscow #moscowregion #privacy
У Михаила Емельяниникова в блоге публикация Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.

Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.

Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.

В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.

Чувствуете разницу?

В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.

Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".

#privacy #russia #regulation
На фоне "новости" о том что бигтехи следят за нами прослушивая микрофон непрерывно, не могу не напомнить про прекрасный проект https://trackthis.link/ по обману рекламодателей через открытие сотни табов в браузере. Там, правда, не было обновлений за 5 лет и часть открываемых ссылок уже протухли, но не все. Лично я регулярно пользуюсь профилем Doomsday Prepper и ни о чём не жалею!

#privacy #mozilla #humour
Отвлекаясь слегка от чисто технологических тем и чуть переключаясь на социальные аспекты технологий и не только и заодно про социальные рейтинги и то что к ним близко.

Оказывается, после 2016 года, попытки военного переворота в Турции правительство страны активно понижало кредитные/банковские рейтинги диссидентов, членов Движения Гюлена и Курдов.

Банки применяют две процедуры Know Your Customer (KYC) и Customer Due Diligence (CDD) для проверки своих клиентов и эти процедуры исключали многих диссидентов полностью из финансовой системы страны и закрытию их банковских счетов, как бы не про приказу правительства, а потому что банки считают их "опасными лицами причастными к терроризму".

Подробнее можно прочитать в оригинале Weaponizing Financial Systems Erdoğan's Transnational Repression to Muzzle Dissidents Abroad [1].

На мой взгляд слабая часть доклада - это упоминание ИИ и то что ИИ усиливает эти действия автоматически и алгоритмически применяя новые данные, без ручной проверки, рассматривая государственные публикации как легальный источник сведений.

Всё это к вопросу, например, о социальных рейтингах и тому подобному. Именно государства будут основными манипуляторами этих рейтингов.

Ссылки:
[1] https://www.institude.org/report/weaponizing-financial-systems-erdogans-transnational-repression-to-muzzle-dissidents-abroad

#privacy #ai #socialcreditsystems #turkey
Прекрасное чтение Watching the Watchdogs: Tracking SEC Inquiries using Geolocation Data [1] в виде научной статьи, но я перескажу простыми словами.

Если вкратце, то группа исследователей:
1) Нашли поставщика данных у которого они закупили данные по всем телефонам с которыми ходили люди в офисе комиссии по ценным бумагам в США (SEC) по своим офисам
2) Идентифицировали сотрудников из общего числа устройств,
3) Сопоставили множество геоданных, вплоть до шейпфайлов штабквартир публичных компаний
4) Определили когда сотрудники SEC приходили в эти офисы
5) Разобрали как SEC проверяет публичные компании и когда эта информация публична
6) Сопоставили проверки с изменениями стоимости ценных бумаг

И вуаля, так и хочется сказать, почему эти гении люди обо всём этом написали научную статью, вместо того чтобы существенно обогатится на полученных данных!

Многое бы бизнес во многих странах отдал бы за отслеживание того куда ходят налоговики, силовики, представители горных национальных республик и ещё много чего.

А статью рекомендую, жаль лишь что они источник данных не указывают.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4941708

#dataanalysis #research #privacy #geodata
Для тех кто интересуется темой приватности на русском языке, очень скоро состоится Eurasian Data Protection Congress [1] с большим числом выступлений и дискуссий о том что происходит с персональными данными в мире и в российском и белорусском контекстах.


Ссылки:
[1] https://edpc.network/

#privacy #events #personaldata #dataprotection