Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Правительство Великобритании использует алгоритмы для выбора приоритета проверки школ [1]. Так в Великобритании тоже идут изменения в надзоре и контроле государства, хотя это и не называется реформой. Разработкой алгоритмов занимается команда Behavioural Insights Team [2] применяющая алгоритмы прогнозирования не только к инспекциям, но и к другой деятельности государства.

Чему уже сопротивляется союз учителей, призывающей к прозрачности работы алгоритмов и наличию четких критериев для проверяемых в том какая именно школа выбрана для проверки.

Не стоит рассчитывать что эта тенденция обойдет Россию стороной. Все что нужно для внедрения алгоритмического планирования проверок или прогнозирования - это смена поколений руководителей.

Ссылки:
[1] https://www.bbc.com/news/technology-42425959
[2] https://www.behaviouralinsights.co.uk/publications/using-data-science-in-policy/

#opendata #algorithms #bigdata
Можно ли предсказать голосование по фотографии? А если это панорамная фотография?

Исследователи из Стенфордского университета проанализировали 50 миллионов фотографий из Google Street View [1]
и научились определять типы автомобилей и, соответственно, предсказывать голосования в местах где они сделаны.
Всего система умеет предсказывать с высокой точностью уровень доходов, расовые признаки, образование и привычки в голосовании с детальностью до почтового индекса (ZIP кода).

Все это социологам и в России на заметку, кроме Google Street View в России ещё есть Яндекс Панорамы и алгоритмы позволили бы провести реальные исследования устройства российского общества.

Подробнее об исследовании [2]

Ссылки:
[1] https://www.nytimes.com/2017/12/31/technology/google-images-voters.html
[2] https://www.pnas.org/content/114/50/13108.full.pdf

#opendata #data #algorithms
В последние месяцы у меня было много разговоров о том как государство использует или могло бы использовать данные, современные алгоритмы и, в будущем, искусственный интеллект.

Более всего, разумеется, упоминаются самые благие начинания - от повышения эффективности бюрократического аппарата, до повышения качества работы с госфинансами.

Но самые масштабные, самые серьёзные, самые масштабные области применения, конечно же совершенно в другом. Они в обработке бесконечного объёма данных с возможностью отслеживания любых действий каждого человека.

Правительство США в рамках программы IARPA финансирует две исследовательские программы Finder [1], Alladin Video [2] и Deep Intermodal Video Analytics (DIVA) [3].

Finder - это программа по извлечению геолокационных данных из фотографий без соответствующей информации в EXIF. Например, если пользователь запретил публиковать геоданные.

Alladin Video - это извлечение знаний/данных из видеозаписей на популярных видеохостингах. Это распознавание лиц, объектов, событий,

DIVA - это распознавание лиц и активности для потокового видео (в основном камер наблюдения) с автоматическим направлением уведомлений о событиях.

Отличие США от других стран лишь в лучшей организации научной составляющей этой работы, в остальном же важный интерес всех более менее крупных (богатых) государств не в оптимизации системы управления, а в тотальной слежке.



Ссылки:
[1] https://www.iarpa.gov/index.php/research-programs/finder
[2] https://www.iarpa.gov/index.php/research-programs/aladdin-video
[3] https://www.iarpa.gov/index.php/research-programs/diva

#data #algorithms
Интересное интервью [1] с Hanna Fry [2], профессором математики в UCL и автором книги "Hello World. Being Human in the Age of Machine". В интервью она говорит о важности аудита алгоритмов и об одном из возможных путей - созданием агентства вроде FDA (Food and Drug Agency - отвечает за тестирование лекарств, его российский аналог Росздравнадзор). Это агентство проверяло бы алгоритмы до того как они использовались бы на людях, сохраняя интеллектуальную собственность создателей, но имея возможность убедиться в недискриминационности алгоритмов.

Как и сама книга "Hello World", её интервью построено не на технических аспектах работы алгоритмов, а на этических и поднимают вопросы, прежде всего, кодификации и проверки моральности алгоритмических решений и ответов на которые мы сами должны найти ответ - готовы ли мы что многие решения в отношении нашей жизни начнут принимать алгоритмы.

Дождёмся ли мы того что решения начнут принимать алгоритмы, а обращение к решению человека будет аппеляцией к решению машины?
Это не только не праздные вопросы про будущее, это ещё и вопросы про настоящее.

Например:
- Готовы ли мы что нам алгоритмы начнут ставить диагноз?
- Готовы ли мы что алгоритмы будут нас судить вместо судей?
- Готовы ли мы что алгоритмы будут принимать решение чью жизнь спасать, пешехода или водителя?

Появление аналога FDA для алгоритмов может оказаться неподъёмной задачей для многих государств, не имея возможности платить экспертам анализирующим алгоритмы зарплаты сравнимые с зарплатами разработчиков алгоритмов можно будет столкнуться с большими сложностями в качестве их оценки. С другой стороны внимание и страхи граждан и регуляторов к тому как алгоритмы оказывают влияние на общество неизбежно приведет к тому что их разработка так или иначе будет подвержена этическим требованиям и их проверке.

Вопрос лишь в том как это будет устроено в итоге.

Ссылки:
[1] https://nautil.us/issue/66/clockwork/we-need-an-fda-for-algorithms
[2] https://www.hannahfry.co.uk/

#data #algorithms
На Medium статья из Washington Post о использовании Amazon Rekognition System для распознавания лиц полицией [1], с большим числом отсылок на публичные и государственные исследования и внедрение технологий идентификаций по лицам. Алгоритмы пока ещё не дотягивают до того уровня когда им можно безоговорочно доверять причем тут срабатывает страновая специфика и тот же алгоритм Amazon не справляется с точным определением пола для людей с темной кожей и с распознаванием лиц в их случае.

Разница во внедрение систем распознавания лиц в разных странах лишь в публичности, хотя бы частичной, алгоритмов. В США они проходят тестирование в NIST, и иногда производители раскрывают модели распознавания. В Китае, в России, во многих других странах вопрос публичности алгоритмов распознавания лиц и ошибки при идентификации даже не поднимаются.

А что, серьёзно, хоть кто-то ещё верит что к 2025 году останется хоть одна гос-камера не оборудованная идентфикацией лиц? или то что на каждом полицейском не будет камеры в режиме непрерывной записи в течение рабочего дня?

Ссылки:
[1] https://medium.com/thewashingtonpost/amazon-facial-id-software-used-by-police-falls-short-on-accuracy-and-bias-research-finds-43dc6ee582d9

#algorithms
Ein Algorithmus hat kein Taktgefühl (У алгоритма нет чувства такта) свежая книга [1] Katarina Zweig, профессора в техническом университете Kaiserslautern, где она возглавляет лабораторию алгоритмической подотчётности (AALab) [2].

Книга о том как алгоритмы принимают неправильные решения, о их последствиях и о том что нам с ними делать. Пока я видел только немецкое издание, но это из тех книг которые хорошо бы увидеть на английском и русских языках.

В прошлом году команда из AALab публиковала статью о рисках и безопасности систем принимающих решения [3] и о текущем состоянии контроля за алгоритмами [4], а в этом году о прозрачности и контроле за алгоритмами [5].

У них очень много публикаций и большая их часть не имеет перевода на английский язык, так что это из тех случаев когда полезно владение немецким языком.

Ссылки:
[1] https://www.amazon.de/gp/product/B07QPB5BMK/
[2] https://aalab.informatik.uni-kl.de
[3] https://link.springer.com/article/10.1007%2Fs41125-018-0031-2
[4] https://www.oeffentliche-it.de/documents/10181/76866/%28Un%29berechenbar+-+Algorithmen+und+Automatisierung+in+Staat+und+Gesellschaft.pdf
[5] https://www.kas.de/documents/252038/4521287/AA338+Algorithmische+Entscheidungen.pdf/533ef913-e567-987d-54c3-1906395cdb81?version=1.0&t=1548228380797

#data #algorithms #ai
Дайджест того что произошло за неделю и накопилось нерассказанного за предыдущие недели

Вышел доклад от австралийского оборонного мозгового центра ASPI о глобальной китайской экспансии по сбору данных
Engineering global consent: The Chinese Communist Party's data-driven power expansion [1] с рассказом о том как GTCOM и Huawei устанавливают оборудование для слежки, например, в штаб-квартите Африканского союза. Доклад в PDF можно взять по ссылке [2]

В The Guardian статья о том как ИТ система соцобеспечения Великобритании может загнать в нищету тех кто туда обращается [3]. А всё из-за внедрения так называемого "intelligent automation garage" (гараж интеллектуальной автоматизации). А всё дело в том что Департамент труда и пенсии Великобритании, аналог российского Минтруда, нанял около 1000 ИТ специалистов за 18 месяцев и увеличил расходы на автоматизацию и привлек нескольких крупных подрядчиков. Однако уже есть факты когда внедрённые алгоритмы довели нескольких человек до голода и одного до суицида [4].

Там же в Guardian серия публикаций о цифровой антиутопии [5] и о том что системы цифрового социального обеспечения наказывают бедных и о провале австралийской государственной системы robodebt "нелегально" взыскивающей долги с граждан [6].

В MIT Press вышла книга "Права человека в эпоху платформ" Human rights in the Ageo of Platforms [7] полезная не только правозащитникам, но и тем кто кому придётся с ними взаимодействовать в цифровую эпоху.

В Евросоюзе с 2017 года идёт проект Future Government 2030+ (Будущее государства в 2030+) [8] по которому на днях вышел отчёт [9] с 4 сценариями будущего:
- Демократия сделай-сам (DYI Democracy)
- Частная алгократия (Private Algocracy)
- Сверх-взаимодействующее государство (Super Collaborative Government)
- Over-Regulatocracy (Сверх регулирование)

Очень интересный отчёт, а эти сценария достойны отдельного подробного описания как и оценки их вероятности для других стран, например, для России.



Ссылки:
[1] https://www.aspi.org.au/report/engineering-global-consent-chinese-communist-partys-data-driven-power-expansion
[2] https://s3-ap-southeast-2.amazonaws.com/ad-aspi/2019-10/Engineering%20global%20consent%20V2.pdf?eIvKpmwu2iVwZx4o1n8B5MAnncB75qbT
[3] https://www.theguardian.com/technology/2019/oct/14/fears-rise-in-benefits-system-automation-could-plunge-claimants-deeper-into-poverty
[4] https://www.theguardian.com/commentisfree/2019/jun/27/britain-welfare-state-shadowy-tech-consultants-universal-credit
[5] https://www.theguardian.com/technology/2019/oct/14/automating-poverty-algorithms-punish-poor
[6] https://www.theguardian.com/australia-news/2019/sep/17/robodebt-class-action-shorten-unveils-david-and-goliath-legal-battle-into-centrelink-scheme
[7] https://mitpress.mit.edu/books/human-rights-age-platforms
[8] https://ec.europa.eu/digital-single-market/en/news/future-government-2030-policy-implications-and-recommendations

#AI #algorithms #data #datapolicy #opendata #privacy #digitalwelfare
Вышел доклад "Этика и ответственность публичных алгоритмов" (Ethique et responsabilité des algorithmes publics) [1] от Национальной школы управления во Франции École nationale d'administration (ENA) подготовленного по заказу центра публичных инноваций Etalab.

В докладе разбираются этические аспекты применения алгоритмов в государственном управлении, в первую очередь, во Франции и Евросоюзе.

В основном доклад посвящён юридическим вопросам работы алгоритмов, открытым данным и открытому коду (сode publics) и полезен всем кто изучает регулирование в этой области и знает французский язык.

В дополнение к нему руководство Etalab по применению алгоритмов [3], также на французском в виде сжатого руководства с открытым кодом [4]

Ссылки:
[1] https://www.etalab.gouv.fr/wp-content/uploads/2020/01/Rapport-ENA-Ethique-et-responsabilit%C3%A9-des-algorithmes-publics.pdf
[2] https://www.ena.fr
[3] https://guides.etalab.gouv.fr/algorithmes/guide/
[4] https://github.com/etalab/guides.etalab.gouv.fr

#opensource #opendata #algorithms
Десятки тысяч международных студентов и работников из других стран в Канаде получили визы автоматически за счёт роботизированных алгоритмов. Vancover Sun пишут об этом в статье "Douglas Todd: Robots replacing Canadian visa officers, Ottawa report says" [1]. Во внутреннем отчете департамента иммиграции страны упоминается о применении алгоритмов автоматического принятия решения и раздражённости граждан их применением.

Ссылки:
[1] https://vancouversun.com/opinion/columnists/douglas-todd-robots-replacing-canadian-visa-officers-ottawa-report-says

#ai #privacy #algorithms #canada
Почему крупнейшие компании в США отказываются поставлять государству (полиции) технологии распознавания по лицам? Потому что опасаются массового бойкота их продукции со стороны потребителей.

Почему в России столь легко внедряются эти же технологии? Потому что бойкотировать некого. NTechLab - это, типа, небольшой стартап в связке с Ростехом, у него нет массового потребителя.

Но бойкот - это форма мирного протеста, когда он не возможен, то во что он выльется? К разработчикам "алгоритмов двойного назначения" приставят госохрану? До них и до внедряющих властей дойдет что любой пиар в этой теме работает против них?

Вопросы этики в ИТ - это давно уже вопросы не-нейтральности технологий. Понимают ли создатели алгоритмов последствия их применения?

#algorithms #facerecognition
Вышел доклад Automating Society Report 2020 [1] от AlgorithmWatch, в докладе обзор автоматизации в понимании алгоритмических систем в таких странах Европы как: Бельгия, Дания, Эстония, Финляндия, Франция, Германия, Греция, Италия, Голландия, Польша, Португалия, Словения, Испания, Швеция, Швейцария и Великобритания. В целом это более половины Европейского союза.

Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).

В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.

Ссылки:
[1] https://automatingsociety.algorithmwatch.org/

#algorithms
Может ли аудит алгоритмов помочь в борьбе с их предубежденностью? [1] статья в The Markup о том что алгоритмы уже неоднократно ловят на предубеждениях, есть несколько инициатив регулирования подобного в США, но ни одна до сих пор не доведена до закона/обязательного требования.

Есть около десятка стартапов/консультантов с фокусом на аудит алгоритмов, но сам рынок/среда аудита всё ещё в довольно таки неопределенной сфере.

Впрочем всё развивается столь быстро что можно ожидать уже в этом или следующем годах обязательных требований по алгоритмическому аудиту.

Ссылки:
[1] https://themarkup.org/ask-the-markup/2021/02/23/can-auditing-eliminate-bias-from-algorithms

#ai #algorithms
На хабре публикация [1] про Quite OK Image [2] проект по быстрому сжатию изображений который сравнивают с форматом PNG, на самом деле, давно устаревший для Web'а и заменённый .webp и сравнения очень условные. Автор и сам признается что ничего не понимает в криптографии и просто решил сделать эксперимент, но внезапно "обрел славу" изобретателя нового формата. При том что сложного алгоритма там нет, а лишь доработанный формат RLE (Run length encoding), с некоторыми неплохими идеями, правда.

Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.

Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.

В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.

Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.

Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] https://schnaader.info/precomp.php
[4] https://www.gdcc.tech/

#compression #algorithms
Одна из этически спорных тем вокруг автоматизированных алгоритмов - это персонализированные цены, когда компания/сервис предоставляют конкретному пользователю цену за услугу или продукт и эта цена формируется, в том числе, на основе информации о пользователе. Это нельзя назвать алгоритмами ИИ, но это очень близко к алгоритмам скоринга по смыслу и реализации.

Mozilla и Consumers International с мая по сентябрь 2021 года проводили исследование персонализированных цен в Tinder и выяснили что в сервисе средняя цена за Tinder Plus имеет вариации в зависимости от возраста, пола и местонахождения клиента. В исследовании [1] подробно разобрано какие критерии алгоритм использует и страны в которых оно проводилось: США, Бразилия, Нидерланды, Республика Корея, Индия, Новая Зеландия.

По итогам исследователи предлагают подписать петицию [2] и усилить регулирование за подобными сервисами.

Проблема с переменными/персональными ценами уже не нова и, действительно, почти наверняка будет подвергаться регулированию во многих странах. В случае с Tinder претензия понятна - одна и та же услуга от одного и того же продавца.

Ссылки:
[1] https://assets.mofoprod.net/network/documents/Personalized_Pricing.pdf
[2] https://foundation.mozilla.org/en/blog/new-research-tinders-opaque-unfair-pricing-algorithm-can-charge-users-up-to-five-times-more-for-same-service/

#privacy #data #bigdata #ai #algorithms #mozilla
Актуальное про приватность в мире։
- В Китае регулятор опубликовал черновик закона о регулировании кредитного скоринга Law on Establishing the Social Credit System [1]. По сути устанавливая требования комплаенса для компаний предоставляющих подобные сервисы. Но это ещё только черновик
- В Испании три организации создали Observatorio de Trabajo, Algoritmo y Sociedad (Обсерватория труда, алгоритмов и общества) предназначенную для исследования влияния алгоритмов на рынок труда. Первым их проектом является расследование в отношении сервиса доставки Glovo [2]. Они уже ведут карту судебных разбирательств доставщиков еды и сервисов Glovo, Deliveroo и др․ [3]
- В Испании министерство внутренних дел тестирует систему распознавания лиц на базе продукта французской компании Thales [4].
- Европейский центр алгоритмической прозрачности создан в Севилье (Испания) [5] в рамках DSA (Digital Services Act), свежего законодательства Евросоюза.

Ссылки։
[1] https://www.chinalawtranslate.com/en/franken-law-initial-thoughts-on-the-draft-social-credit-law/
[2] https://www.eldiario.es/catalunya/riders-taxistas-autonomos-unen-denunciar-glovo-cnmc-cartel-no-competir_1_9698511.html
[3] https://observa-tas.org/mapa-de-conflictos/
[4] https://www.eldiario.es/tecnologia/interior-prepara-sistema-reconocimiento-facial-identificar-sospechosos_1_9711509.html
[5] https://algorithmic-transparency.ec.europa.eu/index_en

#privacy #facerecognition #ai #algorithms #regulation
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Кстати, в качестве регулярного напоминания, кроме всего прочего какое-то время назад я занимался разработкой утилиты metacrafter, она довольно умело умеет идентифицировать семантические типы данных. При этом в ней нет нейросетей, ИИ, а лишь очень много правил в виде регулярных выражений и их аналога в синтаксисе pyparsing с помощью которых можно быстро сканировать базы данных и файлы для выявления смысловых полей данных.

Чтобы собрать те правила я тогда перелопатил около 10 порталов открытых данных и кучу других собранных датасетов для выявления повторяющихся типов данных. И то типов данных собрал больше чем потом сделал правил, реестр типов, при этом вполне живой.

Так вот одна из интересных особенностей Dateno - это бесконечный источник данных для обучения чего-либо. Например, у меня сейчас для экспериментальных целей уже собрано около 5TB CSV файлов из ресурсов Dateno, а также несколько миллионов мелких CSV файлов из потенциальных каталогов данных, ещё в Dateno не подключённых. А это гигантская база для обучения алгоритмов на выявление типовых паттернов и атрибутов.

Вообще в планах было подключить к Dateno возможность фильтрации по распознанным семантическим типам данных, правда уже сейчас понятно что самым распространённым атрибутом из CSV файлов будет геометрия объекта, атрибут the_geom который есть в каждом экспорте слоя карт из Geoserver.

В любом случае Dateno оказывается совершенно уникальным ресурсом для тех кто хочет поделать себе обучающих подборок данных на разных языках, в разных форматах, из разных стран и заранее обладающим множеством метаданных позволяющих упростить задачи классификации распознавания содержимого.

Я уже общался недавно с группой исследователей которые так вот запрашивали подборки CSV файлов именно на разных языках: английском, испанском, арабском и тд. и желательно из разных источников, чтобы были и примеры с ошибками, с разными разделителями и тд.

Впрочем в Dateno проиндексированы не только CSV файлы, но и многие JSON, NetCDF, Excel, XML, KML, GeoTIFF, GML, DBF и других. Можно собирать уникальные коллекции именно для обучения.

А какие файлы для каких задач для обучения нужны вам?

#opendata #thougths #dateno #algorithms