Ivan Begtin
8K subscribers
1.88K photos
3 videos
101 files
4.59K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Почему крупнейшие компании в США отказываются поставлять государству (полиции) технологии распознавания по лицам? Потому что опасаются массового бойкота их продукции со стороны потребителей.

Почему в России столь легко внедряются эти же технологии? Потому что бойкотировать некого. NTechLab - это, типа, небольшой стартап в связке с Ростехом, у него нет массового потребителя.

Но бойкот - это форма мирного протеста, когда он не возможен, то во что он выльется? К разработчикам "алгоритмов двойного назначения" приставят госохрану? До них и до внедряющих властей дойдет что любой пиар в этой теме работает против них?

Вопросы этики в ИТ - это давно уже вопросы не-нейтральности технологий. Понимают ли создатели алгоритмов последствия их применения?

#algorithms #facerecognition
Вышел доклад Automating Society Report 2020 [1] от AlgorithmWatch, в докладе обзор автоматизации в понимании алгоритмических систем в таких странах Европы как: Бельгия, Дания, Эстония, Финляндия, Франция, Германия, Греция, Италия, Голландия, Польша, Португалия, Словения, Испания, Швеция, Швейцария и Великобритания. В целом это более половины Европейского союза.

Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).

В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.

Ссылки:
[1] https://automatingsociety.algorithmwatch.org/

#algorithms
Может ли аудит алгоритмов помочь в борьбе с их предубежденностью? [1] статья в The Markup о том что алгоритмы уже неоднократно ловят на предубеждениях, есть несколько инициатив регулирования подобного в США, но ни одна до сих пор не доведена до закона/обязательного требования.

Есть около десятка стартапов/консультантов с фокусом на аудит алгоритмов, но сам рынок/среда аудита всё ещё в довольно таки неопределенной сфере.

Впрочем всё развивается столь быстро что можно ожидать уже в этом или следующем годах обязательных требований по алгоритмическому аудиту.

Ссылки:
[1] https://themarkup.org/ask-the-markup/2021/02/23/can-auditing-eliminate-bias-from-algorithms

#ai #algorithms
На хабре публикация [1] про Quite OK Image [2] проект по быстрому сжатию изображений который сравнивают с форматом PNG, на самом деле, давно устаревший для Web'а и заменённый .webp и сравнения очень условные. Автор и сам признается что ничего не понимает в криптографии и просто решил сделать эксперимент, но внезапно "обрел славу" изобретателя нового формата. При том что сложного алгоритма там нет, а лишь доработанный формат RLE (Run length encoding), с некоторыми неплохими идеями, правда.

Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.

Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.

В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.

Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.

Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] https://schnaader.info/precomp.php
[4] https://www.gdcc.tech/

#compression #algorithms
Одна из этически спорных тем вокруг автоматизированных алгоритмов - это персонализированные цены, когда компания/сервис предоставляют конкретному пользователю цену за услугу или продукт и эта цена формируется, в том числе, на основе информации о пользователе. Это нельзя назвать алгоритмами ИИ, но это очень близко к алгоритмам скоринга по смыслу и реализации.

Mozilla и Consumers International с мая по сентябрь 2021 года проводили исследование персонализированных цен в Tinder и выяснили что в сервисе средняя цена за Tinder Plus имеет вариации в зависимости от возраста, пола и местонахождения клиента. В исследовании [1] подробно разобрано какие критерии алгоритм использует и страны в которых оно проводилось: США, Бразилия, Нидерланды, Республика Корея, Индия, Новая Зеландия.

По итогам исследователи предлагают подписать петицию [2] и усилить регулирование за подобными сервисами.

Проблема с переменными/персональными ценами уже не нова и, действительно, почти наверняка будет подвергаться регулированию во многих странах. В случае с Tinder претензия понятна - одна и та же услуга от одного и того же продавца.

Ссылки:
[1] https://assets.mofoprod.net/network/documents/Personalized_Pricing.pdf
[2] https://foundation.mozilla.org/en/blog/new-research-tinders-opaque-unfair-pricing-algorithm-can-charge-users-up-to-five-times-more-for-same-service/

#privacy #data #bigdata #ai #algorithms #mozilla
Актуальное про приватность в мире։
- В Китае регулятор опубликовал черновик закона о регулировании кредитного скоринга Law on Establishing the Social Credit System [1]. По сути устанавливая требования комплаенса для компаний предоставляющих подобные сервисы. Но это ещё только черновик
- В Испании три организации создали Observatorio de Trabajo, Algoritmo y Sociedad (Обсерватория труда, алгоритмов и общества) предназначенную для исследования влияния алгоритмов на рынок труда. Первым их проектом является расследование в отношении сервиса доставки Glovo [2]. Они уже ведут карту судебных разбирательств доставщиков еды и сервисов Glovo, Deliveroo и др․ [3]
- В Испании министерство внутренних дел тестирует систему распознавания лиц на базе продукта французской компании Thales [4].
- Европейский центр алгоритмической прозрачности создан в Севилье (Испания) [5] в рамках DSA (Digital Services Act), свежего законодательства Евросоюза.

Ссылки։
[1] https://www.chinalawtranslate.com/en/franken-law-initial-thoughts-on-the-draft-social-credit-law/
[2] https://www.eldiario.es/catalunya/riders-taxistas-autonomos-unen-denunciar-glovo-cnmc-cartel-no-competir_1_9698511.html
[3] https://observa-tas.org/mapa-de-conflictos/
[4] https://www.eldiario.es/tecnologia/interior-prepara-sistema-reconocimiento-facial-identificar-sospechosos_1_9711509.html
[5] https://algorithmic-transparency.ec.europa.eu/index_en

#privacy #facerecognition #ai #algorithms #regulation
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Кстати, в качестве регулярного напоминания, кроме всего прочего какое-то время назад я занимался разработкой утилиты metacrafter, она довольно умело умеет идентифицировать семантические типы данных. При этом в ней нет нейросетей, ИИ, а лишь очень много правил в виде регулярных выражений и их аналога в синтаксисе pyparsing с помощью которых можно быстро сканировать базы данных и файлы для выявления смысловых полей данных.

Чтобы собрать те правила я тогда перелопатил около 10 порталов открытых данных и кучу других собранных датасетов для выявления повторяющихся типов данных. И то типов данных собрал больше чем потом сделал правил, реестр типов, при этом вполне живой.

Так вот одна из интересных особенностей Dateno - это бесконечный источник данных для обучения чего-либо. Например, у меня сейчас для экспериментальных целей уже собрано около 5TB CSV файлов из ресурсов Dateno, а также несколько миллионов мелких CSV файлов из потенциальных каталогов данных, ещё в Dateno не подключённых. А это гигантская база для обучения алгоритмов на выявление типовых паттернов и атрибутов.

Вообще в планах было подключить к Dateno возможность фильтрации по распознанным семантическим типам данных, правда уже сейчас понятно что самым распространённым атрибутом из CSV файлов будет геометрия объекта, атрибут the_geom который есть в каждом экспорте слоя карт из Geoserver.

В любом случае Dateno оказывается совершенно уникальным ресурсом для тех кто хочет поделать себе обучающих подборок данных на разных языках, в разных форматах, из разных стран и заранее обладающим множеством метаданных позволяющих упростить задачи классификации распознавания содержимого.

Я уже общался недавно с группой исследователей которые так вот запрашивали подборки CSV файлов именно на разных языках: английском, испанском, арабском и тд. и желательно из разных источников, чтобы были и примеры с ошибками, с разными разделителями и тд.

Впрочем в Dateno проиндексированы не только CSV файлы, но и многие JSON, NetCDF, Excel, XML, KML, GeoTIFF, GML, DBF и других. Можно собирать уникальные коллекции именно для обучения.

А какие файлы для каких задач для обучения нужны вам?

#opendata #thougths #dateno #algorithms