Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Можно ли узнать о том станет ли человек преступником до того как он им стал? Как выявить предрасположенность к преступной жизни? По истории посещений сайтов? По отклонениям в работе мозга? По социальной среде и основному кругу общения?

В статье "Автоматический логический вывод о криминальности используя изображения лиц" [1], ее авторы, Xiaolin Wu и Xi Zhang предлагают использовать алгоритмы анализа лиц для определения является ли человек преступником или нет. В статье утверждается что их разработка позволяет с высокой точностью отделить фотографии преступников от фотографий тех кто ими не является.

Множество этических, социальных и профессиональных вопросов возникает по итогам. Лучше всех их изложила Katherine Bailey [2] проводя параллели с исследованиями Чезаре Ломброзо [3] и поднимая вопрос о том что же такое "криминальность".

Пока же нам стоит ожидать что правоохранительные системы в мире, еще вполне могут ожидать и не такие новации. Наряду с социальными рейтингами могут разрабатываться универсальные "криминальные рейтинги" для каждого человека, показывающие вероятность совершения им преступления.

Будет ли частью этого рейтинга результат оценки его криминальности по лицу? Кто знает.

Ссылки:
[1] “Automated Inference on Criminality using Face Images,” Xiaolin Wu and Xi Zhang, https://arxiv.org/pdf/1611.04135v1.pdf
[2] https://backchannel.com/put-away-your-machine-learning-hammer-criminality-is-not-a-nail-1309c84bb899
[3] https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%BC%D0%B1%D1%80%D0%BE%D0%B7%D0%BE,_%D0%A7%D0%B5%D0%B7%D0%B0%D1%80%D0%B5

#opendata #machinelearning #crimedata
Я, по старинке, значительную часть новостей читаю в почтовых рассылках и почти на все новости по работе с открытыми данными и данными вообще стараюсь подписываться. К счастью,большая часть этих рассылок вполне этичны и не спамят сотнями писем в неделю.

Вот список того на что я лично подписан:
- ORelly Data https://www.oreilly.com/topics/data для подписки надо завести там аккаунт и подписаться на тему "Data"
- DataElixir https://dataelixir.com/ еженедельные письма со ссылками по Data Science
- StackShare https://stackshare.io/news позволяет искать новости по инструментам разработки в том числе с данными. Темы Big Data Tools, Data Transfer, Real-time data processing, Data Science Tools позволяют подписаться на наиболее актуальные статьи по утилитам и продуктам по этой теме
- Towards Data Science https://towardsdatascience.com/ ежедневно статьи о работе с данными. Работает на базе Medium и после авторизации даёт возможность получать письма на почту
- Data Science Roundup https://roundup.fishtownanalytics.com/ больше акцента на аналитике и алгоритмах
- Data Science Weekly https://www.datascienceweekly.org/ аналогично больше про Data Science
- KD Nuggets https://www.kdnuggets.com не только про алгоритмы и большие данные, но и про курсы, обучение, работу, вакансии и многое другое
- Mode Analytics Newsletter https://about.modeanalytics.com/newsletter/ больше про аналитику от создателей платформы облачной аналитики
- Data Digest https://page.data.world/data-digest от Data.world, еженедельная рассылка с новостями и примерами работы с данными
- Center for data innovation newsletter https://www.datainnovation.org/ в основном рассылка про индустрию
- Kaggle blog newsletter https://blog.kaggle.com/ подписка на блог Kaggle, о их платформе, машинном обучении и не только.

В завершение добавлю упоминание нашей рассылки Инфокультуры, которая, кроме всего прочего охватывает и темы открытых данных в России. Прямая ссылка на подписку тут https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

#opendata #machinelearning #newsletters
Свежая публикация от Boston Consulting Group о том как государства могут использовать искусственный интеллект и о том как это воспринимается гражданами и экспертами [1].

Множество примеров в том как AI может помочь в:
- управлении трафиком
- идентификации болезней глаз
- автоматическое определение подходит ли соискатель на вакансию
и многое другое.

Более всего всех беспокоит использование AI в определении виновности и в решениях о дострочном освобождении. А наибольший консенсус в использовании в задачах управления городом в реальном времени.

Материал интересный и не стоит полагать что неактуальный для России. Есть как минимум две области в которых у Российского государства есть коллосальная мотивация использовать технологии AI, машинного обучения и не только.

Это сбор налогов и управление социальными обязательствами.
- в первом случае налогоплательщик должен быть готов к тому что на смену выездным проверкам приходит тотальная слежка.
- во втором случае сопоставление доходов и расходов, льгот, владения имуществом и не только неизбежно приведет к микроструктурированию социальных обязательств. Механизмы выплат компенсаций, пенсий, медицинского страхования и образования кстати тоже придут к модели социального скоринга.



Ссылки:
[1] https://www.bcg.com/publications/2019/citizen-perspective-use-artificial-intelligence-government-digital-benchmarking.aspx

#ai #machinelearning #digitalgov
Для тех кто давно хочет поэкспериментировать с машинным переводом, Translator API [1] полностью с открытым кодом на Github, легко модифицируется, поддерживает 150 языков и работает на основе языковой модели Language Technology Research Group at the University of Helsinki [2].
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.

Очень интересно было бы сравнить с автоматизированными облачными переводчиками.

Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/

#ml #machinelearning #datascience #cooltools #data
В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.

Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.

Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.

И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.

Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/

#opendata #academy #openscience #machinelearning #datasets
Регулярное полезное чтение про данные, технологии и не только:
- IKEA’s Knowledge Graph and Why It Has Three Layers [1] о том как устроен граф знаний в ИКЕА с точки зрения хранения данных. Актуально для всех кто работает с похожими системами и проектами
- Presto Parquet Column Encryption [2] о том как устроено колоночное шифрование в файлах Parquet в Presto, со ссылками на другие продукты, тексты, описания и тд. про это же.
- MLPerf Results Show Advances in Machine Learning Inference [3] обновление результатов MLPerf по сравнению моделей машинного обучения
- Unsung Saga of MLOps [4] про MLOps в Walmart, в основном про всякое организационное, и тем интереснее.
- In conversation with AI: building better language models [5] научная статья о том как могут развиваться способы коммуникации человека и ИИ, с оглядкой на языковые модели, но с рассмотрением других способов коммуникации также.

Ссылки:
[1] https://medium.com/flat-pack-tech/ikeas-knowledge-graph-and-why-it-has-three-layers-a38fca436349
[2] https://prestodb.io/blog/2022/07/10/presto-parquet-column-encryption
[3] https://mlcommons.org/en/news/mlperf-inference-v21/
[4] https://medium.com/walmartglobaltech/unsung-saga-of-mlops-1b494f587638
[5] https://www.deepmind.com/blog/in-conversation-with-ai-building-better-language-models

#data #machinelearning #readings
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.

Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser

#opensource #ai #machinelearning #dbt #dataengineering #etl
Свежий обзор платформ для соревнований в машинном обучении The State of Competitive Machine Learning 2022 Edition [1] в форме подробного сравнения и отчета за год. Авторы сравнивали Kaggle, Tianchi, CodaLab, Zindi и других, всего 11 платформ.

Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.

Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/

#machinelearning #stateof #reports #readings
Пока идёт опрос в котором пока явно лидирует интерес к тому где найти значимые источники данных, подборка каталогов данных для машинного обучения

- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения

Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего.

Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него.

Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано.

#opendata #datasets #machinelearning
Вчера команда Твиттера выложила в открытый доступ описание [1] их рекомендательного алгоритма с подробностями и описанием его работы. И, более того, они выложили два репозитория открытого кода их рекомендательной системы и модели для машинного обучения [2] [3].

Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которые спят и видят всерьёз рассматривают введение требований к социальным сетям именно в части формирования рекомендательных списков для чтения.

Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?

Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml

#opensource #twitter #machinelearning
Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?

Источников много, я упомяну сейчас те о которых ранее не писал:

- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения

- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма

- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы

- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт

- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга

- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков

- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы

#opendata #datasets #data #machinelearning
Полезное чтение про данные, технологии и не только:
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой

- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.

- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений

- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.

- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.

- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.


Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/

#readings #data #ai #datatools #machinelearning #dataengineering
Ещё один общедоступный каталог данных для машинного обучения, на сей раз от DagsHub [1]. Я про этот стартап писал примерно 1.5 года назад и за это время у них прибавилось пользователей и появился каталог данных для машинного обучения, встроенный прямо в платформу. Каталог любопытный, но как-то с совсем скудным набором метаданных и доступом к данным через их библиотеку и как хранимым на S3.

В целом непонятны преимущества перед Kaggle или HuggingFace с точки зрения именно каталога данных, но полезным может быть и в такой форме.

В целом в реестре каталогов данных по всему миру у меня собрано уже 12 каталогов для машинного обучения. Это немного, учитывая что всего в реестре ожидается 3000+ каталогов данных, но заметно, если переводить цифры в объём хранимых данных и их влияние.

Ссылки:
[1] https://dagshub.com/datasets/

#opendata #machinelearning #datacatalogs
- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов.
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.

Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.

Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.

#opendata #data #datascience #ml #machinelearning