Ivan Begtin – Telegram

Ivan Begtin

7.99K subscribers

1.77K photos

3 videos

101 files

4.49K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

Download Telegram

About

Blog

Apps

Platform

7.99K subscribers

Полезное чтение про данные и не только:
- Open loop of ML [1] разбор подходов к машинному обучению в трех частях и с акцентом на последствия ошибок.
- Действительно ли выигрывают дата-компании? [2] очередной текст от Ben Stancil. Вопрос совсем не праздный и правильно подан и касается не только данных.
- большой гайд по спортивной аналитике [3] структурированные таблицы с кучей ссылок на тексты, инструменты, курсы, научные статьи, данные и тд. Автор очень заморочился систематизацией всего что есть по этой теме
- Practical Deep Learning for Coders 2022 [4] обновлённый курс от Fast.ai, полезный для начального погружения в тему глубинного обучения.
- большой каталог ссылок и материалов по приватности в Awesome Privacy list [5], много ссылок на продукты о которых я лично не знал и, в целом, хорошо структурировано

Ссылки:
[1] https://towardsdatascience.com/the-open-loop-of-ml-part-3-f0ba4c6d225e
[2] https://benn.substack.com/p/do-data-driven-companies-win
[3] https://docs.google.com/spreadsheets/d/16Xvhl7fCKEs1JTr-VXPZDmctO2gq4TcmuNmAhoHQQs0/edit#gid=627465558
[4] https://www.fast.ai/2022/07/21/dl-coders-22/
[5] https://github.com/Lissy93/awesome-privacy

#readings #data

The Open Loop of ML — Part 3

Closing the loop

1.9K viewsIvan Begtin, 05:28

Честно говоря хочется больше писать про технологии, что я, обычно, и делаю, но иногда не могу не отвлечься на темы связанные с нашим государством и цифровизацией.

Вот, например, Минстрой РФ выпустил "Индекс IQ городов" [1] где, ожидаемо, Москва на первом месте. Казалось, какой хороший индекс, составляли его по 47 показателям и целых 10 направлений: городское управление, умное ЖКХ, инновации для городской среды, умный городской транспорт, интеллектуальные системы общественной и экологической безопасности, туризм и сервис, интеллектуальные системы социальных услуг, экономическое состояние и инвестклимат, а также инфраструктура сетей связи․

Вот только когда посмотришь на его внутренности [2], то сразу выясняется что:
1. Методология не опубликована, неизвестно что там и как это менялось.
2. Перечня показателей нет (должно быть в методологии).
3. В целом сравнение двух городов в статусе субъектов федерации (Москва и Санкт-Петербург) и всех остальных, являющихся муниципальными образованиями, выглядит даже не надуманно, а скажем так, претенциозно.

Я было поискал первоисточник, но на ведомственном проекте Минстроя "Умный город", та же новость [3] с тем же документом.

Поэтому властям Москвы нечем гордится что они на первом месте в этом индексе, потому что индекс этот мусорный.

У любого нормального рейтинга/оценки, разумеется, должны быть доступны методология, таблицы с оценками, показатели, описаны перечень изменений, должен быть ответственный за методологию, тот кто отвечает за его составление и коллектив авторов.

Меня лично, в принципе, крайне печалит продукция многих органов власти в последние годы. Это просто какая-то интеллектуальная хрень не оправданная ничем.

Далее постараюсь побольше писать про технологии, а не про вот это вот всё.

Ссылки:
[1] https://www.minstroyrf.gov.ru/press/minstroy-rossii-opublikoval-indeks-iq-gorodov/
[2] https://www.minstroyrf.gov.ru/upload/iblock/672/REZULTATY-OTSENKI-KHODA-I-EFFEKTIVNOSTI.pdf
[3] https://russiasmartcity.ru/news/publications/51

#government #ratings #bullshit

7.9K viewsIvan Begtin, 13:22

В рубрике полезное чтение про данные:
- о разнице между data wrangling, data cleaning и data transformation [1] от создателей Osmos, стартапа по трансформации данных. Относиться надо, конечно, как к статье с акцентом на плюсы их платформы которая ещё и пока до сих пор в ограниченном доступе, но мысли у создателей ровно те же что и у меня о том что тема преобразований данных недостаточно ИИзирована и мало продуктов для компаний среднего уровня. Эту задачу они и решают, а насколько хорошо - это надо проверять на живых проектах.
- о рисках с облачными ценами на инфраструктуру данных [2], автор явным образом продает свой продукт Conveyor по управлению облачной инфраструктурой клауд провайдеров. В России это, сейчас, менее актуально, а в мировых проектах весьма нужно - контроль за стоимостью издержек на обработку данных. Решения могут быть разные, но проблема одна - зависимость от одного провайдера.
- обзор текущего состояния Modern Data Stack [3] на весну 2022 года. Ожидаемо "центром массы" в MDS называют dbt, я бы сказал что сейчас это инструмент номер один для задач по обработке данных внутри SQL СУБД.
- короткая записка [4] о интеграции данных реального времени в портал data.europa.eu. Европейская бюрократия работает медленно, но системно и записка полезна с точки зрения посмотреть как последовательно думает команда этого проекта над тем как обеспечивать доступ к данным обновляемым непрерывно. Готовых решений у них нет, рассматривают несколько принятых стандартов используемых в интернете вещей.
- довольно давнее, но актуальное руководство по плохим данным [5] Bad data guide, с примерами того как и какие ошибки в данных возникают, как их избегать. Вернее ошибки там не только в данных, но и в последствиях их неверной обработки и возможности интерпретации. Есть переводы на разные языки, но никто не сделал пока ещё перевода на русский (!)

Ссылки:
[1] https://www.moderndatastack.xyz/journal/whats-the-difference-between-data-wrangling-vs-data-cleansing-vs-data-transfor-u0lb
[2] https://blog.dataminded.com/why-rising-cloud-costs-are-the-silent-killers-of-data-platforms-52a98b371f28
[3] https://www.moderndatastack.xyz/journal/the-modern-data-stack-ecosystem-spring-2022-edition-5qer
[4] https://data.europa.eu/sites/default/files/report/data_europa_eu_Real_time_data_2022_Approaches_to_integrating_real_time_data_sources_in_data_europa_eu.pdf
[5] https://github.com/Quartz/bad-data-guide

#opendata #data #readings

www.moderndatastack.xyz

What's the Difference Between Data Wrangling vs Da... | Modern Data Stack

Hundreds of resources to help you level up your modern data stack and learn from the best

1.8K viewsIvan Begtin, edited 04:57

В качестве регулярного напоминания, в прошлом году мы от Инфокультуры опубликовали исследование Приватность государственных мобильных приложений в России [1].

В исследовании были примеры того как разработчики госприложений размещают их в Google Play вместе с трекерами крупных bigtech корпораций и ~~сливают зарубежным разведкам~~ помогают корпорациям лучше следить за гражданами.

Когда мы делали это исследование то специально сделали акцент на государстве потому что государственные органы - это неестественная монополия и у вас нет альтернативного приложения госуслуг или других, придётся использовать то что предоставляется. Так почему то что предоставляется должно не только само следить за нами, но и передавать личные данные третьим коммерческим сторонам ?

Это исследование не финальное, через какое-то время я напишу о новом которое мы уже готовим.

Ссылки:
[1] https://privacygosmobapps.infoculture.ru

#privacy #mobileapps #government

Инфокультура

Новости Информационной культуры. https://infoculture.ru

2.1K viewsIvan Begtin, 15:10

В последнее время я вижу всё больше попыток создания языков запросов в противовес SQL, как альтернатива или как расширение языка. И тут я не могу не вспомнить что такая большая попытка предпринималась ещё давно - это SPARQL (the standard query language and protocol for Linked Open Data on the web or for RDF triplestores) [1].

Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.

Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.

Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.

Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.

При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.

А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?

Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/

#opendata #sparql #linkeddata #semanticweb

2.2K viewsIvan Begtin, 17:18

Илья Шуманов, собрал список общедоступных официальных данных закрытых в этом году [1]. В этом списке не только открытые данные, но и отчеты органов власти и иные сведения которые характеризуют экономическое состояние страны прямо или косвенно.

Я добавлю что закрытие данных началось не в этом году, с 2014 года этот процесс начался, просто не был так масштабен. Закрывались данные контрактов госкорпораций по 223-ФЗ, был закрыт реестр субсидий, прятались сведения об учредителях НКО и ещё много что.

И, скорее всего, этот список неполон, многие данные закрываются так что это известно только специалистам в этих отраслях, многие экономические данные удаляются по чуть-чуть.

Поэтому если вы знаете какие-то важные данные которые были закрыты в этом году или прошлом, напишите в комментариях.

Ссылки:
[1] https://t.iss.one/CorruptionTV/2764

#opendata #government #opengov

Официальные данные, которые исчезли из публичного доступа после 24 февраля:

1. Данные о собственниках финансовых учреждений (банков, стразовых компаний и тд).
2. Данные о внешней торговле.
3. Данные об экспорте.
4. Данные об импорте.
5. Ежемесячные данные…

1.9K viewsIvan Begtin, 18:25

Системы управления базами данных о которых, либо уже не помнят, либо ещё не знают, те что совсем не на слуху:
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность

Ссылки:
[1] https://basex.org
[2] https://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/

#datatools #dbms #data

The XML Framework: Lightweight and High-Performance Data Processing

BaseX: The XML Framework. Lightweight and High-Performance Data Processing

2.2K viewsIvan Begtin, 04:58

Полезное чтение про данные и технологии:
- перестаньте использовать CSV [1] статья с напоминанием что для data science следует использовать Parquet.
- об организации полнотекстового поиска на базе Clickhouse [2]
внутри Tinybird. Много технических подробностей
- очень подробно про новую версию Prefect 2.0 [3] для тех кто ищет себе ETL/ELT продукт
- ожесточенная конкуренция в США за госконтракты на облачные сервисы для государства [4], драка нешуточная между текущим контрактором Amazon и Microsoft которые пытаются вместе с Google и Oracle продать идею мультиоблачности. Сейчас ЦРУ и Пентагон используют только облака Amazon
- 7 советов для успешности проектов по машинному обучению [5] в промышленном применении. Самый первый совет самый важный не недооценивайте время на документирование!
- обзор NoSQL баз данных для начинающих [6], уже погруженным в природу NoSQL будет неинтересно, а когда надо объяснять с нуля студентам или начинающим, то полезно
- стартап Neon, облачный Postgres, получил $30M инвестиций [7]. Как я понимаю, большая часть команды из России, разработчики Postgres'а уехавшие и создавшие стартап на Кипре. На самом деле они делают альтернативу облачному AWS Aurora Postgres.

Ссылки:
[1] https://towardsdatascience.com/a-parquet-file-is-all-you-need-962df86886bb
[2] https://www.tinybird.co/blog-posts/text-search-at-scale-with-clickhouse
[3] https://www.prefect.io/guide/blog/the-global-coordination-plane/
[4] https://www.wsj.com/articles/microsoft-asks-google-oracle-to-help-crimp-amazons-u-s-government-cloud-leadership-11658926801
[5] https://medium.com/jellysmacklabs/7-tips-for-a-successful-machine-learning-project-in-production-4c5e7f10903c
[6] https://blog.leanxcale.com/distributed-database-concepts/nosql-jungle/
[7] https://neon.tech/blog/funding-a1/

#data #datatools #startups #readings

A Parquet File Is All You Need

Stop using CSV and move to Parquet

2.1K viewsIvan Begtin, 18:11

Критический разбор понятия Lakehouse [1] когда-то представленный в научной статье сотрудниками Databricks [2]․ Lakehouse декларируется как замена озер данных и хранилищ данных со специализацией на машинном обучении и data science. Одна из ключевых особенностей в хранении данных в форматах ORC и Parquet․ Но, в целом, автор критикует статью с акцентом на отсутствие вызовов которые решались бы предлагаемым подходом что всё это больше похоже на маркетинг, а не на новый подход.

Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.

На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].

У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.

Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience

#moderndatastack #data

Distributed Systems Architecture

I have just read the “Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics” paper and decided to write a short blog post going through some of the key moments of the paper’s motivation. Let’s start. A decade ago…

1.7K viewsIvan Begtin, 05:50

В России когда ищешь где почитать про технологии сразу вспоминаешь про Хабр, в каком-то смысле, естественный монополист в технических публикациях, но у Хабра есть постепенный сдвиг в общетехнологические, а не технические темы.

Честно скажу в последние годы я читаю Хабр скорее реже чем чаще чем зарубежные блоги.

А вот из зарубежных платформ выбор есть, хотя и не так уж велик:
* Medium [1] - очень много технологических блогов и публикаций, про данные особенно в Towards data science [2]. Но, спектр тем там куда шире чем технологии, пишут обо всём. Из достоинств: хорошая персонализация и то что не все публикации маркетинговый буллшит.
* Dev.to [3] скорее платформа для начинающих разработчиков для публикации простых гайдов и рецептов. Это как обратная сторона Stackoverflow, но не вопросы, а ответы. Для начинающих полезно, а найти там глубокий текст сложно.
* Hashnode [4] что-то среднее между dev.to и medium по глубине текстов, много лонгридом, но большая часть публикаций про программирование фронтэнда. Совсем мало публикаций про данные.

В итоге самый интересный контент происходит из научных и крупных ненаучных конференций и личных блогов. А вот в части текстов про бизнес на данных и рынок данных большая часть самых интересных авторов на Substack [5]․ При том что Substack - это не про сообщество, а про вещание миру через рассылку и блог (первична рассылка). Там можно почитать Benn Stancil [6] которого я тут регулярно цитирую, там блог/рассылка dbt [7] и ещё много других блогов в категории Technology, всячески их рекомендую.

Я и сам веду там рассылку на русском языке [8], а на английском веду блог на Medium [9].

А где Вы находите интересное чтение? Какие ещё есть хорошие платформы, блоги для регулярного профессионального чтения?

Ссылки:
[1] https://medium.com
[2] https://towardsdatascience.com
[3] https://dev.to
[4] https://hashnode.com/
[5] https://substack.com/
[6] https://benn.substack.com/
[7] https://roundup.getdbt.com/
[8] https://begtin.substack.com/
[9] https://medium.com/@ibegtin

#readings #data #blogging

Medium: Read and write stories.

On Medium, anyone can share insightful perspectives, useful knowledge, and life wisdom with the world.

1.7K viewsIvan Begtin, 07:36

Приятно что моя критика приводит к результатам, однако, обновленный реестр тоже надо будет проверить;)

Пока нет ощущения системности в этом решении.

#digital #itmarket

1.5K viewsIvan Begtin, 11:57

Forwarded from Минцифры России

📑 Актуализирован реестр аккредитованных ИТ-компаний

В результате из реестра исключено более 400 компаний. Это те организации, для которых деятельность в сфере информационных технологий не является основной.

Среди исключенных из реестра компаний:

▫️ более 150 бюджетных учреждений
▫️ 32 банка
▫️ 12 страховых компаний
▫️ и ряд других компаний, не относящихся к ИТ

Минцифры регулярно анализирует информацию о компаниях из реестра на ее соответствие необходимым требованиям. Например, в сентябре прошлого года из реестра было исключено около 1,6 тыс. организаций.

В этот раз Минцифры использовало сведения о деятельности компаний из открытых источников (включая официальный сайт организации), как дополнительную информацию для принятия решения о включении в реестр.

Раньше компаниям было необходимо только иметь профильный ОКВЭД.

Можно ли аккредитоваться сейчас?

В соответствии с законом о поправках в Налоговый кодекс с 1 августа 2022 года приостановлена подача заявлений до принятия нового порядка аккредитации. Сейчас Минцифры совместно с профильными ассоциациями и регионами ведет работу над совершенствованием критериев и процедуры аккредитации ИТ-компаний.

@mintsifry

1.6K viewsIvan Begtin, 11:57

По поводу вот этой "очистки реестра аккредитованных ИТ компаний" [1] не могу не добавить что список очищенных очень похож на тот что я передавал сотрудникам Минцифры РФ где-то месяц назад. И хорошо что хоть по нему они прошлись и проверили компании на соответствие их деятельности ИТ рынку, но это не значит что проверены все компании и проверка проведена полная.

Удивительно что в реестре аккредитованных нет до сих пор сайтов этих компаний и независимая проверка соответствия их деятельности ИТ рынку весьма затруднена, вернее трудоёмка.

Если бы я был человеком обидчивым и злопамятным, я бы расстроился что мои материалы сотрудники Минцифры теперь нигде не упоминают, но и ладно. В следующий раз просто никакие материалы не передам;)

А вот что важно - это то что реестр не ведётся как учётная система. Реестр должен быть не в виде Excel файла со списком, а в нём должна отражаться вся история изменений по компании, как это делается в нормальных реестрах.

В целом удивительно что Минцифра за эти годы так и не выпустила типового продукта ведения реестров, это кажется такой очевидной задачей, воспроизводимой во многих органах власти десятки раз.

Ссылки:
[1] https://t.iss.one/mintsifry/1343

#data #itmarket #digital

1.8K viewsIvan Begtin, edited 12:28

Европейский проект Copernicus анонсировал Jupyter Notebook Competition большое соревнование по созданию цифровых тетрадей Jupyter Notebook на их данных [1].

Для тех кто не знает, Copernicus - это, возможно, крупнейший проект по сбору и раскрытию данных спутникового мониторинга Земли.

В конкурсе 4 трека:
- исследуйте данные Copernicus
- визуализируйте изменения окружающей среды
- применяйте искусственный интеллект
- расскажите об опасениях и вызовах на планете Земля

Заявки принимают до 4 сентября, участвовать можно с 18 лет. В правилах пишут что участвовать могут кто угодно из Евросоюза и за его пределами, непонятно, распространяется ли это на россиян. Я так подозреваю что нет, но, возможно, стоит спросить организаторов.

Ссылки:
[1] https://notebook.wekeo.eu/

#opendata #challenges

2.7K viewsIvan Begtin, 15:01

it_anomalies_20220801.zip

Минцифры, конечно, почистили реестр аккредитованных компаний, да вот незадача, не до конца, не полностью и все. В архиве списки компаний для которых, за некоторым исключением, основная область - это не ИТ.
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?

Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.

#itmarket #digital #registries

1.9K viewsIvan Begtin, 16:39

"Когда алгоритм твой босс" [1] - это свежий подкаст от Mozilla с большим числом фактов, графиков в виде лонгрида [2] о экономике, влиянии, подотчетности ИИ и деятельности BigTech компаний.

Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами

И там же рекомендации по регулированию ИИ и этическим принципам.

Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.

И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.

Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.

Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/

#privacy #ai #regulation

The Internet Health Report 2022

When an Algorithm is Your Boss — The Internet Health Report 2022

Gig workers worldwide report directly to artificial intelligence in precarious jobs created by secretive corporations. What can be done?

2.0K viewsIvan Begtin, 04:44

Ещё находки про аккредитованные ИТ компании, как можно было догадаться самые интересные находки я не публиковал.

1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11

Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html

По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.

2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».

Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568

Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.

3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»

Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации https://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621

В создании ИТ продуктов и иной ИТ деятельности не замечена.
—
Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.

Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.

И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чём ~~правда~~ критерии, брат (с) ?

Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket

Яндекс Карты

Старый город, кафе, Петропавловская ул., 15, Пермь — Яндекс Карты

Рейтинг 3,7. 11 отзывов, 20 фото. Посмотреть номер телефона, часы работы, вход на карте и построить маршрут — вы можете в Яндекс Картах

2.5K viewsIvan Begtin, 05:53

В качестве регулярных напоминаний, если Вы изучаете открытые данные и хотите больше погрузиться в эту тему:
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.

Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).

Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜

Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.

А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).

Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru

#opendata #infoculture #donate

Инфокультура

Новости Информационной культуры. https://infoculture.ru

1.7K viewsIvan Begtin, 16:47

В The Markup очередная хорошая статья про приватность [1], на сей раз о компаниях которые собирают данные из автомобилей и о автомобилях.

В общей сложности это 37 компаний связанных с индустрией подключений к автомобилям, в оригинале - connected vehicle data industry. При том что этот рынок считают относительно молодым, его оценивают от 300 до 800 миллиардов долларов США к 2030 году [2].

Из автомобиля собирается самая разная информация: местонахождение, скорость, когда нажат тормоз, какая музыка играет, была ли открыта дверь, внутренняя температура и так далее. Всё это собирается, обрабатывается локально и передаётся, например, производителю автомобиля.

В статье немало примеров, особенно компаний создающих хабы данных перепродаваемых, например, страховым компаниям.

Выводы там оптимистичные, в том что производители автомобилей начинают идти по пути Apple и предлагать приватность как часть услуги, давая возможность ограничивать передачу данными другим компаниям. Например, так делает Porshe, в этой индустрии.

Лично я не столь оптимистичен, потому что целью Apple было перестроить рынок под себя и не только повысить приватность, но снизить возможности её нарушения для конкурентов и сохранить такую возможность для себя.

Тем не менее я бы зафиксировал следующее именно в отношении автомобилей:
1. Тренд на усиление сбора данных с автомобилей сохраняется и усиливается. Данных собирается всё больше и с большей частотой и гранулярностью.
2. Технологии позволяют собирать данные хоть со всех машин в мире, ограничения скорее в количестве машин выпускаемых основными вендорами и наличию чипов для них.
3. Учитывая значимость этих данных национальные регуляторы точно будут требовать их локализацию, а полиция захочет иметь к ним доступ.

Ссылки:
[1] https://themarkup.org/the-breakdown/2022/07/27/who-is-collecting-data-from-your-car
[2] https://www.documentcloud.org/documents/22120767-capgeminiinvent_vehicledatamonetization_pov_sep2020#document/p5/a2130948

#privacy #data

Who Is Collecting Data from Your Car? – The Markup

A firehose of sensitive data from your vehicle is flowing to a group of companies you’ve probably never heard of

2.9K viewsIvan Begtin, 19:46

В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.

Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.

Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.

И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.

Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/

#opendata #academy #openscience #machinelearning #datasets

docs.openalex.org

Overview | OpenAlex technical documentation

1.6K viewsIvan Begtin, 04:22

В OECD.ai, проекте ОЭСР по мониторингу инициатив внедрения ИИ в мире, на странице Российской Федерации [1] пропали все ссылки и упоминания инициатив по ИИ. Остались только новости которые, как я понимаю, собираются и отображаются автоматически.

По прямым ссылкам они ещё доступны [2], но по факту их более нет, даже при том что OECD.ai включает сведения не только по членам и кандидатам в ОЭСР.

Аналогично, теперь, недоступна страница страны в OECD Going Digital [3] где были профили стран по метрикам цифровой трансформации.

Хотя по России данных там теперь нет, проекты ОЭСР всё ещё хороший источник информации о госполитике в ИИ, цифровой трансформации и инноваций в госуправлении (OPSI) [4]

Ссылки:
[1] https://oecd.ai/en/dashboards/countries/RussianFederation
[2] https://oecd.ai/en/dashboards/policy-initiatives/2019-data-policyInitiatives-24901
[3] https://goingdigital.oecd.org/countries/rus
[4] https://oecd-opsi.org/

#opengov #government #oecd #ai

OECD Going Digital Toolkit

How are countries going digital? The OECD’s Toolkit helps measure, compare and find policy solutions.

1.6K viewsIvan Begtin, 08:31