Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
То что утекли данные о покупках во Вкусвилл - это, конечно, очень плохо. Как и любые иные максимально персонифицированные данные позволяющие локализовать потребителей. Но что хорошо и правильно - это то что команда Вкусвилла не спрятала голову в песок, а пишут о своей реакции на утечку и принимаемых мерах [1] несмотря на негатив, которого они по любому избежать не смогут.

Всё это, конечно, никак не отменяет того что каждая такая утечка - это необратимый процесс. Посмотрим на реакцию регулятора и коллективные иски и будет ли Вкусвилл публиковать результаты расследования, организует ли внешний аудит безопасности и тд.

Ссылки։
[1] https://vkusvill.ru/media/journal/baza-dannykh-chto-proizoshlo.html

#privacy #dataleaks #leaks
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.

Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed

#data #datatools #startups #france
В рубрике "как это работает у них" два китайских портала открытых данных

Портал открытых данных города Чанчжоу, Китай opendata.changzhou.gov.cn [1]

580 наборов данных опубликовано 66 департаментами города. Из них 563 набора данных в виде файлов и 78 API, некоторые наборы данных одновременно файлы и API.

Для доступа к API требуют авторизации через Jiangsu Unified Identity Authentication System [2], для выгрузки в данных в машиночитаемом виде авторизация не нужна, можно просто скачать.

Наиболее востребованные данные по разрешениям на строительство, часто данные публикуются в виде большой коллекции Excel файлов.

Население Чанчжоу около 5.3 миллионов человек.

Портал открытых данных Пекинского государственного университета, Китай opendata.pku.edu.cn [3]

Создан на базе платформы Dataverse и включает 103 пространства с 355 наборами исследовательских данных по направлениям научных публикаций университета.

Не все данные общедоступны, некоторые доступные под эмбарго, только в момент публикации научной статьи или по запросу.

В Китае сотни существуют сотни порталов данных и открытых данных. А также существуют большие общедоступные наборы из государственных информационных систем. В скором будущем я отдельно напишу про другие их порталы.

Ссылки։
[1] https://opendata.changzhou.gov.cn/
[2] https://www.jszwfw.gov.cn
[3] https://opendata.pku.edu.cn/

#opendata #china #datasets #datacatalogs
В рубрике полезного чтения про данные, технологии и не только։
1. The state of AI in 2022—and a half decade in review [1]

Свежий обзор от McKinsey в виде аналитики по результатам опроса компаний из разных секторов экономики по поводу использования ИИ в их работе. Конечно, это не ИИ по большей части, а разного рода системы принимающие решения автоматически (ADM systems), но у консультантов они все проходят сейчас как "ИИ".

Я, честно говоря, не особенно доверяю обзорам от топовых международных консультантов, они чаще показывают то что эти консультанты продают или собираются продавать, а не реальные тренды. Особенно после появления ChatGPT все эти обзоры кажутся слегка... устаревшими. Тем не менее, для кого-то будет полезно узнать что проблема найма дата-сайентистов и дата-инженеров для крупнейших компаний никуда не исчезла, может что-то ещё полезное найдется.

2. Types of data products [2]

Автор блога Product Management for Data рассуждает о том какие типы продуктов на данных бывает. Для меня всё кажется очевидным, но для кого-то эта систематизация может быть полезной. Вкратце он классифицирует продукты как։ Platform, Insights и Activation. Все этому не хватает примеров, и понимания что часто бизнес модели и продуктовые модели на данных являются гибридными и сложными.

3. NormConf [3]

Онлайн конференция про данные и машинное обучение с кучей явно очень интересных тем, спикеров оттуда знаю немногих, а вот темы выглядят как актуальные. Платить за участие не нужно, регистрация бесплатная. Будет 15 декабря, но надо учитывать разницу во времени с США. Лично я скорее всего посмотреть смогу немного в трансляции, много дел в эти дни( Буду смотреть в записи довольно многое оттуда


Ссылки։
[1] https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review
[2] https://pmdata.substack.com/p/types-of-data-products
[3] https://normconf.com

#data #readings #ai
Была или не была утечка данных из school.mos.ru - это мы достоверно узнаем когда на их основе выйдет очередное расследование коррупции (или не выйдет, и мы тогда узнаем что утечки небыло). Скорее всего это прояснится очень скоро. Я бы словам ДИТа Москвы, чисто для профилактики, не верил, особенно после мутной истории с утечкой данных о заболевших ковидом в Москве.

Но давайте предположим что была или будет и вообще после начала мобилизации я на рынке инфобеза в России немало слышал о проблемах того что многие специалисты уехали из страны на фоне мобилизации назад не спешат. И что специалистов среднего уровня большой дефицит, так что сложно поверить что утечек не будет в каком-то разумном будущем.

Так вот предположим происходит утечка с данными из крупной государственной информационной системы. Что делать в этом случае? А далее этот вопрос опросом https://t.iss.one/begtin/4474

#privacy #dataleaks
В Ведомостях заметка о том что " «Сбер» предложил банкам, маркетплейсам и операторам открыть друг другу данные " [1]. Она под пэйволом, но смысл понятен даже из анонса. Если кратко, то Сбер в лице первого зампреда Александра Ведяхина говорит об обмене данными между банками и маркетплейсами и называет это open data в сравнении с open banking.

Как бы прокомментировать это помягче. Ведяхин плохо знает матчасть иначе он бы знал что open data - это не обмен данными между участниками рынка, а предоставление их неограниченному числу лиц под свободными лицензиями и в машиночитаемых форматах. А то что он описывает - это называется data sharing, практики обмена данными между участниками рынков. Причём эти практики в основном инициируются регуляторами для того чтобы монополисты делились данными с другими компаниями. Такие инициативы и многие проекты есть в Европейском союзе, например, в автомобильной отрасли или в фармацевтике. В ЕС есть целое руководство по этой теме Guidance on private sector data sharing [2].

Основная идея в таком обмене данных в том что есть отрасли в которых гражданин/пользователь/налогоплательщик выигрывает от обмена данными. Например, от обмена данными между фарм компании при разработке лекарств и ещё много где. Опять же, гражданин на первом месте во всех таких инициативах.

Выиграет ли что-то гражданин от того что банки и маркетплейсы будут обмениваться о нём информацией? Скорее проиграет, а то и потеряет когда о нём данные утекут в очередной раз.

Поэтому, я был о Ведяхине лучшего мнения, он мало того что путается в терминах, но и предлагает нечто прямо против интересов пользователей. Очень хочется надеяться что регулятор в лице ЦБ даст Сбербанку ․․․․․ (строгий ответ) за такие идейки.

И, повторюсь, что если в Сбербанке реально хотят раскрывать данные, то могут давно начать это делать публикуя их в открытым доступе, под свободными лицензиями в машиночитаемых форматах.

Ссылки։
[1] https://www.vedomosti.ru/technology/articles/2022/12/15/955362-sber-predlozhil-otkrit-drug-drugu-dannie
[2] https://digital-strategy.ec.europa.eu/en/policies/private-sector-data-sharing

#opendata #sberbank #idiotseverythere
Я всё забыл написать, ещё пару месяцев начал и почти доделал небольшую программную библиотеку для Python для чтения данных из файлов в любых форматах с данными։ csv, json, json lines, xml, parquet, orc, xls, xlsx и в перспективе других. Называется pyiterable [1] и воспроизводит и улучшает код который был в утилите командной строки undatum [2] и в ETL движке datacrafter [3].

По сути библиотека позволяет одинаковым образом читать любые табличные и не-табличные данные и возвращать их в виде словарей для Python (python dict). Причём файлы могут быть, например, сжатыми разными архиваторами и это тоже поддерживается.

Аналогично, для ряда форматов, поддерживается не только чтение, но и запись, опять же в виде записей в виде python dict.

Мне эта библиотека нужна была чтобы в итоге заменить код внутри Undatum и сделать универсальную утилиту преобразования данных из любого в любой формат которые могут быть контейнерами для данных.

На картинке изначальная модель библиотеки, сейчас реализовано около 70% возможностей. Ошибки, предложения можно отправлять в issues, исправления в код в pull request

Ссылки։
[1] https://github.com/apicrafter/pyiterable
[2] https://github.com/datacoon/undatum
[3] https://github.com/apicrafter/datacrafter

#datatools #opensource #apicrafter #data
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.

Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]

Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.

В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.

Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data

#opendata #data #cartography #microsoft #amazon #meta #tomtom
Simon Wilson собрал данные по притоку пользователей на платформу Mastodon и выложил данные и визуализацию [1]. Всего на платформу(-ы) Mastodon с 20 ноября 2022 года пришло около 1.8 миллиона человек. Много это или мало ? По сравнению с твиттером пока что мало, в Твиттере более 486 миллионов пользователей было на август 2022 г.

Важно помнить что Mastodon - это не один сайт, а более 16 тысяч связанных платформ для социального контента. К примеру, я пользуюсь mastodon.world, многие используют mastodon.social, как самый популярный, а есть много профессиональных сообществ, например, сообщество по цифровой архивации digipress.club и многие другие.


Ссылки։
[1] https://observablehq.com/@simonw/mastodon-users-and-statuses-over-time

#opendata #twitter #mastodon #social
Для тех кто задавался вопросом почему Google переносит карты с домена на "https://maps [dot] google [dot] com" на "https://google [dot] com/maps" есть объяснение этого события [1].

Нюанс в том что домен google.com теперь целиком будет получать доступ к вашему местонахождению, а не только сервис карт.

Идеи супераппов, кстати, построены на том же принципе. Запросить у вас как можно больше разрешений в рамках одного приложения.


Ссылки։
[1] https://twitter.com/Rudcher/status/1598596534656024576

#privacy #google #data
В рубрике "как это устроено у них" исследование DHS Open for Business [1] о том как организовано финансирование государственной слежки в городах США, взаимосвязь Department of Homeland Security, крупных корпоративных подрядчиков, муниципалитетов и лоббистов из отраслевых ассоциаций. Подготовлен The Public Accountability Initiative (PAI), командой которая ведёт проект LittleSis [2] в виде базы лоббистов, олигархов и госчиновников (Facebook of powerful people).

Доклад о том как DHS раздаёт деньги муниципалитетам в рамках программы Urban Area Security Initiative (UASI) и о том какие системы наблюдения за гражданами внедряются. А там полный список всякого разного среди подрядчиков։ Microsoft, SiteShoot, LexisNexis, Palantir, Motorola Solutions и ещё многие другие. А системы включают такие продукты как объединённые базы данных, системы автоматического распознавания номерных знаков, системы сбора биометрии, системы автоматического формирования профилей, системы анализа социальных сетей и многое другое.

Доклад, в виду специфики интересов авторов, посвящён рекомендациям того что такие технологии надо прекращать финансировать. На удивление я не увидел в рекомендациях того чтобы ставить их под гражданский контроль. Всем кто интересуется направлениями регулирования в этой отрасли и темами predictive policing (предсказательной/прогностической полиции) это будет интересно.

Ссылки։
[1] https://public-accountability.org/report/dhs-open-for-business/
[2] https://www.littlesis.org/

#privacy #security #government #usa #spending
Результаты опроса о реакции на утечки персональных данных. Если по каким-то пунктам есть разные мнения, то по двум։ аудит информационных систем и публичное расследование, всё достаточно очевидно. Компаниям пострадавшим от утечек персональных данных будет полезно взять это на заметку.

#privacy #security #polls
По поводу несмышлённой инициативы депутатов по запрету дистанционной работы для многих уехавших из РФ мне есть что сказать. У многих отъезд был и остаётся связан с ощущением, как бы помягче grande désastre (большой катастрофы), связанной, как с мобилизацией, так и с общим ухудшением окружающей действительности, так и с возможностью заниматься профессиональной деятельностью. Рассчитывать на то что ИТшники начнут возвращаться из-за запрета на дистанционную работу - это, даже не наивно, это [уже не]редкое недомыслие.

При введение запрета будет примерно так։
- крупный ИТ бизнес создаст дочерние предприятия в странах куда уехали их специалисты и переведёт их туда;
- расцветёт появление аутстаффинговых компаний с которыми будет контрактоваться средний бизнес. Раньше аутстафф западных компаний был в России, а теперь будет аутстафф российских в условном Узбекистане
- малый бизнес начнёт переоформлять программистов в ведомостях на "дистанционных исполнителей экзотических танцев" и иные интересные профессии не подпадающие под действие закона.

#russia #legislation #idiotseverythere
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.

Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser

#opensource #ai #machinelearning #dbt #dataengineering #etl
Почти всё что сейчас обсуждается про ИИ сводится или не обходится без упоминания ChatGPT. Но интереснее упоминание GPT-4, вот, например, удалённый теперь уже твит [1] с мыслями Сэма Альтмана, главы OpenAI.

Ключевые мысли։
1. Microsoft "по уши" в OpenAI. Bing получит ИИ поиск в следующем году.
2. GPT-4 выйдет во втором квартале 2023 г.
3. Google в большом волнении и планируют также ASAP внедрять ИИ для поиска. Вопрос как при этом они не порушат их же бизнес модель.
4. Ключевое сейчас не в прокачке конфигруации и языковых моделях, а тупо в безграничности экзафлопсов для потраченных на обучение моделей.
5. Большая рыночная тема в применении языковых моделей к конкретным областям, вроде программирования.

И, туда же, вдогонку статья в Forbes [2]
о 10 предсказаниях о ИИ на 2023 год.

Ссылки։
[1] https://twitter.com/rmlpt110/status/1605261913306308616
[2] https://archive.ph/IkRxT

#data #ai #future #2023 #chatgpt #gpt4