Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Пока я продолжаю думать над большим текстом про качество и управление данными в государстве, я сформулирую краткий тезис на котором буду настаивать.

В современном государстве любой продукт создаваемый органами власти или госучреждениями - это или продукт в виде данных или продукт основанный на данных (data product).

Например, продуктом на данных являются (должны быть!):
- информационные системы (самое очевидное!)
- реестры и информационные ресурсы
- нормативные документы включая их проекты
- все без исключения отчеты
- аналитические / государственные доклады и любая аналитика, например, "мониторинг" чего бы то ни было
- сервисы для граждан
и многое другое

Собственно data-driven government - это когда внутренние процессы выстроены так что сбор данных, потоки данных, их обработка и хранение выстроены под создание этих продуктов.

Причём за каждым есть своя логика:
1. Нормативные документы должны быть подкреплены обоснованиями. Они могут быть превращены в executive papers/executive laws (исполнимые документы) как это происходит сейчас с научными работами.
2. Аналитические документы/доклады и госдоклады все построены вокруг сбора данных, просто очень архаичным образом как правило.
3. Реестры и информационные ресурсы де-факто - это всегда про сбор и представление данных для, как правило, неограниченного числа потребителей.
и так далее и многое другое.

Катастрофу [отсутствия] цифровой трансформации в Росстате можно понять именно по наличию перехода к подобным явно заявленным дата продуктам, а не к текущим публикациям статистических сборников в формах непригодных для современной аналитической работы. Также как и у других ведомств публикующим сейчас госдоклады с годовой задержкой (Минприроды) или Росгидромет выдающий из систем своих учреждений только ежегодную/ежемесячную аналитику в виде PDF отчетов, вместо данных чуть ли не реального времени. И так далее, и тому подобное.

#opendata #data #dataproducts #dataasaproduct
В рубрике интересное регулярное чтение:
- Every product will be data product [1] - статья о том что любой корпоративный продукт превращается в data product. Мои предыдущие мысли о том что любой госпродукт - это data product очень похожи [2]. Превращение / восприятие любого цифрового продукта как продукта на данных - это очень логично.
- dbd: new ELT tool that you’ll love [3] - автор пишет про свежесозданный инструмент dbd для задач ETL (Extract Transform Load) с примерами загрузки данных. Не то чтобы ETL инструментов было мало, в том числе с открытым кодом, но может пригодится и этот [4]. Инструмент совсем свежий, написан на Python и, похоже, рабочий.
- (P)TL, a new data engineering architecture [5] - автор пытается описать новую архитектуру работы с данными как Pushing Transform Load, где Pushing заменяет Extract и сводится к тому что "давайте вместо извлечения данных будем получать их в структурированном виде из потоковых источников вроде Kafka". Проблема в том что такой подход работает только в случае управляемых источников данных, причём скорее внутренних или очень зрелых внешних способных отдавать поток данных.
- The Modern Metadata Platform: What, Why, and How? [6] - видение современной платформы метаданных от Metaphor, стартапа, как уже понятно, декларирующего создание именно такой платформы. Интересно, по сути, описанием стратегии на то что платформы управления метаданными - это давно уже не только индексация таблиц, а систематизация баз данных, дашбордов, озёр данных, ETL, A/ML и многое другое. Metaphor делает та же команда что создала Datahub в Lyft [7] так что эти рассуждения достойны внимания.
- AutoDoc — a project to document automatically your data warehouse [8] - о том как один из продуктов каталогизации данных автоматически документирует данные из популярных источников. Они отслеживают когда пользователь подключает данные из одного из популярных источников вроде Salesforce, Facebook Ads, Google Ads, HubSpot и ещё нескольких десятков (всего 61) и автоматически добавляют документацию и метаданные которые заранее собраны и привязаны к полям/таблицам из этих источников. Интересный подход, в DataCrafter'е мы используем другой, кучу правил идентификации типов данных на основе их содержания [9], технологически это сложнее.
- The MAD Landscape 2021 — A Data Quality Perspective [10] - обзор стартапов по автоматическому мониторингу инфраструктуры данных и качества данных, data observability и data quality. Обзор интересный про 3 основных способа контроля качества данных: на основе правил, машинного обучения и статистики.

А в качестве завершения, как сформулировано в последней заметке Data is eating the world по аналогии с известной фразой Марка Андерсена Software is eating the world.

Ссылки:
[1] https://medium.com/kyligence/every-product-will-be-a-data-product-19e648f0333
[2] https://t.iss.one/begtin/3423
[3] https://zsvoboda.medium.com/declarative-database-management-89d79e80d0cb
[4] https://github.com/zsvoboda/dbd
[5] https://adoreme.tech/p-tl-a-new-data-engineering-arhitecture-1dee8b7a84c0
[6] https://metaphor.io/blog/the-modern-metadata-platform
[7] https://engineering.linkedin.com/blog/2019/data-hub
[8] https://medium.com/castor-app/docmaster-a-project-to-auto-document-your-data-warehouse-castor-blog-69005927c4c3
[9] https://data.apicrafter.ru/class
[10] https://medium.com/validio/the-mad-landscape-2021-a-data-quality-perspective-e633f71c3eff

#dataquality #data #reading #dataengineering #metadata #dataproducts
У DataIKU [1], платформы для совместной работы над Data Science проектами, вышел небольшой обзор 3 Keys to a Modern Data Architecture Strategy Fit For Scaling AI [2].

Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.

Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.

Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture

#datascience #moderndatastack #data #dataproducts
Закрывается QRI [1], а на qri.cloud более нельзя размещать свои датасеты. QRI - это один из стартапов, публичный каталог данных, за которым я давно слежу. Проект существовал с 2016 года и удивительно что его создатели так и не привлекли инвестиций [2]. QRI позволяли подготовить данные для публикации с помощью довольно удобного инструмента QRI Desktop [3] или утилиту командной строки [4].

Например, если сравнивать QRI с Dolthub, Splitgraph и с Data.world, другими общедоступными каталогами данных, то им удалось привлечь финансирование и они продолжают развиваться.
А автор QRI делает два пессимистичных вывода что:
а) Данные - это не код (этот тезис понятный, но дискуссионный).
б) Сложно конкурировать с Web2 компаниями на стеке Web3 (этот тезис я не до конца понимаю)

В QRI было опубликовано 3,447 датасетов общим объёмом 49.2 гигабайта. Что, скажем честно, немного. К примеру в Splitgraph агрегирует 26 тысяч датасетов [5], в основном с порталов открытых данных США и Великобритании.

В DataCrafter'е у нас 3,4 терабайта данных [6] и 5972 набора данных, что, на самом деле, искусственное ограничение текущей архитектуры. В отличие от других каталогов данных DataCrafter базируется на NoSQL движке MongoDB, я рассказывал об этом на Smart Data Conf в презентации [7] и это даёт одновременно большие плюсы потому что данные не только плоские, а в DataCrafter'е больше половины данных это сложные структуры данных, не табличные. А с другой стороны это же и создает недостатки поскольку:
а) Стоимость хранения данных выше
б) У MongoDB есть ограничения числа коллекций на один экземпляр СУБД.

В остальном DataCrafter похож на Splitgraph. Нет данных от пользователей, только агрегируемые извне, ре-структурируемые и отдаваемые через API.

Возвращаясь к QRI я, по прежнему, удивлён что авторы закрывают его, а не перезапускают. Каталоги данных и технологии работы с ними сейчас на взлёте. Вообще на рынке работы с данными я вижу два восходящих тренда:
1) Технологии и продукты интегрированные в Modern Data Stack. Не "одна платформа/один продукт для всего", а именно что создание +1 компонента из которого дата инженеры собирают стек данных компании.
2) Альтернативные источники данных - в этом случае это data as a product, когда компания собирает какие-либо уникальные данные необходимые рынку. Более всего alternative data развито сейчас в финансовой сфере, особенно в сфере. Самый известный продукт в этой области - Quandl, купленный Nasdaq и превращённый в Nasdaq Data Link [8]

Ссылки:
[1] https://qri.io/winding_down
[2] https://www.crunchbase.com/organization/qri
[3] https://github.com/qri-io/desktop
[4] https://github.com/qri-io/qri
[5] https://www.splitgraph.com/explore
[6] https://data.apicrafter.ru/about
[7] https://www.beautiful.ai/player/-MtnRreZQZbCZH_PbKLf
[8] https://data.nasdaq.com/

#data #datacatalogs #qri #dataproducts
Поскольку так получилось что вот уже долгое время я больше читал чем писал что-то осмысленное. Тексты в канале - это просто поддержание этого чтения, заметки на полях. Я тут в несколько итераций думал о том как развивается рынок вокруг данных.

Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.

Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.

Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.


#data #dataproducts
Firebolt, израильский стартап облачной управляемой базы данных, получил очередной раунд финансирования в $100M и общую оценку в $1.4 миллиарда. Firebolt - это аналог Snowflake, Amazon Redshift, Google BigQuery. Главный акцент делают на скорости с позицией что "всем нравится Snowflake, мы делаем не хуже, но быстрее". Имеют хорошие шансы занять свою нишу в корпоративном стеке данных.

Другой стартап DreamIO получили раунд финансирования в $160M при общей оценке в $2 миллиарда. DreamIO предлагают облачное и корпоративное озера данных основанные на Apache Arrow.

Ещё один стартап Minio предоставляющие ПО для создания S3 совместимых хранилищ получили финансирование в $104M при общей оценке более чем в $1 миллиард. В основе Minio их же опенсорсный продукт.


Ссылки:
[1] https://techcrunch.com/2022/01/26/firebolt-a-data-warehouse-startup-raises-100m-at-a-1-4b-valuation-for-faster-cheaper-analytics-on-large-data-sets/
[2] https://www.dremio.com/press-releases/dremio-doubles-valuation-to-2-billion-with-160m-investment-towards-reinventing-sql-for-data-lakes/
[3] https://blog.min.io/ab_seriesb/

#startups #data #dataproducts
Каков объём инвестиций в компании создающие продукты по работе с данными? За 2021 год - это около $7 миллиардов долларов США. В обзоре Fundraising by data companies in 2021 [1] компании приведены по категориям:
- Data Platform & Infra
- Database & SQL
- ETL & Reverse ETL
- Data quality & observability
- Metadata & data governance
- BI & Dataviz
- AI & ML

Более всего средств привлекли:
- Databricks универсальная платформа по сбору и обработке и хранению данных, в общей сложности $2.6 миллиарда [2]
- Fivetran [3] онлайн сервис сбора данных и их доставки привлекли $565 миллионов
- Collibra [4] корпоративный каталог данных привлекли $250 миллионов
- Dataiku [5] продукт по совместной работе дата сайентистов привлекли $400 миллионов
- Neo4J [6] графовая NoSQL база данных, $325 миллионов

В обзоре только относительно крупные инвестиции, видно что значительная их часть идет на стартапы связанные с ИИ и с облачной инфраструктурой.

Ссылки:
[1] https://adat.blog/2022/02/fundraising-by-data-companies-in-2021/
[2] https://databricks.com/
[3] https://www.fivetran.com/
[4] https://www.collibra.com/us/en
[5] https://www.dataiku.com/
[6] https://neo4j.com/

#startups #data #investments #dataproducts #cloud
dyn.webm
837.8 KB
Dynamic World [1] проект World Resource Institute и Google по визуализации изменений на карте мира после катастроф, таких как пожары, наводнения, войны, извержения вулканов. На сайте карта с разрешением до 10 метров, много примеров катастроф и научная работа посвящённая этому проекту [2].

Главное что обещают, почти реальное время обновления данных. 5000 изображений обновляется ежесуточно, в зависимости от локации общее время обновления составляет от 2 до 5 дней.

Проекту не хватает разве что API и возможности исследователям работать с первичными данными напрямую, но думаю что это скоро появится причём в связке с UNDP и Humanitarian Data Exchange, уж очень эти проекты комплиментарны и подходят друг другу.

Ссылки:
[1] https://www.dynamicworld.app/
[2] https://www.nature.com/articles/s41597-022-01307-4

#data #google #wri #dataproducts
Среди идей на которых не хватает времени, есть те на которые, в первую очередь, не хватает партнеров/компаньонов/команды.
Иначе говоря тех кто готов на них не просто работать за деньги, а совместно искать финансирование, доводить до продукта и вести разработку. Причем не важно в России или за её пределами, главное желание и навыки.

Я из таких идей особенно выделю:
- Data wrangling на больших данных. Система очистки данных с человеческим интерфейслом похожая на OpenRefine, но на базе ClickHouse или другой колоночной базы данных. OpenRefine удобная штука, расширяемая и тд, но устаревшая технологически лет 5 назад, если не больше. Альтернатива ему дорогие коммерческие продукты вроде Trifacta за коммерческие деньги и очень посредственные продукты между ними. Идея требует больших усилий по созданию пользовательского интерфейса удобного и быстрого и работающего с большими данными, но бизнес модель понятна, рынок измерим и он гарантированно существует в мире.
- Поисковик по наборам данных, как альтернатива Google Dataset Search. Задача амбициозная, но реалистичная. Кроме каталогов открытых данных она может покрывать каталоги коммерческих данных и научных репозиториев. Большая часть каталогов имеют стандартизованные интерфейсы и вполне поддаются индексации. Бизнес модель не до конца очевидна и требует проработки, но вполне возможна.
- Безголовая система управления данными. Это каталог данных включающий их каталогизацию, документирование, описание, навигацию и тд. Безголовость в том что фронтэнд отделяется от серверной части, а серверная часть делается под управление через API и командную строку. В первую очередь под каталогизацию корпоративных хранилищ данных с фичами вроде автодокументирования, поиска по семантическим типам данных и тд.

Всё это технологические проекты с интеграцией в современную инфраструктуру данных. Если Вы думаете в тех же направлениях и готовы помогать искать инвесторов, вести разработку, проектировать, доводить до состояния продукта - пишите мне тут или на [email protected], буду готов обсудить.

#offers #data #dataproducts
Для тех кто проектирует продукты на данных Data Product Canvas [1] нарисованный профессором Leandro Carvalho и доступный всем желающим.

Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.

А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.

Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/

#itarchitecture #itdesign #data #dataproducts
Свежая схема THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE [1] в виде PDF файла и в интерактивном режиме. Выглядит любопытно, особенно интерактивная версия [2] поскольку в ней есть ссылки и дополнительная информация о продуктах.

При этом, скажу честно, я лично уже порядком устал смотреть на такие картинки, они пухнут год от года, реальной картины не дают, а скорее создают некий визуальный антураж структуре рынка.

Можно ли делать похожее по смыслу, но приятнее визуально? вот в чём вопрос.

Ссылки։
[1] https://mattturck.com/mad2023/
[2] https://mad.firstmarkcap.com/

#datamarket #datatools #dataproducts #visual
Подборка полезных ссылок по данным, технологиям и не только:
- Sparrow [1] движок для извлечения данных из документов и изображений, использует LLM, открытый код под GPL
- Genealogy of Relational Database Management Systems [2] хорошо нарисованная история создания баз данных, полезно для преподавания этой дисциплины. Минус только в том что она 2018 года и последние разработки не охватывает, плюс в том что большая часть фундаментальных трендов охвачена c 70х годов.
- Hamilton [3] ещё один движок с открытым кодом для преобразования данных. Выглядит неплохо, распространяется под BSD лицензией.
- Meaningful metrics: How data sharpened the focus of product teams [4] о том как устроены метрики в Duolingo. Полезное про то как устроены метрики в массовых технологических продуктах, а заодно является ответом на вопросы о том почему Duolingo устроено именно так как оно устроено.
- Bigtable transforms the developer experience with SQL support [5] анонс поддержки SQL в Bigtable. Кажется "а что тут такого?", а как сильно помогает в пользовательском опыте работы с данными там.

Ссылки:
[1] https://github.com/katanaml/sparrow
[2] https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/projekte/RDBMSGenealogy/RDBMS_Genealogy_V6.pdf
[3] https://github.com/dagworks-inc/hamilton
[4] https://blog.duolingo.com/growth-model-duolingo/
[5] https://cloud.google.com/blog/products/databases/announcing-sql-support-for-bigtable

#opensource #dataengineering #dataproducts #metrics #readings
Кстати, я пропустил точный момент когда это произошло, но явно не так давно. OpenCorporates, проект по сбору и предоставлению открытых данных о компаниях более не открытые данные [1]. Где-то в 2023 году, скорее всего в августе, но может и чуть раньше.

В этом смысле во всём что касается открытых данных есть давняя не нерешённая проблема про отсутствие устойчивых механизмов существования у open data проектов претендующих на создание качественных данных.

Из всех известных мне проектов только OSM и Wikidata имеют более менее устойчивую модель жизни. И то, Wikidata не претендует на полноту, а OSM находится под нарастающим давлением бигтехов.

Для сравнения, в случае открытого исходного кода ситуация лучше. Моделей существования устойчивых сообществ создающих open source продукт много:
- open source по умолчанию, коммерческий сервис в облаке
- заработок на услугах поддержки ПО
- работа изнутри бигтехов

и тд. не все варианты простые, но они хотя бы есть.

А в случае открытых данных, развилка в в одном из или:
- постоянное грантовое
- госфинансирование
- финансирование как часть научной инфраструктуры (госфинасирование и частное грантовое)

или не открытые данные. Я это наблюдаю не только в случае Open Corporates, но и в проектах Open Sanctions, AIDA и многих других. У всех их создателей есть дилемма. Или делаешь полностью открытое и получаешь поддержку сообщества, но в любой момент финансирование прекращается и проект стухает. Или не делаешь полноценно открытый проект и сообщество или игнорирует его или воспринимает с агрессией.

Гибридные на данных проекты делать сложно, если они удаются, то быстро уходят в коммерческий рынок данных, теряя полностью атрибуты открытости.


Ссылки:
[1] https://github.com/orgs/datasets/discussions/386

#opendata #opensource #business #dataproducts
Яндекс выпустил сервис геоаналитики [1] что очень любопытно в части изучения потребностей аудитории Яндекса, но, конечно, очень ограничено в части доступности данных.

Всё таки модель существования Яндекса - это довольно жёсткое правило что "данные входят, данные не выходят" или по английски Data in, no data out. Я называю это правило DINDO, которое часто встречается именно у дата-корпораций. Входят данные, а выходят дата продукты на их основе, но не сами данные, кроме очень редких исключений.

С точки зрения бизнеса это логично, с точки зрения открытости, хотелось бы чтобы было иначе, но мир несовершенен. Геоаналитические продукты в РФ есть также у Т-Банка, у сотовых операторов, Сбера и многих других.

Конкуренция - это хорошо, конкуренции нужно больше и охват других стран, а не только РФ.

Ссылки:
[1] https://yandex.ru/geoanalytics/platform

#yandex #dataproducts #data
В продолжение размышлений про то как публикуют открытые данные, я в какие-то из ближайших дней напишу про то как публикуют дата продукты и их качественные отличия от открытых данных (спойлер - большая часть дата продуктов коммерческие и в открытый доступ публикуют данные с ограничениями).

А пока в качестве одного из упоминаемых там материалов, проект OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.

В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]

В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.

Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.

На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].

Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.

Такое бывает и с опенсорс проектами переходящими в коммерциализацию.

Ссылки:
[1] https://opencellid.org
[2] https://wiki.opencellid.org/wiki/API
[3] https://unwiredlabs.com
[4] https://habr.com/ru/companies/promwad/articles/223635/
[5] https://opencellid.org/downloads.php
[6] https://community.opencellid.org/t/data-vs-statistics-differences/1327

#opendata #dataproducts #data