Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Закрывается QRI [1], а на qri.cloud более нельзя размещать свои датасеты. QRI - это один из стартапов, публичный каталог данных, за которым я давно слежу. Проект существовал с 2016 года и удивительно что его создатели так и не привлекли инвестиций [2]. QRI позволяли подготовить данные для публикации с помощью довольно удобного инструмента QRI Desktop [3] или утилиту командной строки [4].

Например, если сравнивать QRI с Dolthub, Splitgraph и с Data.world, другими общедоступными каталогами данных, то им удалось привлечь финансирование и они продолжают развиваться.
А автор QRI делает два пессимистичных вывода что:
а) Данные - это не код (этот тезис понятный, но дискуссионный).
б) Сложно конкурировать с Web2 компаниями на стеке Web3 (этот тезис я не до конца понимаю)

В QRI было опубликовано 3,447 датасетов общим объёмом 49.2 гигабайта. Что, скажем честно, немного. К примеру в Splitgraph агрегирует 26 тысяч датасетов [5], в основном с порталов открытых данных США и Великобритании.

В DataCrafter'е у нас 3,4 терабайта данных [6] и 5972 набора данных, что, на самом деле, искусственное ограничение текущей архитектуры. В отличие от других каталогов данных DataCrafter базируется на NoSQL движке MongoDB, я рассказывал об этом на Smart Data Conf в презентации [7] и это даёт одновременно большие плюсы потому что данные не только плоские, а в DataCrafter'е больше половины данных это сложные структуры данных, не табличные. А с другой стороны это же и создает недостатки поскольку:
а) Стоимость хранения данных выше
б) У MongoDB есть ограничения числа коллекций на один экземпляр СУБД.

В остальном DataCrafter похож на Splitgraph. Нет данных от пользователей, только агрегируемые извне, ре-структурируемые и отдаваемые через API.

Возвращаясь к QRI я, по прежнему, удивлён что авторы закрывают его, а не перезапускают. Каталоги данных и технологии работы с ними сейчас на взлёте. Вообще на рынке работы с данными я вижу два восходящих тренда:
1) Технологии и продукты интегрированные в Modern Data Stack. Не "одна платформа/один продукт для всего", а именно что создание +1 компонента из которого дата инженеры собирают стек данных компании.
2) Альтернативные источники данных - в этом случае это data as a product, когда компания собирает какие-либо уникальные данные необходимые рынку. Более всего alternative data развито сейчас в финансовой сфере, особенно в сфере. Самый известный продукт в этой области - Quandl, купленный Nasdaq и превращённый в Nasdaq Data Link [8]

Ссылки:
[1] https://qri.io/winding_down
[2] https://www.crunchbase.com/organization/qri
[3] https://github.com/qri-io/desktop
[4] https://github.com/qri-io/qri
[5] https://www.splitgraph.com/explore
[6] https://data.apicrafter.ru/about
[7] https://www.beautiful.ai/player/-MtnRreZQZbCZH_PbKLf
[8] https://data.nasdaq.com/

#data #datacatalogs #qri #dataproducts
Поскольку так получилось что вот уже долгое время я больше читал чем писал что-то осмысленное. Тексты в канале - это просто поддержание этого чтения, заметки на полях. Я тут в несколько итераций думал о том как развивается рынок вокруг данных.

Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.

Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.

Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.


#data #dataproducts
Firebolt, израильский стартап облачной управляемой базы данных, получил очередной раунд финансирования в $100M и общую оценку в $1.4 миллиарда. Firebolt - это аналог Snowflake, Amazon Redshift, Google BigQuery. Главный акцент делают на скорости с позицией что "всем нравится Snowflake, мы делаем не хуже, но быстрее". Имеют хорошие шансы занять свою нишу в корпоративном стеке данных.

Другой стартап DreamIO получили раунд финансирования в $160M при общей оценке в $2 миллиарда. DreamIO предлагают облачное и корпоративное озера данных основанные на Apache Arrow.

Ещё один стартап Minio предоставляющие ПО для создания S3 совместимых хранилищ получили финансирование в $104M при общей оценке более чем в $1 миллиард. В основе Minio их же опенсорсный продукт.


Ссылки:
[1] https://techcrunch.com/2022/01/26/firebolt-a-data-warehouse-startup-raises-100m-at-a-1-4b-valuation-for-faster-cheaper-analytics-on-large-data-sets/
[2] https://www.dremio.com/press-releases/dremio-doubles-valuation-to-2-billion-with-160m-investment-towards-reinventing-sql-for-data-lakes/
[3] https://blog.min.io/ab_seriesb/

#startups #data #dataproducts
Каков объём инвестиций в компании создающие продукты по работе с данными? За 2021 год - это около $7 миллиардов долларов США. В обзоре Fundraising by data companies in 2021 [1] компании приведены по категориям:
- Data Platform & Infra
- Database & SQL
- ETL & Reverse ETL
- Data quality & observability
- Metadata & data governance
- BI & Dataviz
- AI & ML

Более всего средств привлекли:
- Databricks универсальная платформа по сбору и обработке и хранению данных, в общей сложности $2.6 миллиарда [2]
- Fivetran [3] онлайн сервис сбора данных и их доставки привлекли $565 миллионов
- Collibra [4] корпоративный каталог данных привлекли $250 миллионов
- Dataiku [5] продукт по совместной работе дата сайентистов привлекли $400 миллионов
- Neo4J [6] графовая NoSQL база данных, $325 миллионов

В обзоре только относительно крупные инвестиции, видно что значительная их часть идет на стартапы связанные с ИИ и с облачной инфраструктурой.

Ссылки:
[1] https://adat.blog/2022/02/fundraising-by-data-companies-in-2021/
[2] https://databricks.com/
[3] https://www.fivetran.com/
[4] https://www.collibra.com/us/en
[5] https://www.dataiku.com/
[6] https://neo4j.com/

#startups #data #investments #dataproducts #cloud
dyn.webm
837.8 KB
Dynamic World [1] проект World Resource Institute и Google по визуализации изменений на карте мира после катастроф, таких как пожары, наводнения, войны, извержения вулканов. На сайте карта с разрешением до 10 метров, много примеров катастроф и научная работа посвящённая этому проекту [2].

Главное что обещают, почти реальное время обновления данных. 5000 изображений обновляется ежесуточно, в зависимости от локации общее время обновления составляет от 2 до 5 дней.

Проекту не хватает разве что API и возможности исследователям работать с первичными данными напрямую, но думаю что это скоро появится причём в связке с UNDP и Humanitarian Data Exchange, уж очень эти проекты комплиментарны и подходят друг другу.

Ссылки:
[1] https://www.dynamicworld.app/
[2] https://www.nature.com/articles/s41597-022-01307-4

#data #google #wri #dataproducts
Среди идей на которых не хватает времени, есть те на которые, в первую очередь, не хватает партнеров/компаньонов/команды.
Иначе говоря тех кто готов на них не просто работать за деньги, а совместно искать финансирование, доводить до продукта и вести разработку. Причем не важно в России или за её пределами, главное желание и навыки.

Я из таких идей особенно выделю:
- Data wrangling на больших данных. Система очистки данных с человеческим интерфейслом похожая на OpenRefine, но на базе ClickHouse или другой колоночной базы данных. OpenRefine удобная штука, расширяемая и тд, но устаревшая технологически лет 5 назад, если не больше. Альтернатива ему дорогие коммерческие продукты вроде Trifacta за коммерческие деньги и очень посредственные продукты между ними. Идея требует больших усилий по созданию пользовательского интерфейса удобного и быстрого и работающего с большими данными, но бизнес модель понятна, рынок измерим и он гарантированно существует в мире.
- Поисковик по наборам данных, как альтернатива Google Dataset Search. Задача амбициозная, но реалистичная. Кроме каталогов открытых данных она может покрывать каталоги коммерческих данных и научных репозиториев. Большая часть каталогов имеют стандартизованные интерфейсы и вполне поддаются индексации. Бизнес модель не до конца очевидна и требует проработки, но вполне возможна.
- Безголовая система управления данными. Это каталог данных включающий их каталогизацию, документирование, описание, навигацию и тд. Безголовость в том что фронтэнд отделяется от серверной части, а серверная часть делается под управление через API и командную строку. В первую очередь под каталогизацию корпоративных хранилищ данных с фичами вроде автодокументирования, поиска по семантическим типам данных и тд.

Всё это технологические проекты с интеграцией в современную инфраструктуру данных. Если Вы думаете в тех же направлениях и готовы помогать искать инвесторов, вести разработку, проектировать, доводить до состояния продукта - пишите мне тут или на [email protected], буду готов обсудить.

#offers #data #dataproducts
Для тех кто проектирует продукты на данных Data Product Canvas [1] нарисованный профессором Leandro Carvalho и доступный всем желающим.

Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.

А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.

Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/

#itarchitecture #itdesign #data #dataproducts
Свежая схема THE 2023 MAD (MACHINE LEARNING, ARTIFICIAL INTELLIGENCE & DATA) LANDSCAPE [1] в виде PDF файла и в интерактивном режиме. Выглядит любопытно, особенно интерактивная версия [2] поскольку в ней есть ссылки и дополнительная информация о продуктах.

При этом, скажу честно, я лично уже порядком устал смотреть на такие картинки, они пухнут год от года, реальной картины не дают, а скорее создают некий визуальный антураж структуре рынка.

Можно ли делать похожее по смыслу, но приятнее визуально? вот в чём вопрос.

Ссылки։
[1] https://mattturck.com/mad2023/
[2] https://mad.firstmarkcap.com/

#datamarket #datatools #dataproducts #visual
Подборка полезных ссылок по данным, технологиям и не только:
- Sparrow [1] движок для извлечения данных из документов и изображений, использует LLM, открытый код под GPL
- Genealogy of Relational Database Management Systems [2] хорошо нарисованная история создания баз данных, полезно для преподавания этой дисциплины. Минус только в том что она 2018 года и последние разработки не охватывает, плюс в том что большая часть фундаментальных трендов охвачена c 70х годов.
- Hamilton [3] ещё один движок с открытым кодом для преобразования данных. Выглядит неплохо, распространяется под BSD лицензией.
- Meaningful metrics: How data sharpened the focus of product teams [4] о том как устроены метрики в Duolingo. Полезное про то как устроены метрики в массовых технологических продуктах, а заодно является ответом на вопросы о том почему Duolingo устроено именно так как оно устроено.
- Bigtable transforms the developer experience with SQL support [5] анонс поддержки SQL в Bigtable. Кажется "а что тут такого?", а как сильно помогает в пользовательском опыте работы с данными там.

Ссылки:
[1] https://github.com/katanaml/sparrow
[2] https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/projekte/RDBMSGenealogy/RDBMS_Genealogy_V6.pdf
[3] https://github.com/dagworks-inc/hamilton
[4] https://blog.duolingo.com/growth-model-duolingo/
[5] https://cloud.google.com/blog/products/databases/announcing-sql-support-for-bigtable

#opensource #dataengineering #dataproducts #metrics #readings
Кстати, я пропустил точный момент когда это произошло, но явно не так давно. OpenCorporates, проект по сбору и предоставлению открытых данных о компаниях более не открытые данные [1]. Где-то в 2023 году, скорее всего в августе, но может и чуть раньше.

В этом смысле во всём что касается открытых данных есть давняя не нерешённая проблема про отсутствие устойчивых механизмов существования у open data проектов претендующих на создание качественных данных.

Из всех известных мне проектов только OSM и Wikidata имеют более менее устойчивую модель жизни. И то, Wikidata не претендует на полноту, а OSM находится под нарастающим давлением бигтехов.

Для сравнения, в случае открытого исходного кода ситуация лучше. Моделей существования устойчивых сообществ создающих open source продукт много:
- open source по умолчанию, коммерческий сервис в облаке
- заработок на услугах поддержки ПО
- работа изнутри бигтехов

и тд. не все варианты простые, но они хотя бы есть.

А в случае открытых данных, развилка в в одном из или:
- постоянное грантовое
- госфинансирование
- финансирование как часть научной инфраструктуры (госфинасирование и частное грантовое)

или не открытые данные. Я это наблюдаю не только в случае Open Corporates, но и в проектах Open Sanctions, AIDA и многих других. У всех их создателей есть дилемма. Или делаешь полностью открытое и получаешь поддержку сообщества, но в любой момент финансирование прекращается и проект стухает. Или не делаешь полноценно открытый проект и сообщество или игнорирует его или воспринимает с агрессией.

Гибридные на данных проекты делать сложно, если они удаются, то быстро уходят в коммерческий рынок данных, теряя полностью атрибуты открытости.


Ссылки:
[1] https://github.com/orgs/datasets/discussions/386

#opendata #opensource #business #dataproducts
Яндекс выпустил сервис геоаналитики [1] что очень любопытно в части изучения потребностей аудитории Яндекса, но, конечно, очень ограничено в части доступности данных.

Всё таки модель существования Яндекса - это довольно жёсткое правило что "данные входят, данные не выходят" или по английски Data in, no data out. Я называю это правило DINDO, которое часто встречается именно у дата-корпораций. Входят данные, а выходят дата продукты на их основе, но не сами данные, кроме очень редких исключений.

С точки зрения бизнеса это логично, с точки зрения открытости, хотелось бы чтобы было иначе, но мир несовершенен. Геоаналитические продукты в РФ есть также у Т-Банка, у сотовых операторов, Сбера и многих других.

Конкуренция - это хорошо, конкуренции нужно больше и охват других стран, а не только РФ.

Ссылки:
[1] https://yandex.ru/geoanalytics/platform

#yandex #dataproducts #data
В продолжение размышлений про то как публикуют открытые данные, я в какие-то из ближайших дней напишу про то как публикуют дата продукты и их качественные отличия от открытых данных (спойлер - большая часть дата продуктов коммерческие и в открытый доступ публикуют данные с ограничениями).

А пока в качестве одного из упоминаемых там материалов, проект OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.

В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]

В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.

Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.

На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].

Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.

Такое бывает и с опенсорс проектами переходящими в коммерциализацию.

Ссылки:
[1] https://opencellid.org
[2] https://wiki.opencellid.org/wiki/API
[3] https://unwiredlabs.com
[4] https://habr.com/ru/companies/promwad/articles/223635/
[5] https://opencellid.org/downloads.php
[6] https://community.opencellid.org/t/data-vs-statistics-differences/1327

#opendata #dataproducts #data