Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.

Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.

#moderndatastack #datastack #data #reading
У DataIKU [1], платформы для совместной работы над Data Science проектами, вышел небольшой обзор 3 Keys to a Modern Data Architecture Strategy Fit For Scaling AI [2].

Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.

Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.

Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture

#datascience #moderndatastack #data #dataproducts
Подборка свежих, новых или интересных open source инструментов по работе с данными.
- Tapestry Pipeline [1] - система управления данными с открытым кодом. Управления не в смысле management, а в смысле orchestration. Более точным переводом будет оркестровка, но по русски это звучит немного странно. Сам же движок. Выполняет те же задачи что и другие data orchestration frameworks [2] такие как Flyte, Prefect, Dagster и др. Интегрируется в dbt, Airbyte и другими инструментами.
- Prefect Orion [3] как пишут сами авторы the second-generation workflow orchestration engine. А то есть система управления потоками данных второго поколения. О нем же в блоге Prefect [4] с акцентом на то что можно не разделять обработку данных пачками и потоками.
- Prefect Artifact API [5] те же Prefect добавили Artifact API в последний open-source релиз. Это API для визуализации данных проходящих оркестровку и с демо использования Great Expectations как движка по контролю качества данных.
- Guardian [6] система управления доступом к базам данным и инструментам их обработки. Сейчас поддерживает Google BigQuery, Metabase, Airflow и облачные хранилища. Нет UI, но есть продвинутая командная строка и управление через yaml конфигурационные файлы. Проект делает команда ODPF (Open DataOps Foundation) из Индии и у них же большая подборка проектов на open source для разных аспектов работы с данными [7]
- Optimus [8] ещё один проект по оркестровке данных, от той же команды ODPF. Без UI, всё с командной строки. Сосредоточено вокруг Google Big Query, полезно тем кто создает продукты в этой среде. Но, находится в состоянии "глубокой разработки", API может часто меняться. Надо отдать должное, в ODPF любят и умеют документировать продукты.
- DataX [9] инструмент от команды Alibaba по синхронизации данных между разными СУБД, в том числе принципиально разными SQL и NoSQL. Такими как Postgres, Oracle, MongoDB, TSDB и другие. Почти всё на китайском языке. А также AddaX [10] построенный на DataX и чуть более развитый, как обещает автор. Тоже почти всё на китайском. Все учим китайский!

Ссылки:
[1] https://tapestry-pipeline.github.io
[2] https://www.moderndatastack.xyz/companies/Data-Orchestration
[3] https://orion-docs.prefect.io
[4] https://medium.com/the-prefect-blog/you-no-longer-need-two-separate-systems-for-batch-processing-and-streaming-88b3b9c1a203
[5] https://medium.com/the-prefect-blog/introducing-the-artifacts-api-b9e5972db043
[6] https://github.com/odpf/guardian
[7] https://github.com/odpf
[8] https://github.com/odpf/optimus
[9] https://github.com/alibaba/DataX
[10] https://github.com/wgzhao/Addax

#data #datatools #opensource #datapipelines #moderndatastack
У ORelly свежий отчет What Is Data Observability? [1] написанный Andy Petrella, основателем платформы Kensu.io, как раз по data observability. Отчёт, при этом, совершенно не рекламный, а как раз с разъяснением что такое наблюдаемость данных, кому это нужно и в каких ситуациях. Сравнений платформ, продуктов и решений нет, но есть аргументы, архитектура и описание DataOps без упоминания термина, вместо него, Applying DevOps Practices to Data, но смысл не меняется.

Если передать своими словами и как я понимаю, то Data Observability - это система/подход в мониторинге данных и всех происходящих с ними процессов: хранилищ, пайплайнов, дашбордов, преобразований, контроля качества, потоков и так далее. Остро актуально для больших корпораций со множеством команд работающих с данными и большим числом источников данных, продуктов на данных, хранилищ и так далее. Чуть менее актуально для средних компаний и совсем не так сильно актуально для небольших дата-команд и небольших стартапов потому и так всё на виду, процессов мало, хранилищ тоже.

Во многом продукты по Data Observability проистекает из нарастающей сложности систем из которых создаётся современный стек данных и позволяет эту сложность хотя бы переводить в управляемое состояние.


Ссылки:
[1] https://www.kensu.io/oreilly-report-what-is-data-observability

#data #moderndatastack
dbt Labs привлекли рекордные $222M инвестиций [1] при общей оценке в $4.2B (миллиардов долларов США) на свой продукт dbt Cloud. Сумма очень большая, но совершенно не удивительно что это произошло. Я ранее писал о том что dbt в каком-то смысле уникальный продукт давший второе рождение SQL. Если ранее каждый продукт по сбору или оркестрации данных обеспечивал самостоятельные механизмы их преобразования, то сейчас многие заменяют или подключают dbt под эти задачи. Фактически dbt становится индустриальным стандартом де-факто, действительно не так много альтернатив пригодных к немедленной промышленной эксплуатации.

Главный же недостаток dbt в "убийстве NoSQL". Многие продукты которые подчеркивали свои NoSQL языки запросов сейчас оказываются периферийными, находящимися за пределами Modern Data Stack или же определяемые как унаследованные базы данных, за пределами основных операционных процессов.

В любом случае, тем кто изучает SQL и работает с базами хотя бы от сотен таблиц, знание dbt есть и будет крайне полезным для профессионального развития и позиционирования себя на рынке труда.

Ссылки:
[1] https://blog.getdbt.com/next-layer-of-the-modern-data-stack/

#moderndatastack #startups #data #dbt
A different way to "bundle" Data Platforms [1] заметка от Petr Janda о другом подходе к категоризации современного стека данных. К существующим категориям Ingestion, Storage, Transformation, Virtualization, он добавляет кросс-категории перекрывающие эти: Provisioning, Scheduling, Access Management, Logging, Alerting.
Классификация вполне полезная, покрывающая многие задачи решаемые этими инструментами и то какие возможности ожидаются от продуктов.

Команда продукта Atlan по каталогизации данных привлекла $50M инвестиций в его развитие. По многим критериям это один из наиболее интересных продуктов по data lineage, отслеживания происхождения данных и каталогизации данных и метаданных [2].

Canner, тайваньский продукт построения data mesh, получил $3.5M инвестиций [3]. Они обещают, по сути, единую платформу с интеграцией с десятком видов хранилищ данных и с инструментами для потребления данных. Странно что при этом инвестиции невелики, впрочем это серия A инвестиций. Плюс вся документация на китайском языке [4]. Общедоступного продукта у них нет, только по запросу. Но документация весьма подробна.

Ссылки:
[1] https://petrjanda.substack.com/p/data-platform-bundle
[2] https://humansofdata.atlan.com/2022/03/atlan-raises-series-b/
[3] https://cannerdata.com/product
[4] https://docs.cannerdata.com/

#data #startups #moderndatastack
Полезное чтение про modern data stack

- сравнение продуктов построения озер данных: Apache Hudi, Apache Iceberg и Delta [1]. Всё крутится вокруг экосистемы Apache Spark, со своими достоинствами и недостатками
- обработка данных в реальном времени в Grab [2]. В основе MySQL + Kafka + Kafka Connect + Debezium.
- построение современного стека работы с данными в Whatsnot [3]. У них не очень сложный стек, большая часть наблюдений за ним скорее через инфраструктурные инструменты вроде Datadog.
- Benn Stancil пишет о том что для стартапов выручка не должна быть ключевым KPI [4], лично я несогласен, но чтение полезное.
- описание свежей системы управления потоками данных DopplerTask [5] с открытым кодом. Написано на Javascript, из СУБД привязка явная к MySQL и есть low-code инструмент построения потоков задач. Больше напоминает n8, если честно

Ссылки:
[1] https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f
[2] https://engineering.grab.com/real-time-data-ingestion
[3] https://medium.com/whatnot-engineering/building-a-modern-data-stack-at-whatnot-afc1d03c3f9
[4] https://benn.substack.com/p/startups-shouldnt-care-about-revenue?s=r
[5] https://medium.com/@feraswilson/dopplertask-a-revolutionary-open-source-automation-tool-b69e8167aba1

#datatools #opensource #reading #data #moderndatastack
Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture
Graphana Labs, разработчики продуктов с открытым кодом и облачного сервиса по мониторингу всякого, в основном связанного с DevOps привлекли $240 миллионов инвестиций [1]. Причём их хотя и можно отнести к DevOps, но у них в интеграциях заложено, например, подключение к Snowflake, и продукт позиционируется всё больше как observability platform, а тут естественное развитие в сторону интеграции в modern data stack.


Ссылки:
[1] https://grafana.com/about/press/2022/04/06/grafana-labs-announces-240-million-investment-round-led-by-gic-and-welcomes-new-investor-j.p.-morgan/

#data #startups #devops #moderndatastack
Свежий обзор The Modern Data Stack Ecosystem: Spring 2022 Edition [1] от Continual.ai, Конечно, как и все, они описывают Modern Data Stack с точки зрения их места в экосистеме, но, собственно и сам термин так активно используется стартапами именно для того чтобы показать позиционирование своего продукта. Удивительно что для MDS ещё нет холста в популярных системах проектирования вроде Miro и т.д.

Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]

Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.

Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/

#data #reading #tools #moderndatastack
Написал очередной текст на английском про будущее NoSQL в Modern Data Stack [1]. В этот раз не писал с нуля, а перевел свою февральскую статью [2] с русского на английский.

Заметка о том почему NoSQL продукты вроде MongoDB выпадают из современного стека данных и что с этим можно поделать.

Ссылки:
[1] https://medium.com/@ibegtin/future-of-nosql-in-modern-data-stack-f39303bc61e8
[2] https://begtin.substack.com/p/23

#data #datacatalogs #nosql #moderndatastack
В рубрике полезных инструментов по работе с данными сервис My MLOps Stack [1] позволяет собрать собственный стек технологий для Machine Learning выбрав инструменты под определенные задачи. К инструментам есть пояснения, их категоризация и целевое назначение. Также сильный акцент на open-source инструменты, без упоминания больших платформ. Но как один из инструментов моделирования технологического стека весьма полезный инструмент.

Ссылки:
[1] https://mymlops.com/

#datatools #moderndatastack #mlops
Для тех кто интересуется тем что такое Modern Data Stack [1] у вики сервиса дата каталога Castor собрана большая подборка технологий / стека данных используемых многими компаниями и стартапами такими как Coca-Cola, Airbnb, Amazon, Canva, Uber и другие. Стартапы чаще рассказывают о своих технологиях чтобы привлечь инженеров к решению интересных задач используя современные технологии, так что стартапов там будет больше.

Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․

И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]

Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.

Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin

#moderndatastack #datatools
Вышла версия 2.0 Meltano [1] ELT движка интегрированного в Modern Data Stack, все изменения как раз про эту интеграцию. В частности там поддерживается:
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики

И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.

Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/

#opensource #datatools #etl #elt #moderndatastack
Критический разбор понятия Lakehouse [1] когда-то представленный в научной статье сотрудниками Databricks [2]․ Lakehouse декларируется как замена озер данных и хранилищ данных со специализацией на машинном обучении и data science. Одна из ключевых особенностей в хранении данных в форматах ORC и Parquet․ Но, в целом, автор критикует статью с акцентом на отсутствие вызовов которые решались бы предлагаемым подходом что всё это больше похоже на маркетинг, а не на новый подход.

Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.

На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].

У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.

Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience

#moderndatastack #data
Такое чувство что всех дата продуктами интересуется, пользуется и развивается как аналитик данных и дата инженер не обошла тема modern data stack. Я регулярно писал о том как эта концепция набирала обороты последние 2-3 года и сейчас превратилась в какой-то непрерывный хайп. Вот и автор текста Is It Time To Rebrand (or Rethink) the Modern Data Stack? [1] соучредитель стартапа Validio задаётся тем же вопросом.

Не пора переосмыслить само это понятие?

А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].

Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.

А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.

Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/

#moderndatastack #data #readings
Полезное про данные, технологии и не только։
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.


Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable

#opensource #data #startups #moderndatastack
По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.

Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.

Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials

#itmarket #it #moderndatastack #dbt
Свежий доклад State of Data Engineering 2024 от команды LakeFS.

Подмечают три ключевых тренда:
1. Генеративный ИИ влияет на инструментарий в Modern Data Stack
2. Конкуренция дата продуктов растёт и, соответственно, моё дополнение, цена выхода на рынок с новым продуктом.
3. Открытые форматы создают закрытые заборы. В центре конфликт между Databricks и Snowflake.

Последнее утверждение спорное, скорее речь о том что есть такой конфликт на рынке, а уж каким образом и что используется при нем - не это в его основе.

Что характерно в таких обзорах State of ... так то что от 75 до 95 процентов инструментов, по разным категориям, это облачные продукты. К российским реалиям, к примеру, они не применимы. Как и ко многим особо закрытым не-российским стекам данных.

И, кстати, чтобы не забыть, составители таких State of продолжают путать открытые данные и каталоги открытых данных и корпоративные каталоги. А это очень разные продукты под очень разные задачи.

А если бы я выпускал свой State of data ... то делал бы два отдельных. Один для облака, а другой для корп оффлайна. А может быть даже и три. Ещё один для корп оффлайна открытого кода.

#datatools #opensource #stateof #dataengineering #moderndatastack #readings