Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.

Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.

#moderndatastack #datastack #data #reading
Написал большой текст (больше обычно) о технологиях headless BI и reverse ETL как часть Modern Data Stack в рассылку [1] и пока писал удивился что не нашёл об этих явлениях материалов на русском языке. Тема всё более актуальная и в России тоже.

На всякий случай напомню что я веду рассылку на begtin.substack.com [2] куда пишу значительно реже, но более объёмные тексты. Со временем, подумываю, преобразовать её для текстов которые я раньше писал колонками для СМИ. Я и сейчас колонки иногда пишу, но куда реже чем даже год назад, хотя тем меньше не становится. В любом случае подписывайтесь, конечно же.

Меня, в последнее время, больше интересуют темы современного стека данных (modern data stack) и активное развитие технологий в этой области. Пока я вижу очень большой разрыв, в первую очередь идеологический, между технологиями работы с данными применяемыми внутри корпораций, технологиями вокруг открытых данных и технологиями работы с данными у исследователей. Очень разные стеки, технологии и подходы, в разных экосистемах, даже несмотря на преимущественное использование открытого кода во всех случаях.

Ссылки:
[1] https://begtin.substack.com/p/19
[2] https://begtin.substack.com

#opendata #datastack #data #tools
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin
В блоге Incident.io хорошая публикация A modern data stack for startups [1]. В отличие от многих рассуждений про современный стек данных в этот раз про случаи когда у Вас не так много данных, не так много связей между ними и в целом простые задачи. К примеру, Gitlab который я приводил в пример, или многие другие публикации о стеках технологии, в основном про крупные корпорации. А тут публикация про малый средний бизнес на собственном примере, когда у тебя из источников данных только продукт, поддержка и CRM, всего две системы извлечения данных, одно хранилище и один инструмент визуализации.

Правда, везде dbt, буквально куда ни ткнись, всюду для трансформации данных используют преимущественно dbt.

Публикация полезная, собрать стек несложно, выбор, в основном в том что выбирать из open source, а что из облачных решений. Всё чаще в облачных решениях выбирают хранилища данных и озера данных, а в open source преобразование.

Ссылки:
[1] https://incident.io/blog/data-stack

#datastack #startups #data #datatools