Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для всех кто учится работать с данными и работать с SQL я рекомендую сразу начинать изучать dbt, например, по ссылкам из awesome-dbt [1] и начиная с бесплатного официального курса [2]. Пройдёт год-два максимум и dbt в России начнут повсеместно использовать, а для работы инженера-аналитика (analytics engineer) дистанционно на проект/компанию в любой стране - это будет одна из наиболее востребованных технологий.

Почему dbt? Потому что пока это наиболее развитый инструмент преобразования данных. Если в областях ETL/ELT, data orchestration, data visualization, BI и других есть масштабная конкуренция и авторы и создатели проектов регулярно пишут о том как заменить одно на другое или как отказаться от чего-либо, например, как отказаться от Airflow [3], то про dbt все пишут только о том как они заменили свои механизмы трансформации данных на dbt.

Продукт получился просто таки попаданием в яблочко, в России он мало применяется только по причине малой применимости тут других зарубежных облачных продуктов. Но важная особенность dbt что он, и облачный, и как изначальный open source продукт.

Ссылки:
[1] https://github.com/Hiflylabs/awesome-dbt
[2] https://courses.getdbt.com/collections
[3] https://blog.fal.ai/the-unbundling-of-airflow-2/

#datatools #studies #learning #sql #dbt
dbt Labs привлекли рекордные $222M инвестиций [1] при общей оценке в $4.2B (миллиардов долларов США) на свой продукт dbt Cloud. Сумма очень большая, но совершенно не удивительно что это произошло. Я ранее писал о том что dbt в каком-то смысле уникальный продукт давший второе рождение SQL. Если ранее каждый продукт по сбору или оркестрации данных обеспечивал самостоятельные механизмы их преобразования, то сейчас многие заменяют или подключают dbt под эти задачи. Фактически dbt становится индустриальным стандартом де-факто, действительно не так много альтернатив пригодных к немедленной промышленной эксплуатации.

Главный же недостаток dbt в "убийстве NoSQL". Многие продукты которые подчеркивали свои NoSQL языки запросов сейчас оказываются периферийными, находящимися за пределами Modern Data Stack или же определяемые как унаследованные базы данных, за пределами основных операционных процессов.

В любом случае, тем кто изучает SQL и работает с базами хотя бы от сотен таблиц, знание dbt есть и будет крайне полезным для профессионального развития и позиционирования себя на рынке труда.

Ссылки:
[1] https://blog.getdbt.com/next-layer-of-the-modern-data-stack/

#moderndatastack #startups #data #dbt
Весьма познавательное интервью [1] с George Fraser, сооснователем Fivetran, стартапа и продукта по сбору данных из многочисленных публичных источников/API и тд. В интервью он говорит про SQL, открытый код и революцию которую в это всё принесло появление dbt как продукта позволяющего создавать программные библиотеки для работы с SQL кодом.

Я уже несколько раз ранее писал что dbt стремительно набирает популярность, а создатели этого продукта уже привлекли огромные венчурные инвестиции.
При том что их облачный продукт для России уже малоактуален, а вот open source версия более чем востребована. В каком-то смысле это уникальный ренессанс работы с данными с помощью SQL, никем не ожидавшийся ещё несколько лет назад.

Ссылки:
[1] https://future.a16z.com/sql-needs-software-libraries/

#data #sql #dbt #articles #reading
Особенно интересное на конференции Coalesce - это публичный анонс моделей данных на Python. Об этом в презентации их продуктовой команды [1] и можно найти на сайте конференции [2] запись выступления, по ключевым словам "Announcing dbt's Second Language: When and Why We Turn to Python". По моему, пока доступно только после регистрации на сайте, но может уже выложили или скоро выложат для всех.

Хотя и поддержка моделей данных на Python там в зачаточном уровне, новость эта замечательна для тех кто не любит SQL или любит его сильно меньше чем программировать на Python. Например, я языки запросов к данным вроде SQL люблю сильно меньше чем обработать данные на скриптовом или ином языке программирования. Это сила привычки и вопрос доступности инструментов.

Авторы пока заявляют о том что эти модели в самом зачаточном виде, но с ними уже можно работать.

По ним уже есть документация [3], чат и дорожная карта.

Лично для меня главным недостатком dbt остаётся то что это инструмент, как и pandas, для работы с табличными (плоскими) моделями данных.

И, важно, конечно, помнить что самые продвинутые возможности по удобству они реализуют в своём dbt cloud IDE которое постепенно превращается в облачную среду подготовки данных [4].

Ссылки:
[1] https://docs.google.com/presentation/d/1e3wB7EQ0EXugGhfCjVCp_dDFEbY_uKyVjMqG1o7alnA/edit?usp=sharing
[2] https://coalesce.getdbt.com/
[3] https://docs.getdbt.com/docs/building-a-dbt-project/building-models/python-models
[4] https://docs.google.com/presentation/d/11-71MIh9ASGM2n-i0KxXc_yf6w1tq0l1bUobWdnfloY/edit?usp=sharing

#data #datatools #dbt #python #datamodelling
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.

Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser

#opensource #ai #machinelearning #dbt #dataengineering #etl
По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.

Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.

Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials

#itmarket #it #moderndatastack #dbt