🔋 Труба данных
4.03K subscribers
330 photos
5 videos
9 files
451 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://x.com/aliafonzy43/status/1705548273233109076

Если вы когда-нибудь переживали про качество своего кода, про баги, которые ваш код генерирует или ваши косяки на проде, сходите в ответы и репосты к твиту, вам станет сильно легче: народ рассказывает как роняли базы, убивали кластеры и вгоняли продакшен на много сотен тысяч юзеров в 50* ошибки на несколько часов.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩7👍31
Статистика канала: Сентябрь 2023

Пост саморефлексии, не ожидайте тут откровений про пайплайны и хранилища, скоре это просто возможность для меня посмотреть на прогресс этого канала в количестве подписчиков, количестве 💩 что вы мне накидываете и в целом просто быть более открытым с вами про то, сколько это времени занимает, какие идеи дальше у меня в голове и вот это все.

Что мы имеем:
- Всего 11 сообщений я запостил в канал
- Канал вырос примерно на 3% человек
- В среднем 1800 людей видят посты (что же с остальными 800 😂)
- Самый топовый пост был анонс про статью на Бусти (на этой неделе уже будет в открытом доступе)
- Сам Бусти и Патрен пока в стартовом состоянии (5 платных подписчиков),

Не самые плохие результаты, но есть куда двигаться. Эпизодически в комментах прилетают хорошие мысли и идеи, которые надо воплощать.
Спасибо большое, что читаете меня, всегда буду рад и благодарен вашей поддержке - https://boosty.to/datapipeline и https://www.patreon.com/DataPipeline (это всего лишь 100 рублей в месяц или 4 евро, если вы с иностранной картой).

"Труба Данных" @ohmydataengineer | Поддержать автора на Patreon | на Бусти
👍12💩123🥱2🔥1
https://aws.amazon.com/certification/certified-data-engineer-associate/

У AWS появилась сертификация по Data Engineering.
Пока только Associate, думаю, Professional / Specialist тоже появится плюс-минус в скором времени.

Наличие сертификата у вас может как и добавить вам плюсов в резюме, а может и вообще никак не повлиять.
Возможно, вы и так уже все знаете, а мб при подготовке узнаете что-то интересное.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
👍8💩8
New Generative AI Infra Stack

Не знаю, что с этим roadmap делать. Предлагаю просто взглянуть на него, запомнить пару рандомных тулов и сервисов и отложить на годик. Можно еще посмотреть на тулмап от Sequoia - https://www.sequoiacap.com/article/generative-ai-act-two/

Потом принесут на поддержку и интеграцию. А пока можно не тратить на это времени.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩6👍5👎1🔥1
Airflow Summit

https://www.youtube.com/playlist?list=PLGudixcDaxY29qXIXhd90htHp_BFk-Bqf

Выложили видосики с прошедшего Airflow Summit. 36 докладов и выступлений про текущее и будущее Airflow.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩9🔥6👍2
Идеальный пайплайн данных!

@ohmydataengineer
🔥72💩14👍6😢2
How it started (~2012) VS How it is going (2023)

Кстати, текущую карту можно интерактивно покликать вот тут https://mad.firstmark.com/

@ohmydataengineer
😢19🥱9💩7👍4
https://eng.lyft.com/from-big-data-to-better-data-ensuring-data-quality-with-verity-a996b49343f6

У Lyft (это который конкурент Gett 😂) есть собственное решение в Data Quality - называется Verity.
Хорошая описательная статья про то, как это работает у них там.

@ohmydataengineer
🔥15💩4
#пятничныйюмор

Я знаю, вы здесь только ради этого контента!

@ohmydataengineer
👍40🔥14💩5
https://www.youtube.com/watch?v=-YQZUUYOccY

У этого канала непростительно мало просмотров и подписчиков! Челик выкладывает короткие видео (5-10 минут) про базовые концепции, подходы, темы в Data Engineering. Не смотря на очень кликбейтный заголовок, внутри все очень честно: если вы думаете, что везде сноуфлейками обмазались и MDS заадоптили, а только вы, центурион, сидите на своем хадупосраке и ковыряете умерший ORC - вы ошибаетесь.
Отвратительные архитектуры, всратые модели и костыли есть везде, от ООО "Рога и Копыта" до ФААНГа.

Не расстраивайтесь.
(Кстати, если не верите не очень популярному инфлюенсеру, вот вам более популярный говорит про то же самое https://www.youtube.com/watch?v=l58yH2aOoJU)

@ohmydataengineer
👍27💩3
Из новостей, не связанных с данными, но интересных - GitHub Copilot Chat доступен теперь и в JetBrains IDE (раньше был только в VS Code (именно чат, не автодополнение).


https://github.blog/2023-11-08-universe-2023-copilot-transforms-github-into-the-ai-powered-developer-platform/


@ohmydataengineer
👍9💩4🔥1
dbt Labs Appoints Tech Veteran Brandon Sweeney as President and Chief Operating Officer

По заголовку новости и не скажешь, что это особенное или важное событие. Ну назначили какого-то чувака и назначили.
Дьявол кроется в деталях, а именно Брендон до этого занимал позицию Chief Revenue Officer в Hashicorp.

Одно из последних событие, что произошло с Hashicorp, создателем Terraform, и связанное с деньгами - что они заадоптили BSL - Business Source License, "подприкрыли клапан OSS" (цитата из инторнетов😄).
А если точнее, подприкрыли воздух всем, кто поверх Terraform / Vault / Nomad / Consul делал какой-нибудь софт или стартап.
И думаю, что Брендон приложил большую руку к этому событию и теперь он в dbt.

Что это значит для будущего dbt Core? Посмотрим, но для core, думаю, ничего в целом не изменится с приходом Брендона. Возможно, пропорция по сравнению с Cloud изменится.
А может и поменяется...

@ohmydataengineer
💩7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Пока мы тут жисоны перекладываем...

Одна из вех текущего проекта на работе это уйти от всей старой, накликанной руками в облаке архитектуры и перейти к IaaC и автоматизации. Сейчас по 2-3 командам мы можем развернуть EKS кластер, на нем поднимается ArgoCD, который в свою очередь поднимает всякие Jenkins и подобное (а там конфигурация тоже кодом).

Так вот наткнулся тут на интересный проект (но пока вроде не публичный) - рисуешь архитектуру на салфетке, подкладываешь ее в OpenAI Vision, а тот уже в python diagrams и ChatGPT тебе терраформ код бахает. Для старта и бойлерплейта - самое оно.

Автор - вот

@ohmydataengineer
👍22💩6🔥51
https://sadservers.com/

Если вам вдруг захотелось сменить Data Engineering на что-то другое, например DevOps / SRE - SadServers прикольная штука, позволяет попрактиковаться в стиле LeetCode, но в дебаггинге и поиске проблемы.


@ohmydataengineer
👍173🔥2💩1
Пятничный юмор навеян личным опытом, когда кто-то хочет делать BI в Mixpanel, а кто-то в Tableau, а еще был Power BI, еще графички в Braze есть...

@ohmydataengineer
👍6💩2
https://openai.com/blog/openai-announces-leadership-transition


Ждем миллиард рилсов с заголовками «ChatGPT все…?»

Еще буквально неделю назад OpenAI анонсировали маркетплейс GPT, спрос был такой, что пришлось остановить возможность покупки премиума, а сегодня вот такая фигня:


Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.

Для CEO оч плохая характеристика на выход + насколько я помню (но тут могу ошибиться), стоков у Сэма почти не было.


@ohmydataengineer
💩5👍1🔥1