https://t.iss.one/leftjoin_insider/317
Вообще по пятницам я размещаю мемы, но сегодня, когда все внимание к каналу приковано, я сделаю исключение. Я не размещаю вакансии, почти не размещаю эвенты (за исключением моей любимой SmartData👍 ) и курсы, но сегодня не смог отказать коллеге с острова с поиском.
DE, Middle, ремоут пофиг где.
Все по ссылке выше.
За это злостное нарушение принципов я, возможно, получу, худи 😁
Вообще по пятницам я размещаю мемы, но сегодня, когда все внимание к каналу приковано, я сделаю исключение. Я не размещаю вакансии, почти не размещаю эвенты (за исключением моей любимой SmartData
DE, Middle, ремоут пофиг где.
Все по ссылке выше.
За это злостное нарушение принципов я, возможно, получу, худи 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
LEFT JOIN Insider
Middle Data Engineer в LEFT JOIN
У нас появилось несколько новых проектов, поэтому мы снова ищем дата-инженеров в команду. Хотите работать над интересными и разнообразными кейсами с заказчиками со всего мира? Тогда читайте вакансию ниже, возможно, это именно…
У нас появилось несколько новых проектов, поэтому мы снова ищем дата-инженеров в команду. Хотите работать над интересными и разнообразными кейсами с заказчиками со всего мира? Тогда читайте вакансию ниже, возможно, это именно…
1💩14👍5❤1👎1
https://antirez.com/news/151
Начиная с Redis 8, он снова open-source под AGPL, а не особо никем не признаваемой SSPL
@ohmydataengineer - канал "🕯 Труба Данных"
Начиная с Redis 8, он снова open-source под AGPL, а не особо никем не признаваемой SSPL
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5💩1
https://www.cloudquery.io/blog/how-we-handle-billion-row-clickhouse-inserts-with-uuid-range-bucketing
Очередная приятно-читаемая маготка про Clickhouse
@ohmydataengineer - канал "🕯 Труба Данных"
Очередная приятно-читаемая маготка про Clickhouse
6 billion rows synced per month
Data from 2,500 cloud accounts (1,900 AWS accounts + 600 Azure subscriptions)
Configuration from 800+ Kubernetes clusters managing around 400,000 pods
6-7 million rows of real-time data at any given moment
4 TB of new data ingested monthly
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
CloudQuery
How We Handle Billion-Row ClickHouse Inserts With UUID Range Bucketing | CloudQuery Blog
How we solved memory explosion issues in ClickHouse when processing billions of rows of cloud configuration data using an Insert-Splitter with UUID-range bucketing technique.
🔥2
Разблокировалось тут забавное воспоминание!
Cвою первую работу в айтишке (в Х5) я получил довольно забавно: случайно увидел пост от одного из хедов в фейсбуке, что ребята нанимают дата саентистов. Написал в личку "Я не DS, но умный и смышленый!".
Мое резюме отправили руководителю разработки, который меня позвал на собес (тут я уже обрадовался от радости). А собес я провалил, знатно, причем вопросы были не алгоритмические упражнения с литкода, а вполне себе разработческие, например, чем отличается `git pull` от `git fetch`?
Но мне дали второй шанс: тестовое домашнее задание. Нужно было написать сервис, который делает всякое разное с записями в базе данных. И я тут отыгрался: и докер контейнер сделал, и документацию на английском, и скрипт деплоя, и даже все в облако положил и сделал доступным, куча свистопирделок.
Потом уже мой начальник Сергей признался, что дал тестовое задание, чтобы я с ним не справился, и мне стало стыдно и я не писал бы больше им. А когда они получили его и увидели, они поняли, что меня надо брать.😂
У Сергея я многому научился с точки зрения инженерной мысли. Узнал тут, что он ведет свой инженерный канал, советую вам взглянуть на него, возможно, подчерпнете себе что-то интересное
>>> @roadofbugs_channel <<<
Cвою первую работу в айтишке (в Х5) я получил довольно забавно: случайно увидел пост от одного из хедов в фейсбуке, что ребята нанимают дата саентистов. Написал в личку "Я не DS, но умный и смышленый!".
Мое резюме отправили руководителю разработки, который меня позвал на собес (тут я уже обрадовался от радости). А собес я провалил, знатно, причем вопросы были не алгоритмические упражнения с литкода, а вполне себе разработческие, например, чем отличается `git pull` от `git fetch`?
Но мне дали второй шанс: тестовое домашнее задание. Нужно было написать сервис, который делает всякое разное с записями в базе данных. И я тут отыгрался: и докер контейнер сделал, и документацию на английском, и скрипт деплоя, и даже все в облако положил и сделал доступным, куча свистопирделок.
Потом уже мой начальник Сергей признался, что дал тестовое задание, чтобы я с ним не справился, и мне стало стыдно и я не писал бы больше им. А когда они получили его и увидели, они поняли, что меня надо брать.😂
У Сергея я многому научился с точки зрения инженерной мысли. Узнал тут, что он ведет свой инженерный канал, советую вам взглянуть на него, возможно, подчерпнете себе что-то интересное
>>> @roadofbugs_channel <<<
👍11💩5🔥4
Forwarded from Клуб CDO
Comparing Analytics Engines
Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.
Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)
Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.
В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.
https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.
Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)
Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.
В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.
https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
www.onehouse.ai
ClickHouse vs StarRocks vs Presto vs Trino vs Apache Spark™ — Comparing Analytics Engines
Read about how Apache Spark, ClickHouse, StarRocks, Presto, and Trino stack up against each other in terms of scalability, concurrency, and more.
👍9🔥7❤2
Исследование специалистов по работе с данными — 2025
DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.
Зачем участвовать?
– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.
🗂 Пример прошлогоднего исследования — https://devcrowd.ru/ds24
📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.
👉 Пройти опрос - https://survey.alchemer.eu/s3/90842227/data-2025
@ohmydataengineer
DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.
Зачем участвовать?
– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.
🗂 Пример прошлогоднего исследования — https://devcrowd.ru/ds24
📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.
👉 Пройти опрос - https://survey.alchemer.eu/s3/90842227/data-2025
@ohmydataengineer
Исследование специалистов DS/ML/AI-направлений, 2024
Исследование рынка специалистов DS/ML/AI-направлений, 2024
DevCrowd вместе с Контуром провели исследование рынка специалистов DS/ML/AI-направлений, 2024
💩6👍3❤2🔥2
https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouse
Тут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack
@ohmydataengineer - канал "🕯 Труба Данных"
Тут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
ClickHouse
ClickStack: A High-Performance OSS Observability Stack on ClickHouse
We're delighted to announce ClickStack: the open-source observability stack built on ClickHouse - logs, metrics, traces, and session replay in one blazing-fast, developer-friendly platform.
🔥8👍4
Неделя или месяц покупок
- Snowflake -> Crunchy Data https://techcrunch.com/2025/06/02/snowflake-to-acquire-database-startup-crunchy-data/ (видимо, чтобы сделать Snowflake Postgres)
- Salesforce -> Informatica https://techcrunch.com/2025/05/27/salesforce-acquires-informatica-for-8-billion/ (оно еще живо и дергается на 8 миллиардов 🤪)
- Alation -> Numbers Station https://techcrunch.com/2025/05/20/alation-acquires-numbers-station-to-bolster-its-ai-agent-offerings/ (шо-то модное для агентов)
- ServiceNow -> Data.World https://techcrunch.com/2025/05/07/servicenow-acquires-data-world-two-months-after-acquiring-moveworks/ (кто-нибудь слышал про этот каталог и governance platform?)
- Databricks -> Neon https://techcrunch.com/2025/05/14/databricks-to-buy-open-source-database-startup-neon-for-1b/ (видимо, чтобы сделать Databricks Postgres... oh wait!)
Обратите внимание на первое в списке и последнее. Совпадение? Не думаю..
@ohmydataengineer - канал "🕯 Труба Данных"
- Snowflake -> Crunchy Data https://techcrunch.com/2025/06/02/snowflake-to-acquire-database-startup-crunchy-data/ (видимо, чтобы сделать Snowflake Postgres)
- Salesforce -> Informatica https://techcrunch.com/2025/05/27/salesforce-acquires-informatica-for-8-billion/ (оно еще живо и дергается на 8 миллиардов 🤪)
- Alation -> Numbers Station https://techcrunch.com/2025/05/20/alation-acquires-numbers-station-to-bolster-its-ai-agent-offerings/ (шо-то модное для агентов)
- ServiceNow -> Data.World https://techcrunch.com/2025/05/07/servicenow-acquires-data-world-two-months-after-acquiring-moveworks/ (кто-нибудь слышал про этот каталог и governance platform?)
- Databricks -> Neon https://techcrunch.com/2025/05/14/databricks-to-buy-open-source-database-startup-neon-for-1b/ (видимо, чтобы сделать Databricks Postgres... oh wait!)
Обратите внимание на первое в списке и последнее. Совпадение? Не думаю..
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
TechCrunch
Snowflake to acquire database startup Crunchy Data | TechCrunch
Cloud data platform Snowflake has announced its intent to acquire Crunchy Data, a Postgres database partner.
❤8👍7
Simon Osipov
Редкое явление для нашего острова! Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!
Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
Tally Forms
Let us get to know each other better!
Made with Tally, the simplest way to create forms.
🔥4
https://ducklake.select
DuckDB -> Duck Data Lake.
Ну вы поняли.
@ohmydataengineer - канал "🕯 Труба Данных"
DuckDB -> Duck Data Lake.
Ну вы поняли.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
DuckLake
DuckLake is an integrated data lake and catalog format
DuckLake delivers advanced data lake features without traditional lakehouse complexity by using Parquet files and your SQL database. It's an open, standalone format from the DuckDB team.
🔥8
Мои бывшие коллеги продолжают поставлять годный контент в пятничную рубрику!
@ohmydataengineer - канал "🕯 Труба Данных"
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21
Clickhouse 25.5
https://clickhouse.com/blog/clickhouse-release-25-05
@ohmydataengineer - канал "🕯 Труба Данных"
https://clickhouse.com/blog/clickhouse-release-25-05
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍1
Давненько я не рассказывал про другие каналы и ничего не репостил (да и не писал в целом почти 2! недели).
Как-то надо возвращаться в строй =)
Вот, например, Алиса попросила рассказать про свой канал про дата-виз. Мб кому-то будет полезно и интересно 😏
Как-то надо возвращаться в строй =)
Вот, например, Алиса попросила рассказать про свой канал про дата-виз. Мб кому-то будет полезно и интересно 😏
❤2
Forwarded from Датавиз в BI • Алиса Ручкина
Первый дашборд в новой рубрике #референс
Референс (от англ. reference — «отсылка», «справка») — это изображение, которое используется для поиска вдохновения и идей.
💡И то, что вдохновляет, и то, откуда можно взять концепцию.
Под этим хэштегом я планирую выкладывать примеры дашбордов и отмечать в них интересные детали, которыми можно обогатить свои проекты.
Почему я решила создать такую рубрику?
В визуализации данных популярен формат «прожарки», когда эксперты критически оценивают дашборды и предлагают варианты улучшения.
Такие разборы очень полезны для развития датавиз-навыков и понимания того, «как не надо», но для развития также важно тренировать насмотренность на хорошее и черпать свежие идеи.
Итак, открывает рубрику «антипрожарки» дашборд Прадипа Кумара HR Attrition Dashboard, который занял 3-е место в номинации «Бизнес-аналитика» в конкурсе Information is Beautiful 2022.
Что интересного хочется отметить?
✅ Есть переключатель «Показать только текучесть», чтобы убрать с дашборда отображение второй метрики
✅ Есть подсказка для пользователя, что дашборд кликабельный и при нажатии на элементы графиков дашборд будет фильтроваться по ним
✅ В карточках KPI названия метрик написаны светло-серым цветом и более мелким шрифтом, потому что акцент сделан на сами числа
✅ Есть переключатель для изменения гранулярности графика с динамикой: W/M/Q/Y – неделя/месяц/квартал/год.
При выборе другого периода перестраивается сама визуализация и изменяется название в подписи предыдущего периода для величины изменения
✅ В этом же графике динамики есть ориентир для анализа — линия среднего значения
✅ Таблица небольшая и находится в нижнем правом углу, таким образом не занимает много места и не перетягивает внимание на себя.
Кому нужно, тот выгрузит или увеличит таблицу с детализированными данными, а по умолчанию акцент в дашборде сделан на общие показатели и визуализации
✅ Указан автор дашборда (в левом нижнем углу)
❓Что еще вы бы взяли на заметку?
Для развития рубрики присылайте примеры дашбордов: @alisaruchkina. Буду рада их рассмотреть!
#дашборд
Референс (от англ. reference — «отсылка», «справка») — это изображение, которое используется для поиска вдохновения и идей.
💡И то, что вдохновляет, и то, откуда можно взять концепцию.
Под этим хэштегом я планирую выкладывать примеры дашбордов и отмечать в них интересные детали, которыми можно обогатить свои проекты.
Почему я решила создать такую рубрику?
В визуализации данных популярен формат «прожарки», когда эксперты критически оценивают дашборды и предлагают варианты улучшения.
Такие разборы очень полезны для развития датавиз-навыков и понимания того, «как не надо», но для развития также важно тренировать насмотренность на хорошее и черпать свежие идеи.
Итак, открывает рубрику «антипрожарки» дашборд Прадипа Кумара HR Attrition Dashboard, который занял 3-е место в номинации «Бизнес-аналитика» в конкурсе Information is Beautiful 2022.
Что интересного хочется отметить?
✅ Есть переключатель «Показать только текучесть», чтобы убрать с дашборда отображение второй метрики
✅ Есть подсказка для пользователя, что дашборд кликабельный и при нажатии на элементы графиков дашборд будет фильтроваться по ним
✅ В карточках KPI названия метрик написаны светло-серым цветом и более мелким шрифтом, потому что акцент сделан на сами числа
✅ Есть переключатель для изменения гранулярности графика с динамикой: W/M/Q/Y – неделя/месяц/квартал/год.
При выборе другого периода перестраивается сама визуализация и изменяется название в подписи предыдущего периода для величины изменения
✅ В этом же графике динамики есть ориентир для анализа — линия среднего значения
✅ Таблица небольшая и находится в нижнем правом углу, таким образом не занимает много места и не перетягивает внимание на себя.
Кому нужно, тот выгрузит или увеличит таблицу с детализированными данными, а по умолчанию акцент в дашборде сделан на общие показатели и визуализации
✅ Указан автор дашборда (в левом нижнем углу)
❓Что еще вы бы взяли на заметку?
Для развития рубрики присылайте примеры дашбордов: @alisaruchkina. Буду рада их рассмотреть!
#дашборд
👍5🔥3❤1
Агенты (не AI) говорят, что появился черновик (то есть сырая версия до редактуры) второй версии кабанчика.
@ohmydataengineer
@ohmydataengineer
👍9
Forwarded from .
Designing_Data_Intensive_Applications,_Second_Edition_Sixth_Early.epub
7.3 MB
🔥19😢2👎1💩1