Forwarded from Inside Yandex Cloud
This media is not supported in your browser
VIEW IN TELEGRAM
Кто такой разработчик Serverless?
В новом выпуске «Как мы делаем Yandex Cloud» погрузились в тему Serverless-решений. Сергей Ненашев, старший разработчик Serverless Computing Core, поделился впечатлениями от онбординга в команду. Рассказал о своём первом коммите и релизе, чем занимается разработчик Serverless, и какие компетенции ему для этого нужны.
📎 Смотрите на YouTube, Rutube и VK Видео
📎 Слушайте на Яндекс Музыке
📎 Или на любой удобной подкаст-платформе
В новом выпуске «Как мы делаем Yandex Cloud» погрузились в тему Serverless-решений. Сергей Ненашев, старший разработчик Serverless Computing Core, поделился впечатлениями от онбординга в команду. Рассказал о своём первом коммите и релизе, чем занимается разработчик Serverless, и какие компетенции ему для этого нужны.
📎 Смотрите на YouTube, Rutube и VK Видео
📎 Слушайте на Яндекс Музыке
📎 Или на любой удобной подкаст-платформе
Forwarded from Yandex Cloud
В Yandex Cloud есть инструменты работы с потоковыми нагрузками YDB Topics — они реализованы в отдельном сервисе Yandex Data Streams. Однако что делать компаниям, которые уже пользуются Apache Kafka и хотят перейти на Yandex Data Streams?
Рассказываем в статье, как использовать Kafka API для работы с топиками YDB без переписывания всего кода.
#yacloud_articles
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Yandex Cloud
Шахматы — наша новогодняя тема: точные ходы и продуманные стратегии вдохновляют команду Yandex Cloud на новые достижения.
Подобно гроссмейстерам мы продолжаем расти и развивать бизнес, помогаем клиентам и партнёрам становиться сильными фигурами на рынке, а разработчикам создавать новые технологии и делать выигрышные ходы в работе и жизни.
В карточках мы провели параллель между итогами года и шахматными рекордами, а все подробности читайте в нашем блоге по ссылке.
#yacloud_news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 5 minutes of data
Data Contracts
Низкое качество данных угрожает ‘дата командам’, рискуя доходами и доверием. Контракты данных решают эту проблему, обеспечивая качество данных посредством четких определений, владения и соблюдения требований CI/CD.
В этом руководстве рассматриваются основы архитектуры контрактов данных, от ее значения для реальных приложений и стратегий реализации, а также пропагандируется ее внедрение в организациях.
Скачать книгу можно по ссылке
Низкое качество данных угрожает ‘дата командам’, рискуя доходами и доверием. Контракты данных решают эту проблему, обеспечивая качество данных посредством четких определений, владения и соблюдения требований CI/CD.
В этом руководстве рассматриваются основы архитектуры контрактов данных, от ее значения для реальных приложений и стратегий реализации, а также пропагандируется ее внедрение в организациях.
Скачать книгу можно по ссылке
Forwarded from 5 minutes of data
State of Open Source Read-Time OLAP Systems 2025
2024 год стал значимым для развития OLAP-систем с открытым исходным кодом. В данной статье рассматриваются основные тренды и технологии, которые будут определять развитие отрасли в 2025 году.
Ключевые тренды 2024 года:
• Apache Doris укрепил свои позиции как один из лидеров рынка, особенно в Китае
• ClickHouse продолжает активное развитие, фокусируясь на улучшении производительности и расширении функционала.
Так же Clickhouse остается безусловным лидером по всем направлениям.
Что ожидать в 2025:
Технологические тренды
• Развитие гибридных архитектур, объединяющих преимущества различных OLAP-систем
• Рост популярности облачных и serverless-решений
• Углубление интеграции с инструментами искусственного интеллекта и машинного обучения
• Фокус на real-time аналитику и потоковую обработку данных
Бизнес-тренды
• Увеличение спроса на специалистов по OLAP-системам
• Рост инвестиций в развитие open-source решений
• Расширение использования OLAP в средних и малых компаниях
• Повышение требований к безопасности и соответствию регуляторным нормам
💡 Интересные факты:
• За последний год количество проектов, использующих open-source OLAP решения, выросло более чем на 40%
• Более 60% крупных компаний планируют миграцию на open-source OLAP-системы в ближайшие 2 года
• Объем данных, обрабатываемых OLAP-системами, увеличился в 2.5 раза за последний год.
📊 Прогнозы на будущее:
Ожидается, что рынок open-source OLAP-систем продолжит активный рост, а конкуренция между различными решениями приведет к появлению новых инновационных функций и улучшению производительности существующих систем.
@data_whisperer
2024 год стал значимым для развития OLAP-систем с открытым исходным кодом. В данной статье рассматриваются основные тренды и технологии, которые будут определять развитие отрасли в 2025 году.
Ключевые тренды 2024 года:
• Apache Doris укрепил свои позиции как один из лидеров рынка, особенно в Китае
• ClickHouse продолжает активное развитие, фокусируясь на улучшении производительности и расширении функционала.
Так же Clickhouse остается безусловным лидером по всем направлениям.
Что ожидать в 2025:
Технологические тренды
• Развитие гибридных архитектур, объединяющих преимущества различных OLAP-систем
• Рост популярности облачных и serverless-решений
• Углубление интеграции с инструментами искусственного интеллекта и машинного обучения
• Фокус на real-time аналитику и потоковую обработку данных
Бизнес-тренды
• Увеличение спроса на специалистов по OLAP-системам
• Рост инвестиций в развитие open-source решений
• Расширение использования OLAP в средних и малых компаниях
• Повышение требований к безопасности и соответствию регуляторным нормам
💡 Интересные факты:
• За последний год количество проектов, использующих open-source OLAP решения, выросло более чем на 40%
• Более 60% крупных компаний планируют миграцию на open-source OLAP-системы в ближайшие 2 года
• Объем данных, обрабатываемых OLAP-системами, увеличился в 2.5 раза за последний год.
📊 Прогнозы на будущее:
Ожидается, что рынок open-source OLAP-систем продолжит активный рост, а конкуренция между различными решениями приведет к появлению новых инновационных функций и улучшению производительности существующих систем.
@data_whisperer
Forwarded from 5 minutes of data
Сегодня в 21:30 на канале СТАФФ инженеры будет стрим про современные базы данных.
Стрим на основе статьи, про которую был пост в канале.
Стрим на основе статьи, про которую был пост в канале.
Telegram
СТАФФ Инженеры
Сегодня 21:30 смотрим на современные базы данных
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
Ссылка на статью https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024…
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
Ссылка на статью https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024…
Forwarded from 5 minutes of data
SQL or Death? Seminar Series – Spring 2025
Университет Carnegie Mellon проведет серию интересных семинаров. И аналогию для SQL написали тоже очень интересную.
Все семинары проходят в Gates Hillman Center 6501 и транслируются онлайн через Zoom.
📅 Следите за обновлениями расписания выступлений на официальном сайте: https://db.cs.cmu.edu/seminar2025/
Университет Carnegie Mellon проведет серию интересных семинаров. И аналогию для SQL написали тоже очень интересную.
Предположим, кто-то с 1970-х годов натирает свое тело бензином. Вы бы вышли замуж за этого человека, даже если бы от него ужасно пахло? Но предположим, что этот человек начинает принимать душ каждый день, чтобы пахнуть немного лучше. Они также отлично ладят практически со всеми на планете и зарабатывают много денег. А как насчет того, чтобы выйти замуж за этого человека сейчас? Это вопрос, с которым мы сталкиваемся сегодня в мире баз данных. SQL 50 лет. Сначала он пах как-то странно, но с годами стал лучше. Было много попыток заменить его, но ни одна из них не увенчалась успехом.
Группа исследования баз данных Университета Карнеги-Меллон изучает этот вопрос. В докладах этой серии будут представлены идеи о том, как (1) заставить SQL работать как можно быстрее, или (2) заменить SQL чем-то лучшим.
Все семинары проходят в Gates Hillman Center 6501 и транслируются онлайн через Zoom.
📅 Следите за обновлениями расписания выступлений на официальном сайте: https://db.cs.cmu.edu/seminar2025/
Forwarded from 5 minutes of data
𝐃𝐞𝐥𝐭𝐚 𝐋𝐚𝐤𝐞 𝐯𝐬. 𝐀𝐩𝐚𝐜𝐡𝐞 𝐈𝐜𝐞𝐛𝐞𝐫𝐠:
Пост на substack
TLDR
🔹 Delta Lake создан для Spark-heavy workflows , предлагает тесную интеграцию с Databricks и беспрепятственный прием потоковой передачи.
🔹 Apache Iceberg спроектирован с учетом совместимости нескольких движков, что делает его идеальным выбором для команд, совместно использующих Spark, Trino, Flink и Snowflake. Метаданные имеют значение.
Распределенная модель Iceberg легко масштабируется, а журнал транзакций Delta Lake может создавать узкие места за пределами Spark.
Эволюция схемы? Iceberg позволяет изменять столбцы без перезаписи данных, а Delta требует явных действий по слиянию.
Разделение? Айсберг автоматически адаптируется; Delta нуждается в предварительно определенных разделах, что часто требует дорогостоящей перезаписи.
🚀Преимущество в производительности? Iceberg представляет файлы Puffin для расширенной оптимизации запросов, чего не хватает Delta Lake.
💡 Что выбрать? Если вы ставите олл-ин на Spark и Databricks, выбирайте Delta.
Нужна межплатформенная гибкость? Айсберг побеждает.
А с каким табличным форматом работаете вы?
@data_whisperer
Пост на substack
TLDR
🔹 Delta Lake создан для Spark-heavy workflows , предлагает тесную интеграцию с Databricks и беспрепятственный прием потоковой передачи.
🔹 Apache Iceberg спроектирован с учетом совместимости нескольких движков, что делает его идеальным выбором для команд, совместно использующих Spark, Trino, Flink и Snowflake. Метаданные имеют значение.
Распределенная модель Iceberg легко масштабируется, а журнал транзакций Delta Lake может создавать узкие места за пределами Spark.
Эволюция схемы? Iceberg позволяет изменять столбцы без перезаписи данных, а Delta требует явных действий по слиянию.
Разделение? Айсберг автоматически адаптируется; Delta нуждается в предварительно определенных разделах, что часто требует дорогостоящей перезаписи.
🚀Преимущество в производительности? Iceberg представляет файлы Puffin для расширенной оптимизации запросов, чего не хватает Delta Lake.
💡 Что выбрать? Если вы ставите олл-ин на Spark и Databricks, выбирайте Delta.
Нужна межплатформенная гибкость? Айсберг побеждает.
А с каким табличным форматом работаете вы?
@data_whisperer
Forwarded from Starrocks and modern data stack
А как выглядит ваша репа dbt?
В начале внедрения мы несколько раз меняли подходы к размещению и именованию объектов в dbt и в итоге со временем выработали свой подход и обоснование, почему всё так. А потом года через 2 к нам пришел очень классный человек Антон и вполне обосновано не согласился - у него был свой опыт и свое обоснование.
DBT - чистой воды конструктор под себя и сделать удобно можно по всякому. Варианты с размещением по слоям, по потребителям, по доменам - все идет в ход.
Но каждый раз когда аналитики открывают репу их встречает вот такая пугающая картина, и она мало связана с sql :)
Тащу все наши проекты dbt (сейчас их 6) в новый гитлаб с новым ci, с новыми окружениями и тестированием. Опять же переход с тестирования на баше в обвязку на питоне смотрится приятно.
В начале внедрения мы несколько раз меняли подходы к размещению и именованию объектов в dbt и в итоге со временем выработали свой подход и обоснование, почему всё так. А потом года через 2 к нам пришел очень классный человек Антон и вполне обосновано не согласился - у него был свой опыт и свое обоснование.
DBT - чистой воды конструктор под себя и сделать удобно можно по всякому. Варианты с размещением по слоям, по потребителям, по доменам - все идет в ход.
Но каждый раз когда аналитики открывают репу их встречает вот такая пугающая картина, и она мало связана с sql :)
Тащу все наши проекты dbt (сейчас их 6) в новый гитлаб с новым ci, с новыми окружениями и тестированием. Опять же переход с тестирования на баше в обвязку на питоне смотрится приятно.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Системный дизайн — это основа для создания надежных, масштабируемых и производительных систем обработки данных. Он помогает выбирать подходящие инструменты для ETL/ELT, проектировать хранилища, оптимизировать запросы и ресурсы. Без него сложно обеспечить отказоустойчивость, безопасность и интеграцию потоков данных.
Подборка с YouTube по Системному дизайну
▫️PlayList System Design (Interview Pen) - English
▫️Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
▫️System Design - теория шардирования | Как масштабировать базы данных
▫️Как кэшировать данные | Теория кэширования - System Design
▫️Проектирование баз данных за 40 минут. Практика
▫️PlayList Системный дизайн (Eugene Suleimanov)
▫️PlayList System Design Fundamentals (ByteByteGo)
▫️Как подготовиться и пройти System Design Interview. Александр Поломодов
▫️Владимир Маслов — System Design. Как построить распределенную систему и пройти собеседование
Подборка с YouTube по Системному дизайну
▫️PlayList System Design (Interview Pen) - English
▫️Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
▫️System Design - теория шардирования | Как масштабировать базы данных
▫️Как кэшировать данные | Теория кэширования - System Design
▫️Проектирование баз данных за 40 минут. Практика
▫️PlayList Системный дизайн (Eugene Suleimanov)
▫️PlayList System Design Fundamentals (ByteByteGo)
▫️Как подготовиться и пройти System Design Interview. Александр Поломодов
▫️Владимир Маслов — System Design. Как построить распределенную систему и пройти собеседование
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
System Design. База. Разбор книги "Высоконагруженные приложения". Глава 1
Давно приметил эту книжечку, а теперь можно посмотреть обзор🔥
https://youtu.be/owjrIB_5go8?si=DecnwBn9YycV3Jxc
Давно приметил эту книжечку, а теперь можно посмотреть обзор🔥
https://youtu.be/owjrIB_5go8?si=DecnwBn9YycV3Jxc
YouTube
System Design. База. Разбор книги "Высоконагруженные приложения". Глава 1
HighLoad, отказоустойчивость, высокодоступность, паттерны проектирования, NoSQL, CAP, распределенность...! Сколько всего интересного скрывают современные IT сервисы!
Как же в этом не потонуть? Как систематизировать то, что известно?
Представляю вашему вниманию…
Как же в этом не потонуть? Как систематизировать то, что известно?
Представляю вашему вниманию…
Forwarded from Оптимизация хранилищ
Iceberg - набирающий популярность формат данных поддерживающий конкурентное обновление, DML, эволюцию схемы, скрытое партицирование и другое.
Расширил статью по типам хранения данных orc, parquet еще и на iceberg:
https://blog.skahin.ru/2019/08/orc.html#iceberg
- Схема формата данных
- Конкурентный доступ
- Улучшение партицирования
- Версионирование
- Компакция и распределение
Расширил статью по типам хранения данных orc, parquet еще и на iceberg:
https://blog.skahin.ru/2019/08/orc.html#iceberg
- Схема формата данных
- Конкурентный доступ
- Улучшение партицирования
- Версионирование
- Компакция и распределение
blog.skahin.ru
Оптимизация хранения данных в bigdata
ORC: формат файла Параметры по умолчанию Максимальная доля уникальных значений для создания справочника ...
Чтобы что-то в каталоге нашлось, нужно что-то в каталог добавить! ☝️
Что же мешает данным оказаться в нём? «Метаинформационное налогообложение». Это оплата усилий, необходимых для документирования и ввода метаданных. А так как эффективный дата-каталог критически важен для успеха бизнеса, платить этот «налог» придётся.
🔍 Как найти тех, кто будет его (и данные) собирать, и как оптимизировать «налог» — то есть снизить затраты? Читайте в нашей статье про киллер фичи дата-каталогов.
https://t.iss.one/avito_data_tech/134?comment=303 #DataCatalog
Что же мешает данным оказаться в нём? «Метаинформационное налогообложение». Это оплата усилий, необходимых для документирования и ввода метаданных. А так как эффективный дата-каталог критически важен для успеха бизнеса, платить этот «налог» придётся.
https://t.iss.one/avito_data_tech/134?comment=303 #DataCatalog
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM