DATABASE DESIGN – Telegram

DATABASE DESIGN

@database_design

1.41K subscribers

2.08K photos

3 videos

5.35K links

Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media

Download Telegram

About

Blog

Apps

Platform

DATABASE DESIGN

1.41K subscribers

DATABASE DESIGN

Как мы в объектном хранилище отказы реплик обрабатываем

Когда мы работаем с реплицированными системами, вопрос стратегии переключения между репликами, а тем более ее реализация — это довольно значительная головная боль. Если вашей системе необходимо работать с отказами штатно, то наш опыт может подсказать пару новых идей, как можно сделать отказы контролируемыми.

Я Владислав Доронин — Go-разработчик в команде S3 облачной платформы Cloud.ru Evolition. Хочу рассказать про подход к управлению отказами реплик, который мы кристаллизовали опытом выхода из строя разных частей системы. Практика показала, что массовые и не очень отказы приводят к взлету задержки ответов и увеличению количества client-side повторов, которые тоже висят. Пускай на уровне записи из-за требований репликации и гарантии мы много поделать с ситуацией не можем (хотя и там не все безнадежно), то вот чтение гораздо более гибкое. У нас получилось сделать retry на чтении красивыми, об этом сегодня и поговорим.

Читать: https://habr.com/ru/companies/cloud_ru/articles/979412/

#ru

@database_design | Другие наши каналы

91 views08:32

DATABASE DESIGN

Eventually-consistent СУБД — всё?

В начале 2010-х в профессиональном сообществе разработчиков и архитекторов распределенных систем широко обсуждалась идея, что мир баз данных вступает в новую эру. На фоне успехов крупных интернет-сервисов термин BASE начал использоваться как противопоставление классическому ACID. Хайп вокруг NoSQL, CAP-теоремы и масштабируемых систем породил лозунги вроде «SQL умер», «ACID — для банков, а мы делаем веб», «eventual consistency — это нормально».

Однако спустя полтора десятилетия крупные облачные и корпоративные платформы по-прежнему говорят языком транзакций, изолированных операций и строгой согласованности.

Что же произошло? Была ли «битва ACID и BASE» реальным технологическим разломом или лишь отражала ограничения своего времени?

В этой статье мы разберём, как возникли ACID и BASE, почему BASE быстро стал популярен и что на самом деле означает тезис «победил ACID» в 2020-е годы.

Читать: https://habr.com/ru/articles/980082/

#ru

@database_design | Другие наши каналы

81 views11:06

DATABASE DESIGN

Практический опыт StarRocks: импорт JSON и CSV из Kafka с помощью Routine Load

В архитектуре потоковой обработки данных Kafka, как высокопроизводительная очередь сообщений, обычно используется для агрегации данных, а StarRocks, как высокопроизводительная аналитическая СУБД, отвечает за хранение и анализ. С помощью Routine Load можно стабильно и эффективно загружать в StarRocks данные в форматах JSON и CSV из Kafka.

Читать: https://habr.com/ru/articles/980134/

#ru

@database_design | Другие наши каналы

82 views12:27

DATABASE DESIGN

Oracle — приблизительное разбиение на диапазоны

Недавно у меня возникла задача по разбиению мульти-терабайтной таблицы на равные диапазоны по числовому полю id. Причём данные распределены по id крайне неравномерно, где-то есть большие "лакуны", где-то непоследовательная генерация и т.д., и т.п. Конечно, можно применить честное решение в лоб — использовать функцию NTILE, но я довольно быстро осознал, что это приведёт к многочасовому запросу с большой вероятностью упасть из-за недостатка TEMP. Но, к счастью, зачастую в таких задачах, как и в моём случае, идеальное разделение на диапазоны не требуется, достаточно более-менее приличного.

Я решил провернуть небольшой трюк для получения приблизительного разделения. Давайте посмотрим, что у меня получилось на модельном примере.

Читать: https://habr.com/ru/companies/gnivc/articles/977350/

#ru

@database_design | Другие наши каналы

81 views13:16

DATABASE DESIGN

Обезличивание не по приказу — новый сезон подкаста Crosscheck

Привет, Хабр!
Команда CTSG запустила новый сезон подкаста Crosscheck. В одном из первых выпусков эксперты обсуждают актуальную, «горящую» на сегодняшний день, тему обезличивания баз данных: изменения в законодательстве, методы обезличивания, маскирование и многое другое.

Читать: https://habr.com/ru/companies/ctsg/articles/980226/

#ru

@database_design | Другие наши каналы

77 views15:41

DATABASE DESIGN

Обезличивание не по приказу — новый сезон подкаста Crosscheck

Привет, Хабр!
Команда CTSG запустила новый сезон подкаста Crosscheck. В одном из первых выпусков эксперты обсуждают актуальную, «горящую» на сегодняшний день, тему обезличивания баз данных: изменения в законодательстве, методы обезличивания, маскирование и многое другое.

Читать: https://habr.com/ru/companies/ctsg/articles/980226/

#ru

@database_design | Другие наши каналы

79 views15:41

DATABASE DESIGN

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов?

Ответ: фундаментально изменилась парадигма хранения и обработки данных.

В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур.

Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

Читать: https://habr.com/ru/companies/cinimex/articles/978522/

#ru

@database_design | Другие наши каналы

76 views16:13

DATABASE DESIGN

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

Вопрос: что же такого прорывного добавили в архитектуру, чтобы она стала считаться чем-то новым с точки зрения инженеров, а не маркетологов?

Ответ: фундаментально изменилась парадигма хранения и обработки данных.

В отличие от традиционных подходов, где Data Warehouse оперировал исключительно структурированными данными в табличной форме, а Data Lake работал с файлами в их исходном виде, разработчики Lakehouse сумели соединить лучшие качества обеих архитектур.

Ключевым отличием стал формат OTF — Open Table Format, через который удалось реализовать единый стандарт доступа к данным и 4 технологически-культурных сдвига. Перечислю их: ...

Читать: https://habr.com/ru/companies/cinimex/articles/978522/

#ru

@database_design | Другие наши каналы

95 views16:14

DATABASE DESIGN

Как работают CSI-драйверы в Kubernetes: принципы, архитектура и жизненный цикл томов (подробный гайд)

В статье подробно разбираем, как устроен CSI (Container Storage Interface), как проходит жизненный цикл тома от PVC до удаления и что на самом деле делают sidecar-контейнеры и драйверы.

Читать: https://habr.com/ru/companies/flant/articles/977092/

#ru

@database_design | Другие наши каналы

86 views07:11

DATABASE DESIGN

Как мы организовали полнотекстовый поиск: обзор вариантов

Привет Хабр! Меня зовут Михаил. Я backend-разработчик в команде Биллинга в Тензоре.

Эта статья — обзор вариантов индексации JSON и JSONB-полей и оптимального поиска текста в них, который мы проделали вместе с командой. Так как используем PostgresSQL, все варианты валидны для него.

Читать: https://habr.com/ru/companies/tensor/articles/980222/

#ru

@database_design | Другие наши каналы

94 views07:52

DATABASE DESIGN

Инструменты и методы синхронизации данных из распространенных СУБД в StarRocks

В статье разберем, как синхронизировать данные из Oracle, MySQL, SQL Server, PostgreSQL, Kafka и MongoDB в StarRocks. Сравним Flink+CDC+SMT, DataX, Routine Load и Python по применимости, ограничениям и удобству эксплуатации, а также дадим рекомендации по выбору под разные сценарии.

Читать: https://habr.com/ru/articles/980392/

#ru

@database_design | Другие наши каналы

91 views08:41

DATABASE DESIGN

Сжать государственную VIN-базу с 1,5 ГБ до 21 МБ? Реально! Разработчик рассказал как

Разработчик показал, как сократить государственную VIN-базу с 1,5 ГБ до 21 МБ: анализ данных, удаление лишних таблиц, индексов и грамотная оптимизация под чтение

Читать: «Сжать государственную VIN-базу с 1,5 ГБ до 21 МБ? Реально! Разработчик рассказал как»

#ru

@database_design | Другие наши каналы

96 views09:30

DATABASE DESIGN

FTP‑сервер на Linux: настройка для домашнего проекта

Флешки постепенно уходят в прошлое, а облачные хранилища не всегда подходят для домашних проектов и экспериментов. Иногда хочется простого и предсказуемого способа обмена файлами — без подписок, лимитов и лишней инфраструктуры.

FTP-сервер — один из самых простых вариантов для решения этой задачи. Он не требует сложной инфраструктуры, минимально нагружает систему и поддерживается практически любыми клиентами.

В этой статье вы найдёте пошаговый гайд по развёртыванию FTP-сервера на VPS UltraVDS под управлением Debian 12 с использованием vsftpd (Very Secure FTP Daemon).

Читать: https://habr.com/ru/companies/ultravds/articles/980188/

#ru

@database_design | Другие наши каналы

99 views10:17

DATABASE DESIGN

СУБД 2026: что выбирают российские компании

null

Читать: «СУБД 2026: что выбирают российские компании»

#ru

@database_design | Другие наши каналы

96 views12:03

DATABASE DESIGN

Не знаете, в чём встречать Новый год? Не беда

Мы как раз собрали стек новогодних нарядов, чтобы вы могли сиять ярче, чем любая гирлянда. Скорее заходите в нашу примерочную и выбирайте скин!

Реклама

105 views12:06

DATABASE DESIGN

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито.

Последний раз мы подробно писали о нашей платформе почти четыре года назад — в статье «Эволюция хранилища данных в Авито». С тех пор аналитическая платформа сильно изменилась — и по масштабу, и по сложности.

Читать: https://habr.com/ru/companies/avito/articles/979836/

#ru

@database_design | Другие наши каналы

100 views16:29

DATABASE DESIGN

Оптимизация Power BI: как одно свойство уменьшает размер модели на 30%

Сегодня мы, Павел Ефремов и Мухаммед Пашаев (разработчики аналитических систем в Лемана Тех), поговорим об оптимизации моделей данных в Power BI Desktop — конкретно о движке Tabular. Небольшая вводная: в нашей компании Power BI — основной BI-инструмент (лучшие для лучших😏). Используем локальную версию Power BI Report Server, поэтому вопрос производительности моделей и отчетов стоит особо остро. Мы регулярно проводим ревью моделей (подробнее в нашей прошлой статье), стараясь придерживаться лучших практик — минимальная нужная гранулярность данных, никаких избыточных связей, двунаправленных связей, скрытых автоматических календарей и прочее. Тем не менее отчеты все равно порой залипают и работают медленно. Казалось бы, уже много где поковырялись, все оптимизировали, и все равно фрустрация не уходит. Так, вместе с коллегой мы взялись копать глубже, шерстить интернет и Microsoft-документацию и наткнулись на почти незаметное, но важное свойство табличной модели. Что, если мы скажем, что у Tabular Model есть свойство, благодаря которому можно уменьшить размер модели до 30%, ускорить обновление данных, снизить нагрузку на сервер и при этом не менять ни одной таблицы, связи или строку DAX?

Это открытие заставило нас по-новому взглянуть на оптимизацию в Power BI. Оказалось, что помимо привычных правил вроде избегания лишних связей или сокращения столбцов есть и менее заметные, но очень мощные приемы. Они не требуют переделывать модель, но при этом реально ускоряют отчеты и снижают нагрузку.

Читать: https://habr.com/ru/companies/lemana_tech/articles/980564/

#ru

@database_design | Другие наши каналы

97 views09:21

DATABASE DESIGN

Платформы администрирования и мониторинга баз данных на основе PostgreSQL

Как выбрать инструмент для администрирования PostgreSQL — разбираем коммерческие решения от российских вендоров.

Читать: «Платформы администрирования и мониторинга баз данных на основе PostgreSQL»

#ru

@database_design | Другие наши каналы

93 views12:21

DATABASE DESIGN

Внутренняя БД FineBI и аналитика BI-системы

Привет, Хабр! Меня зовут Юлианна Валиуллина и я главный эксперт по развитию BI в банке Уралсиб.

Для начала немного о нас: мы практикуем self-service подход, в банке более 200 разработчиков, из них 150 имеют опубликованные дашборды, остальные делают аналитику для себя. Более 1200 опубликованных дашбордов, MAU около 1500. Большая часть дашбордов в нашем банке работает в spider(extract) режиме, доля direct 15-20%.

Такое количество пользователей и разработчиков требует высокого уровня автоматизации для осуществления поддержки и администрирования. В этой статье хочу рассказать о том, как мы строим внутреннюю аналитику BI системы.

Читать: https://habr.com/ru/companies/uralsib/articles/980872/

#ru

@database_design | Другие наши каналы

105 views12:25

DATABASE DESIGN

Семь «смертных» грехов настройки корпоративных баз данных …и почему они до сих пор встречаются даже в больших компаниях

Объемы корпоративных данных продолжают расти, и, как следствие, увеличивается количество информационных систем, обеспечивающих их обработку и хранение. Так, если еще 15 лет назад наличие 20 баз данных считалось значительной нагрузкой, то сегодня 200 баз уже воспринимаются как норма.

Однако важно не только защищать данные на всех этапах их жизненного цикла, но и обеспечивать безопасную конфигурацию СУБД – среды, в которой эти данные хранятся и обрабатываются. СУБД нередко становятся мишенью для киберпреступников.

В этой статье разберем семь конфигурационных антипаттернов, которые мы встречаем чаще всего, а также предложим способы, как их исправить.

Читать: https://habr.com/ru/companies/garda/articles/978408/

#ru

@database_design | Другие наши каналы

118 views14:19

DATABASE DESIGN

Trino в Авито два года спустя: от движка к полноценной экосистеме

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Avito. Уже третий год мы занимаемся миграцией с Vertica на Trino. Изначально казалось, что это будет просто: перенесём запросы, перепишем коннекторы, чуть подправим пайплайны.

Но за два с лишним года миграция перестала быть просто миграцией: проект разросся в инженерную одиссею, и вокруг Trino мы начали строить целую экосистему. Как это было — рассказываю под катом.

Читать: https://habr.com/ru/companies/avito/articles/979912/

#ru

@database_design | Другие наши каналы

128 views08:25