Мультивселенная СУБД
181 subscribers
114 photos
1 video
4 files
257 links
Канал для тех, кто хочет стать супергероем этой мультивселенной
Download Telegram
🎥 Наконец дошли руки разобрать видео DevHands Open Sessions // DBMS 06.02.2025, которое я анонсировал ранее.

❇️Общее впечатление.
Два часа разговоров без презентаций - вот так я бы охарактеризовал встречу 🎭 Срочно нужен формат подкаста 📻 В целом, получилось довольно лампово и полезно послушать про то, как серьезные люди мира СУБД РФ рассуждают про тренды развития СУБД и про то, как строится коммерческий софт с использованием открытого ПО.

*️⃣Основные тезисы:
👉 MyDB - форк Percona MySQL (зарегистрирован в реестре отечественного ПО 28.12.2024)

👉Системы MAP-Reduce умерли. Их заменили Распределенные СУБД

👉 По мотивам статьи Энди Павло и Майкала Стоунбрейкера по будущем СУБД участники сформулированы своё видение
1️⃣ Работа с бинарными данными, интеграция с S3
2️⃣ Аппаратные ускорители для СУБД - мертвая тема, так как дорого и долго (возможно облачные вендоры могут себе их позволить)
3️⃣ On-prem разделение computer- и storage- engine.
4️⃣ Parquet, Apache Arrow, DuckDB (локальная аналитика)

👉Крупные коммерческие предприятия сталкиваются с двумя проблемами:
❗️Одна огромная БД, которая не помещается на одну железку. Даже самую навороченную.
❗️ Фанаты микросервисов и kubernetes. Идёт следование принципу: "Каждому сервису своя БД". В итоге, подобное расщепление архитектуры на микросервисы приводи к гигантскому рою микробд, которые нуждаются в соответствующем обслуживании.

👉Большинству компаний среднего размера вполне достаточно БД на одном сервере + несколько реплик для распределения запросов. Проще масштабировать систему хранения и коммуникационную среду.

👉 Распределенные СУБД - это нишевая тема. Однако, никто не знает размер этой ниши 🤷‍♂️ Поэтому потенциал пока неизвестен.

👉 Есть желание использоваться протокол PAXOS, вместо RAFT. Однако, все ждут какой-то крутой программного реализации PAXOS, которой нет.

👉 Коммерческие СУБД решают коммерческие задачи

👉 YDB - работает только в Яндексе... Чтобы она работала у другого заказчика нужно украсть команду из Яндекса 🥷

👉 DBA нужен для того, чтобы ухаживать за БД

👉 DEV - должен заниматься оптимизацией.

👉 Бизнес вендора - создавать продукт. Консалтинг не бизнес.

В заключении хотел бы сказать, что жду следующее мероприятия. Очень хотел послушать про тренды OLAP СУБД в РФ.
🔥1
📚 Meet Neo4j: HackerNoon Company of the Week

Весь 2024 год при попытке пообщаться с коллегами на тему графовых СУБД и Neo4j в частности я получал ответы из разряда:
- Neo4j, это хорошая учебная СУБД. Чтобы познакомиться с графами и не более того.
- Производительность Neo4j оставляет желать лучшего. Ладно, если у вас одна нода, но если их несколько (для OLAP нагрузки это норма), то начинаются проблемы


И тут, статья о том, что:
👉 Neo4j до сих пор удерживает лидирующие позиции в мире графовых вычислений.
👉 Neo4j занимает 44% рынка графовых баз данных и обслуживает 84% компаний из списка Fortune 100

👉 Предоставляет инструменты GraphRAG Ecosystem для создания приложений генеративного ИИ на основе knowledge graphs, обеспечивая наивысшую производительность.

👉 Компания преодолела отметку в $200 млн ежегодного регулярного дохода, удвоив этот показатель за последние три года, и достигла оценки в более чем $2 млрд. ❗️Проверить можно тут

Спрашивается, какого ***** ? 👀 То ли в РФ как-то не раскусили эту СУБД, то ли всё опять упирается в санкции и и компания Neo4j банально не хочет с нами не работает. Тем не менее, какое-то пренебрежение к графовым СУБД чувствуется.

И как финальный гвоздь в развенчивании мифа о малой популярности графов ⚰️: В ноябре 2024 года Neo4j провела шестую ежегодную конференцию NODES 2024, собравшую тысячи разработчиков и дата-сайентистов для обсуждения графовых приложений и контекстуального ИИ.

Какие выводы можно сделать? 🤔В РФ действительно мало проектов с использованием графов. Всё-таки РСУБД доминируют во всех сферах. Тут можно долго рассуждать о причинах, но эта уже тема другого поста... 😉
👍2🔥2
С пятницей!

#mems
🔥4
📚 Почему масштабные развертывания NoSQL терпят неудачу
Автор: Sunny Bains, PingCAP

Очень кликбейтное название статьи 😉 Прям захотелось прочитать... Давайте ознакомимся с мнением автора.

NoSQL СУБД (на примере HBase) теряют популярность из-за того, что:
1️⃣ Взросление компании-пользователи. Ранее бизнес-процесс был простой и задачи были не сложные. По мере роста, задач становилось больше и сами задачи стали сложнее. HBase банально не успевал за трендами. Точнее не так, HBase не стремится быть универсальной СУБД. Она как была простой и без навороченного функционала, так и осталась.

2️⃣Требование SQL языка. Все любят SQL и не хотят изучать какой-то другой язык запросов. Поэтому, если NoSQL СУБД не поддерживает SQL, то её заменяют. Справедливости ради сейчас почти любая СУБД поддерживает SQL или близкий к SQL язык запросов.

3️⃣NoSQL СУБД слишком много. Найти хорошего DBA или даже разработчика - очень сложная задача. Поэтому решающую роль играет сообщество.

4️⃣Популяризации облачных сервисов тоже сыграло свою роль. Если NoSQL база не имеет своего облачного сервиса, то вряд ли это компании сможет задержаться на рынке. Как следствие, очень малое число реальных специалистов, которые умеют обслуживать on-premise инсталляции.

5️⃣От себя добавлю, что даже в РФ множество проектов по миграции с NoSQL СУБД на РСУБД (или Р-РСУБД). Любовь к транзакциям никак не изжить.

Конечно статья очень субъективная. Честно говоря, мне не хватает "пруфов". Нужно больше доказательств. Если их найти и привести, то можно сделать хороший доклад для конференции, а может и цикл ретроспективных статей написать...😏
3🔥2🤔1
📚 Новая база данных Microsoft DocumentDB переосмысливает NoSQL на PostgreSQL

RU вариант с Хабра
Новый проект с открытым исходным кодом от Microsoft под названием DocumentDB, который представляет собой документо-ориентированную базу данных, построенную на основе PostgreSQL. Этот проект добавляет возможности NoSQL к уже известной платформе PostgreSQL, предоставляя совместимость с API MongoDB

Казалось, еще одна СУБД. Причем это даже не СУБД, а надстройка над Postgres. Самое интересное, что язык запросов полностью аналогичен MongoDB. Затея интересная.

В 2020 году (плюс-минус пару лет) MongoDB была довольно популярна в РФ. Было много докладов и прочее. Она использовалась в Яндексе и во множестве других компаний. Были проекты миграции. Причем именно с Многи на Постгрес. Забавное совпадение.

Затем наступил 2022 год и компания MongoDB Inc "хлопнув дверью" кинула всех клиентов РФ и ограничила доступ к своим продуктам с российских адресов. Поэтому весь тот год компании массово мигрировали куда-то...

Сейчас для РФ это ничего не значащая база, но для европейского рынка мне кажется это очень интересный проект. Даже некоторые "ушлые" компании уже успели выпустить форк с массой улучшений FerretDВ 2.0, который производительнее в десятки раз. Снимаю шляпу 🎩 перед их скорость реакции. ⚡️

В целом, думаю стоит обратить внимание на дальнейшую судьбу проекта на Гите
🔥1
В продолжении предыдущего поста

📚Статья Microsoft open sources PostgreSQL extensions to muscle in on NoSQL

Когда я прочел первые пару абзацев у меня случилось озарение! Microsoft сколотила себе состояние на продаже коммерческого ПО 💰. Откуда такая тяга к открытию своих разработок? 🤔 И тут меня осенило, это прекрасный способ потопить своих конкурентов! 😈 Прежде всего MongoDB 🌊🏄

Microsoft в сотрудничестве с FerretDB открыто заявляет:
Выбросите свою MongoDB в унитаз. Переходите к нам! У нас всеми любимый PostgreSQL под капотом! Предлагаю бесплатную миграцию!!!

Пока MongoDB inc пытается сохранить лицо, сказав, что
...документо-ориентированная модель стала промышленным стандартом. Проекты интеграции Mongo API в РСУБД - вещь не новая. MongoDB всё равно производительнее и круче...и т.п.

Конечно, товарищи из MongoDB отчасти правы, но я думаю, что цель у Microsoft убрать конкурента с шахматной доски! 🧹

Буду следить за новостями о проектах миграции на FerretDB.
🤔1
С пятницей!

#mems
😁5
12 февраля в четверг прошёл митап в СПб от компании PostgrePro PGMeetup СПб/25.

❇️Общее впечатление
Мне кажется, что цель митапа была максимально комплементарно отозваться об облачном провайдере Selectel.
"Хоспади", сколько хороших слов было сказано 🆒 и продемонстрированы максимально теплые взаимоотношения между компании даже сложно оценить... Обнимались как могли в рамках делового приличия 👩‍❤️‍💋‍👨

Предлагаю рассмотреть доклады:
1️⃣ Много не мало. Зачем нужен выделенный сервер под облачные базы данных - Гришин Александр

Концептуально новой продукт - Облачная база данных на выделенном физическом сервере как сервис.

Этот тезис полностью описывает доклад. Даже добавить нечего. Новая более дешевая услуга для клиентов. Всё.

2️⃣Через тернии к звездам - как засунуть Петабайт в Postgres - Михаил Жилин

Мне кажется есть некий "мисандестентдинг", потому что автор Петабайт засунул не в PostgreSQL, а в Shardman. Это чуть-чуть иной продукт 🦑. Пусть и основанный на Postgres, но всё-таки это распределенная СУБД. Доклад очень хороший, т.к. излагается в формате истории. Как человек подошел к задаче и на какие грабли наткнулся 👀

Основные мысли, которые я вынес:

👉 Даже если у вас полностью однородные физические ноды кластера (одинаковые CPU, RAM, SSD), то всё равно можно наткнуться на проблему падения или роста производительности отдельных нод. В докладе было 7 нод и две ноды вели себя аномально.

👉 При тестировании кластера появляется множество проблем с железом. Эти проблемы нужно идентифицировать и устранять.

👉 В примере из доклада чаще всего выходили из строя планки оперативной памяти. За ним кулеры и различные кабели.

👉 Помимо проблем с железом могут быть проблемы на уровне драйверов и операционной системы. Поэтому так важно в этом разбираться и правильно тюнить.

👉 По факту результаты теста не так важны, как важен пользовательский опыт реализации подобного теста.

3️⃣Новости и вызовы кластерных технологий PostgreSQL - Павел Конотопов

Описание:
Расскажем про open-source и proprietary решения для построения отказоустойчивых кластеров баз данных. За последние годы появился новый функционал в существующих решениях...


Даже особо добавить нечего. Доклад превратился в обзор разных решений и что в них появилось за последний год. Ну, кто с этим часто возится на работе тому полезно. Самое интересное для меня было на таймкоде с 29:30 по 32:00 ⌚️. Автор решил рассказать об экспериментах с DuckDB. Фактически привёл сведения о том, что при интеграции этих двух СУБД скорость выполнения аналитических запросов стала чуть ли не в 10 раз быстрее! Интересно было бы разобрать тестовый кейсы. Надеюсь, мой дипломник достойно освятит эту тему в своей работе к концу весны! 🤔
😱2
📚 Western Digital представит жёсткие диски HAMR ёмкостью 44 ТБ в 2026 году

📚Почему мы перешли на RAID 10

В качестве продолжения предыдущего поста решил посмотреть какого прогресса добились производители жестких дисков.

Selectel предоставила сервера с дисками Western Digital Ultrastar DC SN840 на 15,36 ТБ. Рыночная стоимость такого диска в РФ где-то около 220 000 руб. Для сравнения HDD диск на 16 ТБ стоит около 30 000 рублей. Примерно в 7 раз дешевле.💥

При это уже сейчас Seagate может поставлять в ЦОД
диски объемом 36 ТБ!

В общем, к чему это всё.

Объемы накопителей (HDD, SSD, NVMe) растут год за годом. Уже на протяжении 70 лет. Пока какого-то пика не видно. Да, были года "застоя", но затем рост продолжился.

Цена за 1ГБ хранения информации постоянно уменьшается. Сейчас собрать сервер с недорогими дисками и объемом 360 ТБ может позволить себе почти каждый. Даже с учетом RAID 10 и прочих накладных расходов выходит 160 ТБ полезного объема! Это огромное значение! Даже для мира СУБД!

Если мы хотим выжить максимум из СУБД надо уметь разбираться и в аппаратной части подконтрольных систем. Хотя с учетом того, что все пользуются услугами ЦОД и облаков глубоко копать и не нужно. Однако, понимание направления "копания" и указания инженерам на что нужно обратиться внимание - крайне важный фактор в диагностике проблем.

Я так красиво вас подвожу к посещению своего факультатива по "Инфраструктуре многопроцессорных систем" в сентябре месяце 😉🤑
Сделаю репост из блога коллеги в свой канал.
Об Redis и об DragonFly
На этой неделе вышло две новости, которые было вселили в меня надежду на то, что в экосистеме кеш-сервисов намечается серьёзная конкуренция. Во-первых, вышел третий майлстоун релиза Redis 8, в котором заявлены многочисленные улучшения производительности. Во-вторых, DragonFly объвил о продукте DragonFly Swarm, своём аналоге Redis/Valkey Cluster. Ну началось, подумал я, Valkey пушнул конкуренцию.

По факту оказалось что: Redis, похоже, просто обращает внимание пользователей на возможность включить io-threads, которая была всегда, и говорит, что так можно увеличить производительность в 2 раза. Ну мы это прекрасно видели на своих тестах, 2 раза это конечно хорошо, но это слабый скейлинг по ядрам (продиктованный родовой травмой Redis).

В свою очередь DragonFly похоже пока делает закрытый продукт - в анонсе предлагается потестировать Swarm либо в их облаке (супер-промоушен своего облака), либо обратиться к сейллзам.
Фраза дня:

А чем в основном занимается айтишник в оплаченное время? В более-менее интерпрайзном ландшафте айтишник в основном занимается поиском ответов на вопросы вида «что это за херня».


С пятницей!

#mems
😁5
📚 Postgres Professional обновила книги «Postgres: первое знакомство» и «PostgreSQL 17 изнутри»

В целом, ничем не примечательная статья. Postgres Pro ежегодно обновляют свою литературу под актуальную версию PostgreSQL.

Хотел поделиться своими планами. Ни для кого не секрет, что компания Postgres Pro пишет свои обучающие курсы (публикует их бесплатно) и проводит сертификацию для всех желающих. Эта сертификация воистину сложный процесс. По статистике экзамен сдают с 3-ого раза 🤯! То есть можно и с 1-ого раза сдать, но многие и с 6-ой попытки проваливаются.

Однако, сертификация проводится по версии PostgreSQL 13. Довольная старая версия. Вендор обещал в этом году обновить экзамен до версии PostgreSQL 16. Я жду этого момента.

Как только это произойдет, то попробую его сдать в первых рядах. Надеюсь, оригинальная книжка Егора Рогова по "PostgreSQL 16 изнутри" мне в этом поможет. И конечно же нельзя забывать и других знаменитых авторов, книги которых обязательно стоит изучить по PostgreSQL 16.
🔥4
🎥 Небольшой новостной срез с Хабра.
Не скажу, что это особо ценные статьи, но для истории стоит их учесть. Авось, кому-то будет интересно.

Как фильтры Блума в 10 раз ускорили SQLite
Странно, что статью от июня 2022 года решили перевести только сейчас. В оригинале говорят указано больше деталей. Но я не сверял.

Orion soft обновил промышленную СУБД для высоконагруженных систем Proxima DB
Обычные новости и не более того. Ждем 12 марта, когда вендор на своем вебинаре расскажет обо всём подробнее. Посмотрю. 🛰

Миграция данных Cassandra с помощью Cassandra Data Migrator
Статья не для всех. Однако, здорово, что СУБД Cassandra по-прежнему актуальная для рынка РФ. Даже проекты какие-то внедряются. Надо будет по подробнее почитать по компанию "Цифра". 🔏
Как гром среди ясного неба

31 марта – 01 апреля в Москве пройдёт конференция PGConf.
Russia 2025
.

Традиционная конференция по СУБД PostgreSQL, её форкам и экосистеме в целом. Я стараюсь участвовать по всех московских активностях компании PostgresPro. Однако, на этот раз решил примерить на себя роль докладчика 😎

Постараюсь заявить о себе и о кафедрах МФТИ БИТ и Блокчейн. Надеюсь, получится завести новые знакомства и новые проекты! Исследовательский потенциал только растёт! 💪
🔥11👍2😱2
С пятницей!

#mems
😁2
📚Pinecone обновляет архитектуру векторной базы данных для приложений искусственного интеллекта

Pinecone - лидер (по версии db-engines) среди истинно-векторных СУБД. Однако, у неё закрытый исходный код, нет on-premise версии (только облачная инсталляция). Казалось бы, эти факторы негативно влияют на популярность, но результат оказался иным. Давайте разберем что же нового предлагает вендор своим клиентам. 🤔

Как я говорил на лекциях, область применения векторных СУБД довольно маленькая. По сути, все задачи сводятся к поиску "ближайших соседей". Это могут делать и другие СУБД внедрив соответствующую библиотеку (Annoy,ScaNN) . Однако, всё меняется, когда вырастает нагрузка. Причем растут требования по RPS и к объему обрабатываемой информации. И сама нагрузка отличается.
В новых сценариях использования вы видите, что фактические рабочие нагрузки очень неравномерны, так что это противоположность предсказуемой рабочей нагрузке

Дополнительно подсветили еще одну проблему
Часто векторные индексы для рекомендательных систем создаются в пакетном режиме, что занимает несколько часов, — написал он в блоге. — Это означает, что такие индексы устаревают через несколько часов, но это также позволяет значительно оптимизировать индекс выдачи, поскольку его можно рассматривать как статичный

Для решения основных задач используется две архитектуры

❗️Pod-Based Architecture
Она полезная для выполнения высокопроизводительных вычислений (HPC) и 👉тем, где требуется масштабируемость и управление ресурсами.

❗️Serverless Architecture
Обладает высокоточным векторным поиском «из коробки». Не требуются экспертные знания. Предсказуемо низкие задержки.

Компания Pinecone попыталась соединить лучшее из двух миров и создать единую архитектуру. Вроде как у них это получилось 💪

Маркетинговые плюшки перечислять не буду, но идея интересная. Надеюсь, разработчики представят более подробные материалы об их инновационном решении. 👍
🤔1
📚 MongoDB приобретает Voyage AI для улучшения генерации с использованием расширенного поиска

На фоне успешного индийского контракта с индийским стартапом Zepto, компания MongoDB решила прикупить стартап Voyage AI, которые специализируется на повышении качества данных и уменьшению галлюцинаций.
"Не можешь повторить - покупай" (с)

Прекрасный тезис американских бизнесменов. Обычно такими вещами промышляют ИТ-гиганты, такие, как Oracle, Microsoft, то сейчас подтягиваются и другие. В очередной раз это доказывает, что MongoDB будет делать всё возможное, чтобы развивать свою СУБД и привлекать всё больше и больше клиентов. 🤑
📚 Couchbase обеспечивает более гибкую разработку агентного ИИ с помощью NIM от Nvidia

Продолжаем цикл статей про интеграции функции ИИ в СУБД. 👀

На этот раз хочу отметить компанию Couchbase, которая для своего облачного сервиса использует возможности технологии NIM от Nvidia. Вендоры СУБД используют различные способы развития своего продукта.

Кто-то меняет архитектуру своего облачного сервиса, кто-то покупает конкурентов, а кто-то использует мощь фреймворков для более тесной интеграции оборудования и баз данных. 🦄

Мир очень велик! 🌏И каждый идёт по своему пути. Очень интересно наблюдать какой путь приведёт компанию к мировому господству! 😱
С пятницей!

#mems
😁2
🧸 Вышла SQL Noir — игра для изучения SQL

Разработчики выпустили SQL Noir — игру для изучения SQL. По сюжету пользователю надо взять на себя роль детектива и раскрыть несколько преступлений, анализируя улики в базе данных


Еще одна похожая игра SQL Squid Game

Как же здорово, что игровые механики понемногу захватывают рынок образования. Теперь реально можно сказать маме, что новая крутая видеокарта или игровой ноут мне нужны для учебы 😁. Надеюсь, таких проектов будет всё больше и больше! Я сам начинаю внедрять в своих новые проекты подобную идеологию. Пока очень поверхностно, но думаю это будет хорошая отправная точка! 💪
🔥2