🎥 Наконец дошли руки разобрать видео DevHands Open Sessions // DBMS 06.02.2025, которое я анонсировал ранее.
❇️Общее впечатление.
Два часа разговоров без презентаций - вот так я бы охарактеризовал встречу 🎭 Срочно нужен формат подкаста 📻 В целом, получилось довольно лампово и полезно послушать про то, как серьезные люди мира СУБД РФ рассуждают про тренды развития СУБД и про то, как строится коммерческий софт с использованием открытого ПО.
*️⃣Основные тезисы:
👉 MyDB - форк Percona MySQL (зарегистрирован в реестре отечественного ПО 28.12.2024)
👉Системы MAP-Reduce умерли. Их заменили Распределенные СУБД
👉 По мотивам статьи Энди Павло и Майкала Стоунбрейкера по будущем СУБД участники сформулированы своё видение
1️⃣ Работа с бинарными данными, интеграция с S3
2️⃣ Аппаратные ускорители для СУБД - мертвая тема, так как дорого и долго (возможно облачные вендоры могут себе их позволить)
3️⃣ On-prem разделение computer- и storage- engine.
4️⃣ Parquet, Apache Arrow, DuckDB (локальная аналитика)
👉Крупные коммерческие предприятия сталкиваются с двумя проблемами:
❗️Одна огромная БД, которая не помещается на одну железку. Даже самую навороченную.
❗️ Фанаты микросервисов и kubernetes. Идёт следование принципу: "Каждому сервису своя БД". В итоге, подобное расщепление архитектуры на микросервисы приводи к гигантскому рою микробд, которые нуждаются в соответствующем обслуживании.
👉Большинству компаний среднего размера вполне достаточно БД на одном сервере + несколько реплик для распределения запросов. Проще масштабировать систему хранения и коммуникационную среду.
👉 Распределенные СУБД - это нишевая тема. Однако, никто не знает размер этой ниши 🤷♂️ Поэтому потенциал пока неизвестен.
👉 Есть желание использоваться протокол PAXOS, вместо RAFT. Однако, все ждут какой-то крутой программного реализации PAXOS, которой нет.
👉 Коммерческие СУБД решают коммерческие задачи
👉 YDB - работает только в Яндексе... Чтобы она работала у другого заказчика нужно украсть команду из Яндекса 🥷
👉 DBA нужен для того, чтобы ухаживать за БД
👉 DEV - должен заниматься оптимизацией.
👉 Бизнес вендора - создавать продукт. Консалтинг не бизнес.
В заключении хотел бы сказать, что жду следующее мероприятия. Очень хотел послушать про тренды OLAP СУБД в РФ.
❇️Общее впечатление.
Два часа разговоров без презентаций - вот так я бы охарактеризовал встречу 🎭 Срочно нужен формат подкаста 📻 В целом, получилось довольно лампово и полезно послушать про то, как серьезные люди мира СУБД РФ рассуждают про тренды развития СУБД и про то, как строится коммерческий софт с использованием открытого ПО.
*️⃣Основные тезисы:
👉 MyDB - форк Percona MySQL (зарегистрирован в реестре отечественного ПО 28.12.2024)
👉Системы MAP-Reduce умерли. Их заменили Распределенные СУБД
👉 По мотивам статьи Энди Павло и Майкала Стоунбрейкера по будущем СУБД участники сформулированы своё видение
1️⃣ Работа с бинарными данными, интеграция с S3
2️⃣ Аппаратные ускорители для СУБД - мертвая тема, так как дорого и долго (возможно облачные вендоры могут себе их позволить)
3️⃣ On-prem разделение computer- и storage- engine.
4️⃣ Parquet, Apache Arrow, DuckDB (локальная аналитика)
👉Крупные коммерческие предприятия сталкиваются с двумя проблемами:
❗️Одна огромная БД, которая не помещается на одну железку. Даже самую навороченную.
❗️ Фанаты микросервисов и kubernetes. Идёт следование принципу: "Каждому сервису своя БД". В итоге, подобное расщепление архитектуры на микросервисы приводи к гигантскому рою микробд, которые нуждаются в соответствующем обслуживании.
👉Большинству компаний среднего размера вполне достаточно БД на одном сервере + несколько реплик для распределения запросов. Проще масштабировать систему хранения и коммуникационную среду.
👉 Распределенные СУБД - это нишевая тема. Однако, никто не знает размер этой ниши 🤷♂️ Поэтому потенциал пока неизвестен.
👉 Есть желание использоваться протокол PAXOS, вместо RAFT. Однако, все ждут какой-то крутой программного реализации PAXOS, которой нет.
👉 Коммерческие СУБД решают коммерческие задачи
👉 YDB - работает только в Яндексе... Чтобы она работала у другого заказчика нужно украсть команду из Яндекса 🥷
👉 DBA нужен для того, чтобы ухаживать за БД
👉 DEV - должен заниматься оптимизацией.
👉 Бизнес вендора - создавать продукт. Консалтинг не бизнес.
В заключении хотел бы сказать, что жду следующее мероприятия. Очень хотел послушать про тренды OLAP СУБД в РФ.
YouTube
DevHands Open Sessions // DBMS 06.02.2025
Ближайшие мероприятия DevHands.io
- Николай Ихалайнен, "PostgreSQL 17: архитектура и тюнинг SQL-запросов" https://devhands.ru/postgresql - старт 6 марта 2025
- Алексей Рыбак, буткемп "Производительность и масштабируемость" https://devhands.ru/performance…
- Николай Ихалайнен, "PostgreSQL 17: архитектура и тюнинг SQL-запросов" https://devhands.ru/postgresql - старт 6 марта 2025
- Алексей Рыбак, буткемп "Производительность и масштабируемость" https://devhands.ru/performance…
🔥1
📚 Meet Neo4j: HackerNoon Company of the Week
Весь 2024 год при попытке пообщаться с коллегами на тему графовых СУБД и Neo4j в частности я получал ответы из разряда:
И тут, статья о том, что:
👉 Neo4j до сих пор удерживает лидирующие позиции в мире графовых вычислений.
👉 Neo4j занимает 44% рынка графовых баз данных и обслуживает 84% компаний из списка Fortune 100
👉 Предоставляет инструменты GraphRAG Ecosystem для создания приложений генеративного ИИ на основе knowledge graphs, обеспечивая наивысшую производительность.
👉 Компания преодолела отметку в $200 млн ежегодного регулярного дохода, удвоив этот показатель за последние три года, и достигла оценки в более чем $2 млрд. ❗️Проверить можно тут
Спрашивается, какого ***** ? 👀 То ли в РФ как-то не раскусили эту СУБД, то ли всё опять упирается в санкции и и компания Neo4j банально не хочет с нами не работает. Тем не менее, какое-то пренебрежение к графовым СУБД чувствуется.
И как финальный гвоздь в развенчивании мифа о малой популярности графов ⚰️: В ноябре 2024 года Neo4j провела шестую ежегодную конференцию NODES 2024, собравшую тысячи разработчиков и дата-сайентистов для обсуждения графовых приложений и контекстуального ИИ.
Какие выводы можно сделать? 🤔В РФ действительно мало проектов с использованием графов. Всё-таки РСУБД доминируют во всех сферах. Тут можно долго рассуждать о причинах, но эта уже тема другого поста... 😉
Весь 2024 год при попытке пообщаться с коллегами на тему графовых СУБД и Neo4j в частности я получал ответы из разряда:
- Neo4j, это хорошая учебная СУБД. Чтобы познакомиться с графами и не более того.
- Производительность Neo4j оставляет желать лучшего. Ладно, если у вас одна нода, но если их несколько (для OLAP нагрузки это норма), то начинаются проблемы
И тут, статья о том, что:
👉 Neo4j до сих пор удерживает лидирующие позиции в мире графовых вычислений.
👉 Neo4j занимает 44% рынка графовых баз данных и обслуживает 84% компаний из списка Fortune 100
👉 Предоставляет инструменты GraphRAG Ecosystem для создания приложений генеративного ИИ на основе knowledge graphs, обеспечивая наивысшую производительность.
👉 Компания преодолела отметку в $200 млн ежегодного регулярного дохода, удвоив этот показатель за последние три года, и достигла оценки в более чем $2 млрд. ❗️Проверить можно тут
Спрашивается, какого ***** ? 👀 То ли в РФ как-то не раскусили эту СУБД, то ли всё опять упирается в санкции и и компания Neo4j банально не хочет с нами не работает. Тем не менее, какое-то пренебрежение к графовым СУБД чувствуется.
И как финальный гвоздь в развенчивании мифа о малой популярности графов ⚰️: В ноябре 2024 года Neo4j провела шестую ежегодную конференцию NODES 2024, собравшую тысячи разработчиков и дата-сайентистов для обсуждения графовых приложений и контекстуального ИИ.
Какие выводы можно сделать? 🤔В РФ действительно мало проектов с использованием графов. Всё-таки РСУБД доминируют во всех сферах. Тут можно долго рассуждать о причинах, но эта уже тема другого поста... 😉
Hackernoon
Meet Neo4j: HackerNoon Company of the Week
This week, HackerNoon features Neo4j- the world's leading graph database, with native graph storage and processing.
👍2🔥2
📚 Почему масштабные развертывания NoSQL терпят неудачу
Автор: Sunny Bains, PingCAP
Очень кликбейтное название статьи 😉 Прям захотелось прочитать... Давайте ознакомимся с мнением автора.
NoSQL СУБД (на примере HBase) теряют популярность из-за того, что:
1️⃣ Взросление компании-пользователи. Ранее бизнес-процесс был простой и задачи были не сложные. По мере роста, задач становилось больше и сами задачи стали сложнее. HBase банально не успевал за трендами. Точнее не так, HBase не стремится быть универсальной СУБД. Она как была простой и без навороченного функционала, так и осталась.
2️⃣Требование SQL языка. Все любят SQL и не хотят изучать какой-то другой язык запросов. Поэтому, если NoSQL СУБД не поддерживает SQL, то её заменяют. Справедливости ради сейчас почти любая СУБД поддерживает SQL или близкий к SQL язык запросов.
3️⃣NoSQL СУБД слишком много. Найти хорошего DBA или даже разработчика - очень сложная задача. Поэтому решающую роль играет сообщество.
4️⃣Популяризации облачных сервисов тоже сыграло свою роль. Если NoSQL база не имеет своего облачного сервиса, то вряд ли это компании сможет задержаться на рынке. Как следствие, очень малое число реальных специалистов, которые умеют обслуживать on-premise инсталляции.
5️⃣От себя добавлю, что даже в РФ множество проектов по миграции с NoSQL СУБД на РСУБД (или Р-РСУБД). Любовь к транзакциям никак не изжить.
Конечно статья очень субъективная. Честно говоря, мне не хватает "пруфов". Нужно больше доказательств. Если их найти и привести, то можно сделать хороший доклад для конференции, а может и цикл ретроспективных статей написать...😏
Автор: Sunny Bains, PingCAP
Очень кликбейтное название статьи 😉 Прям захотелось прочитать... Давайте ознакомимся с мнением автора.
NoSQL СУБД (на примере HBase) теряют популярность из-за того, что:
1️⃣ Взросление компании-пользователи. Ранее бизнес-процесс был простой и задачи были не сложные. По мере роста, задач становилось больше и сами задачи стали сложнее. HBase банально не успевал за трендами. Точнее не так, HBase не стремится быть универсальной СУБД. Она как была простой и без навороченного функционала, так и осталась.
2️⃣Требование SQL языка. Все любят SQL и не хотят изучать какой-то другой язык запросов. Поэтому, если NoSQL СУБД не поддерживает SQL, то её заменяют. Справедливости ради сейчас почти любая СУБД поддерживает SQL или близкий к SQL язык запросов.
3️⃣NoSQL СУБД слишком много. Найти хорошего DBA или даже разработчика - очень сложная задача. Поэтому решающую роль играет сообщество.
4️⃣Популяризации облачных сервисов тоже сыграло свою роль. Если NoSQL база не имеет своего облачного сервиса, то вряд ли это компании сможет задержаться на рынке. Как следствие, очень малое число реальных специалистов, которые умеют обслуживать on-premise инсталляции.
5️⃣От себя добавлю, что даже в РФ множество проектов по миграции с NoSQL СУБД на РСУБД (или Р-РСУБД). Любовь к транзакциям никак не изжить.
Конечно статья очень субъективная. Честно говоря, мне не хватает "пруфов". Нужно больше доказательств. Если их найти и привести, то можно сделать хороший доклад для конференции, а может и цикл ретроспективных статей написать...😏
The New Stack
Why NoSQL Deployments Are Failing at Scale
NoSQL struggles at scale, distributed SQL offers a stronger solution.
❤3🔥2🤔1
📚 Новая база данных Microsoft DocumentDB переосмысливает NoSQL на PostgreSQL
RU вариант с Хабра
Казалось, еще одна СУБД. Причем это даже не СУБД, а надстройка над Postgres. Самое интересное, что язык запросов полностью аналогичен MongoDB. Затея интересная.
В 2020 году (плюс-минус пару лет) MongoDB была довольно популярна в РФ. Было много докладов и прочее. Она использовалась в Яндексе и во множестве других компаний. Были проекты миграции. Причем именно с Многи на Постгрес. Забавное совпадение.
Затем наступил 2022 год и компания MongoDB Inc "хлопнув дверью" кинула всех клиентов РФ и ограничила доступ к своим продуктам с российских адресов. Поэтому весь тот год компании массово мигрировали куда-то...
Сейчас для РФ это ничего не значащая база, но для европейского рынка мне кажется это очень интересный проект. Даже некоторые "ушлые" компании уже успели выпустить форк с массой улучшений FerretDВ 2.0, который производительнее в десятки раз. Снимаю шляпу 🎩 перед их скорость реакции. ⚡️
В целом, думаю стоит обратить внимание на дальнейшую судьбу проекта на Гите
RU вариант с Хабра
Новый проект с открытым исходным кодом от Microsoft под названием DocumentDB, который представляет собой документо-ориентированную базу данных, построенную на основе PostgreSQL. Этот проект добавляет возможности NoSQL к уже известной платформе PostgreSQL, предоставляя совместимость с API MongoDB
Казалось, еще одна СУБД. Причем это даже не СУБД, а надстройка над Postgres. Самое интересное, что язык запросов полностью аналогичен MongoDB. Затея интересная.
В 2020 году (плюс-минус пару лет) MongoDB была довольно популярна в РФ. Было много докладов и прочее. Она использовалась в Яндексе и во множестве других компаний. Были проекты миграции. Причем именно с Многи на Постгрес. Забавное совпадение.
Затем наступил 2022 год и компания MongoDB Inc "хлопнув дверью" кинула всех клиентов РФ и ограничила доступ к своим продуктам с российских адресов. Поэтому весь тот год компании массово мигрировали куда-то...
Сейчас для РФ это ничего не значащая база, но для европейского рынка мне кажется это очень интересный проект. Даже некоторые "ушлые" компании уже успели выпустить форк с массой улучшений FerretDВ 2.0, который производительнее в десятки раз. Снимаю шляпу 🎩 перед их скорость реакции. ⚡️
В целом, думаю стоит обратить внимание на дальнейшую судьбу проекта на Гите
InfoWorld
Microsoft’s new DocumentDB rethinks NoSQL on PostgreSQL
Standalone document-oriented database gives developers an open-source alternative to MongoDB now and perhaps an industry standard NoSQL API and engine later.
🔥1
В продолжении предыдущего поста
📚Статья Microsoft open sources PostgreSQL extensions to muscle in on NoSQL
Когда я прочел первые пару абзацев у меня случилось озарение! Microsoft сколотила себе состояние на продаже коммерческого ПО 💰. Откуда такая тяга к открытию своих разработок? 🤔 И тут меня осенило, это прекрасный способ потопить своих конкурентов! 😈 Прежде всего MongoDB 🌊🏄
Microsoft в сотрудничестве с FerretDB открыто заявляет:
Пока MongoDB inc пытается сохранить лицо, сказав, что
Конечно, товарищи из MongoDB отчасти правы, но я думаю, что цель у Microsoft убрать конкурента с шахматной доски! 🧹
Буду следить за новостями о проектах миграции на FerretDB.
📚Статья Microsoft open sources PostgreSQL extensions to muscle in on NoSQL
Когда я прочел первые пару абзацев у меня случилось озарение! Microsoft сколотила себе состояние на продаже коммерческого ПО 💰. Откуда такая тяга к открытию своих разработок? 🤔 И тут меня осенило, это прекрасный способ потопить своих конкурентов! 😈 Прежде всего MongoDB 🌊🏄
Microsoft в сотрудничестве с FerretDB открыто заявляет:
Выбросите свою MongoDB в унитаз. Переходите к нам! У нас всеми любимый PostgreSQL под капотом! Предлагаю бесплатную миграцию!!!
Пока MongoDB inc пытается сохранить лицо, сказав, что
...документо-ориентированная модель стала промышленным стандартом. Проекты интеграции Mongo API в РСУБД - вещь не новая. MongoDB всё равно производительнее и круче...и т.п.
Конечно, товарищи из MongoDB отчасти правы, но я думаю, что цель у Microsoft убрать конкурента с шахматной доски! 🧹
Буду следить за новостями о проектах миграции на FerretDB.
The Register
Microsoft open sources PostgreSQL extensions to muscle in on NoSQL
But will it set a real standard for MongoDB alternatives?
🤔1
12 февраля в четверг прошёл митап в СПб от компании PostgrePro PGMeetup СПб/25.
❇️Общее впечатление
Мне кажется, что цель митапа была максимально комплементарно отозваться об облачном провайдере Selectel.
"Хоспади", сколько хороших слов было сказано 🆒 и продемонстрированы максимально теплые взаимоотношения между компании даже сложно оценить... Обнимались как могли в рамках делового приличия 👩❤️💋👨
Предлагаю рассмотреть доклады:
1️⃣ Много не мало. Зачем нужен выделенный сервер под облачные базы данных - Гришин Александр
Концептуально новой продукт - Облачная база данных на выделенном физическом сервере как сервис.
Этот тезис полностью описывает доклад. Даже добавить нечего. Новая более дешевая услуга для клиентов. Всё.
2️⃣Через тернии к звездам - как засунуть Петабайт в Postgres - Михаил Жилин
Мне кажется есть некий "мисандестентдинг", потому что автор Петабайт засунул не в PostgreSQL, а в Shardman. Это чуть-чуть иной продукт 🦑. Пусть и основанный на Postgres, но всё-таки это распределенная СУБД. Доклад очень хороший, т.к. излагается в формате истории. Как человек подошел к задаче и на какие грабли наткнулся 👀
Основные мысли, которые я вынес:
👉 Даже если у вас полностью однородные физические ноды кластера (одинаковые CPU, RAM, SSD), то всё равно можно наткнуться на проблему падения или роста производительности отдельных нод. В докладе было 7 нод и две ноды вели себя аномально.
👉 При тестировании кластера появляется множество проблем с железом. Эти проблемы нужно идентифицировать и устранять.
👉 В примере из доклада чаще всего выходили из строя планки оперативной памяти. За ним кулеры и различные кабели.
👉 Помимо проблем с железом могут быть проблемы на уровне драйверов и операционной системы. Поэтому так важно в этом разбираться и правильно тюнить.
👉 По факту результаты теста не так важны, как важен пользовательский опыт реализации подобного теста.
3️⃣Новости и вызовы кластерных технологий PostgreSQL - Павел Конотопов
Описание:
Даже особо добавить нечего. Доклад превратился в обзор разных решений и что в них появилось за последний год. Ну, кто с этим часто возится на работе тому полезно. Самое интересное для меня было на таймкоде с 29:30 по 32:00 ⌚️. Автор решил рассказать об экспериментах с DuckDB. Фактически привёл сведения о том, что при интеграции этих двух СУБД скорость выполнения аналитических запросов стала чуть ли не в 10 раз быстрее! Интересно было бы разобрать тестовый кейсы. Надеюсь, мой дипломник достойно освятит эту тему в своей работе к концу весны! 🤔
❇️Общее впечатление
Мне кажется, что цель митапа была максимально комплементарно отозваться об облачном провайдере Selectel.
"Хоспади", сколько хороших слов было сказано 🆒 и продемонстрированы максимально теплые взаимоотношения между компании даже сложно оценить... Обнимались как могли в рамках делового приличия 👩❤️💋👨
Предлагаю рассмотреть доклады:
1️⃣ Много не мало. Зачем нужен выделенный сервер под облачные базы данных - Гришин Александр
Концептуально новой продукт - Облачная база данных на выделенном физическом сервере как сервис.
Этот тезис полностью описывает доклад. Даже добавить нечего. Новая более дешевая услуга для клиентов. Всё.
2️⃣Через тернии к звездам - как засунуть Петабайт в Postgres - Михаил Жилин
Мне кажется есть некий "мисандестентдинг", потому что автор Петабайт засунул не в PostgreSQL, а в Shardman. Это чуть-чуть иной продукт 🦑. Пусть и основанный на Postgres, но всё-таки это распределенная СУБД. Доклад очень хороший, т.к. излагается в формате истории. Как человек подошел к задаче и на какие грабли наткнулся 👀
Основные мысли, которые я вынес:
👉 Даже если у вас полностью однородные физические ноды кластера (одинаковые CPU, RAM, SSD), то всё равно можно наткнуться на проблему падения или роста производительности отдельных нод. В докладе было 7 нод и две ноды вели себя аномально.
👉 При тестировании кластера появляется множество проблем с железом. Эти проблемы нужно идентифицировать и устранять.
👉 В примере из доклада чаще всего выходили из строя планки оперативной памяти. За ним кулеры и различные кабели.
👉 Помимо проблем с железом могут быть проблемы на уровне драйверов и операционной системы. Поэтому так важно в этом разбираться и правильно тюнить.
👉 По факту результаты теста не так важны, как важен пользовательский опыт реализации подобного теста.
3️⃣Новости и вызовы кластерных технологий PostgreSQL - Павел Конотопов
Описание:
Расскажем про open-source и proprietary решения для построения отказоустойчивых кластеров баз данных. За последние годы появился новый функционал в существующих решениях...
Даже особо добавить нечего. Доклад превратился в обзор разных решений и что в них появилось за последний год. Ну, кто с этим часто возится на работе тому полезно. Самое интересное для меня было на таймкоде с 29:30 по 32:00 ⌚️. Автор решил рассказать об экспериментах с DuckDB. Фактически привёл сведения о том, что при интеграции этих двух СУБД скорость выполнения аналитических запросов стала чуть ли не в 10 раз быстрее! Интересно было бы разобрать тестовый кейсы. Надеюсь, мой дипломник достойно освятит эту тему в своей работе к концу весны! 🤔
pgconf.ru
PGMeetup.СПб/25 | PGConf.Russia
Митап по PostgreSQL PGMeetup.СПб/25, Санкт-Петербург
😱2
📚 Western Digital представит жёсткие диски HAMR ёмкостью 44 ТБ в 2026 году
📚Почему мы перешли на RAID 10
В качестве продолжения предыдущего поста решил посмотреть какого прогресса добились производители жестких дисков.
Selectel предоставила сервера с дисками Western Digital Ultrastar DC SN840 на 15,36 ТБ. Рыночная стоимость такого диска в РФ где-то около 220 000 руб. Для сравнения HDD диск на 16 ТБ стоит около 30 000 рублей. Примерно в 7 раз дешевле.💥
При это уже сейчас Seagate может поставлять в ЦОД диски объемом 36 ТБ!
В общем, к чему это всё.
Объемы накопителей (HDD, SSD, NVMe) растут год за годом. Уже на протяжении 70 лет. Пока какого-то пика не видно. Да, были года "застоя", но затем рост продолжился.
Цена за 1ГБ хранения информации постоянно уменьшается. Сейчас собрать сервер с недорогими дисками и объемом 360 ТБ может позволить себе почти каждый. Даже с учетом RAID 10 и прочих накладных расходов выходит 160 ТБ полезного объема! Это огромное значение! Даже для мира СУБД!
Если мы хотим выжить максимум из СУБД надо уметь разбираться и в аппаратной части подконтрольных систем. Хотя с учетом того, что все пользуются услугами ЦОД и облаков глубоко копать и не нужно. Однако, понимание направления "копания" и указания инженерам на что нужно обратиться внимание - крайне важный фактор в диагностике проблем.
Я так красиво вас подвожу к посещению своего факультатива по "Инфраструктуре многопроцессорных систем" в сентябре месяце 😉🤑
📚Почему мы перешли на RAID 10
В качестве продолжения предыдущего поста решил посмотреть какого прогресса добились производители жестких дисков.
Selectel предоставила сервера с дисками Western Digital Ultrastar DC SN840 на 15,36 ТБ. Рыночная стоимость такого диска в РФ где-то около 220 000 руб. Для сравнения HDD диск на 16 ТБ стоит около 30 000 рублей. Примерно в 7 раз дешевле.💥
При это уже сейчас Seagate может поставлять в ЦОД диски объемом 36 ТБ!
В общем, к чему это всё.
Объемы накопителей (HDD, SSD, NVMe) растут год за годом. Уже на протяжении 70 лет. Пока какого-то пика не видно. Да, были года "застоя", но затем рост продолжился.
Цена за 1ГБ хранения информации постоянно уменьшается. Сейчас собрать сервер с недорогими дисками и объемом 360 ТБ может позволить себе почти каждый. Даже с учетом RAID 10 и прочих накладных расходов выходит 160 ТБ полезного объема! Это огромное значение! Даже для мира СУБД!
Если мы хотим выжить максимум из СУБД надо уметь разбираться и в аппаратной части подконтрольных систем. Хотя с учетом того, что все пользуются услугами ЦОД и облаков глубоко копать и не нужно. Однако, понимание направления "копания" и указания инженерам на что нужно обратиться внимание - крайне важный фактор в диагностике проблем.
Я так красиво вас подвожу к посещению своего факультатива по "Инфраструктуре многопроцессорных систем" в сентябре месяце 😉🤑
Хабр
Почему мы перешли на RAID 10
Недавно у нас развалился RAID 5. Один диск на первом году своей жизни умер сам от естественных причин. Такое может быть и в период трёхлетней гарантии — нечасто, но может. Мы вынули его, поставили на...
Сделаю репост из блога коллеги в свой канал.
Об Redis и об DragonFly
На этой неделе вышло две новости, которые было вселили в меня надежду на то, что в экосистеме кеш-сервисов намечается серьёзная конкуренция. Во-первых, вышел третий майлстоун релиза Redis 8, в котором заявлены многочисленные улучшения производительности. Во-вторых, DragonFly объвил о продукте DragonFly Swarm, своём аналоге Redis/Valkey Cluster. Ну началось, подумал я, Valkey пушнул конкуренцию.
По факту оказалось что: Redis, похоже, просто обращает внимание пользователей на возможность включить io-threads, которая была всегда, и говорит, что так можно увеличить производительность в 2 раза. Ну мы это прекрасно видели на своих тестах, 2 раза это конечно хорошо, но это слабый скейлинг по ядрам (продиктованный родовой травмой Redis).
В свою очередь DragonFly похоже пока делает закрытый продукт - в анонсе предлагается потестировать Swarm либо в их облаке (супер-промоушен своего облака), либо обратиться к сейллзам.
Telegram
System Design & Highload (Alexey Rybak)
Радар DevHands: что почитать на неделе 14-21 февраля 2025
🤩 MultiPaxos и архитектура Neon
Возможно вы слышали о проекте Neon, распределённом PostgreSQL. В этой статье рассказывается об архитектуре Neon, построенной на модифицированной версии MultiPaxos…
🤩 MultiPaxos и архитектура Neon
Возможно вы слышали о проекте Neon, распределённом PostgreSQL. В этой статье рассказывается об архитектуре Neon, построенной на модифицированной версии MultiPaxos…
Фраза дня:
С пятницей!
#mems
А чем в основном занимается айтишник в оплаченное время? В более-менее интерпрайзном ландшафте айтишник в основном занимается поиском ответов на вопросы вида «что это за херня».
С пятницей!
#mems
😁5
📚 Postgres Professional обновила книги «Postgres: первое знакомство» и «PostgreSQL 17 изнутри»
В целом, ничем не примечательная статья. Postgres Pro ежегодно обновляют свою литературу под актуальную версию PostgreSQL.
Хотел поделиться своими планами. Ни для кого не секрет, что компания Postgres Pro пишет свои обучающие курсы (публикует их бесплатно) и проводит сертификацию для всех желающих. Эта сертификация воистину сложный процесс. По статистике экзамен сдают с 3-ого раза 🤯! То есть можно и с 1-ого раза сдать, но многие и с 6-ой попытки проваливаются.
Однако, сертификация проводится по версии PostgreSQL 13. Довольная старая версия. Вендор обещал в этом году обновить экзамен до версии PostgreSQL 16. Я жду этого момента.
Как только это произойдет, то попробую его сдать в первых рядах. Надеюсь, оригинальная книжка Егора Рогова по "PostgreSQL 16 изнутри" мне в этом поможет. И конечно же нельзя забывать и других знаменитых авторов, книги которых обязательно стоит изучить по PostgreSQL 16.
В целом, ничем не примечательная статья. Postgres Pro ежегодно обновляют свою литературу под актуальную версию PostgreSQL.
Хотел поделиться своими планами. Ни для кого не секрет, что компания Postgres Pro пишет свои обучающие курсы (публикует их бесплатно) и проводит сертификацию для всех желающих. Эта сертификация воистину сложный процесс. По статистике экзамен сдают с 3-ого раза 🤯! То есть можно и с 1-ого раза сдать, но многие и с 6-ой попытки проваливаются.
Однако, сертификация проводится по версии PostgreSQL 13. Довольная старая версия. Вендор обещал в этом году обновить экзамен до версии PostgreSQL 16. Я жду этого момента.
Как только это произойдет, то попробую его сдать в первых рядах. Надеюсь, оригинальная книжка Егора Рогова по "PostgreSQL 16 изнутри" мне в этом поможет. И конечно же нельзя забывать и других знаменитых авторов, книги которых обязательно стоит изучить по PostgreSQL 16.
Хабр
Postgres Professional обновила книги «Postgres: первое знакомство» и «PostgreSQL 17 изнутри»
Компания‑разработчик российской СУБД Postgres Professional рассказала Хабру про обновление своих открытых учебных материалов, включая брошюру «Postgres: первое знакомство» и «PostgreSQL...
🔥4
🎥 Небольшой новостной срез с Хабра.
Не скажу, что это особо ценные статьи, но для истории стоит их учесть. Авось, кому-то будет интересно.
Как фильтры Блума в 10 раз ускорили SQLite
Странно, что статью от июня 2022 года решили перевести только сейчас. В оригинале говорят указано больше деталей. Но я не сверял.
Orion soft обновил промышленную СУБД для высоконагруженных систем Proxima DB
Обычные новости и не более того. Ждем 12 марта, когда вендор на своем вебинаре расскажет обо всём подробнее. Посмотрю. 🛰
Миграция данных Cassandra с помощью Cassandra Data Migrator
Статья не для всех. Однако, здорово, что СУБД Cassandra по-прежнему актуальная для рынка РФ. Даже проекты какие-то внедряются. Надо будет по подробнее почитать по компанию "Цифра". 🔏
Не скажу, что это особо ценные статьи, но для истории стоит их учесть. Авось, кому-то будет интересно.
Как фильтры Блума в 10 раз ускорили SQLite
Странно, что статью от июня 2022 года решили перевести только сейчас. В оригинале говорят указано больше деталей. Но я не сверял.
Orion soft обновил промышленную СУБД для высоконагруженных систем Proxima DB
Обычные новости и не более того. Ждем 12 марта, когда вендор на своем вебинаре расскажет обо всём подробнее. Посмотрю. 🛰
Миграция данных Cassandra с помощью Cassandra Data Migrator
Статья не для всех. Однако, здорово, что СУБД Cassandra по-прежнему актуальная для рынка РФ. Даже проекты какие-то внедряются. Надо будет по подробнее почитать по компанию "Цифра". 🔏
Хабр
Как фильтры Блума в 10 раз ускорили SQLite
Это интригующая история о том, как исследователи с помощью грамотного использования фильтров Блума смогли в 10 раз ускорить аналитические запросы в SQLite. Ниже я приведу свой краткий обзор работы «...
⚡Как гром среди ясного неба ⚡
31 марта – 01 апреля в Москве пройдёт конференция PGConf.
Russia 2025.
Традиционная конференция по СУБД PostgreSQL, её форкам и экосистеме в целом. Я стараюсь участвовать по всех московских активностях компании PostgresPro. Однако, на этот раз решил примерить на себя роль докладчика 😎
Постараюсь заявить о себе и о кафедрах МФТИ БИТ и Блокчейн. Надеюсь, получится завести новые знакомства и новые проекты! Исследовательский потенциал только растёт! 💪
31 марта – 01 апреля в Москве пройдёт конференция PGConf.
Russia 2025.
Традиционная конференция по СУБД PostgreSQL, её форкам и экосистеме в целом. Я стараюсь участвовать по всех московских активностях компании PostgresPro. Однако, на этот раз решил примерить на себя роль докладчика 😎
Постараюсь заявить о себе и о кафедрах МФТИ БИТ и Блокчейн. Надеюсь, получится завести новые знакомства и новые проекты! Исследовательский потенциал только растёт! 💪
🔥11👍2😱2
📚Pinecone обновляет архитектуру векторной базы данных для приложений искусственного интеллекта
Pinecone - лидер (по версии db-engines) среди истинно-векторных СУБД. Однако, у неё закрытый исходный код, нет on-premise версии (только облачная инсталляция). Казалось бы, эти факторы негативно влияют на популярность, но результат оказался иным. Давайте разберем что же нового предлагает вендор своим клиентам. 🤔
Как я говорил на лекциях, область применения векторных СУБД довольно маленькая. По сути, все задачи сводятся к поиску "ближайших соседей". Это могут делать и другие СУБД внедрив соответствующую библиотеку (Annoy,ScaNN) . Однако, всё меняется, когда вырастает нагрузка. Причем растут требования по RPS и к объему обрабатываемой информации. И сама нагрузка отличается.
Дополнительно подсветили еще одну проблему
Для решения основных задач используется две архитектуры
❗️Pod-Based Architecture
Она полезная для выполнения высокопроизводительных вычислений (HPC) и 👉тем, где требуется масштабируемость и управление ресурсами.
❗️Serverless Architecture
Обладает высокоточным векторным поиском «из коробки». Не требуются экспертные знания. Предсказуемо низкие задержки.
Компания Pinecone попыталась соединить лучшее из двух миров и создать единую архитектуру. Вроде как у них это получилось 💪
Маркетинговые плюшки перечислять не буду, но идея интересная. Надеюсь, разработчики представят более подробные материалы об их инновационном решении. 👍
Pinecone - лидер (по версии db-engines) среди истинно-векторных СУБД. Однако, у неё закрытый исходный код, нет on-premise версии (только облачная инсталляция). Казалось бы, эти факторы негативно влияют на популярность, но результат оказался иным. Давайте разберем что же нового предлагает вендор своим клиентам. 🤔
Как я говорил на лекциях, область применения векторных СУБД довольно маленькая. По сути, все задачи сводятся к поиску "ближайших соседей". Это могут делать и другие СУБД внедрив соответствующую библиотеку (Annoy,ScaNN) . Однако, всё меняется, когда вырастает нагрузка. Причем растут требования по RPS и к объему обрабатываемой информации. И сама нагрузка отличается.
В новых сценариях использования вы видите, что фактические рабочие нагрузки очень неравномерны, так что это противоположность предсказуемой рабочей нагрузке
Дополнительно подсветили еще одну проблему
Часто векторные индексы для рекомендательных систем создаются в пакетном режиме, что занимает несколько часов, — написал он в блоге. — Это означает, что такие индексы устаревают через несколько часов, но это также позволяет значительно оптимизировать индекс выдачи, поскольку его можно рассматривать как статичный
Для решения основных задач используется две архитектуры
❗️Pod-Based Architecture
Она полезная для выполнения высокопроизводительных вычислений (HPC) и 👉тем, где требуется масштабируемость и управление ресурсами.
❗️Serverless Architecture
Обладает высокоточным векторным поиском «из коробки». Не требуются экспертные знания. Предсказуемо низкие задержки.
Компания Pinecone попыталась соединить лучшее из двух миров и создать единую архитектуру. Вроде как у них это получилось 💪
Маркетинговые плюшки перечислять не буду, но идея интересная. Надеюсь, разработчики представят более подробные материалы об их инновационном решении. 👍
The New Stack
Pinecone Revamps Vector Database Architecture for AI Apps
The company announced the next generation version of its serverless architecture, which is designed to better support a wide variety of AI applications.
🤔1
📚 MongoDB приобретает Voyage AI для улучшения генерации с использованием расширенного поиска
На фоне успешного индийского контракта с индийским стартапом Zepto, компания MongoDB решила прикупить стартап Voyage AI, которые специализируется на повышении качества данных и уменьшению галлюцинаций.
Прекрасный тезис американских бизнесменов. Обычно такими вещами промышляют ИТ-гиганты, такие, как Oracle, Microsoft, то сейчас подтягиваются и другие. В очередной раз это доказывает, что MongoDB будет делать всё возможное, чтобы развивать свою СУБД и привлекать всё больше и больше клиентов. 🤑
На фоне успешного индийского контракта с индийским стартапом Zepto, компания MongoDB решила прикупить стартап Voyage AI, которые специализируется на повышении качества данных и уменьшению галлюцинаций.
"Не можешь повторить - покупай" (с)
Прекрасный тезис американских бизнесменов. Обычно такими вещами промышляют ИТ-гиганты, такие, как Oracle, Microsoft, то сейчас подтягиваются и другие. В очередной раз это доказывает, что MongoDB будет делать всё возможное, чтобы развивать свою СУБД и привлекать всё больше и больше клиентов. 🤑
Хабр
MongoDB приобретает Voyage AI для улучшения генерации с использованием расширенного поиска
Чтобы получить наилучший результат от запроса к ИИ, организациям нужны максимально точные данные. Ответ, который помог многим организациям справиться с этой задачей, — это генерация с...
📚 Couchbase обеспечивает более гибкую разработку агентного ИИ с помощью NIM от Nvidia
Продолжаем цикл статей про интеграции функции ИИ в СУБД. 👀
На этот раз хочу отметить компанию Couchbase, которая для своего облачного сервиса использует возможности технологии NIM от Nvidia. Вендоры СУБД используют различные способы развития своего продукта.
Кто-то меняет архитектуру своего облачного сервиса, кто-то покупает конкурентов, а кто-то использует мощь фреймворков для более тесной интеграции оборудования и баз данных. 🦄
Мир очень велик! 🌏И каждый идёт по своему пути. Очень интересно наблюдать какой путь приведёт компанию к мировому господству! 😱
Продолжаем цикл статей про интеграции функции ИИ в СУБД. 👀
На этот раз хочу отметить компанию Couchbase, которая для своего облачного сервиса использует возможности технологии NIM от Nvidia. Вендоры СУБД используют различные способы развития своего продукта.
Кто-то меняет архитектуру своего облачного сервиса, кто-то покупает конкурентов, а кто-то использует мощь фреймворков для более тесной интеграции оборудования и баз данных. 🦄
Мир очень велик! 🌏И каждый идёт по своему пути. Очень интересно наблюдать какой путь приведёт компанию к мировому господству! 😱
SiliconANGLE
Couchbase enables more nimble agentic AI development with Nvidia’s NIM
Database company Couchbase Inc. is enhancing the capabilities of its artificial intelligence agent-building tools, Capella AI Model Services, by integrating them with Nvidia Corp.’s NIM microservice
🧸 Вышла SQL Noir — игра для изучения SQL
Еще одна похожая игра SQL Squid Game
Как же здорово, что игровые механики понемногу захватывают рынок образования. Теперь реально можно сказать маме, что новая крутая видеокарта или игровой ноут мне нужны для учебы 😁. Надеюсь, таких проектов будет всё больше и больше! Я сам начинаю внедрять в своих новые проекты подобную идеологию. Пока очень поверхностно, но думаю это будет хорошая отправная точка! 💪
Разработчики выпустили SQL Noir — игру для изучения SQL. По сюжету пользователю надо взять на себя роль детектива и раскрыть несколько преступлений, анализируя улики в базе данных
Еще одна похожая игра SQL Squid Game
Как же здорово, что игровые механики понемногу захватывают рынок образования. Теперь реально можно сказать маме, что новая крутая видеокарта или игровой ноут мне нужны для учебы 😁. Надеюсь, таких проектов будет всё больше и больше! Я сам начинаю внедрять в своих новые проекты подобную идеологию. Пока очень поверхностно, но думаю это будет хорошая отправная точка! 💪
Хабр
Вышла SQL Noir — игра для изучения SQL
Разработчики выпустили SQL Noir — игру для изучения SQL. По сюжету пользователю надо взять на себя роль детектива и раскрыть несколько преступлений, анализируя улики в базе данных. Задачи-преступления...
🔥2