Мультивселенная СУБД
184 subscribers
115 photos
1 video
4 files
257 links
Канал для тех, кто хочет стать супергероем этой мультивселенной
Download Telegram
📻SQL FM

СУБД PostgreSQL и её форки завоевывают всю большую популярность на территории РФ - идет процесс импортозамещения. Однако и для новых проектов PostgreSQL выбирается чаще всего. С чем это связано? Куда подевались NoSQL-решения?

Возьмем для примера популярную NoSQL СУБД MongoDB. Почему российские IT-архитекторы отказываются от этой СУБД?

Если отбросить факт, что компания MongoDB Inc ушла с рынка РФ, громко хлопнув дверью, то причины следующие:

1. Отсутствие какой-либо официальной техподдержки. Даже неофициально найти компанию, которая предоставляла бы такие услуги, непросто.

2. В РФ так и не сформировался рынок высококлассных специалистов по СУБД MongoDB. Многие компания просто не умеют её "готовить"🥚.

Схожая проблема актуальна и для отечественных компаний, продвигающих NoSQL-решения: ВК, Эквирон, Аренадата. Сегодня их доля на рынке незначительна,
несмотря на то, что они обеспечивают техподдержку своего продукта.
Сложности возникают с рекрутингом высококвалифицированных администраторов баз данных🍳. Одним из решений является разработка обучающих курсов, доступных на самых популярных обучающих платформах.
Немного юмора в это солнечное утро

#mems
🐳3👍1
📻NoSQL FM
21 марта на лекции по Tarantool от компании ВК спикер Игорь Золотарев обронил фразу, что Redis перестаёт быть opensource-проектом. Решил погуглить, и нашел новость:

СУБД Redis переходит на проприетарную лицензию

Настоящая трагедия для OpenSource-сообщества!😩😭

В качестве причины изменения лицензионной политики отмечается желание не допустить паразитирования провайдеров облачных сервисов на открытом ПО. Компанию Redis Inc не устраивает то, что облачные провайдеры создают производные коммерческие продукты и занимаются перепродажей Redis в виде облачных сервисов, но не принимают участия в жизни сообщества и не помогают в разработке. Создаётся ситуация, когда выгоду получают ничем не связанные с проектом облачные провайдеры, перепродающие готовые открытые решения, а непосредственно разработчики остаются ни с чем.

Разработчиков можно понять. Все хотят денюжку, и грустно наблюдать, как огромные денежные потоки 👆 протекают мимо.

Пока сложно предсказать масштаб бедствия, но, думаю, для многих компаний по всему миру это настоящий гром среди ясного неба. Компаний из РФ тоже заденет немало. Я думаю, особенный шок у Альфа-Банка, который интегрировал Redis в свой ИТ-ландшафт очень прочно. Хотя, возможно, они смогут договорить с Redis Inc и просто кинут им денег. Как-то 😉... через карточку МИР...

Подожду пару недель и посмотрю на реакцию сообщества. Если будет что-то интересно, я обязательно напишу!

Пока - Redis RIP 🪦
🔥2😱1👀1
🎦 Помните, я недавно писал про новую СУБД для аналитики (пост) Tarantool Column Store от компании ВК? Так вот, на просторах интернета встретил презентацию (с транскрипцией к нему) аналитических возможностей DuckDB от Ханнеса Мюлейзена, соучредителя и генерального директора DuckDB Labs.

История DuckDB началась с вопроса: почему взаимодействие с СУБД такое разочаровывающе медленное? Докладчик сделал своей целью не только ответить на этот вопрос, но и решить лежащую в его основе проблему.

Возможно, причина в клиент-серверной архитектуре, а точнее, в древних клиентских протоколах.
Для проверки этой гипотезы было проведено тестирование, которое показало, что время пересылки данных между СУБД и клиентским приложением сильно отличается у различных видов СУБД: у MySQL 101 сек, у PostgreSQL 202 сек, Hive 629 сек. Когда тестирование проходил SQLite, тесты показали лучшую скорость доступа. Однако SQLite это OLTP СУБД, а хотелось обрабатывать OLAP нагрузку.

Так началась разработка DuckDB на языке C++. Была взята концепция SQLite - внутрипроцессовой (in-process) СУБД.

Продукт получил следующие характеристики:

1️⃣ DuckDB - SQLite для аналитики.

2️⃣ DuckDB имеет встроенную поддержку файлов Parquet.

3️⃣ DuckDB - первая внутрипроцессовая (in-process) OLAP DBMS.

4️⃣ DuckDB - опенсорсное решение (но существует и коммерческая версия DuckDB под именем MotherDuck).

Архитектурные технические особенности:

📍3 конвейера при выполнении SQL-запросов.
📍Векторизированная обработка запросов.
📍Morsel-Driven Parallelism.
📍Эффективная работа с КЭШ ЦПУ.

Для доказательства успешного решения поставленной проблемы, докладчик представил результаты проведенного тестирования с обработкой 2 таблиц по 1 млн и 10 млн записей. DuckDB справился за 0.5 сек, а ванильный PostgreSQL за 21 секунду. Это, конечно же, синтетические тесты, и автор это признает. Но это отправная точка для более масштабного изучения нового продукта.

Очень интересное видео, рекомендую. Ждем дальнейших тестов DuckDB от других независимых экспертов.
👍1
📻NoSQL FM
🗞 Transactional Serverless Computing on a Cloud-Native OS
DBOS nabs $8.5M to challenge Linux with a database-powered operating system

Компания DBOS была основана в апреле 2023 года известными компьютерщиками Майклом Стоунбрейкером и Матеем Захарией.

Стоунбрейкер, лауреат премии Тьюринга, разработал одну из первых реляционных баз данных в 1973 году, а позже основал более полудюжины компаний по управлению данными. Захария, в свою очередь, является создателем Apache Spark, а также техническим директором Databricks Inc.

In a nutshell, DBOS codes operating system services in SQL running on top of a high-performance distributed, transactional, partitioned fault-tolerant DBMS. This is in contrast to the traditional method of running the DBMS in user space on top of an OS without DBMS services.

Монетизация проекта планируется через DBOS Cloud.

Сообщество DBOS располагается в Discord. Это очень интересно корелируется с новостью о том, что Discord признан социальностью сетью.
Надеюсь, вам понравилось онлайн-занятие, хотя какое там занятие! - целый Meetup по СУБД для МФТИ. И вы, как эти двое друзей, наполнились знаниями "под завязку".

Если у вас будут вопросы по СУБД: libmdbx, YeniseiDB, ScyllaDB, то не стесняйтесь, пишите мне.

Если кто-то хочет дополнительно выразить благодарность спикерам, то милости прошу в комментарии к посту.
🔥13
Недавно вышел свежий номер журнала Database Trends and Applications Magazine за февраль/март 2024 года.

Обычно я разбираю несколько статей выпуска, но в этот раз решил этого не делать.

Особо ничего существенного для мира СУБД там не сказано, однако поделись некоторыми выдержками из статей, которые меня заинтересовали.

- компании всё чаще при проектировании инфраструктуры используют мультиоблачные решения либо гибридные решения. Можно сделать вывод, что хоть какая-то часть инфраструктуры предприятия находится в облаке. Размер этой части каждая компания решает самостоятельно.

- Внедрении ИИ вскрыла гнойник связано с качеством данных. Порой критичные данные располагаются в самых необычных местах. Всё это объединить и очистить - очень трудоемкая задача. Возможно поэтому практики DevOps начинают проникать в мир СУБД (DataOps).

- Nihal Mirashi, principal solutions marketing manager:
Мираши указал на тенденцию в рамках которой автоматизация операций с базами данных приводит к изменению ролей. Эти “data-centric” роли превратили администратора базы данных (DBA) в архитектора данных, аналитика данных - в инженера бизнес-аналитики (BI), а инженера по качеству данных (SRE) - в специалиста по обработке данных (Data scientist).


- Marsha Pierce, global practice lead for databases:
[Data reduction] важно, потому что хранение данных стоит денег. Если мы сможем помочь сократить и смягчить тот экспоненциальный рост объема данных, который наблюдается в наших компаниях, тогда мы действительно будем хорошо распоряжаться деньгами компаний, и лучше использовать нашу инфраструктуру.


Напоследок приведу лишь несколько заголовков статей. Их даже разбирать не стоит и так всё будет понятно о чем будет статья. Если вам вдруг интересно содержание ссылки сохраню:

"Move to the Cloud, AI and Machine Learning, DevOps, and Data Governance:Four Trends That Defined 2023" by Kevin Kline.

"Large Language Models May Have Unacceptable Carbon Footprints" by Guy Harrison
🎦Дарья Колесова. Как выбрать технологии для базы данных?

Посмотрел недавно видео о выборе СУБД от 2022 года. Мне понравился подход, который строится на анализе проблемы и потребности.

Первые 40 минут видео прекрасны😍. (Я даже думаю некоторые фрагменты использовать в своих лекциях). Спикер подходит к выбору продукта, исходя из базовых критериев, и заполняет анкету, отмечая те пункты, которые способны удовлетворить (гипотетические) требования заказчика.

Вторая часть видео (40-50 минут) уже не так интересна. Автор пытается рассуждать на тему активных/не активных opensource проектов, опираясь на время обновления файлов в репозитории. По ее мнению, если в репозитории не было изменений в течение месяца, проект - мусор, он заброшен и лучше им не пользоваться. На мой взгляд, это очень поверхностное суждение.

Третья часть (50 и далее минут) - секция вопросов-ответов.

Вопрос: "Зачем существует MongoDB, если можно взять PostgreSQL и хранить там документы формата JSON?". Ответ:
📍 Postgres медленный.
📍 У Postgres жесткая схема. Приводится пример с тем, что данные могут быть различные по полям. (Явно спикер потерял мысль - обсуждается именно JSON формат).
📍 SQL - это не про JSON.
Как вы поняли, согласиться можно только с первым пунктом. Все остальные доводы нерелевантны.

Если бы этот вопрос задали мне, то я бы отметил громоздкость такого решения. Postgres - универсальная СУБД, большая и мощная. Следовательно, её тяжело администрировать и сопровождать. С MongoDB все в разы проще, это во-первых.

Во-вторых, MongoDB действительно лучше оптимизирована под хранение, обработку JSON-формата данных. (Хотя это спорное утверждение и нуждается в "пруфах"). Недавно Константин Осипов делал доклад на конференции CodeFest Russia. Оказалась, что MongoDB 4.x и 5.x очень плохо справляется с транзакционной нагрузкой. Сейчас выпущен MongoDB 7.х. Возможно, там что-то оптимизировали.

В-третьих, потребность добавления в архитектуру вашего приложения СУБД MongoDB может быть вызвана необходимостью банально снизить нагрузку на основную СУБД (Postgres). Одним из популярных паттернов проектирования является: "1 задача - 1 СУБД".

Еще один ответ, который меня триггернул:
Вопрос: Хочу стать системным аналитиком/спецом по BigData. С чего начать?
Ответ: пытайтесь устроиться в крупные компании, смотрите видео, читайте книжки и т.п.
🤦‍♂️

Мой ответ: идете на популярный сайт по поиску работы (hh, авито, superjob). Ищете вакансию, которая вам нравится. Ищите список требуемых навыков и выписывайте их.

Далее смотрите на свой бюджет:
Денежки нет: в YouTube ищем обучающие видео и занимаемся по ним. Тот же совет по книгам.
Денежка есть: Ищете обучающие курсы по выбранной вакансии и сравнивайте программу курса со списком требуемых навыков. Если совпадение есть более чем на 80%, то это успех! Покупайте курс и учитесь.
Денежка есть и мотивации много: ищем ментора. Этот человек максимально быстро погрузит вас в выбранную профессию. Мне кажется, в РФ это не сильно распространено, но эффективность крайне высокая.

Я бы рекомендовал сайт по менторингу от своего коллеги.
👍2🔥1👀1
📻NoSQL FM
Казалось бы, только недавно мы привыкли считать, что современные СУБД - это не просто база данных, а еще и сервер приложений со своими уникальными фишками. Но никто не думал, что можно двигаться в противоположную сторону - в сторону операционной системы.

Статья, в которой разбирается концепция СУБД/ОС как единого механизма.

Концептуально - идея ТОП. Осталось только собрать народ и протестировать новую архитектуру на соответствие современным стандартам рабочих нагрузок.
"Немного юмора в чат" (с)

#mems
🔥9
Не смог пройти мимо и не прочесть статью на любимом Хабре от товарищей из YDB: Когда одного Postgres'a мало: сравнение производительности PostgreSQL и распределенных СУБД

Всегда интересно, когда народ сравнивает производительности распределенных систем. Мне очень симпатичен CockroachDB, хотя я с ним никогда не работал. Почему-то доклады по этой СУБД вызывают у меня бурный интерес. Аналогичные чувства у меня и к ScyllaDB.

Несмотря на то, что статья классифицируется хабром как "сложная", написана она довольно понятным языком. Вообще, автор молодец. Я прочел статью практически на одном дыхании. Хотя мне не хватило каких-то более глубоких выводов. Как-то поверхностно получилось: "Постгрес - отличное решение, пока не требуется горизонтальное масштабирование. CockroachDB и YDB - хороши во всем".
😱3
🗓8-9 апреля проходит конференция PGConf.Russia 2024.
Организатор - компания
Postgres Professional. По счастливому совпадению, место проведения конференции - Бизнес-центр «Рэдиссон Славянская». Да-да, то же место, где проходят конференции ВБА и IFIN, на которых я бываю каждый год.

День 1.

Из плюсов:

Еда 🍱 - безусловный плюс. Всего много, и качество отличное. Обед был очень неплох 👌. Фуршет под конец первого дня был просто волшебным! Много горячего, бургеры, шашлычки, роллы, салаты, пироженки, муссы и многое другое🥂. И вишенкой на торте - живая музыка. Очень круто!

Стенд СУБД Pangolin. Один из самых крутых стендов. Мерча было немного, но кое-что удалось урвать. Главным для меня было познакомиться и пообщаться с разработчиками - думаю включить эту СУБД в мой курс по базам данных в следующем году. Ах да, там же был розыгрыш умной колонки Сбера. Угадайте, кто выиграл? Да, это был я ) чистое совпадение )) никакой подставы )))

Заполучил книжку Мониторинг PostgreSQL с автографом автора Алексея Лесовского.

Из минусов:
Тьма народу, которым было явно тесно на конференции. Хотя после 17 часов народ рассосался, но всё равно. Например, на доклады, которые стартовали ровно в 15 часов, не было мест! Все залы были забиты людьми. Народ сидел на лестницах.

Мало времени было уделено секции Q&A. Чаще всего её просто пропускали. То ли докладчики не помещались в тайминг, то ли организаторы напутали с расписанием.

Я посетил следующие доклады:

PostgreSQL 17 - спикер Павел Вениаминович Лузанов.

В целом, ничего особо интересного. Доработали тут, доработали там. Ничего важного мне не запомнилось. Сложилось впечатление, что доработали то, что было внедрено еще в 16 версии. "Довели до ума".

Про-Shardman - спикер Алексей Евгеньевич Борщев

Рассказ о Shardman, какой он классный и что умеет. Тоже какой-то проходной доклад. Проще было задать вопросы у стенда Shardman и получить ответы.

Консистентность в распределенных системах на базе PostgreSQL - спикер Никита Сергеевич Печёнкин.
Этот доклад более интересный - про виды консистентности и изолированности. В открытом доступе единственным инструментом тестирования распределенных систем является Jepsen. Товарищи из Shardman адаптировали тесты под свою СУБД и нашли ряд проблем, сейчас активно их решают.

Безопасность баз данных - Владимир Иванович Комаров, СберТех (разработчик СУБД Pangolin).
Один из лучших докладов! Очень четко и по полочкам разложил все функции по обеспечению безопасности, которые внедрены в Pangolin. У меня прям вопросов не осталось. Очень круто.

Оптимизация OLTP-нагрузки - Сергей Новиков.
Второй по значимости доклад. Безумного интересно, как в компаниях DBA занимаются оптимизаций на уровне СУБД. Можно почерпнуть кучу лайфхаков для себя. Как только выложат видео докладов, сделаю отдельный пост.

Мониторинг и алертинг большой инфраструктуры - Алексей Сергеевич Светличный от Тинькофф.
Казалось бы, тоже должен быть интересный доклад, и поначалу так оно и было, но... в итоге можно сделать такой вывод: Тинькофф с помощью разных команд разработчиков создали несколько доп.систем, которые в совокупности решают задачи мониторинга и аллертинга. Единственное, что полезного я вынес: все метрики и способы сбора метрик у них вполне стандартные. Ничего сверхнового или необычного нет.

Очень жду 2-ого дня конференции. Фотки выложу чуть позже отдельным постом.
🎉1
🗓 8-9 апреля проходит конференция PGConf.Russia 2024.
PGConf.Russia – международная техническая конференция по открытой СУБД PostgreSQL

День 2.

День для меня начался беседой с коллективом стенда Pangolin. Говорили про обучение специалистов и студентов в разных ВУЗах. К разговору подключился Владимир Комаров, автор книги "Путеводитель по базам данных". Оказывается, он тоже хочет разработать актуальный курс по СУБД для студентов ВУЗов. Я пригласил его поучаствовать в своей разработке нового курса. Надеюсь, наше сотрудничество будет плодотворным.

Пообщался с Михаилом Жилиным из Postgres Professional. Пригласил его провести в следующем году 1-2 лекции про распределенную СУБД Shardman. Причем, формат лекции будет необычным. Мы еще согласовываем детали, но должно быть интересно. Лекция, скорей всего, (на 90%) будет офлайн. Прямо на территории СберТеха.

Встретил коллегу-преподавателя из МПГУ. Он привел на конференцию своих студентов. В целом, студентов было не много. Я видел 1-2 человека из НИЯУ МИФИ, УКИТ им.Разумовского и МИРЭА. У меня сложилось впечатление, что народ пришел просто так. Посмотреть, как и что тут люди делают. Хотя я слышал много хороших слов в адрес докладчиков от них. Кстати, компания PostgresPro проводит бесплатные стажировки. Можно, учась параллельно в ВУЗе, обучаться предполагаемой профессии. Возможно, для студентов МФТИ и нашей кафедры БИТ это не очень актуально, но для студентов колледжей, ВУЗов ниже первой десятки, такой вариант очень привлекателен. Я даже думаю пройти их "лагерь". Авось, что-то интересно почерпну.

По традиции, немного про доклады:
JSONB и будущее реляционных СУБД - взгляд разработчика - Василий Пучков
Доклад больше всего интересен тем, что автор подробно расписывает процесс разработки схемы базы данных на примере нефтебазы. Для чего каждая сущность нужна? Почему именно такие связи и т.д. В конце он говорит, как именно большинство бизнес-запросов с 3-6 операциями join можно упростить с внедрением JSON. К сожалению, автор не привел примера упрощённой схемы базы данных после добавления этого поля ☹️ Но это не умаляет ценность доклада.

Слон и Моська. Проблема фенсинга в кластерах PostgreSQL - Павел Конотопов.
Очень интересный кейс как разломать кластер Постгрес привел автор доклада. Сценарий:
1. Есть кластер Постгрес, допустим, с тремя нодами: мастер, реплика, реплика.
2. ВМ, на который крутится мастер, по какой-то причине зависает. Состояние мастера неопределенное.
3. Однако кластер считает, что мастер недоступен, и происходит выбор нового мастера.
4. Проходит условно 60 секунд, и ВМ с бывшим мастером оживает.
5. Кластер Постгрес видит, что старый мастер жив, и отправляет команду на новый мастер: погасись. Превратись обратно в реплику.
6. После чего кластер восстановлен в своей первоначальной архитектуре, однако часть данных потеряна.

Во время зависания ВМ, старый мастер продолжал принимать запросы, и, после синхронизации кластера, данные на старом мастере были удалены. Такой интересный кейс. Это признали багом и вроде в новой версии PGBouncer ее поправили. Расходимся.

Историко-статистический взгляд на сообщество PostgreSQL - Павел Толмачев.
Тут со мной сыграли злую шутку мои обманутые ожидания. Я думал, что доклад будет о том, как Постгрес захватывает мир! Однако автор просто рассказал, как росло комьюнити постгрес с точки зрения разработчиков/контребьютеров. Когда проходят коммит-фесты, сколько патчей было подано на рассмотрение, сколько было принято, и так за последние 20 лет. Вроде интересно, но чувство неудовлетворенности осталось.

На этом 2-ой и последний день конференции подошел к концу. Было безумно интересно! Если кто-то хочет посмотреть доклады с прошлой конференции 2023 года, то их уже выложили в открытый доступ.
3 апреля 2023
4 апреля 2023
Добыча с конференции PGConf.Russia 2024.

Поговорил с Владимиром Комаровым. Договорились совместно сделать новый курс по СУБД для кафедры БИТ. Может быть, на следующий год или через год.
🔥8
📚Предлагаю разобрать секцию Q&A: Cockroach Labs’ Spencer Kimball on Distributing SQL от журналиста Joab Jackson.

Спенсер Кимбалл - генеральный директор Cockroach Labs. Работал в компании Google. Участвовал в развитии Bigtable и продукта Spanner.

С чего началась Cockroach Labs.
Работая на Google, Спенсер решал вопросы, связанные с хранением и обработкой данных. В то время компания Google строила ЦОДы. Текущий объем данных уже выходил за рамки возможностей Oracle и традиционных РСУБД. Продукту AdWords требовались масштабируемые СУБД. Это подтолкнуло Google к ряду инноваций.
Начались эксперименты с MySQL, т.к. нужны были транзакции. Решить проблему масштабирования в Google пытались использованием шардинга. В конечном счете количество шард достигало 1000.
Этот эксперимент длился 10 лет и в итоге провалился.

Началась разработка принципиально новой СУБД - BigTable. Однако для сервиса AdWords она не подошла, т.к. Бизнес требовал транзакции, которые в BigTable не поддерживались. Поэтому Google сделали форк и назвали его Megastore. Под капотом Megastore был Paxos. Это было большим нововведением в те времена.

Именно тогда, участвуя в постоянных сражениях со сбоями инфраструктуры, Спенсер понял, что за распределенными СУБД будущее, и, пока ниша была свободной, решил ее занять. Спенсер вместе с коллегой Беном ушли из Google и создали свой продукт - CockroachDB.

Принципы работы CockroachDB максимально близки Postgres. CockroachDB славится своей выживаемостью и масштабированием. Разработчики не пытаются решать эти проблемы. Это работа архитекторов.

Весь маркетинг по продвижению новой СУБД был направлен на системных архитекторов. За 2022 год компания Cockroach Labs заработала 30 млн.долларов. Рост прибыли за год - 200%. Данных за 2023 год еще нет, т.к. финансовый год еще не закончен. Однако ожидаются цифры около 60 млн.долларов.

Заключительный вопрос был про тенденции в области СУБД. Спенсер считает, что в поддержке ИИ СУБД будет играть одну из самых важных ролей, т.к. все данные ИИ нужно где-то хранить.

Полное интервью можно прочитать на сайте
🎦 СУБД Ред База Данных - это? - вебинар с Романом Симаковым CPO Ред СОФТ.

Обычно я разбираю подобные видео по тезисам и делаю некий пересказ особо запоминающихся моментов. Однако в этом видео для себя я ничего не приметил. Всё видео для меня прозвучало на волне: "У нас крутая СУБД. Нас используют в 100500 местах. Конец". Много каких-то пустых фраз, и не понятно как на самом деле обстоят дела. Представители Ред базы данных (РБД) за последние 3 года не засветились ни на одном техническом митапе, конференции или дринкинпати. У меня нет понимания, что они делают.

Да, у них есть своя конференция, которая пройдет 6 июня в Москве. Да, у них есть бесплатное обучение по администрированию РБД (кстати, я записался на обучение с 15 апреля). Но всё это почему-то не вызывает у меня доверия и уверенности в продукте РБД. Возможно, после обучения и конференции моё мнение изменится. Подождем.

Справедливости ради отмечу, что РБД и в целом компания РедСофт бывали на конференциях Ifin и ВБА. Но там ничего полезного про РБД я не узнал. 2 года назад было выступление от маркетолога РБД на IFIN, но там очередная маркетинговая информация. На технические вопросы аудитории ответа не было.

Как итог, подождем 6 июня, и надеюсь, на многие вопросы я получу ответ. Участие в Firebird Conf 2024 для студентов бесплатное, поэтому жду всех желающих "затусить" с коллегами из мира СУБД.
Бородатый мем, но всё еще актуальный

#mems
🔥5👍1