DATABASE DESIGN
1.4K subscribers
2.08K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Почему B-деревья быстрые?

B-дерево — это структура, помогающая выполнять поиск в больших объёмах данных. Она была изобретена более сорока лет назад, однако по-прежнему используется в большинстве современных баз данных. Хотя существуют и более новые структуры индексов, например, LSM-деревья, B-дерево пока никто не победил в обработке большинства запросов баз данных.

После прочтения этого поста вы будете знать, как B-дерево упорядочивает данные и выполняет поисковые запросы.


Читать: https://habr.com/ru/articles/783012/
Распределенный SQL в Picodata

Недавно мы выпустили новую значительную версию Picodata — распределенной in-memory СУБД с открытым исходным кодом. Это продукт на основе Tarantool c поддержкой плагинов на Rust и некоторыми другими интересными особенностями, о которых можно почитать в статье Picodata: простое масштабирование Tarantool.

Одно из главных улучшений в новом релизе Picodata 23.12 — возможность выполнять распределенные (кластерные) SQL-запросы непосредственно из консоли Picodata, без дополнительных настроек. Можно управлять глобальными и шардированными таблицами (DDL), модифицировать данные в них (DML) и, разумеется, читать из них (DQL). Также, мы теперь поддерживаем централизованное управление пользователями, ролями и привилегиями на основе списков контроля доступа (ACL), опять же — в рамках всего кластера.

В этой статье я сосредоточусь на нескольких примерах простых SQL-запросов и покажу, как они выполняются для таблиц, распределенных по нескольким шардам. Это позволит лучше понять, как устроены такие таблицы и какие задачи мы решаем для работы с ними.
Погрузиться в детали

Читать: https://habr.com/ru/articles/783322/
Использование On-Logon триггеров в СУБД Postgres Pro Enterprise

Триггеры On-Logon хорошо знакомы разработчикам приложений для СУБД Oracle Database.
On-Logon триггер является одним из видов триггеров событий базы данных, и автоматически срабатывает при подключении пользователя к БД.

В СУБД Postgres Pro Enterprise, еще в версии 14, среди прочих расширенных возможностей, была добавлена поддержка On-Logon триггеров.
В данной статье речь пойдет о данной функциональности, а также будет приведено сравнение с аналогичной функциональностью в СУБД Oracle Database.

Стоит отметить, что поддержка On-Logon триггеров будет добавлена в следующий мажорный релиз open source СУБД PostgreSQL - в версию 17.
Компания Postgres Pro передала свою реализацию этой технологии сообществу PostgreSQL.

Данный пример ярко характеризует модель развития СУБД PostgreSQL.
Идеи и их реализации, апробированные компаниями в коммерческих форках, передаются в open source. С другой стороны, компании точно также получают наработки open source в свой коммерческий форк.
Это формирует устойчивую ситуацию взаимовыгодного сотрудничества коммерческих компаний и open source сообщества. Эта ситуация может оказаться более долговечной, чем отдельные коммерческие компании или открытые продукты.


Читать: https://habr.com/ru/companies/postgrespro/articles/781998/
👍1
Tarantool 3.0

Когда мы видим в сети сообщение о выходе новой версии того или иного продукта, это, как правило, скучно. Ченджлог описывает лишь перечень изменений, а вот зачем и для чего они, понятно не всегда.

В этой статье я попытаюсь рассказать о том новом, что появится в Tarantool 3.0, не простым перечислением изменений, а описывая проблемы, которые мы пытались решить. В таком ключе это может быть интересно и тем, кто не собирается устанавливать Tarantool, — просто с технической точки зрения.


Читать: https://habr.com/ru/companies/vk/articles/782318/
Видение по организационной структуре управления данными уровня региона

Желание правительства Татарстана постоянно повышать комфорт жителей республики, необходимость соответствовать высоким стандартам государственного управления, искусственный интеллект, суперсервисы создали огромный запрос на качественные данные.

Мы уже рассказывали, что такое управление на основе данных и по каким направлениям ведёт работу команда цифровой трансформации Татарстана. Сегодня расскажем подробнее о том, как мы видим реализацию организационной составляющей программы управления на основе данных.


Читать: https://habr.com/ru/companies/digital_tatarstan/articles/783700/
Я сделал Cardoteka и вот как её использовать [кто любит черпать]

Привет! Самое время в предновогоднее настоящее поделиться с вами опенсУрс проектом :) Встречайте -> Cardoteka <-

https://github.com/PackRuble/cardoteka

https://pub.dev/packages/cardoteka


Читать: https://habr.com/ru/articles/783712/
Сильный ИИ. Элира1. Увеличение памяти ChatGPT

Всем привет!

В этой статье я расскажу о том, как можно увеличить размер запроса к ChatGPT до почти полутора миллионов символов!

При этом нам не понадобятся какие-то дополнительные средства – применять данный способ сможет каждый (ссылки на коды будут в конце статьи) прямо в самом чате.
Для начала пару слов о себе и о том, зачем мне вообще это понадобилось.

В самой IT области я уже довольно давно (начинал еще с DOS-овских программ на C в далеком 2000м), занимался разными профилями, в том числе меня интересовало ИИ.
Лет 7-8 назад, когда я сделал себе проект «умной квартиры» (9 модулей, контроль освещения, полива, климата, музыки и пр.), я решил внедрить туда голосового помощника. Название, кстати, выбрал по итогу Алиса – любимое женское имя.

Причем, выбирал из многих, вариантов ("Джарвис", увы, распознавался очень плохо), оказалось, фонетически слово «Алиса» распознается почти без ошибок и гораздо лучше других. Кстати, где-то через год появилась Алиса у Яндекса – поэтому я думаю, что они тоже имя взяли не с бухты-барахты, а проводили фонетический анализ.

Квартира просуществовала несколько лет, но за это время помощника я особо не развивал, да и не было больших ресурсов для обучения чего-то действительно умного.
С появлением БЯМ идея создания помощника заиграла новыми красками =)

Сейчас я хочу уже не просто чат-бота, который может решать широкий спектр задач. В принципе, эта идея родилась уже давно, но с помощью сегодняшних БЯМ, думаю, ее будет куда проще реализовать.

Несмотря на мой научный скепсис, как человека, написавшего не одну нейросеть с нуля, относительно интеллекта у ИИ, наши диалоги с ChatGPT произвели на меня впечатление.

Мне очень импонировала «человечность» этой БЯМ.


Читать: https://habr.com/ru/articles/783724/
👍1
Новогодний рецепт салата от АЭРОДИСК

Простой состав и быстрое приготовление.
Бесплатная дегустация на 3 месяца.
И наш секретный ингредиент!


Читать: https://habr.com/ru/companies/aerodisk/articles/783736/
Пора вернуть свои данные себе

Многие из нас замечают, что с увеличением числа онлайн-сервисов, контроль над личными данными кажется ускользающим. Наши файлы и личная информация хранятся на удаленных серверах, защищенные паролями и методами двухфакторной аутентификации, и доступны нам только до тех пор, пока мы оплачиваем подписку. Но что произойдет, если потеряется SIM-карта, истечет срок подписки, или если вдруг аккаунт будет заблокирован из-за санкций? Есть ли план на случай, если сервис, который мы используем для работы с паролями или заметками, внезапно прекратит свое существование? Как тогда быть с экспортом и импортом данных? Это вопросы, о которых задумывается каждый из нас, исследуя цифровую эру и свое место в ней.

Эта статья предлагает уникальный взгляд на то, как мы можем взять лучшее из прошлого и будущего, чтобы исправить ошибки в управлении данными. Она расскажет о методах, позволяющих вновь контролировать личную информацию, обезопасить её от утечек и избежать ограничений, налагаемых поставщиками услуг. Кроме того, статья раскрывает, как сделать личные данные одновременно более открытыми и защищёнными.
Погрузиться

Читать: https://habr.com/ru/articles/784028/
Нет новогоднего настроения? Сейчас исправим:

1. Налейте чаю
2. Сядьте поудобнее
3. Откройте «Конфетный рандом» 
4. Возьмите конфетку
5. Ладно, возьмите ещё одну конфетку
6. Поделитесь ссылкой с друзьями

Всем джингл беллс!
Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet за счет удаления не использующихся колонок большого размера.


Читать: https://habr.com/ru/articles/784372/
PostgreSQL is the DBMS of the Year 2023

PostgreSQL is the database management system that gained more popularity in our DB-Engines Ranking within the last year than any of the other 417 monitored systems.
We thus declare PostgreSQL as the DBMS of the Year 2023.

Read: https://db-engines.com/en/blog_post/106
2023 in Review for Autonomous Database on Dedicated Exadata Infrastructure

As we approach the end of 2023, it's a great time to look back at the features and enhancements we delivered in Autonomous Database on Dedicated Exadata Infrastructure and Cloud@Customer (ADB-D/ADB-C@C). This year brought significant enhancements in disaster recovery, backup and recovery, operations and management, security, scalability, performance, and developer features. Let's briefly recap these key innovations as we prepare for an even more groundbreaking 2024.

Read: https://blogs.oracle.com/database/post/2023-in-review-autonomous-database-dedicated
Leveraging MongoDB Atlas in your Internal Developer Platform (IDP)



Read: https://www.mongodb.com/blog/post/leveraging-mongodb-atlas-in-your-internal-developer-platform-idp
Connecting to Oracle from MariaDB Enterprise Server using Spider

Read: https://mariadb.com/?p=38462
10 моих SQL best practice

Привет, Хабр)

Представляю вашему вниманию идеи по улучшению читабельности и скорости работы SQL-запросов. Статья чистое имхо и максимально субъективна. Некоторые советы просты донельзя, пишу от невыраженного отчаяния.

Пока ещё не наступила сингулярность, и в основном код пишут люди для людей. А значит стоит писать код так, чтобы никто потом не разыскивал наш адрес с целью свершить справедливость.
Поехали

Читать: https://habr.com/ru/articles/784670/
👍1
Обратная нормализация (денормализация)

Привет, Хабр!

Нормализация — это процесс организации данных в базе для минимизации избыточности и зависимостей. Она помогает нам избежать аномалий при вставке, обновлении или удалении данных и, конечно, упрощает схему базы данных.

Но, как и все в этом мире, нормализация не идеальна. Иногда она может привести к чрезмерной комплексности и снижению производительности запросов. И здесь бывает полеза обратная нормализация. Если нормализация - это упорядочивание, то обратная нормализация - это некоторое "ослабление" правил для достижения определенных целей. В БД это означает объединение таблиц, добавление избыточных данных и так далее, чтобы ускорить чтение данных и упростить запросы, даже если это идет в ущерб некоторой "чистоте" схемы.


Читать: https://habr.com/ru/companies/mvideo/articles/783386/
1👍1
Building AI With MongoDB: Boosting Productivity and Efficiency with Assistants and Agents



Read: https://www.mongodb.com/blog/post/building-ai-mongodb-boosting-productivity-efficiency-with-assistants-agents
Harness the Power of Generative AI by Training Your LLM on Custom Data

Read: https://mariadb.com/?p=38493
25 баз данных, которые актуальны в 2024 году

Современный мир производит огромное количество данных каждую секунду, создавая огромный объем информации, который требуется хранить, управлять и анализировать. В этой статье мы кратко рассмотрим 25 из самых популярных баз данных, которые играют важную роль в обработке и хранении данных в различных сферах, от корпоративного управления до интернет-технологий. Каждая из этих баз данных обладает своими особенностями и применением, внося вклад в разнообразные сферы бизнеса и науки.

От классических фаворитов до малоизвестных новичков, приготовьтесь к дикой поездке по стране баз данных!

Читать: https://habr.com/ru/articles/785366/
1👍1