DATABASE DESIGN
1.41K subscribers
2.08K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Краеугольные камни ClickHouse

Привет, Хабр! Меня зовут Артемий Кравцов, я работаю инженером в Wildberries. Сегодня расскажу про то, что люблю – про ClickHouse. Моя цель – осветить некоторые ключевые особенности в архитектуре ClickHouse и в том, как он хранит данные.

Что такое куски и слияния? Как быть с частыми вставками? Как обновлять значения в строках? Что не так с точечными чтениями? Как сделать тяжёлый JOIN?

Статья рассчитана на тех, кто только знакомится с ClickHouse.


Читать: https://habr.com/ru/companies/wildberries/articles/821865/

@database_design
___
Другие наши проекты
Leading Industry Analysts Comment on the Release of Oracle APEX 24.1

With the recent announcement of Oracle APEX 24.1 featuring Mike Hichwa, SVP of Software Development (the creator of the Oracle APEX low-code platform) and Andy Mendelsohn, EVP, Oracle Database Server Technologies, APEX makes it easier for developers to integrate AI into new or existing applications, allowing them to build enterprise-ready applications, and give users a better and richer experience.

Read: https://blogs.oracle.com/database/post/leading-industry-analysts-comment-on-the-release-of-oracle-apex-241

@database_design
___
Другие наши проекты
Announcing Oracle APEX 24.1 General Availability

Announcing Oracle APEX 24.1 General Availability

Read: https://blogs.oracle.com/apex/post/announcing-oracle-apex-241

@database_design
___
Другие наши проекты
Oracle Spatial Studio 24.1 Available Now

We’re pleased to announce the release of Oracle Spatial Studio 24.1, a no-code web tool for working with the spatial features of Oracle Database. This blog post will explore some of the enhancements available in this release, including enhanced embedding, including 3D Tile support for Cesium, and incremental geocoding.

Read: https://blogs.oracle.com/database/post/oracle-spatial-studio-241-now-available

@database_design
___
Другие наши проекты
Built-in replanning, как способ корректировать огрехи оптимизатора PostgreSQL

Компания Postgres Professional занимается разработкой и поддержкой СУБД с 2015 года. Это серьёзный срок для компании в ИТ-сфере, и за это время мы видели много случаев, когда клиенты сталкивались с неоптимальным выполнением запросов. Обычно оптимизатор PostgreSQL неплохо справляется и строит хорошие планы, если количества джойнов в запросе не больше 10 и данные в таблицах распределены равномерно. Однако в даже на изначально тщательно продуманной базе данных, оптимизатор может сгенерировать настолько неоптимальный план, что его время выполнения может увеличиться в разы. В некоторых особо экстремальных случаях даже практически невозможно дождаться окончания выполнения запроса и понять при помощи EXPLAIN ANALYZE, что пошло не так. Усугубляющим фактором является то, что оптимизатор PostgreSQL никак не запоминает допущенные ошибки выполнения. Построив неоптимальный план один раз, он с большей долей вероятности будет делать это снова и снова до тех пор, пока что-то не изменится: статистика, настройки оптимизатора или какое-то внутреннее состояние СУБД.

Другая не менее важная тенденция в области баз данных — уход в облака, где у DBA остается незначительный набор инструментов для исправления проблемных ситуаций и диагностики причин.

На протяжении своего существования наша компания пытается отвечать на эти вызовы, для чего, например, были разработаны расширения AQO и sr_plan. Сообщество PostgreSQL также не стоит на месте: в ванильной версии появилась расширенная статистика и был введён ряд оптимизаций вроде инкрементальной сортировки и материализации промежуточных результатов выполнения запроса.

Однако все эти методы или имеют мало предсказуемый результат (AQO), или требуют глубокого понимания причин возникшей проблемы с ручной донастройкой СУБД. В своей новой разработке мы решили взглянуть на проблему исправления ошибок оптимизации с другой стороны. Основная идея в том, чтобы добавить возможность перепланирования на основе полезных сведений, которые можно получить из уже частично выполненного запроса. Помимо этого нужно сформулировать критерии для плохо спланированных запросов, для которых необходимо провести перепланирование.


Читать: https://habr.com/ru/companies/postgrespro/articles/819911/

@database_design
___
Другие наши проекты
👍1
Что нужно знать про объектные хранилища

Цифровые хранилища данных изменили способы производства, обработки и хранения информации. Переломный момент наступил в 1996 году, когда цифровое хранилище стало более рентабельным, чем бумажное.

В 1999 году в мире появилось ≈1,5 эксабайт уникальной информации, которая хранилась на бумаге, пленке, оптических и магнитных носителях. Причем печатные материалы всех видов составили лишь 0,003% от общего объема хранимой информации.

По подсчетам IDC и Seagate, глобальная сфера данных к 2025 году достигнет 175 зеттабайт, то есть увеличится более чем в 100 тыс. раз за четверть века. А с развитием генеративных нейронных сетей данных может стать еще больше.

Возникают закономерные вопросы: где хранить информацию, в каком виде и как получать к ней доступ. Человечество изобретает новые накопители (например, жесткие диски с технологией разогрева магнитных пластин лазером) и строит дата-центры, хранящие эксабайты информации, часть из которых предоставляется заказчикам в виде объектных хранилищ. Цель этой статьи — рассказать об особенностях использования таких хранилищ.


Читать: https://habr.com/ru/companies/mws/articles/822653/

@database_design
___
Другие наши проекты
Интеграция LLM в корпоративное хранилище данных

В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.

Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.

Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.


Читать: https://habr.com/ru/articles/822771/

@database_design
___
Другие наши проекты
DB-Engines now owned by Redgate Software

A big announcement today from DB-Engines as we announce we have been acquired by Redgate Software, the end-to-end Database DevOps solution provider.

Read: https://db-engines.com/en/blog_post/107

@database_design
___
Другие наши проекты
Повышаем Data Quality: щепотка Soda для ваших данных

Привет! Меня зовут Александр Кудрявцев, я аналитик данных в команде Data Platform Банки.ру. Недавно мы озадачились вопросом контроля качества данных (Data Quality) и стали искать комплексное решение. Один из инструментов, который попал в поле зрения, — Soda Core. О нем и пойдет речь в материале.


Читать: https://habr.com/ru/companies/banki/articles/822601/

@database_design
___
Другие наши проекты
Дата-центр ЦЕРН на 1 эксабайт: как хранят данные

Большая наука невозможна без больших вычислений. По крайней мере, это утверждение справедливо в ядерной физике. Мы видим, что львиная доля самых мощных суперкомпьютеров установлена именно в научных учреждениях, в том числе университетах. Сразу несколько отраслей современной науки напрямую зависят от компьютерных расчётов и анализа больших данных, собранных по результатам наблюдений.

Например, в Европейском центре ядерных исследований (ЦЕРН) работает один из крупнейших дата-центров в мире. Без этого вычислительного кластера мы бы искали бозон Хиггса ещё очень долго, а Стандартная модель так бы и осталась незавершённой.


Читать: https://habr.com/ru/companies/ruvds/articles/822681/

@database_design
___
Другие наши проекты
Основы PostgreSQL для начинающих: от установки до первых запросов

Научитесь устанавливать и работать с PostgreSQL. В этом руководстве мы рассмотрим основные команды, создадим первую базу данных и выполним простые SQL-запросы

Читать: «Основы PostgreSQL для начинающих: от установки до первых запросов»

@database_design
___
Другие наши проекты
ИИ Яндекс пытается переплюнуть Тинькофф?

В своё время читал, как голосовой консультант "Олег" от компании Тинькофф рекомендовал пользователю совершить 'Роскомнадзор' в качестве решения проблемы.
Думал - шутка.

Недавно решил потрогать Яндекс360 в варианте Премиум. В ответ Yandex решил сделать мне приятное своими нейросетевыми алгоритмами, о чём известил меня ненавязчивым пушем - Цветочное настроение.
Миниатюра фото уже намекает, да?
Хватит ли Диска для всех букетов...

Читать: https://habr.com/ru/articles/823031/

@database_design
___
Другие наши проекты
Как мы решали задачу сегментирования бизнес-объектов

Привет! Меня зовут Владимир, я руководитель управления разработки и тестирования в СИГМЕ. Сегодня хочу рассказать, как наша команда дорабатывала CRM-систему заказчика. Она используется для контроля всевозможных коммуникаций с клиентами — от звонков на горячую линию и переписки в мессенджерах до визитов в офисы и почтовых рассылок. Архитектурно CRM спроектирована так, что способна сопровождать оказание практически любых услуг, но исторически сосредоточена на взаимодействии с клиентами энергосбытовых компаний.

Перед нами стояла задача написать подсистему, которая позволит настраивать условия и в соответствии с ними сегментировать клиентскую базу. Клиенты, соответствующие заданным условиям, будут попадать в определенный сегмент. Эта функция нужна заказчику, чтобы выстраивать диалог с клиентами с учетом их психологического профиля и предпочтений, а также адресно предлагать услуги.


Читать: https://habr.com/ru/companies/sigma/articles/823015/

@database_design
___
Другие наши проекты
Microsoft Power BI can now connect with the Oracle Database using Microsoft Entra ID SSO tokens

This blog announces the availability of Microsoft Entra ID SSO tokens to connect Microsoft Power BI with Oracle Database

Read: https://blogs.oracle.com/database/post/pbi-with-oracle-db

@database_design
___
Другие наши проекты
Сильный ИИ. Элира2. Сохранение диалогов ChatGPT

Всем привет!

В этой статье я расскажу о том, как можно сохранить диалоги в ChatGPT вместе с изображениями из чата!

Несмотря на уже довольно долгое существование ChatGPT в нем до сих пор отсутствует функция сохранения диалогов с изображениями. Более того, при наличии изображений в диалоге, ссылка для сохранения вообще не создается. Именно поэтому я решил создать скрипт, который позволит сохранять диалоги напрямую через веб-интерфейс ChatGPT, используя Selenium.


Читать: https://habr.com/ru/articles/823428/

@database_design
___
Другие наши проекты
Миграция в облако глазами инженера: как мы строили гибрид для 144 виртуальных машин и 104 ТБ данных

Привет, Хабр! В этой статье Вячеслав Закариев, DevOps из компании Henderson, рассказывает о миграции в облако инфраструктуры крупного российского производителя и селлера одежды. Под катом: переезд с Hyper V на VMware, организация собственного ЦОД в офисе, интеграция его в облако, 140+ виртуальных машин от 250 ГБ до 4 ТБ каждая, честный отзыв Вячеслава по итогам переезда и много чего ещё.


Читать: https://habr.com/ru/companies/oxygendc/articles/822355/

@database_design
___
Другие наши проекты