DATABASE DESIGN

Как хеширование поможет вам оптимизировать хранение данных?

Хеширование – это мощный инструмент, широко используемый в различных областях IT: от защиты паролей до создания быстрых структур данных. В этой статье мы подробно рассмотрим, как хеширование помогает оптимизировать хранение данных, исключить дубликаты и улучшить работу с файлами.

Читать: https://habr.com/ru/articles/821337/

@database_design
___
Другие наши проекты

164 views18:56

DATABASE DESIGN

Разработка многопоточной Базы Данных: Ключевые аспекты и примеры реализации ( C++ )

Эта статья посвящена разработке многопоточной базы данных. Мы рассмотрим основные компоненты, такие как хранилище данных, транзакционные системы, многопоточность, журналирование и восстановление, а также создание API для взаимодействия с базой данных. Примеры кода на языке C++ помогут лучше понять реализацию различных аспектов многопоточной базы данных.

Читать: https://habr.com/ru/articles/821381/

@database_design
___
Другие наши проекты

151 views07:27

DATABASE DESIGN

Простая документация с dbt: Упрощение документирования хранилищ данных

Когда вы в последний раз впервые смотрели на хранилище данных? Помните то чувство фрустрации, когда вы не знали, что содержат таблицы orders_final_v1? Или как отличить user_uuid от user_id? Любой специалист по данным может понять эти ощущения.

К счастью, dbt (Data Build Tool) значительно упростил задачу документирования хранилищ данных. Все, что нужно сделать, это включить описание наших таблиц и колонок в YAML-файл схемы. Затем вся информация собирается в аккуратный HTML-файл.

Данная статья это перевод с английского с некоторыми адаптациями. Перевод сделан НЕшколой для инженеров Inzhenerka.Tech совместно с автором симулятора по DWH на dbt Павлом Рословцом. Больше материала в нашем сообществе

Читать: https://habr.com/ru/articles/821503/

@database_design
___
Другие наши проекты

164 views11:44

DATABASE DESIGN

Алгоритм формирования дробных индексов

В данной статье я постараюсь объяснить процесс разработки и оптимизации алгоритма построения дробных индексов, используя простые логические рассуждения. По ходу статьи мы углубимся в тонкости алгоритма и возможные применения, коснемся темы оптимизации размера индекса в крайних случаях, а также рассмотрим, как изменить алгоритм для поддержки одновременного использования многими пользователями.

Читать: https://habr.com/ru/articles/821187/

@database_design
___
Другие наши проекты

143 views13:38

DATABASE DESIGN

AI-Powered Media Personalization: MongoDB and Vector Search

Read: https://www.mongodb.com/blog/post/ai-powered-media-personalization-mongodb-vector-search

@database_design
___
Другие наши проекты

141 views15:06

DATABASE DESIGN

Announcing Oracle Database 23ai support on Autonomous Database on dedicated infrastructure

23ai support on Autonomous Database Dedicated

Read: https://blogs.oracle.com/database/post/announcing-23ai-support-on-autonomous-database-on-dedicated-exadata-infrastructure

@database_design
___
Другие наши проекты

Oracle

Announcing 23ai Database Version Support on Autonomous Database on Dedicated Exadata Infrastructure

23ai database version support on Autonomous Database Dedicated

155 views19:14

DATABASE DESIGN

Как снизить нагрузку на CRM-систему

Рассказали, как справляемся с нагрузкой внутренней CRM-системы: какие технологии и практики используем и почему.

Читать: «Как снизить нагрузку на CRM-систему»

@database_design
___
Другие наши проекты

214 views10:23

DATABASE DESIGN

Настройка iScsi в L3-сети для эффективной утилизации возможностей канала и СХД

После тестирования NVME over TCP, описанной тут https://habr.com/ru/companies/beeline_tech/articles/770174/, решили проверить, насколько хорошо iScsi в L3-сети работает по сравнение со специализированным решение на FC.

Настройки iScsi

TL/DR

Машина в Bios переведена на профиль HPC (был пустой).

На уровне OS и iscsid сделаны такие изменения

Читать: https://habr.com/ru/companies/beeline_tech/articles/821855/

@database_design
___
Другие наши проекты

170 views12:55

DATABASE DESIGN

Хранение данных на ДНК/РНК: возможности и перспективы

Приветствую всех айтишников и технарей. Выпустив очередную часть саги про ЯМР, я словил катарсис и почувствовал за собой моральное право опять пографоманить на отвлеченные темы. И сегодня мы с двух ног ворвемся в тему хранения данных на ДНК/РНК. Тема интересная, и намного ближе к айтишечке, чем все предыдущие опусы, поэтому погнали!
Добро пожаловать под кат

Читать: https://habr.com/ru/articles/818081/

@database_design
___
Другие наши проекты

158 views13:42

DATABASE DESIGN

Дедупликация данных в Windows 10 и Windows 11 средствами Microsoft

Сегодня я кратко расскажу вам как включить дедупликацию данных в клиентских ОС - Windows 10 и Windows 11, добавив функционал из Windows Server, причем не какие-то сторонние бинарники, а оригинальные, подписанные файлы Microsoft, которые к тому же будут обновляться через Windows Update.

В этой статье не будет описания дедупликации данных, - разве что совсем кратко что это такое, и не будет сравнения решений разных вендоров. Я дам ниже ссылки на достойные, на мой взгляд, статьи других авторов и готов буду отвечать на вопросы, если их зададут ниже в виде комментария или в ПМ.

Начать знакомство рекомендую с базовой теории Введение в дедупликацию данных / Хабр (habr.com) от компании Veeam, затем почитать о том, что такое дедупликация Microsoft - Обзор и настройка средств дедупликации в Windows Server 2012 / Хабр (habr.com) - статья моего бывшего коллеги по Microsoft Георгия говорит о том, как настраивается дедупликация NTFS в Windows Server 2012. В последующих изданиях Windows Server 2012R2, 2016, 2019, 2022 и 2025 функционал развивался, появилась поддержка ReFS, стало возможно (неочевидным способом) дедуплицировать системный том, расширились компоненты управления, - но для конечного пользователя все остается там же. Установили одним кликом, включили для диска, забыли. В заключение подготовительной информации - тем кого действительно интересует кроссплатформенные решения и их сравнения, предложу ознакомиться со статьей Илии Карина - Dedup Windows vs Linux, MS снова “удивит”? / Хабр (habr.com) - его не должны заподозрить в рекламе Microsoft, его сравнение подходов, и результат меня самого удивил. У меня на такую большую исследовательскую работу сил и возможностей нет, - почитайте. И имейте в виду, что если вы используете последний Windows 11, то и компоненты дедупликации в нем будут последние, от Windows Server 2025, то есть с еще более впечатляющим результатом.

Читать: https://habr.com/ru/articles/822117/

@database_design
___
Другие наши проекты

149 views09:24

DATABASE DESIGN

Обзор нового поколения блочных СХД Qsan XCubeSAN. Укрепляем свои позиции на рынке

Прошло уже немало времени с момента нашей публикации обзора СХД Qsan серии XCubeSAN. Некоторое время назад QSAN обновил эту линейку, и на текущий момент эти системы хранения данных являются самыми востребованными среди наших заказчиков. Поэтому мы хотим, пусть и с некоторым опозданием, поделиться своим мнением относительно данного продукта.

Читать: https://habr.com/ru/companies/skilline/articles/820845/

@database_design
___
Другие наши проекты

140 views07:10

DATABASE DESIGN

От платформы к коробочным продуктам: анализ архитектуры Tarantool

Даже если вы никогда не слышали о Tarantool, вы наверняка им пользовались: видели баннеры, которые берут профили рекламы из Tarantool, заказывали еду, доставка которой обрабатывается Tarantool, заходили в онлайн-банк и видели историю трат, которую показывает Tarantool. Решение активно задействуют во многих отраслях и сценариях, а количество кейсов его успешного применения постоянно растет.

Но так было не всегда: за 15 лет Tarantool прошел большой путь, на котором были как успехи, так и подводные камни.

Читать: https://habr.com/ru/companies/vk/articles/819059/

@database_design
___
Другие наши проекты

146 views08:44

DATABASE DESIGN

Краеугольные камни ClickHouse

Привет, Хабр! Меня зовут Артемий Кравцов, я работаю инженером в Wildberries. Сегодня расскажу про то, что люблю – про ClickHouse. Моя цель – осветить некоторые ключевые особенности в архитектуре ClickHouse и в том, как он хранит данные.

Что такое куски и слияния? Как быть с частыми вставками? Как обновлять значения в строках? Что не так с точечными чтениями? Как сделать тяжёлый JOIN?

Статья рассчитана на тех, кто только знакомится с ClickHouse.

Читать: https://habr.com/ru/companies/wildberries/articles/821865/

@database_design
___
Другие наши проекты

149 views09:19

DATABASE DESIGN

Announcing MongoDB Server 8.0 Platform Support Improvements

Read: https://www.mongodb.com/blog/post/announcing-mongodb-server-8-0-platform-support-improvements

@database_design
___
Другие наши проекты

133 views14:03

DATABASE DESIGN

Leading Industry Analysts Comment on the Release of Oracle APEX 24.1

With the recent announcement of Oracle APEX 24.1 featuring Mike Hichwa, SVP of Software Development (the creator of the Oracle APEX low-code platform) and Andy Mendelsohn, EVP, Oracle Database Server Technologies, APEX makes it easier for developers to integrate AI into new or existing applications, allowing them to build enterprise-ready applications, and give users a better and richer experience.

Read: https://blogs.oracle.com/database/post/leading-industry-analysts-comment-on-the-release-of-oracle-apex-241

@database_design
___
Другие наши проекты

Oracle

Leading Industry Analysts Comment on the Release of Oracle APEX 24.1

141 views18:28

DATABASE DESIGN

Announcing Oracle APEX 24.1 General Availability

Announcing Oracle APEX 24.1 General Availability

Read: https://blogs.oracle.com/apex/post/announcing-oracle-apex-241

@database_design
___
Другие наши проекты

128 views05:19

DATABASE DESIGN

Oracle Spatial Studio 24.1 Available Now

We’re pleased to announce the release of Oracle Spatial Studio 24.1, a no-code web tool for working with the spatial features of Oracle Database. This blog post will explore some of the enhancements available in this release, including enhanced embedding, including 3D Tile support for Cesium, and incremental geocoding.

Read: https://blogs.oracle.com/database/post/oracle-spatial-studio-241-now-available

@database_design
___
Другие наши проекты

Oracle

Oracle Spatial Studio 24.1 Available Now

We’re pleased to announce the release of Oracle Spatial Studio 24.1, a no-code web tool for working with the spatial features of Oracle Database. This blog post will explore some of the enhancements available in this release, including enhanced embedding…

120 views09:02

DATABASE DESIGN

Built-in replanning, как способ корректировать огрехи оптимизатора PostgreSQL

Компания Postgres Professional занимается разработкой и поддержкой СУБД с 2015 года. Это серьёзный срок для компании в ИТ-сфере, и за это время мы видели много случаев, когда клиенты сталкивались с неоптимальным выполнением запросов. Обычно оптимизатор PostgreSQL неплохо справляется и строит хорошие планы, если количества джойнов в запросе не больше 10 и данные в таблицах распределены равномерно. Однако в даже на изначально тщательно продуманной базе данных, оптимизатор может сгенерировать настолько неоптимальный план, что его время выполнения может увеличиться в разы. В некоторых особо экстремальных случаях даже практически невозможно дождаться окончания выполнения запроса и понять при помощи EXPLAIN ANALYZE, что пошло не так. Усугубляющим фактором является то, что оптимизатор PostgreSQL никак не запоминает допущенные ошибки выполнения. Построив неоптимальный план один раз, он с большей долей вероятности будет делать это снова и снова до тех пор, пока что-то не изменится: статистика, настройки оптимизатора или какое-то внутреннее состояние СУБД.

Другая не менее важная тенденция в области баз данных — уход в облака, где у DBA остается незначительный набор инструментов для исправления проблемных ситуаций и диагностики причин.

На протяжении своего существования наша компания пытается отвечать на эти вызовы, для чего, например, были разработаны расширения AQO и sr_plan. Сообщество PostgreSQL также не стоит на месте: в ванильной версии появилась расширенная статистика и был введён ряд оптимизаций вроде инкрементальной сортировки и материализации промежуточных результатов выполнения запроса.

Однако все эти методы или имеют мало предсказуемый результат (AQO), или требуют глубокого понимания причин возникшей проблемы с ручной донастройкой СУБД. В своей новой разработке мы решили взглянуть на проблему исправления ошибок оптимизации с другой стороны. Основная идея в том, чтобы добавить возможность перепланирования на основе полезных сведений, которые можно получить из уже частично выполненного запроса. Помимо этого нужно сформулировать критерии для плохо спланированных запросов, для которых необходимо провести перепланирование.

Читать: https://habr.com/ru/companies/postgrespro/articles/819911/

@database_design
___
Другие наши проекты

👍1

120 views09:12

DATABASE DESIGN

Что нужно знать про объектные хранилища

Цифровые хранилища данных изменили способы производства, обработки и хранения информации. Переломный момент наступил в 1996 году, когда цифровое хранилище стало более рентабельным, чем бумажное.

В 1999 году в мире появилось ≈1,5 эксабайт уникальной информации, которая хранилась на бумаге, пленке, оптических и магнитных носителях. Причем печатные материалы всех видов составили лишь 0,003% от общего объема хранимой информации.

По подсчетам IDC и Seagate, глобальная сфера данных к 2025 году достигнет 175 зеттабайт, то есть увеличится более чем в 100 тыс. раз за четверть века. А с развитием генеративных нейронных сетей данных может стать еще больше.

Возникают закономерные вопросы: где хранить информацию, в каком виде и как получать к ней доступ. Человечество изобретает новые накопители (например, жесткие диски с технологией разогрева магнитных пластин лазером) и строит дата-центры, хранящие эксабайты информации, часть из которых предоставляется заказчикам в виде объектных хранилищ. Цель этой статьи — рассказать об особенностях использования таких хранилищ.

Читать: https://habr.com/ru/companies/mws/articles/822653/

@database_design
___
Другие наши проекты

124 views14:07

DATABASE DESIGN

Unified Namespace Implementation with MongoDB and MaestroHub

Read: https://www.mongodb.com/blog/post/unified-namespace-implementation-mongodb-and-maestrohub

@database_design
___
Другие наши проекты

106 views14:07

DATABASE DESIGN

Интеграция LLM в корпоративное хранилище данных

В данной статье рассматриваются способы интеграции Large Language Models (LLM) в корпоративные системы хранения данных. Основное внимание уделено использованию LLM для автоматического извлечения информации из текстовых данных с последующим формированием SQL-запросов. В рамках исследования также изучаются методы пост-обработки результатов SQL-запросов с целью улучшения точности и адаптивности моделей к конкретным характеристикам и особенностям баз данных.

Работа включает в себя анализ существующих решений и методов оценки эффективности LLM в контексте их интеграции в корпоративные информационные системы. Особое внимание уделяется применению Preference Learning via Database Feedback — подхода, направленного на обучение моделей на основе обратной связи от баз данных, что способствует более точному и адаптивному выполнению запросов пользователей.

Исследование также охватывает разработку примеров интеграции LLM в реальные корпоративные хранилища данных с целью демонстрации практической применимости и эффективности предлагаемых подходов.

Читать: https://habr.com/ru/articles/822771/

@database_design
___
Другие наши проекты

112 views16:26

About

Blog

Apps

Platform