DATABASE DESIGN
1.41K subscribers
2.08K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Решаем задачу уровня «Невозможно». Сжатие хаотического бинарного кода. Суперпозиционные системы счисления

Для наилучшего восприятия выделим основные пункты изложенного материала:

1.    Для чего необходимо сжатие информации и увеличение плотности записи.
2.    Проблемы в покорение хаоса, нерешенные математиками и ими же созданные.
3.    Простое решение проблемы сжатия абсолютно любого бинарного кода.
4.    Пути и методы дальнейшего развития сжатия бинарного кода.


Читать: https://habr.com/ru/articles/825536/

@database_design
___
Другие наши проекты
👍1
Стоит ли бояться serializable-транзакций больше, чем труднонаходимых багов?

В базах данных транзакции обладают свойствами ACID, где «I» означает изоляцию транзакций при одновременном (concurrent) выполнении.

Наличие (serializable) изоляции гарантирует, что результат транзакций, выполненных параллельно, будет таким же, как если бы они были выполнены в некотором последовательном порядке.

Сериализация выполнения транзакций не бесплатна с точки зрения производительности.

Многие СУБД поддерживают более слабые уровни изоляции, оставляя за разработчиком выбор подходящего. В монолитных СУБД более слабый уровень изоляции часто используется по умолчанию. Так, в PostgreSQL и MySQL это «read committed». В распределённых СУБД чаще по умолчанию более строгие уровни: «repeatable read» в YugabyteDB и TiDB, «serializable» в CockroachDB и YDB.

Слабые уровни изоляции могут быть причиной очень труднонаходимых багов. Причём эти баги могут вызвать уязвимости в безопасности.

Из-за подобных багов уже были украдены миллионы долларов, в частности с биткоин-бирж. Мы расскажем о подобных случаях более детально в следующих разделах.


Читать: https://habr.com/ru/companies/ydb/articles/825768/

@database_design
___
Другие наши проекты
AI-приложения: как видят их пользователи vs. разработчики

Пользователь видит, как AI-приложение помогает найти дом по фото в другом городе за секунды. Но для разработчиков важно объединить операционные и векторные данные, использовать их инструменты и обеспечивать безопасность. MongoDB упрощает эту работу и поддерживает разработчиков, ведущих новую AI-революцию. Узнайте больше на mongodb.com/LoveYourDevelopers. Генеративный ИИ и предиктивное обслуживание с MongoDB Atlas

Статья рассказывает, как с помощью MongoDB Atlas и генеративного ИИ можно предсказывать поломки оборудования, создавая оптимальные графики обслуживания. Такие технологии позволяют объединять структурированные и неструктурированные данные для точного анализа и повышения эффективности производства.

Читать подробнее
___
Другие наши проекты
Как я положил продакшен базу на выходных

Вчера произошла эпическая история. После планового деплоя в субботу вечером (так было нужно), мне прилетело сообщение “кирилл, у нас почему-то не показываются заявки”. Наверное фильтры слетели, подумал я и пошел проверять. Фильтры не слетели. Я слегка напрягся и пошел в яндекс клауд посмотреть что там в базе. Как я и боялся, таблицы были пустыми. Причем не все, но многие. Самое интересное, что они были не просто пустыми, но у них сбросились счетчики.

Увидел я это не сразу после деплоя, поэтому было не до конца понятно, это деплой привел к удалению данных или что-то другое. Я быстро восстановил снепшот на новом кластере, благо это делается одним кликом и выполнил туда деплой заново. Какого было мое удивление, когда после деплоя база очистилась. Какого хрена подумал я, прикидывая, что могло быть причиной. В этот момент ко мне присоединился второй разработчик проекта, с которым мы весело провели 3 часа за дебагом.

Сам деплой был необычным, потому что мы выкатывали большое изменение для обработки заявок основного договора (до этого работало только раннее бронирование). Туда входило и много кода и около 40 миграций и обновления зависимостей и новая конфигурация. Но мы точно не добавляли код, который бы грохал половину базы (как нам тогда казалось, хаха).

Дальше мы полезли изучать код на предмет подозрительных вещей:


Читать: https://habr.com/ru/articles/825944/

@database_design
___
Другие наши проекты
Решение Nokia Corteca на базе MongoDB Atlas: новые горизонты Wi-Fi

Платформа Nokia Corteca Home Controller, запущенная в 2019 году, за последние пять лет благодаря MongoDB Atlas масштабировалась с 500,000 до 4,5 миллионов устройств по всему миру. Решение выполняет управление девайсами, Wi-Fi и приложениями, обеспечивая стабильную работу и улучшенное обслуживание клиентов. Как разработчики меняют мир ИИ

Хотите найти дом своей мечты, просто сделав снимок? Современные ИИ-приложения уже стремятся к этому! Разработчики объединяют данные и используют передовые модели, чтобы создать новые, невероятные возможности. Узнайте, как MongoDB поддерживает их на пути к инновациям: www.mongodb.com/LoveYourDevelopers

Читать подробнее
___
Другие наши проекты
30 самых полезных библиотек Python для веб-разработки в 2024 году

Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.

Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»

@database_design
___
Другие наши проекты
1
Что делать российским пользователям Greenplum?

Недавнее приобретение Broadcom компании VMware и последующее закрытие публичного доступа к исходным кодам Greenplum вызвало беспокойство среди пользователей. Рассказываем, что делать российским компаниям

Читать: «Что делать российским пользователям Greenplum?»

@database_design
___
Другие наши проекты
51 канал в Telegram для тех, кто интересуется бизнес-аналитикой

Cобрала 51 канал для специалистов в BI и анализе данных и делюсь с вами этой подборкой.

Здесь вы найдете площадки, где можно погрузиться в сложные темы, узнать новости, посмеяться, поспорить, найти работу, подсмотреть решения конкурентов и др.

Если вы не встретили в списке свои любимые каналы, оставляйте ссылки в комментариях под статьей. Да и вообще делитесь мнением об этой подборке.


Читать: https://habr.com/ru/companies/sapiens_solutions/articles/826468/

@database_design
___
Другие наши проекты
Обновление Oracle Autonomous Health Framework

Oracle Autonomous Health Framework 24.6 улучшился: автоматическое обнаружение и решение проблем с узлами, метрики системы при первой ошибке, групповка событий и увеличение скорости анализа. Размер загрузки снижен на 25%, добавлены новые проверки здоровья. Узнайте больше!

Читать подробнее
___
Другие наши проекты
Теперь клиенты Oracle Database@Azure могут использовать OCI GoldenGate

Компании могут улучшить обслуживание клиентов, эффективно организуя данные. Клиенты Oracle Database@Azure теперь могут использовать OCI GoldenGate для репликации данных между базами данных Oracle и приложениями на платформе Azure, независимо от среды — на земле, гибридной или мультитенантной.

Читать подробнее
___
Другие наши проекты
Что могут векторные СУБД — open source инструменты & облако

Разработка систем искусственного интеллекта и обучение моделей подразумевает взаимодействие с огромными сводами неструктурированных данных — например, текстом и изображениями. Решать эту задачу помогают векторные БД. Они работают с так называемыми векторными представлениями (эмбеддингами), имеют продвинутые алгоритмы индексирования и особенно эффективны для реализации поиска по сходству.

Учитывая популярность темы машинного обучения, новые векторные СУБД появляются чуть ли не каждый день. Мы сделали подборку open source решений, о которых мало рассказывали на Хабре: от крупных проектов вроде Qdrant до малоизвестных продуктов.

Векторные базы данных можно развернуть в облаке, обеспечивая мощную инфраструктуру, которая значительно улучшает управление крупномасштабными и сложными данными. На виртуальную инфраструктуру MWS сейчас действует скидка 50%.


Читать: https://habr.com/ru/companies/mws/articles/826642/

@database_design
___
Другие наши проекты
Книга: «Нечеткое сопоставление данных в SQL»

Привет, Хаброжители!

Если бы вам предоставили два разных, но связанных между собой набора данных, какие инструменты вы бы использовали для поиска совпадений? А если все, что у вас есть, — это доступ к базе данных через SQL SELECT? Джим Лемер предлагает лучшие практики, методики и приемы, которые помогут вам импортировать, очищать, сопоставлять, оценивать и осмысливать разнообразные данные с помощью SQL.

Администраторы баз данных, программисты, бизнес-аналитики и специалисты по исследованию данных узнают, как выявлять и удалять дубликаты, разбирать строки, извлекать данные из XML и JSON, генерировать SQL с помощью SQL, упорядочивать данные и готовить наборы данных, а также применять подходы к качеству данных и ETL для поиска сходств и различий между различными выражениями одних и тех же данных.

Примеры, приведенные в книге, полны реальных приемов и содержат рабочий код.

Читать: https://habr.com/ru/companies/piter/articles/826462/

@database_design
___
Другие наши проекты
Дом, милый дом: нюансы работы с ClickHouse. Часть 2, репликация

Всем привет, меня зовут Пётр. В первой части этого цикла статей мы взглянули на некоторые базовые концепции ClickHouse. В этой же статье продолжим изучать тонкости работы с этой колоночной базой данных и подробно рассмотрим такой аспект как репликация. А ещё разберёмся с сервисами координации Zookeeper и ClickHouse Keeper.
Давайте разбираться!

Читать: https://habr.com/ru/companies/nixys/articles/826850/

@database_design
___
Другие наши проекты
Инфраструктура для data engineer S3

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии


Читать: https://habr.com/ru/articles/827052/

@database_design
___
Другие наши проекты
Размышления о мониторинге производительности отдельного SQL запроса

Иногда в докладах/статьях о оптимизации производительности СУБД описание предлагаемой методики/средства начинается с события -"мы заметили резкое увеличение времени выполнения запроса/запросов и резкое увеличение количества прочитанных блоков разделяемой области". Далее следует описание процесса выявления ресурсоёмкого запроса, с целью его оптимизации.

На этапе разработки данных сценарий вполне себя оправдывает . Нагрузка на СУБД - детерминирована, характер нагрузки определён и описан, данные постоянны. При условии адекватности команды разработки, даже удастся действительно оптимизировать запрос.

Но.

В процессе промышленной эксплуатации ситуация меняется принципиально .


Читать: https://habr.com/ru/articles/827156/

@database_design
___
Другие наши проекты
Как организовать экономный бэкап с использованием жестких ссылок

Привет, Хабр! Меня зовут Егор Орлов, я более 24 лет в ИТ, преподаю в СПбПУ и пишу для медиа вАЙТИ. В этой статье мы разберем, что такое жесткие ссылки в UNIX-подобных операционных системах и как они могут применяться. А именно, как с их помощью можно значительно экономить место при резервном сохранении данных, создавая резервные копии, которые по занимаемому месту являются инкрементальными копиями, а по удобству доступа к данным аналогом полных резервных копий.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/827446/

@database_design
___
Другие наши проекты
👍2
Ускорьте разработку AI-приложений с MongoDB и Haystack

MongoDB интегрировался с Haystack, улучшив работу MongoDB Atlas Vector Search для Python-разработчиков. Теперь вы можете легко использовать данные MongoDB в Haystack для создания качественных LLM-пайплайнов. Независимо от уровня вашего опыта, ускорьте разработку AI-приложений и увеличьте их ценность для бизнеса.

Читать подробнее
___
Другие наши проекты
Корреляционный анализ для решения инцидентов производительности СУБД

В статье в общих словах рассматриваются 2 вопроса:

1) Как рассчитать метрику производительности СУБД

2) Как использовать корреляционный анализ для поиска причин снижения производительности СУБД


Читать: https://habr.com/ru/articles/827504/

@database_design
___
Другие наши проекты
MongoDB Atlas Vector Search — лидер среди векторных баз данных!

В 2024 году MongoDB Atlas Vector Search снова признан самой популярной векторной базой данных по версии Retool AI. Она получила самый высокий NPS и 21.1% голосов, уступив лишь PostgreSQL. Это важное достижение для технологии, обеспечивающей мощные возможности для AI-приложений. Отчет о состоянии ИИ 2024: MongoDB Atlas Vector Search — любимый векторный БД

Исследование Retool показало, что MongoDB Atlas Vector Search снова признан самым популярным векторным базой данных 2024 года. В отчете отмечается рост использования генерации с расширением поиска (RAG) и важность MongoDB для улучшения производительности ИИ-приложений. Новая интеграция MongoDB и Haystack для Python AI проектов

MongoDB и Haystack объявили о новой интеграции, которая упрощает создание высококачественных AI приложений на Python. Используйте векторные поисковые возможности MongoDB Atlas вместе с мощными инструментами NLP от Haystack для создания умных и контекстно-осведомленных решений.

Читать подробнее
___
Другие наши проекты
1
Битый или небитый? Как обеспечить целостность данных в Postgres Pro

Следим за целостностью данных в PostgreSQL. Мысль о возможной катастрофе неприятна, поэтому люди часто не принимают серьезных предупредительных мер.

Администратор любой IT системы должен знать о всех возможных проблемах, которые могут возникнуть на вверенном ему оборудовании: аппаратные сбои системы хранения, сбои файловой системы, повреждения страниц в оперативной памяти, сбои в кэше хранилищ и так далее. Для серверов баз данных выявление и исправление таких ошибок особенно важно, так как информация в БД должна быть в согласованном состоянии и некорректность только части данных портит БД целиком. В этой статье мы расскажем с помощью каких инструментов можно защитить ваши данные в СУБД Postgres и обнаруживать ошибки до того, как они становятся реальными проблемами.


Читать: https://habr.com/ru/companies/postgrespro/articles/825796/

@database_design
___
Другие наши проекты