DATABASE DESIGN
1.4K subscribers
2.11K photos
3 videos
5.36K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
They Asked, We Answered: A Q&A on Joining MongoDB’s Remote Solutions Center



Read: https://www.mongodb.com/blog/post/they-asked-we-answered-joining-mongodbs-remote-solutions-center
How to help AI models generate better natural language queries

Using natural language to query your is an easy way to answer business questions. One question I’m often asked is, “how can this work on my data? Have you seen my table and column names? The names are meaningless.”  Fear not! It is possible when you’re using Autonomous Database.

Read: https://blogs.oracle.com/datawarehousing/post/how-to-help-ai-models-generate-better-natural-language-queries-in-autonomous-database
Распределённые облачные системы хранения Filecoin и Storj

Когда-то файлы хранили на дискетах, потом на дисках, потом на флэшках. Закончилось всё облаками. Тогда встал ряд различных вопросов по надёжности и приватности. С одной стороны можно просто доверить файлы гуглу или яндексу, но тогда о приватности можно забыть. C другой стороны можно завести собственное облачное хранилище, будь то дорогое железное решение от Synology, или оперсорсное на арендованной vps на nextcloud, но тут требуется вовлечение, что бы облако оставалось в рабочем состоянии (следить за апдейтами, своевременно обновлять оборудование, поддерживать резервное железо). Вместе с развитием блокчейна и развитием децентрализованных технологий web 3.0, появились и облачные хранилища, обещающие приватность, доступность и низкую цену. Предлагаю к рассмотрению 2 проекта, которые появились более 10 лет назад, и до сих пор существуют - Filecoin и Storj.


Читать: https://habr.com/ru/articles/794394/
Как мы построили систему анализа утечек паролей с хранением в ScyllaDB

В статье я расскажу о том, как мы построили систему для получения, анализа и сохранения утечек паролей. Рассмотрим архитектуру нашей системы, опишем основные компоненты и расскажем о нашем опыте использования ScyllaDB для задач оперативной загрузки большого количества накопленных утечек.


Читать: https://habr.com/ru/companies/passleak/articles/796949/
Announcing the general availability of Oracle Globally Distributed Autonomous Database

Oracle Globally Distributed Autonomous Database is now available as a fully managed Oracle Cloud Infrastructure (OCI) service

Read: https://blogs.oracle.com/database/post/general-availability-globally-distributed-autonomous-database
Atlas Data Federation and Online Archive Can Now Be Deployed in Azure



Read: https://www.mongodb.com/blog/post/atlas-data-federation-online-archive-can-now-be-deployed-in-azure
RegData & MongoDB: Streamline Data Control and Compliance



Read: https://www.mongodb.com/blog/post/regdata-mongodb-streamline-data-control-compliance
Как использовать Elasticdump с Manticore

Elasticdump - это инструмент для управления и миграции данных в Elasticsearch. Elasticdump позволяет пользователям перемещать и сохранять индексы, экспортируя данные в файл JSON, а затем импортируя их в другое место. Эта функциональность особенно полезна для целей резервного копирования и восстановления, а также для миграции данных между различными средами (например, из разработки в продакшн).


Читать: https://habr.com/ru/articles/797055/
Практические задачи для изучающих SQL

Рассказываем о SQLTest.online — платформе, которая поможет вам прокачать навык написания SQL запросов на практических примерах.

Читать: «Практические задачи для изучающих SQL»
Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД.

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.


Читать: https://habr.com/ru/articles/797361/
DIY: Ваше собственное облако на базе Kubernetes (часть 2)

Продолжаем серию постов про то как построить своё собственное облако в экосистеме Kubernetes. В прошлой статье мы разобрали как можно подготовить базовый дистрибутив Kubernetes на базе Talos Linux и Flux CD. Теперь нам предстоит обсудить возможность запуска виртуальных машин и всего что для этого необходимо, а это в первую очередь хранилище и сеть.

Мы поговорим про такие технологии как KubeVirt, LINSTOR и Kube-OVN

Для начала мне стоит рассказать зачем вообще нужны виртуальные машины, почему бы нам не ограничиться только-лишь контейнерами?

Всё дело в том, что контейнеры в ядре Linux не дают должного уровня изоляции. Несмотря на то, что с каждым годом ситуация становится всё лучше, тем не менее довольно часто мы сталкиваемся с уязвимостями, позволяющими покинуть песочницу контейнера и повысить свои привилегии в системе.


Читать: https://habr.com/ru/companies/aenix/articles/797323/
SQL и python для анализа цен на новостройки в СПб или ценнейший навык для маркетолога в 2024

«Зачем мне SQL и python?» — задают резонный вопрос маркетологи или менеджеры по продукту, особенно в сфере недвижимости, оптовой торговли, услуг для бизнеса: «У нас нет миллионов строк данных, нет логов, мы успешно работаем с несколькими таблицами в excel».

Да действительно, у вас может не быть корпоративного хранилища данных в компании, и основой автоматизации работы с данными является Power query (что сейчас в РФ делать все труднее и труднее). Но у вас точно есть данные, которые вы получаете от смежных отделов, из CRM/CDP, MES, АСУ ТП. Эти данные приходят регулярно в виде файлов, и вы сопоставляете эти данные друг с другом с помощью ВПР, фильтруете воронкой, чистите с помощью «Найти или заменить», делайте сводники с помощью функции Pivot table.


Читать: https://habr.com/ru/articles/797701/
Рекомендации при работе с PostgreSQL

Доброго времени суток. Основываясь на своём опыте хочу представить некоторые рекомендации при разработке кодовой базы на SQL.
Данные рекомендации получены горьким опытом, так что надеюсь, они Вам помогут :)
Читать подробнее и больше не косячить

Читать: https://habr.com/ru/articles/794839/
👍2
Timeweb Cloud CLI. Часть 1: S3

Салют! Не так давно компания Timeweb Cloud выпустила новую версию своего CLI (twc), который позволяет легко и удобно управлять всеми предоставляемыми ресурсами облачной платформы. В этой серии статей рассмотрим основные сценарии применения этого инструмента.

В данном материале речь пойдёт о работе с облачным объектным хранилищем S3 — это сервис для хранения любых данных в виде объектов, работа с которым осуществляется через программный интерфейс S3 API, в нём можно размещать любые типы статических данных.
Они будут храниться в одном месте и едином формате, и вы сможете в любой момент получать к ним доступ через API или графический интерфейс. Удобно размещать там, например, бэкапы, статические и медиа файлы, архивы, логи.

Читать: https://habr.com/ru/companies/timeweb/articles/791148/
От Cache до Middleware: эволюция Tarantool

Рассказываем, что такое Middleware, как мы прокачали Tarantool от Cache до Middleware и когда будет полезен Tarantool с новыми возможностями.


Читать: https://habr.com/ru/companies/vk/articles/796603/
Новая современная СУБД SoQoL. Посмотрим на неё внимательнее

Вышел первый коммерческий релиз СУБД реляционного типа — SoQoL версии 3.0.0. В русском варианте название СУБД звучит как СОКОЛ.
Что это за птица?

Читать: https://habr.com/ru/articles/797279/
Leading Industry Analyst Views on Oracle Globally Distributed Autonomous Database

Oracle has just announced the general availability of Oracle Globally Distributed Autonomous Database. It delivers the benefits of Oracle Autonomous Database while giving you control over data distribution and data placement policies using Oracle’s proven sharding technology. Read perspectives from the leading industry analysts on this exciting announcement.

Read: https://blogs.oracle.com/database/post/leading-industry-analysts-perspectives-on-globally-distributed-autonomous-database-general-availability
Что нового в планировщике / оптимизаторе запросов Postgres 16

PostgreSQL 16 вносит немало улучшений в планировщик запросов и позволяет выполнять многие SQL-запросы быстрее, чем в предыдущих версиях PostgreSQL.

Если вы посмотрите на PG16 release notes, то увидите некоторые из этих улучшений. Но из-за объема изменений, вносимых в каждом выпуске PostgreSQL, невозможно предоставить достаточно подробную информацию о каждом изменении.

В этом посте вы получите глубокое представление о 10 улучшениях, внесенных в планировщик запросов PostgreSQL 16. Для каждого из улучшений будет сравнения выходных данных планировщика PG15 и PG16, а также примеры того, что изменилось, в виде автономного теста, который вы можете попробовать сами.


Читать: https://habr.com/ru/articles/798043/

@database_design
Announcing the Oracle APEX Sample Document Generator App!

Oracle APEX Sample Document Generator app showcases the integration with the Document Generator Pre-built Function on OCI.

Read: https://blogs.oracle.com/apex/post/announcing-the-oracle-apex-sample-document-generator-app

@database_design
Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».


Читать: https://habr.com/ru/companies/vk/articles/797481/

@database_design
1С или СБИС: что выбрать предпринимателю

Решили сравнить СБИС и 1С по трем критериям: простоте операций, удобству интерфейса и дополнительным фичам. Рассказываем, какая система лучше и кому она подойдёт.

Критерий №1. Простота операций

Я решил узнать, в какой из программ проще выполнить ряд рутинных задач. Например, как добавить новую организацию в систему учета. Начнем с 1С.

Шаг 1. Тип организации. Указываем юридическое лицо — ООО или ИП.

Шаг 2. Система налогообложения. Выбираем тип налогообложения: УСН 6%, УСН 15%, ОСН.

Шаг 3. Карточка организации. Вводим название компании, ИНН, ОГРН, банковские реквизиты, адрес, телефон и еще кучу всего. Затем нужно обязательно нажать на кнопку «Записать и закрыть» и подождать секунд 20–30, пока процесс завершится, иначе система не даст перейти к следующему этапу. Спойлер: к концу первой задачи я возненавижу эту кнопку!

В 1С придумали, как упростить жизнь пользователя, и разработали сервис «1С:Контрагент». Он автоматически заполняет карточку организации: достаточно ввести ИНН — и данные подгружаются из ЕГРЮЛ или ЕГРИП. Правда, это не бесплатно. Тариф с ограничениями по автозаполнению стоит 4800 рублей в год, а безлимитный — 42 000.


Читать: https://habr.com/ru/articles/798511/

@database_design