DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Книга: «Нечеткое сопоставление данных в SQL»

Привет, Хаброжители!

Если бы вам предоставили два разных, но связанных между собой набора данных, какие инструменты вы бы использовали для поиска совпадений? А если все, что у вас есть, — это доступ к базе данных через SQL SELECT? Джим Лемер предлагает лучшие практики, методики и приемы, которые помогут вам импортировать, очищать, сопоставлять, оценивать и осмысливать разнообразные данные с помощью SQL.

Администраторы баз данных, программисты, бизнес-аналитики и специалисты по исследованию данных узнают, как выявлять и удалять дубликаты, разбирать строки, извлекать данные из XML и JSON, генерировать SQL с помощью SQL, упорядочивать данные и готовить наборы данных, а также применять подходы к качеству данных и ETL для поиска сходств и различий между различными выражениями одних и тех же данных.

Примеры, приведенные в книге, полны реальных приемов и содержат рабочий код.

Читать: https://habr.com/ru/companies/piter/articles/826462/

@database_design
___
Другие наши проекты
Дом, милый дом: нюансы работы с ClickHouse. Часть 2, репликация

Всем привет, меня зовут Пётр. В первой части этого цикла статей мы взглянули на некоторые базовые концепции ClickHouse. В этой же статье продолжим изучать тонкости работы с этой колоночной базой данных и подробно рассмотрим такой аспект как репликация. А ещё разберёмся с сервисами координации Zookeeper и ClickHouse Keeper.
Давайте разбираться!

Читать: https://habr.com/ru/companies/nixys/articles/826850/

@database_design
___
Другие наши проекты
Инфраструктура для data engineer S3

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии


Читать: https://habr.com/ru/articles/827052/

@database_design
___
Другие наши проекты
Размышления о мониторинге производительности отдельного SQL запроса

Иногда в докладах/статьях о оптимизации производительности СУБД описание предлагаемой методики/средства начинается с события -"мы заметили резкое увеличение времени выполнения запроса/запросов и резкое увеличение количества прочитанных блоков разделяемой области". Далее следует описание процесса выявления ресурсоёмкого запроса, с целью его оптимизации.

На этапе разработки данных сценарий вполне себя оправдывает . Нагрузка на СУБД - детерминирована, характер нагрузки определён и описан, данные постоянны. При условии адекватности команды разработки, даже удастся действительно оптимизировать запрос.

Но.

В процессе промышленной эксплуатации ситуация меняется принципиально .


Читать: https://habr.com/ru/articles/827156/

@database_design
___
Другие наши проекты
Как организовать экономный бэкап с использованием жестких ссылок

Привет, Хабр! Меня зовут Егор Орлов, я более 24 лет в ИТ, преподаю в СПбПУ и пишу для медиа вАЙТИ. В этой статье мы разберем, что такое жесткие ссылки в UNIX-подобных операционных системах и как они могут применяться. А именно, как с их помощью можно значительно экономить место при резервном сохранении данных, создавая резервные копии, которые по занимаемому месту являются инкрементальными копиями, а по удобству доступа к данным аналогом полных резервных копий.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/827446/

@database_design
___
Другие наши проекты
👍2
Ускорьте разработку AI-приложений с MongoDB и Haystack

MongoDB интегрировался с Haystack, улучшив работу MongoDB Atlas Vector Search для Python-разработчиков. Теперь вы можете легко использовать данные MongoDB в Haystack для создания качественных LLM-пайплайнов. Независимо от уровня вашего опыта, ускорьте разработку AI-приложений и увеличьте их ценность для бизнеса.

Читать подробнее
___
Другие наши проекты
Корреляционный анализ для решения инцидентов производительности СУБД

В статье в общих словах рассматриваются 2 вопроса:

1) Как рассчитать метрику производительности СУБД

2) Как использовать корреляционный анализ для поиска причин снижения производительности СУБД


Читать: https://habr.com/ru/articles/827504/

@database_design
___
Другие наши проекты
MongoDB Atlas Vector Search — лидер среди векторных баз данных!

В 2024 году MongoDB Atlas Vector Search снова признан самой популярной векторной базой данных по версии Retool AI. Она получила самый высокий NPS и 21.1% голосов, уступив лишь PostgreSQL. Это важное достижение для технологии, обеспечивающей мощные возможности для AI-приложений. Отчет о состоянии ИИ 2024: MongoDB Atlas Vector Search — любимый векторный БД

Исследование Retool показало, что MongoDB Atlas Vector Search снова признан самым популярным векторным базой данных 2024 года. В отчете отмечается рост использования генерации с расширением поиска (RAG) и важность MongoDB для улучшения производительности ИИ-приложений. Новая интеграция MongoDB и Haystack для Python AI проектов

MongoDB и Haystack объявили о новой интеграции, которая упрощает создание высококачественных AI приложений на Python. Используйте векторные поисковые возможности MongoDB Atlas вместе с мощными инструментами NLP от Haystack для создания умных и контекстно-осведомленных решений.

Читать подробнее
___
Другие наши проекты
1
Битый или небитый? Как обеспечить целостность данных в Postgres Pro

Следим за целостностью данных в PostgreSQL. Мысль о возможной катастрофе неприятна, поэтому люди часто не принимают серьезных предупредительных мер.

Администратор любой IT системы должен знать о всех возможных проблемах, которые могут возникнуть на вверенном ему оборудовании: аппаратные сбои системы хранения, сбои файловой системы, повреждения страниц в оперативной памяти, сбои в кэше хранилищ и так далее. Для серверов баз данных выявление и исправление таких ошибок особенно важно, так как информация в БД должна быть в согласованном состоянии и некорректность только части данных портит БД целиком. В этой статье мы расскажем с помощью каких инструментов можно защитить ваши данные в СУБД Postgres и обнаруживать ошибки до того, как они становятся реальными проблемами.


Читать: https://habr.com/ru/companies/postgrespro/articles/825796/

@database_design
___
Другие наши проекты
Работа с данными в Apache Spark

Фреймворк Spark позволяет выполнять множество различных операций с распределенными наборами данных. При этом, объем обрабатываемых данных может быть достаточно большим. Конечно, можно сохранять обрабатываемую информацию в файлы, но что делать, если набор данных не умещается на одном компьютере или на одном дисковом хранилище.

Для решения данной проблемы фреймворк поддерживает широкий диапазон различных механизмов ввода/вывода. Это можно объяснить в том числе и тем, что Apache Spark создавался в экосистеме Hadoop, предназначенной для работы с большими данными. Так, для доступа к данным Spark использует интерфейсы InputFormat и OutputFormat из Hadoop MapReduce, программной платформы, предназначенной для создания заданий, обрабатывающих большие объемы данных. А данные интерфейсы, в свою очередь поддерживают множество форматов файлов и систем хранения (SЗ, HDFS, Cassandra, HBаsе и т. д.)


Читать: https://habr.com/ru/companies/otus/articles/826056/

@database_design
___
Другие наши проекты
MongoDB объединяет усилия с ведущими AI партнёрами!

В июне MongoDB приветствовал семь новых AI партнёров, предлагающих продуктовые интеграции. Среди них AppMap, Mendable и OneAI, которые используют MongoDB для улучшения качества кода, автоматизации клиентских сервисов и создания надёжных чат-ботов. Узнайте больше о преимуществах этих партнёрств на нашем блоге! Ускорьте разработку AI-приложений с MongoDB и Haystack

Теперь Python-разработчики могут быстрее создавать умные приложения, используя MongoDB Atlas Vector Search и Haystack. Интеграция обеспечивает высокоточную обработку запросов благодаря семантическому поиску и помогает внедрять самые передовые модели ИИ от таких провайдеров, как OpenAI и Cohere.

Читать подробнее
___
Другие наши проекты
Будущее хранения данных. Где и на чем будем хранить данные в будущем

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.

Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.

Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.

Читать: https://habr.com/ru/companies/timeweb/articles/826284/

@database_design
___
Другие наши проекты
От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.

В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.


Читать: https://habr.com/ru/companies/mvideo/articles/827876/

@database_design
___
Другие наши проекты
30 самых полезных библиотек Python для веб-разработки в 2024 году

Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.

Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»

@database_design
___
Другие наши проекты
RAIDIX: тернистый путь к светлому счастью? Разбор на винтики

Добрый день, уважаемые читатели! Я являюсь архитектором по инфраструктурным решениям. В этой статье расскажу про свой личный опыт работы программной СХД RAIDIX 5.1 – 5.2. Все изложенное – мой личный опыт, пройденный от сборки, тестирования, до внедрения.
О чем будет статья

В статье я расскажу то, с чем вы можете столкнуться при использовании данного продукта: для кого-то это может быть полезным при выборе, т.к. в маркетинговых материалах вы этого точно не прочтете, а тем более не услышите на презентациях.

Конечно, у меня будут проходить параллели с именитыми игроками рынка СХД (ну не смогу я без этого), т.к. мой путь работы с СХД начинался еще в те далекие времена, когда господствовал IBM со своей серией DS и EMC со своей серией Clariion. Через мои руки прошло несметное число СХД, и я ярый поклонник классических СХД, как бы косо на меня не смотрели поклонники HCI и выделенных серверов со встроенными дисками. Но я остаюсь при своем мнении, что СХД – это эталон удобства, масштабируемости и отказоустойчивости.



Читать: https://habr.com/ru/companies/icl_group/articles/827944/

@database_design
___
Другие наши проекты
RAIDIX: тернистый путь к светлому счастью? Разбор на винтики

Привет, Хабр, и добрый день, уважаемые читатели! Я архитектор по инфраструктурным решениям, и в этой статье расскажу про свой личный опыт работы программной СХД RAIDIX 5.1 – 5.2. Все изложенное – мой личный опыт, пройденный от сборки, тестирования, до внедрения.

В статье я расскажу то, с чем вы можете столкнуться при использовании данного продукта: для кого-то это может быть полезным при выборе, т.к. в маркетинговых материалах вы этого точно не прочтете, а тем более не услышите на презентациях.

Конечно, у меня будут проходить параллели с именитыми игроками рынка СХД (ну не смогу я без этого), т.к. мой путь работы с СХД начинался еще в те далекие времена, когда господствовал IBM со своей серией DS и EMC со своей серией Clariion. Через мои руки прошло несметное число СХД, и я ярый поклонник классических СХД, как бы косо на меня не смотрели поклонники HCI и выделенных серверов со встроенными дисками. Но я остаюсь при своем мнении, что СХД – это эталон удобства, масштабируемости и отказоустойчивости.


Читать: https://habr.com/ru/companies/icl_group/articles/827970/

@database_design
___
Другие наши проекты
Университет Иллинойса использует MongoDB для интерактивного обучения

Профессор Абдуссалам Алавини из Университета Иллинойса в Урбана-Шампейн применяет MongoDB для создания динамичной учебной среды. Студенты получают практический опыт, используя MongoDB для своих проектов, что помогает bridging теорию и практику в обучении. Узнайте, как MongoDB трансформирует образование! Новейшие партнёрства MongoDB в сфере AI

В июне MongoDB приветствовал семь новых партнёров для интеграции AI-продуктов. Совместная работа с такими компаниями, как AppMap, Mendable и OneAI, позволяет разработчикам создавать более умные и эффективные приложения. Узнайте больше о наших партнёрствах и новых возможностях!

Читать подробнее
___
Другие наши проекты
NetApp Snapvault и SnapLock – 100% защита от шифрования данных?

В  современно мире, где данные это ценный актив, постоянно находящийся под атакой злоумышленников и некомпетентности обращения с ними со стороны «обороны», защита от шифрования выходит на первый план. В сложившемся положение, выделяются технологии NetApp SnapVault и SnapLock предлагающие ряд решений обещающих полную защиту данных, но действительно ли они могут гарантировать 100% безопасность? Давайте разберемся.


Читать: https://habr.com/ru/companies/itglobalcom/articles/828012/

@database_design
___
Другие наши проекты
RAIDIX: тернистый путь к светлому счастью? Разбор на винтики

Привет, Хабр, и добрый день, уважаемые читатели! Я архитектор по инфраструктурным решениям, и в этой статье расскажу про свой личный опыт работы программной СХД RAIDIX 5.1 — 5.2. Все изложенное — мой личный опыт, пройденный от сборки, тестирования, до внедрения.

В статье я расскажу то, с чем вы можете столкнуться при использовании данного продукта: для кого‑то это может быть полезным при выборе, т.к. в маркетинговых материалах вы этого точно не прочтете, а тем более не услышите на презентациях.

Конечно, у меня будут проходить параллели с именитыми игроками рынка СХД (ну не смогу я без этого), т.к. мой путь работы с СХД начинался еще в те далекие времена, когда господствовал IBM со своей серией DS и EMC со своей серией Clariion. Через мои руки прошло несметное число СХД, и я ярый поклонник классических СХД, как бы косо на меня не смотрели поклонники HCI и выделенных серверов со встроенными дисками. Но я остаюсь при своем мнении, что СХД — это эталон удобства, масштабируемости и отказоустойчивости.


Читать: https://habr.com/ru/articles/827970/

@database_design
___
Другие наши проекты
Дневник импортозамещения. Linux GUI – ложное искушение

Если даже бабушки работают с Linux GUI – можно ли утверждать, что администратор Linux тоже сможет работать с Linux Gui? Ответ на этот вопрос не так очевиден, достаточно сделать небольшое путешествие от простого запуска инсталлятора под root, до мониторинга с графиками.


Читать: https://habr.com/ru/articles/828300/

@database_design
___
Другие наши проекты