DATABASE DESIGN
1.41K subscribers
2.09K photos
3 videos
5.35K links
Лучшие материалы по работе с хранилищами данных на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Другие наши проекты: https://tprg.ru/media
Download Telegram
Что делать российским пользователям Greenplum?

Недавнее приобретение Broadcom компании VMware и последующее закрытие публичного доступа к исходным кодам Greenplum вызвало беспокойство среди пользователей. Рассказываем, что делать российским компаниям

Читать: «Что делать российским пользователям Greenplum?»

@database_design
___
Другие наши проекты
51 канал в Telegram для тех, кто интересуется бизнес-аналитикой

Cобрала 51 канал для специалистов в BI и анализе данных и делюсь с вами этой подборкой.

Здесь вы найдете площадки, где можно погрузиться в сложные темы, узнать новости, посмеяться, поспорить, найти работу, подсмотреть решения конкурентов и др.

Если вы не встретили в списке свои любимые каналы, оставляйте ссылки в комментариях под статьей. Да и вообще делитесь мнением об этой подборке.


Читать: https://habr.com/ru/companies/sapiens_solutions/articles/826468/

@database_design
___
Другие наши проекты
Обновление Oracle Autonomous Health Framework

Oracle Autonomous Health Framework 24.6 улучшился: автоматическое обнаружение и решение проблем с узлами, метрики системы при первой ошибке, групповка событий и увеличение скорости анализа. Размер загрузки снижен на 25%, добавлены новые проверки здоровья. Узнайте больше!

Читать подробнее
___
Другие наши проекты
Теперь клиенты Oracle Database@Azure могут использовать OCI GoldenGate

Компании могут улучшить обслуживание клиентов, эффективно организуя данные. Клиенты Oracle Database@Azure теперь могут использовать OCI GoldenGate для репликации данных между базами данных Oracle и приложениями на платформе Azure, независимо от среды — на земле, гибридной или мультитенантной.

Читать подробнее
___
Другие наши проекты
Что могут векторные СУБД — open source инструменты & облако

Разработка систем искусственного интеллекта и обучение моделей подразумевает взаимодействие с огромными сводами неструктурированных данных — например, текстом и изображениями. Решать эту задачу помогают векторные БД. Они работают с так называемыми векторными представлениями (эмбеддингами), имеют продвинутые алгоритмы индексирования и особенно эффективны для реализации поиска по сходству.

Учитывая популярность темы машинного обучения, новые векторные СУБД появляются чуть ли не каждый день. Мы сделали подборку open source решений, о которых мало рассказывали на Хабре: от крупных проектов вроде Qdrant до малоизвестных продуктов.

Векторные базы данных можно развернуть в облаке, обеспечивая мощную инфраструктуру, которая значительно улучшает управление крупномасштабными и сложными данными. На виртуальную инфраструктуру MWS сейчас действует скидка 50%.


Читать: https://habr.com/ru/companies/mws/articles/826642/

@database_design
___
Другие наши проекты
Книга: «Нечеткое сопоставление данных в SQL»

Привет, Хаброжители!

Если бы вам предоставили два разных, но связанных между собой набора данных, какие инструменты вы бы использовали для поиска совпадений? А если все, что у вас есть, — это доступ к базе данных через SQL SELECT? Джим Лемер предлагает лучшие практики, методики и приемы, которые помогут вам импортировать, очищать, сопоставлять, оценивать и осмысливать разнообразные данные с помощью SQL.

Администраторы баз данных, программисты, бизнес-аналитики и специалисты по исследованию данных узнают, как выявлять и удалять дубликаты, разбирать строки, извлекать данные из XML и JSON, генерировать SQL с помощью SQL, упорядочивать данные и готовить наборы данных, а также применять подходы к качеству данных и ETL для поиска сходств и различий между различными выражениями одних и тех же данных.

Примеры, приведенные в книге, полны реальных приемов и содержат рабочий код.

Читать: https://habr.com/ru/companies/piter/articles/826462/

@database_design
___
Другие наши проекты
Дом, милый дом: нюансы работы с ClickHouse. Часть 2, репликация

Всем привет, меня зовут Пётр. В первой части этого цикла статей мы взглянули на некоторые базовые концепции ClickHouse. В этой же статье продолжим изучать тонкости работы с этой колоночной базой данных и подробно рассмотрим такой аспект как репликация. А ещё разберёмся с сервисами координации Zookeeper и ClickHouse Keeper.
Давайте разбираться!

Читать: https://habr.com/ru/companies/nixys/articles/826850/

@database_design
___
Другие наши проекты
Инфраструктура для data engineer S3

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии


Читать: https://habr.com/ru/articles/827052/

@database_design
___
Другие наши проекты
Размышления о мониторинге производительности отдельного SQL запроса

Иногда в докладах/статьях о оптимизации производительности СУБД описание предлагаемой методики/средства начинается с события -"мы заметили резкое увеличение времени выполнения запроса/запросов и резкое увеличение количества прочитанных блоков разделяемой области". Далее следует описание процесса выявления ресурсоёмкого запроса, с целью его оптимизации.

На этапе разработки данных сценарий вполне себя оправдывает . Нагрузка на СУБД - детерминирована, характер нагрузки определён и описан, данные постоянны. При условии адекватности команды разработки, даже удастся действительно оптимизировать запрос.

Но.

В процессе промышленной эксплуатации ситуация меняется принципиально .


Читать: https://habr.com/ru/articles/827156/

@database_design
___
Другие наши проекты
Как организовать экономный бэкап с использованием жестких ссылок

Привет, Хабр! Меня зовут Егор Орлов, я более 24 лет в ИТ, преподаю в СПбПУ и пишу для медиа вАЙТИ. В этой статье мы разберем, что такое жесткие ссылки в UNIX-подобных операционных системах и как они могут применяться. А именно, как с их помощью можно значительно экономить место при резервном сохранении данных, создавая резервные копии, которые по занимаемому месту являются инкрементальными копиями, а по удобству доступа к данным аналогом полных резервных копий.


Читать: https://habr.com/ru/companies/beeline_cloud/articles/827446/

@database_design
___
Другие наши проекты
👍2
Ускорьте разработку AI-приложений с MongoDB и Haystack

MongoDB интегрировался с Haystack, улучшив работу MongoDB Atlas Vector Search для Python-разработчиков. Теперь вы можете легко использовать данные MongoDB в Haystack для создания качественных LLM-пайплайнов. Независимо от уровня вашего опыта, ускорьте разработку AI-приложений и увеличьте их ценность для бизнеса.

Читать подробнее
___
Другие наши проекты
Корреляционный анализ для решения инцидентов производительности СУБД

В статье в общих словах рассматриваются 2 вопроса:

1) Как рассчитать метрику производительности СУБД

2) Как использовать корреляционный анализ для поиска причин снижения производительности СУБД


Читать: https://habr.com/ru/articles/827504/

@database_design
___
Другие наши проекты
MongoDB Atlas Vector Search — лидер среди векторных баз данных!

В 2024 году MongoDB Atlas Vector Search снова признан самой популярной векторной базой данных по версии Retool AI. Она получила самый высокий NPS и 21.1% голосов, уступив лишь PostgreSQL. Это важное достижение для технологии, обеспечивающей мощные возможности для AI-приложений. Отчет о состоянии ИИ 2024: MongoDB Atlas Vector Search — любимый векторный БД

Исследование Retool показало, что MongoDB Atlas Vector Search снова признан самым популярным векторным базой данных 2024 года. В отчете отмечается рост использования генерации с расширением поиска (RAG) и важность MongoDB для улучшения производительности ИИ-приложений. Новая интеграция MongoDB и Haystack для Python AI проектов

MongoDB и Haystack объявили о новой интеграции, которая упрощает создание высококачественных AI приложений на Python. Используйте векторные поисковые возможности MongoDB Atlas вместе с мощными инструментами NLP от Haystack для создания умных и контекстно-осведомленных решений.

Читать подробнее
___
Другие наши проекты
1
Битый или небитый? Как обеспечить целостность данных в Postgres Pro

Следим за целостностью данных в PostgreSQL. Мысль о возможной катастрофе неприятна, поэтому люди часто не принимают серьезных предупредительных мер.

Администратор любой IT системы должен знать о всех возможных проблемах, которые могут возникнуть на вверенном ему оборудовании: аппаратные сбои системы хранения, сбои файловой системы, повреждения страниц в оперативной памяти, сбои в кэше хранилищ и так далее. Для серверов баз данных выявление и исправление таких ошибок особенно важно, так как информация в БД должна быть в согласованном состоянии и некорректность только части данных портит БД целиком. В этой статье мы расскажем с помощью каких инструментов можно защитить ваши данные в СУБД Postgres и обнаруживать ошибки до того, как они становятся реальными проблемами.


Читать: https://habr.com/ru/companies/postgrespro/articles/825796/

@database_design
___
Другие наши проекты
Работа с данными в Apache Spark

Фреймворк Spark позволяет выполнять множество различных операций с распределенными наборами данных. При этом, объем обрабатываемых данных может быть достаточно большим. Конечно, можно сохранять обрабатываемую информацию в файлы, но что делать, если набор данных не умещается на одном компьютере или на одном дисковом хранилище.

Для решения данной проблемы фреймворк поддерживает широкий диапазон различных механизмов ввода/вывода. Это можно объяснить в том числе и тем, что Apache Spark создавался в экосистеме Hadoop, предназначенной для работы с большими данными. Так, для доступа к данным Spark использует интерфейсы InputFormat и OutputFormat из Hadoop MapReduce, программной платформы, предназначенной для создания заданий, обрабатывающих большие объемы данных. А данные интерфейсы, в свою очередь поддерживают множество форматов файлов и систем хранения (SЗ, HDFS, Cassandra, HBаsе и т. д.)


Читать: https://habr.com/ru/companies/otus/articles/826056/

@database_design
___
Другие наши проекты
MongoDB объединяет усилия с ведущими AI партнёрами!

В июне MongoDB приветствовал семь новых AI партнёров, предлагающих продуктовые интеграции. Среди них AppMap, Mendable и OneAI, которые используют MongoDB для улучшения качества кода, автоматизации клиентских сервисов и создания надёжных чат-ботов. Узнайте больше о преимуществах этих партнёрств на нашем блоге! Ускорьте разработку AI-приложений с MongoDB и Haystack

Теперь Python-разработчики могут быстрее создавать умные приложения, используя MongoDB Atlas Vector Search и Haystack. Интеграция обеспечивает высокоточную обработку запросов благодаря семантическому поиску и помогает внедрять самые передовые модели ИИ от таких провайдеров, как OpenAI и Cohere.

Читать подробнее
___
Другие наши проекты
Будущее хранения данных. Где и на чем будем хранить данные в будущем

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.

Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.

Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.

Читать: https://habr.com/ru/companies/timeweb/articles/826284/

@database_design
___
Другие наши проекты
От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.

В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.


Читать: https://habr.com/ru/companies/mvideo/articles/827876/

@database_design
___
Другие наши проекты
30 самых полезных библиотек Python для веб-разработки в 2024 году

Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.

Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»

@database_design
___
Другие наши проекты
RAIDIX: тернистый путь к светлому счастью? Разбор на винтики

Добрый день, уважаемые читатели! Я являюсь архитектором по инфраструктурным решениям. В этой статье расскажу про свой личный опыт работы программной СХД RAIDIX 5.1 – 5.2. Все изложенное – мой личный опыт, пройденный от сборки, тестирования, до внедрения.
О чем будет статья

В статье я расскажу то, с чем вы можете столкнуться при использовании данного продукта: для кого-то это может быть полезным при выборе, т.к. в маркетинговых материалах вы этого точно не прочтете, а тем более не услышите на презентациях.

Конечно, у меня будут проходить параллели с именитыми игроками рынка СХД (ну не смогу я без этого), т.к. мой путь работы с СХД начинался еще в те далекие времена, когда господствовал IBM со своей серией DS и EMC со своей серией Clariion. Через мои руки прошло несметное число СХД, и я ярый поклонник классических СХД, как бы косо на меня не смотрели поклонники HCI и выделенных серверов со встроенными дисками. Но я остаюсь при своем мнении, что СХД – это эталон удобства, масштабируемости и отказоустойчивости.



Читать: https://habr.com/ru/companies/icl_group/articles/827944/

@database_design
___
Другие наши проекты