Записки оптимизатора (Часть 8). Нагрузка на диски сервера БД при работе с 1С. Пора ли делать апгрейд?
Поговорим про падения производительности ИТ-систем, которые на первый взгляд связаны с дисковой подсистемой. Но это только «на первый взгляд».
Технические специалисты часто видят нагрузку на диски, очереди к ним и сразу появляется жгучее желание модернизировать дисковое хранилище.
Читать: https://habr.com/ru/companies/softpoint/articles/845654/
#ru
@database_design | Другие наши каналы
Поговорим про падения производительности ИТ-систем, которые на первый взгляд связаны с дисковой подсистемой. Но это только «на первый взгляд».
Технические специалисты часто видят нагрузку на диски, очереди к ним и сразу появляется жгучее желание модернизировать дисковое хранилище.
Читать: https://habr.com/ru/companies/softpoint/articles/845654/
#ru
@database_design | Другие наши каналы
Glyphic AI и MongoDB: Новая эра продаж с помощью ИИ
Glyphic AI, основанная бывшими инженерами Google DeepMind и Apple, использует ИИ для анализа продаж и оптимизации работы команд. С помощью MongoDB и LLMs, они превращают данные из звонков в полезную информацию, улучшая взаимодействие с клиентами и ускоряя процессы продаж. Новый сертификат для быстрой разработки на MongoDB
MongoDB анонсирует новый сертификат Application Delivery Certification, который помогает интеграторам быстро создавать и внедрять современные решения. Пилотная программа, проведенная с Accenture и Capgemini, уже доказывает свою эффективность. Узнайте больше на сайте MongoDB.
Читать подробнее
#en
@database_design | Другие наши каналы
Glyphic AI, основанная бывшими инженерами Google DeepMind и Apple, использует ИИ для анализа продаж и оптимизации работы команд. С помощью MongoDB и LLMs, они превращают данные из звонков в полезную информацию, улучшая взаимодействие с клиентами и ускоряя процессы продаж. Новый сертификат для быстрой разработки на MongoDB
MongoDB анонсирует новый сертификат Application Delivery Certification, который помогает интеграторам быстро создавать и внедрять современные решения. Пилотная программа, проведенная с Accenture и Capgemini, уже доказывает свою эффективность. Узнайте больше на сайте MongoDB.
Читать подробнее
#en
@database_design | Другие наши каналы
Obsidian: синхронизация без боли
Легкий и простой способ настроить бесплатную синхронизацию Obsidian между всеми своими устройствами.
Читать: https://habr.com/ru/articles/845900/
#ru
@database_design | Другие наши каналы
Легкий и простой способ настроить бесплатную синхронизацию Obsidian между всеми своими устройствами.
Читать: https://habr.com/ru/articles/845900/
#ru
@database_design | Другие наши каналы
Сжатие данных в PostgreSQL: как различные методы влияют на хранение TOAST
В мире управления базами данных от эффективного хранения больших объемов информации зависит оптимизация производительности и использования дискового пространства. В этой статье разберем основные методы сжатия данных в TOAST, их эволюцию, плюсы и минусы PGLZ и LZ4 и продемонстрируем базовую работу с TOAST в Postgres. В завершение обсудим, как данные с различными методами сжатия могут храниться в одной TOAST-таблице.
Читать: https://habr.com/ru/companies/astralinux/articles/845596/
#ru
@database_design | Другие наши каналы
В мире управления базами данных от эффективного хранения больших объемов информации зависит оптимизация производительности и использования дискового пространства. В этой статье разберем основные методы сжатия данных в TOAST, их эволюцию, плюсы и минусы PGLZ и LZ4 и продемонстрируем базовую работу с TOAST в Postgres. В завершение обсудим, как данные с различными методами сжатия могут храниться в одной TOAST-таблице.
Читать: https://habr.com/ru/companies/astralinux/articles/845596/
#ru
@database_design | Другие наши каналы
Как мы доработали postgres_exporter для мониторинга событий в БД
Привет, Хабр! Меня зовут Станислав Епишин, я DBA в дивизионе поддержки решений в тестовых средах в СберТехе. Эту статью я написал вместе с Дмитрием Корневым, тимлидом и DBA. У Сбера есть целевая СУБД, которую разработали в СберТехе на основе open source версии PostgreSQL, — Platform V Pangolin. Наша команда перешла на Pangolin в числе первых, когда у продукта еще не было инструментов для мониторинга БД. Забегая вперед, позже появились такие решения — графическая консоль Platform V Kintsugi, расширение для сбора статистики — Performance Insights и система мониторинга IT‑инфраструктуры Platform V Monitor. А поначалу мы решили мониторить базы данных связкой Grafana, Prometheus и postgres_exporter. Но, во‑первых, столкнулись, с тем, что нам не хватает гибкости в использовании queries.yaml в postgres exporter. А, во‑вторых, так мы не могли регистрировать события с таймаутом меньше 15 секунд. Поэтому мы тогда сделали свой инструмент для мониторинга — pangolin_exporter.
Надеюсь, что эта статья будет полезна тем, кто мониторит инфраструктуру с помощью postgres_exporter и хочет кастомизировать все под свои нужды. Покажу детали и код решения.
Читать: https://habr.com/ru/companies/sberbank/articles/845616/
#ru
@database_design | Другие наши каналы
Привет, Хабр! Меня зовут Станислав Епишин, я DBA в дивизионе поддержки решений в тестовых средах в СберТехе. Эту статью я написал вместе с Дмитрием Корневым, тимлидом и DBA. У Сбера есть целевая СУБД, которую разработали в СберТехе на основе open source версии PostgreSQL, — Platform V Pangolin. Наша команда перешла на Pangolin в числе первых, когда у продукта еще не было инструментов для мониторинга БД. Забегая вперед, позже появились такие решения — графическая консоль Platform V Kintsugi, расширение для сбора статистики — Performance Insights и система мониторинга IT‑инфраструктуры Platform V Monitor. А поначалу мы решили мониторить базы данных связкой Grafana, Prometheus и postgres_exporter. Но, во‑первых, столкнулись, с тем, что нам не хватает гибкости в использовании queries.yaml в postgres exporter. А, во‑вторых, так мы не могли регистрировать события с таймаутом меньше 15 секунд. Поэтому мы тогда сделали свой инструмент для мониторинга — pangolin_exporter.
Надеюсь, что эта статья будет полезна тем, кто мониторит инфраструктуру с помощью postgres_exporter и хочет кастомизировать все под свои нужды. Покажу детали и код решения.
Читать: https://habr.com/ru/companies/sberbank/articles/845616/
#ru
@database_design | Другие наши каналы
PHP и работа с базами данных: Как выбрать и использовать ORM для максимальной производительности
ORM (Object-Relational Mapping, рус. Объектно-реляционное отображение) — это технология, которая связывает базы данных с концепциями объектно-ориентированных языков программирования, создавая «виртуальную объектную базу данных». С помощью ORM упрощается процесс сохранения объектов в реляционной базе данных и их последующего извлечения, так как она автоматизирует преобразования данных между двумя различными форматами.
По своей сути, ORM обеспечивает работу с базой данных на уровне объектов, что подразумевает соответствие структуры и данных в БД объектам кода. В ходе работы с этими объектами происходят изменения как в базе данных, так и в коде. Основные принципы функционирования ORM включают следующие тезисы:
Читать: https://habr.com/ru/companies/it_monsters/articles/845978/
#ru
@database_design | Другие наши каналы
ORM (Object-Relational Mapping, рус. Объектно-реляционное отображение) — это технология, которая связывает базы данных с концепциями объектно-ориентированных языков программирования, создавая «виртуальную объектную базу данных». С помощью ORM упрощается процесс сохранения объектов в реляционной базе данных и их последующего извлечения, так как она автоматизирует преобразования данных между двумя различными форматами.
По своей сути, ORM обеспечивает работу с базой данных на уровне объектов, что подразумевает соответствие структуры и данных в БД объектам кода. В ходе работы с этими объектами происходят изменения как в базе данных, так и в коде. Основные принципы функционирования ORM включают следующие тезисы:
Читать: https://habr.com/ru/companies/it_monsters/articles/845978/
#ru
@database_design | Другие наши каналы
Анализ распределённых данных в PostgreSQL с помощью FDW
С ростом объёмов данных и увеличением популярности распределённых систем необходимость в анализе распределённых данных становится всё более актуальной. PostgreSQL, благодаря своему мощному функционалу и гибкости, предлагает инструмент, который значительно облегчает эту задачу — Foreign Data Wrappers (FDW).
FDW позволяет подключаться к удалённым базам данных, как если бы они были локальными таблицами. Это удобно для аналитики, интеграции данных из различных источников и упрощает работу с распределёнными системами. FDW поддерживает не только PostgreSQL, но и другие базы данных, такие как MySQL, SQLite и даже API.
Читать: https://habr.com/ru/companies/otus/articles/845474/
#ru
@database_design | Другие наши каналы
С ростом объёмов данных и увеличением популярности распределённых систем необходимость в анализе распределённых данных становится всё более актуальной. PostgreSQL, благодаря своему мощному функционалу и гибкости, предлагает инструмент, который значительно облегчает эту задачу — Foreign Data Wrappers (FDW).
FDW позволяет подключаться к удалённым базам данных, как если бы они были локальными таблицами. Это удобно для аналитики, интеграции данных из различных источников и упрощает работу с распределёнными системами. FDW поддерживает не только PostgreSQL, но и другие базы данных, такие как MySQL, SQLite и даже API.
Читать: https://habr.com/ru/companies/otus/articles/845474/
#ru
@database_design | Другие наши каналы
Pathfinder Labs Преобразует Искусственный Интеллект с MongoDB
Pathfinder Labs, новозеландская компания, использует MongoDB Atlas для разработки решений, помогающих правоохранительным органам бороться с преступностью и спасать жертв. Главный продукт компании, Paradigm, анализирует огромные массивы данных, что позволяет быстро принимать оперативные решения и минимизировать расходы.
Читать подробнее
#en
@database_design | Другие наши каналы
Pathfinder Labs, новозеландская компания, использует MongoDB Atlas для разработки решений, помогающих правоохранительным органам бороться с преступностью и спасать жертв. Главный продукт компании, Paradigm, анализирует огромные массивы данных, что позволяет быстро принимать оперативные решения и минимизировать расходы.
Читать подробнее
#en
@database_design | Другие наши каналы
Что нового слышно о шине CXL: заметки с саммита по вычислениям, памяти и хранению данных
Приветствую, на связи снова Сергей Баширов, ведущий разработчик из R&D-команды Cloud.ru. Недавно я посетил очередной Compute, Memory, and Storage Summit, на котором было довольно много докладов на тему Compute Express Link (CXL). В статье сделал краткую выжимку из выступлений, а также поделился своими наблюдениями и выводами. Рассказал, чем полезна CXL и как устроена эта технология, разобрал сценарии применения в облачной инфраструктуре, а также поделился ссылками на интересные доклады по теме.
Читать дальше
Читать: https://habr.com/ru/companies/cloud_ru/articles/845946/
#ru
@database_design | Другие наши каналы
Приветствую, на связи снова Сергей Баширов, ведущий разработчик из R&D-команды Cloud.ru. Недавно я посетил очередной Compute, Memory, and Storage Summit, на котором было довольно много докладов на тему Compute Express Link (CXL). В статье сделал краткую выжимку из выступлений, а также поделился своими наблюдениями и выводами. Рассказал, чем полезна CXL и как устроена эта технология, разобрал сценарии применения в облачной инфраструктуре, а также поделился ссылками на интересные доклады по теме.
Читать дальше
Читать: https://habr.com/ru/companies/cloud_ru/articles/845946/
#ru
@database_design | Другие наши каналы
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями
Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).
Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.
Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.
Читать: https://habr.com/ru/articles/846296/
#ru
@database_design | Другие наши каналы
Эпоха современных хранилищ данных началась с появления реляционных баз данных (далее БД). С появлением бизнес-аналитики следствием развития БД стала концепция Data Warehouse (корпоративное хранилище данных, DWH).
Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.
Рассмотрим этапы эволюции архитектуры данных: чем отличаются концепции, какие у них преимущества и недостатки, для каких задач в работе с данными подходят.
Читать: https://habr.com/ru/articles/846296/
#ru
@database_design | Другие наши каналы
Вне клавиатуры: Apoorva Joshi, MongoDB
Apoorva Joshi, старший AI разработчик в MongoDB, делится секретами о балансе работы и жизни. Она рассказывает, как удаленная работа позволяет ей управлять личными и рабочими делами, использует гибкий график и советует устанавливать границы для повышения продуктивности. Узнайте больше! Paradigm на базе MongoDB: Новая эра расследований
Pathfinder Labs использует MongoDB Atlas для упрощения сбора и анализа доказательств с помощью Paradigm. В одном примере Paradigm позволил раскрыть дело за 40 минут, которое ранее заняло 12 месяцев. Благодаря AI и функционалу Vector Search, расследования стали более эффективными и точными.
Читать подробнее
#en
@database_design | Другие наши каналы
Apoorva Joshi, старший AI разработчик в MongoDB, делится секретами о балансе работы и жизни. Она рассказывает, как удаленная работа позволяет ей управлять личными и рабочими делами, использует гибкий график и советует устанавливать границы для повышения продуктивности. Узнайте больше! Paradigm на базе MongoDB: Новая эра расследований
Pathfinder Labs использует MongoDB Atlas для упрощения сбора и анализа доказательств с помощью Paradigm. В одном примере Paradigm позволил раскрыть дело за 40 минут, которое ранее заняло 12 месяцев. Благодаря AI и функционалу Vector Search, расследования стали более эффективными и точными.
Читать подробнее
#en
@database_design | Другие наши каналы
Вышел PostgreSQL 17: ускоренный вакуум, JSON_TABLE и упрощённая репликация
В PostgreSQL 17 появились усовершенствованный вакуум, который снижает потребление ресурсов в 20 раз, и улучшения в обработке WAL для повышения пропускной способности
Читать: «Вышел PostgreSQL 17: ускоренный вакуум, JSON_TABLE и упрощённая репликация»
#ru
@database_design | Другие наши каналы
В PostgreSQL 17 появились усовершенствованный вакуум, который снижает потребление ресурсов в 20 раз, и улучшения в обработке WAL для повышения пропускной способности
Читать: «Вышел PostgreSQL 17: ускоренный вакуум, JSON_TABLE и упрощённая репликация»
#ru
@database_design | Другие наши каналы
Вышел PostgreSQL 17: ускоренный вакуум, JSON_TABLE и упрощённая репликация
В PostgreSQL 17 появились усовершенствованный вакуум, который снижает потребление ресурсов в 20 раз, и улучшения в обработке WAL для повышения пропускной способности
Читать: «Вышел PostgreSQL 17: ускоренный вакуум, JSON_TABLE и упрощённая репликация»
#ru
@database_design | Другие наши каналы
В PostgreSQL 17 появились усовершенствованный вакуум, который снижает потребление ресурсов в 20 раз, и улучшения в обработке WAL для повышения пропускной способности
Читать: «Вышел PostgreSQL 17: ускоренный вакуум, JSON_TABLE и упрощённая репликация»
#ru
@database_design | Другие наши каналы
Почему не взлетели дискеты 3M?
Вообще у электромагнитных дискет удивительно долгая жизнь. Они появились еще в 70-х годах. И несмотря на то, что за последующие 50 лет требования к объему хранимой информации существенно изменились, дискеты продолжали использоваться. Например, только недавно министерство экономики, торговли и промышленности Японии (METI) с гордостью заявило, что отказалось от использования электромагнитных дискет в своем документообороте. Казалось бы, объем информации в 1,44 Мб — как-то маловато для современных нужд. Ан нет.
Сегодня хотим рассказать историю компании 3М. Когда-то она была на пике производства дискет — стоимость ее подразделения оценивалась в 2,3 млрд долларов. Но 28 лет назад 3М внезапно отказалась от этого «пирога» и передала производство в отдельную компанию Imation. Что заставило гиганта уйти со сцены? Давайте посмотрим.
Читать: https://habr.com/ru/companies/first/articles/846540/
#ru
@database_design | Другие наши каналы
Вообще у электромагнитных дискет удивительно долгая жизнь. Они появились еще в 70-х годах. И несмотря на то, что за последующие 50 лет требования к объему хранимой информации существенно изменились, дискеты продолжали использоваться. Например, только недавно министерство экономики, торговли и промышленности Японии (METI) с гордостью заявило, что отказалось от использования электромагнитных дискет в своем документообороте. Казалось бы, объем информации в 1,44 Мб — как-то маловато для современных нужд. Ан нет.
Сегодня хотим рассказать историю компании 3М. Когда-то она была на пике производства дискет — стоимость ее подразделения оценивалась в 2,3 млрд долларов. Но 28 лет назад 3М внезапно отказалась от этого «пирога» и передала производство в отдельную компанию Imation. Что заставило гиганта уйти со сцены? Давайте посмотрим.
Читать: https://habr.com/ru/companies/first/articles/846540/
#ru
@database_design | Другие наши каналы
AI-диагностика шума для автомобилей
Автомобильный производитель разработал ИИ-решение для анализа звуков двигателей, что значительно ускоряет диагностику сложных проблем. Проект столкнулся с трудностями, но благодаря партнёрству с Pureinsights удалось достичь успеха. Новый подход включает текстовую и аудио-аналитику.
Подробнее об этом — читайте в статье на MongoDB Blog. 🔹 Как достичь баланса между работой и личной жизнью для разработчиков
В интервью разработчица Апурва Джоши поделилась, что гибкий рабочий график и занятия вне компьютера делают её более продуктивной. Она советует устанавливать рабочие границы и включать перерывы в расписание. Подробнее читайте в статье.
👥 Присоединяйтесь к сообществу MongoDB для общения и новостей.
Читать подробнее
#en
@database_design | Другие наши каналы
Автомобильный производитель разработал ИИ-решение для анализа звуков двигателей, что значительно ускоряет диагностику сложных проблем. Проект столкнулся с трудностями, но благодаря партнёрству с Pureinsights удалось достичь успеха. Новый подход включает текстовую и аудио-аналитику.
Подробнее об этом — читайте в статье на MongoDB Blog. 🔹 Как достичь баланса между работой и личной жизнью для разработчиков
В интервью разработчица Апурва Джоши поделилась, что гибкий рабочий график и занятия вне компьютера делают её более продуктивной. Она советует устанавливать рабочие границы и включать перерывы в расписание. Подробнее читайте в статье.
👥 Присоединяйтесь к сообществу MongoDB для общения и новостей.
Читать подробнее
#en
@database_design | Другие наши каналы
Оконные функции простым языком — Фреймы
Привет всем!
Это вторая часть к продолжению статьи "Оконные функции простым языком с примерами". Рекомендую ознакомиться сначала с ней, а потом вернуться к прочтению данной статьи, чтобы полностью понимать синтаксис и применение оконных функций. В этой статье будет разобрано на примерах такое понятие как "фрейм" оконных функций, который расширяет возможности оконок для решения более сложных аналитических задач.
Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свой путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания.
P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи)))
Будем разбирать примеры на такой небольшой таблице, где указана прибыль (net_profit) компании на каждый месяц в рамках одного года.
Читать: https://habr.com/ru/articles/846712/
#ru
@database_design | Другие наши каналы
Привет всем!
Это вторая часть к продолжению статьи "Оконные функции простым языком с примерами". Рекомендую ознакомиться сначала с ней, а потом вернуться к прочтению данной статьи, чтобы полностью понимать синтаксис и применение оконных функций. В этой статье будет разобрано на примерах такое понятие как "фрейм" оконных функций, который расширяет возможности оконок для решения более сложных аналитических задач.
Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свой путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания.
P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи)))
Будем разбирать примеры на такой небольшой таблице, где указана прибыль (net_profit) компании на каждый месяц в рамках одного года.
Читать: https://habr.com/ru/articles/846712/
#ru
@database_design | Другие наши каналы
Ramblr и MongoDB: Искусственный интеллект для реального мира
Старт-ап Ramblr.ai из Сан-Франциско использует свои мощные 3D-аннотации и технологии распознавания для внедрения ген-AI в физический мир. Один из ярких примеров — сотрудничество с BASF, где AI оценивает качество сборки трубопроводов по видео. MongoDB Atlas используется для хранения данных, обеспечивая гибкое управление информацией. Новая эра в автодиагностике
Автогигант, MongoDB и Pureinsights объединили усилия для создания инновационной диагностической системы. Это решение, основанное на ИИ и машинном обучении, значительно сокращает время диагностики, повышает удовлетворенность клиентов и увеличивает доходы через дилерскую сеть.
Читать подробнее
#en
@database_design | Другие наши каналы
Старт-ап Ramblr.ai из Сан-Франциско использует свои мощные 3D-аннотации и технологии распознавания для внедрения ген-AI в физический мир. Один из ярких примеров — сотрудничество с BASF, где AI оценивает качество сборки трубопроводов по видео. MongoDB Atlas используется для хранения данных, обеспечивая гибкое управление информацией. Новая эра в автодиагностике
Автогигант, MongoDB и Pureinsights объединили усилия для создания инновационной диагностической системы. Это решение, основанное на ИИ и машинном обучении, значительно сокращает время диагностики, повышает удовлетворенность клиентов и увеличивает доходы через дилерскую сеть.
Читать подробнее
#en
@database_design | Другие наши каналы
Защита LLM в разработке чат-ботов в корпоративной среде: как избежать утечек данных и других угроз
Как компания, которая внедряет прикладные решения, мы хотим знать, насколько они безопасны. Расскажу про основные риски, связанные с использованием LLM в корпоративной среде, и способы от них защититься. Если вы хотите узнать больше об уязвимостях и техниках защиты LLM — можно ознакомиться с моим докладом для AIConf 2024 группы компаний Онтико.
Читать: https://habr.com/ru/companies/raft/articles/847152/
#ru
@database_design | Другие наши каналы
Как компания, которая внедряет прикладные решения, мы хотим знать, насколько они безопасны. Расскажу про основные риски, связанные с использованием LLM в корпоративной среде, и способы от них защититься. Если вы хотите узнать больше об уязвимостях и техниках защиты LLM — можно ознакомиться с моим докладом для AIConf 2024 группы компаний Онтико.
Читать: https://habr.com/ru/companies/raft/articles/847152/
#ru
@database_design | Другие наши каналы
PostgreSQL Antipatterns: устраняем вложенные интервалы
Недавно попался на глаза запрос, которым хотели отобрать в таблице (очевидно, для последующего удаления) все
Как сделать эффективнее?
Читать: https://habr.com/ru/companies/tensor/articles/847128/
#ru
@database_design | Другие наши каналы
Недавно попался на глаза запрос, которым хотели отобрать в таблице (очевидно, для последующего удаления) все
id записей интервалов, которые полностью перекрыты каким-то другим интервалом того же owner'а.self-JOIN показал себя не лучшим образом.Как сделать эффективнее?
Читать: https://habr.com/ru/companies/tensor/articles/847128/
#ru
@database_design | Другие наши каналы
Поиск дубликатов в клиентском MDM на миллиард записей
Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.
Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.
Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.
В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.
Читать: https://habr.com/ru/companies/hflabs/articles/847012/
#ru
@database_design | Другие наши каналы
Представьте, что вам нужно объединить две базы данных с информацией о клиентах, каждая из которых содержит несколько миллионов записей. В них есть ФИО, паспортные данные, СНИЛС, даты рождения, адреса и другие данные. Ваша задача — найти все похожие записи и не допустить ошибочных объединений.
Причем данные могут содержать ошибки, опечатки операторов или неверные транскрипции. Для полной сверки каждого с каждым потребуются триллионы операций сравнения. И вишенка на торте — братья-близнецы с редкими, но созвучными именами. Даже оператор может решить, что это дубль, и объединить их записи.
Цена ошибки неверного объединения или дублирования выражается в репутации компании и конкретных суммах на счетах клиентов, к которым могут получить доступ посторонние люди.
В этом посте расскажу о работе нашей системы обработки данных, которую мы применяем и адаптируем под такие сложные случаи.
Читать: https://habr.com/ru/companies/hflabs/articles/847012/
#ru
@database_design | Другие наши каналы
👍2
Новый релиз MariaDB Java Connector 3.4.1
Вышла новая версия MariaDB Java Connector 3.4.1! Релиз включает поддержку pinGlobalTxToPhysicalConnection для XA соединений, улучшенное описание хоста и опцию databaseTerm для совместимости с MySQL. Подробности на сайте MariaDB.
Читать подробнее
#en
@database_design | Другие наши каналы
Вышла новая версия MariaDB Java Connector 3.4.1! Релиз включает поддержку pinGlobalTxToPhysicalConnection для XA соединений, улучшенное описание хоста и опцию databaseTerm для совместимости с MySQL. Подробности на сайте MariaDB.
Читать подробнее
#en
@database_design | Другие наши каналы