Retrieval Augmented Generation for Claim Processing: Combining MongoDB Atlas Vector Search and Large Language Models
Read: https://www.mongodb.com/blog/post/rag-claim-processing-combing-mongodb-atlas-vector-search-llms
@database_design
Read: https://www.mongodb.com/blog/post/rag-claim-processing-combing-mongodb-atlas-vector-search-llms
@database_design
Как мы переносили базу Clickhouse между географически удаленными дата-центрами
В конце прошлого года мы писали о сложном переезде нашего собственного сервиса в новый дата-центр в Детройте. Среди прочих задач мы переносили Clickhouse. Напомню, что речь идет о нагруженном сервисе, который обслуживает десятки серверов, принимающих сотни тысяч запросов с низкой latency в секунду.
В этой статье рассказываем, как мы переносили данные, не имея возможности отключить сервис или воспользоваться автоматической репликацией.
Объем данных для Clickhouse у нас не такой уж и большой - процесс получился не столько объемный, сколько ресурсоемкий. Но в открытых источниках информации по использованным механизмам минимум, поэтому считайте это руководством к clickhouse-copier утилите (https://github.com/ClickHouse/copier) на конкретном примере со скриптами и командами для запуска.
Читать: https://habr.com/ru/companies/maxilect/articles/808851/
@database_design
В конце прошлого года мы писали о сложном переезде нашего собственного сервиса в новый дата-центр в Детройте. Среди прочих задач мы переносили Clickhouse. Напомню, что речь идет о нагруженном сервисе, который обслуживает десятки серверов, принимающих сотни тысяч запросов с низкой latency в секунду.
В этой статье рассказываем, как мы переносили данные, не имея возможности отключить сервис или воспользоваться автоматической репликацией.
Объем данных для Clickhouse у нас не такой уж и большой - процесс получился не столько объемный, сколько ресурсоемкий. Но в открытых источниках информации по использованным механизмам минимум, поэтому считайте это руководством к clickhouse-copier утилите (https://github.com/ClickHouse/copier) на конкретном примере со скриптами и командами для запуска.
Читать: https://habr.com/ru/companies/maxilect/articles/808851/
@database_design
Проекции в Vertica: что это, как использовать, и почему не стоит создавать их под каждый запрос
Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.
Читать: https://habr.com/ru/companies/avito/articles/808713/
@database_design
Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.
Читать: https://habr.com/ru/companies/avito/articles/808713/
@database_design
Использование миграций баз данных в Go
Недавно мы столкнулись с необходимостью найти библиотеку для удобной работы с базами данных. В проекте было принято решение не использовать ORM, а вместо этого применить миграции. Так как я работал только с ORM, мне, как и автору статьи, было мало знакомо понятие миграций баз данных. В поисках информации о миграциях и популярных решениях, я наткнулся на эту статью. Перевод статьи я оставил ниже. Возможно, она будет вам полезна. Буду признателен, если вы сможете поделиться библиотеками, которые используете.
Читать: https://habr.com/ru/articles/809301/
@database_design
Недавно мы столкнулись с необходимостью найти библиотеку для удобной работы с базами данных. В проекте было принято решение не использовать ORM, а вместо этого применить миграции. Так как я работал только с ORM, мне, как и автору статьи, было мало знакомо понятие миграций баз данных. В поисках информации о миграциях и популярных решениях, я наткнулся на эту статью. Перевод статьи я оставил ниже. Возможно, она будет вам полезна. Буду признателен, если вы сможете поделиться библиотеками, которые используете.
Читать: https://habr.com/ru/articles/809301/
@database_design
Supabase — вышел из режима «бета»
Supabase - open source альтернатива Firebase, на базе PostgreSQL. Инструмент предоставляет разработчикам различные сервисы и утилиты, которые упрощают процесс создания и запуска приложений.
Компания вышла из режима бета, который продлился аж 4 года. Теперь продукт находится в режиме GA (generally available). Режим бета не помешал им собрать довольно внушительную базу пользователей, по словам основателей уже более 1 млн. баз данных запущено с использованием Supbase. Инвестиции стартап привлекал еще 2 года назад на сумму 80 млн. $.
Тут была неплохая инструкция на русском (в двух частях.)
Основное преимущество Supabase заключается в том, что он делает процесс разработки проще и удобнее. Позволяет разработчикам сосредоточиться на пользовательском интерфейсе и опыте, минимизируя необходимость заниматься серверной инфраструктурой.
Есть бесплатный тариф с ограничением по количеству активных пользователей в 50 тыс., чего вполне должно хватить для запуска и проверки гипотез. На любом тарифе пользователи получают доступ к очень активному сообществу, готовому предложить помощь или совет.
Сервис стал продуктом недели на ProductHunt, оставив далеко позади конкурентов. По количество голосов в топе лидеров за год, еще один плюс живого и активного сообщества.
Примечательно то, что больше трети проектов из последнего батча YC используют именно Supabase. Мне кажется это яркое подтверждение тезиса об упрощении разработки (ну или маркетологи компании хорошо постарались). Так что, если делаете стартап, и не используете Supabase, то можно задать вопросы CTO, почему он не делает как "лучшие" стартапы, которых отобрал YC. 😉
Читать: https://habr.com/ru/articles/809363/
@database_design
Supabase - open source альтернатива Firebase, на базе PostgreSQL. Инструмент предоставляет разработчикам различные сервисы и утилиты, которые упрощают процесс создания и запуска приложений.
Компания вышла из режима бета, который продлился аж 4 года. Теперь продукт находится в режиме GA (generally available). Режим бета не помешал им собрать довольно внушительную базу пользователей, по словам основателей уже более 1 млн. баз данных запущено с использованием Supbase. Инвестиции стартап привлекал еще 2 года назад на сумму 80 млн. $.
Тут была неплохая инструкция на русском (в двух частях.)
Основное преимущество Supabase заключается в том, что он делает процесс разработки проще и удобнее. Позволяет разработчикам сосредоточиться на пользовательском интерфейсе и опыте, минимизируя необходимость заниматься серверной инфраструктурой.
Есть бесплатный тариф с ограничением по количеству активных пользователей в 50 тыс., чего вполне должно хватить для запуска и проверки гипотез. На любом тарифе пользователи получают доступ к очень активному сообществу, готовому предложить помощь или совет.
Сервис стал продуктом недели на ProductHunt, оставив далеко позади конкурентов. По количество голосов в топе лидеров за год, еще один плюс живого и активного сообщества.
Примечательно то, что больше трети проектов из последнего батча YC используют именно Supabase. Мне кажется это яркое подтверждение тезиса об упрощении разработки (ну или маркетологи компании хорошо постарались). Так что, если делаете стартап, и не используете Supabase, то можно задать вопросы CTO, почему он не делает как "лучшие" стартапы, которых отобрал YC. 😉
Читать: https://habr.com/ru/articles/809363/
@database_design
Transforming Industries with MongoDB and AI: Healthcare
Read: https://www.mongodb.com/blog/post/transforming-industries-mongodb-ai-healthcare
@database_design
Read: https://www.mongodb.com/blog/post/transforming-industries-mongodb-ai-healthcare
@database_design
Сравнение технологий WebSockets, Server-Sent-Events, Long-Polling, WebRTC и WebTransport
При работе с современными веб-приложениями реального времени незаменима возможность отправлять события с сервера на клиент. Именно этой необходимостью продиктовано то, что за годы работы было изобретено несколько методов для этой цели, каждый с собственным набором достоинств и недостатков. Первоначально единственным вариантом был длинный опрос. Затем в качестве альтернативы появились веб-сокеты — более надёжное решение для двунаправленной коммуникации. Вслед за веб-сокетами появились события, отправляемые сервером (SSE), более простой метод, обеспечивающий однонаправленную связь от сервера к клиенту. Забегая вперёд, сейчас разрабатывается ещё и протокол WebTransport, который может тем более изменить ландшафт этой области, обеспечивая более эффективный и гибкий подход, располагающий к масштабированию. В некоторых нишевых случаях можно присмотреться и к технологии WebRTC, предназначенной для работы с событиями в направлении сервер-клиент.
В этой статье мы подробно разберём данные технологии, сравним их производительность, подчеркнём их достоинства и недостатки, а также порекомендуем, что делать в различных практических случаях, расскажем, как принимать информированные решения при создании веб-приложений реального времени. Эта статья — экстракт моего совокупного опыта, приобретённого в ходе реализации протокола репликации RxDB, обеспечивающего совместимость с различными технологиями серверной части.
Читать: https://habr.com/ru/articles/809535/
@database_design
При работе с современными веб-приложениями реального времени незаменима возможность отправлять события с сервера на клиент. Именно этой необходимостью продиктовано то, что за годы работы было изобретено несколько методов для этой цели, каждый с собственным набором достоинств и недостатков. Первоначально единственным вариантом был длинный опрос. Затем в качестве альтернативы появились веб-сокеты — более надёжное решение для двунаправленной коммуникации. Вслед за веб-сокетами появились события, отправляемые сервером (SSE), более простой метод, обеспечивающий однонаправленную связь от сервера к клиенту. Забегая вперёд, сейчас разрабатывается ещё и протокол WebTransport, который может тем более изменить ландшафт этой области, обеспечивая более эффективный и гибкий подход, располагающий к масштабированию. В некоторых нишевых случаях можно присмотреться и к технологии WebRTC, предназначенной для работы с событиями в направлении сервер-клиент.
В этой статье мы подробно разберём данные технологии, сравним их производительность, подчеркнём их достоинства и недостатки, а также порекомендуем, что делать в различных практических случаях, расскажем, как принимать информированные решения при создании веб-приложений реального времени. Эта статья — экстракт моего совокупного опыта, приобретённого в ходе реализации протокола репликации RxDB, обеспечивающего совместимость с различными технологиями серверной части.
Читать: https://habr.com/ru/articles/809535/
@database_design
Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@database_design
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@database_design
Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@database_design
В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты.
Читать: https://habr.com/ru/articles/809551/
@database_design
Векторные базы данных: простым языком про устройство и принцип работы
Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.
Читать: https://habr.com/ru/companies/tochka/articles/809493/
@database_design
Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.
Читать: https://habr.com/ru/companies/tochka/articles/809493/
@database_design
Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов
Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.
В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.
Читать: https://habr.com/ru/articles/809751/
@database_design
Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.
В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.
Читать: https://habr.com/ru/articles/809751/
@database_design
Collaborating to Build AI Apps: MongoDB and Partners at Google Cloud Next '24
Read: https://www.mongodb.com/blog/post/collaborating-build-ai-apps-mongodb-partners-google-cloud-next-24
@database_design
Read: https://www.mongodb.com/blog/post/collaborating-build-ai-apps-mongodb-partners-google-cloud-next-24
@database_design
Эволюция обработки данных: от MapReduce к стриминговому движку
Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.
Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.
В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.
Читать: https://habr.com/ru/companies/yandex/articles/808059/
@database_design
Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.
Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.
В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.
Читать: https://habr.com/ru/companies/yandex/articles/808059/
@database_design
Эволюция обработки данных: от MapReduce к стриминговому движку
Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.
Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.
В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.
Читать: https://habr.com/ru/companies/yandex/articles/808059/
@database_design
Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.
Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.
В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.
Читать: https://habr.com/ru/companies/yandex/articles/808059/
@database_design
Оптимизация запросов в ClickHouse с помощью создания цепочки материализованных представлений
В ClickHouse материализованные представления (materialized views) являются механизмом, автоматически выполняющим запросы к исходным таблицам при поступлении новых данных.
Материализованное представление (МП) - это специальный тип таблицы, содержащей результат выполнения запроса к исходным данным. Этот результат фактически представляет собой кэшированное представление данных из исходных таблиц. Одной из ключевых особенностей МП в ClickHouse является их автоматическое обновление. При поступлении новых данных в исходные таблицы МП обновляется, автоматически пересчитываясь в соответствии с определенным запросом.
Читать: https://habr.com/ru/companies/otus/articles/810113/
@database_design
В ClickHouse материализованные представления (materialized views) являются механизмом, автоматически выполняющим запросы к исходным таблицам при поступлении новых данных.
Материализованное представление (МП) - это специальный тип таблицы, содержащей результат выполнения запроса к исходным данным. Этот результат фактически представляет собой кэшированное представление данных из исходных таблиц. Одной из ключевых особенностей МП в ClickHouse является их автоматическое обновление. При поступлении новых данных в исходные таблицы МП обновляется, автоматически пересчитываясь в соответствии с определенным запросом.
Читать: https://habr.com/ru/companies/otus/articles/810113/
@database_design
Five Languages, One Goal: A Developer's Path to Certification Mastery
Read: https://www.mongodb.com/blog/post/five-languages-one-goal-developers-path-certification-mastery
@database_design
Read: https://www.mongodb.com/blog/post/five-languages-one-goal-developers-path-certification-mastery
@database_design
MariaDB Enterprise Server 10.6.17-13 maintenance release
Read: https://mariadb.com/?p=39164
@database_design
Read: https://mariadb.com/?p=39164
@database_design
Это база: нюансы работы с Redis. Часть 2, репликация
Всем привет, на связи Пётр, инженер компании Nixys. В прошлой статье мы разобрали основные концепции Redis. Теперь рассмотрим базовую репликацию Redis и настроим эту БД на высокий уровень отказоустойчивости.
Читать: https://habr.com/ru/companies/nixys/articles/805463/
@database_design
Всем привет, на связи Пётр, инженер компании Nixys. В прошлой статье мы разобрали основные концепции Redis. Теперь рассмотрим базовую репликацию Redis и настроим эту БД на высокий уровень отказоустойчивости.
Читать: https://habr.com/ru/companies/nixys/articles/805463/
@database_design
Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы
В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.
Читать: https://habr.com/ru/articles/810083/
@database_design
В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.
Читать: https://habr.com/ru/articles/810083/
@database_design
Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы
В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.
Читать: https://habr.com/ru/articles/810083/
@database_design
В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NiFi, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
Статья полезна специалистам и руководителям, которые работают с данными решениями и делают ставку на них в части импортозамещения аналогичных технологий. Статья дает обзор основных сложностей внедрения на примере реального кейса, описывает архитектуру и особенности при совместном использовании решений.
Читать: https://habr.com/ru/articles/810083/
@database_design
Делаем резервное копирование кластера ClickHouse: простая инструкция
Делаем резервное копирование кластера ClickHouse: простая инструкция
Меня зовут Леонид Блынский и я администратор баз данных в Лиге Цифровой Экономики. В этой небольшой статье расскажу, как я делаю резервное копирование кластера ClickHouse размером 20 ТБ.
Документация по резервному копированию довольно небольшая и содержит инструкции по созданию резервных копий отдельной инсталляции СУБД. К сожалению, информации о том, как создавать резервные копии кластера, практически нет. Как и нет промышленного решения для управления бэкапом.
Читать: https://habr.com/ru/companies/digitalleague/articles/810445/
@database_design
Делаем резервное копирование кластера ClickHouse: простая инструкция
Меня зовут Леонид Блынский и я администратор баз данных в Лиге Цифровой Экономики. В этой небольшой статье расскажу, как я делаю резервное копирование кластера ClickHouse размером 20 ТБ.
Документация по резервному копированию довольно небольшая и содержит инструкции по созданию резервных копий отдельной инсталляции СУБД. К сожалению, информации о том, как создавать резервные копии кластера, практически нет. Как и нет промышленного решения для управления бэкапом.
Читать: https://habr.com/ru/companies/digitalleague/articles/810445/
@database_design