Секреты Spark в Arenadata Hadoop: как мы ускорили построение витрин для задач ML
Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.
Читать: https://habr.com/ru/companies/rshb/articles/904072/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Я Дмитрий Жихарев, CPO Платформы искусственного интеллекта RAISA в Лаборатории ИИ РСХБ-Интех. В этой статье я и архитектор нашей платформы Александр Рындин @aryndin9999расскажем о том, как мы построили взаимодействие Платформы ИИ и Озера данных для работы с витринами данных моделей машинного обучения с использованием Spark.
Читать: https://habr.com/ru/companies/rshb/articles/904072/
#ru
@big_data_analysis | Другие наши каналы
Эра Big Data: новые возможности в принятии решений
Big Data - это огромные объёмы данных, которые невозможно обработать с помощью традиционных методов.
Они могут быть структурированными (например, данные из баз данных) или неструктурированными (например, текстовые данные из социальных сетей).
Большие данные представляют собой колоссальные массивы информации, генерируемые в процессе повседневной деятельности индивидов и организаций.
Эти данные аккумулируются, подвергаются обработке и анализу с применением специализированных технологий и методологий, что позволяет извлекать из них ценные инсайты и прогнозировать будущие тенденции.
Подробнее читать статью
Читать: https://habr.com/ru/articles/904108/
#ru
@big_data_analysis | Другие наши каналы
Big Data - это огромные объёмы данных, которые невозможно обработать с помощью традиционных методов.
Они могут быть структурированными (например, данные из баз данных) или неструктурированными (например, текстовые данные из социальных сетей).
Большие данные представляют собой колоссальные массивы информации, генерируемые в процессе повседневной деятельности индивидов и организаций.
Эти данные аккумулируются, подвергаются обработке и анализу с применением специализированных технологий и методологий, что позволяет извлекать из них ценные инсайты и прогнозировать будущие тенденции.
Подробнее читать статью
Читать: https://habr.com/ru/articles/904108/
#ru
@big_data_analysis | Другие наши каналы
Байесовские А/Б-тесты: множественные сравнения
Байесовский подход применен к А/Б-тесту конверсий с 3 группами. Лучшая группа выбирается сравнением апостериорных распределений. Способ применим для других метрик и большего количества вариантов.
Читать
Читать: https://habr.com/ru/articles/903820/
#ru
@big_data_analysis | Другие наши каналы
Байесовский подход применен к А/Б-тесту конверсий с 3 группами. Лучшая группа выбирается сравнением апостериорных распределений. Способ применим для других метрик и большего количества вариантов.
Читать
Читать: https://habr.com/ru/articles/903820/
#ru
@big_data_analysis | Другие наши каналы
Full-stack в аналитике: почему это будущее Data Science?
Привет.
Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:
Читать: https://habr.com/ru/articles/904376/
#ru
@big_data_analysis | Другие наши каналы
Привет.
Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:
Читать: https://habr.com/ru/articles/904376/
#ru
@big_data_analysis | Другие наши каналы
Хочешь умного агента? Научись оценивать его правильно
В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением.
Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности.
Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.
Читать: https://habr.com/ru/articles/902608/
#ru
@big_data_analysis | Другие наши каналы
В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением.
Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности.
Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.
Читать: https://habr.com/ru/articles/902608/
#ru
@big_data_analysis | Другие наши каналы
Новая эра анализа данных с Oracle FDI
Oracle Fusion Data Intelligence представила динамические агрегатные таблицы — инновационное решение для улучшения отчетности и анализа данных. Этот инструмент оптимизирует агрегацию данных, делая запросы более эффективными и быстрыми. Узнайте, как это может преобразить ваш бизнес.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle Fusion Data Intelligence представила динамические агрегатные таблицы — инновационное решение для улучшения отчетности и анализа данных. Этот инструмент оптимизирует агрегацию данных, делая запросы более эффективными и быстрыми. Узнайте, как это может преобразить ваш бизнес.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Enable and configure Dynamic Aggregate tables feature in Fusion Data Intelligence
Oracle Fusion Data Intelligence is introducing a powerful new feature: dynamic aggregate tables. This feature revolutionizes reporting and data analysis by providing a streamlined and efficient approach to data aggregation and query optimization.
❤1
Новинки Oracle Analytics Cloud: Обновление мая 2025
Oracle Analytics Cloud выпустил майское обновление 2025 года, представив ряд новых функций. Они нацелены на улучшение аналитических возможностей и повышение удобства использования платформы, предлагая пользователям более глубокий анализ данных и улучшенные инструменты визуализации.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle Analytics Cloud выпустил майское обновление 2025 года, представив ряд новых функций. Они нацелены на улучшение аналитических возможностей и повышение удобства использования платформы, предлагая пользователям более глубокий анализ данных и улучшенные инструменты визуализации.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Оптимизация работы с данными в Oracle Analytics
Oracle Analytics AI Assistant предлагает новый способ взаимодействия с наборами данных, облегчая их понимание, обмен и поиск. Оцените преимущества этой функции и как она может улучшить ваш опыт работы с Oracle Analytics.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle Analytics AI Assistant предлагает новый способ взаимодействия с наборами данных, облегчая их понимание, обмен и поиск. Оцените преимущества этой функции и как она может улучшить ваш опыт работы с Oracle Analytics.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle Analytics AI Assistant for Dataset Descriptions
The Oracle Analytics AI Assistant for Dataset Descriptions transforms how teams understand, share, and search for their datasets. Here’s how this powerful feature works, a real‑world use case, and the key benefits it brings to your Oracle Analytics environment.
Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)
Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?
Читать: https://habr.com/ru/articles/905434/
#ru
@big_data_analysis | Другие наши каналы
Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?
Читать: https://habr.com/ru/articles/905434/
#ru
@big_data_analysis | Другие наши каналы
Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц
Как мы в PIX BI приручили таблицы, чтобы выжимать максимум из данных
Когда мы думаем о таблицах, сразу приходит на ум Excel — этот старший брат всех электронных таблиц, который, несмотря на свои достоинства, часто становится… Но – давайте не будем подсвечивать ничьи недостатки, а лучше поговорим о достоинствах! Таблицы смело можно назвать визуализацией данных еще со времен древних цивилизаций. Их использовали для учета всего — от ракушек на базаре до золотых статуй в храмах. Современные аналитики хорошо знают истинную ценность таблиц и доверяют им.
Когда мы накапливаем достаточно опыта работы с таблицами в Excel, когда исследователь, сидящий в каждом аналитике, топает ногами и требует расширения его контроля над данными, — вот тут и начинается наше путешествие в мир BI-систем.
Да, работать с таблицами в self-service системах, таких как PIX BI, удобнее, чем в Excel. Почему? Во-первых, это просто. Все элементы интерфейса интуитивно понятны. Не нужно фантазировать с формулами или изображать из себя мега-специалиста, чтобы увидеть, как растут ваши продажи. Все происходит наглядно, быстро и без лишних нервов.
Во-вторых, BI-системы предлагают интерактивность: можно легко настраивать фильтры, сортировки и даже комбинировать данные без риска испортить всю таблицу. Вся информация собирается в одном месте, как старые, дорогие сердцу игрушки — с уютом и любовью!
Итак, в этой статье я подробнее разберу, как работать с таблицами в BI и какие фишки можно использовать. Конечно, на примере продукта, который мы создаем – PIX BI. Открываем двери нового, яркого мира аналитики!
Читать: https://habr.com/ru/companies/pix_robotics/articles/905188/
#ru
@big_data_analysis | Другие наши каналы
Как мы в PIX BI приручили таблицы, чтобы выжимать максимум из данных
Когда мы думаем о таблицах, сразу приходит на ум Excel — этот старший брат всех электронных таблиц, который, несмотря на свои достоинства, часто становится… Но – давайте не будем подсвечивать ничьи недостатки, а лучше поговорим о достоинствах! Таблицы смело можно назвать визуализацией данных еще со времен древних цивилизаций. Их использовали для учета всего — от ракушек на базаре до золотых статуй в храмах. Современные аналитики хорошо знают истинную ценность таблиц и доверяют им.
Когда мы накапливаем достаточно опыта работы с таблицами в Excel, когда исследователь, сидящий в каждом аналитике, топает ногами и требует расширения его контроля над данными, — вот тут и начинается наше путешествие в мир BI-систем.
Да, работать с таблицами в self-service системах, таких как PIX BI, удобнее, чем в Excel. Почему? Во-первых, это просто. Все элементы интерфейса интуитивно понятны. Не нужно фантазировать с формулами или изображать из себя мега-специалиста, чтобы увидеть, как растут ваши продажи. Все происходит наглядно, быстро и без лишних нервов.
Во-вторых, BI-системы предлагают интерактивность: можно легко настраивать фильтры, сортировки и даже комбинировать данные без риска испортить всю таблицу. Вся информация собирается в одном месте, как старые, дорогие сердцу игрушки — с уютом и любовью!
Итак, в этой статье я подробнее разберу, как работать с таблицами в BI и какие фишки можно использовать. Конечно, на примере продукта, который мы создаем – PIX BI. Открываем двери нового, яркого мира аналитики!
Читать: https://habr.com/ru/companies/pix_robotics/articles/905188/
#ru
@big_data_analysis | Другие наши каналы
Как из аналитики данных перейти в дата-сайентисты
Перевели и дополнили статью Марины Уисс, applied scientist (дата-сайентист со специализацией в прикладной статистике) в Twitch. Когда-то Марина перешла в IT из не связанной с технологиями сферы деятельности, а потом помогла с этим переходом многим людям без IT-бэкграунда.
В этой статье она делится советами для дата-аналитиков, которым хотелось бы заниматься data science. А мы добавили мнение экспертов и рекомендации, актуальные для российских образовательных реалий.
Читать: https://habr.com/ru/companies/netologyru/articles/905206/
#ru
@big_data_analysis | Другие наши каналы
Перевели и дополнили статью Марины Уисс, applied scientist (дата-сайентист со специализацией в прикладной статистике) в Twitch. Когда-то Марина перешла в IT из не связанной с технологиями сферы деятельности, а потом помогла с этим переходом многим людям без IT-бэкграунда.
В этой статье она делится советами для дата-аналитиков, которым хотелось бы заниматься data science. А мы добавили мнение экспертов и рекомендации, актуальные для российских образовательных реалий.
Читать: https://habr.com/ru/companies/netologyru/articles/905206/
#ru
@big_data_analysis | Другие наши каналы
❤2
Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент
LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.
Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.
Читать: https://habr.com/ru/articles/904880/
#ru
@big_data_analysis | Другие наши каналы
LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.
Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.
Читать: https://habr.com/ru/articles/904880/
#ru
@big_data_analysis | Другие наши каналы
Искусственный интеллект в медицине: Революция в здравоохранении
Медицина быстро адаптируется к достижениям в области искусственного интеллекта (ИИ). Благодаря ИИ появляются новые возможности для диагностики, хирургии, разработки препаратов, а также для персонализированного подхода к лечению. В этой статье мы рассмотрим ведущие проекты в медицине с использованием ИИ, их достижения и прогнозы на ближайшие годы.
Читать: https://habr.com/ru/articles/906426/
#ru
@big_data_analysis | Другие наши каналы
Медицина быстро адаптируется к достижениям в области искусственного интеллекта (ИИ). Благодаря ИИ появляются новые возможности для диагностики, хирургии, разработки препаратов, а также для персонализированного подхода к лечению. В этой статье мы рассмотрим ведущие проекты в медицине с использованием ИИ, их достижения и прогнозы на ближайшие годы.
Читать: https://habr.com/ru/articles/906426/
#ru
@big_data_analysis | Другие наши каналы
Как мы разработали LLM-модель, которая генерирует описания товаров для пользователей Авито
Привет! Я Сергей Кляхандлер, senior DS-инженер в команде LLM Авито.
В статье рассказываю, как мы разработали ML-модель, которая автоматически генерирует описания для объявлений из категории Одежда и Обувь. Подробно расписываю, откуда мы брали данные для обучения, какую архитектуру использовали и как тренировали модель. А в конце говорю про важную часть работы — фейлы.
Статья будет полезна DS-инженерам, которые работают с мультимодальными LLM-моделями.
Читать: https://habr.com/ru/companies/avito/articles/906504/
#ru
@big_data_analysis | Другие наши каналы
Привет! Я Сергей Кляхандлер, senior DS-инженер в команде LLM Авито.
В статье рассказываю, как мы разработали ML-модель, которая автоматически генерирует описания для объявлений из категории Одежда и Обувь. Подробно расписываю, откуда мы брали данные для обучения, какую архитектуру использовали и как тренировали модель. А в конце говорю про важную часть работы — фейлы.
Статья будет полезна DS-инженерам, которые работают с мультимодальными LLM-моделями.
Читать: https://habr.com/ru/companies/avito/articles/906504/
#ru
@big_data_analysis | Другие наши каналы
Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам
Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.
Будущее трансформеров
Читать: https://habr.com/ru/articles/906610/
#ru
@big_data_analysis | Другие наши каналы
Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.
Будущее трансформеров
Читать: https://habr.com/ru/articles/906610/
#ru
@big_data_analysis | Другие наши каналы
Настройка JMeter для тестирования Oracle Analytics Cloud
В статье рассматривается процесс подготовки Apache JMeter на Linux для тестирования производительности Oracle Analytics Cloud. Узнайте, как эффективно настроить JMeter, чтобы он стал надежным инструментом для анализа и оптимизации облачного решения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассматривается процесс подготовки Apache JMeter на Linux для тестирования производительности Oracle Analytics Cloud. Узнайте, как эффективно настроить JMeter, чтобы он стал надежным инструментом для анализа и оптимизации облачного решения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Prepare Apache JMeter on Linux for Oracle Analytics Performance Testing
This post guides you through preparing Apache JMeter on Linux for performance testing of Oracle Analytics Platform Services.
Победители Oracle Analytics Data Visualization Challenge 2025
Публикация раскрывает имена 15 лауреатов престижного конкурса по визуализации данных от Oracle. Узнайте, какие проекты были признаны лучшими в 2025 году и вдохновляйтесь творческими подходами участников!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Публикация раскрывает имена 15 лауреатов престижного конкурса по визуализации данных от Oracle. Узнайте, какие проекты были признаны лучшими в 2025 году и вдохновляйтесь творческими подходами участников!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Meet the Winners of the Oracle Analytics Data Visualization Challenge 2025
This article reveals the top 15 winners from the Oracle Analytics Data Visualization Challenge 2025.
Процент лжи
Всем привет, меня зовут Виталий, аналитик данных и автор телеграмм канала "Детектив данных" и тон поста во многом определяет этот факт.
Однажды на мой красивый дашборд пришёл руководитель одного из направлений с претензией что его направление в конкретном регионе дало минус 60 тысяч процентов - хотя на самом деле там должно быть плюс, так как показатель аналогичного периода прошлого ушёл в минуса по определённой причине.
Так и появилась, да и вскоре решилась, проблема со знаком и выявлена ошибка в элементарной формуле которую использовали все коллеги вокруг
Следующий фундаментальный вопрос который возник, и который еще предстоит решить - это как раз эти злополучные тысячи процентов - на верхних уровнях их не видно, но при накидывания фильтров в определенных разрезах эти значения ломают как и графики, так и гистограммы в таблицах. Да и кажется что такие значения - они и не нужны - все прекрасно понимают что тысячи процентов прироста - это скорее выбросы связанные с пересегментацией, возвратами и кривыми данными какого-нибудь иного вида. Мы же от нуля не можем посчитать прирост, тогда с какой стати мы должны его считать от отрицательного значения?
А пока решал проблему - сама собой и пришла идея обернуть этот "кейс" в детективный формат. Приятного чтения!
1 акт. «Минус на минус»
В один туманно-серый вечер понедельника к детективу данных в дверь постучал встревоженный дата аналитик. Он держал в руках старый учебник по математике весь исписанный формулами и процентами.
«Привет, детектив! Тут что-то не так. Я анализировал продажи по формулам из интернета и книг. Но они нас обманывали! Формула неправильная.»
Читать: https://habr.com/ru/articles/906950/
#ru
@big_data_analysis | Другие наши каналы
Всем привет, меня зовут Виталий, аналитик данных и автор телеграмм канала "Детектив данных" и тон поста во многом определяет этот факт.
Однажды на мой красивый дашборд пришёл руководитель одного из направлений с претензией что его направление в конкретном регионе дало минус 60 тысяч процентов - хотя на самом деле там должно быть плюс, так как показатель аналогичного периода прошлого ушёл в минуса по определённой причине.
Так и появилась, да и вскоре решилась, проблема со знаком и выявлена ошибка в элементарной формуле которую использовали все коллеги вокруг
Следующий фундаментальный вопрос который возник, и который еще предстоит решить - это как раз эти злополучные тысячи процентов - на верхних уровнях их не видно, но при накидывания фильтров в определенных разрезах эти значения ломают как и графики, так и гистограммы в таблицах. Да и кажется что такие значения - они и не нужны - все прекрасно понимают что тысячи процентов прироста - это скорее выбросы связанные с пересегментацией, возвратами и кривыми данными какого-нибудь иного вида. Мы же от нуля не можем посчитать прирост, тогда с какой стати мы должны его считать от отрицательного значения?
А пока решал проблему - сама собой и пришла идея обернуть этот "кейс" в детективный формат. Приятного чтения!
1 акт. «Минус на минус»
В один туманно-серый вечер понедельника к детективу данных в дверь постучал встревоженный дата аналитик. Он держал в руках старый учебник по математике весь исписанный формулами и процентами.
«Привет, детектив! Тут что-то не так. Я анализировал продажи по формулам из интернета и книг. Но они нас обманывали! Формула неправильная.»
Читать: https://habr.com/ru/articles/906950/
#ru
@big_data_analysis | Другие наши каналы
Что покажет бенчмарк? Оценка мультиагентных систем в действии
Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.
Читать: https://habr.com/ru/articles/904904/
#ru
@big_data_analysis | Другие наши каналы
Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.
Читать: https://habr.com/ru/articles/904904/
#ru
@big_data_analysis | Другие наши каналы
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.
В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).
Читать: https://habr.com/ru/companies/infowatch/articles/905916/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.
В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).
Читать: https://habr.com/ru/companies/infowatch/articles/905916/
#ru
@big_data_analysis | Другие наши каналы
Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы
Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/905596/
#ru
@big_data_analysis | Другие наши каналы
Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :)
Читать: https://habr.com/ru/articles/905596/
#ru
@big_data_analysis | Другие наши каналы