Как мы делаем SOC as a service: привлекаем большие данные и собственный SIEM на помощь клиентам
В работе с публичными облаками много плюсов, но с точки зрения ИБ — есть свои риски по сравнению с on‑premises. Минимизировать их помогает выделенный Security Operation Center (SOC). При этом создать его у себя не так просто: для эффективной работы SOC в Yandex Cloud понадобилось несколько лет разработки, а также технологии и мощности Яндекса, которые развивались годами.
Поскольку у клиентов облака не всегда есть ресурсы и экспертиза, чтобы создать подобный SOC у себя, мы не только строили свой центр, но и параллельно делали на его основе управляемый сервис Yandex Cloud Detection & Response (YCDR). В процессе разработки мы должны были позаботиться о том, чтобы даже привилегированные учётные записи не могли обойти семь слоёв облачной безопасности, — и в итоге многие компоненты написали самостоятельно.
— Первая часть статьи для тех, кому важны механизмы безопасной изоляции ресурсов. Покажем, как мы строили SOC c учётом особенностей облачной защиты.
— Вторая часть для тех, кто интересуется большими данными. Продемонстрируем, что скрывает под капотом сервис, обрабатывающий более полумиллиона событий в секунду. А также расскажем, почему нам потребовалось создать для него собственную SIEM‑систему.
Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/936258/
#ru
@big_data_analysis | Другие наши каналы
В работе с публичными облаками много плюсов, но с точки зрения ИБ — есть свои риски по сравнению с on‑premises. Минимизировать их помогает выделенный Security Operation Center (SOC). При этом создать его у себя не так просто: для эффективной работы SOC в Yandex Cloud понадобилось несколько лет разработки, а также технологии и мощности Яндекса, которые развивались годами.
Поскольку у клиентов облака не всегда есть ресурсы и экспертиза, чтобы создать подобный SOC у себя, мы не только строили свой центр, но и параллельно делали на его основе управляемый сервис Yandex Cloud Detection & Response (YCDR). В процессе разработки мы должны были позаботиться о том, чтобы даже привилегированные учётные записи не могли обойти семь слоёв облачной безопасности, — и в итоге многие компоненты написали самостоятельно.
— Первая часть статьи для тех, кому важны механизмы безопасной изоляции ресурсов. Покажем, как мы строили SOC c учётом особенностей облачной защиты.
— Вторая часть для тех, кто интересуется большими данными. Продемонстрируем, что скрывает под капотом сервис, обрабатывающий более полумиллиона событий в секунду. А также расскажем, почему нам потребовалось создать для него собственную SIEM‑систему.
Читать: https://habr.com/ru/companies/yandex_cloud_and_infra/articles/936258/
#ru
@big_data_analysis | Другие наши каналы
Куда двигаться после изучения Django: советы для Python-разработчиков
В статье разбираемся, почему Django — далеко не финиш в карьере, и в каких направлениях можно двигаться Python-разработчику.
Читать: «Куда двигаться после изучения Django: советы для Python-разработчиков»
#ru
@big_data_analysis | Другие наши каналы
В статье разбираемся, почему Django — далеко не финиш в карьере, и в каких направлениях можно двигаться Python-разработчику.
Читать: «Куда двигаться после изучения Django: советы для Python-разработчиков»
#ru
@big_data_analysis | Другие наши каналы
Hybrid RAG: методы реализации ч.1 — Поиск
С ростом популярности Retrieval-Augmented Generation (RAG), как архитектуры для построения систем генерации контента на основе извлечённых данных, стало очевидно, что односложный подход к выбору источников знаний ограничивает качество результатов. В этой связи особый интерес представляют Hybrid RAG подходы, сочетающие различные методы поиска и представления данных, в целях улучшения полноты, точности и релевантность ответа.
В данной статье я поделюсь своим опытом в реализации Hybrid RAG систем, его архитектуры и практических методов реализации.
Читать: https://habr.com/ru/articles/913418/
#ru
@big_data_analysis | Другие наши каналы
С ростом популярности Retrieval-Augmented Generation (RAG), как архитектуры для построения систем генерации контента на основе извлечённых данных, стало очевидно, что односложный подход к выбору источников знаний ограничивает качество результатов. В этой связи особый интерес представляют Hybrid RAG подходы, сочетающие различные методы поиска и представления данных, в целях улучшения полноты, точности и релевантность ответа.
В данной статье я поделюсь своим опытом в реализации Hybrid RAG систем, его архитектуры и практических методов реализации.
Читать: https://habr.com/ru/articles/913418/
#ru
@big_data_analysis | Другие наши каналы
Нагрузочное тестирование GP6 vs GP7 vs Cloudberry
Привет, Хабр! На связи Марк – ведущий архитектор группы компаний "ГлоуБайт". В этой статье я поделюсь результатами нагрузочного тестирования, которое мы с коллегами провели для сравнения Greenplum 6 с Greenplum 7 и Cloudberry.
Читать: https://habr.com/ru/companies/glowbyte/articles/936384/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! На связи Марк – ведущий архитектор группы компаний "ГлоуБайт". В этой статье я поделюсь результатами нагрузочного тестирования, которое мы с коллегами провели для сравнения Greenplum 6 с Greenplum 7 и Cloudberry.
Читать: https://habr.com/ru/companies/glowbyte/articles/936384/
#ru
@big_data_analysis | Другие наши каналы
This media is not supported in your browser
VIEW IN TELEGRAM
Взгляните на IT-мир по-новому
12 сентября. Топовые IT-компании. Закулисье разработок и доклады экспертов. Ещё не знаете, о чём речь? Сейчас расскажем!
Приглашаем вас на big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые компании одновременно откроют двери офисов ночью и покажут IT-специалистам, где рождаются технологии.
▶️ В московских офисах организаторов вы:
• послушаете доклады топовых экспертов,
• обсудите новейшие разработки,
• познакомитесь с крутыми профессионалами,
• и просто повеселитесь.
▶️ Если не сможете прийти офлайн, big tech night организует онлайн-студию. Зрители смогут:
• посмотреть выступления спикеров от каждой компании,
• послушать дебаты о технологиях,
• поучаствовать в интерактивах,
• получить записи докладов после мероприятия.
Регистрируйтесь на сайте и присоединяйтесь к нам 12 сентября с 18:00 до 00:00!
Подписывайтесь:
big tech night
Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543
Это #партнёрский пост
12 сентября. Топовые IT-компании. Закулисье разработок и доклады экспертов. Ещё не знаете, о чём речь? Сейчас расскажем!
Приглашаем вас на big tech night. Событие придумали в Яндексе и организовали вместе со Сбером, X5, Т-Банком и Lamoda. Впервые компании одновременно откроют двери офисов ночью и покажут IT-специалистам, где рождаются технологии.
▶️ В московских офисах организаторов вы:
• послушаете доклады топовых экспертов,
• обсудите новейшие разработки,
• познакомитесь с крутыми профессионалами,
• и просто повеселитесь.
▶️ Если не сможете прийти офлайн, big tech night организует онлайн-студию. Зрители смогут:
• посмотреть выступления спикеров от каждой компании,
• послушать дебаты о технологиях,
• поучаствовать в интерактивах,
• получить записи докладов после мероприятия.
Регистрируйтесь на сайте и присоединяйтесь к нам 12 сентября с 18:00 до 00:00!
Подписывайтесь:
big tech night
Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543
Это #партнёрский пост
ИИ под контролем: Guardrails как щит от рисков в агентных системах
Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.
Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.
В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!
Читать: https://habr.com/ru/articles/936156/
#ru
@big_data_analysis | Другие наши каналы
Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.
Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.
В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!
Читать: https://habr.com/ru/articles/936156/
#ru
@big_data_analysis | Другие наши каналы
Как построить эффективную MDM-систему для бизнеса - рассказываем на Сезоне MDM
В этой серии видео-вебинаров вы узнаете, как определить ключевые бизнес-задачи и настроить MDM-систему. Вас будут ждать живые демо и экспертные мнения о реальной ценности MDM. Первые три выпуска уже доступны для просмотра на VK видео и Rutube!
Не пропустите - впереди еще три серии. Подписывайтесь на чат-бота в телеграм, чтобы получать уведомления о новых выпусках!
Реклама
О рекламодателе
В этой серии видео-вебинаров вы узнаете, как определить ключевые бизнес-задачи и настроить MDM-систему. Вас будут ждать живые демо и экспертные мнения о реальной ценности MDM. Первые три выпуска уже доступны для просмотра на VK видео и Rutube!
Не пропустите - впереди еще три серии. Подписывайтесь на чат-бота в телеграм, чтобы получать уведомления о новых выпусках!
Реклама
О рекламодателе
ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления
ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных
Читать: https://habr.com/ru/articles/937196/
#ru
@big_data_analysis | Другие наши каналы
ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных
Читать: https://habr.com/ru/articles/937196/
#ru
@big_data_analysis | Другие наши каналы
Как государственная служба Великобритании оптимизирует управление данными
Один из крупнейших британских органов здравоохранения использует Oracle Fusion Data Intelligence для анализа данных, что помогает улучшить управление финансами, кадровыми ресурсами и цепочками поставок.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Один из крупнейших британских органов здравоохранения использует Oracle Fusion Data Intelligence для анализа данных, что помогает улучшить управление финансами, кадровыми ресурсами и цепочками поставок.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Новая интеграция объединяет мощные аналитические возможности Databricks с удобной платформой визуализации OAC, дополненной искусственным интеллектом для запросов на естественном языке. Это открывает новые горизонты для эффективного анализа данных в организациях.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
❤1
Выбираем архитектуру данных для компании: руководство от дата-инженера
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов.
Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.
Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/937470/
#ru
@big_data_analysis | Другие наши каналы
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов.
Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.
Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/937470/
#ru
@big_data_analysis | Другие наши каналы
👍1
Как выбрать облако под стартап: от серверов до биллинга
Запускаете стартап? Разбираем, какое облако подойдет под ваш проект — подборка платформ.
Читать: «Как выбрать облако под стартап: от серверов до биллинга»
#ru
@big_data_analysis | Другие наши каналы
Запускаете стартап? Разбираем, какое облако подойдет под ваш проект — подборка платформ.
Читать: «Как выбрать облако под стартап: от серверов до биллинга»
#ru
@big_data_analysis | Другие наши каналы
7 взаимозаменяемых решений, которые мгновенно ускорят ваши рабочие процессы Data Science на Python
Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.
Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.
Читать: https://habr.com/ru/articles/937542/
#ru
@big_data_analysis | Другие наши каналы
Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.
Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.
Читать: https://habr.com/ru/articles/937542/
#ru
@big_data_analysis | Другие наши каналы
Газпромбанк.Тех и Научно-технологический университет «Сириус» запускают интенсив по анализу данных и машинному обучению
Газпромбанк.Тех совместно с Научно-технологическим университетом «Сириус» объявляет о старте отбора на образовательный интенсив для будущих специалистов в области анализа данных и машинного обучения. Участие в программе полностью бесплатное.
Читать: «Газпромбанк.Тех и Научно-технологический университет «Сириус» запускают интенсив по анализу данных и машинному обучению»
#ru
@big_data_analysis | Другие наши каналы
Газпромбанк.Тех совместно с Научно-технологическим университетом «Сириус» объявляет о старте отбора на образовательный интенсив для будущих специалистов в области анализа данных и машинного обучения. Участие в программе полностью бесплатное.
Читать: «Газпромбанк.Тех и Научно-технологический университет «Сириус» запускают интенсив по анализу данных и машинному обучению»
#ru
@big_data_analysis | Другие наши каналы
WAP паттерн в data-engineering
Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.
Читать: https://habr.com/ru/articles/937738/
#ru
@big_data_analysis | Другие наши каналы
Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.
Читать: https://habr.com/ru/articles/937738/
#ru
@big_data_analysis | Другие наши каналы
Адаптивная модель данных в Luxms BI: когда BI сам понимает, что ты хочешь
В этой статье расскажем про новую адаптивную модель данных в Luxms BI. Мы реализовали подход, при котором модель сама понимает, какие таблицы и связи нужны под конкретный дэшборд, и строит оптимальный SQL-запрос. Это делает аналитику быстрее, а работу с данными — действительно self-service.
Расскажем как это работает, чем отличается от старого подхода и какие преимущества дает аналитикам и бизнесу.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937490/
#ru
@big_data_analysis | Другие наши каналы
В этой статье расскажем про новую адаптивную модель данных в Luxms BI. Мы реализовали подход, при котором модель сама понимает, какие таблицы и связи нужны под конкретный дэшборд, и строит оптимальный SQL-запрос. Это делает аналитику быстрее, а работу с данными — действительно self-service.
Расскажем как это работает, чем отличается от старого подхода и какие преимущества дает аналитикам и бизнесу.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937490/
#ru
@big_data_analysis | Другие наши каналы
Пример использования Адаптивной модели Luxms BI
В отличие от классического подхода, где BI-система жестко фиксирует связи, мы реализовали модель, которая сама определяет, какие таблицы и связи нужны под конкретный дэшлет, и формирует оптимальный запрос «на лету». Это наша новая Адаптивная модель данных Luxms BI.
Я, Николай Павлов, инженер по обработке данных, и в статье мы разберём, как на практике построить такую модель на примере небольшого проекта: поднимем ClickHouse в Docker, создадим схему «снежинка» с тестовыми данными, соберём адаптивную модель и построим дэшборд с экономическими метриками интернет-магазина.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937508/
#ru
@big_data_analysis | Другие наши каналы
В отличие от классического подхода, где BI-система жестко фиксирует связи, мы реализовали модель, которая сама определяет, какие таблицы и связи нужны под конкретный дэшлет, и формирует оптимальный запрос «на лету». Это наша новая Адаптивная модель данных Luxms BI.
Я, Николай Павлов, инженер по обработке данных, и в статье мы разберём, как на практике построить такую модель на примере небольшого проекта: поднимем ClickHouse в Docker, создадим схему «снежинка» с тестовыми данными, соберём адаптивную модель и построим дэшборд с экономическими метриками интернет-магазина.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937508/
#ru
@big_data_analysis | Другие наши каналы
Развенчиваем мифы об AI-агентах: от фантазий к реальности
По мере роста возможностей искусственного интеллекта наш понятийный аппарат с трудом успевает за технологическим прогрессом. До недавнего времени под AI-ассистентами понимали чат-ботов и голосовых помощников, реагирующих на прямые пользовательские команды вроде «позвони маме», «какой рост у Леди Гаги?» или «запусти Spotify».
Сегодня в обиход входят новые термины: AI-агенты и agentic AI. Это отражает сдвиг в сторону более автономных и интеллектуальных систем, способных принимать решения. Проблема в том, что единых представлений о сути этих понятий нет, они часто используются неточно или трактуются ошибочно.
Чтобы прояснить ситуацию и разграничить хайп и реальность, мы побеседовали с техническими специалистами из разных отраслей, которые в реальной работе имеют дело с agentic-системами. В этой статье мы разбираем, что такое agentic AI и AI-агенты, приводим практические примеры, а также исследуем их перспективы и текущие ограничения.
Читать: https://habr.com/ru/articles/936390/
#ru
@big_data_analysis | Другие наши каналы
По мере роста возможностей искусственного интеллекта наш понятийный аппарат с трудом успевает за технологическим прогрессом. До недавнего времени под AI-ассистентами понимали чат-ботов и голосовых помощников, реагирующих на прямые пользовательские команды вроде «позвони маме», «какой рост у Леди Гаги?» или «запусти Spotify».
Сегодня в обиход входят новые термины: AI-агенты и agentic AI. Это отражает сдвиг в сторону более автономных и интеллектуальных систем, способных принимать решения. Проблема в том, что единых представлений о сути этих понятий нет, они часто используются неточно или трактуются ошибочно.
Чтобы прояснить ситуацию и разграничить хайп и реальность, мы побеседовали с техническими специалистами из разных отраслей, которые в реальной работе имеют дело с agentic-системами. В этой статье мы разбираем, что такое agentic AI и AI-агенты, приводим практические примеры, а также исследуем их перспективы и текущие ограничения.
Читать: https://habr.com/ru/articles/936390/
#ru
@big_data_analysis | Другие наши каналы
GlowByte запускает второй сезон образовательного онлайн-ретрита по FineBI — «Второе дыхание»!
13 дней обновленной программы с 3 новыми уроками, практическими вебинарами и призами за лучшие домашние задания.
Что ждет участников:
• Обновленные домашние задания с системой призов
• Три специальных вебинара: FineReport Pro (28 августа), AI-революция в аналитике (2 сентября), 3D-визуализация с FineVis (9 сентября)
• Успешные кейсы от Tele2, Уралсиб, Циан и других компаний
Программа для всех, кто работает с данными — от разработчиков до руководителей.
Старт 25 августа!
Регистрируйтесь по ссылке и получите второе дыхание в мире BI-аналитики.
Это #партнёрский пост
13 дней обновленной программы с 3 новыми уроками, практическими вебинарами и призами за лучшие домашние задания.
Что ждет участников:
• Обновленные домашние задания с системой призов
• Три специальных вебинара: FineReport Pro (28 августа), AI-революция в аналитике (2 сентября), 3D-визуализация с FineVis (9 сентября)
• Успешные кейсы от Tele2, Уралсиб, Циан и других компаний
Программа для всех, кто работает с данными — от разработчиков до руководителей.
Старт 25 августа!
Регистрируйтесь по ссылке и получите второе дыхание в мире BI-аналитики.
Это #партнёрский пост
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для последовательных рекомендательных систем: обзор
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает.
Читать: https://habr.com/ru/articles/938350/
#ru
@big_data_analysis | Другие наши каналы
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает.
Читать: https://habr.com/ru/articles/938350/
#ru
@big_data_analysis | Другие наши каналы
👍1