WAP паттерн в data-engineering
Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.
Читать: https://habr.com/ru/articles/937738/
#ru
@big_data_analysis | Другие наши каналы
Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.
Читать: https://habr.com/ru/articles/937738/
#ru
@big_data_analysis | Другие наши каналы
Адаптивная модель данных в Luxms BI: когда BI сам понимает, что ты хочешь
В этой статье расскажем про новую адаптивную модель данных в Luxms BI. Мы реализовали подход, при котором модель сама понимает, какие таблицы и связи нужны под конкретный дэшборд, и строит оптимальный SQL-запрос. Это делает аналитику быстрее, а работу с данными — действительно self-service.
Расскажем как это работает, чем отличается от старого подхода и какие преимущества дает аналитикам и бизнесу.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937490/
#ru
@big_data_analysis | Другие наши каналы
В этой статье расскажем про новую адаптивную модель данных в Luxms BI. Мы реализовали подход, при котором модель сама понимает, какие таблицы и связи нужны под конкретный дэшборд, и строит оптимальный SQL-запрос. Это делает аналитику быстрее, а работу с данными — действительно self-service.
Расскажем как это работает, чем отличается от старого подхода и какие преимущества дает аналитикам и бизнесу.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937490/
#ru
@big_data_analysis | Другие наши каналы
Пример использования Адаптивной модели Luxms BI
В отличие от классического подхода, где BI-система жестко фиксирует связи, мы реализовали модель, которая сама определяет, какие таблицы и связи нужны под конкретный дэшлет, и формирует оптимальный запрос «на лету». Это наша новая Адаптивная модель данных Luxms BI.
Я, Николай Павлов, инженер по обработке данных, и в статье мы разберём, как на практике построить такую модель на примере небольшого проекта: поднимем ClickHouse в Docker, создадим схему «снежинка» с тестовыми данными, соберём адаптивную модель и построим дэшборд с экономическими метриками интернет-магазина.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937508/
#ru
@big_data_analysis | Другие наши каналы
В отличие от классического подхода, где BI-система жестко фиксирует связи, мы реализовали модель, которая сама определяет, какие таблицы и связи нужны под конкретный дэшлет, и формирует оптимальный запрос «на лету». Это наша новая Адаптивная модель данных Luxms BI.
Я, Николай Павлов, инженер по обработке данных, и в статье мы разберём, как на практике построить такую модель на примере небольшого проекта: поднимем ClickHouse в Docker, создадим схему «снежинка» с тестовыми данными, соберём адаптивную модель и построим дэшборд с экономическими метриками интернет-магазина.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937508/
#ru
@big_data_analysis | Другие наши каналы
Развенчиваем мифы об AI-агентах: от фантазий к реальности
По мере роста возможностей искусственного интеллекта наш понятийный аппарат с трудом успевает за технологическим прогрессом. До недавнего времени под AI-ассистентами понимали чат-ботов и голосовых помощников, реагирующих на прямые пользовательские команды вроде «позвони маме», «какой рост у Леди Гаги?» или «запусти Spotify».
Сегодня в обиход входят новые термины: AI-агенты и agentic AI. Это отражает сдвиг в сторону более автономных и интеллектуальных систем, способных принимать решения. Проблема в том, что единых представлений о сути этих понятий нет, они часто используются неточно или трактуются ошибочно.
Чтобы прояснить ситуацию и разграничить хайп и реальность, мы побеседовали с техническими специалистами из разных отраслей, которые в реальной работе имеют дело с agentic-системами. В этой статье мы разбираем, что такое agentic AI и AI-агенты, приводим практические примеры, а также исследуем их перспективы и текущие ограничения.
Читать: https://habr.com/ru/articles/936390/
#ru
@big_data_analysis | Другие наши каналы
По мере роста возможностей искусственного интеллекта наш понятийный аппарат с трудом успевает за технологическим прогрессом. До недавнего времени под AI-ассистентами понимали чат-ботов и голосовых помощников, реагирующих на прямые пользовательские команды вроде «позвони маме», «какой рост у Леди Гаги?» или «запусти Spotify».
Сегодня в обиход входят новые термины: AI-агенты и agentic AI. Это отражает сдвиг в сторону более автономных и интеллектуальных систем, способных принимать решения. Проблема в том, что единых представлений о сути этих понятий нет, они часто используются неточно или трактуются ошибочно.
Чтобы прояснить ситуацию и разграничить хайп и реальность, мы побеседовали с техническими специалистами из разных отраслей, которые в реальной работе имеют дело с agentic-системами. В этой статье мы разбираем, что такое agentic AI и AI-агенты, приводим практические примеры, а также исследуем их перспективы и текущие ограничения.
Читать: https://habr.com/ru/articles/936390/
#ru
@big_data_analysis | Другие наши каналы
GlowByte запускает второй сезон образовательного онлайн-ретрита по FineBI — «Второе дыхание»!
13 дней обновленной программы с 3 новыми уроками, практическими вебинарами и призами за лучшие домашние задания.
Что ждет участников:
• Обновленные домашние задания с системой призов
• Три специальных вебинара: FineReport Pro (28 августа), AI-революция в аналитике (2 сентября), 3D-визуализация с FineVis (9 сентября)
• Успешные кейсы от Tele2, Уралсиб, Циан и других компаний
Программа для всех, кто работает с данными — от разработчиков до руководителей.
Старт 25 августа!
Регистрируйтесь по ссылке и получите второе дыхание в мире BI-аналитики.
Это #партнёрский пост
13 дней обновленной программы с 3 новыми уроками, практическими вебинарами и призами за лучшие домашние задания.
Что ждет участников:
• Обновленные домашние задания с системой призов
• Три специальных вебинара: FineReport Pro (28 августа), AI-революция в аналитике (2 сентября), 3D-визуализация с FineVis (9 сентября)
• Успешные кейсы от Tele2, Уралсиб, Циан и других компаний
Программа для всех, кто работает с данными — от разработчиков до руководителей.
Старт 25 августа!
Регистрируйтесь по ссылке и получите второе дыхание в мире BI-аналитики.
Это #партнёрский пост
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для последовательных рекомендательных систем: обзор
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает.
Читать: https://habr.com/ru/articles/938350/
#ru
@big_data_analysis | Другие наши каналы
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает.
Читать: https://habr.com/ru/articles/938350/
#ru
@big_data_analysis | Другие наши каналы
👍2❤1
Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош.
Поехали!
Читать: https://habr.com/ru/articles/938438/
#ru
@big_data_analysis | Другие наши каналы
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош.
Поехали!
Читать: https://habr.com/ru/articles/938438/
#ru
@big_data_analysis | Другие наши каналы
👍1
Токены в нейросетях. Что это и откуда берётся?
А вы задумывались, как текстовые нейросети видит текст, который мы им отправляем, если она сама мыслит цифрами?
В данной статье мы разберём как нейросеть видит текст, который мы ей отправили, познакомимся очень близко с термином ТОКЕНЫ, и даже сами создадим те самые токены на Python.
Узнать о ТОКЕНАХ
Читать: https://habr.com/ru/articles/938798/
#ru
@big_data_analysis | Другие наши каналы
А вы задумывались, как текстовые нейросети видит текст, который мы им отправляем, если она сама мыслит цифрами?
В данной статье мы разберём как нейросеть видит текст, который мы ей отправили, познакомимся очень близко с термином ТОКЕНЫ, и даже сами создадим те самые токены на Python.
Узнать о ТОКЕНАХ
Читать: https://habr.com/ru/articles/938798/
#ru
@big_data_analysis | Другие наши каналы
❤1👍1
Система метрик, или как навести порядок в голове бизнеса
Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров.
Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях...
Читать: https://habr.com/ru/articles/938912/
#ru
@big_data_analysis | Другие наши каналы
Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров.
Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях...
Читать: https://habr.com/ru/articles/938912/
#ru
@big_data_analysis | Другие наши каналы