Как построить эффективную MDM-систему для бизнеса - рассказываем на Сезоне MDM
В этой серии видео-вебинаров вы узнаете, как определить ключевые бизнес-задачи и настроить MDM-систему. Вас будут ждать живые демо и экспертные мнения о реальной ценности MDM. Первые три выпуска уже доступны для просмотра на VK видео и Rutube!
Не пропустите - впереди еще три серии. Подписывайтесь на чат-бота в телеграм, чтобы получать уведомления о новых выпусках!
Реклама
О рекламодателе
В этой серии видео-вебинаров вы узнаете, как определить ключевые бизнес-задачи и настроить MDM-систему. Вас будут ждать живые демо и экспертные мнения о реальной ценности MDM. Первые три выпуска уже доступны для просмотра на VK видео и Rutube!
Не пропустите - впереди еще три серии. Подписывайтесь на чат-бота в телеграм, чтобы получать уведомления о новых выпусках!
Реклама
О рекламодателе
ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления
ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных
Читать: https://habr.com/ru/articles/937196/
#ru
@big_data_analysis | Другие наши каналы
ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных
Читать: https://habr.com/ru/articles/937196/
#ru
@big_data_analysis | Другие наши каналы
Как государственная служба Великобритании оптимизирует управление данными
Один из крупнейших британских органов здравоохранения использует Oracle Fusion Data Intelligence для анализа данных, что помогает улучшить управление финансами, кадровыми ресурсами и цепочками поставок.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Один из крупнейших британских органов здравоохранения использует Oracle Fusion Data Intelligence для анализа данных, что помогает улучшить управление финансами, кадровыми ресурсами и цепочками поставок.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Новая интеграция объединяет мощные аналитические возможности Databricks с удобной платформой визуализации OAC, дополненной искусственным интеллектом для запросов на естественном языке. Это открывает новые горизонты для эффективного анализа данных в организациях.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
❤2
Выбираем архитектуру данных для компании: руководство от дата-инженера
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов.
Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.
Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/937470/
#ru
@big_data_analysis | Другие наши каналы
Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов.
Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.
Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.
Читать: https://habr.com/ru/companies/magnus-tech/articles/937470/
#ru
@big_data_analysis | Другие наши каналы
👍2
Как выбрать облако под стартап: от серверов до биллинга
Запускаете стартап? Разбираем, какое облако подойдет под ваш проект — подборка платформ.
Читать: «Как выбрать облако под стартап: от серверов до биллинга»
#ru
@big_data_analysis | Другие наши каналы
Запускаете стартап? Разбираем, какое облако подойдет под ваш проект — подборка платформ.
Читать: «Как выбрать облако под стартап: от серверов до биллинга»
#ru
@big_data_analysis | Другие наши каналы
7 взаимозаменяемых решений, которые мгновенно ускорят ваши рабочие процессы Data Science на Python
Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.
Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.
Читать: https://habr.com/ru/articles/937542/
#ru
@big_data_analysis | Другие наши каналы
Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.
Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.
Читать: https://habr.com/ru/articles/937542/
#ru
@big_data_analysis | Другие наши каналы
Газпромбанк.Тех и Научно-технологический университет «Сириус» запускают интенсив по анализу данных и машинному обучению
Газпромбанк.Тех совместно с Научно-технологическим университетом «Сириус» объявляет о старте отбора на образовательный интенсив для будущих специалистов в области анализа данных и машинного обучения. Участие в программе полностью бесплатное.
Читать: «Газпромбанк.Тех и Научно-технологический университет «Сириус» запускают интенсив по анализу данных и машинному обучению»
#ru
@big_data_analysis | Другие наши каналы
Газпромбанк.Тех совместно с Научно-технологическим университетом «Сириус» объявляет о старте отбора на образовательный интенсив для будущих специалистов в области анализа данных и машинного обучения. Участие в программе полностью бесплатное.
Читать: «Газпромбанк.Тех и Научно-технологический университет «Сириус» запускают интенсив по анализу данных и машинному обучению»
#ru
@big_data_analysis | Другие наши каналы
WAP паттерн в data-engineering
Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.
Читать: https://habr.com/ru/articles/937738/
#ru
@big_data_analysis | Другие наши каналы
Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.
Читать: https://habr.com/ru/articles/937738/
#ru
@big_data_analysis | Другие наши каналы
Адаптивная модель данных в Luxms BI: когда BI сам понимает, что ты хочешь
В этой статье расскажем про новую адаптивную модель данных в Luxms BI. Мы реализовали подход, при котором модель сама понимает, какие таблицы и связи нужны под конкретный дэшборд, и строит оптимальный SQL-запрос. Это делает аналитику быстрее, а работу с данными — действительно self-service.
Расскажем как это работает, чем отличается от старого подхода и какие преимущества дает аналитикам и бизнесу.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937490/
#ru
@big_data_analysis | Другие наши каналы
В этой статье расскажем про новую адаптивную модель данных в Luxms BI. Мы реализовали подход, при котором модель сама понимает, какие таблицы и связи нужны под конкретный дэшборд, и строит оптимальный SQL-запрос. Это делает аналитику быстрее, а работу с данными — действительно self-service.
Расскажем как это работает, чем отличается от старого подхода и какие преимущества дает аналитикам и бизнесу.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937490/
#ru
@big_data_analysis | Другие наши каналы
Пример использования Адаптивной модели Luxms BI
В отличие от классического подхода, где BI-система жестко фиксирует связи, мы реализовали модель, которая сама определяет, какие таблицы и связи нужны под конкретный дэшлет, и формирует оптимальный запрос «на лету». Это наша новая Адаптивная модель данных Luxms BI.
Я, Николай Павлов, инженер по обработке данных, и в статье мы разберём, как на практике построить такую модель на примере небольшого проекта: поднимем ClickHouse в Docker, создадим схему «снежинка» с тестовыми данными, соберём адаптивную модель и построим дэшборд с экономическими метриками интернет-магазина.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937508/
#ru
@big_data_analysis | Другие наши каналы
В отличие от классического подхода, где BI-система жестко фиксирует связи, мы реализовали модель, которая сама определяет, какие таблицы и связи нужны под конкретный дэшлет, и формирует оптимальный запрос «на лету». Это наша новая Адаптивная модель данных Luxms BI.
Я, Николай Павлов, инженер по обработке данных, и в статье мы разберём, как на практике построить такую модель на примере небольшого проекта: поднимем ClickHouse в Docker, создадим схему «снежинка» с тестовыми данными, соберём адаптивную модель и построим дэшборд с экономическими метриками интернет-магазина.
Читать: https://habr.com/ru/companies/luxms_bi/articles/937508/
#ru
@big_data_analysis | Другие наши каналы
Развенчиваем мифы об AI-агентах: от фантазий к реальности
По мере роста возможностей искусственного интеллекта наш понятийный аппарат с трудом успевает за технологическим прогрессом. До недавнего времени под AI-ассистентами понимали чат-ботов и голосовых помощников, реагирующих на прямые пользовательские команды вроде «позвони маме», «какой рост у Леди Гаги?» или «запусти Spotify».
Сегодня в обиход входят новые термины: AI-агенты и agentic AI. Это отражает сдвиг в сторону более автономных и интеллектуальных систем, способных принимать решения. Проблема в том, что единых представлений о сути этих понятий нет, они часто используются неточно или трактуются ошибочно.
Чтобы прояснить ситуацию и разграничить хайп и реальность, мы побеседовали с техническими специалистами из разных отраслей, которые в реальной работе имеют дело с agentic-системами. В этой статье мы разбираем, что такое agentic AI и AI-агенты, приводим практические примеры, а также исследуем их перспективы и текущие ограничения.
Читать: https://habr.com/ru/articles/936390/
#ru
@big_data_analysis | Другие наши каналы
По мере роста возможностей искусственного интеллекта наш понятийный аппарат с трудом успевает за технологическим прогрессом. До недавнего времени под AI-ассистентами понимали чат-ботов и голосовых помощников, реагирующих на прямые пользовательские команды вроде «позвони маме», «какой рост у Леди Гаги?» или «запусти Spotify».
Сегодня в обиход входят новые термины: AI-агенты и agentic AI. Это отражает сдвиг в сторону более автономных и интеллектуальных систем, способных принимать решения. Проблема в том, что единых представлений о сути этих понятий нет, они часто используются неточно или трактуются ошибочно.
Чтобы прояснить ситуацию и разграничить хайп и реальность, мы побеседовали с техническими специалистами из разных отраслей, которые в реальной работе имеют дело с agentic-системами. В этой статье мы разбираем, что такое agentic AI и AI-агенты, приводим практические примеры, а также исследуем их перспективы и текущие ограничения.
Читать: https://habr.com/ru/articles/936390/
#ru
@big_data_analysis | Другие наши каналы
GlowByte запускает второй сезон образовательного онлайн-ретрита по FineBI — «Второе дыхание»!
13 дней обновленной программы с 3 новыми уроками, практическими вебинарами и призами за лучшие домашние задания.
Что ждет участников:
• Обновленные домашние задания с системой призов
• Три специальных вебинара: FineReport Pro (28 августа), AI-революция в аналитике (2 сентября), 3D-визуализация с FineVis (9 сентября)
• Успешные кейсы от Tele2, Уралсиб, Циан и других компаний
Программа для всех, кто работает с данными — от разработчиков до руководителей.
Старт 25 августа!
Регистрируйтесь по ссылке и получите второе дыхание в мире BI-аналитики.
Это #партнёрский пост
13 дней обновленной программы с 3 новыми уроками, практическими вебинарами и призами за лучшие домашние задания.
Что ждет участников:
• Обновленные домашние задания с системой призов
• Три специальных вебинара: FineReport Pro (28 августа), AI-революция в аналитике (2 сентября), 3D-визуализация с FineVis (9 сентября)
• Успешные кейсы от Tele2, Уралсиб, Циан и других компаний
Программа для всех, кто работает с данными — от разработчиков до руководителей.
Старт 25 августа!
Регистрируйтесь по ссылке и получите второе дыхание в мире BI-аналитики.
Это #партнёрский пост
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для последовательных рекомендательных систем: обзор
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает.
Читать: https://habr.com/ru/articles/938350/
#ru
@big_data_analysis | Другие наши каналы
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает.
Читать: https://habr.com/ru/articles/938350/
#ru
@big_data_analysis | Другие наши каналы
👍2❤1
Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош.
Поехали!
Читать: https://habr.com/ru/articles/938438/
#ru
@big_data_analysis | Другие наши каналы
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
В свободном доступе уже есть самый узнаваемый Whisper, есть интересные модели GigaAM от Сбера, не так давно Т-Банк выложил в открытый доступ свою модель T-One — давайте заглянем под капот нашего внутреннего бенчмарка и посмотрим насколько кто хорош.
Поехали!
Читать: https://habr.com/ru/articles/938438/
#ru
@big_data_analysis | Другие наши каналы
👍1
Токены в нейросетях. Что это и откуда берётся?
А вы задумывались, как текстовые нейросети видит текст, который мы им отправляем, если она сама мыслит цифрами?
В данной статье мы разберём как нейросеть видит текст, который мы ей отправили, познакомимся очень близко с термином ТОКЕНЫ, и даже сами создадим те самые токены на Python.
Узнать о ТОКЕНАХ
Читать: https://habr.com/ru/articles/938798/
#ru
@big_data_analysis | Другие наши каналы
А вы задумывались, как текстовые нейросети видит текст, который мы им отправляем, если она сама мыслит цифрами?
В данной статье мы разберём как нейросеть видит текст, который мы ей отправили, познакомимся очень близко с термином ТОКЕНЫ, и даже сами создадим те самые токены на Python.
Узнать о ТОКЕНАХ
Читать: https://habr.com/ru/articles/938798/
#ru
@big_data_analysis | Другие наши каналы
❤1👍1
Система метрик, или как навести порядок в голове бизнеса
Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров.
Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях...
Читать: https://habr.com/ru/articles/938912/
#ru
@big_data_analysis | Другие наши каналы
Зачем нужен фреймворк метрик? Общий ответ – для структуризации и порядка в головах бизнеса. В своей работе в разных командах я не раз сталкивалась с желанием стейкхолдеров отслеживать все метрики сразу, хаотично, без четкого понимания, зачем это нужно. А также с последующими попытками расписать и перечислить показатели, которые им кажутся важными, и побежать к аналитикам со срочными запросом всё посчитать и добавить на дашборд. В результате часто получалась монструозная картинка, не позволяющая определиться с фокусами и, как следствие, не удовлетворяющая самих стейкхолдеров.
Ну, а если говорить более профессиональным языком, то система метрик может быть вам нужна в следующих случаях...
Читать: https://habr.com/ru/articles/938912/
#ru
@big_data_analysis | Другие наши каналы
Как адаптировать аналитику для тех, кто не хочет разбираться в графиках
Если вы управляете достаточно крупным бизнесом, вы неизбежно будете собирать аналитические данные. Вы же хотите точно понимать, почему меняются показатели продаж или какие товары будут пользоваться спросом в следующем месяце.
Звучит логично и понятно, пока вы не начнете плотно работать с цифрами и графиками. И тут, как и почти в любой сфере, кто-то рано или поздно должен был внедрить AI-ассистента. Под катом посмотрим, что из этого получилось.
Читать: https://habr.com/ru/companies/selectel/articles/938944/
#ru
@big_data_analysis | Другие наши каналы
Если вы управляете достаточно крупным бизнесом, вы неизбежно будете собирать аналитические данные. Вы же хотите точно понимать, почему меняются показатели продаж или какие товары будут пользоваться спросом в следующем месяце.
Звучит логично и понятно, пока вы не начнете плотно работать с цифрами и графиками. И тут, как и почти в любой сфере, кто-то рано или поздно должен был внедрить AI-ассистента. Под катом посмотрим, что из этого получилось.
Читать: https://habr.com/ru/companies/selectel/articles/938944/
#ru
@big_data_analysis | Другие наши каналы
Многофакторное сравнение пяти популярных вычислительных движков для больших данных
Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.
Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»
#ru
@big_data_analysis | Другие наши каналы
Эволюция от Hadoop к cloud‑native и ИИ‑архитектурам. Многомерное сравнение Spark, Presto, Trino, ClickHouse и StarRocks по скорости, масштабируемости, кэшам, SQL/Python, HA и др.
Читать: «Многофакторное сравнение пяти популярных вычислительных движков для больших данных»
#ru
@big_data_analysis | Другие наши каналы
👍1