Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Join таблиц в реальном времени на Apache Flink

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join, а также паттерны дедупликации. Уделено внимание использованиюKeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.


Читать: https://habr.com/ru/articles/907664/

#ru

@big_data_analysis | Другие наши каналы
Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу

Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ.

Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее...


Читать: https://habr.com/ru/companies/datafeel/articles/907412/

#ru

@big_data_analysis | Другие наши каналы
Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.


Читать: https://habr.com/ru/articles/908220/

#ru

@big_data_analysis | Другие наши каналы
База для аналитики данных. Как получать данные?

Я убеждён в том, что аналитикам данных критически-важно иметь доступ без боли, искажений и рисков к наиболее детализированным данным проекта для исполнения своих обязанностей..
Нет данных - нет мультиков аналитики. Работа только с агрегированными и преобразованными по непрозрачной логике данными приводит к ошибкам и отсутствию доверия от бизнеса.
Статья может быть полезна к изучению при принятии решений о развитии аналитики с 0 в проекте.

К сожалению, вопросу получения данных часто не уделяется хоть какое-то внимание.
Бизнесу интересно не получение данных, а инсайты и рекомендации. Принято отдавать этот вопрос на откуп аналитикам и взаимодействию аналитиков и IT. Только у аналитиков редко есть опыт и понимание лучших практик по работе с данными и для IT задача использования данных аналитиками может быть чем-то чужеродным.

Тем не менее, как-то они договариваются. Не сталкивался с примерами, когда совсем не договорились и никакой аналитики нет.
Сталкивался с разными вариантами урона от реализации.
Что там за варианты

Читать: https://habr.com/ru/articles/908230/

#ru

@big_data_analysis | Другие наши каналы
Что такое MLFlow и как он помогает в разработке моделей

Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow.


Читать: https://habr.com/ru/articles/908618/

#ru

@big_data_analysis | Другие наши каналы
👍3
Подготовка Oracle Analytics Cloud к нагрузочному тестированию с Apache JMeter

В статье рассказывается, как корректно настроить Oracle Analytics Cloud для проведения производительного тестирования с помощью Apache JMeter. Этот материал поможет понять ключевые этапы подготовки и оптимизации платформы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Персонализация отчетов в OAC: как пользователи могут сохранять фильтры с помощью функции custom states. Узнайте, как эта возможность помогает улучшить рабочие процессы и адаптировать отчеты под свои нужды без дополнительных настроек.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Oracle Analytics объявила послов 2025 года

В Oracle Analytics назвали своих послов 2025 года — активных участников сообщества, которые вдохновляют, помогают коллегам и продвигают развитие аналитики. Их вклад признан за полезные идеи и поддержку пользователей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Ну ты это, заходи если чё: как сделать единую систему авторизации в корпоративных ботах

Привет, Хабр! На связи команда данных «МосТрансПроекта». Недавно мы рассказывали про бот «Информатум», в котором хранятся служебные презентации. При разработке системы мы уделили особое внимание защите чувствительной информации. Поэтому доступ к материалам предоставляется сотрудникам только после авторизации и подтверждения их данных. Но что, если появится еще несколько ботов? Неужели сотрудникам придется каждый раз проходить проверку для доступа к новым сервисам, а администраторам тратить время на верификацию? Для решения этой задачи мы разработали универсальное и экономящее время решение, о котором расскажем в данной статье.


Читать: https://habr.com/ru/companies/mostransproekt/articles/907336/

#ru

@big_data_analysis | Другие наши каналы
Ну ты это, заходи если чё: как сделать единую систему авторизации в корпоративных ботах

Привет, Хабр! На связи команда данных «МосТрансПроекта». Недавно мы рассказывали про бот «Информатум», в котором хранятся служебные презентации. При разработке системы мы уделили особое внимание защите чувствительной информации. Поэтому доступ к материалам предоставляется сотрудникам только после авторизации и подтверждения их данных. Но что, если появится еще несколько ботов? Неужели сотрудникам придется каждый раз проходить проверку для доступа к новым сервисам, а администраторам тратить время на верификацию? Для решения этой задачи мы разработали универсальное и экономящее время решение, о котором расскажем в данной статье.


Читать: https://habr.com/ru/companies/mostransproekt/articles/907334/

#ru

@big_data_analysis | Другие наши каналы
👍2
Пакетная репликация данных в аналитическом ландшафте ХД

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.


Читать: https://habr.com/ru/companies/datasapience/articles/908882/

#ru

@big_data_analysis | Другие наши каналы
Федеративное обучение: потенциал, ограничения и экономические реалии внедрения

Федеративное обучение (Federated Learning, FL) становится всё более заметным элементом технологической повестки в условиях ужесточающихся требований к конфиденциальности данных и законодательных ограничений на их передачу. На прошлой неделе при поддержке канала @noml_community мы поговорили с коллегами (Дмитрий Маслов, Михаил Фатюхин, Денис Афанасьев, Евгений Попов, Роман Постников, Павел Снурницын) о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.

https://www.youtube.com/watch?v=JpApLfde38I&list=WL&index=1&t=12s

Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.


Читать: https://habr.com/ru/articles/909014/

#ru

@big_data_analysis | Другие наши каналы
Как научить ИИ обслуживать клиентов не хуже человека?

Новость о мощи ChatGPT прогремела уже более двух лет назад, однако крупные компании ещё до сих пор полностью не автоматизировали поддержку клиентов. В этой статье разберём на пальцах, какие данные и надстройки нужны для больших языковых моделей, как сделать так, чтобы внедрение было экономически целесообразным и, наконец, что делать с чат-ботами прошлого поколения.


Читать: https://habr.com/ru/companies/alfa/articles/904028/

#ru

@big_data_analysis | Другие наши каналы
LLM-судья: как LLM отсекает правду от лжи?

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM.

Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов.

Оценивать сгенерированные тексты сложно, будь то «простой» саммари или диалог с чат-ботом. Метрики типа accuracy плохо работают, поскольку «правильный» ответ может быть сформулирован множеством способов, не обязательно совпадающих с образцом. Кроме того, стиль или тон — субъективные характеристики, которые сложно формализовать.

Люди способны учитывать такие нюансы, но ручная проверка каждого ответа плохо масштабируется. В качестве альтернативы появилась техника LLM-as-a-judge: для оценки сгенерированных текстов используются сами LLM. Интересно, что LLM одновременно являются и источником проблемы, и её решением!


Читать: https://habr.com/ru/articles/905728/

#ru

@big_data_analysis | Другие наши каналы
👍1
Путь в AI: от студента до инженера, исследователя или разработчика

Привет, Хабр! Меня зовут Анна Щеникова. Я работаю AI-инженером в Центре RnD МТС Web Services и параллельно лидирую магистерскую программу «Исследования и предпринимательство в искусственном интеллекте» ВШЭ. В МТС занимаюсь всем, что связано с моделями: вместе с коллегами тестирую гипотезы про агентов и мультимодельные подходы.

Переход от студенческой жизни к профессиональной деятельности — важный и сложный этап. Это первые серьезные шаги в карьере, первое понимание, как применить полученные знания в реальном бизнесе.

Я прошла этот путь несколько раз: сначала сама, а потом помогая магистрантам в ВШЭ. Так я увидела, какие ключевые точки нужно проработать, чтобы комфортно и весело перейти от теории к реальным бизнес-задачам. В этом посте расскажу о своем опыте перехода к полноценной работе и поделюсь видением того, что будет актуальным в сфере AI в ближайшем будущем. Надеюсь, это поможет кому-нибудь правильно спланировать карьеру.


Читать: https://habr.com/ru/companies/ru_mts/articles/909316/

#ru

@big_data_analysis | Другие наши каналы
Управление отставанием lag в Kafka Consumers: как не просто замерить, а стабилизировать

Привет, Хабр!

Сегодня рассмотрим, почему отставание у Kafka-консьюмеров — это не просто строчка в kafka-consumer-groups, а метрика, от которой зависит SLA вашего сервиса. Рассмотрим, как её считать без самообмана, как соорудить собственный мониторинг на Python и Go, а главное — чем именно тушить всплески lag’а: throttle, autoscale и backpressure.


Читать: https://habr.com/ru/companies/otus/articles/905804/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов

В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования ускорить обработку данных, как правильно настраивать оконные функции и запускать множество небольших Spark-приложений внутри одного процесса для экономии ресурсов.

Привет, Хабр! Меня зовут Александр Маркачев и я — Data Engineer команды Голосовой Антифрод в билайн. Расскажу, как борьба с мошенниками может обернуться личным вызовом.

Все техники сопровождаются объяснениями, примерами и рекомендациями для самостоятельного повторения.


Читать: https://habr.com/ru/companies/beeline_tech/articles/909506/

#ru

@big_data_analysis | Другие наши каналы
Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем

Почему, по данным экспертов GlowByte, целых 80% проектов внедрения систем бизнес-аналитики выходят за рамки изначально запланированного бюджета? Ответ парадоксально прост и сложен одновременно: компании систематически недооценивают реальную совокупную стоимость владения BI-системами. Наши наблюдения показывают, что большинство заказчиков концентрируются исключительно на очевидных статьях расходов, игнорируя множество "скрытых" факторов, которые неизбежно проявляются по мере развития проекта.

За годы работы с десятками проектов внедрения аналитических систем мы в GlowByte выявили закономерность — даже опытные ИТ-директора порой не учитывают до 40% реальных затрат при планировании бюджета на BI-инициативы. В этой статье я поделюсь инсайтами о наиболее типичных "финансовых ловушках", которые подстерегают компании на этом пути.


Читать: https://habr.com/ru/companies/glowbyte/articles/909656/

#ru

@big_data_analysis | Другие наши каналы
Внедрение программного обеспечения Экстрактор 1С в компании Level Group: результаты и перспективы

Компания обратилась к нам для решения задачи по сокращению времени получения данных и оптимизации работы команды разработки 1С.

Level Group – один из ведущих застройщиков бизнес-класса в Москве.

За три года компания утроила свои масштабы, достигнув оборота в 100 миллиардов рублей в 2024 году.

Отличительные черты Level Group – это современные и стильные жилые комплексы, продуманные планировки квартир и оригинальные дизайнерские решения.


Читать: https://habr.com/ru/articles/910256/

#ru

@big_data_analysis | Другие наши каналы
Как превратить видеоанализ трафика в информативную панель

Статья рассказывает, как преобразовать данные из OCI Vision Video Analysis в удобную дашборд-систему. Это помогает легко визуализировать важные паттерны и тренды, полученные при анализе дорожного видео.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы