Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
От зеленой до красной: как CatBoost помогает распознавать AML риски

Привет! Меня зовут Булат Юсупов, я бизнес-аналитик команды T2 Fintech и сегодня продолжается серия публикаций на тему разработки необычных ML моделей для B2B сегмента. Сегодня хочу рассказать вам о том, как мы построили модель для оценки рисков в рамках двух важных направлений — KYC (ЗСК, «знай своего клиента») и AML («anti money laundering»). Если говорить проще, речь пойдет о том, как определить, насколько организация или ИП могут оказаться в так называемой «желтой» или «красной» зоне по критериям, установленным ЦБ РФ. Такие зоны связаны с рисками возможного отмывания денег или недостаточно добросовестным поведением на рынке.

И, хотя это звучит в определенной степени формально, посмотрим на задачу с точки зрения практики и технологий. Ведь в современном финансовом мире, где регуляторы ужесточают требования к банкам, а объемы проверок растут, умение быстро и точно оценивать контрагентов становится критически важным.


Читать: https://habr.com/ru/companies/t2/articles/875286/

#ru

@big_data_analysis | Другие наши каналы
Быстрый матчинг товаров на маркетплейсе Wildberries

Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.


Читать: https://habr.com/ru/companies/wildberries/articles/876036/

#ru

@big_data_analysis | Другие наши каналы
Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?

Big Data в 2025. Показываем основные технологии работы с большими данными. Рассматриваем пошаговую инструкцию Tproger

Читать: «Big Data в 2025: Как изменились технологии работы с данными и что нас ждет дальше?»

#ru

@big_data_analysis | Другие наши каналы
О прогнозировании в станкостроении

Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:


Читать: https://habr.com/ru/articles/876376/

#ru

@big_data_analysis | Другие наши каналы
Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow

В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.


Читать: https://habr.com/ru/articles/876532/

#ru

@big_data_analysis | Другие наши каналы
AI в энтерпайзе

Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными. В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море. Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.


Читать: https://habr.com/ru/articles/876638/

#ru

@big_data_analysis | Другие наши каналы
Зачем в Look-a-like pseudolabelling (или самый простой метод PU-learning на службе у рекламщиков)

Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.


Читать: https://habr.com/ru/articles/876646/

#ru

@big_data_analysis | Другие наши каналы
👍2
Государственные гранты для IT-проектов или почему финансирование достаётся единицам?

В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.


Читать: https://habr.com/ru/articles/876676/

#ru

@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.

В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.


Читать: https://habr.com/ru/articles/876834/

#ru

@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.

В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.


Читать: https://habr.com/ru/companies/kaspersky/articles/876834/

#ru

@big_data_analysis | Другие наши каналы
👍2
Оценка чат-ботов LLM: основные метрики и методы тестирования

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.

В этой статье вы узнаете:

* Разницу между оценкой LLM-чат-ботов/диалогов и стандартной оценкой LLM

* Различные подходы к оценке LLM-диалогов

* Различные типы метрик для оценки LLM-чат-ботов

* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval


Читать: https://habr.com/ru/articles/876584/

#ru

@big_data_analysis | Другие наши каналы
2👍2
Как мы усовершенствовали CDP благодаря агрегатным атрибутам

Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.


Читать: https://habr.com/ru/companies/lanit/articles/875642/

#ru

@big_data_analysis | Другие наши каналы
👍2
Поддержка MDX в Luxms BI: комфортная миграция с Power BI

Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения — перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.

Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.

Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.

И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.

В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.


Читать: https://habr.com/ru/companies/luxms_bi/articles/877238/

#ru

@big_data_analysis | Другие наши каналы
👍2
Возможности для разработчиков в Oracle Analytics

Oracle Analytics предоставляет инструменты для разработчиков, позволяя анализировать производительность компонентов визуализации. Эти функции доступны пользователям с правами администратора или автора контента, что расширяет возможности анализа и оптимизации данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍2
Защита данных в Oracle Fusion Data Intelligence

Узнайте, как обеспечить безопасность ваших данных в Oracle Fusion Data Intelligence. Статья предлагает подробные шаги для скрытия конфиденциальных колонок в любой предметной области с помощью объектной безопасности. Откройте для себя эффективные методы защиты данных!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
👍2
Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос

Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.

Читать: «Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос»

#ru

@big_data_analysis | Другие наши каналы
👍2
Алгоритм k-means и метод локтя: кластеризация данных с примерами на Python

Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means.

Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.


Читать: https://habr.com/ru/companies/skillfactory/articles/877684/

#ru

@big_data_analysis | Другие наши каналы
👍2
Плюсы и минусы SUMMARIZE

При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции SUMMARIZE. Всем, кто работает с большими объемами данных, активно изучает синтаксис DAX, а также интересующимся особенностями SUMMARIZE — добро пожаловать под кат!


Читать: https://habr.com/ru/companies/visiology/articles/877770/

#ru

@big_data_analysis | Другие наши каналы
👍2
Apache Flink: использование и автоматическая проверка собственного сериализатора состояния

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитики. Это мой финальный пост про Apache Flink. В предыдущих частях мы рассматривали процессы сериализации данных, написали кастомный сериализатор, а также покрыли его тестами. В них проверялась поддержка эволюции схемы состояния. Для этого мы реализовали много удобных абстракций, связанных с перезагрузкой Flink MiniCluster, компиляцией тестовых java-классов, использованием их в classpath кластера и так далее.

В этом материале мы применим разработанный сериализатор JacksonStateSerializer в бою, а также автоматизируем проверку эволюции схемы для всех наших классов, участвующих в сериализации.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Данная статья соответствует релизной ветке с названием release/11_JacksonEvolvingState. По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

Список моих постов про Flink:


Читать: https://habr.com/ru/companies/ru_mts/articles/878070/

#ru

@big_data_analysis | Другие наши каналы
Векторизация текста в NLP: от слов к числам

Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста.

Рассказываем о векторизации подробнее вместе с экспертом.


Читать: https://habr.com/ru/companies/skillfactory/articles/878112/

#ru

@big_data_analysis | Другие наши каналы