Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.

Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.


Читать: https://habr.com/ru/articles/904880/

#ru

@big_data_analysis | Другие наши каналы
Искусственный интеллект в медицине: Революция в здравоохранении

Медицина быстро адаптируется к достижениям в области искусственного интеллекта (ИИ). Благодаря ИИ появляются новые возможности для диагностики, хирургии, разработки препаратов, а также для персонализированного подхода к лечению. В этой статье мы рассмотрим ведущие проекты в медицине с использованием ИИ, их достижения и прогнозы на ближайшие годы.


Читать: https://habr.com/ru/articles/906426/

#ru

@big_data_analysis | Другие наши каналы
Как мы разработали LLM-модель, которая генерирует описания товаров для пользователей Авито

Привет! Я Сергей Кляхандлер, senior DS-инженер в команде LLM Авито.

В статье рассказываю, как мы разработали ML-модель, которая автоматически генерирует описания для объявлений из категории Одежда и Обувь. Подробно расписываю, откуда мы брали данные для обучения, какую архитектуру использовали и как тренировали модель. А в конце говорю про важную часть работы — фейлы.

Статья будет полезна DS-инженерам, которые работают с мультимодальными LLM-моделями.


Читать: https://habr.com/ru/companies/avito/articles/906504/

#ru

@big_data_analysis | Другие наши каналы
Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.
Будущее трансформеров

Читать: https://habr.com/ru/articles/906610/

#ru

@big_data_analysis | Другие наши каналы
Настройка JMeter для тестирования Oracle Analytics Cloud

В статье рассматривается процесс подготовки Apache JMeter на Linux для тестирования производительности Oracle Analytics Cloud. Узнайте, как эффективно настроить JMeter, чтобы он стал надежным инструментом для анализа и оптимизации облачного решения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Победители Oracle Analytics Data Visualization Challenge 2025

Публикация раскрывает имена 15 лауреатов престижного конкурса по визуализации данных от Oracle. Узнайте, какие проекты были признаны лучшими в 2025 году и вдохновляйтесь творческими подходами участников!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Процент лжи

Всем привет, меня зовут Виталий, аналитик данных и автор телеграмм канала "Детектив данных" и тон поста во многом определяет этот факт.

Однажды на мой красивый дашборд пришёл руководитель одного из направлений с претензией что его направление в конкретном регионе дало минус 60 тысяч процентов - хотя на самом деле там должно быть плюс, так как показатель аналогичного периода прошлого ушёл в минуса по определённой причине.

Так и появилась, да и вскоре решилась, проблема со знаком и выявлена ошибка в элементарной формуле которую использовали все коллеги вокруг

Следующий фундаментальный вопрос который возник, и который еще предстоит решить - это как раз эти злополучные тысячи процентов - на верхних уровнях их не видно, но при накидывания фильтров в определенных разрезах эти значения ломают как и графики, так и гистограммы в таблицах. Да и кажется что такие значения - они и не нужны - все прекрасно понимают что тысячи процентов прироста - это скорее выбросы связанные с пересегментацией, возвратами и кривыми данными какого-нибудь иного вида. Мы же от нуля не можем посчитать прирост, тогда с какой стати мы должны его считать от отрицательного значения?

А пока решал проблему - сама собой и пришла идея обернуть этот "кейс" в детективный формат. Приятного чтения!

1 акт. «Минус на минус»

В один туманно-серый вечер понедельника к детективу данных в дверь постучал встревоженный дата аналитик. Он держал в руках старый учебник по математике весь исписанный формулами и процентами.
«Привет, детектив! Тут что-то не так. Я анализировал продажи по формулам из интернета и книг. Но они нас обманывали! Формула неправильная.»


Читать: https://habr.com/ru/articles/906950/

#ru

@big_data_analysis | Другие наши каналы
Что покажет бенчмарк? Оценка мультиагентных систем в действии

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.


Читать: https://habr.com/ru/articles/904904/

#ru

@big_data_analysis | Другие наши каналы
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.

В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).


Читать: https://habr.com/ru/companies/infowatch/articles/905916/

#ru

@big_data_analysis | Другие наши каналы
Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы

Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/905596/

#ru

@big_data_analysis | Другие наши каналы
Data-driven в одном iGaming проекте: когда культура работы с данными не приживается

Казалось бы, преимущества найма специалистов по данным сегодня очевидны — нанимай и принимай качественно лучшие решения. Однако на практике многие компании сталкиваются с трудностями. Предлагаю разобраться


Читать: https://habr.com/ru/articles/907282/

#ru

@big_data_analysis | Другие наши каналы
Анализ видео с помощью Oracle AI Vision

В статье рассказывается, как в пять шагов проводить анализ видео с использованием Oracle AI Vision Video Analysis и Oracle Analytics. Это удобно для быстрой и эффективной обработки видеоданных. Узнайте о современных технологиях анализа видео.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
DBT: трансформация данных без боли

Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент трансформации данных — DBT (Data Build Tool).

Сегодня любой средний и крупный бизнес хранит множество данных в разрозненных источниках (CRM, ERP, HRM, базы данных, файловые хранилища и т.д.). Каждая из этих систем самодостаточна и закрывает определённую боль бизнеса, но собрав данные из таких источников и стандартизировав их, нам открывается возможность анализировать данные, строить модели машинного обучения и принимать на основе этих данных управленческие решения. Для того чтобы реализовать такой подход строятся ELT (или ETL) процессы. ELT (Extract, Load, Transform) — это процесс, состоящий из трех этапов:


Читать: https://habr.com/ru/articles/907540/

#ru

@big_data_analysis | Другие наши каналы
Дообучение моделей на своих данных — просто и эффективно

В мире ИИ сложился миф, что для эффективной работы с языковыми моделями нужны огромные вычислительные мощности и команда дорогих специалистов. Но правда в том, что сегодня даже небольшая компания или отдельный разработчик могут создавать умные решения, адаптированные под свои нужды.


Читать: https://habr.com/ru/articles/907542/

#ru

@big_data_analysis | Другие наши каналы
Join таблиц в реальном времени на Apache Flink

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join, а также паттерны дедупликации. Уделено внимание использованиюKeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.


Читать: https://habr.com/ru/articles/907664/

#ru

@big_data_analysis | Другие наши каналы
Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу

Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ.

Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее...


Читать: https://habr.com/ru/companies/datafeel/articles/907412/

#ru

@big_data_analysis | Другие наши каналы
Join таблиц в реальном времени на Apache Flink ( Часть 2 )

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.


Читать: https://habr.com/ru/articles/908220/

#ru

@big_data_analysis | Другие наши каналы
База для аналитики данных. Как получать данные?

Я убеждён в том, что аналитикам данных критически-важно иметь доступ без боли, искажений и рисков к наиболее детализированным данным проекта для исполнения своих обязанностей..
Нет данных - нет мультиков аналитики. Работа только с агрегированными и преобразованными по непрозрачной логике данными приводит к ошибкам и отсутствию доверия от бизнеса.
Статья может быть полезна к изучению при принятии решений о развитии аналитики с 0 в проекте.

К сожалению, вопросу получения данных часто не уделяется хоть какое-то внимание.
Бизнесу интересно не получение данных, а инсайты и рекомендации. Принято отдавать этот вопрос на откуп аналитикам и взаимодействию аналитиков и IT. Только у аналитиков редко есть опыт и понимание лучших практик по работе с данными и для IT задача использования данных аналитиками может быть чем-то чужеродным.

Тем не менее, как-то они договариваются. Не сталкивался с примерами, когда совсем не договорились и никакой аналитики нет.
Сталкивался с разными вариантами урона от реализации.
Что там за варианты

Читать: https://habr.com/ru/articles/908230/

#ru

@big_data_analysis | Другие наши каналы
Что такое MLFlow и как он помогает в разработке моделей

Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow.


Читать: https://habr.com/ru/articles/908618/

#ru

@big_data_analysis | Другие наши каналы
👍3
Подготовка Oracle Analytics Cloud к нагрузочному тестированию с Apache JMeter

В статье рассказывается, как корректно настроить Oracle Analytics Cloud для проведения производительного тестирования с помощью Apache JMeter. Этот материал поможет понять ключевые этапы подготовки и оптимизации платформы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы