Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Full-stack в аналитике: почему это будущее Data Science?

Привет.

Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:


Читать: https://habr.com/ru/articles/904376/

#ru

@big_data_analysis | Другие наши каналы
Хочешь умного агента? Научись оценивать его правильно

В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением.

Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности.

Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.


Читать: https://habr.com/ru/articles/902608/

#ru

@big_data_analysis | Другие наши каналы
Новая эра анализа данных с Oracle FDI

Oracle Fusion Data Intelligence представила динамические агрегатные таблицы — инновационное решение для улучшения отчетности и анализа данных. Этот инструмент оптимизирует агрегацию данных, делая запросы более эффективными и быстрыми. Узнайте, как это может преобразить ваш бизнес.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
1
Новинки Oracle Analytics Cloud: Обновление мая 2025

Oracle Analytics Cloud выпустил майское обновление 2025 года, представив ряд новых функций. Они нацелены на улучшение аналитических возможностей и повышение удобства использования платформы, предлагая пользователям более глубокий анализ данных и улучшенные инструменты визуализации.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Оптимизация работы с данными в Oracle Analytics

Oracle Analytics AI Assistant предлагает новый способ взаимодействия с наборами данных, облегчая их понимание, обмен и поиск. Оцените преимущества этой функции и как она может улучшить ваш опыт работы с Oracle Analytics.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?


Читать: https://habr.com/ru/articles/905434/

#ru

@big_data_analysis | Другие наши каналы
Как мы в PIX BI научились выжимать максимум из данных с помощью таблиц

Как мы в PIX BI приручили таблицы, чтобы выжимать максимум из данных

Когда мы думаем о таблицах, сразу приходит на ум Excel — этот старший брат всех электронных таблиц, который, несмотря на свои достоинства, часто становится… Но – давайте не будем подсвечивать ничьи недостатки, а лучше поговорим о достоинствах!  Таблицы смело можно назвать визуализацией данных еще со времен древних цивилизаций. Их использовали для учета всего — от ракушек на базаре до золотых статуй в храмах. Современные аналитики хорошо знают истинную ценность таблиц и доверяют им.

Когда мы накапливаем достаточно опыта работы с таблицами в Excel, когда исследователь, сидящий в каждом аналитике, топает ногами и требует расширения его контроля над данными, — вот тут и начинается наше путешествие в мир BI-систем.

Да, работать с таблицами в self-service системах, таких как PIX BI, удобнее, чем в Excel. Почему? Во-первых, это просто. Все элементы интерфейса интуитивно понятны. Не нужно фантазировать с формулами или изображать из себя мега-специалиста, чтобы увидеть, как растут ваши продажи. Все происходит наглядно, быстро и без лишних нервов.

Во-вторых, BI-системы предлагают интерактивность: можно легко настраивать фильтры, сортировки и даже комбинировать данные без риска испортить всю таблицу. Вся информация собирается в одном месте, как старые, дорогие сердцу игрушки — с уютом и любовью!

Итак, в этой статье я подробнее разберу, как работать с таблицами в BI и какие фишки можно использовать. Конечно, на примере продукта, который мы создаем – PIX BI. Открываем двери нового, яркого мира аналитики!


Читать: https://habr.com/ru/companies/pix_robotics/articles/905188/

#ru

@big_data_analysis | Другие наши каналы
Как из аналитики данных перейти в дата-сайентисты

Перевели и дополнили статью Марины Уисс, applied scientist (дата-сайентист со специализацией в прикладной статистике) в Twitch. Когда-то Марина перешла в IT из не связанной с технологиями сферы деятельности, а потом помогла с этим переходом многим людям без IT-бэкграунда.

В этой статье она делится советами для дата-аналитиков, которым хотелось бы заниматься data science. А мы добавили мнение экспертов и рекомендации, актуальные для российских образовательных реалий.


Читать: https://habr.com/ru/companies/netologyru/articles/905206/

#ru

@big_data_analysis | Другие наши каналы
2
Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.

Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.


Читать: https://habr.com/ru/articles/904880/

#ru

@big_data_analysis | Другие наши каналы
Искусственный интеллект в медицине: Революция в здравоохранении

Медицина быстро адаптируется к достижениям в области искусственного интеллекта (ИИ). Благодаря ИИ появляются новые возможности для диагностики, хирургии, разработки препаратов, а также для персонализированного подхода к лечению. В этой статье мы рассмотрим ведущие проекты в медицине с использованием ИИ, их достижения и прогнозы на ближайшие годы.


Читать: https://habr.com/ru/articles/906426/

#ru

@big_data_analysis | Другие наши каналы
Как мы разработали LLM-модель, которая генерирует описания товаров для пользователей Авито

Привет! Я Сергей Кляхандлер, senior DS-инженер в команде LLM Авито.

В статье рассказываю, как мы разработали ML-модель, которая автоматически генерирует описания для объявлений из категории Одежда и Обувь. Подробно расписываю, откуда мы брали данные для обучения, какую архитектуру использовали и как тренировали модель. А в конце говорю про важную часть работы — фейлы.

Статья будет полезна DS-инженерам, которые работают с мультимодальными LLM-моделями.


Читать: https://habr.com/ru/companies/avito/articles/906504/

#ru

@big_data_analysis | Другие наши каналы
Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.
Будущее трансформеров

Читать: https://habr.com/ru/articles/906610/

#ru

@big_data_analysis | Другие наши каналы
Настройка JMeter для тестирования Oracle Analytics Cloud

В статье рассматривается процесс подготовки Apache JMeter на Linux для тестирования производительности Oracle Analytics Cloud. Узнайте, как эффективно настроить JMeter, чтобы он стал надежным инструментом для анализа и оптимизации облачного решения.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Победители Oracle Analytics Data Visualization Challenge 2025

Публикация раскрывает имена 15 лауреатов престижного конкурса по визуализации данных от Oracle. Узнайте, какие проекты были признаны лучшими в 2025 году и вдохновляйтесь творческими подходами участников!

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Процент лжи

Всем привет, меня зовут Виталий, аналитик данных и автор телеграмм канала "Детектив данных" и тон поста во многом определяет этот факт.

Однажды на мой красивый дашборд пришёл руководитель одного из направлений с претензией что его направление в конкретном регионе дало минус 60 тысяч процентов - хотя на самом деле там должно быть плюс, так как показатель аналогичного периода прошлого ушёл в минуса по определённой причине.

Так и появилась, да и вскоре решилась, проблема со знаком и выявлена ошибка в элементарной формуле которую использовали все коллеги вокруг

Следующий фундаментальный вопрос который возник, и который еще предстоит решить - это как раз эти злополучные тысячи процентов - на верхних уровнях их не видно, но при накидывания фильтров в определенных разрезах эти значения ломают как и графики, так и гистограммы в таблицах. Да и кажется что такие значения - они и не нужны - все прекрасно понимают что тысячи процентов прироста - это скорее выбросы связанные с пересегментацией, возвратами и кривыми данными какого-нибудь иного вида. Мы же от нуля не можем посчитать прирост, тогда с какой стати мы должны его считать от отрицательного значения?

А пока решал проблему - сама собой и пришла идея обернуть этот "кейс" в детективный формат. Приятного чтения!

1 акт. «Минус на минус»

В один туманно-серый вечер понедельника к детективу данных в дверь постучал встревоженный дата аналитик. Он держал в руках старый учебник по математике весь исписанный формулами и процентами.
«Привет, детектив! Тут что-то не так. Я анализировал продажи по формулам из интернета и книг. Но они нас обманывали! Формула неправильная.»


Читать: https://habr.com/ru/articles/906950/

#ru

@big_data_analysis | Другие наши каналы
Что покажет бенчмарк? Оценка мультиагентных систем в действии

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.


Читать: https://habr.com/ru/articles/904904/

#ru

@big_data_analysis | Другие наши каналы
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.

В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).


Читать: https://habr.com/ru/companies/infowatch/articles/905916/

#ru

@big_data_analysis | Другие наши каналы
Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы

Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/905596/

#ru

@big_data_analysis | Другие наши каналы
Data-driven в одном iGaming проекте: когда культура работы с данными не приживается

Казалось бы, преимущества найма специалистов по данным сегодня очевидны — нанимай и принимай качественно лучшие решения. Однако на практике многие компании сталкиваются с трудностями. Предлагаю разобраться


Читать: https://habr.com/ru/articles/907282/

#ru

@big_data_analysis | Другие наши каналы
Анализ видео с помощью Oracle AI Vision

В статье рассказывается, как в пять шагов проводить анализ видео с использованием Oracle AI Vision Video Analysis и Oracle Analytics. Это удобно для быстрой и эффективной обработки видеоданных. Узнайте о современных технологиях анализа видео.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы