Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.9K subscribers
2.18K photos
110 videos
64 files
4.59K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Если начальник попросит объяснить самую большую проблему в ИИ — просто пришлите ему этот мем.😆

Библиотека дата-сайентиста #развлекалово
😁15👍4💯1
🤔 Разметка данных: строить свою команду или отдать на аутсорс?

Когда проект переходит от MVP к реальному масштабированию, встаёт классический вопрос из data-ада:
Как организовать разметку данных — собрать собственную команду или поручить всё внешним подрядчикам?


🏠 In-house команда разметки

Плюсы:
— Полный контроль над качеством и процессами.
— Можно адаптировать под особенности продукта и задачи.
— Гибкая коммуникация между разметчиками и ML-командой.

Минусы:
— Найм, обучение, менеджмент — отдельный мини-отдел.
— Медленный запуск.
— Отвлечение от основного фокуса команды.
— Требуются ресурсы и процессы, которых может не быть.

🌍 Аутсорс/вендоры

Плюсы:
— Быстрый старт.
— Нет нужды тратить время на найм и операционку.
— Масштабирование по требованию.

Минусы:
— Почти нет контроля над качеством.
— Слепая зона: сложно понять, что именно и как размечается.
— Часто дорого — особенно при специфичных или нестандартных данных.
— Есть риск получить датасет, который придётся потом переделывать вручную.

💬 Классический холивар: контроль и кастомизация против скорости и удобства. Что на практике оказалось менее болезненным?

👀 Интересны кейсы, где удалось построить гибридную модель или обойтись без выгорания всей команды.

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43
🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова.

В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️

А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.

👉 Записывайтесь на курс
🆕 Свежие новости для дата‑сайентистов

🧠 AI-бизнес
Windsurf распадается, топы уходят в Google — Google DeepMind наняла CEO Windsurf Варуна Мохана и ключевых инженеров после провала сделки OpenAI на $3 млрд.
Apple серьёзно рассматривает покупку Mistral —покупка укрепит позиции Apple в генеративном ИИ.
Mira Murati (экс-CTO OpenAI) привлекла $2B для Thinking Machines.

📈 Модели и исследования
Kimi-K2 от Moonshot AI — триллион параметров, архитектура MoE, открытый код — и обгон GPT-4 в ключевых задачах.
Gemini 2.5 – полный отчёт — новое поколение от Google: лучшее кодирование, мультимодальность, long-context reasoning.
Gemini Embedding теперь в Vertex AI и Gemini API — единая модель эмбеддингов, превосходящая предыдущие версии.
Voxtral от Mistral — открытые модели для распознавания и понимания речи.
Marin от Stanford — первая полностью открытая модель, обученная на JAX.

🛠 Инфраструктура и инструменты
NVIDIA cuda.cccl — упрощает создание быстрых GPU-алгоритмов в PyTorch.
Veo 3 теперь доступен в Gemini API — генерация видео с озвучкой, музыкой и сценарием — по одному промпту.
ChatGPT Agent — следующий шаг от OpenAI — виртуальный ассистент, выполняющий сложные задачи.

📚 Статьи и исследования
LLM Daydreaming — почему LLM не «мечтают».
Grok 4 от xAI: умный, но небезопасный.
Context Rot — почему производительность LLM падает на длинных входах.
Power Attention — новая реализация внимания.

👍 Опыт других
Matrix Reloaded: зачем дата-сайентисту линейная алгебра.
Деградация предсказаний модели: причины и методы анализа.
MCP для новичков — про Model Context Protocol.
Few-shot learning: основы и применения.
BI: 5 трендов в сфере ИИ.
ИИ на edge-устройствах — как уместить большие модели на малом железе.

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🔥2
🔥 Новый уровень CUDA в Python: знакомьтесь с `cuda.cccl`

Теперь не нужно писать кастомные CUDA-ядра или лезть в C++ — cuda.cccl позволяет собирать мощные алгоритмы на Python, используя CUB и Thrust под капотом.

Библиотека делится на:
parallel — высокоуровневые, компонуемые алгоритмы над массивами и итераторами.
cooperative — блок/варп-ориентированные примитивы для numba.cuda.

Почему быстрее:
Никакой лишней памяти — итераторы вместо массивов.
Один фьюзнутый kernel вместо четырёх.
Минимум overhead'а от Python.

Кому пригодится:
Тем, кто пишет кастомные алгоритмы над PyTorch или CuPy.
Тем, кто хочет тонкий контроль над CUDA без C++.
Тем, кто расширяет существующие библиотеки или разрабатывает свои.

Установка:
pip install cuda-cccl


👉 Подробнее: https://clc.to/4qFCRQ

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2❤‍🔥1
🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам.

С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.

-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)

Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.

📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA
👨‍💻 Топ-вакансий для дата-сайентистов за неделю

Senior ML Engineer (Voice Products) —‍ от 6 000 до 8 000 $, удалёнка

Data Scientist (Middle) —‍ до 180 000 ₽, удалёнка

Senior Data Engineer (FinTech) —‍ до 440 000 ₽, удалёнка

Senior Data Scientist, гибрид (Сербия)

Data Scientist (Data Monetization) —‍ от 350 000 ₽, удалёнка

Специалист поддержки ML —‍ от 250 000 до 320 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁1
⚫️ 3 стратегии, которые реально улучшают детекцию аномалий

Многие алгоритмы обнаружения аномалий предполагают, что у вас нет разметки. Но в реальной жизни это не так — почти всегда есть хотя бы несколько размеченных примеров. Например, из прошлых расследований, или эксперт отметил вручную.

🔎 И вот в чём парадокс: большинство методик игнорируют эти ценные метки. А ведь даже пара штук — это уже ресурс.

В этом посте — три практические стратегии:

1️⃣ Настройка порога (threshold tuning)

Идея простая: если у вас есть хотя бы несколько размеченных аномалий — порог можно настраивать не на глаз, а по данным.

Для этого:
1. Обучите модель на обычных (нормальных) данных.
2. Выберите порог:
🔎 Если есть только нормальные примеры → возьмите максимум из них.
🔎 Если нет разметки → используйте 95-й или 99-й персентиль.
3. Посчитайте метрики на размеченных аномалиях:
🔎 Recall
🔎 Precision
🔎 Recall\@k (если смотрите только топ-k тревог)

Лайфхак:
Если у вас мало размеченных аномалий, метрики могут быть нестабильны. Используйте бутстрап, чтобы получить доверительный интервал и понять, насколько метрике можно доверять.


2️⃣ Выбор модели (model selection)

А как выбрать алгоритм, который вообще лучше работает с вашими аномалиями?

Используйте разметку для объективного сравнения моделей:
1. Обучите модель без аномалий.
2. Посчитайте персентиль каждого размеченного примера по скору. Если аномалия на 99-м персентиле — отлично.
3. Возьмите среднее значение всех таких персентилей. Чем выше — тем лучше модель видит ваши реальные аномалии.

Лайфхак:
Можно сравнивать не только алгоритмы (Isolation Forest vs GMM), но и гиперпараметры внутри одного метода.
А ещё — использовать это для построения ансамбля, выбрав в него только те модели, которые реально ловят ваши аномалии.


3️⃣ Супервизорный ансамбль (supervised ensembling)

Это уже активное использование разметки: вы строите мета-классификатор на основе выходов нескольких детекторов.

Для этого:
1. Обучаем разные детекторы (например, Isolation Forest, GMM, PCA).
2. Для каждого объекта собираем вектор из скоров этих моделей:
X_i = [iForest_score, GMM_score, PCA_score]


3. Используем размеченные аномалии как метки и обучаем классификатор (например, XGBoost).

На выходе получаем мета-модель, которая учится, как ведут себя аномалии в разных детекторах. Она совмещает их сильные стороны и делает вывод: аномалия это или нет.


Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Технологии, железо и роботы на Yandex Robotics Day уже 16 августа!

На складах Маркета, Леманы Про, Перекрестка, Лавки и других компаний работают роботы Яндекса, которые помогают быстро сканировать товары, собирать посылки и перемещать заказы. Чтобы все функционировало быстро и точно, специалисты Яндекс Роботикс постоянно улучшают их.

16 августа в Москве пройдет митап, на котором они расскажут, как именно это делают:
— Серёжа Стариков выступит с докладом про коммуникационную платформу Yandex Robotics и ее применение в Yandex RMS
— Дима Мовчан объяснит, как команда создает умную роборуку с помощью imitation learning и RL
— Максим Пшибло расскажет, как с помощью Yandex Robotics Management System управлять несколькими роботами и какие алгоритмы необходимы этой системе

Кроме докладов в программе презентация нового робота, выставка тех, которые уже вовсю работают на складах, нетворкинг и неформальное афтепати с экспертами Яндекс Роботикс.

Регистрируйтесь и зовите коллег!

Мероприятие бесплатное. Количество мест в офлайне ограничено — пожалуйста, дождитесь нашего подтверждения в почте.

Реклама. ООО «Яндекс.Маркет» ИНН 9704254424
4👍3🤩1
⚡️ Мы запускаем онлайн-курс по машинному обучению для Data Science.

Хочешь войти в Data Science, но не знаешь, с чего начать?
А может, ты уже в теме, но чувствуешь, что знаний не хватает?

Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения.

Что внутри:
— от линейных моделей и градиентного спуска до бустинга и рекомендательных систем
— реальные примеры, практика, задачи и живая менторская поддержка
— всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах

Ведет курс Мария Жарова:
ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy

🎁 По промокоду Earlybird — скидка 10.000 рублей, только до 27 июля.

Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас.

👉 Записаться на курс
🔎 Kaggle запускает Benchmarks — открытую платформу для оценки AI-моделей

Сегодня Kaggle представил Kaggle Benchmarks — новую платформу, где можно тестировать AI-модели на ведущих академических бенчмарках бесплатно и без сложной настройки.

Kaggle собрал более 70 академических бенчмарков от ведущих исследовательских лабораторий, включая код, данные и методики оценки, чтобы воспроизводить результаты независимо и прозрачно.

Появилась возможность (пока в превью) создавать собственные бенчмарки и автоматически запускать их на популярных LLM-моделях. То есть можно тестировать свои модели или сравнивать чужие в один клик.

Вместе с релизом вышли два крупных бенчмарка:
— Meta Multiloko — масштабный мультиязычный бенчмарк от Meta.
— ICML 2025 Experts Benchmark — crowdsourced-набор задач от участников ICML, отражающий реальные вызовы, с которыми сталкиваются ML-исследователи.

🔗 Подробнее: https://clc.to/YpUQkA

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
Declarative Data Infrastructure для мультимодальных AI-приложений

😩 Создание и поддержка продакшн AI-приложений, особенно мультимодальных, остаётся сложной задачей.

Нужно объединить множество инструментов:
— ETL-пайплайны для загрузки и преобразования данных
— Векторные базы для семантического поиска
— Feature store для ML-моделей
— Оркестраторы для планирования задач
— Инфраструктуру для запуска моделей
— Отдельные системы для параллелизации, кэширования, версионирования и отслеживания данных

Pixeltable — единственный Python-фреймворк, который обеспечивает инкрементальное хранение, трансформацию, индексацию и оркестрацию ваших мультимодальных данных.

Установка:
pip install pixeltable  


Pixeltable позволяет описать весь ваш data pipeline и AI workflow декларативно — через вычисляемые колонки в таблицах.

Движок автоматически обрабатывает:
✔️ Загрузку и хранение данных (файлы изображений, видео, аудио, документы)
✔️ Трансформации и обработку с помощью Python-функций и встроенных операций
✔️ Интеграцию AI-моделей (эмбеддинги, детекция объектов, LLM)
✔️ Индексацию и поиск — в том числе векторный семантический поиск
✔️ Инкрементальные вычисления: пересчитываются только изменённые части
✔️ Версионирование и отслеживание изменений для воспроизводимости

Ссылка на документацию: https://clc.to/919J-A

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
⁉️ Хотите узнать, как устроен рабочий процесс в ML и получить базовые навыки работы с данными?

23 июля в 20:00 МСК OTUS проводит открытый урок «ML для начинающих – первые шаги с Jupyter Notebook». Вас ждёт:

– Обзор этапов машинного обучения: от подготовки данных до первой модели.
– Настройка виртуального окружения для изоляции экспериментов.
– Знакомство с Jupyter Notebook: анализ, визуализация, код и Markdown вместе.

Этот урок — идеальная отправная точка перед стартом курса «Специализация Machine Learning». Все участники получат скидку на обучение.

➡️ Зарегистрироваться

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576