Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.63K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🎯 Промпт для анализа и улучшения мониторинга ML-моделей в продакшене

Хотите вовремя замечать деградацию моделей и реагировать на изменения? Этот промпт поможет оптимизировать систему мониторинга и алертов.

✍️ Промпт:
Проанализируй текущий мониторинг ML-моделей в продакшене.
Опиши, как настроены: сбор метрик, детекция дрейфа данных и моделей, оповещения.
Дай рекомендации по:
• Инструментам для мониторинга (Prometheus, Grafana, Evidently, WhyLabs и др.)
• Метрикам и порогам для алертов
• Автоматической реакции на аномалии
• Логированию и трассировке ошибок
• Визуализации и отчетности


📌 Что получите:
• Аудит текущей системы мониторинга
• Конкретные шаги и инструменты для улучшения
• План для своевременного обнаружения и устранения проблем

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥1😁1🥱1
📬 «Кажется, я слишком рано начинаю кодить…» — история подписчика

«Работая в ML, начинаю понимать, что недостаточно времени уделяю именно дизайну задачи. Часто сразу перехожу к моделированию, а потом сталкиваюсь с проблемами: не продумано, как формировать обучающую и тестовую выборки, где брать фичи, какие модели подойдут, как организовать пайплайн, чтобы результат можно было внедрить. И всё приходится переделывать заново».


На самом деле, вы не одиноки. Такой подход — распространённая ловушка даже среди опытных специалистов. Почему так происходит?

▶️ Потому что этап проектирования ML-задачи часто воспринимается как «бумажная работа», хотя именно он отличает эксперимент в ноутбуке от реальной работающей системы, внедрённой в продукт.

На что стоит обратить внимание до начала разработки

1⃣ Как устроены ваши данные?

— Есть ли временная структура? Тогда нельзя мешать строки случайно.
— Возможен ли data leakage?
— Хватает ли данных для всех классов или сегментов?

2⃣ Как делите данные на train / validation / test?

— По пользователям, по времени, по объектам?
— Отражает ли такое разбиение реальный сценарий в продакшене?

3⃣ Какие ограничения существуют?

— Сколько времени можно тратить на инференс?
— Где будет работать модель — в облаке, на сервере или на клиентском устройстве?
— Будет ли переобучение и как часто?

4⃣ Какая метрика действительно важна?

— Кто будет интерпретировать результат?
— Не приведёт ли фокус на «среднюю метрику» к ошибкам в критичных случаях?

5⃣ Как модель будет использоваться в продукте?

— Кто и как будет применять результат?
— Какие требования к explainability?
— Как встроить модель в существующий пайплайн?

Cоветы:
▶️ Перед тем как писать код, зафиксируйте ключевые параметры задачи в документе:
— цель,
— доступные источники данных,
— ограничения,
— целевую метрику,
— требования к внедрению.
▶️ Используйте ML Canvas — структуру, помогающую спланировать проект как с технической, так и с бизнес-стороны.
▶️ Возьмите за правило: потратить один день на проектирование — чтобы сэкономить три на переделках.

📣 А как вы подходите к постановке ML-задач? Что обязательно продумываете перед началом?

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32😁1
Media is too big
VIEW IN TELEGRAM
Как относитесь к созданию своего жпт не через конструктор, а хардкорно через код?

🔥 — я своего завайбкодил

🏃‍♀️ Ссылка на курс
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Инструмент для работы со временными рядами: sktime

Если вы работаете с временными рядами в Python — обязательно попробуйте sktime.

sktime — это библиотека с единой и удобной обёрткой для задач машинного обучения на временных рядах.

Поддерживает:
➡️ Прогнозирование (forecasting)
➡️ Классификацию временных рядов
➡️ Регрессию
➡️ Кластеризацию
➡️ Обнаружение аномалий и точек изменений
➡️ Композиции моделей, трансформеры и пайплайны

Features:
➡️ Единый API для задач ML/AI с временными рядами: от построения моделей до валидации
➡️ Поддержка разных задач: прогнозирование, классификация, регрессия, кластеризация
➡️ Композиции моделей: пайплайны, ансамбли, тюнинг, редукции
➡️ Удобный и интерактивный UX в духе scikit-learn

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
🎯 Как продвинуть резюме в ТОП на HeadHunter: 9 рабочих приёмов

Обновили резюме — а в ответ тишина? Ни просмотров, ни откликов?
Всё потому, что просто «быть» на HeadHunter мало — нужно правильно продавать себя алгоритму.

В нашей новой статье вы узнаете:
— Как реально работает выдача HH
— Почему ваше резюме могут не заметить
— 9 способов вырваться в ТОП — от ключевых слов до правильного времени публикации

👉 Если ищете работу в IT (и не только), прочитайте обязательно: https://proglib.io/sh/rStRsQJzH1

Библиотека дата-сайентиста #буст
🔥32👍2
Самые догадливые, пишите ответ в комментах 👇

Небольшая подсказка — это термин относится к AI или DS.

Прячем ответы под спойлер, чтобы не спалить остальным.

Библиотека дата-сайентиста #междусобойчик
1👍1🤔1
🚩 Google DeepMind представила GenAI Processors — новый способ создавать Gemini-приложения

Создавать LLM-приложения — особенно мультимодальные и в реальном времени — сложно: куча обработок, API-вызовов, асинхронности и нестабильной логики.

Теперь всё меняется. GenAI Processors — новая open-source Python-библиотека, которая помогает собирать такие пайплайны как из кубиков Lego.

🔎 Что такое GenAI Processors

Это абстракция над обработкой данных, где всё — поток:
Входы, выходы и даже промежуточные шаги обрабатываются как асинхронные стримы ProcessorParts.
Вы комбинируете видеопоток, аудио, текст, модель — и получаете живое, отзывчивое LLM-приложение, работающее в реальном времени.

Что внутри:
— Модульный дизайн — разбивайте логику на независимые блоки
— Асинхронность и параллелизм — быстрый отклик, меньше лагов
— Поддержка Gemini API и Live-модели
— Легко пишите кастомные процессоры
— Умеет работать с текстом, изображениями, аудио, JSON — в одном потоке
— Утилиты для объединения, разделения и управления потоками

Установка:
pip install genai-processors


🔗 Для старта — готовые Colab-блокноты и примеры: https://clc.to/CvkgTQ

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥1
🆕 Свежие новости для дата‑сайентистов

🧠 Контекст-инжиниринг и LLM
Context Engineering Guide — промпт-инжиниринг эволюционирует: теперь важен не только prompt, но весь контекст
Unsupervised Elicitation of Language Models — Антропик обучил Claude 3.5 без разметки
Open Source RL Libraries for LLMs — сравнение RLHF-фреймворков: TRL, Verl, OpenRLHF и др.

🔬 Глубже в ML/AI
PyTorch in One Hour — краткий и ценный гайд по PyTorch
ML Papers Explained — ключевые концепты и статьи по ML объяснены на практике
Топ вопросов с DS-собесов — классика ML, метрики, линейные модели

💡 Технологии и исследования
AI как люди — исследование: ИИ-модели синхронизируются при общении так же, как мозги животных
Медицинский ИИ от Google — MedGemma 27B и MedSigLIP для диагностики и анализа изображений
Bыпуклость в обучении — как искусственный интеллект начинает думать почти как человек

🌐 Будущее AI
OpenAI запускает браузер — ИИ-браузер против Chrome
AWS и Anthropic запускают маркетплейс агентов
Сутскевер стал CEO Safe Superintelligence

📌 Подборка статей
Агентные системы и LLM в 2027
Готовимся к собесу: positional encodings
Поисковый сервис Яндекс Лавки
Оптимизация модели Mamba на CPU
ML в логистике

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
☝️ Последний шанс купить курсы Proglib Academy с доступом навсегда!

Это не просто летняя распродажа, это финал эпохи. Мы дарим скидку 40% на все курсы, включая полностью обновлённый курс по Python (предложение НЕ ДЕЙСТВУЕТ только на курс по AI-агентам для DS-специалистов).

Но главное: с 1 августа доступ ко всем новым курсам станет ограниченным. Успейте инвестировать в свои знания на самых выгодных условиях!

👉 Выбрать курс
🥱21
💰 Топ-вакансий для дата-сайентистов за неделю

Data Scientist (ML engineer) | Middle-Senior —‍ от 230 000 до 320 000 ₽, удалёнка

Веб-аналитик —‍ от 2500 до 3500 $, удалёнка

Data Engineer (CV) —‍ до 4 000 $, офис (Москва)

Data Scientist (Антифрод) —‍ от 269 000 до 524 000 ₽, удалёнка

Middle/Senior Data Scientist (команда ИИ и аналитика) —‍ от 200 000 до 350 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁1
🆚 DropBlock vs Dropout: что лучше для регуляризации CNN

Представьте пиксель на изображении — например, на цифре «9». Даже если мы «отключим» этот пиксель (фичу) с помощью Dropout, его информация всё равно дойдёт до следующего слоя через соседние пиксели — ведь свёртки учитывают локальный контекст.

🚩 В итоге Dropout практически бесполезен в сверточных слоях. А вот DropBlock — гораздо лучше.

Вместо того чтобы «выключать» отдельные признаки, DropBlock «вырезает» целые блоки признаков, нарушая локальные корреляции. Это заставляет сеть учиться более устойчивым и обобщающим признакам, не полагаясь на отдельные патчи.

➡️ Как работает DropBlock:
— block_size — размер блока, который будем вырезать
— drop_rate — вероятность дропа (центрального пикселя, вокруг которого строится блок)

Сначала генерируется бинарная маска (как в Dropout), но затем вокруг каждого выключенного пикселя формируется целый квадратный блок, который удаляется из признаков.

🚩 В PyTorch уже есть готовая реализация через библиотеку dropblock. Подключается просто и эффективно усиливает вашу модель.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94😁2🔥1
👇 Фриланс, pet-проекты и Kaggle — это тоже опыт

Если вы:
— Решали задачи на Kaggle
— Анализировали данные для знакомых или фриланс-заказчиков
— Собирали свой ML-пайплайн «на коленке»
— Делали дашборды в Streamlit
— Писали парсеры, телеграм-ботов, скорили таблички —
вы уже работали дата-сайентистом, просто вне офиса.

📌 Такой опыт можно и нужно указывать в резюме.

Вот как оформить:
Назовите проект и его цель (бизнес-задача или исследование)
Укажите стек: Python, pandas, sklearn, XGBoost, Airflow, etc.
Расскажите про результат — метрики модели, инсайты, которые нашли
Добавьте ссылку на GitHub или ноутбук в nbviewer

👉 Подробнее в новой статье:
https://proglib.io/sh/TSpGKgMUCE

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
📶 Python для анализа данных: как работать с данными, визуализировать и делиться результатами

В репозитории на GitHub показано, как с помощью Python получать, чистить, анализировать и визуализировать данные некоммерческих организаций.

Даже если вы не связаны с НКО, методы и советы будут полезны для любых проектов с данными.

Что вы найдете в проекте:
🔎 Импорт, очистка и преобразование данных
🔎 Анализ с помощью описательной статистики и линейной регрессии
🔎 Создание графиков и карт
🔎 Интерактивные визуализации и их публикация в интернете

➡️ Подробнее и код — по ссылке: https://clc.to/XSkgbQ

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4
🎓 Что посмотреть: курс по deep learning на mesh и point cloud данных

Курс о том, как применять deep learning к данным на криволинейных поверхностях: мешам и point clouds. Подходит тем, кто хочет использовать data-driven алгоритмы за пределами изображений и текста.

Что в курсе:
🔹 Какие задачи решаются на мешах и облаках точек
🔹 Как обрабатывать такие данные (масштабируемость, обобщение и пр.)
🔹 Обзор SOTA-методов и практические советы для исследований

📽 Видео, слайды и туториал: https://clc.to/On1Axg

Библиотека дата-сайентиста #буст
4👍2🔥2
🤔 JSON, YAML, XML — что лучше и когда

Вопрос подписчика:
«Какие форматы сериализации данных вы чаще всего используете на работе или в своих проектах?»


Подписчик делится опытом:
В основном работал с YAML (иногда JSON) — он кажется мне самым читаемым.
XML в моей практике почти не встречался. А у вас? Есть ли у XML реальные преимущества перед YAML или JSON?

Будет интересно узнать ваше мнение:
• Какие форматы чаще используете — YAML, JSON, TOML, CSV?
• XML ещё актуален? В каких случаях он действительно полезен?
• Бывали ли проекты, где удобочитаемость важнее производительности?

💬 Пишите в комментариях, какой стек предпочитаете и почему.

Библиотека дата-сайентиста #междусобойчик
3😁3👍1