Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1.77K views08:15

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Ответ:

Anonymous Quiz

Деревья решений

76%

Метод ближайших соседей

Линейная регрессия

11%

Метод опорных векторов

420 voters1.62K views08:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥

Новый уровень CUDA в Python: знакомьтесь с `cuda.cccl`

Теперь не нужно писать кастомные CUDA-ядра или лезть в C++ — cuda.cccl позволяет собирать мощные алгоритмы на Python, используя CUB и Thrust под капотом.

Библиотека делится на:

✅

parallel — высокоуровневые, компонуемые алгоритмы над массивами и итераторами.

✅

cooperative — блок/варп-ориентированные примитивы для numba.cuda.

Почему быстрее:
✅ Никакой лишней памяти — итераторы вместо массивов.
✅ Один фьюзнутый kernel вместо четырёх.
✅ Минимум overhead'а от Python.

Кому пригодится:
✅ Тем, кто пишет кастомные алгоритмы над PyTorch или CuPy.
✅ Тем, кто хочет тонкий контроль над CUDA без C++.
✅ Тем, кто расширяет существующие библиотеки или разрабатывает свои.

Установка:

pip install cuda-cccl

👉 Подробнее: https://clc.to/4qFCRQ

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3❤‍🔥1

1.77K views11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам.

С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.

-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)

Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.

📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA

1.66K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Топ-вакансий для дата-сайентистов за неделю

Senior ML Engineer (Voice Products) —‍ от 6 000 до 8 000 $, удалёнка

Data Scientist (Middle) —‍ до 180 000 ₽, удалёнка

Senior Data Engineer (FinTech) —‍ до 440 000 ₽, удалёнка

Senior Data Scientist, гибрид (Сербия)

Data Scientist (Data Monetization) —‍ от 350 000 ₽, удалёнка

Специалист поддержки ML —‍ от 250 000 до 320 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1😁1

1.71K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚫️ 3 стратегии, которые реально улучшают детекцию аномалий

Многие алгоритмы обнаружения аномалий предполагают, что у вас нет разметки. Но в реальной жизни это не так — почти всегда есть хотя бы несколько размеченных примеров. Например, из прошлых расследований, или эксперт отметил вручную.

🔎 И вот в чём парадокс: большинство методик игнорируют эти ценные метки. А ведь даже пара штук — это уже ресурс.

В этом посте — три практические стратегии:

1️⃣

Настройка порога (threshold tuning)

Идея простая: если у вас есть хотя бы несколько размеченных аномалий — порог можно настраивать не на глаз, а по данным.

Для этого:
1. Обучите модель на обычных (нормальных) данных.
2. Выберите порог:
🔎 Если есть только нормальные примеры → возьмите максимум из них.
🔎 Если нет разметки → используйте 95-й или 99-й персентиль.
3. Посчитайте метрики на размеченных аномалиях:
🔎 Recall
🔎 Precision
🔎 Recall\@k (если смотрите только топ-k тревог)

Лайфхак:

Если у вас мало размеченных аномалий, метрики могут быть нестабильны. Используйте бутстрап, чтобы получить доверительный интервал и понять, насколько метрике можно доверять.

2️⃣

Выбор модели (model selection)

А как выбрать алгоритм, который вообще лучше работает с вашими аномалиями?

Используйте разметку для объективного сравнения моделей:
1. Обучите модель без аномалий.
2. Посчитайте персентиль каждого размеченного примера по скору. Если аномалия на 99-м персентиле — отлично.
3. Возьмите среднее значение всех таких персентилей. Чем выше — тем лучше модель видит ваши реальные аномалии.

Лайфхак:

Можно сравнивать не только алгоритмы (Isolation Forest vs GMM), но и гиперпараметры внутри одного метода.
А ещё — использовать это для построения ансамбля, выбрав в него только те модели, которые реально ловят ваши аномалии.

3️⃣

Супервизорный ансамбль (supervised ensembling)

Это уже активное использование разметки: вы строите мета-классификатор на основе выходов нескольких детекторов.

Для этого:
1. Обучаем разные детекторы (например, Isolation Forest, GMM, PCA).
2. Для каждого объекта собираем вектор из скоров этих моделей:

X_i = [iForest_score, GMM_score, PCA_score]

3. Используем размеченные аномалии как метки и обучаем классификатор (например, XGBoost).

На выходе получаем мета-модель, которая учится, как ведут себя аномалии в разных детекторах. Она совмещает их сильные стороны и делает вывод: аномалия это или нет.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥2

1.54K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️ Мы запускаем онлайн-курс по машинному обучению для Data Science.

Хочешь войти в Data Science, но не знаешь, с чего начать?
А может, ты уже в теме, но чувствуешь, что знаний не хватает?

Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения.

Что внутри:
— от линейных моделей и градиентного спуска до бустинга и рекомендательных систем
— реальные примеры, практика, задачи и живая менторская поддержка
— всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах

Ведет курс Мария Жарова:
ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy

🎁 По промокоду Earlybird — скидка 10.000 рублей, только до 27 июля.

Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас.

👉 Записаться на курс

👍1

1.54K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔎

Kaggle запускает Benchmarks — открытую платформу для оценки AI-моделей

Сегодня Kaggle представил Kaggle Benchmarks — новую платформу, где можно тестировать AI-модели на ведущих академических бенчмарках бесплатно и без сложной настройки.

✅ Kaggle собрал более 70 академических бенчмарков от ведущих исследовательских лабораторий, включая код, данные и методики оценки, чтобы воспроизводить результаты независимо и прозрачно.

✅ Появилась возможность (пока в превью) создавать собственные бенчмарки и автоматически запускать их на популярных LLM-моделях. То есть можно тестировать свои модели или сравнивать чужие в один клик.

Вместе с релизом вышли два крупных бенчмарка:
— Meta Multiloko — масштабный мультиязычный бенчмарк от Meta.
— ICML 2025 Experts Benchmark — crowdsourced-набор задач от участников ICML, отражающий реальные вызовы, с которыми сталкиваются ML-исследователи.

🔗 Подробнее: https://clc.to/YpUQkA

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🔥1

1.82K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✅ Declarative Data Infrastructure для мультимодальных AI-приложений

😩 Создание и поддержка продакшн AI-приложений, особенно мультимодальных, остаётся сложной задачей.

Нужно объединить множество инструментов:
— ETL-пайплайны для загрузки и преобразования данных
— Векторные базы для семантического поиска
— Feature store для ML-моделей
— Оркестраторы для планирования задач
— Инфраструктуру для запуска моделей
— Отдельные системы для параллелизации, кэширования, версионирования и отслеживания данных

Pixeltable — единственный Python-фреймворк, который обеспечивает инкрементальное хранение, трансформацию, индексацию и оркестрацию ваших мультимодальных данных.

Установка:

pip install pixeltable

Pixeltable позволяет описать весь ваш data pipeline и AI workflow декларативно — через вычисляемые колонки в таблицах.

Движок автоматически обрабатывает:
✔️ Загрузку и хранение данных (файлы изображений, видео, аудио, документы)
✔️ Трансформации и обработку с помощью Python-функций и встроенных операций
✔️ Интеграцию AI-моделей (эмбеддинги, детекция объектов, LLM)
✔️ Индексацию и поиск — в том числе векторный семантический поиск
✔️ Инкрементальные вычисления: пересчитываются только изменённые части
✔️ Версионирование и отслеживание изменений для воспроизводимости

✅

Ссылка на документацию: https://clc.to/919J-A

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥2

1.82K views06:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

никакого chatgpt нет 😆

Библиотека дата-сайентиста #развлекалово

❤‍🔥7😁2❤1

1.88K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📹 Новый курс: пост-тренировка больших языковых моделей LLM

Узнайте, как улучшить работу языковых моделей после предобучения с помощью методов Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) и Online Reinforcement Learning (RL).

На курсе вы научитесь:
• Понимать, когда и почему применять разные методы пост-тренировки
• Создавать обучающие пайплайны для превращения базовой модели в ассистента, изменять поведение чат-бота и улучшать его навыки
• Работать с реальными примерами и предобученными моделями из HuggingFace

➡️ Подходит для AI-разработчиков и исследователей, желающих глубже понять и применять современные методы кастомизации LLM.

🔗

Ссылка на курс: https://clc.to/SuDcgQ

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

1.81K views07:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬 Вопрос от подписчика: как получить повышение

«Я уже 3.5 года работаю Data Scientist I в крупной компании из Fortune 50. За два последних цикла сам поднимал тему повышения. В первый раз мне обозначили зоны роста — я поработал над ними, показал прогресс, сделал всё как надо.

Во второй раз мне сказали, что дело не только в результатах — ещё и в бюджете, очереди на повышение и других факторах. А когда я попросил чёткий план, как всё-таки попасть на повышение — внятного ответа не получил.

И теперь думаю: а что вообще делать до следующего цикла? Повышения реально надо “добираться на ощупь”, или в нормальных компаниях дают конкретные ориентиры?»

Кратко: да, во многих местах повышение — это квест без карты.

Но есть способы повысить шансы и вернуть контроль:
🔎 Попросить у менеджера leveling guide и примеры задач следующего уровня (если их нет — это тоже сигнал).
🔎 Сделать свои достижения видимыми — внутри и за пределами команды.
🔎 Найти спонсора — не просто ментора, а человека с влиянием, который готов продвигать тебя.
🔎 Запросить карьерный план: «что я должен показать, чтобы через Х месяцев обсуждать переход на следующий уровень?»
🔎 Регулярно сверяться с ожиданиями — не только в циклах оценок.

🚩 Частая ошибка: думать, что «хорошо делать свою работу» = автоматически получить повышение. На деле — часто продвигаются те, чьё влияние заметно и кому доверяют больше ответственности.

🤔 А как с этим у вас? В вашей компании есть прозрачная система повышения? Или тоже всё на интуиции?

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

💯5❤1🔥1😢1

1.78K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📆

Команда дня: как навести порядок в ML-проекте с помощью Python Poetry

Poetry — это удобный инструмент для управления зависимостями и структурой Python-проектов. Он помогает вам поддерживать чистый и воспроизводимый код, особенно в ML и data science.

🔤

Шаг 1: создаём проект

Запустите:

poetry new earth-quake-predictor

Poetry создаст базовую структуру проекта:

earth-quake-predictor
├── README.md
├── earth_quake_predictor
│   └── __init__.py
├── pyproject.toml
└── tests
    └── __init__.py

Зайдите в папку и установите зависимости:

cd earth-quake-predictor
poetry install

Разделите код по логическим модулям:

earth_quake_predictor
├── data_processing.py
├── train.py
├── predict.py
├── plotting.py

🔤

Шаг 2: Jupyter-ноутбуки без хаоса

Создайте отдельную папку notebooks/ и подключайте функции из модулей проекта:

В .py-файле:

# файл: earth_quake_predictor/plotting.py
def my_plotting_function():
    ...

В ноутбуке:

%load_ext autoreload
%autoreload 2

from earth_quake_predictor.plotting import my_plotting_function
my_plotting_function()

⏯ Теперь изменения в коде автоматически подтягиваются в ноутбук — без лишнего копипаста.

🔤

Шаг 3: готовим код к продакшену — Docker

Добавьте Dockerfile, чтобы окружение было одинаковым везде:

earth-quake-predictor
├── Dockerfile
├── pyproject.toml
└── ...

Создайте и запустите образ:

docker build -t earth-quake-model-training .
docker run earth-quake-model-training

⏯ Это простой способ сделать ваш ML-код чистым, модульным и готовым к продакшену.

🐚

Используете Poetry? Делитесь своими лайфхаками в комментариях!

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤5🔥1

1.6K viewsedited 08:38

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😤 Устал листать туториалы, которые не складываются в картину

У тебя в голове уже есть логрегрессии, деревья, метрики и какая-то PCA, но системного понимания всё нет?

Пора с этим разобраться!

Наш курс по классическому ML:

— научит выбирать адекватные модели под задачу
— разложит метрики, переобучение и bias по полочкам
— покажет, что скрывается за fit/predict, и что с этим делать

🔔 До 27 июля по промокоду Earlybird — минус 10.000₽

P.S. Первые 10 участников получат эксклюзивный лонгрид, чтобы начать изучать тему ещё до старта курса.

👉 Поменяй свою жизнь: старт карьеры в AI — успей до закрытия набора!

1.54K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

▶️ Эмбеддинги в Gemini API — новое слово в понимании текста и кода

Модель gemini-embedding-001 — это новейший текстовый эмбеддинг, доступный в Gemini API и Vertex AI. Эмбеддинги преобразуют слова, фразы, предложения и код в векторные представления, которые позволяют эффективно решать задачи семантического поиска, классификации и кластеризации.

Как сгенерировать эмбеддинги

Пример на Python:

from google import genai

client = genai.Client()

result = client.models.embed_content(
    model="gemini-embedding-001",
    contents="В чем смысл жизни?"
)

print(result.embeddings)

Можно передать список текстов для пакетной обработки:

texts = [
    "В чем смысл жизни?",
    "Какова цель существования?",
    "Как испечь торт?"
]

result = client.models.embed_content(
    model="gemini-embedding-001",
    contents=texts
)

for embedding in result.embeddings:
    print(embedding)

🔳

Улучшение качества — выбор типа задачи

Чтобы оптимизировать эмбеддинги под конкретные задачи, указывайте task_type. Например, для проверки семантического сходства:

from google.genai import types
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

texts = ["В чем смысл жизни?", "Какова цель существования?", "Как испечь торт?"]

result = [
    np.array(e.values) for e in client.models.embed_content(
        model="gemini-embedding-001",
        contents=texts,
        config=types.EmbedContentConfig(task_type="SEMANTIC_SIMILARITY")
    ).embeddings
]

similarity_matrix = cosine_similarity(np.array(result))

for i, text1 in enumerate(texts):
    for j in range(i + 1, len(texts)):
        print(f"Сходство между '{text1}' и '{texts[j]}': {similarity_matrix[i,j]:.4f}")

Поддерживаемые типы задач:
— оценка семантической близости текстов, полезна для рекомендаций и поиска дубликатов.
— классификация текстов, например, для анализа тональности или определения спама.
— группировка текстов по сходству, применяется для организации документов и маркетинговых исследований.
— поиск информации: по документам и по запросам соответственно.
— поиск фрагментов кода по естественным языковым запросам.
— нахождение ответов на вопросы в базе данных или документах.
— проверка фактов с помощью поиска подтверждающих или опровергающих документов.

🔳

Контроль размера эмбеддинга

Модель gemini-embedding-001 умеет выдавать векторы разной размерности (768, 1536, 3072), сохраняя при этом качество.

Это помогает экономить место и ускорять вычисления. Для небольших векторов рекомендуется нормализация:

import numpy as np

embedding_values_np = np.array(embedding_obj.values)
normed_embedding = embedding_values_np / np.linalg.norm(embedding_values_np)

🔳

Подробнее в блоге: https://clc.to/Z-chUA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥1

1.61K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👌

Библиотека дата-сайентиста #развлекалово

😁5👍4❤2💯2🤔1

1.65K views11:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🙃

ChatGPT на собесе — читерство или must-have навык?

Кандидат пришёл на интервью. Вопрос по ML — быстро накидал пайплайн, обсудил подход, выдал код.

Тех собеседующих терзают сомнения:

«Он точно сам это придумал? Или GPT помогал?»

А кандидат спокойно отвечает:

«Так я с ним и в проде работаю. Это инструмент, как Jupyter или Pandas».

📝 Одна сторона говорит:
«На собесе ты должен сам сформулировать гипотезу, выбрать метрику, предложить решение. Без ИИ.»

📝 Другая — возражает:
«Умение эффективно использовать GPT — такой же навык, как знание sklearn или prompt engineering. В реальности — без этого никуда.»

Как считаете, ChatGPT на собесе у DS — это:
❤️ — Современный инструмент, и пусть используют
👍 — Только на проде, а на собесе — пусть головой думает
🔥 — Зависит от уровня: для джуна — нет, для сеньора — норм
😆 — Уберите ваши собесы, мы уже в будущем

💬 Кидайте мысли в комментарии.

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤25👍17🔥10😁3👏2

1.69K views12:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 «Начни сразу с нейросетей — зачем тебе логрегрессия?»

Это один из худших советов для начинающего ML-разработчика. Зрелость — это понимать, где простого достаточно, а не тянуть трансформеры на любую задачу из-за хайпа.

Классика ML — это не допотопная теория, а база (bias/variance, деревья, метрики), без которой не понять Deep Learning.

⚡️ Хотите освоить этот фундамент на реальных задачах? Приходите на наш курс по классическому ML. Только хардкор, только продовые задачи!

📆 Старт — 12 августа.

Для первых 10 участников бонус — специальный лонгрид по теме курса, чтобы вы могли начать разбираться уже сейчас.

🎁 Последний день промокода Earlybird на скидку 10.000₽.

👉 Не упустите шанс!

1.7K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🧠 Модели и архитектуры
— Большое сравнение LLM-архитектур — от DeepSeek-V3 до Kimi K2.
— Qwen3-Coder: 480B параметров — открытая модель от Alibaba показывает SoTA-результаты.
— Qwen3-235B-A22B-Thinking-2507 — новая масштабируемая reasoning-модель от Alibaba.
— Gemini 2.5 Flash-Lite теперь доступна всем — быстрая и бюджетная модель от Google.
— GPT‑5 уже скоро — по слухам, OpenAI готовит релиз в августе.

🔬 Новые исследования
— Почему модели становятся «глупее» — исследование от Anthropic показывает, что длинные размышления не всегда полезны.
— Сублиминальное обучение — Anthropic обнаружили, что модели могут бессознательно перенимать «убеждения» от других.
— Новый уровень промт-инжиниринга — управление контекстом LLM становится отдельной дисциплиной.

🧑‍💻 Индустрия и платформы
— Kaggle запускает Benchmarks — платформа для объективной оценки AI-моделей.
— ChatGPT — 2.5 млрд запросов в день
— Microsoft переманивает инженеров DeepMind — более 20 сотрудников, включая главу Gemini, ушли к Microsoft.

👍 Опыт других
— 15 кейсов применения NLP
— Пайплайн для прогнозирования временных рядов в Яндексе
— KAN против MLP: архитектурное сравнение
— Автоматизация ML-разработки и ускорение вывода моделей в прод

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥3

1.96K viewsedited 13:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

❤1👍1😁1

1.92K views07:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?