Библиотека собеса по Data Science | вопросы с собеседований
4.3K subscribers
447 photos
12 videos
1 file
481 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
👉 Как интегрировать несупервизорные или self-supervised сигналы в потоковой обработке данных, если метки приходят с задержкой или доступны частично

В таких условиях модель не должна простаивать, пока ждёт разметку — можно использовать несколько стратегий:

Self-supervised задачи — для текста (маскированное предсказание токенов) или изображений (контрастивное обучение) модель может подстраиваться к новым распределениям данных без явных меток, постепенно улучшая представления.

Буферизация с дообучением — хранить необмеченные данные, частично дообучать модель на self-supervised или старых размеченных данных, а после получения меток выполнять полное обновление.

Инкрементальное кластеризование — алгоритмы вроде online k-means или потоковых версий DBSCAN позволяют отслеживать появление новых кластеров (концепт-дрифт) и адаптировать модель ещё до появления меток.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
👇 Как выявлять и обрабатывать концептуальный дрейф (concept drift) в потоковых данных

Когда распределение входных данных или целевой переменной меняется со временем, модель начинает деградировать. Чтобы минимизировать ущерб:

➡️ Мониторинг статистик — отслеживать метрики качества и распределения признаков, использовать тесты вроде K-S или PSI.

➡️ Скользящее окно обучения — хранить только последние N наблюдений и регулярно дообучать модель.

➡️ Адаптивные алгоритмы — применять модели, которые сами подстраиваются под новые данные (например, online gradient descent или адаптивные леса).

➡️ Гибридные ансамбли — совмещать несколько моделей с разными “возрастами” данных, постепенно замещая устаревшие.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Какова связь между масштабированием и PCA

PCA чувствителен к масштабу признаков — признаки с большей дисперсией будут сильнее влиять на главные компоненты.

Поэтому перед применением PCA обычно выполняют масштабирование или стандартизацию: вычитают среднее и делят на стандартное отклонение каждого признака. Это позволяет избежать ситуации, когда признаки с большим масштабом непропорционально влияют на результат, и сосредоточиться на выявлении реальных зависимостей в данных.

Библиотека собеса по Data Science
1
📺 Хватит коллекционировать туториалы!

Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.

Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.

Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.

И да, чтобы старт был ещё проще — при покупке курса по ML вы получаете курс по Python в подарок

👉 Превратите «шум» в навык

А вы сталкивались с «информационной кашей»? Как выбирались? 👇
Как учитывать стоимость ошибок в классификации, если мы опираемся на AUC и ROC-кривые

ROC-кривые и AUC оценивают, насколько хорошо модель ранжирует положительные объекты выше отрицательных, но не учитывают, что цена ложноположительных и ложноотрицательных ошибок может сильно отличаться.

В задачах с высокими ставками — от поиска мошенничества до медицинской диагностики — важно адаптировать подход:
🔎 Использовать матрицу стоимости или кастомную функцию потерь, чтобы сильнее наказывать определённые ошибки.
🔎 Выбирать порог не для максимизации TPR/FPR, а для минимизации ожидаемой стоимости ошибок.
🔎 Считать дополнительные метрики, например, cost-weighted accuracy или Weighted Error Rate, которые учитывают специфику домена.

Главная ошибка — слепо ориентироваться на AUC: модель с лучшим AUC может оказаться хуже на реальном пороге, где критична стоимость ошибок.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43
У вас есть набор данных с пропущенными значениями. Как вы подходите к их обработке?

Сначала анализируем, какие данные пропущены и почему (MCAR, MAR, MNAR).

📌 Если пропусков мало, можно удалять строки или колонки.

📌 Если много — импутация: среднее/медиана для числовых, мода для категориальных, или более сложные методы (KNN, MICE).

📌 Для моделей, чувствительных к пропускам (например, деревья), можно оставить NaN как отдельную категорию.

📌 Важно не искажать распределение данных и фиксировать шаги для воспроизводимости.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🤔1
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢
💬 В чём разница между LIME и SHAP с точки зрения стабильности объяснений и теоретической основы

Обе методики дают локальные объяснения, но:

SHAP — основан на теории кооперативных игр и гарантирует согласованность и аддитивность. Если вклад признака растёт во всех возможных комбинациях признаков, его значение SHAP не уменьшится. Это даёт более стабильные объяснения между запусками, но требует больше вычислительных ресурсов.

LIME — использует локальную линейную аппроксимацию и создаёт объяснение на основе случайной выборки точек вокруг объекта. Из-за случайности результат может меняться между запусками, зато метод проще и быстрее.

Итог: SHAP — стабильнее и теоретически обоснованнее, LIME — быстрее и проще.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Что такое мультиколлинеарность и почему она опасна для регрессионных моделей

Мультиколлинеарность — это ситуация, когда два или более признака сильно коррелируют между собой.

Последствия:
Коэффициенты модели становятся нестабильными и трудно интерпретируемыми.
Стандартные ошибки увеличиваются, снижается статистическая значимость признаков.
Модель хуже обобщается на новые данные.

Решения:
Удалить один из коррелирующих признаков.
Применять регуляризацию (Ridge/Lasso).
Использовать методы снижения размерности (PCA).

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
▶️ Могут ли в Adam возникать проблемы исчезающих или взрывающихся градиентов

Да, полностью избежать этих проблем Adam не может. Хотя адаптивное изменение шагов помогает уменьшить эффект исчезающих или взрывающихся градиентов, при определённых архитектурах или распределениях данных они всё равно могут появляться.

Если градиенты резко становятся очень большими, шаг Adam тоже может временно стать слишком большим, особенно если оценка второго момента ещё не усреднилась. В обратной ситуации — при очень маленьких градиентах — Adam постепенно уменьшает шаг, что может привести к слишком медрому обучению, даже если параметрам нужно сделать крупные поправки.

📌 Вывод: Adam снижает риск, но не полностью устраняет проблемы исчезающих и взрывающихся градиентов — архитектура сети и нормализация данных по-прежнему критически важны.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
😎 Вы просили — мы сделали. Самый долгожданный анонс этого лета!

Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!

На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.

📆 Старт потока — 15 сентября.

💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.

👉 Занять место
😢2
🔎 В чём разница между 1D, 2D и 3D свёртками и в каких задачах их применяют

1D свёртки
Работают вдоль одной размерности (с каналами). Часто применяются для последовательных данных: аудио, текстовые последовательности после эмбеддинга. Ядро имеет форму kernel_size × in_channels и скользит по одной оси.

2D свёртки
Стандарт для изображений. Ядро скользит по ширине и высоте (и по каналам). Идеальны для обработки обычных 2D-картинок.

3D свёртки
Добавляют третью ось, например, время или глубину. Используются для видео (высота × ширина × время). Ядро может быть, например, 3×3×3, чтобы одновременно улавливать пространственные и временные зависимости.

Особенности:
Неправильная размерность приводит к несоответствию данных и модели.
3D свёртки требовательны к памяти, поэтому часто используют комбинации 2D + временное объединение или (2+1)D свёртки (разделяют пространственную и временную части).

Вывод: Выбор типа свёртки зависит от структуры данных: последовательности — 1D, изображения — 2D, видео — 3D.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🔥 Последняя неделя, чтобы забрать курс по AI-агентам по старой цене!

Пока вы тестируете Copilot, другие уже учатся строить AI-агентов, которые реально работают на бизнес. Хватит отставать!

Наш курс — это концентрат практики по LangChain и RAG. Улучшенная версия, доработанная по отзывам первого потока.

📆 Старт — 15 сентября.

💸 Цена 49 000 ₽ — только до 24 августа.

👉 Зафиксировать цену
🤔 Что делать, если утечка данных (data leakage) обнаружена уже после вывода модели в прод

В такой ситуации нужно немедленно исключить утёкшие признаки из пайплайна и переобучить модель без них. Утечка данных приводит к завышенным офлайн-метрикам, поэтому все оценки нужно пересчитать заново. После переобучения важно убедиться, что модель действительно справляется с реальными данными, где этой информации нет.

Также необходимо:
оценить, насколько широко была развернута утёкшая модель;
при необходимости откатить (rollback) её или быстро заменить новой;
в критичных системах иметь резервную/параллельную модель, которую можно включить на время расследования.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
🧃 Можно ли выполнять отбор признаков на всём датасете до разбиения на train и test

Нет, это плохая практика. Отбор признаков нужно включать внутрь кросс-валидационного пайплайна, чтобы выборка признаков обучалась только на тренировочных фолдах, а не на тестовом наборе. Если сделать отбор на всём датасете сразу, происходит утечка информации из теста, что ведёт к завышенным оценкам качества модели.

Правильный подход:
1️⃣ Разбиваем данные на train и test (и фолды для кросс-валидации, если нужно).
2️⃣ В каждом тренировочном фолде выполняем отбор признаков (RFE, фильтры или встроенные методы) и обучаем модель.
3️⃣ Оцениваем качество на валидационном фолде.
4️⃣ После кросс-валидации фиксируем набор признаков или пайплайн.
5️⃣ Переобучаем модель на всём тренировочном наборе с выбранными признаками и оцениваем на отдельном тесте.

Отбор признаков до разбиения на train/test ведёт к утечке данных и неверной оценке качества модели.

Если вам нравится копаться в таких тонкостях и вы хотите прокачать свои Data Science суперсилы:
AI-агенты для DS-специалистов (чтобы ваши модели могли работать сами)
ML для старта в Data Science (чтобы уверенно входить в DS и не делать утечек данных)

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
⚡️ Бесплатный вебинар — прогнозируем цены и не сходим с ума

21 августа в 19:00 МСК будет бесплатный вебинар с Марией Жаровой — экспертом в ML и Data Science.

Тема:
«Введение в машинное обучение: как спрогнозировать стоимость недвижимости».


Подробности рассказываю в гс выше — включай, чтобы не пропустить.
This media is not supported in your browser
VIEW IN TELEGRAM
☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.


Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других
🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️ Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь