Почему даже rolling-window CV может давать leakage?
Anonymous Quiz
2%
Это невозможно
18%
Rolling-window использует слишком маленькие тестовые окна
12%
CV всегда даёт leakage
68%
Если target leakage скрыт в engineered features (например, future-based statistics)
❤1
Почему MAE более устойчива к шуму меток, чем MSE, но часто обучается медленнее?
Anonymous Quiz
83%
MAE имеет константный градиент и не усиливает большие ошибки
8%
MSE не выпукла
5%
MAE зависит от Learning Rate
4%
MSE автоматически игнорирует шум
❤2👍1
Почему Bayesian Neural Networks могут по-прежнему быть плохо откалиброваны?
Anonymous Quiz
5%
Байесовские модели всегда идеальны
46%
VI и Laplace-аппроксимации дают слишком узкие апостериоры
16%
Байесовские методы запрещают регуляризацию
33%
Байесовская неопределённость = aleatoric uncertainty
🔬 Вы когда-нибудь смотрели на код и думали: «Работает, но почему?»
А теперь представьте, что вы:
→ понимаете, почему модель учится слишком медленно или слишком быстро;
→ видите, какие данные реально влияют на предсказание, а какие — шум;
→ знаете, что происходит внутри нейронки.
4 декабря стартует курс «Математика для разработки AI-моделей».
Линал, оптимизация, матан, статистика — всё, что происходит внутри модели между input и output. Практика на Python. Живые разборы с экспертами из SberAI, ВШЭ, Wildberries&Russ.
3 задания + финальный проект. Без теории ради теории — только то, что реально используется в моделях.
🎁 Бонус: курс по школьной математике + тест уровня математики
👉 Записаться
А теперь представьте, что вы:
→ понимаете, почему модель учится слишком медленно или слишком быстро;
→ видите, какие данные реально влияют на предсказание, а какие — шум;
→ знаете, что происходит внутри нейронки.
4 декабря стартует курс «Математика для разработки AI-моделей».
Линал, оптимизация, матан, статистика — всё, что происходит внутри модели между input и output. Практика на Python. Живые разборы с экспертами из SberAI, ВШЭ, Wildberries&Russ.
3 задания + финальный проект. Без теории ради теории — только то, что реально используется в моделях.
🎁 Бонус: курс по школьной математике + тест уровня математики
👉 Записаться
Площадь под ROC-кривой (AUC-ROC) для классификатора равна 0.50. Что это означает?
Anonymous Quiz
2%
Модель является идеальным классификатором.
3%
Модель работает лучше, чем случайное угадывание.
10%
Это означает, что Precision и Recall равны 0.50.
86%
Модель работает не лучше, чем случайное угадывание.
❤1
В задаче бинарной классификации, что произойдет с метрикой Recall (Полнота) модели, если мы значительно понизим порог классификации (threshold)?
Anonymous Quiz
20%
Recall уменьшится, Precision (Точность) увеличится.
6%
Обе метрики (Recall и Precision) увеличатся.
70%
Recall увеличится, Precision (Точность) уменьшится.
4%
Обе метрики (Recall и Precision) уменьшатся.
❤1
Вы работаете с категориальным признаком City (Город), который содержит более 1000 уникальных значений. Какой из перечисленных методов кодирования чаще всего используется в Data Science для работы с высококардинальными категориальными признаками
Anonymous Quiz
21%
Label Encoding
29%
Target Encoding (Mean Encoding)
33%
Frequency Encoding (Count Encoding)
16%
One-Hot Encoding
👍3
Какой из перечисленных ниже сценариев наиболее явно указывает на то, что ваша модель машинного обучения страдает от сильного переобучения (overfitting)?
Anonymous Quiz
1%
Высокая точность (95%) на обучающей выборке и высокая точность (93%) на тестовой выборке.
1%
Низкая точность (60%) на обучающей выборке и низкая точность (58%) на тестовой выборке.
95%
Высокая точность (98%) на обучающей выборке и низкая точность (65%) на тестовой выборке.
3%
Низкая точность (65%) на обучающей выборке и высокая точность (98%) на тестовой выборке.
👍3
Почему вас валят на собесах по ML?
Чаще всего не из-за незнания
Мы перезапустили курс с живыми вебинарами, чтобы закрыть эти пробелы. Глубокое погружение в линейную алгебру.
Ближайшие темы (Hard Skills):
— Матрицы: ранг, обратимость, линейные преобразования и решение СЛАУ.
— Линейная регрессия: реализация МНК с нуля в
— SVD и Eigenvalues: смысл собственных векторов, снижение размерности и построение рек. систем.
Вы научитесь не просто «тюнить параметры», а понимать физический смысл операций.
Вход в поток до 9 декабря.
https://clc.to/LojFzw
Чаще всего не из-за незнания
fit/predict , а из-за непонимания математики, которая стоит за этими методами.Мы перезапустили курс с живыми вебинарами, чтобы закрыть эти пробелы. Глубокое погружение в линейную алгебру.
Ближайшие темы (Hard Skills):
— Матрицы: ранг, обратимость, линейные преобразования и решение СЛАУ.
— Линейная регрессия: реализация МНК с нуля в
NumPy vs scikit-learn , интерпретация коэффициентов.— SVD и Eigenvalues: смысл собственных векторов, снижение размерности и построение рек. систем.
Вы научитесь не просто «тюнить параметры», а понимать физический смысл операций.
Вход в поток до 9 декабря.
https://clc.to/LojFzw
Вы обучаете модель Логистической регрессии, и она показывает низкую точность как на обучающей, так и на тестовой выборках. Вы решаете добавить L2. Какого результата следует ожидать?
Anonymous Quiz
17%
Точность модели на обеих выборках увеличится, так как регуляризация борется с недообучением.
67%
Точность, скорее всего, уменьшится или останется прежней, т.к. модель уже страдает от смещения.
8%
Разрыв между точностью на обучающей и тестовой выборках увеличится, указывая на переобучение.
9%
Модель начнет использовать только самые важные признаки (Feature Selection), что не связано с L2.
👍1
Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.
Какова наиболее вероятная причина такого поведения?
Какова наиболее вероятная причина такого поведения?
Anonymous Quiz
15%
K-Means чувствителен к наличию категориальных признаков.
7%
K-Means страдает от проблемы исчезающего градиента.
50%
K-Means предполагает, что кластеры имеют выпуклую форму.
28%
K-Means требует ручного указания количества кластеров ($k$).
👍1
Готовитесь к собеседованию в AI?
Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».
Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».
Важный апдейт:
— теперь обучение включает живые вебинары;
— первый прошел, но второй стартует сегодня, 9 декабря;
— это шанс разобрать сложные вопросы с экспертами в прямом эфире.
Что внутри:
— линейная алгебра;
— матанализ;
— теория вероятностей.
Успейте присоединиться к потоку
Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».
Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».
Важный апдейт:
— теперь обучение включает живые вебинары;
— первый прошел, но второй стартует сегодня, 9 декабря;
— это шанс разобрать сложные вопросы с экспертами в прямом эфире.
Что внутри:
— линейная алгебра;
— матанализ;
— теория вероятностей.
Успейте присоединиться к потоку
Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?
Anonymous Quiz
20%
Дисперсионный сдвиг (Variance Shift)
23%
Дисперсионный сдвиг (Variance Shift)
20%
Сдвиг метки (Label Shift)
38%
Ковариатный сдвиг (Covariate Shift)
👍1
Вы обучаете глубокую нейронную сеть, которая показывает 99% точности на обучающей выборке, но всего 70% на тестовой. Какое из следующих действий, скорее всего, поможет снизить переобучение (overfitting), не требуя сбора новых данных?
Anonymous Quiz
79%
Применить Dropout к скрытым слоям нейронной сети.
10%
Использовать более простую функцию активации, например, сигмоиду вместо ReLU.
5%
Уменьшить степень регуляризации $\lambda$ в функции потерь.
6%
Удалить все признаки с низкой дисперсией (Low Variance).
Вы строите модель и обнаруживаете, что хотя общая метрика производительности высока, индивидуальные p-значения большинства ваших переменных незначимы, а коэффициенты (weights) модели демонстрируют высокую чувствительность к небольшим изменениям в данных.
Anonymous Quiz
27%
Гетероскедастичность (Heteroscedasticity)
10%
Недообучение (Underfitting)
54%
Мультиколлинеарность (Multicollinearity)
8%
Автокорреляция остатков (Autocorrelation of Residuals)