Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023).
Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?
Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?
Anonymous Quiz
6%
K-fold кросс-валидация требует слишком много вычислительных мощностей для временных рядов
8%
Временные ряды всегда имеют нормальное распределение, поэтому кросс-валидация не нужна
2%
Она не позволяет использовать категориальные признаки
85%
Она нарушает временную структуру данных
Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено.
Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?
Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?
Anonymous Quiz
24%
Модель тоже будет сильно переобучена, так как она состоит из переобученных деревьев
59%
Модель будет хорошо обобщать, т.к. усреднение независимых переобученных деревьев снижает дисперсию.
6%
Модель будет работать крайне медленно и выдавать случайные результаты
11%
Ошибка на тестовой выборке будет расти пропорционально количеству деревьев
👍1
Какую функцию потерь нельзя использовать для задачи классификации напрямую?
Anonymous Quiz
6%
Log-Loss
10%
Hinge Loss
11%
Categorical Cross-Entropy
73%
Mean Squared Error
❤2
В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?
Anonymous Quiz
15%
На тех же данных, что и основные модели
41%
На Out-of-fold
33%
Путем простого голосования большинством
11%
С использованием только самых важных признаков
❤1
Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?
Anonymous Quiz
11%
Они растут только в одну сторону (влево)
19%
Они используют только категориальные признаки и игнорируют числа
12%
Деревья имеют бесконечную глубину, но очень мало листьев
59%
На каждом уровне используется один и тот же признак и одно и то же условие разделения для всех узлов
При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?
Anonymous Quiz
23%
Замена всех редких городов на «Other»
40%
Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out
28%
Использование One-Hot Encoding вместо Target Encoding
8%
даление целевой переменной из обучающей выборки
❤1
Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?
Anonymous Quiz
12%
Первая модель лучше предсказывает вероятности, но ошибается в порядке объектов
60%
Первая модель лучше ранжирует объекты, но вторая выдает более точные и откалиброванные вероятности
22%
Вторая модель просто переобучена под обучающую выборку
6%
Эти метрики всегда растут и падают одновременно, такой ситуации быть не может
❤3
Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».
Как наличие этих признаков скажется на вашей модели?
Как наличие этих признаков скажется на вашей модели?
Anonymous Quiz
4%
Точность предсказания резко вырастет, так как модель получит данные в разных системах измерения
4%
Модель не сможет обучиться и выдаст ошибку деления на ноль
77%
Коэффициенты модели станут нестабильными и неинтерпретируемыми, хотя точность может быть высокой
15%
Модель автоматически удалит один из признаков в процессе градиентного спуска
❤2
Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.
Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Anonymous Quiz
7%
Batch Normalization
85%
Dropout
7%
Data Augmentation
2%
Dense Layer
❤1
Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings.
Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?
Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?
Anonymous Quiz
1%
Они позволяют закодировать слова в виде целых чисел от 1 до 10 000
89%
Они переводят слова в векторы фикс.размерности, где геом.расстояние отражает смысловую близость слов
8%
Они гарантируют, что каждое слово в языке будет иметь уник.вектор, не похожий ни на один другой
1%
Они автоматически исправляют грамматические ошибки в тексте
Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5.
Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Anonymous Quiz
19%
Модель станет находить больше случаев мошенничества, но будет чаще ошибаться
6%
Точность предсказания (Accuracy) всегда увеличивается при повышении порога
6%
Веса модели изменятся, так как порог влияет на процесс обучения
69%
Модель станет делать меньше ложных обвинений, но пропустит больше реальных мошенников
❤3
Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN.
Какое изменение, скорее всего, поможет стабилизировать процесс?
Какое изменение, скорее всего, поможет стабилизировать процесс?
Anonymous Quiz
3%
Увеличить количество эпох обучения
55%
Уменьшить скорость обучения
15%
Отключить все слои Dropout
27%
Перейти от оптимизатора Adam к обычному SGD без моментов
❤1
Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки.
Какой вид регуляризации вам следует использовать?
Какой вид регуляризации вам следует использовать?
Anonymous Quiz
59%
L1-регуляризация
28%
L2-регуляризация
8%
Dropout
6%
Batch Normalization
В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?
Anonymous Quiz
27%
Macro-averaging
46%
Weighted-averaging
11%
Simple-averaging
17%
Micro-averaging
❤2
Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким.
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?
Anonymous Quiz
20%
LN вычисляет статистику по всему обучающему набору данных заранее, что ускоряет инференс
59%
LN вычисляет среднее и дисперсию для каждого отдельного примера по всем его признакам
15%
LN использует L1-регуляризацию внутри слоя, что автоматически обнуляет бесполезные веса
7%
BN математически несовместима с механизмом Self-Attention
👍2❤1
При использовании Layer Normalization (LN) в архитектуре Transformer, в чем заключается основное преимущество стратегии 'Pre-LN' (нормализация перед блоком Attention/FFN) по сравнению с оригинальной 'Post-LN'?
Anonymous Quiz
29%
Она делает модель устойчивой к очень большим размерам батча (batch size)
8%
Она позволяет избежать использования механизма Dropout в глубоких слоях
8%
Pre-LN значительно увеличивает вычислительную сложность каждого шага обучения
56%
Она создает прямой путь для градиентов, облегчая обучение экстремально глубоких сетей
❤1
В оптимизаторе AdamW была введена модификация классического Adam. Какую конкретную проблему она решает при использовании L2-регуляризации?
Anonymous Quiz
10%
Необходимость ручного подбора начальной скорости обучения (learning rate)
17%
Проблему исчезающего градиента в рекуррентных слоях
8%
Медленную сходимость на разреженных (sparse) данных
65%
Некорректное взаимодействие адаптивного шага обучения и штрафа за веса (weight decay)