Библиотека собеса по Data Science | вопросы с собеседований
4.27K subscribers
483 photos
14 videos
1 file
593 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
Какую функцию потерь нельзя использовать для задачи классификации напрямую?
Anonymous Quiz
6%
Log-Loss
10%
Hinge Loss
11%
Categorical Cross-Entropy
73%
Mean Squared Error
2
В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?
Anonymous Quiz
15%
На тех же данных, что и основные модели
41%
На Out-of-fold
33%
Путем простого голосования большинством
11%
С использованием только самых важных признаков
1
При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?
Anonymous Quiz
23%
Замена всех редких городов на «Other»
40%
Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out
28%
Использование One-Hot Encoding вместо Target Encoding
8%
даление целевой переменной из обучающей выборки
1
Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».

Как наличие этих признаков скажется на вашей модели?
Anonymous Quiz
4%
Точность предсказания резко вырастет, так как модель получит данные в разных системах измерения
4%
Модель не сможет обучиться и выдаст ошибку деления на ноль
77%
Коэффициенты модели станут нестабильными и неинтерпретируемыми, хотя точность может быть высокой
15%
Модель автоматически удалит один из признаков в процессе градиентного спуска
2
Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.

Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Anonymous Quiz
7%
Batch Normalization
85%
Dropout
7%
Data Augmentation
2%
Dense Layer
1
Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5.

Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Anonymous Quiz
19%
Модель станет находить больше случаев мошенничества, но будет чаще ошибаться
6%
Точность предсказания (Accuracy) всегда увеличивается при повышении порога
6%
Веса модели изменятся, так как порог влияет на процесс обучения
69%
Модель станет делать меньше ложных обвинений, но пропустит больше реальных мошенников
3
Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN.

Какое изменение, скорее всего, поможет стабилизировать процесс?
Anonymous Quiz
3%
Увеличить количество эпох обучения
55%
Уменьшить скорость обучения
15%
Отключить все слои Dropout
27%
Перейти от оптимизатора Adam к обычному SGD без моментов
1
Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки.

Какой вид регуляризации вам следует использовать?
Anonymous Quiz
59%
L1-регуляризация
28%
L2-регуляризация
8%
Dropout
6%
Batch Normalization
В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?
Anonymous Quiz
27%
Macro-averaging
46%
Weighted-averaging
11%
Simple-averaging
17%
Micro-averaging
2