Библиотека собеса по Data Science | вопросы с собеседований

Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023).

Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?

Anonymous Quiz

K-fold кросс-валидация требует слишком много вычислительных мощностей для временных рядов

Временные ряды всегда имеют нормальное распределение, поэтому кросс-валидация не нужна

Она не позволяет использовать категориальные признаки

85%

Она нарушает временную структуру данных

235 voters783 views18:21

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено.

Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?

Anonymous Quiz

24%

Модель тоже будет сильно переобучена, так как она состоит из переобученных деревьев

59%

Модель будет хорошо обобщать, т.к. усреднение независимых переобученных деревьев снижает дисперсию.

Модель будет работать крайне медленно и выдавать случайные результаты

11%

Ошибка на тестовой выборке будет расти пропорционально количеству деревьев

👍1

261 voters894 views18:45

Библиотека собеса по Data Science | вопросы с собеседований

Что такое TF-IDF?

Anonymous Quiz

Алгоритм перевода текста с одного языка на другой

Нейронная сеть для предсказания следующего слова

87%

Статистическая мера, оценивающая важность слова в документе относительно всей выборки

Способ сжатия текста без потери смысла

👍2

346 voters884 views18:49

Библиотека собеса по Data Science | вопросы с собеседований

Какую функцию потерь нельзя использовать для задачи классификации напрямую?

Anonymous Quiz

Categorical Cross-Entropy

73%

Mean Squared Error

❤2

263 voters809 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?

Anonymous Quiz

15%

На тех же данных, что и основные модели

41%

На Out-of-fold

33%

Путем простого голосования большинством

11%

С использованием только самых важных признаков

❤1

212 voters773 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?

Anonymous Quiz

11%

Они растут только в одну сторону (влево)

19%

Они используют только категориальные признаки и игнорируют числа

12%

Деревья имеют бесконечную глубину, но очень мало листьев

59%

На каждом уровне используется один и тот же признак и одно и то же условие разделения для всех узлов

227 voters818 views08:04

Библиотека собеса по Data Science | вопросы с собеседований

При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?

Anonymous Quiz

23%

Замена всех редких городов на «Other»

40%

Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out

28%

Использование One-Hot Encoding вместо Target Encoding

даление целевой переменной из обучающей выборки

❤1

215 voters754 views16:48

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?

Anonymous Quiz

12%

Первая модель лучше предсказывает вероятности, но ошибается в порядке объектов

60%

Первая модель лучше ранжирует объекты, но вторая выдает более точные и откалиброванные вероятности

22%

Вторая модель просто переобучена под обучающую выборку

Эти метрики всегда растут и падают одновременно, такой ситуации быть не может

❤3

276 voters784 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».

Как наличие этих признаков скажется на вашей модели?

Anonymous Quiz

Точность предсказания резко вырастет, так как модель получит данные в разных системах измерения

Модель не сможет обучиться и выдаст ошибку деления на ноль

77%

Коэффициенты модели станут нестабильными и неинтерпретируемыми, хотя точность может быть высокой

15%

Модель автоматически удалит один из признаков в процессе градиентного спуска

❤2

250 voters704 views11:50

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.

Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?

Anonymous Quiz

❤1

274 voters645 views18:41

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings.

Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?

Anonymous Quiz

Они позволяют закодировать слова в виде целых чисел от 1 до 10 000

89%

Они переводят слова в векторы фикс.размерности, где геом.расстояние отражает смысловую близость слов

Они гарантируют, что каждое слово в языке будет иметь уник.вектор, не похожий ни на один другой

Они автоматически исправляют грамматические ошибки в тексте

249 voters708 views18:52

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5.

Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?

Anonymous Quiz

19%

Модель станет находить больше случаев мошенничества, но будет чаще ошибаться

Точность предсказания (Accuracy) всегда увеличивается при повышении порога

Веса модели изменятся, так как порог влияет на процесс обучения

69%

Модель станет делать меньше ложных обвинений, но пропустит больше реальных мошенников

❤3

228 voters621 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете CNN и замечаете, что Loss на train ведет себя крайне нестабильно: она то резко падает, то внезапно подскакивает до огромных значений, а затем и вовсе выдает ошибку NaN.

Какое изменение, скорее всего, поможет стабилизировать процесс?

Anonymous Quiz

Увеличить количество эпох обучения

55%

Уменьшить скорость обучения

15%

Отключить все слои Dropout

27%

Перейти от оптимизатора Adam к обычному SGD без моментов

❤1

224 voters601 views18:15

Библиотека собеса по Data Science | вопросы с собеседований

Представьте, что вы обучаете линейную регрессию на наборе данных с очень большим количеством признаков, многие из которых являются шумом. Вы хотите, чтобы модель сама «выбрала» самые важные признаки.

Какой вид регуляризации вам следует использовать?

Anonymous Quiz

243 voters539 views18:35

Библиотека собеса по Data Science | вопросы с собеседований

В задаче многоклассовой классификации вы хотите рассчитать F1-score так, чтобы каждый объект имел равный вес, независимо от размера его класса. Какой тип усреднения вам нужен?

Anonymous Quiz

❤2

197 voters508 views18:29

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с RNN или Трансформером, где длина последовательности может меняться от батча к батчу, а размер батча может быть очень маленьким.

Почему в этой ситуации Layer Normalization будет работать значительно лучше, чем Batch Normalization?

Anonymous Quiz

20%

LN вычисляет статистику по всему обучающему набору данных заранее, что ускоряет инференс

59%

LN вычисляет среднее и дисперсию для каждого отдельного примера по всем его признакам

15%

LN использует L1-регуляризацию внутри слоя, что автоматически обнуляет бесполезные веса

BN математически несовместима с механизмом Self-Attention

👍2❤1

152 voters458 views17:57

Библиотека собеса по Data Science | вопросы с собеседований

При использовании Layer Normalization (LN) в архитектуре Transformer, в чем заключается основное преимущество стратегии 'Pre-LN' (нормализация перед блоком Attention/FFN) по сравнению с оригинальной 'Post-LN'?

Anonymous Quiz

29%

Она делает модель устойчивой к очень большим размерам батча (batch size)

Она позволяет избежать использования механизма Dropout в глубоких слоях

Pre-LN значительно увеличивает вычислительную сложность каждого шага обучения

56%

Она создает прямой путь для градиентов, облегчая обучение экстремально глубоких сетей

❤1

119 voters395 views17:42

Библиотека собеса по Data Science | вопросы с собеседований

В оптимизаторе AdamW была введена модификация классического Adam. Какую конкретную проблему она решает при использовании L2-регуляризации?

Anonymous Quiz