Библиотека собеса по Data Science | вопросы с собеседований

В задаче бинарной классификации, что произойдет с метрикой Recall (Полнота) модели, если мы значительно понизим порог классификации (threshold)?

Anonymous Quiz

19%

Recall уменьшится, Precision (Точность) увеличится.

Обе метрики (Recall и Precision) увеличатся.

71%

Recall увеличится, Precision (Точность) уменьшится.

Обе метрики (Recall и Precision) уменьшатся.

❤1

215 voters703 views18:27

Библиотека собеса по Data Science | вопросы с собеседований

Вы работаете с категориальным признаком City (Город), который содержит более 1000 уникальных значений. Какой из перечисленных методов кодирования чаще всего используется в Data Science для работы с высококардинальными категориальными признаками

Anonymous Quiz

21%

Label Encoding

30%

Target Encoding (Mean Encoding)

33%

Frequency Encoding (Count Encoding)

16%

One-Hot Encoding

👍3

236 voters680 views16:59

Библиотека собеса по Data Science | вопросы с собеседований

Какой из перечисленных ниже сценариев наиболее явно указывает на то, что ваша модель машинного обучения страдает от сильного переобучения (overfitting)?

Anonymous Quiz

Высокая точность (95%) на обучающей выборке и высокая точность (93%) на тестовой выборке.

Низкая точность (60%) на обучающей выборке и низкая точность (58%) на тестовой выборке.

94%

Высокая точность (98%) на обучающей выборке и низкая точность (65%) на тестовой выборке.

Низкая точность (65%) на обучающей выборке и высокая точность (98%) на тестовой выборке.

👍3

234 voters618 views19:40

Библиотека собеса по Data Science | вопросы с собеседований

Почему вас валят на собесах по ML?

Чаще всего не из-за незнания fit/predict , а из-за непонимания математики, которая стоит за этими методами.

Мы перезапустили курс с живыми вебинарами, чтобы закрыть эти пробелы. Глубокое погружение в линейную алгебру.

Ближайшие темы (Hard Skills):

— Матрицы: ранг, обратимость, линейные преобразования и решение СЛАУ.

— Линейная регрессия: реализация МНК с нуля в NumPy vs scikit-learn , интерпретация коэффициентов.

— SVD и Eigenvalues: смысл собственных векторов, снижение размерности и построение рек. систем.

Вы научитесь не просто «тюнить параметры», а понимать физический смысл операций.

Вход в поток до 9 декабря.
https://clc.to/LojFzw

605 views12:38

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете модель Логистической регрессии, и она показывает низкую точность как на обучающей, так и на тестовой выборках. Вы решаете добавить L2. Какого результата следует ожидать?

Anonymous Quiz

16%

Точность модели на обеих выборках увеличится, так как регуляризация борется с недообучением.

67%

Точность, скорее всего, уменьшится или останется прежней, т.к. модель уже страдает от смещения.

Разрыв между точностью на обучающей и тестовой выборках увеличится, указывая на переобучение.

Модель начнет использовать только самые важные признаки (Feature Selection), что не связано с L2.

👍1

231 voters608 views19:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.

Какова наиболее вероятная причина такого поведения?

Anonymous Quiz

16%

K-Means чувствителен к наличию категориальных признаков.

K-Means страдает от проблемы исчезающего градиента.

51%

K-Means предполагает, что кластеры имеют выпуклую форму.

26%

K-Means требует ручного указания количества кластеров ($k$).

👍1

187 voters546 views18:44

Библиотека собеса по Data Science | вопросы с собеседований

Готовитесь к собеседованию в AI?

Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».

Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».

Важный апдейт:

— теперь обучение включает живые вебинары;

— первый прошел, но второй стартует сегодня, 9 декабря;

— это шанс разобрать сложные вопросы с экспертами в прямом эфире.

Что внутри:

— линейная алгебра;

— матанализ;

— теория вероятностей.

Успейте присоединиться к потоку

565 views11:59

Библиотека собеса по Data Science | вопросы с собеседований

Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?

Anonymous Quiz

19%

Дисперсионный сдвиг (Variance Shift)

25%

Дисперсионный сдвиг (Variance Shift)

18%

Сдвиг метки (Label Shift)

38%

Ковариатный сдвиг (Covariate Shift)

👍1

157 voters560 views18:54

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете глубокую нейронную сеть, которая показывает 99% точности на обучающей выборке, но всего 70% на тестовой. Какое из следующих действий, скорее всего, поможет снизить переобучение (overfitting), не требуя сбора новых данных?

Anonymous Quiz

77%

Применить Dropout к скрытым слоям нейронной сети.

Использовать более простую функцию активации, например, сигмоиду вместо ReLU.

Уменьшить степень регуляризации $\lambda$ в функции потерь.

Удалить все признаки с низкой дисперсией (Low Variance).

199 voters585 views18:26

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель и обнаруживаете, что хотя общая метрика производительности высока, индивидуальные p-значения большинства ваших переменных незначимы, а коэффициенты (weights) модели демонстрируют высокую чувствительность к небольшим изменениям в данных.

Anonymous Quiz

29%

Гетероскедастичность (Heteroscedasticity)

11%

Недообучение (Underfitting)

49%

Мультиколлинеарность (Multicollinearity)

11%

Автокорреляция остатков (Autocorrelation of Residuals)

❤2

144 voters561 views17:48

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете SVM для классификации, но обнаружили, что данные не являются линейно разделимыми в исходном пространстве признаков.

Какая техника позволяет SVM классифицировать нелинейные данные, не увеличивая явно размерность пространства?

Anonymous Quiz

60%

Ядерный трюк (Kernel Trick)

12%

Эластичная сеть (Elastic Net Regularization)

24%

Снижение размерности с помощью PCA

Случайная подвыборка признаков (Random Subspace)

❤1

156 voters507 views16:52

Библиотека собеса по Data Science | вопросы с собеседований

При использовании алгоритма k-ближайших соседей (k-NN) для классификации, какое влияние будет иметь слишком маленькое значение k (например, k=1) на поведение модели?

Anonymous Quiz

29%

Модель будет иметь высокое смещение (Bias) и страдать от недообучения (Underfitting)

11%

Модель будет иметь низкую дисперсию (Variance) и высокую обобщающую способность

50%

Модель будет иметь высокую дисперсию, быть очень чувствительной к шуму и переобучаться

Модель станет нечувствительной к масштабу признаков

❤2

177 voters447 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Вы разрабатываете рекомендательную систему для нового стримингового сервиса. Какая из перечисленных ниже ситуаций является классическим примером проблемы холодного старта (Cold Start Problem)?

Anonymous Quiz

11%

Алгоритм не может обработать новый жанр фильма, так как он не был представлен в обучающей выборке

86%

Система не может давать качественные рекомендации новому пользователю, поскольку у него нет истории

Алгоритм слишком сложен, что приводит к долгому времени отклика при генерации рекомендаций

👍5

161 voters414 views17:56

Библиотека собеса по Data Science | вопросы с собеседований

При оценке бинарного классификатора была построена Матрица ошибок. Какая метрика рассчитывается как отношение истинно положительных срабатываний ко всем фактически положительным случаям?

Anonymous Quiz

👍4🌚2

150 voters346 views18:18

Библиотека собеса по Data Science | вопросы с собеседований

Математика — это фильтр на входе

На собеседованиях по DS часто валят не на коде, а на вопросах по линейной алгебре, статам или терверу. Не дай теории стать твоим узким местом.

Уравнение выгоды: 1 + 2.

Берешь три курса, платишь за один (тот, что дороже).

Что усилит резюме:

— Математика для Data Science;
— AI-агенты для DS-специалистов;
— ML для старта.

Обучить свою нейронку

До 31 декабря.
Саппорт: @manager_proglib

174 views14:29

About

Blog

Apps

Platform