Библиотека собеса по Data Science | вопросы с собеседований
4.27K subscribers
480 photos
15 videos
1 file
591 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.iss.one/proglibrary/9197
Download Telegram
В задаче бинарной классификации, что произойдет с метрикой Recall (Полнота) модели, если мы значительно понизим порог классификации (threshold)?
Anonymous Quiz
19%
Recall уменьшится, Precision (Точность) увеличится.
7%
Обе метрики (Recall и Precision) увеличатся.
71%
Recall увеличится, Precision (Точность) уменьшится.
4%
Обе метрики (Recall и Precision) уменьшатся.
1
Вы работаете с категориальным признаком City (Город), который содержит более 1000 уникальных значений. Какой из перечисленных методов кодирования чаще всего используется в Data Science для работы с высококардинальными категориальными признаками
Anonymous Quiz
21%
Label Encoding
30%
Target Encoding (Mean Encoding)
33%
Frequency Encoding (Count Encoding)
16%
One-Hot Encoding
👍3
Почему вас валят на собесах по ML?

Чаще всего не из-за незнания fit/predict , а из-за непонимания математики, которая стоит за этими методами.

Мы перезапустили курс с живыми вебинарами, чтобы закрыть эти пробелы. Глубокое погружение в линейную алгебру.

Ближайшие темы (Hard Skills):

Матрицы: ранг, обратимость, линейные преобразования и решение СЛАУ.

Линейная регрессия: реализация МНК с нуля в NumPy vs scikit-learn , интерпретация коэффициентов.

SVD и Eigenvalues: смысл собственных векторов, снижение размерности и построение рек. систем.

Вы научитесь не просто «тюнить параметры», а понимать физический смысл операций.

Вход в поток до 9 декабря.
https://clc.to/LojFzw
Вы используете алгоритм K-Means. Вы визуализировали результат и заметили, что два ваших кластера перекрываются в форме полумесяцев.

Какова наиболее вероятная причина такого поведения?
Anonymous Quiz
16%
K-Means чувствителен к наличию категориальных признаков.
7%
K-Means страдает от проблемы исчезающего градиента.
51%
K-Means предполагает, что кластеры имеют выпуклую форму.
26%
K-Means требует ручного указания количества кластеров ($k$).
👍1
Готовитесь к собеседованию в AI?

Вопросы по математической базе — стандартный этап отбора на позиции Data Scientist и ML Engineer. Вас спросят не только про код, но и про то, как работают алгоритмы «под капотом».

Прокачайте хард-скиллы на обновленном курсе «Математика для разработки AI-моделей».

Важный апдейт:

— теперь обучение включает живые вебинары;

— первый прошел, но второй стартует сегодня, 9 декабря;

— это шанс разобрать сложные вопросы с экспертами в прямом эфире.

Что внутри:

— линейная алгебра;

— матанализ;

— теория вероятностей.

Успейте присоединиться к потоку
Какая проблема возникает, когда распределение входных данных (признаков X) в тестовой среде отличается от распределения, на котором обучалась модель, но при этом связь между входными данными и целевой переменной (P(Y∣X)) остается неизменной?
Anonymous Quiz
19%
Дисперсионный сдвиг (Variance Shift)
25%
Дисперсионный сдвиг (Variance Shift)
18%
Сдвиг метки (Label Shift)
38%
Ковариатный сдвиг (Covariate Shift)
👍1
Вы обучаете глубокую нейронную сеть, которая показывает 99% точности на обучающей выборке, но всего 70% на тестовой. Какое из следующих действий, скорее всего, поможет снизить переобучение (overfitting), не требуя сбора новых данных?
Anonymous Quiz
77%
Применить Dropout к скрытым слоям нейронной сети.
9%
Использовать более простую функцию активации, например, сигмоиду вместо ReLU.
6%
Уменьшить степень регуляризации $\lambda$ в функции потерь.
8%
Удалить все признаки с низкой дисперсией (Low Variance).
Вы строите модель и обнаруживаете, что хотя общая метрика производительности высока, индивидуальные p-значения большинства ваших переменных незначимы, а коэффициенты (weights) модели демонстрируют высокую чувствительность к небольшим изменениям в данных.
Anonymous Quiz
29%
Гетероскедастичность (Heteroscedasticity)
11%
Недообучение (Underfitting)
49%
Мультиколлинеарность (Multicollinearity)
11%
Автокорреляция остатков (Autocorrelation of Residuals)
2
Вы используете SVM для классификации, но обнаружили, что данные не являются линейно разделимыми в исходном пространстве признаков.

Какая техника позволяет SVM классифицировать нелинейные данные, не увеличивая явно размерность пространства?
Anonymous Quiz
60%
Ядерный трюк (Kernel Trick)
12%
Эластичная сеть (Elastic Net Regularization)
24%
Снижение размерности с помощью PCA
4%
Случайная подвыборка признаков (Random Subspace)
1
При оценке бинарного классификатора была построена Матрица ошибок. Какая метрика рассчитывается как отношение истинно положительных срабатываний ко всем фактически положительным случаям?
Anonymous Quiz
46%
Precision
4%
F1-Score
40%
Recall
10%
Accuracy
👍4🌚2
Математика — это фильтр на входе

На собеседованиях по DS часто валят не на коде, а на вопросах по линейной алгебре, статам или терверу. Не дай теории стать твоим узким местом.

Уравнение выгоды: 1 + 2.

Берешь три курса, платишь за один (тот, что дороже).

Что усилит резюме:

— Математика для Data Science;
— AI-агенты для DS-специалистов;
— ML для старта.

Обучить свою нейронку

До 31 декабря.
Саппорт: @manager_proglib