Data Science | Тесты
2.55K subscribers
26 photos
387 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.iss.one/+RQVnIJT__Z42ZWUy
Вакансии t.iss.one/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Чему равно p-value для выброса?

Это вероятность получить значение настолько же экстремальное, как наблюдаемое, при условии, что оно принадлежит общему распределению.
Чем меньше p-value, тем выше вероятность, что точка — выброс.
Значение зависит от метода (Grubbs, Dixon, Z-score и др.). Обычно, если p < 0.05, точка может считаться выбросом.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод помогает в обработке несбалансированных данных?
Anonymous Quiz
78%
SMOTE
4%
K-means
7%
PCA
12%
Random Forest
🤔 Какой метод часто применяют для предобработки данных перед моделированием?
Anonymous Quiz
90%
Normalization
2%
K-means
7%
PCA
1%
Логистическая регрессия
🤔 В каких моделях используются несимметрические метрики?

Несимметрические метрики часто используются в моделях, где присутствует дисбаланс классов или когда ошибки в одних классах имеют более высокую стоимость, чем ошибки в других. Например, в медицинской диагностике, финансовом мошенничестве или кредитном скоринге, где пропуск положительного случая (например, болезни) может быть критичным.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает дисперсию в ансамблевых методах?
Anonymous Quiz
63%
Bagging
28%
Boosting
6%
Stacking
3%
Gradient Descent
🤔 Какой метод используется для оценки модели машинного обучения на основе разделения данных на обучающую и тестовую выборки?
Anonymous Quiz
36%
Cross-validation
4%
Bootstrap
57%
Train-Test Split
3%
A/B Testing
💊5
🤔 Как избегают коллизии в хеш-таблице

Для предотвращения коллизий в хэш-таблице используются методы, такие как цепочки (связывание элементов в списки) и открытая адресация (перенос коллизий в другие доступные ячейки). Метод цепочек добавляет все значения с одинаковым хэшом в связанный список, что позволяет хранить несколько элементов в одной ячейке. В открытой адресации при коллизии выполняется последовательный поиск следующей свободной ячейки.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🤔 Какой метод машинного обучения устойчив к переобучению за счет использования нескольких слабых моделей?
Anonymous Quiz
6%
Линейная регрессия
84%
Градиентный бустинг
9%
K-ближайших соседей
1%
Логистическая регрессия
🤔 Какой метод уменьшает переобучение, нормализуя данные на каждой скрытой слое?
Anonymous Quiz
20%
Dropout
71%
Batch Normalization
3%
Early Stopping
7%
Gradient Clipping
🤔1
🤔 Что такое мультиколлинеарность?

Это ситуация, когда признаки сильно коррелируют друг с другом.
- Это вызывает нестабильность линейных моделей, так как коэффициенты могут становиться большими и неинтерпретируемыми.
- Решения: удаление зависимых признаков, PCA, L1-регуляризация (Lasso).


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какая техника используется для обработки естественного языка?
Anonymous Quiz
5%
Convolutional Neural Networks (CNN)
4%
Latent Dirichlet Allocation (LDA)
0%
Time Series Analysis
91%
Natural Language Processing (NLP)
💊4
🤔 Какой метод уменьшает дисперсию, комбинируя модели с заменой?
Anonymous Quiz
18%
Boosting
36%
Bagging
38%
Stacking
8%
Gradient Descent
🤔 Что такое пи вэлью?

P-value — это вероятность того, что наблюдаемые данные или более экстремальные данные могли бы возникнуть при условии, что нулевая гипотеза верна. В контексте статистических тестов, маленькое значение p-value указывает на то, что нулевая гипотеза может быть отвергнута в пользу альтернативной гипотезы. Обычно порог значимости устанавливается на уровне 0.05, и если p-value меньше этого порога, нулевая гипотеза отвергается. P-value не говорит о размере эффекта, а лишь о степени уверенности в полученных данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод оптимизации используется для минимизации функции потерь путем учета как первого, так и второго моментов градиентов?
Anonymous Quiz
21%
Градиентный спуск
30%
RMSProp
10%
Метод Ньютона
39%
Адам
💊1
🤔 Какой метод уменьшает смещение и дисперсию в ансамблевых моделях, используя взвешивание?
Anonymous Quiz
40%
Bagging
22%
Boosting
30%
Stacking
8%
Gradient Descent
💊1
🤔 В чём разница между методом GMM и K-Means?

1. K-Means:
o Основан на разделении данных по расстояниям до центроидов (жёсткое разделение).
o Каждая точка принадлежит только одному кластеру.
2. GMM (Gaussian Mixture Model):
o Использует вероятностный подход: каждая точка имеет вероятность принадлежности к каждому кластеру (мягкое разделение).
o Кластеры формируются на основе распределений Гаусса, что делает GMM более гибким для сложных данных.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает смещение и дисперсию, добавляя случайные шумы в данные?
Anonymous Quiz
12%
Bagging
15%
Dropout
68%
Data Augmentation
6%
Boosting
💊21
🤔 Какой метод машинного обучения используется для кластеризации данных на основе плотности?
Anonymous Quiz
17%
K-средние
65%
DBSCAN
10%
Иерархическая кластеризация
7%
T-SNE
🤔 Какой оптимизатор выбрать для обучения нейронной сети?

Adam часто используется из-за адаптивного шага обучения. SGD предпочтителен для больших данных.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод оптимизации используется для минимизации функции потерь путем адаптивного изменения скорости обучения?
Anonymous Quiz
12%
Градиентный спуск
22%
Стохастический градиентный спуск
12%
RMSProp
54%
Адам