Data Science | Тесты
2.51K subscribers
25 photos
366 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.iss.one/+RQVnIJT__Z42ZWUy
Вакансии t.iss.one/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Что такое пи вэлью?

P-value — это вероятность того, что наблюдаемые данные или более экстремальные данные могли бы возникнуть при условии, что нулевая гипотеза верна. В контексте статистических тестов, маленькое значение p-value указывает на то, что нулевая гипотеза может быть отвергнута в пользу альтернативной гипотезы. Обычно порог значимости устанавливается на уровне 0.05, и если p-value меньше этого порога, нулевая гипотеза отвергается. P-value не говорит о размере эффекта, а лишь о степени уверенности в полученных данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод оптимизации используется для минимизации функции потерь путем учета как первого, так и второго моментов градиентов?
Anonymous Quiz
20%
Градиентный спуск
29%
RMSProp
10%
Метод Ньютона
41%
Адам
🤔 Какой метод уменьшает смещение и дисперсию в ансамблевых моделях, используя взвешивание?
Anonymous Quiz
41%
Bagging
22%
Boosting
30%
Stacking
8%
Gradient Descent
🤔 В чём разница между методом GMM и K-Means?

1. K-Means:
o Основан на разделении данных по расстояниям до центроидов (жёсткое разделение).
o Каждая точка принадлежит только одному кластеру.
2. GMM (Gaussian Mixture Model):
o Использует вероятностный подход: каждая точка имеет вероятность принадлежности к каждому кластеру (мягкое разделение).
o Кластеры формируются на основе распределений Гаусса, что делает GMM более гибким для сложных данных.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает смещение и дисперсию, добавляя случайные шумы в данные?
Anonymous Quiz
10%
Bagging
15%
Dropout
69%
Data Augmentation
6%
Boosting
💊20
🤔 Какой метод машинного обучения используется для кластеризации данных на основе плотности?
Anonymous Quiz
17%
K-средние
65%
DBSCAN
10%
Иерархическая кластеризация
8%
T-SNE
🤔 Какой оптимизатор выбрать для обучения нейронной сети?

Adam часто используется из-за адаптивного шага обучения. SGD предпочтителен для больших данных.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод оптимизации используется для минимизации функции потерь путем адаптивного изменения скорости обучения?
Anonymous Quiz
11%
Градиентный спуск
21%
Стохастический градиентный спуск
10%
RMSProp
57%
Адам
🤔 Какой метод использует алгоритм ожидаемого максимума для кластеризации данных?
Anonymous Quiz
22%
K-means
18%
DBSCAN
36%
Gaussian Mixture Models
25%
Hierarchical Clustering
🤔 Сравнение архитектуры RNN, CNN, трансформера?

RNN обрабатывает данные последовательно и хорошо работает с временными рядами или текстами, но страдает от проблем с градиентами и плохо масштабируется. CNN извлекает локальные признаки через свёртки, изначально предназначен для изображений, но может применяться к тексту. Трансформер использует механизм внимания, обрабатывает всё параллельно и учитывает контекст целиком, что делает его эффективным в работе с языком и последовательностями.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
💊1
🤔 Какой метод уменьшает дисперсию в ансамблевом обучении?
Anonymous Quiz
61%
Bagging
29%
Boosting
4%
Gradient Descent
6%
Cross-Validation
🔥1
🤔 Какой метод снижает дисперсию ансамблевой модели в машинном обучении?
Anonymous Quiz
67%
Бэггинг
17%
Градиентный бустинг
13%
Случайные леса
3%
Стеккинг
🤔 В чем разница между командами DELETE и TRUNCATE?

`DELETE` удаляет строки из таблицы на основе указанного условия и записывает каждое удаление в журнал транзакций, что позволяет выполнить откат операции. `TRUNCATE` быстро удаляет все строки из таблицы, не записывая в журнал отдельные удаления, что делает эту операцию быстрой, но необратимой.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшения размерности часто используется для визуализации данных?
Anonymous Quiz
41%
PCA
50%
T-SNE
7%
LDA
2%
NMF
🤔 Какой метод машинного обучения используется для анализа изображений и распознавания объектов на основе их особенностей?
Anonymous Quiz
2%
Decision Tree
2%
Логистическая регрессия
88%
Convolutional Neural Networks (CNN)
7%
Автоэнкодеры
🤔 Почему хорошо работает случайный лес?

Случайный лес работает хорошо, потому что он сочетает предсказания множества независимых деревьев решений, что снижает вероятность переобучения и увеличивает общую точность модели. Каждое дерево строится на случайной подвыборке данных и случайных признаках, что обеспечивает разнообразие моделей. За счёт этого случайный лес становится устойчивым к шуму и переобучению, предоставляя более стабильные и обобщающие предсказания. Модель также устойчива к выбросам и может эффективно работать с большим количеством признаков.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой алгоритм находит ближайших соседей по эвклидовому расстоянию?
Anonymous Quiz
0%
Decision Tree
3%
Random Forest
97%
K-Nearest Neighbors
0%
Gradient Boosting
🤔 Что знаешь про early stopping?

Early stopping — это техника регуляризации, которая завершает обучение модели, если метрика качества на валидационном наборе перестаёт улучшаться. Это предотвращает переобучение, позволяя сохранить оптимальные параметры до ухудшения обобщающей способности. Метод основан на мониторинге функции ошибки или качества модели во время каждой итерации обучения.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод используется для выбора наиболее важных признаков в модели?
Anonymous Quiz
53%
PCA
25%
Lasso
19%
K-means
3%
Decision Tree