Data Science | Тесты
2.55K subscribers
25 photos
384 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.iss.one/+RQVnIJT__Z42ZWUy
Вакансии t.iss.one/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Какая метрика используется для оценки качества модели классификации, учитывающая как полноту, так и точность?
Anonymous Quiz
18%
ROC AUC
74%
F1 Score
2%
Mean Squared Error
6%
Accuracy
🤔 В чём смысл Information Value (IV)?

Это метрика, используемая для оценки предсказательной способности признака относительно целевой переменной.
1. Высокое значение IV говорит о сильной связи между признаком и целевой переменной.
2. Часто используется в кредитном скоринге для выбора наиболее значимых признаков.
3. Значения IV помогают определить, какие признаки следует включить в модель, а какие можно исключить.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод используется для детектирования выбросов в наборе данных?
Anonymous Quiz
59%
DBSCAN
8%
k-means
25%
LDA
9%
PCA
🔥2
🤔 Какой метод часто используется для обнаружения аномалий в данных?
Anonymous Quiz
5%
Линейная регрессия
6%
Логистическая регрессия
75%
Изолирующий лес
15%
K-means
🤔 Чем отличается градиентный спуск от SGD?

Градиентный спуск использует весь набор данных для вычисления градиента и обновления параметров, что требует значительных вычислительных ресурсов. Стохастический градиентный спуск (SGD) обновляет параметры после каждого примера или мини-батча, что ускоряет обучение, но может быть менее стабильным. SGD часто сходится быстрее, но может застревать в локальных минимумах.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 Какой метод часто применяют для классификации изображений?
Anonymous Quiz
92%
CNN
3%
K-means
2%
PCA
2%
Логистическая регрессия
🤔 Какой метод кластеризации не требует заранее знать число кластеров?
Anonymous Quiz
28%
K-means
44%
DBSCAN
24%
Hierarchical Clustering
4%
Mean Shift
🤔 Чем отличаются str и repr?

str предназначен для отображения понятного текста для пользователя, repr — для отображения точного представления объекта для разработчика.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой алгоритм используется для снижения размерности данных с сохранением их вариативности?
Anonymous Quiz
6%
K-means кластеризация
90%
Метод главных компонент (PCA)
1%
Линейная регрессия
3%
Деревья решений
🤔 Какой метод машинного обучения используется для предсказания категориальных переменных на основе временных рядов?
Anonymous Quiz
13%
Decision Tree
13%
Логистическая регрессия
25%
Автоэнкодеры
49%
RNN
🤔 Какие принципы ООП тебе известны?

Основные принципы: инкапсуляция (сокрытие данных), наследование (повторное использование кода), полиморфизм (разные реализации одного интерфейса), абстракция (выделение ключевых характеристик).

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод уменьшает дисперсию, объединяя предсказания моделей на мета-уровне?
Anonymous Quiz
42%
Bagging
14%
Boosting
38%
Stacking
6%
Dropout
🤔 Какой метод уменьшает дисперсию, используя случайные подмножества признаков?
Anonymous Quiz
43%
Bagging
37%
Random Forest
12%
Boosting
9%
Stacking
💊1
🤔 Что известно о ML дизайне?

ML-дизайн включает выбор модели, структуры данных, метрик и процесса обучения для конкретной задачи. Важные аспекты:
• Постановка задачи (классификация, регрессия, кластеризация).
• Подготовка данных (очистка, масштабирование, выделение признаков).
• Выбор и настройка модели, а также оптимизация гиперпараметров.
• Оценка результатов (использование метрик качества и валидации).


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 Какой метод машинного обучения используется для классификации текстовых данных с учетом порядка слов?
Anonymous Quiz
3%
Линейная регрессия
5%
K-means
84%
N-grams
9%
Логистическая регрессия
💊4
🤔 Какой метод используется для обнаружения аномалий в данных?
Anonymous Quiz
74%
Isolation Forest
3%
Linear Regression
21%
K-means Clustering
3%
Decision Tree
🤔 Какая скорость поиска в хэш-таблице

Скорость поиска в хэш-таблице (например, HashMap) в среднем составляет O(1), так как ключи напрямую отображаются в индекс с помощью хэш-функции. В худшем случае, при коллизиях, время поиска может увеличиваться до O(n), если хэш-таблица не оптимизирована или используется неэффективная стратегия разрешения коллизий. Однако в большинстве случаев эффективные хэш-функции и методы обработки коллизий поддерживают близкую к O(1) скорость.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшения размерности используется для выделения линейных комбинаций признаков, которые максимизируют разницу между классами?
Anonymous Quiz
52%
PCA
22%
LDA
23%
T-SNE
3%
T-SNE
🤔 Какой метод используют для уменьшения дисперсии оценок модели в кросс-валидации?
Anonymous Quiz
30%
Bootstrap Aggregating
11%
Principal Component Analysis
52%
K-fold Cross Validation
6%
Random Subsampling
👍1💊1
🤔 Какой функционал оптимизируется в задаче линейной регрессии? Как записать это в векторной записи?

Оптимизируется ошибка между предсказанными и фактическими значениями, минимизируя среднеквадратичное отклонение, что позволяет определить параметры модели.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM