При построении дерева решений (Decision Tree) без ограничений, оно может расти до тех пор, пока в каждом листе не окажется ровно по одному объекту из обучающей выборки. К какому фундаментальному последствию для характеристик модели это приводит?
Anonymous Quiz
11%
У модели будет низкое смещение (low bias) и низкая дисперсия (low variance)
15%
У модели будет высокое смещение (high bias) и высокая дисперсия (high variance)
57%
У модели будет очень низкое смещение (low bias), но очень высокая дисперсия (high variance)
17%
У модели будет очень высокое смещение (high bias), но очень низкая дисперсия (low variance)
❤1
Вы обучаете нейронную сеть и замечаете, что на графике Train Loss сначала стабильно падает, а затем начинает резко колебаться или даже расти. При этом точность перестает улучшаться.
Какое изменение, скорее всего, поможет стабилизировать процесс?
Какое изменение, скорее всего, поможет стабилизировать процесс?
Anonymous Quiz
80%
Уменьшить скорость обучения (Learning Rate)
3%
Увеличить количество эпох обучения
10%
Отключить все слои Dropout
8%
Убрать слои нормализации (например, Batch Normalization)
👍2
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене
🔘 Pro версия является ТОП-1 опенсорсом в мире
🔘 Lite версия (2B параметров) лучше первой версии Sora
🔘 На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘 Для российских генеративных моделей выход на международную арену — уникальное событие
🚀 Полезные ссылки:
🔘 Посмотреть весь лидерборд: lmarena
🔘 Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘 Open Source Kandinsky 5.0: github и hf
🚀 Полезные ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
При работе с RNN для обработки длинных последовательностей часто возникает проблема, из-за которой модель «забывает» информацию, полученную в самом начале последовательности.
Какое архитектурное решение было разработано для борьбы с этой проблемой?
Какое архитектурное решение было разработано для борьбы с этой проблемой?
Anonymous Quiz
2%
Перцептрон (Multilayer Perceptron)
92%
Долгая краткосрочная память (Long Short-Term Memory, LSTM)
5%
Сверточный слой (Convolutional Layer)
2%
Полносвязный слой (Dense Layer)
Задача — предсказать, совершит ли клиент покупку в интернет-магазине. В датасете вы обнаружили признак «ID транзакции чека». Вы включили его в модель, и она показала AUC-ROC = 0.999. Однако при проверке на новых данных модель не работает.
Что произошло?
Что произошло?
Anonymous Quiz
10%
Модель слишком простая для таких данных
5%
В данных могут быть пропуски
20%
Вы использовали неправильную метрику качества
65%
Произошла утечка
❤2
Вы обучаете RNN для генерации текста. В процессе обучения вы замечаете в логах, что значения Loss внезапно становятся NaN, а веса модели принимают экстремально большие значения.
Какая техника является наиболее простым способом борьбы с этой проблемой?
Какая техника является наиболее простым способом борьбы с этой проблемой?
Anonymous Quiz
18%
Dropout (Дропаут)
48%
Gradient Clipping (Обрезка градиентов)
26%
L2-регуляризация (Ridge)
8%
Увеличение размера батча (Batch Size)
❤1
Вы работаете с данными, которые имеют сложную форму: два кластера вложены друг в друга как кольца. Вы попробовали K-Means, но он разделил кольца вертикально.
Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?
Какой алгоритм лучше всего справится с этой задачей, не требуя указывать количество кластеров?
Anonymous Quiz
10%
Agglomerative Clustering
16%
Метод главных компонент (PCA)
13%
Гауссовы модели (Gaussian Mixture Models)
61%
DBSCAN
👍1
WANTED: DS-ИНТЕРВЬЮЕР
Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить
Приметы:
— является профи в
— знает, какие вопросы реально задают на собеседованиях в бигтех;
— умеет объяснять сложные модели без потери смысла;
— хочет стать узнаваемым лицом в DS-комьюнити.
Что мы предлагаем:
— гонорар за разработку учебных материалов;
— прокачка личного бренда на большую аудиторию;
— сотрудничество с командой Proglib Academy.
Явка с повинной
P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.
Обвиняется в умении загнать в тупик вопросом про регуляризацию. Мы ищем эксперта, который поможет другим соискателям разложить
Machine Learning и статистику по полочкам.Приметы:
— является профи в
Python и математической статистике;— знает, какие вопросы реально задают на собеседованиях в бигтех;
— умеет объяснять сложные модели без потери смысла;
— хочет стать узнаваемым лицом в DS-комьюнити.
Что мы предлагаем:
— гонорар за разработку учебных материалов;
— прокачка личного бренда на большую аудиторию;
— сотрудничество с командой Proglib Academy.
Явка с повинной
P.S. Твой знакомый дата-сайентист знает слишком много? Сдай его нам.
❤1
Представьте, что вы прогнозируете цены на акции. У вас есть данные за 3 года (с 2021 по 2023).
Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?
Почему использование стандартной K-fold кросс-валидации является критической ошибкой при оценке качества такой модели?
Anonymous Quiz
6%
K-fold кросс-валидация требует слишком много вычислительных мощностей для временных рядов
7%
Временные ряды всегда имеют нормальное распределение, поэтому кросс-валидация не нужна
2%
Она не позволяет использовать категориальные признаки
85%
Она нарушает временную структуру данных
Вы обучаете модель Random Forest. Вы заметили, что каждое отдельное дерево в лесу переобучено.
Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?
Как это повлияет на итоговую модель ансамбля, если деревьев в лесу достаточно много (например, 500)?
Anonymous Quiz
24%
Модель тоже будет сильно переобучена, так как она состоит из переобученных деревьев
60%
Модель будет хорошо обобщать, т.к. усреднение независимых переобученных деревьев снижает дисперсию.
6%
Модель будет работать крайне медленно и выдавать случайные результаты
11%
Ошибка на тестовой выборке будет расти пропорционально количеству деревьев
👍1
Какую функцию потерь нельзя использовать для задачи классификации напрямую?
Anonymous Quiz
6%
Log-Loss
11%
Hinge Loss
11%
Categorical Cross-Entropy
72%
Mean Squared Error
❤2
В методе Stacking (Стэкинг) предсказания нескольких моделей передаются в «мета-модель». Как обычно обучается эта мета-модель?
Anonymous Quiz
15%
На тех же данных, что и основные модели
42%
На Out-of-fold
33%
Путем простого голосования большинством
11%
С использованием только самых важных признаков
❤1
Популярная библиотека CatBoost строит «симметричные» или «забывчивые» деревья (Oblivious Trees). В чем их архитектурная особенность по сравнению с XGBoost или LightGBM?
Anonymous Quiz
11%
Они растут только в одну сторону (влево)
17%
Они используют только категориальные признаки и игнорируют числа
11%
Деревья имеют бесконечную глубину, но очень мало листьев
60%
На каждом уровне используется один и тот же признак и одно и то же условие разделения для всех узлов
При кодировании категорий (например, названий городов) средним значением целевой переменной (Target Encoding) часто возникает дикая утечка данных. Какой метод «сглаживания» помогает этого избежать?
Anonymous Quiz
22%
Замена всех редких городов на «Other»
41%
Добавление глобального среднего к среднему по категории с весом или использование Leave-one-out
28%
Использование One-Hot Encoding вместо Target Encoding
9%
даление целевой переменной из обучающей выборки
❤1
Вы обучили две модели. У первой ROC-AUC выше, но у второй Log-Loss (Cross-Entropy) значительно лучше (меньше). О чем это говорит?
Anonymous Quiz
11%
Первая модель лучше предсказывает вероятности, но ошибается в порядке объектов
60%
Первая модель лучше ранжирует объекты, но вторая выдает более точные и откалиброванные вероятности
23%
Вторая модель просто переобучена под обучающую выборку
6%
Эти метрики всегда растут и падают одновременно, такой ситуации быть не может
❤3
Вы строите модель линейной регрессии для предсказания стоимости недвижимости. В ваш набор данных входят два признака: «Общая площадь в квадратных метрах» и «Общая площадь в квадратных футах».
Как наличие этих признаков скажется на вашей модели?
Как наличие этих признаков скажется на вашей модели?
Anonymous Quiz
4%
Точность предсказания резко вырастет, так как модель получит данные в разных системах измерения
4%
Модель не сможет обучиться и выдаст ошибку деления на ноль
77%
Коэффициенты модели станут нестабильными и неинтерпретируемыми, хотя точность может быть высокой
15%
Модель автоматически удалит один из признаков в процессе градиентного спуска
❤2
Вы обучаете очень большую нейронную сеть для распознавания лиц. Вы заметили, что ошибка на train близка к нулю, но на validation она остается очень высокой.
Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Какая техника позволяет бороться с этим, случайно отключая часть нейронов во время обучения?
Anonymous Quiz
7%
Batch Normalization
85%
Dropout
6%
Data Augmentation
2%
Dense Layer
❤1
Вы работаете над моделью для анализа текстов. Вместо простых чисел для каждого слова (One-Hot Encoding), вы решили использовать Word Embeddings.
Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?
Какое ключевое свойство эмбеддингов делает их незаменимыми для понимания смысла текста нейросетями?
Anonymous Quiz
1%
Они позволяют закодировать слова в виде целых чисел от 1 до 10 000
88%
Они переводят слова в векторы фикс.размерности, где геом.расстояние отражает смысловую близость слов
9%
Они гарантируют, что каждое слово в языке будет иметь уник.вектор, не похожий ни на один другой
1%
Они автоматически исправляют грамматические ошибки в тексте
Вы обучаете модель для определения того, является ли транзакция мошеннической. На выходе модель выдает вероятность. По умолчанию в большинстве библиотек порог классификации равен 0.5.
Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Что произойдет, если вы решите увеличить порог с 0.5 до 0.9 ?
Anonymous Quiz
17%
Модель станет находить больше случаев мошенничества, но будет чаще ошибаться
8%
Точность предсказания (Accuracy) всегда увеличивается при повышении порога
6%
Веса модели изменятся, так как порог влияет на процесс обучения
69%
Модель станет делать меньше ложных обвинений, но пропустит больше реальных мошенников