Да. Эмбеддинги, как и любые параметры модели, могут переобучиться или потерять смысловую структуру, если данных мало или регуляризация отсутствует.
Векторы могут разрастаться по величине без отражения полезных отношений между токенами.
Способы защиты:
Регуляризация и мониторинг обучения помогают поддерживать эмбеддинги информативными и обобщающими.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Популярные варианты: Gini impurity и энтропия (information gain).
Сравнение:
Выбор на практике: часто метрики дают схожие результаты, поэтому решение зависит от скорости обучения, размеров данных и поведения конкретного датасета. Экспериментальная проверка с кросс-валидацией может помочь определить лучший вариант для вашей задачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
✨ Halloween Special — последний день магии! 👻
Успевай сегодня купить курсы со скидкой 40%!
А также участвуй в розыгрыше MacBook Pro 14 💻
После полуночи останется только тыква 🎃
🔮 Открой портал и выбери курс
Успевай сегодня купить курсы со скидкой 40%!
А также участвуй в розыгрыше MacBook Pro 14 💻
После полуночи останется только тыква 🎃
🔮 Открой портал и выбери курс
Тренирует несколько моделей на разных случайных подвыборках данных и усредняет или объединяет их предсказания.
В нейросетях аналогом может быть обучение с разными аугментациями данных или случайной инициализацией весов. Это снижает переобучение и повышает стабильность.
Обучает модели последовательно — каждая новая модель старается исправить ошибки предыдущей.
В глубоких сетях встречается реже, но идеи boosting можно реализовать через специальные функции потерь или адаптивные схемы обучения.
Использует предсказания нескольких базовых моделей как входы для метамодели (второго уровня), которая учится оптимально комбинировать эти выходы.
В deep learning это можно реализовать с помощью второй нейросети, обученной на выходах нескольких базовых моделей (ensemble blending).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Сопряжённые априоры — это такие априорные распределения, которые при комбинировании с конкретной функцией правдоподобия дают апостериорное распределение того же семейства, что и априорное.
Это делает байесовское обновление аналитически простым и позволяет получить закрытые формы постериора без численных методов.
Примеры:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.
Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.
Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.
Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:
Непараметрический бутстреп:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Что измеряет Gini impurity в узле дерева?
Anonymous Quiz
3%
Среднее значение признаков
38%
Вероятность неправильной классификации, если класс выбирается случайно
57%
Энтропию распределения
2%
Количество листьев в дереве
👍3❤1
Зачем добавляют skip connections в глубокие нейросети?
Anonymous Quiz
6%
Чтобы уменьшить количество параметров
5%
Чтобы сделать сеть более линейной
85%
Чтобы облегчить обратное распространение градиента и ускорить обучение
3%
Чтобы сократить использование ReLU
❤2
Как обычно определяется сходимость алгоритма K-Means?
Anonymous Quiz
14%
Когда все точки остаются в тех же кластерах две итерации подряд
83%
Когда изменение положения центроидов становится меньше заданного порога
1%
Когда количество итераций превышает 10
2%
Когда все кластеры содержат одинаковое количество точек
👍3
Почему AUC-ROC не всегда подходит для многоклассовых задач без модификаций?
Anonymous Quiz
29%
Потому что он требует равного количества примеров для всех классов
51%
Потому что ROC определён только для бинарной классификации
4%
Потому что AUC не работает с вероятностями
17%
Потому что ROC не может быть усреднён
❤2
Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️
Anonymous Quiz
12%
Когда важно уменьшить вычислительные затраты
74%
Когда нужно позволить дереву сначала выучить все закономерности, а потом удалить лишние ветви
6%
Когда у нас мало данных
7%
Когда дерево не может переобучиться
❤1
🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40%
Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎
🔥 Курсы со скидкой 40% до конца ноября:
🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры
Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈
Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎
🔥 Курсы со скидкой 40% до конца ноября:
🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры
Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈
Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?
Anonymous Quiz
10%
Потому что данные могут быть не IID (независимыми и одинаково распределёнными)
90%
Потому что нарушается временной порядок и происходит утечка данных из будущего
0%
Потому что k слишком маленькое
0%
Потому что нельзя использовать метрику AUC
👍1
Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?
Anonymous Quiz
10%
Недостаток данных
52%
Сильная зависимость модели от случайных разбиений данных
29%
Модель сильно переобучена на один из фолдов
9%
Модель недообучена
❤1👍1