В большинстве случаев — да, но не всегда. Skip-соединения (residual connections) действительно облегчают обучение глубоких сетей, помогая бороться с затуханием градиентов и ускоряя сходимость. Именно поэтому они стали стандартом в современных архитектурах (ResNet, Transformer и др.).
Однако есть и ограничения:
👉 Они увеличивают вычислительную и памятьную нагрузку, особенно в сетях вроде DenseNet, где происходит конкатенация большого числа промежуточных признаков.
👉 В неглубоких моделях их польза минимальна — сеть и без них способна эффективно обучаться.
В итоге skip-соединения почти всегда оправданы в глубоких моделях, но их применение следует сбалансировать с ресурсами и архитектурной сложностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Как ускорить браузер
Закрой все вкладки со словами «MacBook», «купить ноутбук», «ноут в рассрочку». Потому что у нас есть решение лучше.
🔥 Proglib разыгрывает MacBook Pro 14. Формула простая: покупаешь любой курс до 15 ноября → учишься 2 недели → пишешь куратору #розыгрыш
Пока у тебя открыто 147 вкладок с ценами, кто-то уже прокачивает скилы и может забрать приз.
👉🏻 Выбрать курс для участия
Закрой все вкладки со словами «MacBook», «купить ноутбук», «ноут в рассрочку». Потому что у нас есть решение лучше.
🔥 Proglib разыгрывает MacBook Pro 14. Формула простая: покупаешь любой курс до 15 ноября → учишься 2 недели → пишешь куратору #розыгрыш
Пока у тебя открыто 147 вкладок с ценами, кто-то уже прокачивает скилы и может забрать приз.
👉🏻 Выбрать курс для участия
Обычно это делается с помощью кросс-валидации и перебора возможных комбинаций гиперпараметров:
Методы подбора:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Если градиент функции является L-Липшицевым, то есть его изменение не превышает ( L \cdot |x - y| ), то можно показать, что выбор шага ( \eta \leq 1/L ) гарантирует устойчивую сходимость для выпуклых задач.
Интуитивно это означает:
В невыпуклых задачах это условие также полезно — оно помогает избежать слишком резких шагов, обеспечивая более стабильное обучение, даже если глобальной сходимости гарантировать нельзя.
💡 Итого: знание константы Липшица ( L ) даёт теоретически обоснованный верхний предел для шага обучения ( \eta ), что помогает сделать градиентный спуск устойчивым.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Теоретически можно попытаться комбинировать методы калибровки, например, применив temperature scaling к логитам, а затем подавая полученные вероятности на изотоническую регрессию.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
⚡️ Механизм запущен, часики тикают
Прямо сейчас кто-то уже купил курс со скидкой 40%, открыл первый урок и уже на пути к MacBook Pro 14.
А ты всё ещё читаешь этот пост...
⏰ Дедлайны не ждут:
31 октября — скидка 40% сгорает
15 ноября — розыгрыш MacBook
🎯 Правила участия:
→ купить любой курс до 31 октября
→ отучиться 2 недели
→ написать #розыгрыш куратору
🕊️ Не упусти свой шанс
Прямо сейчас кто-то уже купил курс со скидкой 40%, открыл первый урок и уже на пути к MacBook Pro 14.
А ты всё ещё читаешь этот пост...
⏰ Дедлайны не ждут:
31 октября — скидка 40% сгорает
15 ноября — розыгрыш MacBook
🎯 Правила участия:
→ купить любой курс до 31 октября
→ отучиться 2 недели
→ написать #розыгрыш куратору
🕊️ Не упусти свой шанс
Да. Эмбеддинги, как и любые параметры модели, могут переобучиться или потерять смысловую структуру, если данных мало или регуляризация отсутствует.
Векторы могут разрастаться по величине без отражения полезных отношений между токенами.
Способы защиты:
Регуляризация и мониторинг обучения помогают поддерживать эмбеддинги информативными и обобщающими.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Популярные варианты: Gini impurity и энтропия (information gain).
Сравнение:
Выбор на практике: часто метрики дают схожие результаты, поэтому решение зависит от скорости обучения, размеров данных и поведения конкретного датасета. Экспериментальная проверка с кросс-валидацией может помочь определить лучший вариант для вашей задачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
✨ Halloween Special — последний день магии! 👻
Успевай сегодня купить курсы со скидкой 40%!
А также участвуй в розыгрыше MacBook Pro 14 💻
После полуночи останется только тыква 🎃
🔮 Открой портал и выбери курс
Успевай сегодня купить курсы со скидкой 40%!
А также участвуй в розыгрыше MacBook Pro 14 💻
После полуночи останется только тыква 🎃
🔮 Открой портал и выбери курс
Тренирует несколько моделей на разных случайных подвыборках данных и усредняет или объединяет их предсказания.
В нейросетях аналогом может быть обучение с разными аугментациями данных или случайной инициализацией весов. Это снижает переобучение и повышает стабильность.
Обучает модели последовательно — каждая новая модель старается исправить ошибки предыдущей.
В глубоких сетях встречается реже, но идеи boosting можно реализовать через специальные функции потерь или адаптивные схемы обучения.
Использует предсказания нескольких базовых моделей как входы для метамодели (второго уровня), которая учится оптимально комбинировать эти выходы.
В deep learning это можно реализовать с помощью второй нейросети, обученной на выходах нескольких базовых моделей (ensemble blending).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Сопряжённые априоры — это такие априорные распределения, которые при комбинировании с конкретной функцией правдоподобия дают апостериорное распределение того же семейства, что и априорное.
Это делает байесовское обновление аналитически простым и позволяет получить закрытые формы постериора без численных методов.
Примеры:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.
Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.
Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.
Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:
Непараметрический бутстреп:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Существуют два подхода: пост-обрезка (post-pruning) и предварительная обрезка (pre-pruning / early stopping).
Сначала дерево строится полностью, чтобы уловить все потенциальные взаимодействия между признаками. Затем удаляются ветви, которые не дают улучшения по валидационным метрикам. Такой подход часто даёт более оптимальное и устойчивое дерево, но требует больше вычислительных ресурсов.
Рост дерева останавливается заранее по определённым критериям (например, минимальное количество выборок в узле или порог улучшения по impurity). Это быстрее и дешевле, но может привести к недообучению, если ограничение слишком жёсткое.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4