При дообучении обычно используют меньшую скорость обучения для предварительно обученных слоёв и более высокую — для вновь добавленных слоёв.
Это позволяет сохранять полезные представления, которые модель уже изучила, и аккуратно их корректировать.
Часто применяют постепенное уменьшение learning rate по слоям: глубокие слои получают очень маленький шаг, а новые слои — больший.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Кросс-валидация разбивает данные на несколько фолдов, используя одни для валидации, а другие — для обучения, и поочередно меняет роли фолдов.
Кросс-валидация даёт более надёжную оценку обобщающей способности модели и помогает принимать решения по выбору модели, настройке гиперпараметров и архитектуры.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
🚀 Курс «ИИ-агенты для DS-специалистов» уже стартовал
Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.
Но всё самое интересное только начинается!
🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.
💸 Сейчас действует специальная цена → 69.000 ₽ вместо79.000 ₽.
⏳ Осталось всего 4 места.
Не упустите шанс прокачаться в том, что будет определять будущее индустрии.
👉 Забронировать место на курсе
Первый вебинар успешно прошёл, участники уже начали разбираться, как использовать ИИ-агентов в реальных проектах.
Но всё самое интересное только начинается!
🔥 Впереди 4 мощных занятия — с практикой, инсайтами и разбором кейсов от экспертов.
💸 Сейчас действует специальная цена → 69.000 ₽ вместо
⏳ Осталось всего 4 места.
Не упустите шанс прокачаться в том, что будет определять будущее индустрии.
👉 Забронировать место на курсе
Многие техники аугментации (например, случайные обрезки, масштабирование, добавление паддинга) могут изменять фактический размер входного изображения.
Если использовать случайные или меньшие размеры, важно иметь достаточный паддинг или архитектуру, способную обрабатывать разные размеры.
Потенциальная ошибка: случайная обрезка может дать слишком маленький тензор для слоёв с большим страйдом или минимальным размером входа.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Язык по своей природе дискретен и символичен, а нейронные сети работают с непрерывными и дифференцируемыми представлениями. Эмбеддинги решают эту проблему, переводя токены в плотные векторные представления.
Благодаря этому нейросети могут понимать контекст и смысл, что стало основой успеха современных NLP-моделей — от простых классификаторов текста до трансформеров вроде BERT и GPT.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🙄 В каких случаях стоит обучать модель с нуля, а не использовать предобученную
Обучение с нуля может быть оправдано в нескольких ситуациях:
1️⃣ Очень большой собственный датасет. Если ваш набор данных сопоставим по объёму с тем, на котором обучались предобученные модели (или даже больше), имеет смысл обучить модель с нуля, чтобы она лучше уловила специфические закономерности вашей задачи.
2️⃣ Совершенно иное распределение данных. Когда ваши данные радикально отличаются от исходных (например, 3D медицинские изображения вместо обычных фото), предобученные признаки могут быть бесполезны или даже мешать.
3️⃣ Уникальная архитектура. Если задача требует специализированной архитектуры (например, для 3D данных или нового типа последовательностей), использовать стандартные предобученные веса может быть нецелесообразно.
4️⃣ Юридические или лицензионные ограничения. Иногда использование предобученных моделей ограничено условиями лицензии или политикой конфиденциальности данных, что делает обучение с нуля единственным вариантом.
🐸 Библиотека собеса по Data Science
Обучение с нуля может быть оправдано в нескольких ситуациях:
Please open Telegram to view this post
VIEW IN TELEGRAM