👉 Как влияют dilated (atrous) свёртки на receptive field
Dilated свёртки используют пробелы >1 между элементами ядра. В обычной свёртке с ядром 3×3 фильтр смотрит на соседние позиции.
В dilated свёртке с dilation rate = d фильтр «пропускает» некоторые позиции, охватывая большую область входа, не увеличивая число параметров.
Пример: ядро 3×3 с dilation=2 фактически покрывает область 5×5, но остаётся с 9 параметрами.
⚡️ Применение: особенно полезно в semantic segmentation и других задачах, где важно учитывать глобальный контекст, сохраняя при этом высокое разрешение feature maps.
Если хотите не просто читать про receptive field, а практически применять свёртки и строить свои модели, есть классные курсы для Data Science и ML:
— AI-агенты для DS-специалистов
— ML для старта в Data Science
🐸 Библиотека собеса по Data Science
Dilated свёртки используют пробелы >1 между элементами ядра. В обычной свёртке с ядром 3×3 фильтр смотрит на соседние позиции.
В dilated свёртке с dilation rate = d фильтр «пропускает» некоторые позиции, охватывая большую область входа, не увеличивая число параметров.
Пример: ядро 3×3 с dilation=2 фактически покрывает область 5×5, но остаётся с 9 параметрами.
⚡️ Применение: особенно полезно в semantic segmentation и других задачах, где важно учитывать глобальный контекст, сохраняя при этом высокое разрешение feature maps.
Если хотите не просто читать про receptive field, а практически применять свёртки и строить свои модели, есть классные курсы для Data Science и ML:
— AI-агенты для DS-специалистов
— ML для старта в Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Размер batch напрямую связан с настройкой базового learning rate (LR) и расписания.
Большой batch:
— Позволяет использовать больший стабильный LR.
— Часто требует warmup-фазы: постепенного увеличения LR от малого значения до целевого.
— Конвергенция может быть чувствительна: даже небольшой перекос в LR ведёт к дивергенции или плохому локальному минимуму.
Малый batch:
— Даёт шумные оценки градиентов, поэтому нужен меньший базовый LR.
— Лучше работают более консервативные decay-расписания или адаптивные/циклические методы, которые сглаживают шум.
⚠️ Подводный камень:
Если сильно увеличить batch, но оставить старое расписание LR, обучение может «взорваться» (слишком большой эффективный шаг) или наоборот — застопориться, если расписание оказалось слишком осторожным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2