Интересное что-то

41 views20:25

Forwarded from .ml

Инженерная революция и обзывательства со стороны сообщества. Разбор YOLO v4-v6

Продолжаем наш цикл постов об эволюции самого популярного семейства моделей для Object Detection.

Начиная с четвёртой версии, разработка перестала быть чисто идейно-эвристической и стала более инженерной.

📌 YOLO v4: Модель превратили в инженерную энциклопедию (2020)

YOLO v4 стала «библией» для улучшения архитектур. В нее вместили максимум трюков, не убив при этом FPS.

💛 Золотая фишка: в новой версии ввели mosaic аугментацию. Она собирает обучающую картинку из нескольких разных, что улучшает работоспособность модели. В результате качество удалось улучшить на +6% mAP по сравнению с YOLOv3, сохранив скорость на уровне 60 FPS.

Другие изменения:

📝 Пирамидальная архитектура (CSPDarknet-53 + PANet + SPP). Вместо простого вырезания кусков из картинки, мультискейл-подход реализовали на уровне самой сети с помощью пирамидального энкодера. Сетка сама извлекала признаки разного масштаба и распознавала контексты.

📝 Трюки и аугментации. В архитектуру интегрировали наработки, такие как Mish-activation, DropBlock и CloU loss. Вместе c mosaic аугментацией они улучшили качество модели на 10%, при этом не меняя её кардинально.

К минусам YOLO v4 можно отнести сложность интеграции модели и ручные гиперпараметры, оставшиеся от предыдущих версий.

Проблем, которые нужно фиксить, больше нет, поэтому разработчики сосредоточились на улучшениях.

📌 YOLO v5: «Гадкий утенок» и массовое принятие (2020-2021)

YOLO v5 вышла спустя 4 месяца после v4 — версию прозвали «гадким утенком», потому что в ней не было архитектурных прорывов.

💛 Золотая фишка: YOLO v5 переписали на PyTorch и сделали её удобнее для пользователей. Каждый мог интегрировать ее в свой проект и дообучить под свои задачи. Сам PyTorch вскоре стрельнул и задоминировал в области DL, что привело к массовому принятию YOLO.

Других фишек немного — их выпустили, чтобы продвинуть статью о новой версии. Зато появилась куча проблем:

📎 Версия не работала из-за багов. Первые два месяца багнутая имплементация просто не давала пользоваться моделью. Текла память, некорректно уточнялась область по трем кандидатам.

📎Версия не добавляла новизны. Каждая новая YOLO решала либо инженерную проблему, либо идейную. Пятую модель посчитали переписью того, что уже было — просто на другой фреймворк. Сообществу такой подход не понравился.

📎 Версия разрабатывалась компанией Ultralytics. Сообщество относилось к ней с недоверием: раньше над YOLO работала СНГ-шная суперзвезда в области CV — Бачковский, а теперь какие-то ноунеймы. Поэтому разработчики волновались за судьбу полюбившейся модели.

📎 Версия так и не получила статью. Компания обещала выпустить ее в течение нескольких месяцев. Но прошло уже 4 года — статья не появилась. Ограничились парой тех. репортов на архиве.

К счастью, Ultralytics модельку не бросили, всячески её дорабатывали и улучшали. Благодаря PyTorch и поддержке от разработчиков, YOLO v5 много где используется как составляющая комплексного решения.

📌 YOLO v6: Модель сделали удобнее для развертывания (2022)

Компания сосредоточилась на разработке максимально удобного real-time deployment под фреймворки вроде TensorRT и Edge-устройств.

💛 Золотая фишка: ввели Anchor-Free Head. Вместо предсказания сдвигов для кандидатов, модель ищет именно центральную точку объекта. Так быстрее и точнее.

Другие нововведения:

📝 Новая архитектура. В качестве бэкбоуна был выбран EfficientRep — аналог EfficientNet. Еще отказались от DarkNet-бэкбоуна — он давно устарел.

📝 Высокая скорость. Модель стала сверхлегкой и демонстрировала 120 FPS на T4 при разрешении 640x640. Поэтому её использовали в задачах, связанных с тепловизорами и Edge-вычислениями.

Явных минусов и проблем у модели не было. Разве что подводила точность в сравнении с v5 и v7. Но зато v6 лучшая для Edge-устройств.

В следующем посте разберём, почему YOLO v8 стала самой популярной моделью семейства и как коммерциализация превратила проект в конвейер.

💜 Этот пост написал Никита Алутис, ML-разработчик в Точка Банк

47 views20:25