Интересное что-то

Forwarded from .ml

Взлёт и падение YOLO. Разбор лучших версий v7-v8 и «конвейера» v9-v12

Продолжаем погружение в историю YOLO. Если v4-v6 были про инженерные трюки, то дальше случились популярность и стагнация.

Нет предела совершенству. Поэтому в игру вернулись учёные, чтобы оптимизировать саму логику обучения. Они помогли Ultralytics создать самую сильную модель на тот момент.

📌 YOLO v7: Самая быстрая среди всех (2022)

В эту версию вернулся Алексей Бачковский (автор v4) и предложил не просто учить веса, а оптимизировать то, как информация течёт по слоям сети, чтобы убрать лишние компоненты.

Что изменили технически:

📝 Ввели E-ELAN / GELAN. Это новый бэкбон, который максимально эффективно агрегирует фичи из всех субэнкодеров и позволяет информации «течь» по сети с минимальными потерями.

📝 Появился re-parameterization. Разработчики разделили структуру для обучения и структуру для инференса. Это позволило ускорить работу модели в продакшене без потери качества.

Результат: YOLO v7 оказалась на 120% быстрее аналогов и стала эталоном оптимизации архитектуры сети. Ее релизнутая идея с увеличенной степенью компрессии использовалась и в других инструментах, став основой в DL.

📌 YOLO v8: Самая популярная и доступная из всех (2023)

На данный момент это самая популярная модель семейства. Секрет успеха v8 не в сказочных метриках, а в том, что всё сделали «по-людски».

Какие новые фишки:

📝 Идея Anchor-Free. Полностью отказались от опорных точек. Разработчики решили просто положить побольше данных в сеть и искать области сразу. Это упростило жизнь юзерам — больше не нужно дебажить параметры точек.

📝 Крутой инструментарий. Модель взлетела благодаря репозиторию Ultralytics. Из коробки, даже не зная глубоко Deep Learning, можно легко запустить обучение, настроить пайплайн и внедрить модель в продакшн.

Результат: модель набрала популярность благодаря своей простоте и удобству. В отличие от крупных компаний вроде Facebook и Apple, репозиторий YOLO v8 подходил для новичков и легко интегрировался в проекты.

📌 YOLO v9-v12: Конвейер обновлений (2024–...)

После успеха v8 статей стало экспоненциально больше, но улучшения стали минимальными и итеративными. Разработчики упрощают модель, иногда даже жертвуя качеством, чтобы максимально ее популяризировать.

Что происходило в этих версиях:

📝 YOLO v9. Попытались управлять потоком информации через механизм Programmable Gradient Information (PGI) и GELAN. Сеть сама решает, какие признаки пропускать, а какие блокировать. Что-то вроде аналога гейтинга.

📝 YOLO v10. Полностью отказались от NMS (Non-Maximum Suppression). Модель учится предсказывать области вслепую, без постобработки для удаления дублей, без центроидных точек. В итоге качество иногда просаживалось.

📝 YOLO v11. Перешли к мультимодальности. Вместо одной только детекции сеть стала учить сразу сегментацию, позы и классификацию, чтобы использовать максимум данных для уточнения весов.

📝 YOLO v12. Внедрили FlashAttention и попытались по-другому выстроить механизмы внимания, нащупать еще один аналог гейтинга. Особого хайпа не вызвала, так как про «новые» инструменты из этой версии уже все знали.

Результат: YOLO дошла до идеала. Уже сложно что-то улучшить или придумать инновационные решения, как это было в первых версиях модели. Хотя идеи все еще были: детектить объекты в разных скейлах, градиенты оптимизировать. Но в тот момент казалось, что круче уже некуда.

Летом 2025 года вышла YOLO v13. Она оказалась на голову выше всех своих предыдущих версий и сразу стала самой востребованной среди разработчиков.

В финальном посте разберём ту самую YOLO v13: узнаем, как Бачковский и Ultralytics переосмыслили фундамент модели.

💜 Этот пост написал Никита Алутис, ML-разработчик в Точка Банк

59 views20:25