227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.

Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.

Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.

Тестовую модель обучали в 3 стадии:

🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.

🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.

🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.

Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Набор датасетов
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #CoT #UnifiedReward #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5824🔥16👏7