Пользовались ли бы бесконечной лентой (Feed) с постами из телеграм каналов? 👊
Anonymous Poll
13%
Да, но только с каналами, на которые подписан(а)
19%
Да, еще и с рекомендациями (с каналами, на которые не подписан(а))
68%
Нет
Robust Reward Model
При обучении реворд модели можно случайно выучить НЕ то.
Вместо обучения на предпочтения людей, можно переобучиться на артифакты ответов
Что это за артифакты?
В датасетах предпочтений более длинные ответы, ответы с эмодзи🙄 , дружелюбные ответы чаще встречаются в
Очевидно, мы не хотим обучить классификатор, который оценивает длину ответа, мы хотим реально хорошие ответы, независимо от их длины👮♂️
Предлагается делать простой трюк из статьи — аугментации
🔹 Делаем дополнительные примеры из текущего датасета
🔹 Наша задача избавиться от переобучения на артифакты
🔹 Поэтому мы составляем такие пары, где chosen ответ для i-го примера сравнивается с j-ым chosen примером
🔹 Такой трюк заставляет переставать обращать внимание на артифакты, потому что мы учим, что один длинный-красивый chosen пример лучше другого длинного-красивого chosen примера
🔹 Тоже самое для rejected примеров. В общем, смотрите иллюстрацию — там все понятно
Самый прикол в том, что с помощью артифкатов (длинных ответов/эмодзи/доброжелательности) можно захакать не только реворд модель, но и людей. Так сделала llama-4 например, лол🤷♂️ 🤷♂️ 🤷♂️
📎 Статья
При обучении реворд модели можно случайно выучить НЕ то.
Вместо обучения на предпочтения людей, можно переобучиться на артифакты ответов
Что это за артифакты?
В датасетах предпочтений более длинные ответы, ответы с эмодзи
chosen
, чем в rejected
Очевидно, мы не хотим обучить классификатор, который оценивает длину ответа, мы хотим реально хорошие ответы, независимо от их длины
Предлагается делать простой трюк из статьи — аугментации
🔹 Делаем дополнительные примеры из текущего датасета
🔹 Наша задача избавиться от переобучения на артифакты
🔹 Поэтому мы составляем такие пары, где chosen ответ для i-го примера сравнивается с j-ым chosen примером
🔹 Такой трюк заставляет переставать обращать внимание на артифакты, потому что мы учим, что один длинный-красивый chosen пример лучше другого длинного-красивого chosen примера
🔹 Тоже самое для rejected примеров. В общем, смотрите иллюстрацию — там все понятно
Самый прикол в том, что с помощью артифкатов (длинных ответов/эмодзи/доброжелательности) можно захакать не только реворд модель, но и людей. Так сделала llama-4 например, лол
📎 Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2👍1
Репозиторий RM моделей
Код для обучения + блог посты
Реализации всех основных RM — Bradley-Terry (pointwise моделька), Pairwise RM, RRM, Odin RM (борются с байесом длинных ответов) и другие
https://github.com/RLHFlow/RLHF-Reward-Modeling
Код для обучения + блог посты
Реализации всех основных RM — Bradley-Terry (pointwise моделька), Pairwise RM, RRM, Odin RM (борются с байесом длинных ответов) и другие
https://github.com/RLHFlow/RLHF-Reward-Modeling
❤3
Ловушка Грока 🤡
В разных независимых бенчмарках (1, 2, etc) оказывается, что Grok 4 достаточно хорош.
Почему?
Мне кажется интересной идея, что когда ты являешься AI компанией, которая пытается догнать другую AI компанию (e.g. OpenAI), то ты можешь позволить себе катить очень большие модели на прод, ведь у тебя намного меньше юзеров => тебе можно иметь меньше GPU
Очевидно, что при прочих равных модель с бОльшим количеством параметров лучше той, у которой меньше параметров (только если она не переобучилась)
OpenAI не могли бы выдержать текущий трафик, будь у них модель в X раз больше, а другие могут🤓
Получается, что OpenAI являются заложниками своих юзеров, которых у них под ярд.
Короче, интересная ловушка из-за количества юзеров!
В разных независимых бенчмарках (1, 2, etc) оказывается, что Grok 4 достаточно хорош.
Почему?
Мне кажется интересной идея, что когда ты являешься AI компанией, которая пытается догнать другую AI компанию (e.g. OpenAI), то ты можешь позволить себе катить очень большие модели на прод, ведь у тебя намного меньше юзеров => тебе можно иметь меньше GPU
Очевидно, что при прочих равных модель с бОльшим количеством параметров лучше той, у которой меньше параметров (только если она не переобучилась)
OpenAI не могли бы выдержать текущий трафик, будь у них модель в X раз больше, а другие могут
Получается, что OpenAI являются заложниками своих юзеров, которых у них под ярд.
Короче, интересная ловушка из-за количества юзеров!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Сиолошная
MathArena Apex: Unconquered Final-Answer Problems
Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических соревнованиях и поняли: надо что-то менять. Модели решают почти всё!
Поэтому решили поскрести по сусекам…
Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических соревнованиях и поняли: надо что-то менять. Модели решают почти всё!
Поэтому решили поскрести по сусекам…
❤6👍3😁2
Be blocked on Telegram forever 😱
Меня тут @BotFather забанил — теперь не могу ботов создавать
Забанил за новоиспеченного бота (я указал описание и аватарку загрузил). Этим ботом никто не пользовался даже (кроме меня)
Это классификатор ошибся? Кто-то сталкивался?
Меня тут @BotFather забанил — теперь не могу ботов создавать
Забанил за новоиспеченного бота (я указал описание и аватарку загрузил). Этим ботом никто не пользовался даже (кроме меня)
Это классификатор ошибся? Кто-то сталкивался?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3