Проклятые токены 🤯
Замечали/задумывались, что всего один случайный токен может привести выход LLM к неправильному ответу или в случае с маленькими моделями — к бреду?
Условно, на запрос
модель может случайно сгенерить токен "import Flask" вместо "import FastAPI"
И дальше уже от этого проклятого токена никуда не деться — придется продолжать ответ с фласком.
Как бы боролись с таким? На этапе обучения? На этапе инференса? CoT не предлагать😁
Замечали/задумывались, что всего один случайный токен может привести выход LLM к неправильному ответу или в случае с маленькими моделями — к бреду?
Условно, на запрос
Реализуй эндпоинт на FastAPI ...
модель может случайно сгенерить токен "import Flask" вместо "import FastAPI"
И дальше уже от этого проклятого токена никуда не деться — придется продолжать ответ с фласком.
Как бы боролись с таким? На этапе обучения? На этапе инференса? CoT не предлагать
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4😁2👍1
Нейронный Кот
Проклятые токены 🤯 Замечали/задумывались, что всего один случайный токен может привести выход LLM к неправильному ответу или в случае с маленькими моделями — к бреду? Условно, на запрос Реализуй эндпоинт на FastAPI ... модель может случайно сгенерить токен…
Боремся с проклятыми токенами 😎
Люблю статьи от авторов phi — очень простые с топорными методами, но работают хорошо.
В тех репорте phi-4 показали, что
🔹 Проклятые (и благословенные) токены существуют
🔹 Предложили, как с этим бороться
Для задач, где есть правильный ответ, мы можем найти токены, которые негативно или позитивно влияют на вероятность успешного ответа
Как найти такие токены? — авторы называют их pivotal tokens
Считаем условную вероятность, что ответ будет правильным при заданном префиксе ответа. То есть просто эмпирически считаем, какой процент правильных ответов будет при префиксе `import Flask`
Таким макаром находим все pivotal tokens в нашем трейн сете. И учим модель различать хорошие токены от плохих. Для этого формируем пары
И запускаем DPO на этих парах. Еще раз: мы учим предсказывать только один токен! ⚠️
Если бы мы просто делали SFT или DPO на полных ответах, то учились бы предсказывать эти проклятые токены, которые негативно влияют на вероятность успешного ответа.
В таблице 9 можно посмотреть, как DPO на pivotal tokens (stage 1) накидывает в качестве по сравнению с обычным DPO и SFT
🤨 Меня удивило, что проклятыми токенами могут быть вполне безобидные токены в стиле предсказал "that" вместо "the" (см. скрины в треде)
📖 Статья
@neural_cat
Люблю статьи от авторов phi — очень простые с топорными методами, но работают хорошо.
В тех репорте phi-4 показали, что
🔹 Проклятые (и благословенные) токены существуют
🔹 Предложили, как с этим бороться
Для задач, где есть правильный ответ, мы можем найти токены, которые негативно или позитивно влияют на вероятность успешного ответа
p(success)
Как найти такие токены? — авторы называют их pivotal tokens
Считаем условную вероятность, что ответ будет правильным при заданном префиксе ответа. То есть просто эмпирически считаем, какой процент правильных ответов будет при префиксе `import Flask`
Таким макаром находим все pivotal tokens в нашем трейн сете. И учим модель различать хорошие токены от плохих. Для этого формируем пары
prompt = promt + answer prefix
good response = good token
bad response = bad token
И запускаем DPO на этих парах. Еще раз: мы учим предсказывать только один токен! ⚠️
Если бы мы просто делали SFT или DPO на полных ответах, то учились бы предсказывать эти проклятые токены, которые негативно влияют на вероятность успешного ответа.
В таблице 9 можно посмотреть, как DPO на pivotal tokens (stage 1) накидывает в качестве по сравнению с обычным DPO и SFT
📖 Статья
@neural_cat
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍4❤1
Нейронный Кот
Боремся с проклятыми токенами 😎 Люблю статьи от авторов phi — очень простые с топорными методами, но работают хорошо. В тех репорте phi-4 показали, что 🔹 Проклятые (и благословенные) токены существуют 🔹 Предложили, как с этим бороться Для задач, где есть…
phi-4 released
И вот сегодня наконец-то зарелизили модель в открытый доступ с MIT лицензией
Идем заменять ваши лламы?
https://huggingface.co/microsoft/phi-4
И вот сегодня наконец-то зарелизили модель в открытый доступ с MIT лицензией
Идем заменять ваши лламы?
https://huggingface.co/microsoft/phi-4
huggingface.co
microsoft/phi-4 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🎉4👍2❤1
Multi-Token Prediction
В DeepSeek учили предсказывать ДВА токена наперед
Подробнее почитайте, что такое MTP тут и тут
Отбросим мысль про ускорение генерации на инференсе
Мне интереснее, что предсказание двух токенов улучшает генерализацию модели (см. таблицу)
И это же логично? Мы, люди, не предсказываем только одно слово (токен), когда формируем мысли
Мы пытаемся предсказать сразу несколько основных токенов, которые будут в нашем ответе
Например, на вопрос про трансформер, мы сразу вспоминаеммайкла бэя такие слова как атеншн, эмбединги, kv cache, etc
Так, вот. Почему бы не учить LLM предсказывать сразу две вещи:
То есть в лосс добавить еще одно слагаемое, которое делает multi-label предсказание ВСЕХ следующих токенов для i-го шага. И предсказывать это одним слоем (матрицей d x |V|)
Будет работать?
В DeepSeek учили предсказывать ДВА токена наперед
Подробнее почитайте, что такое MTP тут и тут
Отбросим мысль про ускорение генерации на инференсе
Мне интереснее, что предсказание двух токенов улучшает генерализацию модели (см. таблицу)
И это же логично? Мы, люди, не предсказываем только одно слово (токен), когда формируем мысли
Мы пытаемся предсказать сразу несколько основных токенов, которые будут в нашем ответе
Например, на вопрос про трансформер, мы сразу вспоминаем
Так, вот. Почему бы не учить LLM предсказывать сразу две вещи:
1. next token
2. all next tokens
То есть в лосс добавить еще одно слагаемое, которое делает multi-label предсказание ВСЕХ следующих токенов для i-го шага. И предсказывать это одним слоем (матрицей d x |V|)
Будет работать?
👍11❤4🤔2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁11👎2
Вайб-кодить в формате "реализуй фичу ИКС" — тупо
Так вы даете полный контроль модели (например, через agentic cursor) над реализацией фичи.
Реализация может оказаться неэффективной, небезопасной и в ней потом фиг разберешься
Поэтому:
🤬 Если умеете кодить, то сначала составьте план, что и как где должно быть реализовано. Зафиксируйте все функции/абстракции/компоненты/файлы/API/etc, а потом уже давайте задачу курсору:
😒 Если не умеете, то сначала посоветуйтесь с o3-mini/gemini 2.5 pro/sonnet 3.7/etc — кидайте им вашу кодовую базу, говорите, что хотите в нее добавить и просите такой план по реализации фичи, чтобы все было кайфово, безопасно, эффективно, робастно и тд
В конечном итоге, с этим подходом будете меньше тратить времени на поддержку/разработку фичей/фикс багов🙂
С бездумным вайб-кодингом можно делать только что-то очень базовое (на данный момент)
Так вы даете полный контроль модели (например, через agentic cursor) над реализацией фичи.
Реализация может оказаться неэффективной, небезопасной и в ней потом фиг разберешься
Поэтому:
реализуй фичу ИКС
...
Для этого сделай
1) bla-bla
2) bla-bla
3) bla-bla
В конечном итоге, с этим подходом будете меньше тратить времени на поддержку/разработку фичей/фикс багов
С бездумным вайб-кодингом можно делать только что-то очень базовое (на данный момент)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
Урбанистические трюки
Вы, наверное, слышали, что урбанисты делают городскую среду более безопасной и приятной через простые трюки для автомобилистов/пешеходов
В Лондоне мне нравится трюк со светофорами
На зеленом сигнале светофора есть специальные лопасти, которые не дают понять, горит ли зеленый сигнал, если ты смотришь на светофор под углом (то есть, не находишься на зебре)
Соответственно, люди скорее не будут бежать откуда-то издалека под углом через дорогу, ведь они не видят, горит ли зеленый свет
НО! На самом деле пешеходу доступна вся информация, ведь если не горит красный сигнал, значит, горит зеленый🍎 А на красном сигнале как раз нет никаких лопастей! Но люди не могут быстро сделать такой вывод
Такой же трюк с лопастями я встретил и для автомобилистов. Только там лопасти смотрят вниз => значит, издалека не увидишь, горит ли зеленый. Поэтому сначала надо медленно к светофору подъехать, чтобы убедиться, что там 🟢
Короче, крутой трюк, который особо не напрягает, но сильно повышает безопасность.
Как можно было бы сделать, если ты не особо умный? Потратить $$$ и поставить заборы вдоль всей проезжей части
Знаете примеры подобных трюков? Не обязательно в урбанистике
Вы, наверное, слышали, что урбанисты делают городскую среду более безопасной и приятной через простые трюки для автомобилистов/пешеходов
В Лондоне мне нравится трюк со светофорами
На зеленом сигнале светофора есть специальные лопасти, которые не дают понять, горит ли зеленый сигнал, если ты смотришь на светофор под углом (то есть, не находишься на зебре)
Соответственно, люди скорее не будут бежать откуда-то издалека под углом через дорогу, ведь они не видят, горит ли зеленый свет
НО! На самом деле пешеходу доступна вся информация, ведь если не горит красный сигнал, значит, горит зеленый
Такой же трюк с лопастями я встретил и для автомобилистов. Только там лопасти смотрят вниз => значит, издалека не увидишь, горит ли зеленый. Поэтому сначала надо медленно к светофору подъехать, чтобы убедиться, что там 🟢
Короче, крутой трюк, который особо не напрягает, но сильно повышает безопасность.
Как можно было бы сделать, если ты не особо умный? Потратить $$$ и поставить заборы вдоль всей проезжей части
Знаете примеры подобных трюков? Не обязательно в урбанистике
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥6❤4😁1🤔1
Forwarded from shipshigram
This media is not supported in your browser
VIEW IN TELEGRAM
Не могу точно понять, как интропретировать этот факт: Хасбик в полный рост выглядывает из окна офиса Google (этаж Google Research).
Мнения?
Мнения?
😁19❤4
Пользовались ли бы бесконечной лентой (Feed) с постами из телеграм каналов? 👊
Anonymous Poll
13%
Да, но только с каналами, на которые подписан(а)
19%
Да, еще и с рекомендациями (с каналами, на которые не подписан(а))
68%
Нет
Robust Reward Model
При обучении реворд модели можно случайно выучить НЕ то.
Вместо обучения на предпочтения людей, можно переобучиться на артифакты ответов
Что это за артифакты?
В датасетах предпочтений более длинные ответы, ответы с эмодзи🙄 , дружелюбные ответы чаще встречаются в
Очевидно, мы не хотим обучить классификатор, который оценивает длину ответа, мы хотим реально хорошие ответы, независимо от их длины👮♂️
Предлагается делать простой трюк из статьи — аугментации
🔹 Делаем дополнительные примеры из текущего датасета
🔹 Наша задача избавиться от переобучения на артифакты
🔹 Поэтому мы составляем такие пары, где chosen ответ для i-го примера сравнивается с j-ым chosen примером
🔹 Такой трюк заставляет переставать обращать внимание на артифакты, потому что мы учим, что один длинный-красивый chosen пример лучше другого длинного-красивого chosen примера
🔹 Тоже самое для rejected примеров. В общем, смотрите иллюстрацию — там все понятно
Самый прикол в том, что с помощью артифкатов (длинных ответов/эмодзи/доброжелательности) можно захакать не только реворд модель, но и людей. Так сделала llama-4 например, лол🤷♂️ 🤷♂️ 🤷♂️
📎 Статья
При обучении реворд модели можно случайно выучить НЕ то.
Вместо обучения на предпочтения людей, можно переобучиться на артифакты ответов
Что это за артифакты?
В датасетах предпочтений более длинные ответы, ответы с эмодзи
chosen
, чем в rejected
Очевидно, мы не хотим обучить классификатор, который оценивает длину ответа, мы хотим реально хорошие ответы, независимо от их длины
Предлагается делать простой трюк из статьи — аугментации
🔹 Делаем дополнительные примеры из текущего датасета
🔹 Наша задача избавиться от переобучения на артифакты
🔹 Поэтому мы составляем такие пары, где chosen ответ для i-го примера сравнивается с j-ым chosen примером
🔹 Такой трюк заставляет переставать обращать внимание на артифакты, потому что мы учим, что один длинный-красивый chosen пример лучше другого длинного-красивого chosen примера
🔹 Тоже самое для rejected примеров. В общем, смотрите иллюстрацию — там все понятно
Самый прикол в том, что с помощью артифкатов (длинных ответов/эмодзи/доброжелательности) можно захакать не только реворд модель, но и людей. Так сделала llama-4 например, лол
📎 Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2👍1
Репозиторий RM моделей
Код для обучения + блог посты
Реализации всех основных RM — Bradley-Terry (pointwise моделька), Pairwise RM, RRM, Odin RM (борются с байесом длинных ответов) и другие
https://github.com/RLHFlow/RLHF-Reward-Modeling
Код для обучения + блог посты
Реализации всех основных RM — Bradley-Terry (pointwise моделька), Pairwise RM, RRM, Odin RM (борются с байесом длинных ответов) и другие
https://github.com/RLHFlow/RLHF-Reward-Modeling
❤3
Ловушка Грока 🤡
В разных независимых бенчмарках (1, 2, etc) оказывается, что Grok 4 достаточно хорош.
Почему?
Мне кажется интересной идея, что когда ты являешься AI компанией, которая пытается догнать другую AI компанию (e.g. OpenAI), то ты можешь позволить себе катить очень большие модели на прод, ведь у тебя намного меньше юзеров => тебе можно иметь меньше GPU
Очевидно, что при прочих равных модель с бОльшим количеством параметров лучше той, у которой меньше параметров (только если она не переобучилась)
OpenAI не могли бы выдержать текущий трафик, будь у них модель в X раз больше, а другие могут🤓
Получается, что OpenAI являются заложниками своих юзеров, которых у них под ярд.
Короче, интересная ловушка из-за количества юзеров!
В разных независимых бенчмарках (1, 2, etc) оказывается, что Grok 4 достаточно хорош.
Почему?
Мне кажется интересной идея, что когда ты являешься AI компанией, которая пытается догнать другую AI компанию (e.g. OpenAI), то ты можешь позволить себе катить очень большие модели на прод, ведь у тебя намного меньше юзеров => тебе можно иметь меньше GPU
Очевидно, что при прочих равных модель с бОльшим количеством параметров лучше той, у которой меньше параметров (только если она не переобучилась)
OpenAI не могли бы выдержать текущий трафик, будь у них модель в X раз больше, а другие могут
Получается, что OpenAI являются заложниками своих юзеров, которых у них под ярд.
Короче, интересная ловушка из-за количества юзеров!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Сиолошная
MathArena Apex: Unconquered Final-Answer Problems
Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических соревнованиях и поняли: надо что-то менять. Модели решают почти всё!
Поэтому решили поскрести по сусекам…
Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических соревнованиях и поняли: надо что-то менять. Модели решают почти всё!
Поэтому решили поскрести по сусекам…
❤6👍3😁2
Be blocked on Telegram forever 😱
Меня тут @BotFather забанил — теперь не могу ботов создавать
Забанил за новоиспеченного бота (я указал описание и аватарку загрузил). Этим ботом никто не пользовался даже (кроме меня)
Это классификатор ошибся? Кто-то сталкивался?
Меня тут @BotFather забанил — теперь не могу ботов создавать
Забанил за новоиспеченного бота (я указал описание и аватарку загрузил). Этим ботом никто не пользовался даже (кроме меня)
Это классификатор ошибся? Кто-то сталкивался?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4