Transformers learn to implement preconditioned gradient descent for in-context learning
Все знают про чудеса ин-контекст лернинга трансформеров. Более общим образом, если вы зададите в промпте последовательность, из которой можно вычленить какую-либо тенденцию, то моделька скорее всего сможет ее найти и реализовать на новом примере
В теории изучения ин-контекста часто проводят анализ на уровне линейной регрессии и семплов из нее. так вот, если вы в промпт зададите последовательность итераций градиентного спуска, то трансформер сможет ее повторить и спуститься в итоге к оптимуму
Но что если просто подавать тренировочные семплы, как любому супервайзд алгоритму? сможет ли трансформер на инференсе спуститься к оптимуму на произвольных данных, зная, что примеры определяются благодаря линейной функции?
Как оказывается - да. если обучать модель просто на задачу регрессии, то окажется, что внутри трансформер с L слоями производит L итераций (предусловленного предыдущей частью промпта) градиентного спуска, достигая оптимума или критической точки, в зависимости от разброса и входных данных (к которым он тоже по сути адаптируется)
Навевает много размышлений о том, как именно тогда получается обучившийся результат моделей - в соответствии с наименьшим сопротивлением (относительно архитектуры модели), но и так же в соответствии с теми алгоритмами, которые независимо от трансформера придумал человек 🤔
Кстати говоря, все эти теоретические выкладки произведены для линейного аттеншна. Если применять классический, то результат ухудшается. Но это только для линейной регрессии, а для реальных или более сложных задач - не факт 😈
👀LINK
Все знают про чудеса ин-контекст лернинга трансформеров. Более общим образом, если вы зададите в промпте последовательность, из которой можно вычленить какую-либо тенденцию, то моделька скорее всего сможет ее найти и реализовать на новом примере
В теории изучения ин-контекста часто проводят анализ на уровне линейной регрессии и семплов из нее. так вот, если вы в промпт зададите последовательность итераций градиентного спуска, то трансформер сможет ее повторить и спуститься в итоге к оптимуму
Но что если просто подавать тренировочные семплы, как любому супервайзд алгоритму? сможет ли трансформер на инференсе спуститься к оптимуму на произвольных данных, зная, что примеры определяются благодаря линейной функции?
Как оказывается - да. если обучать модель просто на задачу регрессии, то окажется, что внутри трансформер с L слоями производит L итераций (предусловленного предыдущей частью промпта) градиентного спуска, достигая оптимума или критической точки, в зависимости от разброса и входных данных (к которым он тоже по сути адаптируется)
Навевает много размышлений о том, как именно тогда получается обучившийся результат моделей - в соответствии с наименьшим сопротивлением (относительно архитектуры модели), но и так же в соответствии с теми алгоритмами, которые независимо от трансформера придумал человек 🤔
Кстати говоря, все эти теоретические выкладки произведены для линейного аттеншна. Если применять классический, то результат ухудшается. Но это только для линейной регрессии, а для реальных или более сложных задач - не факт 😈
👀LINK
🤯4👀2
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models
Yet another MLLM, but with stuff from 2017🔕
LLaVa у нас использует статичные параметры для мэппинга между картинками и текстом. Тут в статье авторы обмазались гиперсетями, чтобы делать динамические фичи
Есть два модуля: картиночный и текстовый эксперт😓 . Эксперты эти представляют из себя гиперсети, которые генерируют параметры сети для динамически меняющихся эмбеддингов. Такого эксперта вставляются на каждом слое проектора для картинок, и обучают на фичах конкретного слоя. Сами гиперсети генерят параметры для upsample и downsample модулей, по сути имитируя адаптер
Языковой эксперт (такой же адаптер с гиперсетью) вставляется в промежуточный слой LLM и оперирует на фичах после аттеншена и RMS нормализации
На бенчмарках бьет ллаву 1.5. Также пишут, что языкового эксперта полезно вставлять во вторую половину слоев языковой модели, так как в начале есть интуиция, что по началу в текстовых фичах не хватает инфу для эффективного гайденса динамических модулей
LINK 👀
Yet another MLLM, but with stuff from 2017
LLaVa у нас использует статичные параметры для мэппинга между картинками и текстом. Тут в статье авторы обмазались гиперсетями, чтобы делать динамические фичи
Есть два модуля: картиночный и текстовый эксперт
Языковой эксперт (такой же адаптер с гиперсетью) вставляется в промежуточный слой LLM и оперирует на фичах после аттеншена и RMS нормализации
На бенчмарках бьет ллаву 1.5. Также пишут, что языкового эксперта полезно вставлять во вторую половину слоев языковой модели, так как в начале есть интуиция, что по началу в текстовых фичах не хватает инфу для эффективного гайденса динамических модулей
LINK 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2
Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning
И снова теория! и снова рл! и снова теория ин-контекст рл! на этот раз дополняющая возможности трансформера еще круче
пожалуй, самый обширный и результативный пласт рл методов составляют Temporal Difference алгоритмы. обучаются они итеративно, наподобие градиентного спуска, но это не он. это полу-градиентные методы, поскольку берется не вся производная в уравнении Беллмана обучаемой функции.
Авторы показывают (один из них, кстати, работал и над этой статьей), что трансформер может вопроизвести и их! при том не на одной таске, а на многих, а в последствии и обобщиться на те, которые не видел
И он не просто может, а именно и воспроизводит их во время обучения. при том могут воспроизвести не только TD, но и
- residual gradient (когда берем полный градиент в уравнении Беллмана)
- TD(lambda) - взвешенное среднее между обычным TD и Monte Carlo Policy Evaluation с полным вычислением ретернов
- недисконтированный случай ревардов - Average Reward TD
Стоит отметить, что в качестве данных они принимают не MDP, а Markov Reward Process - убирают действия из уравнений, чтобы все зависело только от состояний. облегчили себе работу, поскольку статья нацелена на моделирование трансформером value function, а не актора/control algorithm + анализ опять проведен над линейным аттеншеном. а что будет дальше - не знаем, но скорее всего будет еще жарче 😈
👀LINK
И снова теория! и снова рл! и снова теория ин-контекст рл! на этот раз дополняющая возможности трансформера еще круче
пожалуй, самый обширный и результативный пласт рл методов составляют Temporal Difference алгоритмы. обучаются они итеративно, наподобие градиентного спуска, но это не он. это полу-градиентные методы, поскольку берется не вся производная в уравнении Беллмана обучаемой функции.
Авторы показывают (один из них, кстати, работал и над этой статьей), что трансформер может вопроизвести и их! при том не на одной таске, а на многих, а в последствии и обобщиться на те, которые не видел
И он не просто может, а именно и воспроизводит их во время обучения. при том могут воспроизвести не только TD, но и
- residual gradient (когда берем полный градиент в уравнении Беллмана)
- TD(lambda) - взвешенное среднее между обычным TD и Monte Carlo Policy Evaluation с полным вычислением ретернов
- недисконтированный случай ревардов - Average Reward TD
👀LINK
❤2👍2
rizzearch
Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning И снова теория! и снова рл! и снова теория ин-контекст рл! на этот раз дополняющая возможности трансформера еще круче пожалуй, самый обширный и результативный пласт рл методов…
А остальные обзоры на статьи по In-context RL вы можете найти с нашим дайджестом!
А для тех, кто хочет разобраться в базе рл, незаменимым творением будет учебник Саттона и Барто по фундаментальным основам области
А для тех, кто хочет разобраться в базе рл, незаменимым творением будет учебник Саттона и Барто по фундаментальным основам области
❤🔥3
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
❤6
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning
Расширить возможности Vision-Language Models при помощи рл, чтобы они могли например играть в блекджек? да! и тут Сергей Левин не остался в стороне (кстати, он также успел поработать и с относительно большими диффузионками, тем самым тоже расширил границы рл)
Тюнили модельку
состояния подаются в виде картинок и текста - в тексте постоянно напоминают описание задачи + подаются возможные действия, которые можно сделать в данном состоянии (частично зависит от картинки) и говорят выдать действие в виде “action”: “…” в конце промпта(уточняю на этом внимание, потому что авторы пишут, что иногда моделька такое не выдавала и тогда они брали действие на рандоме. звучит не оч безопасно, несмотря на то, что при каждом шаге в зависимости от картинки подаются только legal actions, мало ли что на рандоме может выдать модель, когда мы выпускаем ее в более реальную среду)
а тюнят при помощи ппо - вычисляем log-likelihood промпта, который содержит акшн ⇒ вычисляем вероятность и сохраняем все необходимое в буффере
есть еще важный момент - если просить добавлять модель свои рассуждения в виде CoT в аутпут, то результат жоско улучшается. это и супер прикольно, и оч практично
правда надо тогда учесть, что при вычислении лог лайклихуда промпта больший масштаб будет иметь именно СоТ ⇒ уменьшаем его при помощи гипера < 1, и все идет гладко
А на каких средах тестили?
- Number Line, где надо последовательными плюсами или минусами из данного числа получить таргетное
- пара вариаций чего-то типа двадцати одного, где надо просто из карт составить эту сумму (EZPoints)
- blackjack of course
- Alfworld - среда, которая тестит может ли VLM в принятие действий на основании осмысления визуального пространства (среды выше проверяли может ли моделька в арифметику при умении распознавать визуальные паттерны), а именно взять что-то с полки, положить туда-то, осмотри что-то на свету и тд и тп
обгоняет гпт-4в и гемини йо, что говорит о небесполезности рл в данном сетапе (рльном сетапе, да-да, но верим что можно пойти еще дальше)
выглядит свежо и интересно, в основном применяются стандартные и относительно не новые методы, но и то хорошо. появляется почва для улучшения результата при помощи более современных методов. банально грамотно вставить оффлайн рл уже повысит результаты и степень применимости на реальных задачах, что уже говорить о SAC для перехода на недискретные действия, и его сюда будет нетривиально вставить, или расширении политики на гоал-кондишнд или около ин-контекст явления (тут уже серьезно надо будет подумать как такое сшивать вместе)
👀LINK
По просьбе нашего подписчика☝️
Расширить возможности Vision-Language Models при помощи рл, чтобы они могли например играть в блекджек? да! и тут Сергей Левин не остался в стороне (кстати, он также успел поработать и с относительно большими диффузионками, тем самым тоже расширил границы рл)
Тюнили модельку
llava-v1.6-mistral-7b в классических традициях - сначала сфт с инструкт датасетом, затем по аналогии с рлхф обучают как рл агента (в принципе логично, только ревард модель не учат поскольку реварды выдают сами среды)состояния подаются в виде картинок и текста - в тексте постоянно напоминают описание задачи + подаются возможные действия, которые можно сделать в данном состоянии (частично зависит от картинки) и говорят выдать действие в виде “action”: “…” в конце промпта
а тюнят при помощи ппо - вычисляем log-likelihood промпта, который содержит акшн ⇒ вычисляем вероятность и сохраняем все необходимое в буффере
есть еще важный момент - если просить добавлять модель свои рассуждения в виде CoT в аутпут, то результат жоско улучшается. это и супер прикольно, и оч практично
правда надо тогда учесть, что при вычислении лог лайклихуда промпта больший масштаб будет иметь именно СоТ ⇒ уменьшаем его при помощи гипера < 1, и все идет гладко
А на каких средах тестили?
- Number Line, где надо последовательными плюсами или минусами из данного числа получить таргетное
- пара вариаций чего-то типа двадцати одного, где надо просто из карт составить эту сумму (EZPoints)
- blackjack of course
- Alfworld - среда, которая тестит может ли VLM в принятие действий на основании осмысления визуального пространства (среды выше проверяли может ли моделька в арифметику при умении распознавать визуальные паттерны), а именно взять что-то с полки, положить туда-то, осмотри что-то на свету и тд и тп
обгоняет гпт-4в и гемини йо, что говорит о небесполезности рл в данном сетапе (рльном сетапе, да-да, но верим что можно пойти еще дальше)
👀LINK
По просьбе нашего подписчика☝️
🔥7❤🔥2❤1👏1
Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
не первый год так получается, что чаще всего токенизатор фиттится отдельно от основной модели, которая потом и обучается с его помощью. только это может вызывать проблему недо-обученных или вовсе необученных токенов - таких токенов, из которых можно получить строку, а если снова эту строку закодировать, то получим другой токен (и получается к изначальному мы вернуться не сможем).
в основном известно, что такие токены появляются
- из-за ошибки кодировки utf-8
- из-за накладки при расширении вокабуляра
- специальные токены, заранее введенные с определенной целью (<s>)
- и другие (непонятно какие)
авторы из Cohere, компании которая полностью на ЛЛМках базируется, попытались решить эту проблемку
как они это сделали? вычли главную компоненту последней матрицы, которая эмбеддинги переводит в распределение над токенами, получили общий эмбеддинг неиспользуемого токена путем усреднения и далее по косинусному расстоянию сравнивали с заранее выбранными токенами для проверки
несмотря на то что у авторов был относительно большой трешхолд, все равно 0.1-1% токенов от общего вокабуляра отстают в натреннированности, что так-то много и влияет на эффективность инференса
есть красивые графики, которые показывают какую-то семантику в скрытых пространствах
и вообще много моделей они смогли протестить, в том числе и получить некоторые результаты на закрытых (тот же опенаи), таблички все вставить сюда не сможем, но ссылку мы как всегда прикрепляем
+ конечно выложен код такой процедуры, что очень приятно
👀LINK
не первый год так получается, что чаще всего токенизатор фиттится отдельно от основной модели, которая потом и обучается с его помощью. только это может вызывать проблему недо-обученных или вовсе необученных токенов - таких токенов, из которых можно получить строку, а если снова эту строку закодировать, то получим другой токен (и получается к изначальному мы вернуться не сможем).
в основном известно, что такие токены появляются
- из-за ошибки кодировки utf-8
- из-за накладки при расширении вокабуляра
- специальные токены, заранее введенные с определенной целью (<s>)
- и другие (непонятно какие)
авторы из Cohere, компании которая полностью на ЛЛМках базируется, попытались решить эту проблемку
как они это сделали? вычли главную компоненту последней матрицы, которая эмбеддинги переводит в распределение над токенами, получили общий эмбеддинг неиспользуемого токена путем усреднения и далее по косинусному расстоянию сравнивали с заранее выбранными токенами для проверки
несмотря на то что у авторов был относительно большой трешхолд, все равно 0.1-1% токенов от общего вокабуляра отстают в натреннированности, что так-то много и влияет на эффективность инференса
есть красивые графики, которые показывают какую-то семантику в скрытых пространствах
и вообще много моделей они смогли протестить, в том числе и получить некоторые результаты на закрытых (тот же опенаи), таблички все вставить сюда не сможем, но ссылку мы как всегда прикрепляем
+ конечно выложен код такой процедуры, что очень приятно
👀LINK
👍3🤔1
Reinformer: Max-Return Sequence Modeling for offline RL
Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)
так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД
но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?
авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс
да и в общем и целом, весь метод кодится максимум за вечер-два
как это и происходит очень часто, простые идеи выстреливают
👀LINK
Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)
так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД
но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?
авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс
да и в общем и целом, весь метод кодится максимум за вечер-два
как это и происходит очень часто, простые идеи выстреливают
👀LINK
👍3
Effectiveness of an intermittent fasting diet versus regular diet on fat loss in overweight and obese middle-aged and elderly people without metabolic disease: a systematic review and meta-analysis of randomized controlled trials
Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.
Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:
форрест плот все наглядно демонстрирует
👀LINK
Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.
Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:
IF reduces BMI and triglyceride levels compared to a normal diet, primarily by reducing fat mass while maintaining lean body mass, making it a healthy and effective weight loss solution.
форрест плот все наглядно демонстрирует
👀LINK
🌭9👎1