rizzearch

Transformers learn to implement preconditioned gradient descent for in-context learning

Все знают про чудеса ин-контекст лернинга трансформеров. Более общим образом, если вы зададите в промпте последовательность, из которой можно вычленить какую-либо тенденцию, то моделька скорее всего сможет ее найти и реализовать на новом примере

В теории изучения ин-контекста часто проводят анализ на уровне линейной регрессии и семплов из нее. так вот, если вы в промпт зададите последовательность итераций градиентного спуска, то трансформер сможет ее повторить и спуститься в итоге к оптимуму

Но что если просто подавать тренировочные семплы, как любому супервайзд алгоритму? сможет ли трансформер на инференсе спуститься к оптимуму на произвольных данных, зная, что примеры определяются благодаря линейной функции?

Как оказывается - да. если обучать модель просто на задачу регрессии, то окажется, что внутри трансформер с L слоями производит L итераций (предусловленного предыдущей частью промпта) градиентного спуска, достигая оптимума или критической точки, в зависимости от разброса и входных данных (к которым он тоже по сути адаптируется)

Навевает много размышлений о том, как именно тогда получается обучившийся результат моделей - в соответствии с наименьшим сопротивлением (относительно архитектуры модели), но и так же в соответствии с теми алгоритмами, которые независимо от трансформера придумал человек 🤔

Кстати говоря, все эти теоретические выкладки произведены для линейного аттеншна. Если применять классический, то результат ухудшается. Но это только для линейной регрессии, а для реальных или более сложных задач - не факт 😈

👀LINK

🤯4👀2

509 views16:33

rizzearch

HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Yet another MLLM, but with stuff from 2017 🔕

LLaVa у нас использует статичные параметры для мэппинга между картинками и текстом. Тут в статье авторы обмазались гиперсетями, чтобы делать динамические фичи

Есть два модуля: картиночный и текстовый эксперт 😓. Эксперты эти представляют из себя гиперсети, которые генерируют параметры сети для динамически меняющихся эмбеддингов. Такого эксперта вставляются на каждом слое проектора для картинок, и обучают на фичах конкретного слоя. Сами гиперсети генерят параметры для upsample и downsample модулей, по сути имитируя адаптер

Языковой эксперт (такой же адаптер с гиперсетью) вставляется в промежуточный слой LLM и оперирует на фичах после аттеншена и RMS нормализации

На бенчмарках бьет ллаву 1.5. Также пишут, что языкового эксперта полезно вставлять во вторую половину слоев языковой модели, так как в начале есть интуиция, что по началу в текстовых фичах не хватает инфу для эффективного гайденса динамических модулей

LINK 👀

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2🔥2

410 views09:25

rizzearch

Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning

И снова теория! и снова рл! и снова теория ин-контекст рл! на этот раз дополняющая возможности трансформера еще круче

пожалуй, самый обширный и результативный пласт рл методов составляют Temporal Difference алгоритмы. обучаются они итеративно, наподобие градиентного спуска, но это не он. это полу-градиентные методы, поскольку берется не вся производная в уравнении Беллмана обучаемой функции.

Авторы показывают (один из них, кстати, работал и над этой статьей), что трансформер может вопроизвести и их! при том не на одной таске, а на многих, а в последствии и обобщиться на те, которые не видел

И он не просто может, а именно и воспроизводит их во время обучения. при том могут воспроизвести не только TD, но и

- residual gradient (когда берем полный градиент в уравнении Беллмана)
- TD(lambda) - взвешенное среднее между обычным TD и Monte Carlo Policy Evaluation с полным вычислением ретернов
- недисконтированный случай ревардов - Average Reward TD

Стоит отметить, что в качестве данных они принимают не MDP, а Markov Reward Process - убирают действия из уравнений, чтобы все зависело только от состояний. облегчили себе работу, поскольку статья нацелена на моделирование трансформером value function, а не актора/control algorithm + анализ опять проведен над линейным аттеншеном. а что будет дальше - не знаем, но скорее всего будет еще жарче 😈

👀LINK

❤2👍2

490 views19:37

rizzearch

Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning И снова теория! и снова рл! и снова теория ин-контекст рл! на этот раз дополняющая возможности трансформера еще круче пожалуй, самый обширный и результативный пласт рл методов…

А остальные обзоры на статьи по In-context RL вы можете найти с нашим дайджестом!

А для тех, кто хочет разобраться в базе рл, незаменимым творением будет учебник Саттона и Барто по фундаментальным основам области

❤‍🔥3

452 views19:38

rizzearch

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой

итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто

все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое

но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)

и ко всему прочему есть и код - и хф, и все-все

👀LINK

❤6

521 views12:01

rizzearch

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Расширить возможности Vision-Language Models при помощи рл, чтобы они могли например играть в блекджек? да! и тут Сергей Левин не остался в стороне (кстати, он также успел поработать и с относительно большими диффузионками, тем самым тоже расширил границы рл)

Тюнили модельку llava-v1.6-mistral-7b в классических традициях - сначала сфт с инструкт датасетом, затем по аналогии с рлхф обучают как рл агента (в принципе логично, только ревард модель не учат поскольку реварды выдают сами среды)

состояния подаются в виде картинок и текста - в тексте постоянно напоминают описание задачи + подаются возможные действия, которые можно сделать в данном состоянии (частично зависит от картинки) и говорят выдать действие в виде “action”: “…” в конце промпта (уточняю на этом внимание, потому что авторы пишут, что иногда моделька такое не выдавала и тогда они брали действие на рандоме. звучит не оч безопасно, несмотря на то, что при каждом шаге в зависимости от картинки подаются только legal actions, мало ли что на рандоме может выдать модель, когда мы выпускаем ее в более реальную среду)

а тюнят при помощи ппо - вычисляем log-likelihood промпта, который содержит акшн ⇒ вычисляем вероятность и сохраняем все необходимое в буффере

есть еще важный момент - если просить добавлять модель свои рассуждения в виде CoT в аутпут, то результат жоско улучшается. это и супер прикольно, и оч практично

правда надо тогда учесть, что при вычислении лог лайклихуда промпта больший масштаб будет иметь именно СоТ ⇒ уменьшаем его при помощи гипера < 1, и все идет гладко

А на каких средах тестили?

- Number Line, где надо последовательными плюсами или минусами из данного числа получить таргетное
- пара вариаций чего-то типа двадцати одного, где надо просто из карт составить эту сумму (EZPoints)
- blackjack of course
- Alfworld - среда, которая тестит может ли VLM в принятие действий на основании осмысления визуального пространства (среды выше проверяли может ли моделька в арифметику при умении распознавать визуальные паттерны), а именно взять что-то с полки, положить туда-то, осмотри что-то на свету и тд и тп

обгоняет гпт-4в и гемини йо, что говорит о небесполезности рл в данном сетапе (рльном сетапе, да-да, но верим что можно пойти еще дальше)

выглядит свежо и интересно, в основном применяются стандартные и относительно не новые методы, но и то хорошо. появляется почва для улучшения результата при помощи более современных методов. банально грамотно вставить оффлайн рл уже повысит результаты и степень применимости на реальных задачах, что уже говорить о SAC для перехода на недискретные действия, и его сюда будет нетривиально вставить, или расширении политики на гоал-кондишнд или около ин-контекст явления (тут уже серьезно надо будет подумать как такое сшивать вместе)

👀LINK

По просьбе нашего подписчика☝️

🔥7❤‍🔥2❤1👏1

579 views09:26

rizzearch

Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

не первый год так получается, что чаще всего токенизатор фиттится отдельно от основной модели, которая потом и обучается с его помощью. только это может вызывать проблему недо-обученных или вовсе необученных токенов - таких токенов, из которых можно получить строку, а если снова эту строку закодировать, то получим другой токен (и получается к изначальному мы вернуться не сможем).

в основном известно, что такие токены появляются

- из-за ошибки кодировки utf-8
- из-за накладки при расширении вокабуляра
- специальные токены, заранее введенные с определенной целью (<s>)
- и другие (непонятно какие)

авторы из Cohere, компании которая полностью на ЛЛМках базируется, попытались решить эту проблемку

как они это сделали? вычли главную компоненту последней матрицы, которая эмбеддинги переводит в распределение над токенами, получили общий эмбеддинг неиспользуемого токена путем усреднения и далее по косинусному расстоянию сравнивали с заранее выбранными токенами для проверки

несмотря на то что у авторов был относительно большой трешхолд, все равно 0.1-1% токенов от общего вокабуляра отстают в натреннированности, что так-то много и влияет на эффективность инференса

есть красивые графики, которые показывают какую-то семантику в скрытых пространствах

и вообще много моделей они смогли протестить, в том числе и получить некоторые результаты на закрытых (тот же опенаи), таблички все вставить сюда не сможем, но ссылку мы как всегда прикрепляем

+ конечно выложен код такой процедуры, что очень приятно

👀LINK

👍3🤔1

477 views16:27

rizzearch

Reinformer: Max-Return Sequence Modeling for offline RL

Есть такая замечательная статья - Decision Transformer, которая показала, как можно совместить трансформеры и супервайзд лернинг в рле, преимущественно в оффлайн рле (потому что есть статический датасет, но идею обобщили и до онлайн сеттинга)

так вот, загвоздка в том, что от рля в постановке модели там данные - все обучение происходит в привычном супервайзд стиле, а награды (и конкретнее returns-to-go, сумма наград с определенного таймстепа до конца эпизода) являются частью входных данных. при инференсе, кстати, мы сами выбираем, какой награды хотим достичь - скользкая дорожка на пути к ООД

но можно ли как-то на хоть на йоту приблизить трансформеры к тому, чтобы они были более рльными в плане обучения?

авторы предложили пока самый легкий вариант, который есть - заставить модель самой предсказывать максимальные ретерны, которые можно получить из конкретных состояний, а уже по ним она далее предсказывает оптимальное действие - и это работает! правда надо еще справиться с оод проблемами в моделировании награды, а с этим справляется ассиметричный мсе лосс

да и в общем и целом, весь метод кодится максимум за вечер-два

как это и происходит очень часто, простые идеи выстреливают

👀LINK

👍3

376 views14:02

rizzearch

Effectiveness of an intermittent fasting diet versus regular diet on fat loss in overweight and obese middle-aged and elderly people without metabolic disease: a systematic review and meta-analysis of randomized controlled trials

Недавно был опубликован мета-анализ, который подтверждает эффективность периодического голодания.

Ученые проанализировали 9 рандомизированных контролируемых работ и пришли к выводу, что:

IF reduces BMI and triglyceride levels compared to a normal diet, primarily by reducing fat mass while maintaining lean body mass, making it a healthy and effective weight loss solution.

форрест плот все наглядно демонстрирует

👀LINK

🌭9👎1

364 views17:52

About

Blog

Apps

Platform