Unsupervised-to-Online Reinforcement Learning
проблема смены распределения - очень неприятна в классическом супервайзд лернинге, а если дело доходит и до рл: Oh Lord, our redemption. Be our protection. Direct our minds by your gracious presence.
такое принято называйть оффлайн-ту-онлайн рл: обучали на оффлайн датасете, пора и дотюнить на онлайн данных. но это чревато обычно резким сбросом в результате в самом начале тюнинга, будто можно было и не пробовать претренить (подробнее об этом можете чекнуть здесь)
но Seohong Park & Co. решили пересмотреть парадигму: давайте тюнить в более классическом для мл сетапе ансупервайзд алгоритмы. супер! а как такое получить в рл и почему это может быть выгоднее?
- да так просто легче в долгосроке, получаем одну претрен ансупервайзд модель, которую можно тюнить на многие-многие сингл онлайн таски
- интуитивно внутренние репрезентации ансупервайзд метода лучше чем сингл-таск оффлайн метода в силу ограниченности покрытия датасета пространств + ограниченности по таске. как заверяют авторы, даже ограниченность оффлайн датасета несильно мешает ансупервайзд моделям осуществлять фит латентного пространства состояний
- да и потому что Seohong Park дальше протягивает свою идею (которая действительно хороша)
окей, что же взять за основу ансупервайзд метода? сота на данный момент - HILP (мы писали про него здесь, а еще кстати можете прочитать про это), который способен понять про многие скиллы в непрерывном латентном пространстве
далее это все смещается в сторону онлайн рл в 2 этапа
1. находится “латентный скилл”, который больше всего соответствует downstream таске при помощи реварда (еще конечно встает вопрос о доступности такого ревард датасета в реальных сценариях, особенно тогда, когда используют ансупервайзд модель в силу (возможного) отсутствия ревардов)
2. рескейлятся реварды онлайн и ансупервайзд датасетов (тут делали z-нормализацию), чтобы обучение точно шло по-честному и не было доп нестабильностей. под ансупервайзд ревардом подразумевается intrinsic reward, который склоняет агента двигаться во всех направлениях в латентном пространстве состояний
ну и вроде есть неплохое улучшение во многих энвах, только кода нет :)))))
вообще идея выглядит супер интересно и свежо + сдвигает рл все больше и больше в сторону нлп и св областей в плане инсайтов насчет претрена и скрытых репрезентаций + все больше витает в воздухе ощущение о необходимости фаундейшн моделей в обучении с подкреплением
👀LINK
проблема смены распределения - очень неприятна в классическом супервайзд лернинге, а если дело доходит и до рл: Oh Lord, our redemption. Be our protection. Direct our minds by your gracious presence.
такое принято называйть оффлайн-ту-онлайн рл: обучали на оффлайн датасете, пора и дотюнить на онлайн данных. но это чревато обычно резким сбросом в результате в самом начале тюнинга, будто можно было и не пробовать претренить (подробнее об этом можете чекнуть здесь)
но Seohong Park & Co. решили пересмотреть парадигму: давайте тюнить в более классическом для мл сетапе ансупервайзд алгоритмы. супер! а как такое получить в рл и почему это может быть выгоднее?
- да так просто легче в долгосроке, получаем одну претрен ансупервайзд модель, которую можно тюнить на многие-многие сингл онлайн таски
- интуитивно внутренние репрезентации ансупервайзд метода лучше чем сингл-таск оффлайн метода в силу ограниченности покрытия датасета пространств + ограниченности по таске. как заверяют авторы, даже ограниченность оффлайн датасета несильно мешает ансупервайзд моделям осуществлять фит латентного пространства состояний
- да и потому что Seohong Park дальше протягивает свою идею (которая действительно хороша)
окей, что же взять за основу ансупервайзд метода? сота на данный момент - HILP (мы писали про него здесь, а еще кстати можете прочитать про это), который способен понять про многие скиллы в непрерывном латентном пространстве
далее это все смещается в сторону онлайн рл в 2 этапа
1. находится “латентный скилл”, который больше всего соответствует downstream таске при помощи реварда (еще конечно встает вопрос о доступности такого ревард датасета в реальных сценариях, особенно тогда, когда используют ансупервайзд модель в силу (возможного) отсутствия ревардов)
2. рескейлятся реварды онлайн и ансупервайзд датасетов (тут делали z-нормализацию), чтобы обучение точно шло по-честному и не было доп нестабильностей. под ансупервайзд ревардом подразумевается intrinsic reward, который склоняет агента двигаться во всех направлениях в латентном пространстве состояний
ну и вроде есть неплохое улучшение во многих энвах, только кода нет :)))))
вообще идея выглядит супер интересно и свежо + сдвигает рл все больше и больше в сторону нлп и св областей в плане инсайтов насчет претрена и скрытых репрезентаций + все больше витает в воздухе ощущение о необходимости фаундейшн моделей в обучении с подкреплением
👀LINK
❤4 2 1 1
Autonomous Drifting with 3 Minutes of Data via Learned Tire Models
совместить физику шин с нейронками для решения диффуров чтобы научиться за 3 минуты дрифтить со скоростью 70 км/ч? - Да!
вообще идея супер интересная и не особо понятная, пока не попытаешься самому такое заимплементить
поскольку такая концепция автономной тачки дрифтующей сама по себе сложная по моделированию, ибо углы/скорости скольжения, вращения колес, крутящие моменты, комбинированные режимы скольжения и остальное так просто не засунуть в нейронку, то требуется сперва сделать физ модель, которую можно будет аппроксимировать нейронкой
почему же решили прикрутить Neural Ordinary Differential Equations? как я понял, основная идея в том, чтобы иметь возможность предиктить точки перегиба относительно моделирования скольжения, при том чтобы свойства выпуклости/вогнутости действительно сохранялись, а силы, которые действуют на тачку, уже далее можно получить из интегрирования + идет введение ограничений на максимальную амплитуду силы, чтобы не убирать из уравнения действие трения
сложно-сложно, но прикольно. к тому же у них и с этим сетапом завелось не так, как они хотели, потому они ограничивают семейство решений на то, что называется ExpTanh, чтобы в лишний раз не интегрировать ниче в пайплайне
что в итоге? достаточно 3 минуты подрифтить на тачке, чтобы затем на несколько секунд (как уверяют авторы) модель хорошо зафиттилась. вызывает правда вопросы, как такое расширить на онлайн лернинг сетап (ибо силы начинают со временем по-другому действовать на шины в силу изнашиваемости), но наверное что-то не менее легкое придумать можно
👀LINK
совместить физику шин с нейронками для решения диффуров чтобы научиться за 3 минуты дрифтить со скоростью 70 км/ч? - Да!
вообще идея супер интересная и не особо понятная, пока не попытаешься самому такое заимплементить
поскольку такая концепция автономной тачки дрифтующей сама по себе сложная по моделированию, ибо углы/скорости скольжения, вращения колес, крутящие моменты, комбинированные режимы скольжения и остальное так просто не засунуть в нейронку, то требуется сперва сделать физ модель, которую можно будет аппроксимировать нейронкой
почему же решили прикрутить Neural Ordinary Differential Equations? как я понял, основная идея в том, чтобы иметь возможность предиктить точки перегиба относительно моделирования скольжения, при том чтобы свойства выпуклости/вогнутости действительно сохранялись, а силы, которые действуют на тачку, уже далее можно получить из интегрирования + идет введение ограничений на максимальную амплитуду силы, чтобы не убирать из уравнения действие трения
сложно-сложно, но прикольно. к тому же у них и с этим сетапом завелось не так, как они хотели, потому они ограничивают семейство решений на то, что называется ExpTanh, чтобы в лишний раз не интегрировать ниче в пайплайне
что в итоге? достаточно 3 минуты подрифтить на тачке, чтобы затем на несколько секунд (как уверяют авторы) модель хорошо зафиттилась. вызывает правда вопросы, как такое расширить на онлайн лернинг сетап (ибо силы начинают со временем по-другому действовать на шины в силу изнашиваемости), но наверное что-то не менее легкое придумать можно
👀LINK
Learning Compressed Transforms with Low Displacement Rank
rizzearch throwback
как говорится, хочешь понять человека - прочитай все его папиры в хронологическом порядке. а такого человека-феномена как Три Дао, по нашему мнению, стоит понимать (хотя бы чуть-чуть)
еще до того, как появилась лора, ≥5 лет назад низкоранговые матрицы все равно использовали в дип лернинге. например, для придания какой-то инвариантности или снижения количества параметров. суть еще в том, что такие веса были фиксированы. но данная папира решила это пересмотреть и сделать их обучаемыми, а точнее сделать обучаемыми веса в контексте low displacement rank (определение на первом скриншоте)
so, для этого им пришлось нехило попотеть - моделируют классическую dense матрицу весов при помощи четырех низкоранговых (две из которых тридиагональны или субдиагональны), а matrix-vector product операции производят через связь с матрицами Крылова и свой инференс (с куда кернелами) в “почти линейное время” + не забыли это все приправить теорией о том, что это ускоряет обучение и можно впихивать меньше данных (и даже VC дименшн связан)
экспериментят с млп, свертками и рнн ⇒ количество параметров снижается в несколько раз, а качество качество ухудшается ненамного (утверждают даже, что может при 20-ти кратном снижении кол-ва параметров есть улучшение в перформансе, но это на игрушечной таске)
но почему это не вошло в повсеместное использование? уже тогда появлялись фаундейшн модели, которые обучались и без этой махинации, от которых было удобнее отталкиваться попытке ужать модели при помощи дистилляции и квантизации. но это только наше мнение, если же есть такая задача, где надо с нуля сделать модель с жестким ограничением по количеству параметров, то (возможно) этот метод имеет место быть
👀LINK
rizzearch throwback
как говорится, хочешь понять человека - прочитай все его папиры в хронологическом порядке. а такого человека-феномена как Три Дао, по нашему мнению, стоит понимать (хотя бы чуть-чуть)
еще до того, как появилась лора, ≥5 лет назад низкоранговые матрицы все равно использовали в дип лернинге. например, для придания какой-то инвариантности или снижения количества параметров. суть еще в том, что такие веса были фиксированы. но данная папира решила это пересмотреть и сделать их обучаемыми, а точнее сделать обучаемыми веса в контексте low displacement rank (определение на первом скриншоте)
so, для этого им пришлось нехило попотеть - моделируют классическую dense матрицу весов при помощи четырех низкоранговых (две из которых тридиагональны или субдиагональны), а matrix-vector product операции производят через связь с матрицами Крылова и свой инференс (с куда кернелами) в “почти линейное время” + не забыли это все приправить теорией о том, что это ускоряет обучение и можно впихивать меньше данных (и даже VC дименшн связан)
экспериментят с млп, свертками и рнн ⇒ количество параметров снижается в несколько раз, а качество качество ухудшается ненамного (утверждают даже, что может при 20-ти кратном снижении кол-ва параметров есть улучшение в перформансе, но это на игрушечной таске)
но почему это не вошло в повсеместное использование? уже тогда появлялись фаундейшн модели, которые обучались и без этой махинации, от которых было удобнее отталкиваться попытке ужать модели при помощи дистилляции и квантизации. но это только наше мнение, если же есть такая задача, где надо с нуля сделать модель с жестким ограничением по количеству параметров, то (возможно) этот метод имеет место быть
👀LINK
Many-Shot In-Context Learning
дипмаинды провели оч много компьюта в попытке улучшить ин-контекст способности (своей модели гемини 1.5, благо она пробила челлендж в 1 миллион токенов контекста)
что же придумали? давайте просто повысим количество ин-контекст примеров и посмотрим, насколько все улучшится. улучшение есть? - конечно, что и должно быть интуитивно понятно, только хотелось бы еще более-менее узнать зависимость результата от количества ин-контекст примеров
но и кстати не всегда эта интуиция работает - на математике, например, результат может ухудшиться
но в чем может быть загвоздка? human-like супервайзд примеры не так-то просто собрать, потому что по сути это экспертные данные ⇒ давайте попробуем что-то вроде рейнфорса и ансупервайзд подхода
- рейнфорс подход: заставим модель саму отвечать на ин-контекст запросы, и оставлять те, на которые она ответила правильно (потому что порой в домене от человека намного легче спросить, правилен ли ответ модели, нежели попросить сделать экспертную разметку самому - по крайней мере такое преподают авторы)
- ансупервайзд подход: давайте просто в качестве ин-контекст примеров подавать семплы без ответов
прирост в большей степени, по результатам авторов, дает ансупервайзд подход, чем рейнфорс (но оба довольно сильно отстают от супервайзд подхода). но не стоит забывать, что так же по их результатам и гемини лучше перформит, чем гпт4 и claude (что может быть правдой, но так же и поводом для скепсиса)
энивей, это статья, которая эмпирически подтвердила интуицию о повышении ин-контекст примеров + показала интересный ансупервайзд подход + упомянула, что снижение лосса не коррелирует с появлением ин-контекст способностей ллм (о чем уже писали здесь)
👀LINK
дипмаинды провели оч много компьюта в попытке улучшить ин-контекст способности (своей модели гемини 1.5, благо она пробила челлендж в 1 миллион токенов контекста)
что же придумали? давайте просто повысим количество ин-контекст примеров и посмотрим, насколько все улучшится. улучшение есть? - конечно, что и должно быть интуитивно понятно, только хотелось бы еще более-менее узнать зависимость результата от количества ин-контекст примеров
но и кстати не всегда эта интуиция работает - на математике, например, результат может ухудшиться
но в чем может быть загвоздка? human-like супервайзд примеры не так-то просто собрать, потому что по сути это экспертные данные ⇒ давайте попробуем что-то вроде рейнфорса и ансупервайзд подхода
- рейнфорс подход: заставим модель саму отвечать на ин-контекст запросы, и оставлять те, на которые она ответила правильно (потому что порой в домене от человека намного легче спросить, правилен ли ответ модели, нежели попросить сделать экспертную разметку самому - по крайней мере такое преподают авторы)
- ансупервайзд подход: давайте просто в качестве ин-контекст примеров подавать семплы без ответов
прирост в большей степени, по результатам авторов, дает ансупервайзд подход, чем рейнфорс (но оба довольно сильно отстают от супервайзд подхода). но не стоит забывать, что так же по их результатам и гемини лучше перформит, чем гпт4 и claude (что может быть правдой, но так же и поводом для скепсиса)
энивей, это статья, которая эмпирически подтвердила интуицию о повышении ин-контекст примеров + показала интересный ансупервайзд подход + упомянула, что снижение лосса не коррелирует с появлением ин-контекст способностей ллм (о чем уже писали здесь)
👀LINK
🔥1
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution
проблема ооооочень длинного контекста встречается в том числе и в задачах биологии, а именно в задаче геномике. например, геном человека состоит из 3.2 миллиардов нуклеотидов (это такие буковки-азотистые основания A C G T, называемые аденином цитозином и тд). в таких сценариях использовать аттеншн из-под коробки не айс
тогда стали как и в классическом нлп делать БПЕ токенизацию - отходим от single-character подхода и на основе частоты соединяем подпоследовательности. но это чревато потерей информации на уровне одного нуклеотида, который имеет серьезный вес для геномики
но как может решить проблему лаборатория Christopher’a Ré? - конечно же, при помощи не трансформера, а например hyena, субквадратичная по длине и (вроде) хорошая по генерализации архитектура, которая может здесь принимать вплоть до миллиона токенов контекста
получили фаундейшн модель для геномики (и не только), которая обрабатывает последовательность на уровне нуклеотидов (а не токенов, которые состоят из нескольких) + она намного меньше существующих моделей + обыгрывает на многих датасетах + вроде удобнее тюнить в виде софт промптинга (вставлять в качестве промпта обучаемые токены для даунстрим задачи, снижаем чуть уровень сек лена, но фризим основную модель
еще из интересного можно подметить то, что они не сразу обучали на такой длинной последовательности, а периодически увеличивали сек лен во время обучения в 2 раза, начиная 64 (и расширились до миллиона) → some sort of warmup
интересно посмотреть, как себя будет вести гиена на гораздо бОльшем скейле модели
👀LINK
проблема ооооочень длинного контекста встречается в том числе и в задачах биологии, а именно в задаче геномике. например, геном человека состоит из 3.2 миллиардов нуклеотидов (это такие буковки-азотистые основания A C G T, называемые аденином цитозином и тд). в таких сценариях использовать аттеншн из-под коробки не айс
тогда стали как и в классическом нлп делать БПЕ токенизацию - отходим от single-character подхода и на основе частоты соединяем подпоследовательности. но это чревато потерей информации на уровне одного нуклеотида, который имеет серьезный вес для геномики
но как может решить проблему лаборатория Christopher’a Ré? - конечно же, при помощи не трансформера, а например hyena, субквадратичная по длине и (вроде) хорошая по генерализации архитектура, которая может здесь принимать вплоть до миллиона токенов контекста
получили фаундейшн модель для геномики (и не только), которая обрабатывает последовательность на уровне нуклеотидов (а не токенов, которые состоят из нескольких) + она намного меньше существующих моделей + обыгрывает на многих датасетах + вроде удобнее тюнить в виде софт промптинга (вставлять в качестве промпта обучаемые токены для даунстрим задачи, снижаем чуть уровень сек лена, но фризим основную модель
еще из интересного можно подметить то, что они не сразу обучали на такой длинной последовательности, а периодически увеличивали сек лен во время обучения в 2 раза, начиная 64 (и расширились до миллиона) → some sort of warmup
интересно посмотреть, как себя будет вести гиена на гораздо бОльшем скейле модели
👀LINK
Locally Typical Sampling
rizzearch throwback
мы уже упоминали неидальность maximum likelihood метода вот здесь: задача состоит в максимизации самого правдоподобного из трейна токена, а что будет с остальными - неважно. отчего могут образовываться длинные хвосты в распределении токенов
почему это может быть проблемой? при семплировании всегда есть ненулевая вероятность получить рандомный токен вместо более-менее приемлемого. особенно это остро встает, когда распределение становится остроконечным, и рандомные токены так же острее мешают инференсу
но это малая и не особо вероятная беда. авторы поднимают проблему информативности токенов при их генерации и связыают это с психолингвистами + information theory
в чем идея? как оказывается, самый правдоподобный токен (в терминах likelihood’a) не может быть самым информативным относительно данного контекста, ибо он самый правдоподобный. люди, вроде бы, генерируют свою речь по-другому, стараясь придавать новую информацию каждый раз, при этом сохраняя приверженность контексту
на языке математики это значит что каждый токен находится недалеко относительно ожидаемой энтропии всей последовательности, а значит каждый токен желательно делать не самым вероятным (и не самым невероятным)
как они это реализуют? просто обрубают пик распределения над логитами + обрубают хвосты (при помощи трешхолда от 0 до 1) ⇒ получаем информативно разнообразную адекватную последовательность
тестировались на абстрактной суммаризации и стори генерации, в принципе получилось неплохо. но пригодится такое конечно далеко не во всех задачах
еще интересно подумать над тем, как авторы сдвигают парадигму мышления относительно перплексии: надо не минимизировать ее, а стараться сделать такой же, какая свойственна человеку
👀LINK
rizzearch throwback
мы уже упоминали неидальность maximum likelihood метода вот здесь: задача состоит в максимизации самого правдоподобного из трейна токена, а что будет с остальными - неважно. отчего могут образовываться длинные хвосты в распределении токенов
почему это может быть проблемой? при семплировании всегда есть ненулевая вероятность получить рандомный токен вместо более-менее приемлемого. особенно это остро встает, когда распределение становится остроконечным, и рандомные токены так же острее мешают инференсу
но это малая и не особо вероятная беда. авторы поднимают проблему информативности токенов при их генерации и связыают это с психолингвистами + information theory
в чем идея? как оказывается, самый правдоподобный токен (в терминах likelihood’a) не может быть самым информативным относительно данного контекста, ибо он самый правдоподобный. люди, вроде бы, генерируют свою речь по-другому, стараясь придавать новую информацию каждый раз, при этом сохраняя приверженность контексту
на языке математики это значит что каждый токен находится недалеко относительно ожидаемой энтропии всей последовательности, а значит каждый токен желательно делать не самым вероятным (и не самым невероятным)
как они это реализуют? просто обрубают пик распределения над логитами + обрубают хвосты (при помощи трешхолда от 0 до 1) ⇒ получаем информативно разнообразную адекватную последовательность
тестировались на абстрактной суммаризации и стори генерации, в принципе получилось неплохо. но пригодится такое конечно далеко не во всех задачах
еще интересно подумать над тем, как авторы сдвигают парадигму мышления относительно перплексии: надо не минимизировать ее, а стараться сделать такой же, какая свойственна человеку
👀LINK
👍5❤2 2 1