FAST: Efficient Action Tokenization for Vision-Language-Action Models
зачем-то physical intelligence, которые делали pi0, себе второй домен забабахали pi.website, на котором запостили как они сделали токенизатор для робо действий
зачем? в принципе трансформер и оперирует в каждом своем слое над дискретными элементами (каждая голова каждого слоя интуитивно проталкивает только определенные токены дальше по сетке), а в роботике часто надо выпуливать многомерные непрерывные действия, так еще часто и с высокой частотой, а если еще пытаться решить достаточно сложную таску, то такую особенность становится невозможно игнорировать
ну и физикал интеллиженс пытался это решить как раз через флоу матчинг в прошлый раз, что более-менее и получилось (с нюансами), но они проработали и альтернативу в виде FAST
при том идея хороша тем, что построена она из привычных рабочих техник
- надо бы как-то эффективно сжимать временные ряды действий. можно бинаризовать - ок, но в случае высокой герцовки робота получается все больше бинов за все меньшее количество времени → медленный инференс. но можно вспомнить (или просто почитать предположение авторов), что траектории действий во времени являются все-таки гладкими, а значит и это можно использовать для компрессии
- lets go to the Discrete Cosine Transform! да, вот такой переход потому что это уже своего рода классика: будем получать наибольшее количество информации в низких частотах, а значит и можно будет сжимать очень многие высокие частоты)
- получим матрицу для каждого action chunk (о важности чего мы упоминали здесь), которую нам неплохо было бы представить в виде последовательности, чтобы потом использовать БПЕ (потому что скорее всего это тоже привычно и довольно удобно) → давайте флаттенить, да при том чтобы низкие частоты были в начале последовательности, а высокие (незначительные) в конце + допом сделаем scale-and-round операцию чтобы округлить до нулей все незначимое
- тогда и можно запускать бпе бррррр
примечательно еще то, что как будто такая идея может и расширяться за пределы обработки действий (а в принципе многомерных временных рядов)
по результатам он даже обгоняет первую версию их pi-модели с флоу матчингом. то есть (имхо) авторы пытаются дать эвиденс о том, что стоит по максимуму токенизировать все что только можно при работе с трансформерами прежде чем приступать к флоу матчингу (даже с трюками авторов по типу бета распределения версия с токенизатором обгоняет по результату, подтвердили на экспах где обучали оба метода до сходимости и где уравнивали бюджет компьюта)
при том это настолько хорошо вкладывается в пайплайн физикал интеллиженса, что они утверждают о возможности зеро-шота на DROID + там где происходит фейл на эпизоде, полиси делает не вообще полностью что-то рандомное
теперь к вопросам, которые появились
- перед DCT происходит нормализация в рейндж от - 1 до 1 на основе статистик датасета по первой и 99 квантили. FAST+, который они выпустили в опенсурс построен аналогичным путем и заявляет о своей универсальности. звучит немного странно с учетом такой нормализации. да, их датасет основан на многих роботах + 1млн траекторий
- но это все равно как будто слишком уникальное дело по поводу токенизации акншнов для робота + так же в экспериментах они говорят об низкой чувствительности к scale параметру перед округлением и вокаб сайзом для БПЕ → выбирают 10 и 1024. как будто второе число довольно-таки мало (особенно сравнивая с вокаб сайзом для лмок что не очень честно но хоть что-то), чтобы с удобоваримым пресижном сжимать действия,
но может я чего-то не понимаю в этой жизни и это довольно-таки интересный инсайт о природе рободействий в нашей реальности
👀 link, демки, code вроде выложили но там нету самой процедуры обучения токенизатора
зачем-то physical intelligence, которые делали pi0, себе второй домен забабахали pi.website, на котором запостили как они сделали токенизатор для робо действий
зачем? в принципе трансформер и оперирует в каждом своем слое над дискретными элементами (каждая голова каждого слоя интуитивно проталкивает только определенные токены дальше по сетке), а в роботике часто надо выпуливать многомерные непрерывные действия, так еще часто и с высокой частотой, а если еще пытаться решить достаточно сложную таску, то такую особенность становится невозможно игнорировать
ну и физикал интеллиженс пытался это решить как раз через флоу матчинг в прошлый раз, что более-менее и получилось (с нюансами), но они проработали и альтернативу в виде FAST
при том идея хороша тем, что построена она из привычных рабочих техник
- надо бы как-то эффективно сжимать временные ряды действий. можно бинаризовать - ок, но в случае высокой герцовки робота получается все больше бинов за все меньшее количество времени → медленный инференс. но можно вспомнить (или просто почитать предположение авторов), что траектории действий во времени являются все-таки гладкими, а значит и это можно использовать для компрессии
- lets go to the Discrete Cosine Transform! да, вот такой переход потому что это уже своего рода классика: будем получать наибольшее количество информации в низких частотах, а значит и можно будет сжимать очень многие высокие частоты)
- получим матрицу для каждого action chunk (о важности чего мы упоминали здесь), которую нам неплохо было бы представить в виде последовательности, чтобы потом использовать БПЕ (потому что скорее всего это тоже привычно и довольно удобно) → давайте флаттенить, да при том чтобы низкие частоты были в начале последовательности, а высокие (незначительные) в конце + допом сделаем scale-and-round операцию чтобы округлить до нулей все незначимое
- тогда и можно запускать бпе бррррр
примечательно еще то, что как будто такая идея может и расширяться за пределы обработки действий (а в принципе многомерных временных рядов)
по результатам он даже обгоняет первую версию их pi-модели с флоу матчингом. то есть (имхо) авторы пытаются дать эвиденс о том, что стоит по максимуму токенизировать все что только можно при работе с трансформерами прежде чем приступать к флоу матчингу (даже с трюками авторов по типу бета распределения версия с токенизатором обгоняет по результату, подтвердили на экспах где обучали оба метода до сходимости и где уравнивали бюджет компьюта)
при том это настолько хорошо вкладывается в пайплайн физикал интеллиженса, что они утверждают о возможности зеро-шота на DROID + там где происходит фейл на эпизоде, полиси делает не вообще полностью что-то рандомное
теперь к вопросам, которые появились
- перед DCT происходит нормализация в рейндж от - 1 до 1 на основе статистик датасета по первой и 99 квантили. FAST+, который они выпустили в опенсурс построен аналогичным путем и заявляет о своей универсальности. звучит немного странно с учетом такой нормализации. да, их датасет основан на многих роботах + 1млн траекторий
- но это все равно как будто слишком уникальное дело по поводу токенизации акншнов для робота + так же в экспериментах они говорят об низкой чувствительности к scale параметру перед округлением и вокаб сайзом для БПЕ → выбирают 10 и 1024. как будто второе число довольно-таки мало (особенно сравнивая с вокаб сайзом для лмок что не очень честно но хоть что-то), чтобы с удобоваримым пресижном сжимать действия,
но может я чего-то не понимаю в этой жизни и это довольно-таки интересный инсайт о природе рободействий в нашей реальности
👀 link, демки, code вроде выложили но там нету самой процедуры обучения токенизатора
Scalable-Softmax Is Superior for Attention
в прошлом году выходила интересная работа от дипмаинд, которая показывала проблему софтмакса в аттеншне при выходе на длинные “острые” последовательности
однако адекватного решения предложено толком не было кроме фита кривой энтропии, а в этой работе пацанчик в соло решил продолжить это дело
и придумал простую модификацию для софтмакса → просто домножать запросы в аттеншне на s * logn, где s - обучаемый скаляр для каждого слоя, а n - длина последовательности соответственно. назвал Scalable Softmax (SSMax)
и хоть такая формула выглядит интуитивно приемлемой - внедрение логарифмической зависимости под экспоненту чтоб замедлить затухание аттеншна (а и по формулам чел показывает что оно в принципе пропадает) - автор дополнительно провел экспы, встраивая более общее обучаемое аффинное преобразование, которое энивей моделирует лог зависимость от сек лена (есть правда вопросы по поводу того, что проводил он это на датасете с сек леном в 1024 максимум, но тут уж на что ресурсов хватило)
по скейлу автор тренировал в разных сетапах 168М ЛЛаму-2, в таком сценарии действительно наблюдается бОльшая стабильность относительно удлинения контекста, при том необязательно даже с самого начала обучать используя SSMax, а можно после претрена заменить обычный аттеншн на него (тогда никак на натренить параметр s и он везде эвристически заменяется на обратное от среднего лог сек ленов во время обучения, например от 1 до 1024)
по экспам в общем и целом так + по иголке в сене тоже что-то да вырисовывается (опять-таки сильные выводы делать не стоит из-за маленького скейла). отдельный респект хочется выделить парню за то что в соло смог так написать статью, еще и чтоб понятен четко был нарратив, и проведение экспериментов. с кодом была бы вообще вишенка на торте
ну а хоть и по скейлу экспы большого влияния не вносят, имхо пейпер все равно интересно почитать и запомнить от выкладок в формулах, которые там есть на животрепещущую тему
👀LINK
в прошлом году выходила интересная работа от дипмаинд, которая показывала проблему софтмакса в аттеншне при выходе на длинные “острые” последовательности
однако адекватного решения предложено толком не было кроме фита кривой энтропии, а в этой работе пацанчик в соло решил продолжить это дело
и придумал простую модификацию для софтмакса → просто домножать запросы в аттеншне на s * logn, где s - обучаемый скаляр для каждого слоя, а n - длина последовательности соответственно. назвал Scalable Softmax (SSMax)
и хоть такая формула выглядит интуитивно приемлемой - внедрение логарифмической зависимости под экспоненту чтоб замедлить затухание аттеншна (а и по формулам чел показывает что оно в принципе пропадает) - автор дополнительно провел экспы, встраивая более общее обучаемое аффинное преобразование, которое энивей моделирует лог зависимость от сек лена (есть правда вопросы по поводу того, что проводил он это на датасете с сек леном в 1024 максимум, но тут уж на что ресурсов хватило)
по скейлу автор тренировал в разных сетапах 168М ЛЛаму-2, в таком сценарии действительно наблюдается бОльшая стабильность относительно удлинения контекста, при том необязательно даже с самого начала обучать используя SSMax, а можно после претрена заменить обычный аттеншн на него (тогда никак на натренить параметр s и он везде эвристически заменяется на обратное от среднего лог сек ленов во время обучения, например от 1 до 1024)
по экспам в общем и целом так + по иголке в сене тоже что-то да вырисовывается (опять-таки сильные выводы делать не стоит из-за маленького скейла). отдельный респект хочется выделить парню за то что в соло смог так написать статью, еще и чтоб понятен четко был нарратив, и проведение экспериментов. с кодом была бы вообще вишенка на торте
ну а хоть и по скейлу экспы большого влияния не вносят, имхо пейпер все равно интересно почитать и запомнить от выкладок в формулах, которые там есть на животрепещущую тему
👀LINK
👍5🔥1
Forwarded from Vikhr models
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
👍6🔥2
Flow Q-Learning
Сергей Левин уже довольно давно тыкается в применении диффузии в рл (как например более-менее фундаментально здесь или вообще довольно хайпово в роботике здесь) → дошел черед и до оффлайн (goal-conditioned) рл
ну и получилось это все реализовать у Seohong Park’a (который так же ответственен и за OGBench на котором и проводились экспы) через флоу матчинг в пространстве действий
но из-под коробки это все быстро не работает (и вероятно не очень-то хорошо и заводится) в связи с беквордом по времени (BPTT в связи с итеративным флоу семплингом), а потому из двух политик (акторов) рождаются две
1. flow policy, которая предиктит velocity field и итеративно расшумляет распределение действий из оффлайн датасета (behavioral cloning BC этакий)
2. и one-step policy, которая якобы за один шаг пытается сразу расшумить в действия, максимизирующие Q функцию (критика). получается лосс критика не будет проходить на обучении через бекпроп по времени что вполне классично и незатратно
интуитивно напоминает rectified flow, 1-ая политика обучается чисто на BC во флоу матчинг стиле через линейные пути и равномерное семплирование по времени, а 2-ой “одношаговый” актор максимизирует аутпуты критика и пытается в себя дистиллировать аутпуты flow policy
в принципе такой пайплайн на первый взгляд может быть трудноват, но в своей сути оказывается довольно минималистичен (в какой-то мере это даже бейзлайн для флоу матчинг сетапа, диффузионщики примерно такого же мнения). при том просто настолько, что сигнал таймстепов просто конкатенируют с другими инпутами (в более нагроможденных задачах имхо это стараются делать иначе)
так же с точки зрения диффузионной области может вызвать вопрос тот момент, что количество шагов семплирования не влияет сильно на итоговый перформанс, в отличие от коэффициента перед BC лоссом (что классично для оффлайн рл). ставят ли под вопрос такие моменты факт масштабируемости метода - хзхз
👀 paper, code
Сергей Левин уже довольно давно тыкается в применении диффузии в рл (как например более-менее фундаментально здесь или вообще довольно хайпово в роботике здесь) → дошел черед и до оффлайн (goal-conditioned) рл
ну и получилось это все реализовать у Seohong Park’a (который так же ответственен и за OGBench на котором и проводились экспы) через флоу матчинг в пространстве действий
но из-под коробки это все быстро не работает (и вероятно не очень-то хорошо и заводится) в связи с беквордом по времени (BPTT в связи с итеративным флоу семплингом), а потому из двух политик (акторов) рождаются две
1. flow policy, которая предиктит velocity field и итеративно расшумляет распределение действий из оффлайн датасета (behavioral cloning BC этакий)
2. и one-step policy, которая якобы за один шаг пытается сразу расшумить в действия, максимизирующие Q функцию (критика). получается лосс критика не будет проходить на обучении через бекпроп по времени что вполне классично и незатратно
интуитивно напоминает rectified flow, 1-ая политика обучается чисто на BC во флоу матчинг стиле через линейные пути и равномерное семплирование по времени, а 2-ой “одношаговый” актор максимизирует аутпуты критика и пытается в себя дистиллировать аутпуты flow policy
в принципе такой пайплайн на первый взгляд может быть трудноват, но в своей сути оказывается довольно минималистичен (в какой-то мере это даже бейзлайн для флоу матчинг сетапа, диффузионщики примерно такого же мнения). при том просто настолько, что сигнал таймстепов просто конкатенируют с другими инпутами (в более нагроможденных задачах имхо это стараются делать иначе)
так же с точки зрения диффузионной области может вызвать вопрос тот момент, что количество шагов семплирования не влияет сильно на итоговый перформанс, в отличие от коэффициента перед BC лоссом (что классично для оффлайн рл). ставят ли под вопрос такие моменты факт масштабируемости метода - хзхз
👀 paper, code
Latent Action Learning Requires Supervision in the Presence of Distractors
ресерч в области латентных действий это круто, ибо на еще один шажочек приближает методы рл к более реалистичным use case’ам - потому беркли до этого формализовали классические формулы под латентное пространство, а дипмаинд не сделали бы ворлд модели без них (гени и гени2, в оазисе наверняка без латентных действий тоже не обошлось)
ну и здесь авторы еще подвинули этот вопрос поближе к практическому сценарию - где есть много шума (отвлекающего фактора, нерелевантного для процесса принятия решений) принятый сообществом LAPO начинает работать супер плохо
- VQ квантизатор в таком сетапе начинает давать сбои (хотя изначально интуитивно он и помогал обучаться вычленению латентных действий вместо простых транзиций между обсервейшнами) → nahooy его
- обратная модель динамики теперь принимает не текущий обсервейшн и последующий, но и принадлежащий из окна в K таймстепов (потому что это молодежно, К = 10 достаточно для distracting DMC)
- всякий стафф по гиперпараметрам (латентная размерность действий 128 → 8192 etc.)
- теперь еще и модели динамики (прямая и обратная) оперируют в латентном пространстве, пытаясь восстановить не обсервейшн, а состояние. так и обучаться быстрее из соображений памяти + сетки попроще можно делать (в этом случае свертки просто заменяются на млп)
в общем и целом так. назвали LAOM. и хоть нехило так обгоняет лапу по качеству (на базе этих моделей надстраивать классику для максимизации награды + линейная проба под ground-truth действия), без дообучения на настоящие действия все не так сладко
но тем не менее и тут тоже есть + в том, что если раньше нужно было примерно 10% истинных действий, то здесь появляется показатель в 2.5%
👀 link, видео от авторов
ресерч в области латентных действий это круто, ибо на еще один шажочек приближает методы рл к более реалистичным use case’ам - потому беркли до этого формализовали классические формулы под латентное пространство, а дипмаинд не сделали бы ворлд модели без них (гени и гени2, в оазисе наверняка без латентных действий тоже не обошлось)
ну и здесь авторы еще подвинули этот вопрос поближе к практическому сценарию - где есть много шума (отвлекающего фактора, нерелевантного для процесса принятия решений) принятый сообществом LAPO начинает работать супер плохо
- VQ квантизатор в таком сетапе начинает давать сбои (хотя изначально интуитивно он и помогал обучаться вычленению латентных действий вместо простых транзиций между обсервейшнами) → nahooy его
- обратная модель динамики теперь принимает не текущий обсервейшн и последующий, но и принадлежащий из окна в K таймстепов (потому что это молодежно, К = 10 достаточно для distracting DMC)
- всякий стафф по гиперпараметрам (латентная размерность действий 128 → 8192 etc.)
- теперь еще и модели динамики (прямая и обратная) оперируют в латентном пространстве, пытаясь восстановить не обсервейшн, а состояние. так и обучаться быстрее из соображений памяти + сетки попроще можно делать (в этом случае свертки просто заменяются на млп)
в общем и целом так. назвали LAOM. и хоть нехило так обгоняет лапу по качеству (на базе этих моделей надстраивать классику для максимизации награды + линейная проба под ground-truth действия), без дообучения на настоящие действия все не так сладко
но тем не менее и тут тоже есть + в том, что если раньше нужно было примерно 10% истинных действий, то здесь появляется показатель в 2.5%
👀 link, видео от авторов
ViSNet: An Equivariant Geometry-Enchanced Graph Neural Network with Vector-Scalar Interactive Message Passing for Molecules
Из популярных работ по нейронкам для квантовой химии мы знаем, что для повышения точности полезно использовать геометрическую информацию о молекулах, такую как межатомные расстояния, углы соседей и торсиональные углы. Однако, такая информация дорого обходится с расчетах, имея сложность O(N^2) - O(N^3). ViSNet предалагет решение этой проблемы, использя мощную геометрическую информацию дешево
В центре метода так называемый Runtime Geometry Calculation (RGC) модель. Предлагается считать все геометрические признаки, через эквивариантное векторное предсталвение, выражая углы через скалярное произведение. Итого, получается расчитать все за линейное время
Авторы также используют сферические гармоники для higher-order информации. Однако, для эффективности заменяют дорогое произведение Клебша-Гордона, полагаясь только на полиномы Лежандра
Для того, чтобы использовать всю эту информацию во время обучения, в ViSNet сделали message passing с обменом информации между скалярными и векторными признаками. Это в целом было и в Allegro и в PaiNN, но здесь у нас есть дополнительная геометрическая информаций, и она фьюзится особым образом через Scalar2Vec и Vec2Scalar модули, которые постепенно интегрируют в себя фичи из RGC
Стоит отметить очень тщательные эксперименты, все-таки статья опубликована в Nature Communications. Посчитали MD17, MD22, QM9, Molecule3D и PCQM4Mv2, что больше, чем в среднем количество бенчмарков у подобных статей. Сравнились на MD17 с распределениями межатомных расстояний у DFT. Посмотрели на молекулярную динамику синтетического белка Chignolin и сравнились против молекулярной механики
👀 LINK
Из популярных работ по нейронкам для квантовой химии мы знаем, что для повышения точности полезно использовать геометрическую информацию о молекулах, такую как межатомные расстояния, углы соседей и торсиональные углы. Однако, такая информация дорого обходится с расчетах, имея сложность O(N^2) - O(N^3). ViSNet предалагет решение этой проблемы, использя мощную геометрическую информацию дешево
В центре метода так называемый Runtime Geometry Calculation (RGC) модель. Предлагается считать все геометрические признаки, через эквивариантное векторное предсталвение, выражая углы через скалярное произведение. Итого, получается расчитать все за линейное время
Авторы также используют сферические гармоники для higher-order информации. Однако, для эффективности заменяют дорогое произведение Клебша-Гордона, полагаясь только на полиномы Лежандра
Для того, чтобы использовать всю эту информацию во время обучения, в ViSNet сделали message passing с обменом информации между скалярными и векторными признаками. Это в целом было и в Allegro и в PaiNN, но здесь у нас есть дополнительная геометрическая информаций, и она фьюзится особым образом через Scalar2Vec и Vec2Scalar модули, которые постепенно интегрируют в себя фичи из RGC
Стоит отметить очень тщательные эксперименты, все-таки статья опубликована в Nature Communications. Посчитали MD17, MD22, QM9, Molecule3D и PCQM4Mv2, что больше, чем в среднем количество бенчмарков у подобных статей. Сравнились на MD17 с распределениями межатомных расстояний у DFT. Посмотрели на молекулярную динамику синтетического белка Chignolin и сравнились против молекулярной механики
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍1