Neural Redshift: Random Networks are not Random Functions
оказывается, если рандомно инитить нейронки, то аутпуты будут вовсе не рандомными. а рассматривали степень нерандомности через уровень сложности аутпута
эту сложность определяли через
- частотность (по фурье)
- полиномиальную декомпозицию
- сжимаемость (LZW compressibility, не знаю как лучше по-русски)
и что же было обнаружено? - самый главный вывод состоит в том, что simplicity bias не совсем заслуга обучения модели. оно не убирает этот биас, но и не является его причиной, а появляется это смещение из-за часто используемых деталей в моделях, как релу, леернорм или резидуал коннекшны.
эффективность нейронных сетей — это не свойство обученных параметров, а скорее результат адекватного выбора между деталями архитектуры (например, ReLU) и свойствами реальных данных (например, эвиденс о преобладании паттернов низкой частотности).
в частности еще можно сказать, что релу и леернорма во многом влияют на симплисити биас, что в принципе в литературе не упоминалось. а отмечались только численно стабильное превосходство методов, отсутствие затухающих градиентов и всякое такое + трансформеры по своей архитектуре имеют тенденцию к последовательностям, которые компрессятся лучше всего (пища для размышлений)
есть много красивых графиков, от которых у меня аж вдохновление появляется заниматься ресерчем (как например Figure 4)
👀LINK
оказывается, если рандомно инитить нейронки, то аутпуты будут вовсе не рандомными. а рассматривали степень нерандомности через уровень сложности аутпута
эту сложность определяли через
- частотность (по фурье)
- полиномиальную декомпозицию
- сжимаемость (LZW compressibility, не знаю как лучше по-русски)
и что же было обнаружено? - самый главный вывод состоит в том, что simplicity bias не совсем заслуга обучения модели. оно не убирает этот биас, но и не является его причиной, а появляется это смещение из-за часто используемых деталей в моделях, как релу, леернорм или резидуал коннекшны.
эффективность нейронных сетей — это не свойство обученных параметров, а скорее результат адекватного выбора между деталями архитектуры (например, ReLU) и свойствами реальных данных (например, эвиденс о преобладании паттернов низкой частотности).
в частности еще можно сказать, что релу и леернорма во многом влияют на симплисити биас, что в принципе в литературе не упоминалось. а отмечались только численно стабильное превосходство методов, отсутствие затухающих градиентов и всякое такое + трансформеры по своей архитектуре имеют тенденцию к последовательностям, которые компрессятся лучше всего (пища для размышлений)
есть много красивых графиков, от которых у меня аж вдохновление появляется заниматься ресерчем (как например Figure 4)
👀LINK
🔥7👏3👍1
rizzearch
Neural Redshift: Random Networks are not Random Functions оказывается, если рандомно инитить нейронки, то аутпуты будут вовсе не рандомными. а рассматривали степень нерандомности через уровень сложности аутпута эту сложность определяли через - частотность…
Please open Telegram to view this post
VIEW IN TELEGRAM
Full Parameter Fine-tuning for Large Language Models with Limited Resources
не лорой единой можно пробовать файнтюнить ллмки
относительно давняя идея, но все равно интересная. обучают все параметры модели при том не улетает все в стратосферу относительно памяти - low memory optimization
как этого достигли? как я понял, вычисляют градиенты послойно по параметрам, начиная с последнего слоя (потому что бекворд очевидно), после чего их сразу очищают ⇒ получаем независимую от количества слоев комплексити по памяти в плане градиентов, а даже O(1)
есть приросты по метрикам в том числе и на действительно больших ллмках что круто
стоит подметить, что основную часть по памяти занимают параметры - и по идее это основной фронтир в улучшении таких методов
👀LINK
кстати не стоит забывать и про GaLore, может он даже перспективнее будет
не лорой единой можно пробовать файнтюнить ллмки
относительно давняя идея, но все равно интересная. обучают все параметры модели при том не улетает все в стратосферу относительно памяти - low memory optimization
как этого достигли? как я понял, вычисляют градиенты послойно по параметрам, начиная с последнего слоя (потому что бекворд очевидно), после чего их сразу очищают ⇒ получаем независимую от количества слоев комплексити по памяти в плане градиентов, а даже O(1)
есть приросты по метрикам в том числе и на действительно больших ллмках что круто
стоит подметить, что основную часть по памяти занимают параметры - и по идее это основной фронтир в улучшении таких методов
👀LINK
кстати не стоит забывать и про GaLore, может он даже перспективнее будет
❤3 3👍1
AdaLomo: Low-memory Optimization with Adaptive Learning Rate
писали о LOMO, а эти авторы улучшают метод, снижая чувствительность к гиперам и поболе улучшая результаты как следствие
что они сделали? добавили адаптивность лр в стиле адама и нормализацию градиентов (при том нетривиальную, она подвязана как на норме градиентов, так и на норме параметров) → улучшается перформанс, да и даже снижается чуть-чуть по памяти потребление
только оверхед получаем но не думаю что это сильно страшно
👀LINK
писали о LOMO, а эти авторы улучшают метод, снижая чувствительность к гиперам и поболе улучшая результаты как следствие
что они сделали? добавили адаптивность лр в стиле адама и нормализацию градиентов (при том нетривиальную, она подвязана как на норме градиентов, так и на норме параметров) → улучшается перформанс, да и даже снижается чуть-чуть по памяти потребление
только оверхед получаем но не думаю что это сильно страшно
👀LINK
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
по ощущениям, самый часто используемый шедулинг - косинусный. но он, как демонстрируют авторы, неоптимален.
он достигает оптимального лосса, когда длина кос цикла нацело делит количество апдейт степов обучения, но во время трейна перформанс хуже.
значит, чтобы черри пикнуть лучшие результаты модели, надо потренить с разным гипером цикла (я забыл как он называется но вы поняли, Т в псевдокодах), не считая перебор других гиперов ⇒ не айс, вот и многие забивают и не перебирают это
авторы предлагают альтернативу, которую уже прозвали трапецеидальным лр - переменная смена на линейный и константный шедулинг
и это суперски работает! достигает такого же перформанса, который может достигнуть косинусный шедулинг (не факт что не изобрести еще лучше шедулинг), при этом легче изучать результаты моделей при масштабировании кол-ва параметров, что супер круто и для ресерча и для продакшна
много графиков, которые показывают зависимость результата от новых гиперов в этом шедулинге, так что статья очень классная. есть даже подсекция про важность scaling laws
👀LINK
по ощущениям, самый часто используемый шедулинг - косинусный. но он, как демонстрируют авторы, неоптимален.
он достигает оптимального лосса, когда длина кос цикла нацело делит количество апдейт степов обучения, но во время трейна перформанс хуже.
значит, чтобы черри пикнуть лучшие результаты модели, надо потренить с разным гипером цикла (я забыл как он называется но вы поняли, Т в псевдокодах), не считая перебор других гиперов ⇒ не айс, вот и многие забивают и не перебирают это
авторы предлагают альтернативу, которую уже прозвали трапецеидальным лр - переменная смена на линейный и константный шедулинг
и это суперски работает! достигает такого же перформанса, который может достигнуть косинусный шедулинг (не факт что не изобрести еще лучше шедулинг), при этом легче изучать результаты моделей при масштабировании кол-ва параметров, что супер круто и для ресерча и для продакшна
много графиков, которые показывают зависимость результата от новых гиперов в этом шедулинге, так что статья очень классная. есть даже подсекция про важность scaling laws
👀LINK
👍3 3 1 1
The Road Less Scheduled
мое видение статьи - авторам надоело настраивать warmup_steps параметр для шедулинга при обучении моделек и они углубились в теорию и сделали вообще такую надстройку над оптимизаторами, которым не нужен шедулинг (но иронично все равно нужен warmup_steps)
однако, механика шедулинга все же косвенно осталась, ее развили авторы на основе теории итеративного усреднения ⇒ новый метод, которому не нужен шедулинг, подразумевает из себя трейдофф между Polyak-Ruppert averaging & Primal Averaging. в общем авторы реально лютые
к тому же это все можно накинуть на уже существующие оптимизаторы, например на адамв + надо подбирать лернинг рейт вейт дикей снова - деталь, но важная
протестили много датасетов и много моделей в св и нлп (и не только, в общей сложности 28 тасок), правда меньше миллиарда параметров составляют
ну посмотрим, как теория на скейле больших моделей скажется
код есть, гиперы репортят, все круто
👀LINK
мое видение статьи - авторам надоело настраивать warmup_steps параметр для шедулинга при обучении моделек и они углубились в теорию и сделали вообще такую надстройку над оптимизаторами, которым не нужен шедулинг (но иронично все равно нужен warmup_steps)
однако, механика шедулинга все же косвенно осталась, ее развили авторы на основе теории итеративного усреднения ⇒ новый метод, которому не нужен шедулинг, подразумевает из себя трейдофф между Polyak-Ruppert averaging & Primal Averaging. в общем авторы реально лютые
к тому же это все можно накинуть на уже существующие оптимизаторы, например на адамв + надо подбирать лернинг рейт вейт дикей снова - деталь, но важная
протестили много датасетов и много моделей в св и нлп (и не только, в общей сложности 28 тасок), правда меньше миллиарда параметров составляют
ну посмотрим, как теория на скейле больших моделей скажется
код есть, гиперы репортят, все круто
👀LINK
Evidence of Learned Look-Ahead in a Chess-Playing Neural Network
помните статьи про то, что происходит внутри трансформера? (эта и эта) так вот эта крутота из той же истории
авторы взяли самую крутую модель, которая может играть в шахматы Leela Chess Zero, взяли оттуда трансформер модель без monte carlo tree search и остального. и там можно (как указывают авторы) рассматривать токены этог трансформера как позиции на шахматной доске → смотреть активации на токенах, аттеншн мапы на них и делать предварительные эмпирические выводы
аттеннш головы, как оказываются, могут распространять информацию о принятии решения вперед и назад во времени. при том leela может предсказывать почти всегда оптимальные действия на 2 шага вперед в игре (обучали классификатор чтобы проверить, выдал 92% аккураси). формально это называется look-ahead алгоритм, когда мы можем ветвиться в какой-то ситуации и смотреть, как то или иное ответвление влияет на итоговый результат (ветвление может быть рекурсивным а не одиночным)
а весь основной импакт вносила 12-ая аттеншн голова из 12-ого слоя. за что отвечают в большей степени другие головы - неизвестно, наверняка тоже что-то свое обрабатывают из тех битмап, которые подаются на инпут, что заделка на future work (ну или опять доказательство что трансформер почти линеен)
при том это происходит не всегда - авторы утверждают, что находили ситуации, которые не походили на манер тактики/стратегии или еще чего-то такого. но эвиденс о том, что look-ahead присутствует, говорит о многом
в чем вывод? внутри трансформера в который раз происходит что-то алгоритмически осмысленное, вместо непонятных нами процессов, которые в совокупности давали бы желательный результат ⇒ кто знает, что будет дальше
👀LINK
помните статьи про то, что происходит внутри трансформера? (эта и эта) так вот эта крутота из той же истории
авторы взяли самую крутую модель, которая может играть в шахматы Leela Chess Zero, взяли оттуда трансформер модель без monte carlo tree search и остального. и там можно (как указывают авторы) рассматривать токены этог трансформера как позиции на шахматной доске → смотреть активации на токенах, аттеншн мапы на них и делать предварительные эмпирические выводы
аттеннш головы, как оказываются, могут распространять информацию о принятии решения вперед и назад во времени. при том leela может предсказывать почти всегда оптимальные действия на 2 шага вперед в игре (обучали классификатор чтобы проверить, выдал 92% аккураси). формально это называется look-ahead алгоритм, когда мы можем ветвиться в какой-то ситуации и смотреть, как то или иное ответвление влияет на итоговый результат (ветвление может быть рекурсивным а не одиночным)
а весь основной импакт вносила 12-ая аттеншн голова из 12-ого слоя. за что отвечают в большей степени другие головы - неизвестно, наверняка тоже что-то свое обрабатывают из тех битмап, которые подаются на инпут, что заделка на future work (ну или опять доказательство что трансформер почти линеен)
при том это происходит не всегда - авторы утверждают, что находили ситуации, которые не походили на манер тактики/стратегии или еще чего-то такого. но эвиденс о том, что look-ahead присутствует, говорит о многом
в чем вывод? внутри трансформера в который раз происходит что-то алгоритмически осмысленное, вместо непонятных нами процессов, которые в совокупности давали бы желательный результат ⇒ кто знает, что будет дальше
👀LINK