Градиентное погружение

Forwarded from Love. Death. Transformers.

#чтивонаночь
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.

Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве

reward = cosine_similarity(ground true answer, predicted answer)

Собственно, банальный вопрос анальный ответ, взял gpt2(110m), написал простой retrival(возвращает по вопросу -ответу ревард) на sentence transformer, взял trl и поcтавил учиться.

А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML

КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.

Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида

(if bad_regex in answer): return 0

А еще очень сильно помог подбор гиперпараметров для KL value и LM weight, cпасибо за уточнение от @nadlskom что каждые 10 эпох open ai прогоняли эпоху классического FineTune(стабилизировало трейн и mean начал быстрее рости)

Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.

Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, @dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что.

Ну и да, очевидно это можно применять к любой задаче которая выглядит как: ну вот input, сделай output похожим на <единственный вариант ответа>

сollab если хочется посмотреть на еще багованную версию

Примеры генераций:

Question: What part of a property may be next to a driveway? Answer: The next part is a house or garage or a garage

Question: Jamie wen to the theater near his home. He was surrounded by servicemen. Where might he be? Answer: in the outdoor.

Google

trl_public

Colaboratory notebook

👍14🔥3🤡3

2.7K viewscene655, 16:29

Градиентное погружение

Forwarded from Reliable ML

АБ-тесты. Интеграция в процесс пилотирования
Полный цикл постов про процессы в АБ-тестировании

Друзья, цикл постов про процессы в АБ-тестировании можно торжественно объявить закрытым. Ура! 🥇

Все посты цикла ниже:

Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
Пост 2. Как выглядит типовой бизнес-процесс без АБ.
Пост 3. Риски типового бизнес-процесса без АБ.
Пост 4. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Пост 5. Что делать. База пилотов.
Пост 6. Что делать. Математическая методика дизайна и оценки результатов пилотов.
Пост 7. Что делать. Подборка материалов по АБ.
Пост 8. Что делать. Экстраполяция результатов пилота.
Пост 9. Что делать. Дополнительное об экстраполяции результатов пилота.

В планах - собрать это все добро в одну большую красивую статью на Хабр.

#tech #ab_testing

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14👍3

4.09K viewsМаксим Герасимов, 11:22

Градиентное погружение

Forwarded from Complete AI (Andrey Kuznetsov)

⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗

👍32🤡16🔥7❤4😁1

4.44K viewscene655, 18:49

Градиентное погружение

Forwarded from Вечерний Даня (danya.ru)

This media is not supported in your browser

VIEW IN TELEGRAM

Мощняк. Умельцы написали прогу, превращающую видеоролики на YouTube в бесплатное бесконечное хранилище данных. Вот он, прогресс: от магнитофонных кассет ZX Spectrum до записи данных в видосы ютуба. Даже картинка чем-то спектрумовский загрузчик напоминает.

🔥41😁3

3.64K viewsМаксим Герасимов, 17:18

Градиентное погружение

Forwarded from Love. Death. Transformers.

Я тут недавно зашел посмотреть насколько живой одс и сильно расстроился - он скорее мертв чем жив, а значит пора начинать делать что то свое. Мы с несколькими знакомыми решили стартануть better data community, своего рода флудилка - свалка по интересам для DSов и сочуствующих.
Инвайт:
https://t.iss.one/+eB60Ru4Geqw4Mzky

👎17👍12🤡4🐳4🔥1😢1

3.4K viewscene655, 14:03

Градиентное погружение

Reverse Engineering Google Colab

Искал способ сделать из колаба https proxy сервер без применения ngrok и localtunnel.

Наткнулся на статью, в который парень разобрал запросы из DevTools и понял, что колаб имеет внутренний прокси, который связывает jupyter socket и виртуальную машину.

Как нам сделать публичный диск, api и открыть jupyter lab из web ui? Достаточно вытащить id туннеля, cookie и выполнить pkill -f colab-fileshim . Подробности в статье.

От себя добавлю, что решение очень костыльное и медленное. У меня скорость скачивания на yandex vm была в районе 1 мб/с. Jupyter долго грузится и способен только на чтение файлов, но не их запуск, т.к. гугл ограничил post запросы.

@gradientdip

Статья

👍13🥱4🔥3❤1🤡1

3.67K viewsМаксим Герасимов, edited 09:57

Градиентное погружение

💃Уже скоро будет релиз модели Kandinsky 2.1!
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту🤔
2) Смешивать картинки⌛️
3) Смешивать картинки и тексты🃏
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥69👍12❤7🥱4👎3

18.3K viewscene655, 19:35

Градиентное погружение

Forwarded from Love. Death. Transformers.

Если вы сми - журналист - блогер - инфлюнсер и хотите получить early access - пишите в личку @alexwortega

🤡11👍7👎2

2.17K viewscene655, 22:03

Градиентное погружение

Forwarded from Complete AI (Andrey Kuznetsov)

🔥Не перестаю гордиться нашей командой, которая заряжена строить крутые решения с горящими глазами и испытывать восхищение от получающихся результатов. Продолжаем подогревать Kandinsky 2.1😊

🤫Скоро раскроем подробности!

❤36🤡13🔥5🤯2🥱2👎1

2.54K viewscene655, 19:00

About

Blog

Apps

Platform