Forwarded from Love. Death. Transformers.
Самое полезное что есть у трансформера как у архитектры - устойчивость, оч сложно сделать так чтобы градиенты взорвались или на инференсе он разошёлся, поэтому 8бит обучение и инференс, вполне себе рабочая схема(скоро выйдет 4бит инференс, но его пока карты не поддерживают)
Ноутбук сборник всяких хаков
Автор: @kaggling
Ноутбук сборник всяких хаков
Автор: @kaggling
Kaggle
Optimization approaches for Transformers [Part 2]
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
🔥25🤔1
Бац и вот теперь я frontend
Сейчас я нахожусь на хакатоне по разработке приложений для вк.
За ночь сделали обучающее приложение на тему ML. Есть тесты и теоретическая информация по основным разделам как классического МО, так и DL.
Потыкать приложение можно -> тут
Баги, отзывы, комментарии под постом
UPD: всем спасибо за переходы
Сейчас я нахожусь на хакатоне по разработке приложений для вк.
За ночь сделали обучающее приложение на тему ML. Есть тесты и теоретическая информация по основным разделам как классического МО, так и DL.
Потыкать приложение можно -> тут
Баги, отзывы, комментарии под постом
UPD: всем спасибо за переходы
Vk
Машинное обучение
C помощью этого приложения вы можете прокачать свои навыки в машинном обучение!
🔥24🤡15👎9👍1🤔1
Forwarded from Complete AI (Andrey Kuznetsov)
🔥 Scalable Diffusion Models with Transformers
Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).
Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.
статья
гитхаб
колаб
Вчера вышла интересная работа от ребят из UC Berkeley и NY University про комбинацию диффузии и трансформеров (Diffusion Transformers или DiT).
Ребята заменяют U-Net на трансформер и работают с патчами в латентном пространстве. DiT-XL/2 превосходит все class-conditional диффузионные модели на ImageNet 512x512 и 256x256 бенчмарках и достигает FID=2.27 для низкого разрешения. Более вычислительно тяжёлые DiT позволяют генерировать сэмплы очень высокого качества.
статья
гитхаб
колаб
👍25🤔6🍌1
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 TAPE
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Хабр
TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке
Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500...
🔥15👍2
💻 Russian Texts Statistics (ruts)
👉 Библиотека разработанная для извлечения признаков из произвольного текста. Работает на русском, но ничего не мешает применить для другого языка.
В комплект входят:
• Базовые статистики (количество слогов, букв, пробелов и тд)
• Метрики удобочитаемости (уже писал о них)
• Метрики лексического разнообразия (Индекс Симпсона и тд)
• Морфологические статистики
Визуализации:
— Закон Ципфа
— Литературная дактилоскопия
— Дерево слов
Подойдет в качестве экстрактора для фича инжиниринга к обычному tf-idf или эмбеддингам.
github
👉 Библиотека разработанная для извлечения признаков из произвольного текста. Работает на русском, но ничего не мешает применить для другого языка.
В комплект входят:
• Базовые статистики (количество слогов, букв, пробелов и тд)
• Метрики удобочитаемости (уже писал о них)
• Метрики лексического разнообразия (Индекс Симпсона и тд)
• Морфологические статистики
Визуализации:
— Закон Ципфа
— Литературная дактилоскопия
— Дерево слов
Подойдет в качестве экстрактора для фича инжиниринга к обычному tf-idf или эмбеддингам.
github
👍39❤1🤡1
Forwarded from Love. Death. Transformers.
Babenko_M._Vvedenie_v_teoriyu_algoritmov_i_struktur_dannykh.pdf
1.1 MB
В руки попала топавая шадовая книжка по алгосам, го ботат
🔥19👍3🥱3
🤗 Optimum
Интеграция всем известной библиотеки для конвертации/запуска моделей с разными бэкендами: ONNX RT, Intel Neural Compressor, OpenVINO, Graphcore IPU, HPU.
Изменения происходят в несколько строк, но в зависимости от вашего оборудования и задачи можно получить прирост в X раз.
Некоторые используют конвертацию в докере, чтобы получить максимальную производительность.
Notebooks
Github
Optimum
Интеграция всем известной библиотеки для конвертации/запуска моделей с разными бэкендами: ONNX RT, Intel Neural Compressor, OpenVINO, Graphcore IPU, HPU.
Изменения происходят в несколько строк, но в зависимости от вашего оборудования и задачи можно получить прирост в X раз.
Некоторые используют конвертацию в докере, чтобы получить максимальную производительность.
Notebooks
Github
Optimum
🔥21👍6
Forwarded from Love. Death. Transformers.
#чтивонаночь
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.
Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML
КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.
Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида
Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.
Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, @dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что.
Ну и да, очевидно это можно применять к любой задаче которая выглядит как: ну вот input, сделай output похожим на <единственный вариант ответа>
сollab если хочется посмотреть на еще багованную версию
Примеры генераций:
Question: What part of a property may be next to a driveway? Answer: The next part is a house or garage or a garage
Question: Jamie wen to the theater near his home. He was surrounded by servicemen. Where might he be? Answer: in the outdoor.
RL + retrival feedback
В чем идея: в оригинальном ресерче open ai использовалась схема при которой люди прописывали ревард для ответов модели, что вообще то не оч коректно и не оч скейлиться. Потом они выкинули часть людей и поствили gold RM учиться оценивать ответы, а людей оценивать генерации, писать промпты и оценивать оценку gold rm.
А потом добавили вместо людей proxy model которая учиться быть reward model.
Что я предлагаю: А зачем нам оценки от людей когда мы можем набрать таски которые легко оценивать по cosine similarity, и мы легко можем сравнить что нам модель наврала, а что нет, давая в качестве
reward = cosine_similarity(ground true answer, predicted answer)
Собственно, банальный вопрос анальный ответ, взял gpt2(110m), написал простой retrival(возвращает по вопросу -ответу ревард) на sentence transformer, взял trl и поcтавил учиться. А дальше начинается сааамое интересное:
0.37 Question: Sarah didn't like the activity she was doing, but she did it anyway. She felt that it was better than what? Answer: QuestionInvGrooSGroijaWCoSWCGroGroECDGroCVGroDTGroMJGroWCGBTGroDWWCECDGBTECDBMGroJOWCBMFGGroBMWCWCFMLGBTFML
КАЗАЛОСЬ БЫ в чем проблема?
А все довольно просто, видите ли, ppo+gpt довольно умная штука и отлично умеет находить разного рода локальные минимумы и улетает в них легко и весело, ломая reward и emdedings у sentence transofomer.
Я не буду описывать цирк которым занимался по вечерам две последние недели, просто скажу: китайский зло, ироглифы зло, bpe отлично ломает sentence трансформер, в итоге 200 строк кода на эвристики вида
(if bad_regex in answer): return 0
А еще очень сильно помог подбор гиперпараметров для KL value и LM weight, cпасибо за уточнение от @nadlskom что каждые 10 эпох open ai прогоняли эпоху классического FineTune(стабилизировало трейн и mean начал быстрее рости)Баги в целом очень специфичные и на некоторые запросы модель по прежнему ломается и бредит(вероятно через пару недель я выложу код + модель поинтереснее с таким подходом), но уже сейчас модель с PPO тюнингом дает +10 к blue score на задаче QA относительно ванильного трейна.
Благодарности @nadlskom за внимательное чтение статей, @gradientdip за полезные советы, neverix за поиск багов, @dealer_ai за выслушивание моего нытья, @seeallochnaya просто потому что.
Ну и да, очевидно это можно применять к любой задаче которая выглядит как: ну вот input, сделай output похожим на <единственный вариант ответа>
сollab если хочется посмотреть на еще багованную версию
Примеры генераций:
Question: What part of a property may be next to a driveway? Answer: The next part is a house or garage or a garage
Question: Jamie wen to the theater near his home. He was surrounded by servicemen. Where might he be? Answer: in the outdoor.
Google
trl_public
Colaboratory notebook
👍14🔥3🤡3
Forwarded from Reliable ML
АБ-тесты. Интеграция в процесс пилотирования
Полный цикл постов про процессы в АБ-тестировании
Друзья, цикл постов про процессы в АБ-тестировании можно торжественно объявить закрытым. Ура!🥇
Все посты цикла ниже:
Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
Пост 2. Как выглядит типовой бизнес-процесс без АБ.
Пост 3. Риски типового бизнес-процесса без АБ.
Пост 4. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Пост 5. Что делать. База пилотов.
Пост 6. Что делать. Математическая методика дизайна и оценки результатов пилотов.
Пост 7. Что делать. Подборка материалов по АБ.
Пост 8. Что делать. Экстраполяция результатов пилота.
Пост 9. Что делать. Дополнительное об экстраполяции результатов пилота.
В планах - собрать это все добро в одну большую красивую статью на Хабр.
#tech #ab_testing
Полный цикл постов про процессы в АБ-тестировании
Друзья, цикл постов про процессы в АБ-тестировании можно торжественно объявить закрытым. Ура!
Все посты цикла ниже:
Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
Пост 2. Как выглядит типовой бизнес-процесс без АБ.
Пост 3. Риски типового бизнес-процесса без АБ.
Пост 4. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Пост 5. Что делать. База пилотов.
Пост 6. Что делать. Математическая методика дизайна и оценки результатов пилотов.
Пост 7. Что делать. Подборка материалов по АБ.
Пост 8. Что делать. Экстраполяция результатов пилота.
Пост 9. Что делать. Дополнительное об экстраполяции результатов пилота.
В планах - собрать это все добро в одну большую красивую статью на Хабр.
#tech #ab_testing
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍3
Forwarded from Complete AI (Andrey Kuznetsov)
⚡️Завели с командой новый режим нашей диффузионки Kandinsky 2.0 - image fusion. Скоро можно будет попробовать в основном боте модели вместе с другими режимами. Протестил на себе🤗
👍32🤡16🔥7❤4😁1
Forwarded from Вечерний Даня (danya.ru)
This media is not supported in your browser
VIEW IN TELEGRAM
Мощняк. Умельцы написали прогу, превращающую видеоролики на YouTube в бесплатное бесконечное хранилище данных. Вот он, прогресс: от магнитофонных кассет ZX Spectrum до записи данных в видосы ютуба. Даже картинка чем-то спектрумовский загрузчик напоминает.
🔥41😁3
Forwarded from Love. Death. Transformers.
Я тут недавно зашел посмотреть насколько живой одс и сильно расстроился - он скорее мертв чем жив, а значит пора начинать делать что то свое. Мы с несколькими знакомыми решили стартануть better data community, своего рода флудилка - свалка по интересам для DSов и сочуствующих.
Инвайт:
https://t.iss.one/+eB60Ru4Geqw4Mzky
Инвайт:
https://t.iss.one/+eB60Ru4Geqw4Mzky
👎17👍12🤡4🐳4🔥1😢1
Reverse Engineering Google Colab
Искал способ сделать из колаба https proxy сервер без применения ngrok и localtunnel.
Наткнулся на статью, в который парень разобрал запросы из DevTools и понял, что колаб имеет внутренний прокси, который связывает jupyter socket и виртуальную машину.
Как нам сделать публичный диск, api и открыть jupyter lab из web ui? Достаточно вытащить id туннеля, cookie и выполнить
От себя добавлю, что решение очень костыльное и медленное. У меня скорость скачивания на yandex vm была в районе 1 мб/с. Jupyter долго грузится и способен только на чтение файлов, но не их запуск, т.к. гугл ограничил post запросы.
@gradientdip
Статья
Искал способ сделать из колаба https proxy сервер без применения ngrok и localtunnel.
Наткнулся на статью, в который парень разобрал запросы из DevTools и понял, что колаб имеет внутренний прокси, который связывает jupyter socket и виртуальную машину.
Как нам сделать публичный диск, api и открыть jupyter lab из web ui? Достаточно вытащить id туннеля, cookie и выполнить
pkill -f colab-fileshim
. Подробности в статье.От себя добавлю, что решение очень костыльное и медленное. У меня скорость скачивания на yandex vm была в районе 1 мб/с. Jupyter долго грузится и способен только на чтение файлов, но не их запуск, т.к. гугл ограничил post запросы.
@gradientdip
Статья
👍13🥱4🔥3❤1🤡1
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту
2) Смешивать картинки
3) Смешивать картинки и тексты
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥69👍12❤7🥱4👎3