Love. Death. Transformers.
18K subscribers
3.59K photos
416 videos
68 files
2.34K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Download Telegram
на hf произошло money обнова, теперь надо платить за место.


UPD если вы богатый господин и готовы задонитить 4320usd в вихри чтобы мы могли оплатить про акк всем участника орги на год, а мы не мигрировали артефакты - было б славно(на что я надеюсь)
Ещё один multi cloud proof of concept pretraining. Теперь от nous research.

Модель говно, важен опыт обучения с low bandwidth + высокими задержками сети.

Paper
Forwarded from Concise Research (Sergey Kastryulin)
Сегодня поговорим про масштабирование моделей и данных в диффузии.

Scaling Laws For Diffusion Transformers

Несколько предыдущих работ (раз, два, три) уже в том или ином виде обсуждали масштабирование диффузионок в целом и DiT в частности. Однако построением предсказаний того как будет улучшаться модель при масштабировании они не занимались, то есть power law кривульки отсутствуют.

Зато они являются основным вкладом этой работы. Вдохновившись Шиншиллой, авторы проводят ряд экспериментов на небольших выч. бюджетах и строят sns.color_palette("mako”) 🌿isoFLOP кривые по числу параметров и лоссам, из которых далее получают кривые зависимости размеров моделей и необходимого на их обучение компьюта. Экстраполяцией графиков получают предсказание того каким будет лосс обучения (сравнительно скромного) 1B DiT.

Проблемой таких работ является опора на FID как основную метрику. Его корреляция с лоссом зависит от CFG scale, да и корреляция с оценками пользователей уже много раз ставилась под сомнение. Но анализ интересный.

Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models

Можно масштабировать модели по параметрам и компьюту, а можно по данным и их качеству. Авторы утверждают, что делают второе первыми в мире, что не совсем правда потом что есть Broken Neural Scaling Laws и исследование в YaART.

Интересна эта работа тем что авторы смотрят не только на увеличение красивости генераций в терминах FID или каких-то визуальных сравнений, а еще и стараются сохранить полноту знаний за счет поддержания баланса классов. На экспы с CIFAR не тригеримся, дальше есть SD и MDT хотя бы на ImageNet.

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Известно, что если подмешать в обучающий/файнтюновый датасет немного синтетики из какой-нибудь JourneyDB, то это улучшит качество итоговой модели. Эффект похож на дистилляцию, только вместо прямого сигнала из модели-учителя вы используете результаты её работы.

Авторы спрашивают: если задаться целью обучить модель на синтетике порожденной другой моделью, сколько её понадобится и можно ли превзойти учителя по качеству? Сразу вспоминается работа про self-distill, где показывалось, что если делать self-distill итеративно, то модели коллапсируют.

Так вот, сначала авторы пробуют взять 11М промтов из SAM и нагенерить по ним синтетики через PixART. Так получается догнать сам PixART, учившийся на 14М пар. Проблема такой неэффективности в неинформативных и сильно повторяющихся промтах. Для устранения проблемы берут VLM, кепшенят картинки и по кепшенам снова деляют генерации. Показывают, что теперь уже 100к семплов становится достаточно чтобы догнать учителя. А если взять несколько топ моделей, сделать генерации каждой из них, а потом отобрать лучшие VLM’кой, то можно превзойти каждую из моделей в отдельности 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nikita Mikhaylovsky
Привет!
Мы тут в соответствующем разделе на сайте Specmat2x2.ru затеяли математические онлайн-игры проводить с завидной регулярностью. Ну и дела идут вроде в гору. Три игры из очередного цикла "Математического тетриса" прошли. Кто участвовал — пишите обратную связь @NikitaMikhaylovskiy, вдруг что-то не понравилось или, наоборот, понравилось. Будем работать над улучшениями.

Вообще-то, хотелось порекламировать это дело еще раз, потому что на следующей неделе для 3 и для 7 класса будут две игры. Если есть команды — приводите, да и друзей зовите! Все бесплатно, конечно.
Ссылка на регистрацию та же: https://specmat2x2.ru/igra
Судя по открытию офиса oai в цурихе, API будет работать с 10-17 on week и до 15 по воскресеньям.
Media is too big
VIEW IN TELEGRAM
https://www.worldlabs.ai/blog

опять worldmodels. выглядит как nerf
Welcome to city17.

Я ж говорил что восточная Европа это сборник приколов?
Безумно люблю челов которые делают rwkv/mamba. Второй год трогают архитектурные изменения, но не трогают данные.

А вообще там интересно, почитайте.

Наука это праздник! Все летит в аги
Лаба и гранты
AGIGIIGIGIGIGIGI