Love. Death. Transformers.
20.9K subscribers
3.94K photos
461 videos
70 files
2.56K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Слава монолиту?
😁77🥴31👎774🔥32👍2
😁7517
- Устраиваешься в NDA HFT. 
- Получаешь задачу: поднять "купленную" инфраструктуру. 
- Пишешь новые коннекторы для этой инфры. 
- Через комменты находишь компанию-автора инфры. 
- Закидываешь к ним резюме на кванта, получаешь оффер. 
- Получаешь доступ к стратегиям, но без инфры. 
- Уходишь, записав адреса кошельков компании. 
- Замечаешь, что стратегии приносят бешеную прибыль. 
- Решаешь запустить их на старой инфре. 
- Понимаешь, что не хватает коннектора для нужной биржи. 
- Осознаешь, что именно ты писал этот коннектор раньше.
🔥57😁20
мультимодалка была ошибкой
🔥23🙈16
Love. Death. Transformers.
мультимодалка была ошибкой
#чтивонаночь

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Статья про то как решают игры с помощью агентов, сравнивают агенты поверх VLM и поверх LLM

Выясняется что модели с vision решают хуже на 30-40%

Ну те когда состояние арены кормится через текст вида
Current Observation:
statistics:
Strength: 14/14
Dexterity: 9
Constitution: 11
Intelligence: 8
inventory:
a: a +1 long sword (weapon in hand)
message:
Salutations Agent, welcome to NetHack! You are a lawful female human
Knight.
language observation:
vertical closed door far east
dark area far east



То все работает лучше чем если корить такую же картинку то работает хуже. Что нам это говорит? То ли моделям разрешения не хватает, то ли vision дегродит модели.
O1 к слову работает в три раза лучше чем sonnet.

paper
👍21💔32🔥1
на hf произошло money обнова, теперь надо платить за место.


UPD если вы богатый господин и готовы задонитить 4320usd в вихри чтобы мы могли оплатить про акк всем участника орги на год, а мы не мигрировали артефакты - было б славно(на что я надеюсь)
🤡67😢41🥴14💔5😁2🙉1
Ещё один multi cloud proof of concept pretraining. Теперь от nous research.

Модель говно, важен опыт обучения с low bandwidth + высокими задержками сети.

Paper
👍26🔥2
Forwarded from Concise Research (Sergey Kastryulin)
Сегодня поговорим про масштабирование моделей и данных в диффузии.

Scaling Laws For Diffusion Transformers

Несколько предыдущих работ (раз, два, три) уже в том или ином виде обсуждали масштабирование диффузионок в целом и DiT в частности. Однако построением предсказаний того как будет улучшаться модель при масштабировании они не занимались, то есть power law кривульки отсутствуют.

Зато они являются основным вкладом этой работы. Вдохновившись Шиншиллой, авторы проводят ряд экспериментов на небольших выч. бюджетах и строят sns.color_palette("mako”) 🌿isoFLOP кривые по числу параметров и лоссам, из которых далее получают кривые зависимости размеров моделей и необходимого на их обучение компьюта. Экстраполяцией графиков получают предсказание того каким будет лосс обучения (сравнительно скромного) 1B DiT.

Проблемой таких работ является опора на FID как основную метрику. Его корреляция с лоссом зависит от CFG scale, да и корреляция с оценками пользователей уже много раз ставилась под сомнение. Но анализ интересный.

Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models

Можно масштабировать модели по параметрам и компьюту, а можно по данным и их качеству. Авторы утверждают, что делают второе первыми в мире, что не совсем правда потом что есть Broken Neural Scaling Laws и исследование в YaART.

Интересна эта работа тем что авторы смотрят не только на увеличение красивости генераций в терминах FID или каких-то визуальных сравнений, а еще и стараются сохранить полноту знаний за счет поддержания баланса классов. На экспы с CIFAR не тригеримся, дальше есть SD и MDT хотя бы на ImageNet.

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Известно, что если подмешать в обучающий/файнтюновый датасет немного синтетики из какой-нибудь JourneyDB, то это улучшит качество итоговой модели. Эффект похож на дистилляцию, только вместо прямого сигнала из модели-учителя вы используете результаты её работы.

Авторы спрашивают: если задаться целью обучить модель на синтетике порожденной другой моделью, сколько её понадобится и можно ли превзойти учителя по качеству? Сразу вспоминается работа про self-distill, где показывалось, что если делать self-distill итеративно, то модели коллапсируют.

Так вот, сначала авторы пробуют взять 11М промтов из SAM и нагенерить по ним синтетики через PixART. Так получается догнать сам PixART, учившийся на 14М пар. Проблема такой неэффективности в неинформативных и сильно повторяющихся промтах. Для устранения проблемы берут VLM, кепшенят картинки и по кепшенам снова деляют генерации. Показывают, что теперь уже 100к семплов становится достаточно чтобы догнать учителя. А если взять несколько топ моделей, сделать генерации каждой из них, а потом отобрать лучшие VLM’кой, то можно превзойти каждую из моделей в отдельности 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍8👎3💩3🔥22
😁91🙈13🦄7🤡655🔥3👍2🥴2🍌1
Forwarded from Nikita Mikhaylovsky
Привет!
Мы тут в соответствующем разделе на сайте Specmat2x2.ru затеяли математические онлайн-игры проводить с завидной регулярностью. Ну и дела идут вроде в гору. Три игры из очередного цикла "Математического тетриса" прошли. Кто участвовал — пишите обратную связь @NikitaMikhaylovskiy, вдруг что-то не понравилось или, наоборот, понравилось. Будем работать над улучшениями.

Вообще-то, хотелось порекламировать это дело еще раз, потому что на следующей неделе для 3 и для 7 класса будут две игры. Если есть команды — приводите, да и друзей зовите! Все бесплатно, конечно.
Ссылка на регистрацию та же: https://specmat2x2.ru/igra
🤡11🍓9👍5
Судя по открытию офиса oai в цурихе, API будет работать с 10-17 on week и до 15 по воскресеньям.
😁176❤‍🔥11👎3😐1
Media is too big
VIEW IN TELEGRAM
https://www.worldlabs.ai/blog

опять worldmodels. выглядит как nerf
🥴16👍3
Welcome to city17.

Я ж говорил что восточная Европа это сборник приколов?
😍69🔥15💅7👍3💩1
Безумно люблю челов которые делают rwkv/mamba. Второй год трогают архитектурные изменения, но не трогают данные.

А вообще там интересно, почитайте.

Наука это праздник! Все летит в аги
❤‍🔥44😁18👍6💯3