Derp Learning

BAR — Autoregressive Image Generation with Masked Bit Modeling

Амазон отвлекся от сериалов и шоппинга, и выкатил BAR - авторегрессию, которая наконец-то уделала диффузию, ~~но это не точно.~~

Дискретные токенайзеры считались слабее непрерывных для генерации картинок. BAR доказывает, что проблема была не в архитектуре, а в количестве бит в латентном пространстве.

Суть такова:
- Скейлят codebook с 2^10 до 2^32 - и дискретный токенайзер начинает бить непрерывный
- Но с таким codebook обычные методы ложатся по памяти и compute
- Решение: masked bit modeling head - предсказываем токены побитово, итеративным анмаскингом
- Результат: 0.99 gFID на ImageNet-256 - новый SOTA во все поля

При этом BAR и быстрее на инференсе, и сходится быстрее. BAR-B с 415M параметрами уже тянет на уровне RAE.

По сути, убрали главный аргумент за диффузию - "дискретные методы хуже".
Нет, просто бит не хватало. Ждем для видео.

arxiv
Проект

@derplearning

🔥10👀6❤2🏆1

2.33K views20:46

Derp Learning

Forwarded from CGIT_Vines (Marvin Heemeyer)

1:37

This media is not supported in your browser

VIEW IN TELEGRAM

Все вроде бы хорошо, ИИ превзошел уровень человека, мы отдали ему все управление земными процессами, а потом он просто сходит с ума. Уровень человека превзойден и в сумасшествии тоже/ 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13🔥5😢4🤡4🤣2❤1

1.96K views04:57

Derp Learning

Clawra - Agent as AGIrlfriend
или ответ на вопрос "любил бы ты меня если бы я была ~~червем~~ крабом"

Ребята из SumeLabs решили, что AI-ассистенту не хватает одного - возможности делать селфи.
Clawra - скилл для openclaw, который превращает вашего агента в виртуальную тню с возможностью ебашить луки.
Мы в очередной раз обречены, грок привет.

Под капотом:
- фиксированный reference image
- генерация через xAI Grok Imagine на fal.ai
- два режима - зеркало (full-body, луки) и прямой (крупный план, локации)
- работает через все каналы openclaw - telegram, discord, whatsapp

По сути, это img2img с фиксированным reference + промпт из контекста диалога.
Технически ничего нового, но продукт забавный.
Главное - не давать боту свою кредитку, иначе выйдет слишком дорогой тамагочи.

GitHub
Твит

@derplearning

😁19🤩2🤣2👍1

2.5K views07:16

Derp Learning

Forwarded from Dev Meme / devmeme

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

😁29🤣9🤩4❤1

2.04K views12:22

Derp Learning

Forwarded from Neural Shit

1:06

This media is not supported in your browser

VIEW IN TELEGRAM

Теперь китайцы рекламу всякого барахла снимают так. Модель с каменной ебучкой стоит и иногда жестикулирует, а всё остальное делают нейроночки. А совсем скоро и кожаная модель пойдёт на рынок торговать луком.

😁25👀8😢6❤1

1.86K views12:35

Derp Learning

Forwarded from The After Times

😁53💯9😎5👍1🤩1

2K views08:26

Derp Learning

⚡️ Ежедневная подборка (с сегодняшнего дня лол) - четверг, 12.02.2026

🔬 ML PAPERS

🔥 FastFlow: 2.6x speedup for flow-matching (image/video gen), plug-and-play. ICLR 2026!
arxiv.org/abs/2602.11105 | github.com/Div290/FastFlow

🔥 DiNa-LRM: Diffusion-native reward model — preference optimization directly on noisy diffusion states. Beats VLMs at fraction of compute.
arxiv.org/abs/2602.11146

HairWeaver: Photorealistic hair animation from single image via sim-to-real video diffusion.
arxiv.org/abs/2602.11117

ViLaVT: "Chatting with images" — language-guided visual re-encoding. Strong on multi-image & video reasoning.
arxiv.org/abs/2602.11073

RLCER: Self-evolving rubrics for CoT reasoning. No human labels, beats outcome-only RLVR.
arxiv.org/abs/2602.10885

FormalJudge: 7B model detects deception from 72B agents (90%+ acc) via formal verification.
arxiv.org/abs/2602.11136

GameDevBench: 132 game dev tasks. Best agent only solves 54.5%.
arxiv.org/abs/2602.11103

arXiv.org

FastFlow: Accelerating The Generative Flow Matching Models with...

Flow-matching models deliver state-of-the-art fidelity in image and video generation, but the inherent sequential denoising process renders them slower. Existing acceleration methods like...

🔥16❤1

2.1K viewsedited 09:07

Derp Learning

😁21🌚6💯5🗿2

2.28K views10:59

Derp Learning

Forwarded from Fast Food Memes / ffmemes

Угар гарантирован: @ffmemesbot

🤣47🤩6😁2🌚2💯1

2.13K views11:29

Derp Learning

Forwarded from Hacker News

Warcraft III Peon Voice Notifications for Claude Code (🔥 Score: 156+ in 2 hours)

Link: https://readhacker.news/s/6Mywz
Comments: https://readhacker.news/c/6Mywz

GitHub

GitHub - tonyyont/peon-ping: Warcraft III Peon voice notifications for Claude Code. Stop babysitting your terminal.

Warcraft III Peon voice notifications for Claude Code. Stop babysitting your terminal. - tonyyont/peon-ping

😁15🤡3🔥2

1.99K views18:15

Read 53+ Comments

Derp Learning

😁44❤6

1.97K views23:12

Derp Learning

Forwarded from Stolen memes (al)

😁29❤13👍4🎉2

1.59K views08:07

Derp Learning

Forwarded from Метаверсошная

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Цукерберг и виар-индустрия 😭

Please open Telegram to view this post

VIEW IN TELEGRAM

😁25

1.21K views09:25

Derp Learning

🔬 ML PAPERS Дайджест (Image,video,text - arXiv, Feb 13 2026)

🔥 MonarchRT — Efficient attention for real-time video generation via Monarch matrix factorization. Makes autoregressive video DiT viable.
→ arxiv.org/abs/2602.12271

🔥 DreamID-Omni — Unified human-centric audio-video gen. Multi-person identity + voice disentanglement in one framework.
→ arxiv.org/abs/2602.12160

UniT — Unified multimodal CoT with test-time scaling
→ arxiv.org/abs/2602.12279

UniDFlow — Discrete flow matching for multimodal understanding + generation + editing
→ arxiv.org/abs/2602.12221

DeepGen 1.0 — Lightweight unified model for image gen & editing
→ arxiv.org/abs/2602.12205

FAIL — Adversarial imitation learning for flow matching post-training (no reward model needed)
→ arxiv.org/abs/2602.12155

GigaBrain-0.5M — VLA from world model RL (robotics)
→ arxiv.org/abs/2602.12099

arXiv.org

MonarchRT: Efficient Attention for Real-Time Video Generation

Real-time video generation with Diffusion Transformers is bottlenecked by the quadratic cost of 3D self-attention, especially in real-time regimes that are both few-step and autoregressive, where...

🔥8🗿1

1.3K viewsedited 10:28

Derp Learning

😁25

778 views19:58

About

Blog

Apps

Platform