Derp Learning – Telegram

Derp Learning

12.3K subscribers

2.84K photos

710 videos

9 files

1.19K links

Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.

Download Telegram

About

Blog

Apps

Platform

12.3K subscribers

Forwarded from Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Runway: режим Video-2-Video теперь есть и в Turbo версии Gen-3. До этого оно было только в базовой модели.

Также в Turbo завезли работу с вертикальными видео.

Твит
Сайт
Про Runway Turbo

2.9K views10:43

3.8K views10:54

This media is not supported in your browser

VIEW IN TELEGRAM

Так и запишем: на чердаке больше не спрятаться

Robust Ladder Climbing with a Quadrupedal Robot

paper

@derplearning

50.5K viewsedited 11:03

This media is not supported in your browser

VIEW IN TELEGRAM

Фоторежим из Death Stranding 2 как отдельный вид искусства

@derplearning

3.7K views11:19

This media is not supported in your browser

VIEW IN TELEGRAM

PortraitGen - Portrait Video Editing Empowered by
Multimodal Generative Priors

Интересный подход к video2video с объездом через 4D гауссианы.
Неожиданно, с кодом и претренами.

paper
git
project

3.3K viewsedited 11:36

CogView3 & CogView-3Plus

В целом осень выдалась урожайной, в основном благодаря ECCV & SIGGRAPH ASIA

Вот и китайцы выкатили очередную итерацию CogView text2image

Если верить авторам, бьет SDXL во все поля (пора все-таки уже с FLUX сравнивать, сдохле второй год пошел)

paper
code

@derplearning

8.0K views13:43

Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance (NeurIPS 2024)

И такой еще подход зарелизили.
Берем две референсных картинки: одну для стиля, другую для структуры, шатаем ими аттеншен, и получаем контролируемые генерации без гайданса, тюна, или контролнетов.

Похоже на reference controlnet (который контролнетом назвали видимо потому, что было лень объяснять)

code
paper
reddit
project

@derplearning

3.1K views13:58

Forwarded from эйай ньюз

🔥

Molmo: Outperformimg Proprietary Multimodal Language Models

Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.

За два часа до релиза Llama 3.2, челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B,
- 7B и
- 72 B

По качеству на визуальных задачах Molmo выдает +- перформанс как Llama 3.2. где-то лучше, где-то хуже, и приближается к GPT-4o .

- Но, пре-трейн модель они делали всего на 700к размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо больше высокого качества.
- люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 сек. Далее запись автоматом переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели текст, выдавая точки на картинке, когда она описывает какой-то объект.

Все это очень сильно подняло качество модели. Это прям крутые идеи.

По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.

Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете - 700к картинок (2) supervised fine-tuning на instruction датасете, который они тоже собрали сами (там и точки на картинках, и документы прочие задачи) - тут в около 1.9 млн картинок (возможно пересекается с претрейн-датасетом)

Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев - я им верю!

Блогпост про модели
Arxiv

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.3K views15:33