Forwarded from эйай ньюз
Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.
За два часа до релиза Llama 3.2, челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B,
- 7B и
- 72 B
По качеству на визуальных задачах Molmo выдает +- перформанс как Llama 3.2. где-то лучше, где-то хуже, и приближается к GPT-4o .
- Но, пре-трейн модель они делали всего на 700к размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо больше высокого качества.
- люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 сек. Далее запись автоматом переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели текст, выдавая точки на картинке, когда она описывает какой-то объект.
Все это очень сильно подняло качество модели. Это прям крутые идеи.
По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.
Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете - 700к картинок (2) supervised fine-tuning на instruction датасете, который они тоже собрали сами (там и точки на картинках, и документы прочие задачи) - тут в около 1.9 млн картинок (возможно пересекается с претрейн-датасетом)
Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев - я им верю!
Блогпост про модели
Arxiv
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
LVCD: Reference-based Lineart Video Colorization with Diffusion Models
А вот и код подвезли!
Под капотом SVD + sketch temporal controlnet + всякие хаки с аттеншеном.
Осталось только сделать depth controlnet, и "runwayml vid2vid gen2 есть у нас дома" готов!
Code
Paper
Project
@derplearning
А вот и код подвезли!
Под капотом SVD + sketch temporal controlnet + всякие хаки с аттеншеном.
Осталось только сделать depth controlnet, и "runwayml vid2vid gen2 есть у нас дома" готов!
Code
Paper
Project
@derplearning
This media is not supported in your browser
VIEW IN TELEGRAM
AGI (average general indian) achieved internally
This media is not supported in your browser
VIEW IN TELEGRAM
На (в) теплотрассе теперь тоже больше не спрятаться
Openai внезапно вспомнили, что они open, и выкатили whisper v3 large turbo & turbo
Commit
Git
Model
@derplearning
Commit
Git
Model
@derplearning