эйай ньюз
65.7K subscribers
1.48K photos
791 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Вышел убийца Kling! Генерит за 30 секунд!

Ну почти...
Тут чуваки из Zhipu AI (это AI-стартап, китайский аналог Open AI со своим блэкджеком и ChatGPTGLM) выпустили свою Sora. Штука генерит 6-секундные видео за 30 секунд, что ну очень быстро, согласитесь (в Клинге я ждал больше часа, у Лумы 5 сек генерится 2 минуты). Так быстро работает, насколько я понял, из-за их хитрого 3D автоэнкодера, который сжимает представление видео в latent space до 2% от оригинального размера.

Вот промпты для видосиков из примера с голливудской адаптацией на английский язык от Google переводчика:

In a lush forest, some sunlight shines through the gaps between leaves, creating a Tyndall effect, giving the light shape.

When the tsunami roared in like a raging monster, the entire village was instantly swallowed up by the sea, just like a classic scene in a doomsday movie.

In the neon-lit city night scene, a little monkey full of cyber beauty holds high-tech tools and repairs equally flashing, futuristic electronic equipment.

Changing the style of painting, the kitten opened its mouth wide, showing a human-like confused expression, with question marks written all over its face.


Остальные без инструкций, так, для примера.

Качество ну не синематик, видно, что тренили на стоках и каких-то странных китайских видео. Назвали Qingying или Ying. Пока кредиты безлимитные. Я хотел потестить, но похоже, мы снова столкнулись с новым феноменом: paywall по-китайски. Опять нужен китайский номер :( Может, у кого из вас выйдет вот ссылка.

Как же китайцы дрючат!

Источник
Пытаемся вломиться здесь

@ai_newz
LMSYS релизнули матчапы GPT-4o mini на чатбот арене

После того как поднялся шум из-за результатов 4o mini на арене, авторы арены выложили huggingface space с 1000 рандомных матчапов 4o mini с другими моделями.

В спейсе можно сравнить 4o mini с оппонентами и отфильтровать по языку, модели и результату матчапа на арене.

Я немного полистал, такое ощущение что 4o mini просто даёт более детальные ответы относительно быстро. Людям влом всё это всё читать и они голосуют за 4o mini, не особо проверяя корректность. Произошёл DDOS. Но модель всё равно очень хорошая, просто слегка хуже чем можно подумать по результатам арены.

https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles

@ai_newz
Нейродайджест за неделю (#28)

Жаркая выдалась неделя, такая же как погода за окном. Кстати, давно трогали траву?

LLM
- LLama 3.1 вышла из клетки - Meta выпустила новую версию на 8B, 70B и долгожданную 405B! Контекст теперь 128к токенов. Ждем, когда простые смертные смогут потыкать палочкой в 405B версию на домашнем железе, лол.
- Llama 3.1 405B теперь самая дешевая топовая модель - API провайдеры предлагают токены по $3 за миллион. Дешевле только даром.
- Квантизированная Llama 3.1 405B на двух макбуках - Запустили 4-битную версию на двух макбуках. Не ну вот это я понимаю chatgpt для народа.
- Файнтюним LLaMa 3.1 8B бесплатно - Теперь можно тюнить модель в Google Colab, процесс влезает в бесплатные лимиты. Идеально для тех, кто хочет почувствовать себя настоящим ИИ-инженером и запилить что-нибудь под себя.
- GPT-4o mini покаряtт олимп chatbot arena - малышка забралась подозрительно высоко. OpenAI, кажется, перестаралась с тюнингом для бенчмарков.
- Позже LMSYS выложили матчапы GPT-4o mini на арене - Кажется что люди голосуют за него, потому что лень читать длинные ответы других ботов.
- OpenAI запустили поиск - Временный прототип с выдачей ссылок на источники.
- AlphaProof решает олимпиадные задачи - Нейросеть Google набрала 28 из 42 баллов на IMO (это такая олимпиада по матеше).Внутри Lean и AlphaZero.

Генеративные модели

- Kling AI вышел в массы - Китайский генератор видео теперь доступен всем. Ждем наплыва шедевров от диванных режиссеров.
- Убийца Kling, генератор видео Qingying - Генерирует 6-секундные видео за 30 секунд. Качество среднее но тоже живенько.
- Слили список видео для тренировки Runway GEN-3 - Оказалось, что там куча пиратского контента и ютуб-блогеров. Никогда такого небыло и вот опять.

Подборки курсов
- Подборка курсов по Reinforcement Learning - Для тех, кто хочет понять, как научить ИИ играть в видеоигры лучше вас. Хотя с нашими клешнями это не так сложно.
- Список книг по AI и бизнесу - Для тех, кто хочет не только кодить, но и зарабатывать на ИИ. Темщики на месте?

Всякая-всячина
- In-Context Reinforcement Learning - Новый метод позволяет ИИ адаптироваться к новым типам действий на лету. Ждем что боты в играх будут учиться новым приемам прямо во время матча и вдогонку.
- ПК для Deep Learning в 2к 24 - Принесли дорогующу сборку за $5700, чтобы файнтюнить СОТА модели.
- Билеты на ECCV - Я купил билеты на топовую конференцию по компьютерному зрению в Милане. Буду организовывать тусу!
- XAI построили крупнейший тренировочный кластер. Он настолько большой, что на него не хватает электричества. Прикольно как теперь энергия стала главной проблемой, а не чипы.


> Читать дайджест #27

#дайджест
@ai_newz
Самый большой open-source датасет для In-Context Reinforcement Learning – XLand-100B.

Продолжая тему In-Context Reinforcement Learning и конференции ICML. Недавно чуваки из AIRI (ex. команда из T-Bank Research) релизнули огромный (по меркам RL) датасет в 100 млрд токенов на основе XLand-MiniGrid – open-source аналог среды XLand от DeepMind.

В чем фишка среды и датасета – объясню на примере игры Minecraft:
Представьте, что каждый раз при запуске игры дерево крафта меняется случайным образом, и агенту нужно добыть сложный предмет. Это означает, что перед ним стоит задача: с помощью экспериментирования нужно открыть новую структуру дерева крафта с нуля. Но после того, как агент справился, ему не удастся применить накопленные знания к следующей игре – новое дерево крафта будет скрыто. Это заставляет агента адаптироваться, учиться на ходу и становиться более эффективными в исследовании новой среды. Именно на таком принципе сделан XLand-MiniGrid и отлично подходит для тестирования ICRL.

Но если погрузиться в литературу, то выясняется, что вообще-то открытых датасетов для таких моделей нет, а сами таски достаточно простые и тестируют тривиальную генерализацию.

В этой работе собрали датасет в нетипичных для RL масштабах, реализовали известные бейзлайны и показали, что он может использоваться для ICRL. Из интересного, нашли, что Decision Pretrained Transformer (DPT) сильно проигрывает AD. А сбор датасета занял всего (хе-хе) 50k A100 GPU-часов.

Если In-Context RL не ваша тема, то датасет можно использовать и для всяких других приставок: Offline RL, Multi-Task RL, Goal-Conditioned RL и т.д. В целом, кажется, что датасет должен позволить потрогать scaling-laws более широкому кругу ученых из разных областей близких к RL.

Авторы, кстати, сейчас расширяют команду и ищут стажеров развивать эту тему и дальше скейлить такие модели (и не только).

Если хотите получше разобратсья в RL, я на днях публиковал список ресурсов.

Пейпер
Код и датасет

@ai_newz
ICML - Best Paper Awards

В субботу закончилась ICML 2024. На ней, как и на других топовых конференциях (например NeurIPS) выбирают и награждают лучшие статьи.

Статья про SD3 от моих одногруппников (Scaling Rectified Flow Transformers for High-Resolution Image Synthesis) тоже получила best paper award на ICML! Это очень круто! Про саму статью я писал ранее тут.

Полный список пейперов получивших награду (я разбил их на темы).

Генерация текста:

1️⃣ Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution - генерация текста с помощью диффузии, работает быстрее чем авторегрессия.

2️⃣ Stealing Part of a Production Language Modeling - Как украсть веса последнего слоя у ChatGPT, потратив пару тысяч долларов на API.

3️⃣ Debating with More Persuasive LLMs Leads to More Truthful Answers – дебаты как метод получения более правдивых ответов от больших языковых моделей (LLM). Более слабая модель может оценивать ответы более сильных LLM.

4️⃣ Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo - вероятностный инференс в LLM.

Генерация картинок и видео:

5️⃣ VideoPoet: A Large Language Model for Zero-Shot Video Generation – LLM для генерации видео от Google

6️⃣ Scaling Rectified Flow Transformers for High-Resolution Image Synthesis – Stable Diffusion 3

7️⃣ Genie: Generative Interactive Environments – foundation world model, которая может генерировать бесконечное разнообразие играбельных (с контролируемыми действиями) миров

Другое:

8️⃣ Position: Measure Dataset Diversity, Don't Just Claim It - Про датасеты

9️⃣Information Complexity of Stochastic Convex Optimization: Applications to Generalization and Memorization - Про выпуклую оптимизацию


Исторически ICML славилась более хардкорными статьями с кучей матана и теорем. Но тут, как видите, большинство из лучших статей очень прикладные и понятные, кроме может быть двух (про Convex Optimization и инференс LLM через TSMC), где нужно реально потратить время чтобы осознать, что происходит.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
SAM 2: Segment Anything in Images and Videos

Вышла вторая версия SAM - модели для сегментации изображений. Лучше оригинала по качеству, при это в шесть раз быстрее (130 FPS на одной A100)!

Главная новая фича - поддержка видео, для чего в архитектуру добавили темпоральные компоненты (memory attention, memory encoder, etc.).

Вместе с моделью релизят датасет SA-V в 50к размеченных видео с 600к масклетов (масок объекта на протяжении времени).

Веса релизнуты по лицензии Apache 2.0, то есть делать с моделью можно практически что угодно.

Демо
Пейпер
Репа (ссылки на веса там)

@ai_newz
🔥Mastering LLMs: Открытый курс по LLM от практиков

Я заметил, что очень хорошо разлетелся пост с ноутбуком для файнтюна LLaMa 3.1 в колабе. Поэтому принес вам еще имбовый курс по LLM от практиков для практиков. Он будет актуален для технических специалистов (включая инженеров и DS-ов), которые имеют некоторый опыт работы с LLM, да, я думаю, и для начинающих практиков он тоже хорошо зайдет.

Это набор лекций, которые покрывают такие прикладные темы как RAG, файн-тюнинг, промпт-инжиниринг, оценка качества моделей и прочее. Курс уникальный, потому что лекции ведут 25+ разных опытных чуваков из индустрии, которые являются экспертами по соответсвующим темам. Там ребята из Pytorch (Meta), Anthropic, Mistral, Fireworks-ai и других компаний.

Курс очень хорошо оформлен. К каждой лекции идут слайды, заметки, дополнительные ресурсы со ссылками и полный транскрипт видео.

Минимальные требования, чтобы успешно смотреть курс:
- Базовое знакомство с LLM-ками.
- Если такого опыт у вас нет, то рекомендуется начать с видео A Hacker’s Guide to LLMs от Джереми Ховарда, а также пройти туториал об Instruction Tuning LlaMa-2.

> Ссылка на курс: https://parlance-labs.com/education/

Давайте еще накидаем в комментах другие классные курсы по NLP, которые вы сами смотрели/проходили.

#ликбез
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера на SIGGRAPH Хуанг и Цукерберг общались и шутили про AI и GenAI - прям как настоящие обычные люди.

Дженсен особенно выделил нашу модель Imagine Flash, которой он любит пользоватьcя в вотсапе (посмотрите отрывок). Она позволяет генерить картинки в риалтайме, пока печатается промпт.

Очень приятно, что даже куртка оценил мою модельку!

> Про свою работу я писал тут.
> Полная запись разговора.

#personal
@ai_newz
Результаты LLaMa 3.1 теперь на арене!

Она там делит третье место с Gemini 1.5 Pro. Достойный результат, особенно учитывая то что по какой-то причине на арену засунули версию 405B в fp8, то есть с потерями от квантизации. Но даже так 405B показала себя на уровне фронтирных моделей.

@ai_newz
Extreme Compression of Large Language Models via Additive Quantization

Продолжаем разбирать статьи с ICML. AQLM от Yandex Research — это квантизация, позволяющая вместить 70B модель в консьюмерскую карточку вроде 3090/4090, при этом сохраняя в среднем 95% качества.

Вышло настолько сильно сжать путём использование Additive Quantization - каждый вектор выражается через сумму нескольких других. Работает это в 4 стадии:

1️⃣ Через лучевой поиск находят сочетание векторов из codebook для каждого квантизируемого вектора.

2️⃣ Codebook оптимизируется с помощью Adam.

3️⃣ Тюнят каждый трансформеный блок, чтобы его компоненты могли работать вместе (оптимизация отдельный слоёв блока и самого блока - слегка разные вещи).

4️⃣ С ростом количества токенов на параметр, квантизация становится сложнее. Поэтому для квантизации Llama 3 тюнинга лишь блоков по отдельности стало недостаточно, пришлось тюнить всю модель. Для этого придумали PV-tuning, на замену STE, используемому в обычных методах экстремальной квантизации. Метод сложный, про него есть отдельный пейпер, так что о нём как-то в другой раз.

Результат выходит лучше или на уровне QuIP#, прошлой SOTA техники. Ещё большой майлстоун тут в достижении Парето-оптимальности модели при квантизации до двух бит: теперь квантизированная до 2 бит 13B модель показывает лучше результаты даже чем полностью несжатая 7B, нечего уже говорить о квантизированной до 4 бит.

Ждём Llama 3.1 405B, квантизированную таким методом (так она сможет влезть в 2xA100, 1xH200 или 6x4090). А пока что есть квантизированные веса кучи моделей: оригинальная Llama 2/3, Mixtral, Command R и т.д.

Квантизированные веса
Пейпер
Код

> Если хотите получше разобраться с базой по квантизации, то вот ликбез курс от Эндрю Ына.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Runway хвастаются в твиттере, что натренили Gen-3 Turbo — судя по всему, дистиллированную модель, которая генерит 10 секундные видео за 11 секунд.

В твите пишут, что Turbo модель в 7x раз быстрее базовой. Но, судя по видео, базовая модель (слева) потребовала 91 секунду для инференса, а Турбо (справа) – 11 секунд. То есть ускорение в 8 раз. Видимо кто-то обсчитался.

Ещё бог его знает, сколько H100 GPU они тут использовали для инференса параллельно.

В любом случае, через несколько дней обещали понизить цены на генерацию и выкатить Turbo в прод. Будем смотреть, насколько просядет или не просядет качество.

@ai_newz
Google выпустил Gemma 2 2B

Модель - SOTA в своей весовой категории, запускается везде: в браузере, на телефоне, на посудомойке. На арене перегоняет даже GPT 3.5, но веры арене теперь нет.

Модель дистиллировали из какой-то более жирной LLM (какой именно не сказано), как это сейчас делают для большинства мелких моделек. Так как дистилляция даёт лучший результат чем тренировка с нуля.

Но самое интересное в релизе - натренированные Sparse Autoencoder (SAE) для всех слоёв Gemma 2 2B и 9B. Это нейронки выделяющие отдельные фичи из активаций LLM. Они позволяют нам не только читать их "мысли", но и напрямую влиять на них! Если вы видели майское демо Golden Bridge Claude от Anthropic, то вы уже видели SAE в действии.

На Neuronpedia выпустили демку, где каждый может поиграться с этим.

На картинке - активность ряда топовых лаб на huggingface в этом году

Веса модели
Веса Sparse Autoencoders
Демка "чтения мыслей" Gemma

Ещё, умельцы уже запилили ноутбук для файнтюна модели в бесплатном коллабе.

@ai_newz
🔥Black Forest Labs: новая лаба, которая будет двигать опенсорс image и видео генерацию! И новая SOTA 12B t2i модель!

Ядро команды состоит из авторов Stable Diffusion, которые покинули Stability-ai в марте. Как я и думал, они ушли и создали свою компанию!

Парни за эти несколько месяцев обучили text2image модель FLUX.1 на 12 B параметров! Которая на сегодня является SOTA моделью в открытом доступе! По предоставленным бенчам бьет даже MJ6!

Кажется, делали FLUX.1 по рецепту SD3, т.к. она имеет очень похожую архитектуру (DiT с двумя стримами - текст и картинка) и также основана на Flow Matching.

FLUX.1 вышла в 3 вариантах:

1️⃣ FLUX.1 [pro]: СОТА модель на 12B параметром. Все как надо - хорошая детализация изображений и фледование промпту, разные стили.
Доступна только через API:
- https://replicate.com/black-forest-labs
- https://fal.ai/models/fal-ai/flux-pro (дают даже бесплатно потыкать)

2️⃣FLUX.1 [dev]: Это дистиллированная через Guidance Distillation модель FLUX.1 [pro], которая в ~2 раза быстрее оригинала, и выдает почти такое же качество.
Демо:
- https://fal.ai/models/fal-ai/flux/dev
Веса (Non-Commercial License):
- https://huggingface.co/black-forest-labs/FLUX.1-dev

3️⃣ FLUX.1 [schnell]: Это быстра версия. По все видимости, это дистиллированная с помощью LADD (пост) модель FLUX.1 [pro], которая работает за малое число шагов (от 1 до 12), но с качеством похуже.
Веса (Apache 2.0 License):
- https://huggingface.co/black-forest-labs/FLUX.1-schnell

Репа с кодом
Блогпост

Следуюшим шагом парни хотят выпустить SOTA text2video в опенсорс.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут я сравнил FLUX.1 [pro] с FLUX.1 [dev].

Видно, что Guidance Distillation очень хорошо справилась с задачей и почти не повлияла на качество FLUX.1 [dev].

High-frequency детали не такие резкие у дистиллированной модели – смотри на перья Эму в первой паре.

Text Faithfulness только немного пострадал от дистилляции – вместо двух алигаторов, стал только один. В остальном в моем маленьком тесте она показала себя на уровне оригинально модели. Даже на тесте с людьми и гориллами, где модели от гугла часто прокалывались в прошлом, FLUX.1 модель выдала достойный результат.

Первая картинка в каждой паре - FLUX.1 [pro],
Ввторая картинка - FLUX.1 [dev].

Промпты в комментах.

Тыкал в бесплатое демо:
- https://fal.ai/models/fal-ai/flux-pro
- https://fal.ai/models/fal-ai/flux/dev

@ai_newz