эйай ньюз
57.8K subscribers
1.38K photos
727 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation


Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.

Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.

Сайт проекта
Демо (только в 1024p)
Кода пока нет

@ai_newz
А вот это интересно. Маск сказал, что они заопенсорсят свою LLM Grok на этой неделе.

Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).

Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Есть сомнения по поводу того, на каких данных тренировалась SORA.

Public data из инстаграма - это user data, на которой не очень-то легально тренироваться, без консента владельцев фотографий (особенно если там есть лица). Думаю, Мира потом могла пожалеть, что ляпнула это.

@ai_newz
Когда стараешься не наговорить на пару многомиллионных исков.

П.С. Это Мира Мурати, CTO OpenAI.

Она недавно давала итервью WS о Sora.

Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):

- Sora выйдет в течение 2024 года

- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.

- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.

- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.

Полное интервью.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Mapillary - уличные карты на стеройдах

Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.

Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.

Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!

Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app

@ai_newz
В придачу вот NeRF (в 4K) с облетом по внутреннему дворику Швейцарского Национального Музея в Цюрихе (у нас как-то был корпоратив внутри этого двора 🙂).

Если откроете видео на ютубе, то сможете мышкой контролировать направление камеры.

Про нерфы подробнее я писал тут и тут.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется, кто-то нащупал золотую жилу 🥹.

Мужикам с зоны есть чему поучиться у африканских гуру.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎥Video Editing via Factorized Diffusion Distillation

Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.

Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.

Таким образом, студент выучивает консистентно менять кадры на видео.

ArXiv
Сайт проекта с примерами

@ai_newz
Илонка, как и обещал дропнул веса Grok.

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%https://2Facademictorrents.com%2Fannounce.php%3Fpasskey%3Decac4c57591b64a7911741df94f18b4b&t

Я правда пока не понял, где код. Нужно поискать...

@ai_newz
🔥 Grok: 314B параметров. 8 экспертов. Нормально!

Код должен быть тут https://github.com/xai-org/grok

@ai_newz
Никогда такого не было и вот опять - британские учёные Washington Post выяснили, что BigTech платит в разы лучше академии

Ли Фэй-Фэй, типа крестной мамки ИИ (эта тетя еще и была научным руководителем Андрея Карпатого), закинула тему о бабле на нацпроект по AI перед Байденом. Суть в том, чтобы университеты cмогли догнать корпоративных монстров типа Meta, Google и Microsoft, которые уже натренировали кучу моделей, пока академия пыталась выжить на остатках грантов.

Ребята, конечно, совершили высадку на луну с 4kb RAM, но пока Meta закупает 350к H100, бедняги из Стэнфорда пытаются что-то выжать из своих 68... штучек. Я уже даже не говорю про разницу в з/п между индустрией и академией - можете глянуть levels.fyi сами.

Чтобы хоть как-то замутить свой исследовательский хайп, ученым приходится ломиться в биг-теки, которые в ответ задают направление ресерча. Как результат, большая часть крутых исследований теперь идет под флагом индустрии, а университеты вынуждены довольствоваться крохами. Чтобы это проверить, достаточно вспомнить хоть бы одну Foundation модель для Language или Computer Vision, которую натренировали в университете - мне сходу на ум ничего не приходит.

А вообще, Open source, конечно, задает жару всяким гуглам, только вот мощностей все равно катастрофически не хватает.

Ли уже каталась по Вашингтону, пытаясь пробить финансирование на "GPU для народа", чтобы хоть как-то уровнять шансы. В то же время, корпорации, типа Microsoft, уже подкинули кое-какие ресурсы ($20M) в общий котел, но это, по большому счету, капля в море.

Ситуация настолько критична, что почти 70% PhD по AI уходят в индустрию, искушенные зарплатами и возможностью работать над чем-то крутым. А 10 лет назад эта цифра была 21%. И вот они стоят перед выбором: сидеть в академии и пилить науку за гроши или перейти на темную сторону и ресерчить за бабло. Те, кто решает остается, приходится либо договариваться с индустрией, либо наблюдать, как их темы уплывают к тем, кто может позволить себе больше железа и данных.

По себе знаю, в универститетах круто в плане свободы выбора тем исследований, но там совсем нет ресурсов на тренировку современных больших моделей...

@ai_newz
Похоже, Apple все же подарит Siri мозг!

Помните недавно прошелся слух, что готовится Apple GPT?

Так вот, Apple только что купила стартап Darwin AI, который работает над уменьшением и ускорением AI моделей. Тим Кук уже успел пообещать "открыть новые горизонты" в этом году, и похоже, все-таки у нас будет возможность пользоваться нейросетью от эпл локально на новеньком айфоне.

Apple всегда заботилась о безопасности и приватности, так что возможность общаться с ботом и редактировать фотки локально была бы пушкой, да и за облачные вычисления платить не придется, как это решил сделать Samsung.

Времени до конца года осталось не так много, интересно, успеют ли. 😐

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
эйай ньюз
Похоже, Apple все же подарит Siri мозг! Помните недавно прошелся слух, что готовится Apple GPT? Так вот, Apple только что купила стартап Darwin AI, который работает над уменьшением и ускорением AI моделей. Тим Кук уже успел пообещать "открыть новые горизонты"…
Тут еще и сделка между Google и Apple назревает.

Яблоко хочет получить лицензию на использование моделей Gemini в новых фичах, которые появятся на iPhone в этом году. Gemini планируют использовать для более тяжелых задач, и гонять модели в клауде, а не на девайсе. Свои же модели Apple пилят под телефон.

В целом, Apple либо позади в гонке LLM, либо они очень секретно двигаются.

@ai_newz
🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"

Как всегда бывает на презентациях NVIDIA, слово "быстро" - это вчерашний день.

↪️ B200 GPU обещает до 20 петафлопс производительности в FP4 и 208 миллиардов транзисторов. Ваша GTX 1080 Ti нервно курит в сторонке.

↪️ В одной B200 будет 192GB памяти с пропускной способностью 8 ТБ/с. Идеально для LLM моделей, которые жрут память как не в себя и требуют большую пропускную способность.

↪️ GB200 "суперчип" объединяет 2 таких B200 GPU с одним Grace CPU (на ARM архитектуре). Nvidia хвастается, что это в 30 раз производительнее для инференса в LLM в FP4 по сравнению с H100.

↪️ Ключевая фишка - второе поколение трансформерного движка, который удваивает вычислительную мощность, пропускную способность и размер модели. Но хз, какая потеря точности будет после конвертации в FP4.

↪️ Nvidia утверждает, что GB200 снижает стоимость и энергопотребление в 25 раз по сравнению с H100 (опять же, в FP4).

↪️ Теперь будет поддерживаться и новый формат - FP6, золотая середина по скорости и точности между FP4 и FP8. Но бенчмарков не показали.

↪️ FP64 на уровне 45 терафлопс на GPU (против 60 у H100). Для нейронок double precision не релевантен, поэтому они особо и не парятся ускорять тут.

↪️ Тренировка GPT-MoE с 1.8 триллиона параметров (читай GPT-4) требовала 90 дней на 8,000 GH100 и 15МВт энергии. Теперь достаточно 2,000 GB200 и 4МВт. То есть во время тренировки 1x GB200 примерно в 4 раза быстрее чем 1x H100.

↪️ На инференсе GPT-3 с 175 млрд параметров, GB200 "всего" в 7 раз быстрее H100. Ну ладно, не все сразу.

Но не радуйтесь раньше времени - цены будут ядреными! Если H100 стоит около $40k, то GB200 будет минимум в 4-5 раз дороже.

Да и не достать их будет простым смертным. Первыми их получат Amazon, Google, Microsoft и Oracle. Известно, что Амазон уже планирует кластер на 20,000 GB200.

А потребительские версии Blackwell ожидаются не раньше 2025 г.

Ещё посты для интересующихся:
1. Про H100
2. Про H100 NVL192GB
3. Про GH200

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
А вот так выглядит сам суперчип GB200.

Подробности: https://blogs.nvidia.com/blog/2024-gtc-keynote/

@ai_newz