эйай ньюз
64.3K subscribers
1.48K photos
791 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Вот почему Sora не пускали в сеть

А еще релиз обещают сегодня! Я уже писал об этом, но тогда это были догадки.

Marques Brownlee, крупнейший техноблогер YouTube, поделился своими тестами Sora и снял на нее обзор. Выше его тесты — бегом смотреть! Там, кстати, помимо видосов есть и обзор на UI, который подозрительно похож на MidJourney.

Я еще не успел посмотреть сам обзор, сразу побегом к вам. Но так, на первый взгляд, в генерациях, конечно, есть косяки — это все-таки технология в разработке, а не магия. У чела, например, телефон то появляется, то пропадает. Но это не то чтобы сразу бросается в глаза, как у того же Runway.

Понимание промпта — мое почтение! Кадр с новостями полностью сгенерирован без дополнительного монтажа, все плашки тоже (на них, конечно, какой-то нонсенс, но все же! Их все равно никто не читает).

Ну и очевидно, что OpenAI плевать хотели на копирайт (помните жесткий фейл Мурати?). Они 100% использовали те же самые новости, видео ютуберов и со стоков, что прекрасно видно по генерациям.

Ждем релиз и расчехляем свои кошельки на подписку! Анонс будет через 15 минут здесь.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI официально показали Sora!

Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".

Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.

Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.

Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.

Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.

sora.com

@ai_newz
xAI Илона Маска официально анонсировали text2image модель Aurora

После субботнего релиза и исчезновения модельки на какое-то время, появился блогпост с деталями и примерами генерации.

Самое интересное - Aurora не диффузионка, а авторегрессионная модель. В отличие от диффузии, которая берёт шум и в течении нескольких шагов лепит из него картинку, Aurora генерит изображения маленькими, полностью готовыми, кусочками (токенами). В процессе генерации изображение как-будто грузится сверху вниз, как раньше бывало при медленном интернете.

Большой плюс такого подхода - к модели применимы оптимизации инференса LLM, и в нее можно легко кормить одновременно и картинки и текст. Хоть диффузию можно ускорять не меньше, иметь схожую архитектуру для всех моделей - это огромный плюс. Наверное поэтому Aurora это Mixture of Experts, ровно как и первая версия Grok. Хоть про Grok 2 мало что известно, вряд-ли xAI слезли с MoE.

Из минусов такого подхода:
1) это скорость генерации, ведь нужно прогонять сеть отдельно для генерации каждого токена;
2) качество генерации. Видно гранулярность изображени, оно не всегда чёткое. Возможно это из-за того, что ради скорости пытались сделать токены большего размера.

Ещё показали редактирование картинок по текстовому промпту - моделька меняет только нужные детали, а не искажает изображение до неузнаваемости, в отличие от большинства других генераторов. Эту фичу завезут чуть позже, пока что она недоступна.

Чтобы попробовать, нужен всего лишь бесплатный аккаунт в экс-твиттере.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
DeepSeek выпустили новую DeepSeek 2.5

Новую DeepSeek-V2.5-1210 заметно прокачали - она выросла на бенчах по кодингу и математике, но больше всего прирост в написании текста. Это последний релиз DeepSeek V2, теперь DeepSeek полностью сфокусированы на r1 и следующем поколении их LLM - V3.

Вместе с релизом модели на их сайте появилася поиск. Работает хорошо - точно лучше чем ChatGPT Search и часто лучше Perplexity. Мне кажется это из-за количества источников - DeepSeek использует до 50 источников, все остальные в 2-3 раза меньше. Платить за всё это удовольствие, кстати, не нужно.

Попробовать модель
Веса

@ai_newz
OpenAI сильно улучшили Canvas

Canvas - это тулза для совместного редактирования вместе с ChatGPT, где вы можете вносить правки в текст или код как вручную, так и попросив ChatGPT. Его пару месяцев тестировали, а уже сегодня добавят в основную модель.

С релизом решили мою главную проблему при использования Canvas - то что там не работал code interpreter. Теперь ваши Python скриптики, над которыми вы работаете в Canvas, будут прекрасно запускаться прямо в чатгпт. Ещё добавили возможность использовать Canvas в Custom GPTs, вряд-ли это кому-то нужно, но пусть будет. А вот что интересно - ChatGPT может оставлять комменты к вашему коду/тексту (видно на скриншоте).

Вместе с релизом Canvas добавят и прямой способ использовать разные инструменты в диалоге, вроде генерации изображений или поиска. Случайных активаций генерации изображений или поиска станет поменьше (когда SearchGPT запустили для всех меня они порядком выбесили).

@ai_newz