эйай ньюз
63.9K subscribers
1.48K photos
791 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
xAI Илона Маска официально анонсировали text2image модель Aurora

После субботнего релиза и исчезновения модельки на какое-то время, появился блогпост с деталями и примерами генерации.

Самое интересное - Aurora не диффузионка, а авторегрессионная модель. В отличие от диффузии, которая берёт шум и в течении нескольких шагов лепит из него картинку, Aurora генерит изображения маленькими, полностью готовыми, кусочками (токенами). В процессе генерации изображение как-будто грузится сверху вниз, как раньше бывало при медленном интернете.

Большой плюс такого подхода - к модели применимы оптимизации инференса LLM, и в нее можно легко кормить одновременно и картинки и текст. Хоть диффузию можно ускорять не меньше, иметь схожую архитектуру для всех моделей - это огромный плюс. Наверное поэтому Aurora это Mixture of Experts, ровно как и первая версия Grok. Хоть про Grok 2 мало что известно, вряд-ли xAI слезли с MoE.

Из минусов такого подхода:
1) это скорость генерации, ведь нужно прогонять сеть отдельно для генерации каждого токена;
2) качество генерации. Видно гранулярность изображени, оно не всегда чёткое. Возможно это из-за того, что ради скорости пытались сделать токены большего размера.

Ещё показали редактирование картинок по текстовому промпту - моделька меняет только нужные детали, а не искажает изображение до неузнаваемости, в отличие от большинства других генераторов. Эту фичу завезут чуть позже, пока что она недоступна.

Чтобы попробовать, нужен всего лишь бесплатный аккаунт в экс-твиттере.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
DeepSeek выпустили новую DeepSeek 2.5

Новую DeepSeek-V2.5-1210 заметно прокачали - она выросла на бенчах по кодингу и математике, но больше всего прирост в написании текста. Это последний релиз DeepSeek V2, теперь DeepSeek полностью сфокусированы на r1 и следующем поколении их LLM - V3.

Вместе с релизом модели на их сайте появилася поиск. Работает хорошо - точно лучше чем ChatGPT Search и часто лучше Perplexity. Мне кажется это из-за количества источников - DeepSeek использует до 50 источников, все остальные в 2-3 раза меньше. Платить за всё это удовольствие, кстати, не нужно.

Попробовать модель
Веса

@ai_newz
OpenAI сильно улучшили Canvas

Canvas - это тулза для совместного редактирования вместе с ChatGPT, где вы можете вносить правки в текст или код как вручную, так и попросив ChatGPT. Его пару месяцев тестировали, а уже сегодня добавят в основную модель.

С релизом решили мою главную проблему при использования Canvas - то что там не работал code interpreter. Теперь ваши Python скриптики, над которыми вы работаете в Canvas, будут прекрасно запускаться прямо в чатгпт. Ещё добавили возможность использовать Canvas в Custom GPTs, вряд-ли это кому-то нужно, но пусть будет. А вот что интересно - ChatGPT может оставлять комменты к вашему коду/тексту (видно на скриншоте).

Вместе с релизом Canvas добавят и прямой способ использовать разные инструменты в диалоге, вроде генерации изображений или поиска. Случайных активаций генерации изображений или поиска станет поменьше (когда SearchGPT запустили для всех меня они порядком выбесили).

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Ночной тред проклятых генераций соры объявляется открытым. Какие видосы показались вам самыми странными?

@ai_newz
Большой день.
Мы выкладываем в опенсорс наши модели T-Lite и T-Pro. И эти модели просто топ 🥳

Мы увереннно выбиваем #1 среди открытых моделей по разным бенчам на русском. По MERA мы взяли #2 модель на русском ещё и включая все API, уступая только GPT-4o.

Это до-тренированный qwen-2.5 в размерах 7B и 32B. Мы провели большую работу: свой токенизатор, глубокое до-обучение на русский и специфичные корпуса. Аккуратная работа с данными. Тех репорты будут.

Этот релиз является подтверждением нашего подхода в LLM: допретрен на базе опенсорса и затем файнтюн под доменные области. Получается значительно лучше результат и мы тратим на порядок меньше денег (не преувеличение).

Пользуйтесь. Модели для инженеров, рекомендуется дальнейший файнтюн, например через наш Turbo-Alignment.

Наш новый HF: https://huggingface.co/t-tech
Лидерборд по MERA: https://mera.a-ai.ru/ru/leaderboard
Остальные бенчи тоже есть, арены будут как прокрасятся
Please open Telegram to view this post
VIEW IN TELEGRAM
Best Paper Award для стажёра-саботёра

Чел в ByteDance два месяца креативно саботировал эксперименты соседней команды, чтобы его команда получила больше GPU. А сейчас его пейпер VAR получил best paper award на NeurIPS, серьёзное достижение, но всё равно чела вряд-ли кто-то после таких финтов наймёт. Мне, лично, было бы крайне некомфортно работать с ним в одной компании.

Пейпер и правда хороший - там изобрели интересный авторегрессионный способ генерации изображений. Если кратко - генерят сначала версию изображения в маленьком разрешении, а потом всё в большем и большем разрешениии, причём работает оно очень быстро из-за того что все токены в каждом разрешении можно генерить параллельно. Более подробный разбор можете почитать тут.

А тем временем Bytedance подала против него иск на более чем миллион долларов. Выплатить такую сумму он вряд-ли сможет, помянем.

@ai_newz
Зацените, че нашел

Кольцо с угарной аббревиатурой SSR — Sber Smart Ring. Внутрь, помимо кучи датчиков, умудрились интегрировать их ЛЛМ-ку GigaChat Max, но не локально, конечно). О её возможностях уже писал здесь. Эта штука позволяет посоветоваться о чем-то в любой непонятной ситуации, а также дает советы по здоровью, анализируя данные с датчиков.

По сути, это те же умные часы, но с ЛЛМ на борту и без, всё равно ненужного в умных часах, экрана. Плюс заряд держит 7 дней.

Пост на хабре

@ai_newz
На стриме OpenAI в этот раз было как-то совсем грустно

В этот раз показали даже не свои фичи, а уже релизнутые интеграции продуктов Apple с ChatGPT. Показали их ещё в июне, а релизнули лишь на днях.

Зато свитеры красивые.

@ai_newz
Из всего что релизнул гугл с Gemini 2.0, самое впечатляющее - демка их streaming API. Gemini теперь в риалтайме понимает одновременно и аудио и видео - как с камеры, так и стрим экрана. К тому же может отвечать голосом (пусть и с помощью TTS). А ещё может исполнять код и искать по интернету, в отличие от advanced voice mode.

Такого вау-эффекта от новых возможностей нейронок у меня не было, пожалуй, с релиза advanced voice mode, всем советую попробовать (обязательно врубите стрим либо с экрана либо с камеры). Можно ненадолго почувствовать себя как в фантастике, пока это не стало обыденностью. Доступно бесплатно, но нужен VPN (не европейский).

https://aistudio.google.com/live

@ai_newz
Всего через сутки после превью гугла, OpenAI запускают свой видео-режим

На этот раз оно будет нормально доступно как в приложении ChatGPT, так и на маке. С Advanced Voice Mode всё будет поприятнее - 4o нормально говорит на русском, да и как моделька она поумнее чем Gemini 2.0 Flash.

Из преимуществ, которые остались у превью гугла - доступ в интернет и тулз. Ну, и длина контекста заметно выше - млн токенов у Gemini против всего 128к у OpenAI.

Раскатывать уже начали, но займёт это где-то неделю. А пока можно потыкать гугловую или просто пообсуждать новые свитеры в комментах.

@ai_newz
Android XR - новая ОС гугла для AR/VR девайсов

Скейлится она должна на всё: от девайсов попроще, до полноценных конкурентов Apple VIsion Pro. Киллер фичей ОС должна стать возможность взаимодействовать с видео-режимом Gemini прямо с очков, так нейронка всегда сможет видеть то же что видит пользователь.

Первым девайсом на Android XR будет Project Moohan от Samsung, который запустится уже в следующем году. Девайс без стыда копирует Vision Pro - схожий дизайн, внешняя батарея, хайенд фичи вроде отслеживания глаз и MicroOLED дисплеев. Производители поменьше, вроде Sony и Lynx, тоже готовят свои устройства.

Превью SDK уже доступно - хоть большинство приложений для Android будут работать без изменений, в систему докинули ряд новых API для создания приложений для хедсетов. В основе их лежит OpenXR, хотя поверх него докинули несколько проприетарных расширений. Новую ОС уже поддерживает Unity, от Epic с их Unreal пока ничего не слышно.

Непонятно хватит ли тут гугла надолго - 10 лет назад они пару лет пытались заниматься VR, но идею быстро забросили. А ещё ведь было фиаско с Google Glass. То же самое можно сказать и про Samsung - пару устройств они выпустили, но долгосрочного интереса не проявляли - последний шлем от Samsung вышел в 2018.

С фичами Project Moohan, цена явно будет выше $1500, даже если они будут продавать их по себестоимости. С такими ценами речи о многомилионных продажах, которые нужны чтобы отбить стоимость разработки, идти не может, так что придётся работать себе в убыток. Сколько времени, как Google, так и производители девайсов, готовы их терпеть - вопрос.

@ai_newz
Лучшая фича Claude теперь будет в ChatGPT!

В ChatGPT наконец-то добавляют проекты - способ организовывать чаты с общим контекстом. В проект можно добавить, например, рабочую документацию и кастомные инструкции для группы чатов. Это фича которой мне больше всего не хватало в ChatGPT, наконец-то её релизнули!

Ещё дали апдейт по статусу релизов - Sora и Advanced Video Mode теперь доступны всем подписчикам на Plus и Pro планах за пределамы европы, а санта-режим просто доступен всем подписчикам.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Pika 2.0 — мечта всех рекламщиков

Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.

Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.

- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.

Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит 🤭

Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.

Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.

pika.art

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#48)
Новогодние подарки продолжают сыпаться, приобретая лавинный характер...

LLM
- DeepSeek 2.5 — хороший буст в качестве + завезли поиск, который ощущается лучше, чем у OpenAI.
- Canvas (2?) — тулзу внутри ChatGPT знатно прокачали и добавили несколько очень нужных Quality of Life улучшений.
- T-Lite и T-Pro в опенсорсе — отличные результаты! Хитрый финт с файнтюном и дополнительным предобучением дает свои плоды. По бенчмаркам модель занимает топ-1 на русском языке.
- Streaming API — Gemini теперь в реальном времени понимает одновременно и аудио, и видео: как с камеры, так и со стрима экрана.
- Advanced Voice Mode + Video — OpenAI сразу же отвечают, хотя функционал немного ограничен. Но зато модель умнее, чем Gemini Flash, которая используется в Streaming API.
- ChatGPT Projects — наконец-то файлы и чаты можно разложить по папкам и навести порядок во всем этом хаосе.

Генеративные модели
- Aurora — авторегрессионная txt2img модель от xAI. У команды свой уникальный путь со своими плюсами и минусами.
- Pika 2.0 — завезли IP-Adapter для видео. Работает хорошо, но пока не хватает «короля» над картинкой.

Sora
- Утечка SORA — незадолго до релиза произошел слив, прогрев? Еще появилась первая страничка SORA, а затем уже релиз.
- SORA в общем доступе! — теперь все пользователи могут генерировать свои 10-секундные видосики. Революции не случилось, так как за год многие конкуренты уже догнали OpenAI.
- Обзор на SORA от Marques Brownlee — крупнейший техноблогер ютуба выложил обзор на SORA за пару часов до официального анонса и релиза OpenAI.
- Тесты SORA — смотрим на ваши тесты в комментариях.

Прочее
- Месть или победа любой ценой? — история о том, как обиженный саботёр получил Best Paper Award.
- XLand-MiniGrid — среда для тренировки агентов на GPU. Аналог закрытого XLand от Google.

Техника
- Android XR — новая ОС Google для AR/VR-девайсов. Google готовят базу для всех умных очков.

Читать дайджест #47

#дайджест
@ai_newz
После релиза подписки от OpenAI за $200 баксов, сразу нашлись желающие сделать подписку за $500. Столько берут за Devin - ИИ агента, который должен быть "ещё одним джуном в команде, на которого можно скидывать мелкие задачи". Взаимодействие идёт прямо через Slack или Github, причём за одну подписку доступ даётся сразу всей тиме.

За эти $500, в месяц дают 250 ACU - в лучшем случае это чуть больше 60 часов работы агента. Съесть их можно довольно быстро - Devin может делать несколько задач одновременно, а на отдельную задачу может спокойно уйти 3-5 часов (без гарантии успеха). После того как кредиты закончились, их, разумеется, можно докупать.

Отзывы пользователей так себе - хоть какие-то простые задачи он может делать, но кроме того что на задачи уходит куча времени, у него есть ещё и привычка застревать на середине. Есть и юзеры у которых за $500 Devin смог сделать лишь два изменения в документации.

За неполную неделю после релиза, Devin попал и в небольшой скандал с кибербезопасностью - прямо на стриме популярнейшего стримера Primagen, в Devin нашли неприятную уязвимость. При использовании одной из фич, в ссылке, которую видно в адресной строке браузере, был ключ, позволяющий получить доступ ко всему к чему имеет доступ Devin. То есть, кто угодно кому вы демонстрируете экран мог случайно получить доступ к куче приватной инфы. Вроде мелочь, но сама манера такого обращения с секретами настораживает. Интересно, виноват ли в ошибке сам Devin, или накосячил кто-то из кожаных мешков.

С такими результатами, вопрос, выйдет ли у Cognition, авторов Devin, оправдать свою оценку в два лярда пока у них не закончатся деньги. А ведь конкуренты не спят - Cursor недавно выпустили своего агента - он, конечно, попроще, но и стоит $20 в месяц, плюс это IDE, в которой с AI проще работать совместно. Google на днях тоже запустил превью кодинг агента Jules, основанного на Gemini 2.0. В недрах других бигтех компаний работы тоже явно ведутся.

Несмотря на огромный прогресс в LLM и агентах за последние пару лет, AI всё ещё не может полностью заменить программиста, даже джуна.

@ai_newz
В ChatGPT улучшили поиск

Парад трансляций продолжается, 8 позади, 4 осталось.

🔎 Теперь поиск доступен бесплатным пользователям

🔎 В Advanced Voice Mode теперь есть поиск

🔎 Качество поиска в целом апгрейднули

Стоит ли дальше писать про такие минорные апдейты, или только про что-то важное?

@ai_newz
Veo 2 — новая SOTA видео-генерация?!

Google стратегически дождались релиза Sora от OpenAI, чтобы сразу представить свою ответку. По их внутренним тестам, Veo 2 заметно опережает конкурентов. Правда, я бы не стал слепо доверять их тестам, согласно которым клинг чуть ли не лучше MovieGen и Sora.

Однако, черрипики на сайте выглядят впечатляюще. Как минимум, фламинго не путает передние и задние ноги и Veo 2 почти безошибочно справился с фигуристкой. Но с более динамичными сценами пока есть трудности, о чём сами признаются в DeepMind — см. пример со скейтбордистом.

Технических деталей немного, кроме того, что модель на релизе выдаёт разрешение 720p с возможностью дойти до 4К! Длина видео — 8 секунд, золотая середина между 5-ю и 10-ю секундами, где уже чаще возникают артефакты. Картинки на вход, вроде бы, пока не принимает.

Есть даже регистрация в вейтлист, правда чтобы туда добавили просят заполнить небольшую анкету, да и сколько ждать — неизвестно. Надеюсь, гугл не будет опять годами держать модель за семью печатями.

@ai_newz