эйай ньюз
72.5K subscribers
1.58K photos
855 videos
7 files
1.91K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Сколько энергии тратят LLM на юзера?

Нашёл в интернете классную инфографику, наглядно показывающую сколько энергии нужно на год использования LLM, в сравнении с другими ежедневными занятиями. Исходят из расчёта на 100 обычных сообщений в день с не reasoning моделью. К методике у меня есть пара претензий, да и всё очень сильно зависит от конкретной модели, но порядок цифр верный. Я всё ещё постоянно вижу заявления о каких-то безумных расходах энергии и воды, даже от уважаемых изданий, надеюсь такой дезинформации станет меньше.

@ai_newz
Нейродайджест за неделю (#62)

LLM
- Нативная мультимодальная генерация картинок в 4o — Сама наконец развязал руки 4o. Прекрасно генерит картинки и редактирует их текстом, к тому же без дотошной цензуры. Но при этом крутит детали и меняет лица при редактировании. Правда, пока сервера положили все те, кто делают что-то там в стиле Ghibli. Более того, GPT-4o серьёзно апнули — Малая по бенчам сравнялась с Claude 3.7.
- DeepSeek V3 обновили — Дотюнили изначальный вариант, по бенчам немного подскачил.
- Gemini 2.5 Pro — Пушка от Google и СОТА модель сегодняшний день (выкуси Сама).
- Чатботы почти не тратят электроэнергию — Сравнение расходов электричества на LLM и другие повседневные дела.

Роботех
- LeRobot — Опенсорс-робототехника жёстко обновилась: роборуку можно собрать за 110 баксов, а потом за ночь обучить на домашнем железе.

Генеративные картиночные модели
- REVE — Новая СОТА в text2image. Отличное понимание промпта и знание русской эстетики.
- Ideogram 3.0 — Говорят, что СОТА, но на деле неизвестно. Выложили в ответ REVE и OpenAI.

> Читать дайджест #61

#дайджест
@ai_newz
А вот и YandexGPT 5 Lite Instruct подъехал в опенсорс.

Я уже писал про 5-е поколение моделей Яндекса, но тогда выложили только pre-train версию, а теперь релизят Instruct версию. Ее неплохо бафнули в плане кода и матана и увеличили контекст с 8 до 32k. По сравнению с Qwen 2.5-7B-Instruct моделька значительно лучше справляется с классификацией и разметкой русского языка, в том числе в вопросах культурного наследия и локальных фактов. Челы из Яндекса хвастают, что в side-by-side обходят Qwen в 62% и имеют паритет с YandexGPT 4 Pro, а в типичных задачах сервисов Яндекса обходят даже GPT-4o Mini.

Добавили также поддержку llama.cpp и GGUF. Моделька всего на 8B, так что влезет в домашний ПК.

Кроме того, обновили лицензию. Теперь обе модельки можно использовать в коммерческих целях — но не более 10 млн выходных токенов в месяц.Хватит на небольшого кастомер-саппорт-бота. Однако крупному бизнесу придётся платить за лицензию. Для них приятная плюшка — это совместимость с OpenAI API в Yandex Cloud. То есть можно переключаться между ними практически бесшовно. Странно, что сразу так не сделали.

Обнимающее лицо

@ai_newz
GPT 4o залетела на Image Arena

Модель теперь делит первое место с Reve, а Ideogram V3 на арену пока что так и не добралась. Это не единственная LLM на арене — там уже есть Gemini 2.0 Flash, которая по качеству где-то между Stable Diffusion 3.5 Medium и FLUX 1.0 schnell, что на целых 150 ELO отстаёт от топа. Кстати, возможности генерации изображений должны быть у всех моделей Gemini, интересно что будет выдавать Gemini 2.5 Pro, когда её включат, и как повиляет на это ризонинг.

А как скоро LLM начнут генерить ещё и видео? Хотя такая статейка уже была у гугла пару лет назад.

@ai_newz
Media is too big
VIEW IN TELEGRAM
GEN-4, Runway is soo back 🔥🔥🔥

После выхода GEN-3 прошло довольно много времени, и после релиза Kling 1.6 использовать Runway было как-то зашкварно. Хотя у них и был безлимитный план. А после выхода Luma Ray 2, где теперь тоже есть безлим, Runway был вообще бесполезным и в последнее время казался морально устаревшим.

А теперь они без предварительных анонсов неожиданно дропают модельку на уровне VEO 2 🔥

Сразу с img2video, более того — это одна из самых лучших моделей в плане подхвата референса по одной картинке с очень хорошей консистентностью. В демо-черрипиках — это уровень Grok 3 и Gemini Flash 2.0 (даже не 4o).

Никаких технических данных нет, как обычно. Но выглядит так, будто она вообще не трогает детали референса, только рисует новые ракурсы и моушен. Пока звучит как фантастика, нужно щупать своими ручками.

Но ждать недолго! Её уже должны были открыть для платных пользователей.

Черрипики-фильмы от ранвей в ниже.

Анонс

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ПРОЕКТ: МоЧА

Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)

Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.

Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.

Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.

Генерация, конечно же не онлайн.

Пейпер
Project page

@ai_newz
Разработчики из ШАДа и Yandex B2B Tech создали реально работающий инструмент для экологов-практиков. Их нейросеть анализирует снимки с дронов и превращает их в детальную карту мусорных скоплений на побережьях — причём делает это с точностью выше 80%.

Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.

Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.

@ai_newz
Qwen 3 выйдет на следующей неделе

Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.

Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.

Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.

@ai_newz
Для Gemma 3 вышли официальные квантизированные версии

Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.

Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.

Скачать

@ai_newz
Midjourney v7 🥳

Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.

Персонализация теперь включена по умолчанию. Чтобы сделать всё красиво, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.

Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.

Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.

Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.

К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Вот как работает режим Draft в MJ v7:

Он понимает не только английский, но и другие языки. Просто диктуешь, что изменить или добавить — проходит пара секунд, и у тебя уже новая картинка. Правда, он изменяет только промпт, а не редактирует саму картинку.

@ai_newz