Сколько энергии тратят LLM на юзера?
Нашёл в интернете классную инфографику, наглядно показывающую сколько энергии нужно на год использования LLM, в сравнении с другими ежедневными занятиями. Исходят из расчёта на 100 обычных сообщений в день с не reasoning моделью. К методике у меня есть пара претензий, да и всё очень сильно зависит от конкретной модели, но порядок цифр верный. Я всё ещё постоянно вижу заявления о каких-то безумных расходах энергии и воды, даже от уважаемых изданий, надеюсь такой дезинформации станет меньше.
@ai_newz
Нашёл в интернете классную инфографику, наглядно показывающую сколько энергии нужно на год использования LLM, в сравнении с другими ежедневными занятиями. Исходят из расчёта на 100 обычных сообщений в день с не reasoning моделью. К методике у меня есть пара претензий, да и всё очень сильно зависит от конкретной модели, но порядок цифр верный. Я всё ещё постоянно вижу заявления о каких-то безумных расходах энергии и воды, даже от уважаемых изданий, надеюсь такой дезинформации станет меньше.
@ai_newz
Нейродайджест за неделю (#62)
LLM
- Нативная мультимодальная генерация картинок в 4o — Сама наконец развязал руки 4o. Прекрасно генерит картинки и редактирует их текстом, к тому же без дотошной цензуры. Но при этом крутит детали и меняет лица при редактировании. Правда, пока сервера положили все те, кто делают что-то там в стиле Ghibli. Более того, GPT-4o серьёзно апнули — Малая по бенчам сравнялась с Claude 3.7.
- DeepSeek V3 обновили — Дотюнили изначальный вариант, по бенчам немного подскачил.
- Gemini 2.5 Pro — Пушка от Google и СОТА модель сегодняшний день (выкуси Сама).
- Чатботы почти не тратят электроэнергию — Сравнение расходов электричества на LLM и другие повседневные дела.
Роботех
- LeRobot — Опенсорс-робототехника жёстко обновилась: роборуку можно собрать за 110 баксов, а потом за ночь обучить на домашнем железе.
Генеративные картиночные модели
- REVE — Новая СОТА в text2image. Отличное понимание промпта и знание русской эстетики.
- Ideogram 3.0 — Говорят, что СОТА, но на деле неизвестно. Выложили в ответ REVE и OpenAI.
> Читать дайджест #61
#дайджест
@ai_newz
LLM
- Нативная мультимодальная генерация картинок в 4o — Сама наконец развязал руки 4o. Прекрасно генерит картинки и редактирует их текстом, к тому же без дотошной цензуры. Но при этом крутит детали и меняет лица при редактировании. Правда, пока сервера положили все те, кто делают что-то там в стиле Ghibli. Более того, GPT-4o серьёзно апнули — Малая по бенчам сравнялась с Claude 3.7.
- DeepSeek V3 обновили — Дотюнили изначальный вариант, по бенчам немного подскачил.
- Gemini 2.5 Pro — Пушка от Google и СОТА модель сегодняшний день (выкуси Сама).
- Чатботы почти не тратят электроэнергию — Сравнение расходов электричества на LLM и другие повседневные дела.
Роботех
- LeRobot — Опенсорс-робототехника жёстко обновилась: роборуку можно собрать за 110 баксов, а потом за ночь обучить на домашнем железе.
Генеративные картиночные модели
- REVE — Новая СОТА в text2image. Отличное понимание промпта и знание русской эстетики.
- Ideogram 3.0 — Говорят, что СОТА, но на деле неизвестно. Выложили в ответ REVE и OpenAI.
> Читать дайджест #61
#дайджест
@ai_newz
А вот и YandexGPT 5 Lite Instruct подъехал в опенсорс.
Я уже писал про 5-е поколение моделей Яндекса, но тогда выложили только pre-train версию, а теперь релизят Instruct версию. Ее неплохо бафнули в плане кода и матана и увеличили контекст с 8 до 32k. По сравнению с Qwen 2.5-7B-Instruct моделька значительно лучше справляется с классификацией и разметкой русского языка, в том числе в вопросах культурного наследия и локальных фактов. Челы из Яндекса хвастают, что в side-by-side обходят Qwen в 62% и имеют паритет с YandexGPT 4 Pro, а в типичных задачах сервисов Яндекса обходят даже GPT-4o Mini.
Добавили также поддержку llama.cpp и GGUF. Моделька всего на 8B, так что влезет в домашний ПК.
Кроме того, обновили лицензию. Теперь обе модельки можно использовать в коммерческих целях — но не более 10 млн выходных токенов в месяц.Хватит на небольшого кастомер-саппорт-бота. Однако крупному бизнесу придётся платить за лицензию. Для них приятная плюшка — это совместимость с OpenAI API в Yandex Cloud. То есть можно переключаться между ними практически бесшовно. Странно, что сразу так не сделали.
Обнимающее лицо
@ai_newz
Я уже писал про 5-е поколение моделей Яндекса, но тогда выложили только pre-train версию, а теперь релизят Instruct версию. Ее неплохо бафнули в плане кода и матана и увеличили контекст с 8 до 32k. По сравнению с Qwen 2.5-7B-Instruct моделька значительно лучше справляется с классификацией и разметкой русского языка, в том числе в вопросах культурного наследия и локальных фактов. Челы из Яндекса хвастают, что в side-by-side обходят Qwen в 62% и имеют паритет с YandexGPT 4 Pro, а в типичных задачах сервисов Яндекса обходят даже GPT-4o Mini.
Добавили также поддержку llama.cpp и GGUF. Моделька всего на 8B, так что влезет в домашний ПК.
Кроме того, обновили лицензию. Теперь обе модельки можно использовать в коммерческих целях — но не более 10 млн выходных токенов в месяц.Хватит на небольшого кастомер-саппорт-бота. Однако крупному бизнесу придётся платить за лицензию. Для них приятная плюшка — это совместимость с OpenAI API в Yandex Cloud. То есть можно переключаться между ними практически бесшовно. Странно, что сразу так не сделали.
Обнимающее лицо
@ai_newz
GPT 4o залетела на Image Arena
Модель теперь делит первое место с Reve, а Ideogram V3 на арену пока что так и не добралась. Это не единственная LLM на арене — там уже есть Gemini 2.0 Flash, которая по качеству где-то между Stable Diffusion 3.5 Medium и FLUX 1.0 schnell, что на целых 150 ELO отстаёт от топа. Кстати, возможности генерации изображений должны быть у всех моделей Gemini, интересно что будет выдавать Gemini 2.5 Pro, когда её включат, и как повиляет на это ризонинг.
А как скоро LLM начнут генерить ещё и видео? Хотя такая статейка уже была у гугла пару лет назад.
@ai_newz
Модель теперь делит первое место с Reve, а Ideogram V3 на арену пока что так и не добралась. Это не единственная LLM на арене — там уже есть Gemini 2.0 Flash, которая по качеству где-то между Stable Diffusion 3.5 Medium и FLUX 1.0 schnell, что на целых 150 ELO отстаёт от топа. Кстати, возможности генерации изображений должны быть у всех моделей Gemini, интересно что будет выдавать Gemini 2.5 Pro, когда её включат, и как повиляет на это ризонинг.
А как скоро LLM начнут генерить ещё и видео? Хотя такая статейка уже была у гугла пару лет назад.
@ai_newz
Media is too big
VIEW IN TELEGRAM
GEN-4, Runway is soo back 🔥 🔥 🔥
После выхода GEN-3 прошло довольно много времени, и после релиза Kling 1.6 использовать Runway было как-то зашкварно. Хотя у них и был безлимитный план. А после выхода Luma Ray 2, где теперь тоже есть безлим, Runway был вообще бесполезным и в последнее время казался морально устаревшим.
А теперь они без предварительных анонсов неожиданно дропают модельку на уровне VEO 2🔥
Сразу с img2video, более того — это одна из самых лучших моделей в плане подхвата референса по одной картинке с очень хорошей консистентностью. В демо-черрипиках — это уровень Grok 3 и Gemini Flash 2.0 (даже не 4o).
Никаких технических данных нет, как обычно. Но выглядит так, будто она вообще не трогает детали референса, только рисует новые ракурсы и моушен. Пока звучит как фантастика, нужно щупать своими ручками.
Но ждать недолго! Её уже должны были открыть для платных пользователей.
Черрипики-фильмы от ранвей в ниже.
Анонс
@ai_newz
После выхода GEN-3 прошло довольно много времени, и после релиза Kling 1.6 использовать Runway было как-то зашкварно. Хотя у них и был безлимитный план. А после выхода Luma Ray 2, где теперь тоже есть безлим, Runway был вообще бесполезным и в последнее время казался морально устаревшим.
А теперь они без предварительных анонсов неожиданно дропают модельку на уровне VEO 2
Сразу с img2video, более того — это одна из самых лучших моделей в плане подхвата референса по одной картинке с очень хорошей консистентностью. В демо-черрипиках — это уровень Grok 3 и Gemini Flash 2.0 (даже не 4o).
Никаких технических данных нет, как обычно. Но выглядит так, будто она вообще не трогает детали референса, только рисует новые ракурсы и моушен. Пока звучит как фантастика, нужно щупать своими ручками.
Но ждать недолго! Её уже должны были открыть для платных пользователей.
Черрипики-фильмы от ранвей в ниже.
Анонс
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ПРОЕКТ: МоЧА
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz
Разработчики из ШАДа и Yandex B2B Tech создали реально работающий инструмент для экологов-практиков. Их нейросеть анализирует снимки с дронов и превращает их в детальную карту мусорных скоплений на побережьях — причём делает это с точностью выше 80%.
Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.
Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.
@ai_newz
Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.
Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.
@ai_newz
Qwen 3 выйдет на следующей неделе
Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.
Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.
Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.
@ai_newz
Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.
Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.
Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.
@ai_newz
Для Gemma 3 вышли официальные квантизированные версии
Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.
Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.
Скачать
@ai_newz
Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.
Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.
Скачать
@ai_newz
Midjourney v7 🥳
Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.
Персонализация теперь включена по умолчанию. Чтобы сделать всё ✨красиво✨, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.
Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.
Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.
Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.
К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.
@ai_newz
Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.
Персонализация теперь включена по умолчанию. Чтобы сделать всё ✨красиво✨, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.
Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.
Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.
Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.
К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.
@ai_newz
Media is too big
VIEW IN TELEGRAM