Psy Eyes

Luma: выкатили генерацию зацикленных видео.

Закидываем картинку или просто пишем текст и ставим галочку Loop, чтобы получить зацикленный вариант.

Сайт

2.4K viewsAndrey Bezryadin, 18:57

Psy Eyes

Запрещёнка выкатила серию опенсорсных языковых моделей Llama 3.1.

Модельный ряд включает в себя LLM размерами 8B, 70B, и, давно ожидаемая, на 405B параметров. Причем, версии 8B и 70B были выпущены и для ламы 3 в апреле. Но модели 3.1 подтянули в разных бенчах. Наибольший прирост в математике и работе со сторонними инструментами через API. Ещё размер контекстного окна увеличился до 128к (можно скармливать книжки).

Примечательно, что открытая модель размером 405B на бенчах наравне с GPT-4o и Сlaude 3.5. Вот только, чтобы запустить её понадобится 750 ГБ видеопамяти. Дабы это осуществить предоставлены версии для инференса на множестве GPU.

Также с большой и средней моделью моделью можно пообщаться бесплатно на hugging.chat (нажмите Activate рядом с нужным вариком). По-русски говорит, хотя официально это нигде не сказано. А ещё через Tools можно использовать 405B крупняк для генерации и редактирования картинок, подрубить к актуальным данным в интернете (потому что знания модели ограничены декабрём 2023), и не только.

Анонс
Демо (hugging . chat)
Демо (TogetherAI)
Демо (нужен айпишник США)
Хаггинг

1.84K viewsAndrey Bezryadin, 19:45

Psy Eyes

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

Suno: выпустили разбивку треков на стемы — то бишь, можно отдельно послушать и скачать голос или инструменты.

В видео из твиттера пример на попсе довольно черрипикнутый. На втором видео я опробовал фичу на своём шансоне и есть проблемы:

1) Очень много шумов как на вокальной, так и на инструментальной дорожках. То есть, Suno на стадии генерации не размечают как-либо структуру трека, чтобы потом можно было отдельно сохранить нужный стем (барабаны, гитара, пикачу-синт, итд). Вместо этого они по частотам, как и другие стартапы, выцеживают инструменты из финальной композиции. Поэтому "всё в нойз песке", а на вокальной линии слышны инструменты и наоборот.

2) Весь аккомпанемент смешивается в одну дорожку, а не генерится отдельными стемами, которые можно обрезать/продолжить. Здесь они, вероятно, ограничены генерацией по 2 композиции за раз, и возможно это изменится, когда можно будет делать по 5-10 генераций одномоментно.

Пока что инструменты, заточенные на выделение стемов типа Azuki Splitter справляются с этой задачей лучше.

Фича доступна Pro и Premium подписчикам.

Сайт
Анонс

7.4K viewsAndrey Bezryadin, 13:26

Psy Eyes

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Kling: вышел глобально. Можно генерить видео длиной до 5 секунд по тексту или на основе картинки.

Регистрация по имейлу. На каждый аккаунт выдаётся 66 кредитов, которые пополняются каждый день (1 генерация - 10 кредитов). Делайте себе сразу много акков.

Из рулек:
* Генерация в разных форматах кадра (16:9, 9:16, 1:1).
* Ползунок креативности — соответствия промту.
* В text-2-video режиме есть контроль камеры с визуализацией её движения, что круто. Только Tilt и Pan перепутаны местами почему-то.
* Негативный промт.
* Позже подъедут генерация 10 секунд за раз, расширение уже созданного видео, высокая детализация (High Quality mode) и расширенное управление камерой (!).

Отдельно отмечу интерфейс — он прост, но удобен и нет ничего лишнего.

По качеству пока впечатления смешанные. В плане детализации Kling сейчас проигрывает Luma за счёт того, что он генерит только в приоритете на скорость вместо качества (High Performance mode). Text-2-video генерации выходят довольно нестабильные, хотя по идее в этом режиме у нейронки развязаны руки. В итоге через Image-2-Video результаты более консистентные, но всё ещё шумящие-кипящие. В Luma постабильнее.

Многие примеры Kling на сайте и из твиттера в High Quality mode, который есть в китайской версии, но не в глобальной. Так что будем ждать выхода этой фичи для всех, чтобы делать серьёзные выводы.

Со следованием промту тоже пока не всё однозначно. Если сложный фрагмент с облётом камеры вокруг субъекта хорошо получился с первого раза (а Luma сопротивлялась), то более простые вещи вроде движения субъекта на камеру либо давались с трудом, либо не работали вовсе.

Тем не менее окружающее пространство модель понимает хорошо. Пропущенные через Kling объекты принимают объём и фактуру. Текст довольно неплохо держится на поверхностях и только, когда почти уходит из кадра превращается в кашу, хотя в Luma чётко держится всё время.

На китайском тоже пробовал делать промты через DeepL, однако сильной разницы не заметил.

Понятно, что Gen-3 в плане text-2-video выдаёт результаты качественнее Kling и Luma, но там пока нет image-2-video и других рулек. Дождёмся и сравним бок-о-бок.

В общем пока глобальная версия Kling может сгодиться для генерации/анимации чего-то простого или абстрактного. Ждём когда завезут режим High Quality и расширенный контроль камеры.

Второе и третье видео сгенерированы на основе картинки, а вариант чисто по тексту в комментах. Промт для всех трёх:

a cat looking at a cyberpunk city from the edge of the roof at night with flying cars, view from behind, very high detail

Сайт

8K viewsAndrey Bezryadin, 19:14

Psy Eyes

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Собственно расширенное управление камерой (Master Shot) и режим высокого качества (High Quality)

1.63K viewsAndrey Bezryadin, edited 19:17

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

1:57

Media is too big

VIEW IN TELEGRAM

Чудо-Юдио ver 1.5

Ребятушки, дайте продохнуть!
Вот раньше бывало, раз в месяц кто-то обновился и все такие - вау, идем генерить и обсуждать. А с этой мультимодальностью теперь в текстах, картинках, видео и звуке постоянно что-то происходит!

Короче, Udio (реально читается как Юдио) обновился до 1.5 и утер нос Suno, анонсировав выгрузку стэмов, то есть отдельных дорожек для вокала и инструментов.

Пока вот так: вы можете разделить полностью смикшированные треки Udio на четыре отдельных стема: Вокал, Бас, Барабаны и все остальное. Это позволяет ремикшировать свои треки с помощью внешних инструментов или использовать элементы из песен Udio в своей музыке.

Но это еще не все.

Udio генерирует стереодорожки с частотой 48 кГц, а с версией 1.5 добавлена улучшенная четкость, разделение инструментов, транзишены, консистентность.

Новый интерфейс для генерации на сайте.

Ну и конечно, audio-to-audio, как в Suno. Присовываем свои треки, Udio "переосмысляет" их.
А пример переаранжировки из шапки меня прям впечатлил. Каверы в СтУдию!

Key Control - нет, это не кифреймы. Это тональности! Можете теперь указывать на входе "Хочу в до-мажоре!" - "Апажалста".
На сайте есть примеры, но они пишут, что это пока работает нестабильно. Но сам факт! ИИ переобувает трек из минора в мажор. Это как?

Ну и над языками поработали, можете на китайском промптить теперь))

В общем, я вам угробил вечер четверга. Все тестировать и делиться. Там для этого тоже новые фишки есть.

https://www.udio.com/blog/introducing-v1-5

P. S. На реддите рвут и мечут, похоже они накосячили с 1.5. Качество задрали, а вариативнось упала в разы
https://www.reddit.com/r/udiomusic/s/QKI2iChAA8

@cgevent

1.37K viewsAndrey Bezryadin, 19:48

Psy Eyes

1:29

This media is not supported in your browser

VIEW IN TELEGRAM

1:31

This media is not supported in your browser

VIEW IN TELEGRAM

Не идеально, но значительно лучше Suno стемы выделяет. И чем звук четче, тем оно ловчей.

1.7K viewsAndrey Bezryadin, 20:49

Psy Eyes

1.59K viewsAndrey Bezryadin, 12:29

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Luma: теперь можно генерить видео, имея только финальный фрейм. Подойдёт, если вы знаете как видео должно закончиться, но не представляете каким должно быть начало.

A1111: в версии v 1.10 этого веб-интерфейса для работы с SD много улучшений производительности, и другое по-мелочи.

Inria: выпустили код H3DGS для генерации сплатов городских масштабов. Писал про это тутЪ.

WildGaussians: метод для получения сплатов, лучше работающий с перекрытиями, и позволяющий получить более чёткий результат.

Kolors: Comfy нода для перевода промтов на китайский с помощью маленькой моделькой ллмки Yi-1.5 6B. На китайском модель генерит картинки лучше.

Freepik: добавили расширитель картинки а-ля gen fill.

Tencent: выпустили генератор фоток с целевым лицом PhotoMaker V2. Пишут, что генерации стали ближе к рефу и повысился контроль, но я пока вижу, что из мужских персонажей пытается сделать женских.

Stability: выпустили Stable Video 4D для генерации из одного видео футажа с 8 разных точек обзора.

EchoMimic: анимация говорящих голов на картинке с липсинком на основе вашего аудио. Похожее из опенсорса: V-express, DreamTalk, MuseTalk, и Hallo.

MimicMotion: тоже анимация, но уже тела аватара. Похоже на MusePose и иже с ними. Нужно 16+ ГБ VRAM, хотя может запуститься и на 8 ГБ. Демка, нужно клонировать спейс к себе.

LivePortrait: Comfy нода для переноса мимики на персонажа в реальном времени. Работает с OBS.

Diffree: редактирование изображения текстом.

Comfy нода для работы с цветом на картинках.

OpenSora: генератор видео обновился до v 1.2. Архитектура сменилась с 2 + 1D на full 3D attention, что должно улучшить понимание нейронкой окружения.

Meshy: добавили модель Tubro для быстрого получения 3D по тексту.

🎸 ЗВУК 🎸

Neurogen: портативные версии XTTS 2 и RVC.

Alibaba: выпустили фреймворк для работы с голосом, состоящий из SenseVoice — высокоточного распознавания речи на разных языках, эмоций и обнаружения аудиособытий, а также CosyVoice — модели для генерации естественной речи, плюс контролем тембра и эмоционального окраса.

🤖 ЧАТЫ 🤖

Ollama: в версии v 0.3 этого фреймворка для работы с языковыми моделями (LLM) появился вызов инструментов (функции, API, веб-серфинг, итд). Пока работает с llama 3.1 и парой других моделей.

Cofe: дропнули в опенсорс языковую модель Tele-FLM с 1Т (триллионом) параметров... Для сравнения у самой крупной ламы сейчас 405B (миллиардов) параметров. Правда и контекст 4к, и на видюху не влезет мягко говоря.

Exo: инструмент для шинковки крупных ллм на мелкие кусочки для параллелизации запуска на множестве имеющихся устройств. Доставай свой древний Sony Ericsson W830i и стучись к соседу.

Nvidia: в коллабе с Mistral выпустили языковую модель NeMo размером 12B и контекстом 128к (можно скармливать книжки). Показывает себя лучше ламы-3 8B и Gemma-2 9B. Лицензия Apache 2.0. Демка.

Также они представили архитектуру MambaVision на связке трансформеров и мамбы для визуальных задач вроде распознавания объектов, сегментации, итд. Плюс выкатили маленькие ллмки Minitron, полученные из Nemotron-4 15B.

Сами Mistral: зарелизили Large 123B модель со 128к контекстом, чтобы посоперничать с ламой 3.1. Умеет в текст, код, и русский язык, но дома её не запустить. Хотя может через Exo?

Клиент Gradio, написанный на Rust.

Apple: опенсорснули языковую модель DCLM 7B, которая немного лучше Mistral 7B.

Salesforce: выпустили серию моделей xLAM, заточенных на вызов функций и работу с агентами.

OpenAI: готовят свой AI-поисковик SearchGPT, который похож на расширенную версию уже имеющегося функционала ответов со ссылками. Возможно частично под капотом Bing. И анонсировали маленькую, но эффективную модель GPT-4o mini.

DeepSeek: выпустили V2-0628 чекпоинт, являющий улучшенной версией V2-Chat. В нём оптимизирована работа с RAG, переводом текста, и другое по-мелочи.

Google: обновили Gemini 1.5 Flash. Контекст расширен с 8к до 32к и теперь работает в Европе.

MOMAland: библиотека для разработки и сравнения мульти-агентных алгоритмов.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

2.03K viewsAndrey Bezryadin, edited 12:29

Psy Eyes

PyTorch 2.4

1.72K viewsAndrey Bezryadin, 18:45

Psy Eyes

All work and no play makes Jack a dull boy

1.65K viewsAndrey Bezryadin, 11:53

Чуваки поняли узкое место технологии, что тяжело сделать кадр стабильным/"не кипящим", и вместо фотореализма пошли в сторону абстрактного, что правильно. С жидкостями или пламенем могло бы тоже получиться годно.

Причём это тизер и полное видео будет позже.

Дискорд

2.31K viewsAndrey Bezryadin, 15:08