Psy Eyes

Locked Club закрывает пятничный мейн Аутлайна. Всем спасибо.

@dailydvizh

1.7K viewsAndrey Bezryadin, 09:05

Psy Eyes

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Luma: выкатили генерацию зацикленных видео.

Закидываем картинку или просто пишем текст и ставим галочку Loop, чтобы получить зацикленный вариант.

Сайт

2.4K viewsAndrey Bezryadin, 18:57

Psy Eyes

Запрещёнка выкатила серию опенсорсных языковых моделей Llama 3.1.

Модельный ряд включает в себя LLM размерами 8B, 70B, и, давно ожидаемая, на 405B параметров. Причем, версии 8B и 70B были выпущены и для ламы 3 в апреле. Но модели 3.1 подтянули в разных бенчах. Наибольший прирост в математике и работе со сторонними инструментами через API. Ещё размер контекстного окна увеличился до 128к (можно скармливать книжки).

Примечательно, что открытая модель размером 405B на бенчах наравне с GPT-4o и Сlaude 3.5. Вот только, чтобы запустить её понадобится 750 ГБ видеопамяти. Дабы это осуществить предоставлены версии для инференса на множестве GPU.

Также с большой и средней моделью моделью можно пообщаться бесплатно на hugging.chat (нажмите Activate рядом с нужным вариком). По-русски говорит, хотя официально это нигде не сказано. А ещё через Tools можно использовать 405B крупняк для генерации и редактирования картинок, подрубить к актуальным данным в интернете (потому что знания модели ограничены декабрём 2023), и не только.

Анонс
Демо (hugging . chat)
Демо (TogetherAI)
Демо (нужен айпишник США)
Хаггинг

1.8K viewsAndrey Bezryadin, 19:45

Psy Eyes

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

1:15

This media is not supported in your browser

VIEW IN TELEGRAM

Suno: выпустили разбивку треков на стемы — то бишь, можно отдельно послушать и скачать голос или инструменты.

В видео из твиттера пример на попсе довольно черрипикнутый. На втором видео я опробовал фичу на своём шансоне и есть проблемы:

1) Очень много шумов как на вокальной, так и на инструментальной дорожках. То есть, Suno на стадии генерации не размечают как-либо структуру трека, чтобы потом можно было отдельно сохранить нужный стем (барабаны, гитара, пикачу-синт, итд). Вместо этого они по частотам, как и другие стартапы, выцеживают инструменты из финальной композиции. Поэтому "всё в нойз песке", а на вокальной линии слышны инструменты и наоборот.

2) Весь аккомпанемент смешивается в одну дорожку, а не генерится отдельными стемами, которые можно обрезать/продолжить. Здесь они, вероятно, ограничены генерацией по 2 композиции за раз, и возможно это изменится, когда можно будет делать по 5-10 генераций одномоментно.

Пока что инструменты, заточенные на выделение стемов типа Azuki Splitter справляются с этой задачей лучше.

Фича доступна Pro и Premium подписчикам.

Сайт
Анонс

7.4K viewsAndrey Bezryadin, 13:26

Psy Eyes

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Kling: вышел глобально. Можно генерить видео длиной до 5 секунд по тексту или на основе картинки.

Регистрация по имейлу. На каждый аккаунт выдаётся 66 кредитов, которые пополняются каждый день (1 генерация - 10 кредитов). Делайте себе сразу много акков.

Из рулек:
* Генерация в разных форматах кадра (16:9, 9:16, 1:1).
* Ползунок креативности — соответствия промту.
* В text-2-video режиме есть контроль камеры с визуализацией её движения, что круто. Только Tilt и Pan перепутаны местами почему-то.
* Негативный промт.
* Позже подъедут генерация 10 секунд за раз, расширение уже созданного видео, высокая детализация (High Quality mode) и расширенное управление камерой (!).

Отдельно отмечу интерфейс — он прост, но удобен и нет ничего лишнего.

По качеству пока впечатления смешанные. В плане детализации Kling сейчас проигрывает Luma за счёт того, что он генерит только в приоритете на скорость вместо качества (High Performance mode). Text-2-video генерации выходят довольно нестабильные, хотя по идее в этом режиме у нейронки развязаны руки. В итоге через Image-2-Video результаты более консистентные, но всё ещё шумящие-кипящие. В Luma постабильнее.

Многие примеры Kling на сайте и из твиттера в High Quality mode, который есть в китайской версии, но не в глобальной. Так что будем ждать выхода этой фичи для всех, чтобы делать серьёзные выводы.

Со следованием промту тоже пока не всё однозначно. Если сложный фрагмент с облётом камеры вокруг субъекта хорошо получился с первого раза (а Luma сопротивлялась), то более простые вещи вроде движения субъекта на камеру либо давались с трудом, либо не работали вовсе.

Тем не менее окружающее пространство модель понимает хорошо. Пропущенные через Kling объекты принимают объём и фактуру. Текст довольно неплохо держится на поверхностях и только, когда почти уходит из кадра превращается в кашу, хотя в Luma чётко держится всё время.

На китайском тоже пробовал делать промты через DeepL, однако сильной разницы не заметил.

Понятно, что Gen-3 в плане text-2-video выдаёт результаты качественнее Kling и Luma, но там пока нет image-2-video и других рулек. Дождёмся и сравним бок-о-бок.

В общем пока глобальная версия Kling может сгодиться для генерации/анимации чего-то простого или абстрактного. Ждём когда завезут режим High Quality и расширенный контроль камеры.

Второе и третье видео сгенерированы на основе картинки, а вариант чисто по тексту в комментах. Промт для всех трёх:

a cat looking at a cyberpunk city from the edge of the roof at night with flying cars, view from behind, very high detail

Сайт

8.0K viewsAndrey Bezryadin, 19:14

Psy Eyes

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Собственно расширенное управление камерой (Master Shot) и режим высокого качества (High Quality)

1.6K viewsAndrey Bezryadin, edited 19:17

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

1:58

Media is too big

VIEW IN TELEGRAM

Чудо-Юдио ver 1.5

Ребятушки, дайте продохнуть!
Вот раньше бывало, раз в месяц кто-то обновился и все такие - вау, идем генерить и обсуждать. А с этой мультимодальностью теперь в текстах, картинках, видео и звуке постоянно что-то происходит!

Короче, Udio (реально читается как Юдио) обновился до 1.5 и утер нос Suno, анонсировав выгрузку стэмов, то есть отдельных дорожек для вокала и инструментов.

Пока вот так: вы можете разделить полностью смикшированные треки Udio на четыре отдельных стема: Вокал, Бас, Барабаны и все остальное. Это позволяет ремикшировать свои треки с помощью внешних инструментов или использовать элементы из песен Udio в своей музыке.

Но это еще не все.

Udio генерирует стереодорожки с частотой 48 кГц, а с версией 1.5 добавлена улучшенная четкость, разделение инструментов, транзишены, консистентность.

Новый интерфейс для генерации на сайте.

Ну и конечно, audio-to-audio, как в Suno. Присовываем свои треки, Udio "переосмысляет" их.
А пример переаранжировки из шапки меня прям впечатлил. Каверы в СтУдию!

Key Control - нет, это не кифреймы. Это тональности! Можете теперь указывать на входе "Хочу в до-мажоре!" - "Апажалста".
На сайте есть примеры, но они пишут, что это пока работает нестабильно. Но сам факт! ИИ переобувает трек из минора в мажор. Это как?

Ну и над языками поработали, можете на китайском промптить теперь))

В общем, я вам угробил вечер четверга. Все тестировать и делиться. Там для этого тоже новые фишки есть.

https://www.udio.com/blog/introducing-v1-5

P. S. На реддите рвут и мечут, похоже они накосячили с 1.5. Качество задрали, а вариативнось упала в разы
https://www.reddit.com/r/udiomusic/s/QKI2iChAA8

@cgevent

1.4K viewsAndrey Bezryadin, 19:48

Psy Eyes