Forwarded from DAILY DVIZH - клубы, фестивали, выставки, билеты Мск Спб
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Luma: выкатили генерацию зацикленных видео.
Закидываем картинку или просто пишем текст и ставим галочку Loop, чтобы получить зацикленный вариант.
Сайт
Закидываем картинку или просто пишем текст и ставим галочку Loop, чтобы получить зацикленный вариант.
Сайт
Запрещёнка выкатила серию опенсорсных языковых моделей Llama 3.1.
Модельный ряд включает в себя LLM размерами 8B, 70B, и, давно ожидаемая, на 405B параметров. Причем, версии 8B и 70B были выпущены и для ламы 3 в апреле. Но модели 3.1 подтянули в разных бенчах. Наибольший прирост в математике и работе со сторонними инструментами через API. Ещё размер контекстного окна увеличился до 128к (можно скармливать книжки).
Примечательно, что открытая модель размером 405B на бенчах наравне с GPT-4o и Сlaude 3.5. Вот только, чтобы запустить её понадобится 750 ГБ видеопамяти. Дабы это осуществить предоставлены версии для инференса на множестве GPU.
Также с большой и средней моделью моделью можно пообщаться бесплатно на hugging.chat (нажмите Activate рядом с нужным вариком). По-русски говорит, хотя официально это нигде не сказано. А ещё через Tools можно использовать 405B крупняк для генерации и редактирования картинок, подрубить к актуальным данным в интернете (потому что знания модели ограничены декабрём 2023), и не только.
Анонс
Демо (hugging . chat)
Демо (TogetherAI)
Демо (нужен айпишник США)
Хаггинг
Модельный ряд включает в себя LLM размерами 8B, 70B, и, давно ожидаемая, на 405B параметров. Причем, версии 8B и 70B были выпущены и для ламы 3 в апреле. Но модели 3.1 подтянули в разных бенчах. Наибольший прирост в математике и работе со сторонними инструментами через API. Ещё размер контекстного окна увеличился до 128к (можно скармливать книжки).
Примечательно, что открытая модель размером 405B на бенчах наравне с GPT-4o и Сlaude 3.5. Вот только, чтобы запустить её понадобится 750 ГБ видеопамяти. Дабы это осуществить предоставлены версии для инференса на множестве GPU.
Также с большой и средней моделью моделью можно пообщаться бесплатно на hugging.chat (нажмите Activate рядом с нужным вариком). По-русски говорит, хотя официально это нигде не сказано. А ещё через Tools можно использовать 405B крупняк для генерации и редактирования картинок, подрубить к актуальным данным в интернете (потому что знания модели ограничены декабрём 2023), и не только.
Анонс
Демо (hugging . chat)
Демо (TogetherAI)
Демо (нужен айпишник США)
Хаггинг
Suno: выпустили разбивку треков на стемы — то бишь, можно отдельно послушать и скачать голос или инструменты.
В видео из твиттера пример на попсе довольно черрипикнутый. На втором видео я опробовал фичу на своём шансоне и есть проблемы:
1) Очень много шумов как на вокальной, так и на инструментальной дорожках. То есть, Suno на стадии генерации не размечают как-либо структуру трека, чтобы потом можно было отдельно сохранить нужный стем (барабаны, гитара, пикачу-синт, итд). Вместо этого они по частотам, как и другие стартапы, выцеживают инструменты из финальной композиции. Поэтому "всё в нойз песке", а на вокальной линии слышны инструменты и наоборот.
2) Весь аккомпанемент смешивается в одну дорожку, а не генерится отдельными стемами, которые можно обрезать/продолжить. Здесь они, вероятно, ограничены генерацией по 2 композиции за раз, и возможно это изменится, когда можно будет делать по 5-10 генераций одномоментно.
Пока что инструменты, заточенные на выделение стемов типа Azuki Splitter справляются с этой задачей лучше.
Фича доступна Pro и Premium подписчикам.
Сайт
Анонс
В видео из твиттера пример на попсе довольно черрипикнутый. На втором видео я опробовал фичу на своём шансоне и есть проблемы:
1) Очень много шумов как на вокальной, так и на инструментальной дорожках. То есть, Suno на стадии генерации не размечают как-либо структуру трека, чтобы потом можно было отдельно сохранить нужный стем (барабаны, гитара, пикачу-синт, итд). Вместо этого они по частотам, как и другие стартапы, выцеживают инструменты из финальной композиции. Поэтому "всё в нойз песке", а на вокальной линии слышны инструменты и наоборот.
2) Весь аккомпанемент смешивается в одну дорожку, а не генерится отдельными стемами, которые можно обрезать/продолжить. Здесь они, вероятно, ограничены генерацией по 2 композиции за раз, и возможно это изменится, когда можно будет делать по 5-10 генераций одномоментно.
Пока что инструменты, заточенные на выделение стемов типа Azuki Splitter справляются с этой задачей лучше.
Фича доступна Pro и Premium подписчикам.
Сайт
Анонс
Kling: вышел глобально. Можно генерить видео длиной до 5 секунд по тексту или на основе картинки.
Регистрация по имейлу. На каждый аккаунт выдаётся 66 кредитов, которые пополняются каждый день (1 генерация - 10 кредитов). Делайте себе сразу много акков.
Из рулек:
* Генерация в разных форматах кадра (16:9, 9:16, 1:1).
* Ползунок креативности — соответствия промту.
* В text-2-video режиме есть контроль камеры с визуализацией её движения, что круто. Только Tilt и Pan перепутаны местами почему-то.
* Негативный промт.
* Позже подъедут генерация 10 секунд за раз, расширение уже созданного видео, высокая детализация (High Quality mode) и расширенное управление камерой (!).
Отдельно отмечу интерфейс — он прост, но удобен и нет ничего лишнего.
По качеству пока впечатления смешанные. В плане детализации Kling сейчас проигрывает Luma за счёт того, что он генерит только в приоритете на скорость вместо качества (High Performance mode). Text-2-video генерации выходят довольно нестабильные, хотя по идее в этом режиме у нейронки развязаны руки. В итоге через Image-2-Video результаты более консистентные, но всё ещё шумящие-кипящие. В Luma постабильнее.
Многие примеры Kling на сайте и из твиттера в High Quality mode, который есть в китайской версии, но не в глобальной. Так что будем ждать выхода этой фичи для всех, чтобы делать серьёзные выводы.
Со следованием промту тоже пока не всё однозначно. Если сложный фрагмент с облётом камеры вокруг субъекта хорошо получился с первого раза (а Luma сопротивлялась), то более простые вещи вроде движения субъекта на камеру либо давались с трудом, либо не работали вовсе.
Тем не менее окружающее пространство модель понимает хорошо. Пропущенные через Kling объекты принимают объём и фактуру. Текст довольно неплохо держится на поверхностях и только, когда почти уходит из кадра превращается в кашу, хотя в Luma чётко держится всё время.
На китайском тоже пробовал делать промты через DeepL, однако сильной разницы не заметил.
Понятно, что Gen-3 в плане text-2-video выдаёт результаты качественнее Kling и Luma, но там пока нет image-2-video и других рулек. Дождёмся и сравним бок-о-бок.
В общем пока глобальная версия Kling может сгодиться для генерации/анимации чего-то простого или абстрактного. Ждём когда завезут режим High Quality и расширенный контроль камеры.
Второе и третье видео сгенерированы на основе картинки, а вариант чисто по тексту в комментах. Промт для всех трёх:
Сайт
Регистрация по имейлу. На каждый аккаунт выдаётся 66 кредитов, которые пополняются каждый день (1 генерация - 10 кредитов). Делайте себе сразу много акков.
Из рулек:
* Генерация в разных форматах кадра (16:9, 9:16, 1:1).
* Ползунок креативности — соответствия промту.
* В text-2-video режиме есть контроль камеры с визуализацией её движения, что круто. Только Tilt и Pan перепутаны местами почему-то.
* Негативный промт.
* Позже подъедут генерация 10 секунд за раз, расширение уже созданного видео, высокая детализация (High Quality mode) и расширенное управление камерой (!).
Отдельно отмечу интерфейс — он прост, но удобен и нет ничего лишнего.
По качеству пока впечатления смешанные. В плане детализации Kling сейчас проигрывает Luma за счёт того, что он генерит только в приоритете на скорость вместо качества (High Performance mode). Text-2-video генерации выходят довольно нестабильные, хотя по идее в этом режиме у нейронки развязаны руки. В итоге через Image-2-Video результаты более консистентные, но всё ещё шумящие-кипящие. В Luma постабильнее.
Многие примеры Kling на сайте и из твиттера в High Quality mode, который есть в китайской версии, но не в глобальной. Так что будем ждать выхода этой фичи для всех, чтобы делать серьёзные выводы.
Со следованием промту тоже пока не всё однозначно. Если сложный фрагмент с облётом камеры вокруг субъекта хорошо получился с первого раза (а Luma сопротивлялась), то более простые вещи вроде движения субъекта на камеру либо давались с трудом, либо не работали вовсе.
Тем не менее окружающее пространство модель понимает хорошо. Пропущенные через Kling объекты принимают объём и фактуру. Текст довольно неплохо держится на поверхностях и только, когда почти уходит из кадра превращается в кашу, хотя в Luma чётко держится всё время.
На китайском тоже пробовал делать промты через DeepL, однако сильной разницы не заметил.
Понятно, что Gen-3 в плане text-2-video выдаёт результаты качественнее Kling и Luma, но там пока нет image-2-video и других рулек. Дождёмся и сравним бок-о-бок.
В общем пока глобальная версия Kling может сгодиться для генерации/анимации чего-то простого или абстрактного. Ждём когда завезут режим High Quality и расширенный контроль камеры.
Второе и третье видео сгенерированы на основе картинки, а вариант чисто по тексту в комментах. Промт для всех трёх:
a cat looking at a cyberpunk city from the edge of the roof at night with flying cars, view from behind, very high detail
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно расширенное управление камерой (Master Shot) и режим высокого качества (High Quality)
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Чудо-Юдио ver 1.5
Ребятушки, дайте продохнуть!
Вот раньше бывало, раз в месяц кто-то обновился и все такие - вау, идем генерить и обсуждать. А с этой мультимодальностью теперь в текстах, картинках, видео и звуке постоянно что-то происходит!
Короче, Udio (реально читается как Юдио) обновился до 1.5 и утер нос Suno, анонсировав выгрузку стэмов, то есть отдельных дорожек для вокала и инструментов.
Пока вот так: вы можете разделить полностью смикшированные треки Udio на четыре отдельных стема: Вокал, Бас, Барабаны и все остальное. Это позволяет ремикшировать свои треки с помощью внешних инструментов или использовать элементы из песен Udio в своей музыке.
Но это еще не все.
Udio генерирует стереодорожки с частотой 48 кГц, а с версией 1.5 добавлена улучшенная четкость, разделение инструментов, транзишены, консистентность.
Новый интерфейс для генерации на сайте.
Ну и конечно, audio-to-audio, как в Suno. Присовываем свои треки, Udio "переосмысляет" их.
А пример переаранжировки из шапки меня прям впечатлил. Каверы в СтУдию!
Key Control - нет, это не кифреймы. Это тональности! Можете теперь указывать на входе "Хочу в до-мажоре!" - "Апажалста".
На сайте есть примеры, но они пишут, что это пока работает нестабильно. Но сам факт! ИИ переобувает трек из минора в мажор. Это как?
Ну и над языками поработали, можете на китайском промптить теперь))
В общем, я вам угробил вечер четверга. Все тестировать и делиться. Там для этого тоже новые фишки есть.
https://www.udio.com/blog/introducing-v1-5
P. S. На реддите рвут и мечут, похоже они накосячили с 1.5. Качество задрали, а вариативнось упала в разы
https://www.reddit.com/r/udiomusic/s/QKI2iChAA8
@cgevent
Ребятушки, дайте продохнуть!
Вот раньше бывало, раз в месяц кто-то обновился и все такие - вау, идем генерить и обсуждать. А с этой мультимодальностью теперь в текстах, картинках, видео и звуке постоянно что-то происходит!
Короче, Udio (реально читается как Юдио) обновился до 1.5 и утер нос Suno, анонсировав выгрузку стэмов, то есть отдельных дорожек для вокала и инструментов.
Пока вот так: вы можете разделить полностью смикшированные треки Udio на четыре отдельных стема: Вокал, Бас, Барабаны и все остальное. Это позволяет ремикшировать свои треки с помощью внешних инструментов или использовать элементы из песен Udio в своей музыке.
Но это еще не все.
Udio генерирует стереодорожки с частотой 48 кГц, а с версией 1.5 добавлена улучшенная четкость, разделение инструментов, транзишены, консистентность.
Новый интерфейс для генерации на сайте.
Ну и конечно, audio-to-audio, как в Suno. Присовываем свои треки, Udio "переосмысляет" их.
А пример переаранжировки из шапки меня прям впечатлил. Каверы в СтУдию!
Key Control - нет, это не кифреймы. Это тональности! Можете теперь указывать на входе "Хочу в до-мажоре!" - "Апажалста".
На сайте есть примеры, но они пишут, что это пока работает нестабильно. Но сам факт! ИИ переобувает трек из минора в мажор. Это как?
Ну и над языками поработали, можете на китайском промптить теперь))
В общем, я вам угробил вечер четверга. Все тестировать и делиться. Там для этого тоже новые фишки есть.
https://www.udio.com/blog/introducing-v1-5
P. S. На реддите рвут и мечут, похоже они накосячили с 1.5. Качество задрали, а вариативнось упала в разы
https://www.reddit.com/r/udiomusic/s/QKI2iChAA8
@cgevent
Не идеально, но значительно лучше Suno стемы выделяет. И чем звук четче, тем оно ловчей.