This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Luma: выкатили генерацию зацикленных видео.
Закидываем картинку или просто пишем текст и ставим галочку Loop, чтобы получить зацикленный вариант.
Сайт
Закидываем картинку или просто пишем текст и ставим галочку Loop, чтобы получить зацикленный вариант.
Сайт
Запрещёнка выкатила серию опенсорсных языковых моделей Llama 3.1.
Модельный ряд включает в себя LLM размерами 8B, 70B, и, давно ожидаемая, на 405B параметров. Причем, версии 8B и 70B были выпущены и для ламы 3 в апреле. Но модели 3.1 подтянули в разных бенчах. Наибольший прирост в математике и работе со сторонними инструментами через API. Ещё размер контекстного окна увеличился до 128к (можно скармливать книжки).
Примечательно, что открытая модель размером 405B на бенчах наравне с GPT-4o и Сlaude 3.5. Вот только, чтобы запустить её понадобится 750 ГБ видеопамяти. Дабы это осуществить предоставлены версии для инференса на множестве GPU.
Также с большой и средней моделью моделью можно пообщаться бесплатно на hugging.chat (нажмите Activate рядом с нужным вариком). По-русски говорит, хотя официально это нигде не сказано. А ещё через Tools можно использовать 405B крупняк для генерации и редактирования картинок, подрубить к актуальным данным в интернете (потому что знания модели ограничены декабрём 2023), и не только.
Анонс
Демо (hugging . chat)
Демо (TogetherAI)
Демо (нужен айпишник США)
Хаггинг
Модельный ряд включает в себя LLM размерами 8B, 70B, и, давно ожидаемая, на 405B параметров. Причем, версии 8B и 70B были выпущены и для ламы 3 в апреле. Но модели 3.1 подтянули в разных бенчах. Наибольший прирост в математике и работе со сторонними инструментами через API. Ещё размер контекстного окна увеличился до 128к (можно скармливать книжки).
Примечательно, что открытая модель размером 405B на бенчах наравне с GPT-4o и Сlaude 3.5. Вот только, чтобы запустить её понадобится 750 ГБ видеопамяти. Дабы это осуществить предоставлены версии для инференса на множестве GPU.
Также с большой и средней моделью моделью можно пообщаться бесплатно на hugging.chat (нажмите Activate рядом с нужным вариком). По-русски говорит, хотя официально это нигде не сказано. А ещё через Tools можно использовать 405B крупняк для генерации и редактирования картинок, подрубить к актуальным данным в интернете (потому что знания модели ограничены декабрём 2023), и не только.
Анонс
Демо (hugging . chat)
Демо (TogetherAI)
Демо (нужен айпишник США)
Хаггинг
Suno: выпустили разбивку треков на стемы — то бишь, можно отдельно послушать и скачать голос или инструменты.
В видео из твиттера пример на попсе довольно черрипикнутый. На втором видео я опробовал фичу на своём шансоне и есть проблемы:
1) Очень много шумов как на вокальной, так и на инструментальной дорожках. То есть, Suno на стадии генерации не размечают как-либо структуру трека, чтобы потом можно было отдельно сохранить нужный стем (барабаны, гитара, пикачу-синт, итд). Вместо этого они по частотам, как и другие стартапы, выцеживают инструменты из финальной композиции. Поэтому "всё в нойз песке", а на вокальной линии слышны инструменты и наоборот.
2) Весь аккомпанемент смешивается в одну дорожку, а не генерится отдельными стемами, которые можно обрезать/продолжить. Здесь они, вероятно, ограничены генерацией по 2 композиции за раз, и возможно это изменится, когда можно будет делать по 5-10 генераций одномоментно.
Пока что инструменты, заточенные на выделение стемов типа Azuki Splitter справляются с этой задачей лучше.
Фича доступна Pro и Premium подписчикам.
Сайт
Анонс
В видео из твиттера пример на попсе довольно черрипикнутый. На втором видео я опробовал фичу на своём шансоне и есть проблемы:
1) Очень много шумов как на вокальной, так и на инструментальной дорожках. То есть, Suno на стадии генерации не размечают как-либо структуру трека, чтобы потом можно было отдельно сохранить нужный стем (барабаны, гитара, пикачу-синт, итд). Вместо этого они по частотам, как и другие стартапы, выцеживают инструменты из финальной композиции. Поэтому "всё в нойз песке", а на вокальной линии слышны инструменты и наоборот.
2) Весь аккомпанемент смешивается в одну дорожку, а не генерится отдельными стемами, которые можно обрезать/продолжить. Здесь они, вероятно, ограничены генерацией по 2 композиции за раз, и возможно это изменится, когда можно будет делать по 5-10 генераций одномоментно.
Пока что инструменты, заточенные на выделение стемов типа Azuki Splitter справляются с этой задачей лучше.
Фича доступна Pro и Premium подписчикам.
Сайт
Анонс
Kling: вышел глобально. Можно генерить видео длиной до 5 секунд по тексту или на основе картинки.
Регистрация по имейлу. На каждый аккаунт выдаётся 66 кредитов, которые пополняются каждый день (1 генерация - 10 кредитов). Делайте себе сразу много акков.
Из рулек:
* Генерация в разных форматах кадра (16:9, 9:16, 1:1).
* Ползунок креативности — соответствия промту.
* В text-2-video режиме есть контроль камеры с визуализацией её движения, что круто. Только Tilt и Pan перепутаны местами почему-то.
* Негативный промт.
* Позже подъедут генерация 10 секунд за раз, расширение уже созданного видео, высокая детализация (High Quality mode) и расширенное управление камерой (!).
Отдельно отмечу интерфейс — он прост, но удобен и нет ничего лишнего.
По качеству пока впечатления смешанные. В плане детализации Kling сейчас проигрывает Luma за счёт того, что он генерит только в приоритете на скорость вместо качества (High Performance mode). Text-2-video генерации выходят довольно нестабильные, хотя по идее в этом режиме у нейронки развязаны руки. В итоге через Image-2-Video результаты более консистентные, но всё ещё шумящие-кипящие. В Luma постабильнее.
Многие примеры Kling на сайте и из твиттера в High Quality mode, который есть в китайской версии, но не в глобальной. Так что будем ждать выхода этой фичи для всех, чтобы делать серьёзные выводы.
Со следованием промту тоже пока не всё однозначно. Если сложный фрагмент с облётом камеры вокруг субъекта хорошо получился с первого раза (а Luma сопротивлялась), то более простые вещи вроде движения субъекта на камеру либо давались с трудом, либо не работали вовсе.
Тем не менее окружающее пространство модель понимает хорошо. Пропущенные через Kling объекты принимают объём и фактуру. Текст довольно неплохо держится на поверхностях и только, когда почти уходит из кадра превращается в кашу, хотя в Luma чётко держится всё время.
На китайском тоже пробовал делать промты через DeepL, однако сильной разницы не заметил.
Понятно, что Gen-3 в плане text-2-video выдаёт результаты качественнее Kling и Luma, но там пока нет image-2-video и других рулек. Дождёмся и сравним бок-о-бок.
В общем пока глобальная версия Kling может сгодиться для генерации/анимации чего-то простого или абстрактного. Ждём когда завезут режим High Quality и расширенный контроль камеры.
Второе и третье видео сгенерированы на основе картинки, а вариант чисто по тексту в комментах. Промт для всех трёх:
Сайт
Регистрация по имейлу. На каждый аккаунт выдаётся 66 кредитов, которые пополняются каждый день (1 генерация - 10 кредитов). Делайте себе сразу много акков.
Из рулек:
* Генерация в разных форматах кадра (16:9, 9:16, 1:1).
* Ползунок креативности — соответствия промту.
* В text-2-video режиме есть контроль камеры с визуализацией её движения, что круто. Только Tilt и Pan перепутаны местами почему-то.
* Негативный промт.
* Позже подъедут генерация 10 секунд за раз, расширение уже созданного видео, высокая детализация (High Quality mode) и расширенное управление камерой (!).
Отдельно отмечу интерфейс — он прост, но удобен и нет ничего лишнего.
По качеству пока впечатления смешанные. В плане детализации Kling сейчас проигрывает Luma за счёт того, что он генерит только в приоритете на скорость вместо качества (High Performance mode). Text-2-video генерации выходят довольно нестабильные, хотя по идее в этом режиме у нейронки развязаны руки. В итоге через Image-2-Video результаты более консистентные, но всё ещё шумящие-кипящие. В Luma постабильнее.
Многие примеры Kling на сайте и из твиттера в High Quality mode, который есть в китайской версии, но не в глобальной. Так что будем ждать выхода этой фичи для всех, чтобы делать серьёзные выводы.
Со следованием промту тоже пока не всё однозначно. Если сложный фрагмент с облётом камеры вокруг субъекта хорошо получился с первого раза (а Luma сопротивлялась), то более простые вещи вроде движения субъекта на камеру либо давались с трудом, либо не работали вовсе.
Тем не менее окружающее пространство модель понимает хорошо. Пропущенные через Kling объекты принимают объём и фактуру. Текст довольно неплохо держится на поверхностях и только, когда почти уходит из кадра превращается в кашу, хотя в Luma чётко держится всё время.
На китайском тоже пробовал делать промты через DeepL, однако сильной разницы не заметил.
Понятно, что Gen-3 в плане text-2-video выдаёт результаты качественнее Kling и Luma, но там пока нет image-2-video и других рулек. Дождёмся и сравним бок-о-бок.
В общем пока глобальная версия Kling может сгодиться для генерации/анимации чего-то простого или абстрактного. Ждём когда завезут режим High Quality и расширенный контроль камеры.
Второе и третье видео сгенерированы на основе картинки, а вариант чисто по тексту в комментах. Промт для всех трёх:
a cat looking at a cyberpunk city from the edge of the roof at night with flying cars, view from behind, very high detail
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Собственно расширенное управление камерой (Master Shot) и режим высокого качества (High Quality)
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Чудо-Юдио ver 1.5
Ребятушки, дайте продохнуть!
Вот раньше бывало, раз в месяц кто-то обновился и все такие - вау, идем генерить и обсуждать. А с этой мультимодальностью теперь в текстах, картинках, видео и звуке постоянно что-то происходит!
Короче, Udio (реально читается как Юдио) обновился до 1.5 и утер нос Suno, анонсировав выгрузку стэмов, то есть отдельных дорожек для вокала и инструментов.
Пока вот так: вы можете разделить полностью смикшированные треки Udio на четыре отдельных стема: Вокал, Бас, Барабаны и все остальное. Это позволяет ремикшировать свои треки с помощью внешних инструментов или использовать элементы из песен Udio в своей музыке.
Но это еще не все.
Udio генерирует стереодорожки с частотой 48 кГц, а с версией 1.5 добавлена улучшенная четкость, разделение инструментов, транзишены, консистентность.
Новый интерфейс для генерации на сайте.
Ну и конечно, audio-to-audio, как в Suno. Присовываем свои треки, Udio "переосмысляет" их.
А пример переаранжировки из шапки меня прям впечатлил. Каверы в СтУдию!
Key Control - нет, это не кифреймы. Это тональности! Можете теперь указывать на входе "Хочу в до-мажоре!" - "Апажалста".
На сайте есть примеры, но они пишут, что это пока работает нестабильно. Но сам факт! ИИ переобувает трек из минора в мажор. Это как?
Ну и над языками поработали, можете на китайском промптить теперь))
В общем, я вам угробил вечер четверга. Все тестировать и делиться. Там для этого тоже новые фишки есть.
https://www.udio.com/blog/introducing-v1-5
P. S. На реддите рвут и мечут, похоже они накосячили с 1.5. Качество задрали, а вариативнось упала в разы
https://www.reddit.com/r/udiomusic/s/QKI2iChAA8
@cgevent
Ребятушки, дайте продохнуть!
Вот раньше бывало, раз в месяц кто-то обновился и все такие - вау, идем генерить и обсуждать. А с этой мультимодальностью теперь в текстах, картинках, видео и звуке постоянно что-то происходит!
Короче, Udio (реально читается как Юдио) обновился до 1.5 и утер нос Suno, анонсировав выгрузку стэмов, то есть отдельных дорожек для вокала и инструментов.
Пока вот так: вы можете разделить полностью смикшированные треки Udio на четыре отдельных стема: Вокал, Бас, Барабаны и все остальное. Это позволяет ремикшировать свои треки с помощью внешних инструментов или использовать элементы из песен Udio в своей музыке.
Но это еще не все.
Udio генерирует стереодорожки с частотой 48 кГц, а с версией 1.5 добавлена улучшенная четкость, разделение инструментов, транзишены, консистентность.
Новый интерфейс для генерации на сайте.
Ну и конечно, audio-to-audio, как в Suno. Присовываем свои треки, Udio "переосмысляет" их.
А пример переаранжировки из шапки меня прям впечатлил. Каверы в СтУдию!
Key Control - нет, это не кифреймы. Это тональности! Можете теперь указывать на входе "Хочу в до-мажоре!" - "Апажалста".
На сайте есть примеры, но они пишут, что это пока работает нестабильно. Но сам факт! ИИ переобувает трек из минора в мажор. Это как?
Ну и над языками поработали, можете на китайском промптить теперь))
В общем, я вам угробил вечер четверга. Все тестировать и делиться. Там для этого тоже новые фишки есть.
https://www.udio.com/blog/introducing-v1-5
P. S. На реддите рвут и мечут, похоже они накосячили с 1.5. Качество задрали, а вариативнось упала в разы
https://www.reddit.com/r/udiomusic/s/QKI2iChAA8
@cgevent
Не идеально, но значительно лучше Suno стемы выделяет. И чем звук четче, тем оно ловчей.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Luma: теперь можно генерить видео, имея только финальный фрейм. Подойдёт, если вы знаете как видео должно закончиться, но не представляете каким должно быть начало.
A1111: в версии v 1.10 этого веб-интерфейса для работы с SD много улучшений производительности, и другое по-мелочи.
Inria: выпустили код H3DGS для генерации сплатов городских масштабов. Писал про это тутЪ.
WildGaussians: метод для получения сплатов, лучше работающий с перекрытиями, и позволяющий получить более чёткий результат.
Kolors: Comfy нода для перевода промтов на китайский с помощью маленькой моделькой ллмки Yi-1.5 6B. На китайском модель генерит картинки лучше.
Freepik: добавили расширитель картинки а-ля gen fill.
Tencent: выпустили генератор фоток с целевым лицом PhotoMaker V2. Пишут, что генерации стали ближе к рефу и повысился контроль, но я пока вижу, что из мужских персонажей пытается сделать женских.
Stability: выпустили Stable Video 4D для генерации из одного видео футажа с 8 разных точек обзора.
EchoMimic: анимация говорящих голов на картинке с липсинком на основе вашего аудио. Похожее из опенсорса: V-express, DreamTalk, MuseTalk, и Hallo.
MimicMotion: тоже анимация, но уже тела аватара. Похоже на MusePose и иже с ними. Нужно 16+ ГБ VRAM, хотя может запуститься и на 8 ГБ. Демка, нужно клонировать спейс к себе.
LivePortrait: Comfy нода для переноса мимики на персонажа в реальном времени. Работает с OBS.
Diffree: редактирование изображения текстом.
Comfy нода для работы с цветом на картинках.
OpenSora: генератор видео обновился до v 1.2. Архитектура сменилась с 2 + 1D на full 3D attention, что должно улучшить понимание нейронкой окружения.
Meshy: добавили модель Tubro для быстрого получения 3D по тексту.
🎸 ЗВУК 🎸
Neurogen: портативные версии XTTS 2 и RVC.
Alibaba: выпустили фреймворк для работы с голосом, состоящий из SenseVoice — высокоточного распознавания речи на разных языках, эмоций и обнаружения аудиособытий, а также CosyVoice — модели для генерации естественной речи, плюс контролем тембра и эмоционального окраса.
🤖 ЧАТЫ 🤖
Ollama: в версии v 0.3 этого фреймворка для работы с языковыми моделями (LLM) появился вызов инструментов (функции, API, веб-серфинг, итд). Пока работает с llama 3.1 и парой других моделей.
Cofe: дропнули в опенсорс языковую модель Tele-FLM с 1Т (триллионом) параметров... Для сравнения у самой крупной ламы сейчас 405B (миллиардов) параметров. Правда и контекст 4к, и на видюху не влезет мягко говоря.
Exo: инструмент для шинковки крупных ллм на мелкие кусочки для параллелизации запуска на множестве имеющихся устройств. Доставай свой древний Sony Ericsson W830i и стучись к соседу.
Nvidia: в коллабе с Mistral выпустили языковую модель NeMo размером 12B и контекстом 128к (можно скармливать книжки). Показывает себя лучше ламы-3 8B и Gemma-2 9B. Лицензия Apache 2.0. Демка.
Также они представили архитектуру MambaVision на связке трансформеров и мамбы для визуальных задач вроде распознавания объектов, сегментации, итд. Плюс выкатили маленькие ллмки Minitron, полученные из Nemotron-4 15B.
Сами Mistral: зарелизили Large 123B модель со 128к контекстом, чтобы посоперничать с ламой 3.1. Умеет в текст, код, и русский язык, но дома её не запустить. Хотя может через Exo?
Клиент Gradio, написанный на Rust.
Apple: опенсорснули языковую модель DCLM 7B, которая немного лучше Mistral 7B.
Salesforce: выпустили серию моделей xLAM, заточенных на вызов функций и работу с агентами.
OpenAI: готовят свой AI-поисковик SearchGPT, который похож на расширенную версию уже имеющегося функционала ответов со ссылками. Возможно частично под капотом Bing. И анонсировали маленькую, но эффективную модель GPT-4o mini.
DeepSeek: выпустили V2-0628 чекпоинт, являющий улучшенной версией V2-Chat. В нём оптимизирована работа с RAG, переводом текста, и другое по-мелочи.
Google: обновили Gemini 1.5 Flash. Контекст расширен с 8к до 32к и теперь работает в Европе.
MOMAland: библиотека для разработки и сравнения мульти-агентных алгоритмов.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Luma: теперь можно генерить видео, имея только финальный фрейм. Подойдёт, если вы знаете как видео должно закончиться, но не представляете каким должно быть начало.
A1111: в версии v 1.10 этого веб-интерфейса для работы с SD много улучшений производительности, и другое по-мелочи.
Inria: выпустили код H3DGS для генерации сплатов городских масштабов. Писал про это тутЪ.
WildGaussians: метод для получения сплатов, лучше работающий с перекрытиями, и позволяющий получить более чёткий результат.
Kolors: Comfy нода для перевода промтов на китайский с помощью маленькой моделькой ллмки Yi-1.5 6B. На китайском модель генерит картинки лучше.
Freepik: добавили расширитель картинки а-ля gen fill.
Tencent: выпустили генератор фоток с целевым лицом PhotoMaker V2. Пишут, что генерации стали ближе к рефу и повысился контроль, но я пока вижу, что из мужских персонажей пытается сделать женских.
Stability: выпустили Stable Video 4D для генерации из одного видео футажа с 8 разных точек обзора.
EchoMimic: анимация говорящих голов на картинке с липсинком на основе вашего аудио. Похожее из опенсорса: V-express, DreamTalk, MuseTalk, и Hallo.
MimicMotion: тоже анимация, но уже тела аватара. Похоже на MusePose и иже с ними. Нужно 16+ ГБ VRAM, хотя может запуститься и на 8 ГБ. Демка, нужно клонировать спейс к себе.
LivePortrait: Comfy нода для переноса мимики на персонажа в реальном времени. Работает с OBS.
Diffree: редактирование изображения текстом.
Comfy нода для работы с цветом на картинках.
OpenSora: генератор видео обновился до v 1.2. Архитектура сменилась с 2 + 1D на full 3D attention, что должно улучшить понимание нейронкой окружения.
Meshy: добавили модель Tubro для быстрого получения 3D по тексту.
🎸 ЗВУК 🎸
Neurogen: портативные версии XTTS 2 и RVC.
Alibaba: выпустили фреймворк для работы с голосом, состоящий из SenseVoice — высокоточного распознавания речи на разных языках, эмоций и обнаружения аудиособытий, а также CosyVoice — модели для генерации естественной речи, плюс контролем тембра и эмоционального окраса.
🤖 ЧАТЫ 🤖
Ollama: в версии v 0.3 этого фреймворка для работы с языковыми моделями (LLM) появился вызов инструментов (функции, API, веб-серфинг, итд). Пока работает с llama 3.1 и парой других моделей.
Cofe: дропнули в опенсорс языковую модель Tele-FLM с 1Т (триллионом) параметров... Для сравнения у самой крупной ламы сейчас 405B (миллиардов) параметров. Правда и контекст 4к, и на видюху не влезет мягко говоря.
Exo: инструмент для шинковки крупных ллм на мелкие кусочки для параллелизации запуска на множестве имеющихся устройств. Доставай свой древний Sony Ericsson W830i и стучись к соседу.
Nvidia: в коллабе с Mistral выпустили языковую модель NeMo размером 12B и контекстом 128к (можно скармливать книжки). Показывает себя лучше ламы-3 8B и Gemma-2 9B. Лицензия Apache 2.0. Демка.
Также они представили архитектуру MambaVision на связке трансформеров и мамбы для визуальных задач вроде распознавания объектов, сегментации, итд. Плюс выкатили маленькие ллмки Minitron, полученные из Nemotron-4 15B.
Сами Mistral: зарелизили Large 123B модель со 128к контекстом, чтобы посоперничать с ламой 3.1. Умеет в текст, код, и русский язык, но дома её не запустить. Хотя может через Exo?
Клиент Gradio, написанный на Rust.
Apple: опенсорснули языковую модель DCLM 7B, которая немного лучше Mistral 7B.
Salesforce: выпустили серию моделей xLAM, заточенных на вызов функций и работу с агентами.
OpenAI: готовят свой AI-поисковик SearchGPT, который похож на расширенную версию уже имеющегося функционала ответов со ссылками. Возможно частично под капотом Bing. И анонсировали маленькую, но эффективную модель GPT-4o mini.
DeepSeek: выпустили V2-0628 чекпоинт, являющий улучшенной версией V2-Chat. В нём оптимизирована работа с RAG, переводом текста, и другое по-мелочи.
Google: обновили Gemini 1.5 Flash. Контекст расширен с 8к до 32к и теперь работает в Европе.
MOMAland: библиотека для разработки и сравнения мульти-агентных алгоритмов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Чуваки поняли узкое место технологии, что тяжело сделать кадр стабильным/"не кипящим", и вместо фотореализма пошли в сторону абстрактного, что правильно. С жидкостями или пламенем могло бы тоже получиться годно.
Причём это тизер и полное видео будет позже.
Дискорд
Причём это тизер и полное видео будет позже.
Дискорд
Ещё пара примеров с дискорда Banodoco
Варики в высоком разрешении в комментах
Варики в высоком разрешении в комментах