Нейронавт | Нейросети в творчестве
9.43K subscribers
3.65K photos
3.15K videos
40 files
4.11K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
Download Telegram
Ну что, пронесло. Живём дальше
🍾12😁9👍2😱2
Тестовый бот для генерации стихов, песенной лирики и поэтического перевода от команды Сбера

@vika_chatbot

Автор собирает фидбэк, предложения

Ключевые изменения в этой версии в сравнении с @verslibre_bot касаются песенной лирики и рэпа:

1) Если попросить "сочини песню с припевами ...", то первый выданный вариант будет обязательно с припевами. Иногда всё получается прямо нормально.

2) Можно попросить "Сочини первый куплет песни про ....", тогда модель выдаст только один куплет.

3) Можно попросить "Сочини и выведи припев для песни с такими куплетами: ...тут текст песни ...", добавить в промпт куплеты песни - модель выдаст только припев. Пп2 и 3 должны подойти тем, кто хочет собирать песню по кусочкам. Например, можно сначала попросить модель сгенерировать лирическое стихотворение, а потом выбрать "распевный" вариант и использовать его с данным промптом для генерации припева.

4) Должен работать промпт "Сочини и выведи следующий куплет песни: ... тут начало песни ...". Так можно добавлять к тексту песни по 1 куплету до нужной длины.

5) Можно пробовать генерировать рэп - см. примерчик. Получается не всегда, но по сравнению с предыдущей версией модели прогресс огромный. Самый прикольный момент в том, что это всё генерирует одна модель, поэтому она должна правильно учитывать нюансы жанра: в рэпе не должно быть размера, но должны быть рифмы.

#assistant #bot #poem
🥴8👍5👎32😁2
Нейронавт | Нейросети в творчестве
Video
Media is too big
VIEW IN TELEGRAM
Стало мне любопытно на каком языке озвучивает HunyuanVideo-Foley
Мне звучит как смесь китайского и немецкого.

Пихнул озвученный им самый драматичный эпизод русских сериалов в разные нейродубляжки. Мало кто умеет автоматически определять язык исходника. Rask.ai - один из тех кто умеет. Короче все кто умеет, определили эту речь как английскую. Ну и неудивительно, шотландцы например порой разговаривают на таком английском который мало кто из носителей языка в силах понять.

Ну и дубляж на русский с нейросетевого - вашему вниманию.

Хвастайтесь в коментах своими экспериментами

#humor #foley #video2audio #video2sound #sfx #video2sfx
😁21👍1🔥1😭1
Moises.ai

Недавно все писали про этот генератор музыки.
У меня их приложение давно валяется на айфоне, все что оно умеет - разделять музыку на стемы - отдельные партии.

А в вебе, оказывается они запустили целую студию.

Умеет генерировать отдельные партии инструментов, соответствующие входному аудио. Умеет писать песни, сводить, мастерить. Правда, сведение доступно только на платном плане. Но можно скачать стемы и свести самостоятельно как сделал я.

Наиграл на гитаре через гарнитуру какую-то фигню. Сгенерил бас, ударные и еще одну гитару. Стили можно выбирать или оставить автостиль. Скачал и закинул все в аудишн, вуаля, результат на втором видео. На все про все ушло минут 7. Бомбический инструмент!

И еще у них есть плагин к DAW, правда только для платных юзеров.

[UPDATE] Я в нем залип на пару часов. Вариативность очень маленькая у него, с одними исходными и результат примерно одинаковый. Только один пресет сологитары, всего два пресета клавиш. Можно подсовывать референс стиля-настроения, но это платная фича

#musicediting #music #text2music
👍143
This media is not supported in your browser
VIEW IN TELEGRAM
Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control

ИИ-анимация персонажей.
Сочетает в себе физику и управляемость.

Модель умеет:

— обходить препятствия

— выполнять сложные задачи с одной обученной моделью

— плавно переходить из одной позы в другую

— прыгать через препятствия разной высоты

— двигаться к нужным точкам

— реагировать на команды с джойстика в реальном времени

Код ждем

#characteranimation #animation
👍12
QwenEdit InStyle LoRA

Lora Qwen-Image-Edit с улучшенным следованием заданному референсом стилю

#lora #styletransfer
👍9
Chroma-Rapid-AIO

Быстрый мердж Chroma HD + Chroma Base + Accelerators + Flan T5 XXL + FluxVAE, все в одном

Про Chroma писал здесь

#text2image #optimization
4👍1
Flash Attention 4 анонсирован

Ускоритель самой узкой части диффузных моделей - внимания, 4 версия, ждем

#news #optimization
👍5🔥2
Media is too big
VIEW IN TELEGRAM
Step-Audio 2: Breakthrough in End-to-End Large Audio Language Model

Вторая версия китайской аудиоязыковой модели (#LALM) от Степана (Step-fun)

Две модели:
Step-Audio 2 mini
Step-Audio 2 mini Base

— может обрабатывать аудио в режиме end-to-end, минуя сложные многоступенчатые пайплайны;

— понимает паралингвистическую информацию: стили речи, эмоции, интонацию;

— обращается к внешним инструментам, например, веб-поиску, чтобы уменьшить количество ошибок;

— переключает тембры в реальном времени по текстовому запросу;

— демонстрирует лучшие в отрасли результаты (верим, верим) в тестах на понимание аудио и ведение диалогов;

— поддерживает многоязычность, включая английский и китайские диалекты;

— генерирует повествования и учитывает эмоции в диалогах.

Гитхаб
Демо
HF
Чат на офсайте - без новой говорилки
AppStore - но доступно в мобильной аппке

#ALM #voicechat #assistant #iOS #mobile #chat #voicemode
🔥4👍31
Hunyuan-MT

Сегодня наделало шуму семейство моделей-переводчиков от Tencent.
Уровень #sota
7B параметров, есть fp8
Первый в индустрии использует ансамблевую модель для объединения нескольких вариантов перевода в один высококачественный результат.

33 языка, в том числе русский. В чате если переводить китайский интерфейс браузером, то не работает выбор языка. Русский справа третий сверху (но это неточно)

Перевел монолог идущего к реке на китайский традиционный и обратно, результат - мое почтение.

Гитхаб
HF
Демо на китайском сайте - войти можно через Wechat. По почте, говорят, тоже

#translation #text2text
🔥12