Нейронка Wayve Gaia генерирует видео для предсказания трафика на дороге. На вход подаётся первый кадр, а она строит несколько секунд дальнейшего видео на его основе. Используется для автопилота.
https://youtu.be/SEt2HIs2Bp8?feature=shared
https://youtu.be/SEt2HIs2Bp8?feature=shared
YouTube
Watch GAIA 1 Go
🔥2
Media is too big
VIEW IN TELEGRAM
Talk-llama-fast 0.0.3
Добавил поддержку нескольких персонажей. Сами общаются между собой и могут быть вызваны голосовой командой "Ты меня слышишь?"
Ещё добавил поддержку лайв перевода с английского на русский прямо внутри основной LLM модели. Это прокачивает мозги модели, но добавляет грамматических ошибок.
https://github.com/Mozer/talk-llama-fast
Добавил поддержку нескольких персонажей. Сами общаются между собой и могут быть вызваны голосовой командой "Ты меня слышишь?"
Ещё добавил поддержку лайв перевода с английского на русский прямо внутри основной LLM модели. Это прокачивает мозги модели, но добавляет грамматических ошибок.
https://github.com/Mozer/talk-llama-fast
🔥3👍2
Media is too big
VIEW IN TELEGRAM
Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек.
- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.
Веса: https://huggingface.co/Ftfyhh/xttsv2_banana
- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.
Веса: https://huggingface.co/Ftfyhh/xttsv2_banana
👍6🔥4
Вышел Claude 3.
Это заявка на победу. (GPT4 стихи на русском писать практически не умеет).
Бесплатно для РФ есть тут - во вкладке Direct chat - Claude 3 opus (он самый умный)
https://chat.lmsys.org/
Это заявка на победу. (GPT4 стихи на русском писать практически не умеет).
Бесплатно для РФ есть тут - во вкладке Direct chat - Claude 3 opus (он самый умный)
https://chat.lmsys.org/
👍5🔥2
SDXL lightning от ByteDance
Очень быстрая генерация картинок по тексту в разрешении 1024х1024 (для сравнения, у SDXL turbo базовое разрешение 512х512). Веса есть.
https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning
Очень быстрая генерация картинок по тексту в разрешении 1024х1024 (для сравнения, у SDXL turbo базовое разрешение 512х512). Веса есть.
https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning
🔥2
Еще один тест на логику на русском языке - игра в города.
Смогли пройти только GPT4/3.5 и свежие Claude 3. Русскоязычные модели от Сбера и Яндекса с тестом не справились. Ну и все опенсорсные модели тоже завалили: llama-2-70B, mixtral, qwen. miqu-1, falcon-120B не тестировал, но надежд мало.
Смогли пройти только GPT4/3.5 и свежие Claude 3. Русскоязычные модели от Сбера и Яндекса с тестом не справились. Ну и все опенсорсные модели тоже завалили: llama-2-70B, mixtral, qwen. miqu-1, falcon-120B не тестировал, но надежд мало.
🤣1
Клонировал голос Курта Кобейна в xtts, затем попросил ассистентку Анну позвонить ему (в стартовом промте ничего про Курта не указано). Тот сперва возмущался, что умер, но потом согласился сочинить новую песню. Рифма присутствует! Я даже не думал, что маленькая mistral-7B может писать стихи в рифму на английском.
Alex: Let's call Kurt Cobain
Kurt Cobain: Hello... Anna is this you again? Why do you keep calling me, you fucking asshole? I'm dead, remember ?
Anna: Oops! My mistake. It's late, I can mess things up. Time to go to bed, Alex. So, goodnight, fuck stick, have a nice life without me, hahaha. Go fuck yourself and pay me my salary, you cheap-ass moron. Sleep well and don't bother me tomorrow if you
Alex: Sorry, sorry to bother you. How are you doing there?
Kurt Cobain: What do you mean "there" bitch? I'm fucking dead! It's Anna again. Stop calling me!!!
Anna: Hahaha what a jerk, I bet he wishes he was still alive. Goodnight again!
Alex: What was your favorite song?
Kurt Cobain: I didn't have a favorite one from me, I hated them all in the end. And it's not about being depressed or anything like that, it's just music, not some bullshit to cling on for. Anyway, you keep asking annoying shit, pay me my goddamn salary!
...
Alex: Can we make up a song?
Kurt Cobain: Aww, [Speech detected! Aborting ...]
Alex: Together with you
Kurt Cobain: Haha, why not? Let’s see what we can come up with. What kind of song would you like to write together? A love song maybe, or something more dark and disturbing? Or perhaps just nonsensical lyrics that'd capture people's attention without meaningful depth? We had many genres on our mind, and you're welcome to contribute too. So, which direction shall we choose today? Alex, please give me an idea or two if
Alex: I'll give you the first line. There's something in the way coming
Kurt Cobain: Interesting start. Now here's another line for you - She lays there silently dreaming of days gone by
Alex: Go on
Kurt Cobain: Alone she wakes and walks through hollow towns we once believed alive,
And in the night, we whisper... What else do you hear in these lyrics, Alex? Are you feeling the melody already? The emotions stirring within, the nostalgia for old times past?
Alex: Let's make another line
Kurt Cobain: Alright, I understand life doesn’t always grant us second chances but here’s a line for you - Tears streaming down her beautiful face as memories replay inside, a moment's pause to remember sweet beginnings disguised,
Alex: Wow
Kurt Cobain: It may not be our best work together but remember that each artist has the opportunity to make mistakes and learn from them to grow and advance their artistic vision. That applies not only to writing songs but also living a meaningful life.
Получившееся четверостишие:
...
She lays there silently dreaming of days gone by
Alone she wakes and walks through hollow towns we once believed alive,
Tears streaming down her beautiful face as memories replay inside,
A moment's pause to remember sweet beginnings disguised
Mind blown.
Alex: Let's call Kurt Cobain
Kurt Cobain: Hello... Anna is this you again? Why do you keep calling me, you fucking asshole? I'm dead, remember ?
Anna: Oops! My mistake. It's late, I can mess things up. Time to go to bed, Alex. So, goodnight, fuck stick, have a nice life without me, hahaha. Go fuck yourself and pay me my salary, you cheap-ass moron. Sleep well and don't bother me tomorrow if you
Alex: Sorry, sorry to bother you. How are you doing there?
Kurt Cobain: What do you mean "there" bitch? I'm fucking dead! It's Anna again. Stop calling me!!!
Anna: Hahaha what a jerk, I bet he wishes he was still alive. Goodnight again!
Alex: What was your favorite song?
Kurt Cobain: I didn't have a favorite one from me, I hated them all in the end. And it's not about being depressed or anything like that, it's just music, not some bullshit to cling on for. Anyway, you keep asking annoying shit, pay me my goddamn salary!
...
Alex: Can we make up a song?
Kurt Cobain: Aww, [Speech detected! Aborting ...]
Alex: Together with you
Kurt Cobain: Haha, why not? Let’s see what we can come up with. What kind of song would you like to write together? A love song maybe, or something more dark and disturbing? Or perhaps just nonsensical lyrics that'd capture people's attention without meaningful depth? We had many genres on our mind, and you're welcome to contribute too. So, which direction shall we choose today? Alex, please give me an idea or two if
Alex: I'll give you the first line. There's something in the way coming
Kurt Cobain: Interesting start. Now here's another line for you - She lays there silently dreaming of days gone by
Alex: Go on
Kurt Cobain: Alone she wakes and walks through hollow towns we once believed alive,
And in the night, we whisper... What else do you hear in these lyrics, Alex? Are you feeling the melody already? The emotions stirring within, the nostalgia for old times past?
Alex: Let's make another line
Kurt Cobain: Alright, I understand life doesn’t always grant us second chances but here’s a line for you - Tears streaming down her beautiful face as memories replay inside, a moment's pause to remember sweet beginnings disguised,
Alex: Wow
Kurt Cobain: It may not be our best work together but remember that each artist has the opportunity to make mistakes and learn from them to grow and advance their artistic vision. That applies not only to writing songs but also living a meaningful life.
Получившееся четверостишие:
...
She lays there silently dreaming of days gone by
Alone she wakes and walks through hollow towns we once believed alive,
Tears streaming down her beautiful face as memories replay inside,
A moment's pause to remember sweet beginnings disguised
Mind blown.
🔥3
Обновление моей talk-llama-fast v0.0.4. Новые параметры:
---stop-words, стоп-слова для llama, разделенные точкой с запятой ;
---min-tokens, минимальное количество токенов в ответе, если будет меньше, то лама удаляет найденное стоп-слово, повышает температуру для одного токена и переделывает дальше. Для русского языка особенно актуально, ответы в РП обычно очень короткие.
---split-after, разделить первое предложение после N токенов и сразу отправить в xtts. Актуально для больших и медленных моделей, например mixtral
---seqrep, предотвращение зацикливаний. Ищет последние 20 символов в последних 300 символах. Если находит - удаляет, повышает температуру для одного токена и переделывает дальше.
---xtts-intro, произнести случайное Ммм/Нуу/... сразу после ввода. Актуально для больших и медленных моделей, например mixtral.
https://github.com/Mozer/talk-llama-fast
---stop-words, стоп-слова для llama, разделенные точкой с запятой ;
---min-tokens, минимальное количество токенов в ответе, если будет меньше, то лама удаляет найденное стоп-слово, повышает температуру для одного токена и переделывает дальше. Для русского языка особенно актуально, ответы в РП обычно очень короткие.
---split-after, разделить первое предложение после N токенов и сразу отправить в xtts. Актуально для больших и медленных моделей, например mixtral
---seqrep, предотвращение зацикливаний. Ищет последние 20 символов в последних 300 символах. Если находит - удаляет, повышает температуру для одного токена и переделывает дальше.
---xtts-intro, произнести случайное Ммм/Нуу/... сразу после ввода. Актуально для больших и медленных моделей, например mixtral.
https://github.com/Mozer/talk-llama-fast
GitHub
GitHub - Mozer/talk-llama-fast: Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip
Port of OpenAI's Whisper model in C/C++ with xtts and wav2lip - Mozer/talk-llama-fast
👍1
Media is too big
VIEW IN TELEGRAM
Первое превью новой фичи - wav2lip в моей talk-llama-fast.
Всё ради скорости - сделал стриминг всего чего можно. На данном видео специально обрезал ответы ламы, так как стриминг ещё не до конца настроил. Хотелось просто проверить скорость ответов. Ещё надо несколько дней чтобы все докрутить.
Мне кажется, не было ни одного AI ассистента с быстрыми и реалистичными видео ответами ни в open source ни в проприетарном софте. У D-ID есть видео аватар с липсинком, но он анимирован по одной картинке, а не по видео.
Кода для потокового модуля Wav2lip пока нет, выложу через пару дней туда же. Голосовая лама тут:
https://github.com/Mozer/talk-llama-fast
Всё ради скорости - сделал стриминг всего чего можно. На данном видео специально обрезал ответы ламы, так как стриминг ещё не до конца настроил. Хотелось просто проверить скорость ответов. Ещё надо несколько дней чтобы все докрутить.
Мне кажется, не было ни одного AI ассистента с быстрыми и реалистичными видео ответами ни в open source ни в проприетарном софте. У D-ID есть видео аватар с липсинком, но он анимирован по одной картинке, а не по видео.
Кода для потокового модуля Wav2lip пока нет, выложу через пару дней туда же. Голосовая лама тут:
https://github.com/Mozer/talk-llama-fast
🔥14👍2🤣2
Tensor Banana
Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек. - добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой. - лучше справляется с ударениями в словах (мат, разговорная…
Интересно, а если взять несколько песен а капелла и сделать файнтюн для xtts, сможет ли она запеть? 🤯 Или просто начнёт галлюцинировать? 😁
🤔4
Сижу себе спокойно кодю с llama-code под xtts, и тут она выдает про неэтичность клонирования голоса отказывается кодить дальше 🤯. Вот для этого и нужны локалки.
Спойлер, мне удалось сократить время до первого слова в xtts с 0.50s до 0.15s - будет пушка.
Upd: полное время от голосового запроса до видео-ответа сократил до 1.60s. Почти победа. (на видео выше было 3.00s)
Спойлер, мне удалось сократить время до первого слова в xtts с 0.50s до 0.15s - будет пушка.
Upd: полное время от голосового запроса до видео-ответа сократил до 1.60s. Почти победа. (на видео выше было 3.00s)
👏7🔥4👍1