Не идеально, но значительно лучше Suno стемы выделяет. И чем звук четче, тем оно ловчей.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Luma: теперь можно генерить видео, имея только финальный фрейм. Подойдёт, если вы знаете как видео должно закончиться, но не представляете каким должно быть начало.
A1111: в версии v 1.10 этого веб-интерфейса для работы с SD много улучшений производительности, и другое по-мелочи.
Inria: выпустили код H3DGS для генерации сплатов городских масштабов. Писал про это тутЪ.
WildGaussians: метод для получения сплатов, лучше работающий с перекрытиями, и позволяющий получить более чёткий результат.
Kolors: Comfy нода для перевода промтов на китайский с помощью маленькой моделькой ллмки Yi-1.5 6B. На китайском модель генерит картинки лучше.
Freepik: добавили расширитель картинки а-ля gen fill.
Tencent: выпустили генератор фоток с целевым лицом PhotoMaker V2. Пишут, что генерации стали ближе к рефу и повысился контроль, но я пока вижу, что из мужских персонажей пытается сделать женских.
Stability: выпустили Stable Video 4D для генерации из одного видео футажа с 8 разных точек обзора.
EchoMimic: анимация говорящих голов на картинке с липсинком на основе вашего аудио. Похожее из опенсорса: V-express, DreamTalk, MuseTalk, и Hallo.
MimicMotion: тоже анимация, но уже тела аватара. Похоже на MusePose и иже с ними. Нужно 16+ ГБ VRAM, хотя может запуститься и на 8 ГБ. Демка, нужно клонировать спейс к себе.
LivePortrait: Comfy нода для переноса мимики на персонажа в реальном времени. Работает с OBS.
Diffree: редактирование изображения текстом.
Comfy нода для работы с цветом на картинках.
OpenSora: генератор видео обновился до v 1.2. Архитектура сменилась с 2 + 1D на full 3D attention, что должно улучшить понимание нейронкой окружения.
Meshy: добавили модель Tubro для быстрого получения 3D по тексту.
🎸 ЗВУК 🎸
Neurogen: портативные версии XTTS 2 и RVC.
Alibaba: выпустили фреймворк для работы с голосом, состоящий из SenseVoice — высокоточного распознавания речи на разных языках, эмоций и обнаружения аудиособытий, а также CosyVoice — модели для генерации естественной речи, плюс контролем тембра и эмоционального окраса.
🤖 ЧАТЫ 🤖
Ollama: в версии v 0.3 этого фреймворка для работы с языковыми моделями (LLM) появился вызов инструментов (функции, API, веб-серфинг, итд). Пока работает с llama 3.1 и парой других моделей.
Cofe: дропнули в опенсорс языковую модель Tele-FLM с 1Т (триллионом) параметров... Для сравнения у самой крупной ламы сейчас 405B (миллиардов) параметров. Правда и контекст 4к, и на видюху не влезет мягко говоря.
Exo: инструмент для шинковки крупных ллм на мелкие кусочки для параллелизации запуска на множестве имеющихся устройств. Доставай свой древний Sony Ericsson W830i и стучись к соседу.
Nvidia: в коллабе с Mistral выпустили языковую модель NeMo размером 12B и контекстом 128к (можно скармливать книжки). Показывает себя лучше ламы-3 8B и Gemma-2 9B. Лицензия Apache 2.0. Демка.
Также они представили архитектуру MambaVision на связке трансформеров и мамбы для визуальных задач вроде распознавания объектов, сегментации, итд. Плюс выкатили маленькие ллмки Minitron, полученные из Nemotron-4 15B.
Сами Mistral: зарелизили Large 123B модель со 128к контекстом, чтобы посоперничать с ламой 3.1. Умеет в текст, код, и русский язык, но дома её не запустить. Хотя может через Exo?
Клиент Gradio, написанный на Rust.
Apple: опенсорснули языковую модель DCLM 7B, которая немного лучше Mistral 7B.
Salesforce: выпустили серию моделей xLAM, заточенных на вызов функций и работу с агентами.
OpenAI: готовят свой AI-поисковик SearchGPT, который похож на расширенную версию уже имеющегося функционала ответов со ссылками. Возможно частично под капотом Bing. И анонсировали маленькую, но эффективную модель GPT-4o mini.
DeepSeek: выпустили V2-0628 чекпоинт, являющий улучшенной версией V2-Chat. В нём оптимизирована работа с RAG, переводом текста, и другое по-мелочи.
Google: обновили Gemini 1.5 Flash. Контекст расширен с 8к до 32к и теперь работает в Европе.
MOMAland: библиотека для разработки и сравнения мульти-агентных алгоритмов.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Luma: теперь можно генерить видео, имея только финальный фрейм. Подойдёт, если вы знаете как видео должно закончиться, но не представляете каким должно быть начало.
A1111: в версии v 1.10 этого веб-интерфейса для работы с SD много улучшений производительности, и другое по-мелочи.
Inria: выпустили код H3DGS для генерации сплатов городских масштабов. Писал про это тутЪ.
WildGaussians: метод для получения сплатов, лучше работающий с перекрытиями, и позволяющий получить более чёткий результат.
Kolors: Comfy нода для перевода промтов на китайский с помощью маленькой моделькой ллмки Yi-1.5 6B. На китайском модель генерит картинки лучше.
Freepik: добавили расширитель картинки а-ля gen fill.
Tencent: выпустили генератор фоток с целевым лицом PhotoMaker V2. Пишут, что генерации стали ближе к рефу и повысился контроль, но я пока вижу, что из мужских персонажей пытается сделать женских.
Stability: выпустили Stable Video 4D для генерации из одного видео футажа с 8 разных точек обзора.
EchoMimic: анимация говорящих голов на картинке с липсинком на основе вашего аудио. Похожее из опенсорса: V-express, DreamTalk, MuseTalk, и Hallo.
MimicMotion: тоже анимация, но уже тела аватара. Похоже на MusePose и иже с ними. Нужно 16+ ГБ VRAM, хотя может запуститься и на 8 ГБ. Демка, нужно клонировать спейс к себе.
LivePortrait: Comfy нода для переноса мимики на персонажа в реальном времени. Работает с OBS.
Diffree: редактирование изображения текстом.
Comfy нода для работы с цветом на картинках.
OpenSora: генератор видео обновился до v 1.2. Архитектура сменилась с 2 + 1D на full 3D attention, что должно улучшить понимание нейронкой окружения.
Meshy: добавили модель Tubro для быстрого получения 3D по тексту.
🎸 ЗВУК 🎸
Neurogen: портативные версии XTTS 2 и RVC.
Alibaba: выпустили фреймворк для работы с голосом, состоящий из SenseVoice — высокоточного распознавания речи на разных языках, эмоций и обнаружения аудиособытий, а также CosyVoice — модели для генерации естественной речи, плюс контролем тембра и эмоционального окраса.
🤖 ЧАТЫ 🤖
Ollama: в версии v 0.3 этого фреймворка для работы с языковыми моделями (LLM) появился вызов инструментов (функции, API, веб-серфинг, итд). Пока работает с llama 3.1 и парой других моделей.
Cofe: дропнули в опенсорс языковую модель Tele-FLM с 1Т (триллионом) параметров... Для сравнения у самой крупной ламы сейчас 405B (миллиардов) параметров. Правда и контекст 4к, и на видюху не влезет мягко говоря.
Exo: инструмент для шинковки крупных ллм на мелкие кусочки для параллелизации запуска на множестве имеющихся устройств. Доставай свой древний Sony Ericsson W830i и стучись к соседу.
Nvidia: в коллабе с Mistral выпустили языковую модель NeMo размером 12B и контекстом 128к (можно скармливать книжки). Показывает себя лучше ламы-3 8B и Gemma-2 9B. Лицензия Apache 2.0. Демка.
Также они представили архитектуру MambaVision на связке трансформеров и мамбы для визуальных задач вроде распознавания объектов, сегментации, итд. Плюс выкатили маленькие ллмки Minitron, полученные из Nemotron-4 15B.
Сами Mistral: зарелизили Large 123B модель со 128к контекстом, чтобы посоперничать с ламой 3.1. Умеет в текст, код, и русский язык, но дома её не запустить. Хотя может через Exo?
Клиент Gradio, написанный на Rust.
Apple: опенсорснули языковую модель DCLM 7B, которая немного лучше Mistral 7B.
Salesforce: выпустили серию моделей xLAM, заточенных на вызов функций и работу с агентами.
OpenAI: готовят свой AI-поисковик SearchGPT, который похож на расширенную версию уже имеющегося функционала ответов со ссылками. Возможно частично под капотом Bing. И анонсировали маленькую, но эффективную модель GPT-4o mini.
DeepSeek: выпустили V2-0628 чекпоинт, являющий улучшенной версией V2-Chat. В нём оптимизирована работа с RAG, переводом текста, и другое по-мелочи.
Google: обновили Gemini 1.5 Flash. Контекст расширен с 8к до 32к и теперь работает в Европе.
MOMAland: библиотека для разработки и сравнения мульти-агентных алгоритмов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Чуваки поняли узкое место технологии, что тяжело сделать кадр стабильным/"не кипящим", и вместо фотореализма пошли в сторону абстрактного, что правильно. С жидкостями или пламенем могло бы тоже получиться годно.
Причём это тизер и полное видео будет позже.
Дискорд
Причём это тизер и полное видео будет позже.
Дискорд
Ещё пара примеров с дискорда Banodoco
Варики в высоком разрешении в комментах
Варики в высоком разрешении в комментах
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
2027 год, метаверс, тебе улыбается девушка на баре, подходишь.... и у чувака по ту сторону экрана начинает лагать чип в мозгу
Как интерпретировать такие сигналы?
Anonymous Poll
15%
Угостить даму шампанским
20%
Дать святой воды
21%
Налить API токенов Groq
42%
- .- -... ..- .-. . - . -... .-.. . - --.. .-- --- -. -.- .. .--. . .-. . .--. . - .. ..
22%
Быстрей валить с города