Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Luma: теперь можно генерить видео, имея только финальный фрейм. Подойдёт, если вы знаете как видео должно закончиться, но не представляете каким должно быть начало.

A1111: в версии v 1.10 этого веб-интерфейса для работы с SD много улучшений производительности, и другое по-мелочи.

Inria: выпустили код H3DGS для генерации сплатов городских масштабов. Писал про это тутЪ.

WildGaussians: метод для получения сплатов, лучше работающий с перекрытиями, и позволяющий получить более чёткий результат.

Kolors: Comfy нода для перевода промтов на китайский с помощью маленькой моделькой ллмки Yi-1.5 6B. На китайском модель генерит картинки лучше.

Freepik: добавили расширитель картинки а-ля gen fill.

Tencent: выпустили генератор фоток с целевым лицом PhotoMaker V2. Пишут, что генерации стали ближе к рефу и повысился контроль, но я пока вижу, что из мужских персонажей пытается сделать женских.

Stability: выпустили Stable Video 4D для генерации из одного видео футажа с 8 разных точек обзора.

EchoMimic: анимация говорящих голов на картинке с липсинком на основе вашего аудио. Похожее из опенсорса: V-express, DreamTalk, MuseTalk, и Hallo.

MimicMotion: тоже анимация, но уже тела аватара. Похоже на MusePose и иже с ними. Нужно 16+ ГБ VRAM, хотя может запуститься и на 8 ГБ. Демка, нужно клонировать спейс к себе.

LivePortrait: Comfy нода для переноса мимики на персонажа в реальном времени. Работает с OBS.

Diffree: редактирование изображения текстом.

Comfy нода для работы с цветом на картинках.

OpenSora: генератор видео обновился до v 1.2. Архитектура сменилась с 2 + 1D на full 3D attention, что должно улучшить понимание нейронкой окружения.

Meshy: добавили модель Tubro для быстрого получения 3D по тексту.

🎸 ЗВУК 🎸

Neurogen: портативные версии XTTS 2 и RVC.

Alibaba: выпустили фреймворк для работы с голосом, состоящий из SenseVoice — высокоточного распознавания речи на разных языках, эмоций и обнаружения аудиособытий, а также CosyVoice — модели для генерации естественной речи, плюс контролем тембра и эмоционального окраса.

🤖 ЧАТЫ 🤖

Ollama: в версии v 0.3 этого фреймворка для работы с языковыми моделями (LLM) появился вызов инструментов (функции, API, веб-серфинг, итд). Пока работает с llama 3.1 и парой других моделей.

Cofe: дропнули в опенсорс языковую модель Tele-FLM с 1Т (триллионом) параметров... Для сравнения у самой крупной ламы сейчас 405B (миллиардов) параметров. Правда и контекст 4к, и на видюху не влезет мягко говоря.

Exo: инструмент для шинковки крупных ллм на мелкие кусочки для параллелизации запуска на множестве имеющихся устройств. Доставай свой древний Sony Ericsson W830i и стучись к соседу.

Nvidia: в коллабе с Mistral выпустили языковую модель NeMo размером 12B и контекстом 128к (можно скармливать книжки). Показывает себя лучше ламы-3 8B и Gemma-2 9B. Лицензия Apache 2.0. Демка.

Также они представили архитектуру MambaVision на связке трансформеров и мамбы для визуальных задач вроде распознавания объектов, сегментации, итд. Плюс выкатили маленькие ллмки Minitron, полученные из Nemotron-4 15B.

Сами Mistral: зарелизили Large 123B модель со 128к контекстом, чтобы посоперничать с ламой 3.1. Умеет в текст, код, и русский язык, но дома её не запустить. Хотя может через Exo?

Клиент Gradio, написанный на Rust.

Apple: опенсорснули языковую модель DCLM 7B, которая немного лучше Mistral 7B.

Salesforce: выпустили серию моделей xLAM, заточенных на вызов функций и работу с агентами.

OpenAI: готовят свой AI-поисковик SearchGPT, который похож на расширенную версию уже имеющегося функционала ответов со ссылками. Возможно частично под капотом Bing. И анонсировали маленькую, но эффективную модель GPT-4o mini.

DeepSeek: выпустили V2-0628 чекпоинт, являющий улучшенной версией V2-Chat. В нём оптимизирована работа с RAG, переводом текста, и другое по-мелочи.

Google: обновили Gemini 1.5 Flash. Контекст расширен с 8к до 32к и теперь работает в Европе.

MOMAland: библиотека для разработки и сравнения мульти-агентных алгоритмов.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post