Psy Eyes
4.92K subscribers
1.03K photos
942 videos
5 files
1.15K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin
Download Telegram
Дайджест:

📹 ВИДЕО + АРТ 🎨

Luma: теперь можно генерить видео, имея только финальный фрейм. Подойдёт, если вы знаете как видео должно закончиться, но не представляете каким должно быть начало.

A1111: в версии v 1.10 этого веб-интерфейса для работы с SD много улучшений производительности, и другое по-мелочи.

Inria: выпустили код H3DGS для генерации сплатов городских масштабов. Писал про это тутЪ.

WildGaussians: метод для получения сплатов, лучше работающий с перекрытиями, и позволяющий получить более чёткий результат.

Kolors: Comfy нода для перевода промтов на китайский с помощью маленькой моделькой ллмки Yi-1.5 6B. На китайском модель генерит картинки лучше.

Freepik: добавили расширитель картинки а-ля gen fill.

Tencent: выпустили генератор фоток с целевым лицом PhotoMaker V2. Пишут, что генерации стали ближе к рефу и повысился контроль, но я пока вижу, что из мужских персонажей пытается сделать женских.

Stability: выпустили Stable Video 4D для генерации из одного видео футажа с 8 разных точек обзора.

EchoMimic: анимация говорящих голов на картинке с липсинком на основе вашего аудио. Похожее из опенсорса: V-express, DreamTalk, MuseTalk, и Hallo.

MimicMotion: тоже анимация, но уже тела аватара. Похоже на MusePose и иже с ними. Нужно 16+ ГБ VRAM, хотя может запуститься и на 8 ГБ. Демка, нужно клонировать спейс к себе.

LivePortrait: Comfy нода для переноса мимики на персонажа в реальном времени. Работает с OBS.

Diffree: редактирование изображения текстом.

Comfy нода для работы с цветом на картинках.

OpenSora: генератор видео обновился до v 1.2. Архитектура сменилась с 2 + 1D на full 3D attention, что должно улучшить понимание нейронкой окружения.

Meshy: добавили модель Tubro для быстрого получения 3D по тексту.

🎸 ЗВУК 🎸

Neurogen: портативные версии XTTS 2 и RVC.

Alibaba: выпустили фреймворк для работы с голосом, состоящий из SenseVoice — высокоточного распознавания речи на разных языках, эмоций и обнаружения аудиособытий, а также CosyVoice — модели для генерации естественной речи, плюс контролем тембра и эмоционального окраса.

🤖 ЧАТЫ 🤖

Ollama: в версии v 0.3 этого фреймворка для работы с языковыми моделями (LLM) появился вызов инструментов (функции, API, веб-серфинг, итд). Пока работает с llama 3.1 и парой других моделей.

Cofe: дропнули в опенсорс языковую модель Tele-FLM с 1Т (триллионом) параметров... Для сравнения у самой крупной ламы сейчас 405B (миллиардов) параметров. Правда и контекст 4к, и на видюху не влезет мягко говоря.

Exo: инструмент для шинковки крупных ллм на мелкие кусочки для параллелизации запуска на множестве имеющихся устройств. Доставай свой древний Sony Ericsson W830i и стучись к соседу.

Nvidia: в коллабе с Mistral выпустили языковую модель NeMo размером 12B и контекстом 128к (можно скармливать книжки). Показывает себя лучше ламы-3 8B и Gemma-2 9B. Лицензия Apache 2.0. Демка.

Также они представили архитектуру MambaVision на связке трансформеров и мамбы для визуальных задач вроде распознавания объектов, сегментации, итд. Плюс выкатили маленькие ллмки Minitron, полученные из Nemotron-4 15B.

Сами Mistral: зарелизили Large 123B модель со 128к контекстом, чтобы посоперничать с ламой 3.1. Умеет в текст, код, и русский язык, но дома её не запустить. Хотя может через Exo?

Клиент Gradio, написанный на Rust.

Apple: опенсорснули языковую модель DCLM 7B, которая немного лучше Mistral 7B.

Salesforce: выпустили серию моделей xLAM, заточенных на вызов функций и работу с агентами.

OpenAI: готовят свой AI-поисковик SearchGPT, который похож на расширенную версию уже имеющегося функционала ответов со ссылками. Возможно частично под капотом Bing. И анонсировали маленькую, но эффективную модель GPT-4o mini.

DeepSeek: выпустили V2-0628 чекпоинт, являющий улучшенной версией V2-Chat. В нём оптимизирована работа с RAG, переводом текста, и другое по-мелочи.

Google: обновили Gemini 1.5 Flash. Контекст расширен с 8к до 32к и теперь работает в Европе.

MOMAland: библиотека для разработки и сравнения мульти-агентных алгоритмов.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
All work and no play makes Jack a dull boy
Media is too big
VIEW IN TELEGRAM
Чуваки поняли узкое место технологии, что тяжело сделать кадр стабильным/"не кипящим", и вместо фотореализма пошли в сторону абстрактного, что правильно. С жидкостями или пламенем могло бы тоже получиться годно.

Причём это тизер и полное видео будет позже.

Дискорд
Ещё пара примеров с дискорда Banodoco

Варики в высоком разрешении в комментах
This media is not supported in your browser
VIEW IN TELEGRAM
2027 год, метаверс, тебе улыбается девушка на баре, подходишь.... и у чувака по ту сторону экрана начинает лагать чип в мозгу
This media is not supported in your browser
VIEW IN TELEGRAM
Запрещёнка выкатила SAM 2 для сегментации объектов на картинках и видео.

Для выделения вещи достаточно кликнуть в одном месте, или задать границу маской/прямоугольной областью. Скорость сегментации и трекинг маски лучше, чем у альтернатив. Также SAM 2 обладает сессионной памятью, позволяющей отслеживать объекты временно выпавшие из кадра.

Отлично себя показывает с футажом, на котором модель не учили (zero-shot), и реалтайм задачах (стриминг).

Вместе с моделью разных размеров в опенсорс идёт и датасет SA-V, на котором тренили: 51к видео, 600к масок, аннотации в комплекте.

Анонс
Демо
Гитхаб
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Мертвые заговорили! Миджорни 6.1 вышла.

Что нового в V6.1?
- улучшенная анатомия (руки, ноги, кисти, тела, растения, животные и т.д.)
- Значительно лучшее качество изображения (уменьшение пиксельных артефактов, улучшенные текстуры, кожа, 8-битное ретро и т.д.)
- Более точные, детальные и правильные мелкие детали изображения (глаза, маленькие лица, далекие руки и т.д.)
- Новые апскейлеры с гораздо лучшим качеством изображения/текстуры
- Примерно на 25 % быстрее при работе со стандартными изображениями
- Повышенная точность текста (при рисовании слов через "цитаты" в подсказках)
- Новая модель персонализации с улучшенными нюансами и точностью
- Новый режим ``q 2``, который требует на 25 % больше времени, чтобы (иногда) добавить больше текстуры ценой снижения целостности изображения.

Есть тут миджорниводы? Го тестировать и делиться впечатлениями в коментах.

@cgevent