4KAgent: Agentic Any Image to 4K Super-Resolution
Агентный апскейлер любых изображений до 4К от Topaz и ко.
Использует мультиагентную систему, где Perception Agent анализирует содержание и искажения изображения, а Restoration Agent выполняет восстановление и масштабирование. Есть специальный конвейер для улучшения лиц
Код ждем
#upscale #agent
Агентный апскейлер любых изображений до 4К от Topaz и ко.
Использует мультиагентную систему, где Perception Agent анализирует содержание и искажения изображения, а Restoration Agent выполняет восстановление и масштабирование. Есть специальный конвейер для улучшения лиц
Код ждем
#upscale #agent
👍11❤3😐2
😁14👍1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPrism: A foundational visual encoder for video understanding
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
👍5🔥1
SingLoRA
Cледующий шаг на пути к дешевому Файн-тюнингу моделей
Суть в том, что он использует одну матрицу вместо двух для корректировки параметров модели. Это удешевляет ее вдвое, переобучаем только 0.05 % параметров
#lora #optimization #finetuning
Cледующий шаг на пути к дешевому Файн-тюнингу моделей
Суть в том, что он использует одну матрицу вместо двух для корректировки параметров модели. Это удешевляет ее вдвое, переобучаем только 0.05 % параметров
#lora #optimization #finetuning
GitHub
GitHub - kyegomez/SingLoRA: This repository provides a minimal, single-file implementation of SingLoRA (Single Matrix Low-Rank…
This repository provides a minimal, single-file implementation of SingLoRA (Single Matrix Low-Rank Adaptation) as described in the paper "SingLoRA: Low Rank Adaptation Using a Single Matri...
👍6🔥1
Media is too big
VIEW IN TELEGRAM
Lightrix показали небольшой гайд по использованию их лор
Реддит
#lora #video #text2video #video2video #utorial
Реддит
#lora #video #text2video #video2video #utorial
👍13
Media is too big
VIEW IN TELEGRAM
Magic Animator
Анимирует дизайны Figma
Можно редактировать результат.
Экспортируется в MP4, GIF или JSON.
Обещают интеграцию с Canva и Adobe Express.
Вроде пока бесплатно
#design #animation
Анимирует дизайны Figma
Можно редактировать результат.
Экспортируется в MP4, GIF или JSON.
Обещают интеграцию с Canva и Adobe Express.
Вроде пока бесплатно
#design #animation
👍8🔥2
Media is too big
VIEW IN TELEGRAM
А давайте откроем рубрику куда будем скидывать понравившиеся работы. Меня вот это зацепило, интересно смотреть. pika + midjourney + Suno
Накидывайте в коменты
И давайте придумаем тег?
Накидывайте в коменты
И давайте придумаем тег?
🔥15❤5👍5
Kimi K2
Новая версия китайской мультимодалки.
Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают
Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:
Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.
Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.
- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов
Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении
Мультимодальные функции пока не работают
Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский
На мобиле не факт что K2 уже есть, не проверял
AppStore
Android
#assistant #mllm #mlm #reasoning #mobile #ios
Новая версия китайской мультимодалки.
Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают
Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:
Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.
Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.
- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов
Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении
Мультимодальные функции пока не работают
Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский
На мобиле не факт что K2 уже есть, не проверял
AppStore
Android
#assistant #mllm #mlm #reasoning #mobile #ios
❤6👍1