Чего не хватает этому каналу?
Anonymous Poll
35%
эксперименты с генерациями
58%
советы и туториалы
22%
больше научного контента
6%
меньше научного контента
13%
напрягают репосты
4%
просто больше публикаций
16%
всего хватает
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
LongSplat от NVIDIA
Неструктурированный 3D-гауссовский сплэттинг для простых длинных видео
https://huggingface.co/papers/2508.14041
LongSplat от NVIDIA
Неструктурированный 3D-гауссовский сплэттинг для простых длинных видео
https://huggingface.co/papers/2508.14041
👍4⚡2
Media is too big
VIEW IN TELEGRAM
#unrealneural #туториалы #AILAB
Туториал 1. Редактирование изображения в Krea.ai и создание анимации в Midjourney
Тестирую новый формат. Новая модель редактирования изображений Qwen Image Edit вполне хорошо добавляет локальные точечные изменения и не так сильно меняет форму архитектуры. Вот какой результат получился.
В видео использовались сервисы
Krea.ai
midjourney.com
Youtube
https://youtu.be/L-QcsTgq6XQ
Туториал 1. Редактирование изображения в Krea.ai и создание анимации в Midjourney
Тестирую новый формат. Новая модель редактирования изображений Qwen Image Edit вполне хорошо добавляет локальные точечные изменения и не так сильно меняет форму архитектуры. Вот какой результат получился.
В видео использовались сервисы
Krea.ai
midjourney.com
Youtube
https://youtu.be/L-QcsTgq6XQ
🔥13👍1👏1
#unrealneural
VGGT — это новый подход к 3D, и он получил премию CVPR 2025 за лучшую работу.
Но из-за глобального внимания (global attention) его сложность растет квадратично с количеством изображений, поэтому вы не сможете скормить ему много изображений.
https://vgg-t.github.io/
VGGT — это новый подход к 3D, и он получил премию CVPR 2025 за лучшую работу.
Но из-за глобального внимания (global attention) его сложность растет квадратично с количеством изображений, поэтому вы не сможете скормить ему много изображений.
https://vgg-t.github.io/
👍5🔥1
#unrealneural #вкопилкуэрудита
Одна из идей глубокого обучения заключается в том, что слои нейронной сети - это ряд геометрических преобразований ⚡️
https://phillipi.github.io/6.7960/materials/notes/02_neural_nets_as_distribution_transformers.pdf
Одна из идей глубокого обучения заключается в том, что слои нейронной сети - это ряд геометрических преобразований ⚡️
https://phillipi.github.io/6.7960/materials/notes/02_neural_nets_as_distribution_transformers.pdf
🔥4⚡1👍1
#unrealneural
От простых набросков до 3D-интерьеров с помощью Qwen-Image-Edit
Выглядит очень хорошо 👍
https://chat.qwen.ai/?inputFeature=image_edit
От простых набросков до 3D-интерьеров с помощью Qwen-Image-Edit
Выглядит очень хорошо 👍
https://chat.qwen.ai/?inputFeature=image_edit
🔥8👍4🤮1
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
давно пора!
Pixelle: сделали AI-агента ComfyUI-Copilot, который помогает решить ошибки в Comfy, которые возникают при работе с воркфлоу.
Можно:
* Давать агенту задание исправить возникающие ошибки
* Просить изменить воркфлоу нужным образом
* Получать рекомендации и объяснения по моделям/нодам
* Получать советы касательно локальных настроек Comfy
* Задавать начальные и конечные параметры инференса, и получать пачку генераций в пределе заданных настроек
ComfyUI-Copilot ставится с гитхаба или через менеджер в комфи. Чат с агентом открывается в сайдбаре на иконке СС. Там же через интерфейс можно запросить API ключ, который придёт на почту, либо использовать API OpenAI или Genimi. Ну такое, хотелось бы локальную ллм подрубить.
На всякий противопожарный делайте бэкапы и тестируйте дебаг на свежих портативных сборках.
До этого Pixelle сделали MCP сервер работы с Comfy через чат, без необходимости касаться нодового интерфейса.
Гитхаб
Твит
Pixelle: сделали AI-агента ComfyUI-Copilot, который помогает решить ошибки в Comfy, которые возникают при работе с воркфлоу.
Можно:
* Давать агенту задание исправить возникающие ошибки
* Просить изменить воркфлоу нужным образом
* Получать рекомендации и объяснения по моделям/нодам
* Получать советы касательно локальных настроек Comfy
* Задавать начальные и конечные параметры инференса, и получать пачку генераций в пределе заданных настроек
ComfyUI-Copilot ставится с гитхаба или через менеджер в комфи. Чат с агентом открывается в сайдбаре на иконке СС. Там же через интерфейс можно запросить API ключ, который придёт на почту, либо использовать API OpenAI или Genimi. Ну такое, хотелось бы локальную ллм подрубить.
На всякий противопожарный делайте бэкапы и тестируйте дебаг на свежих портативных сборках.
До этого Pixelle сделали MCP сервер работы с Comfy через чат, без необходимости касаться нодового интерфейса.
Гитхаб
Твит
❤5👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Еще немного шикарных результатов с использованием Kling 2.1 Start & End Frame
P.S. видео не мое
Еще немного шикарных результатов с использованием Kling 2.1 Start & End Frame
P.S. видео не мое
⚡6👍3❤2👎1
Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5⚡1👍1