Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
давно пора!
Pixelle: сделали AI-агента ComfyUI-Copilot, который помогает решить ошибки в Comfy, которые возникают при работе с воркфлоу.
Можно:
* Давать агенту задание исправить возникающие ошибки
* Просить изменить воркфлоу нужным образом
* Получать рекомендации и объяснения по моделям/нодам
* Получать советы касательно локальных настроек Comfy
* Задавать начальные и конечные параметры инференса, и получать пачку генераций в пределе заданных настроек
ComfyUI-Copilot ставится с гитхаба или через менеджер в комфи. Чат с агентом открывается в сайдбаре на иконке СС. Там же через интерфейс можно запросить API ключ, который придёт на почту, либо использовать API OpenAI или Genimi. Ну такое, хотелось бы локальную ллм подрубить.
На всякий противопожарный делайте бэкапы и тестируйте дебаг на свежих портативных сборках.
До этого Pixelle сделали MCP сервер работы с Comfy через чат, без необходимости касаться нодового интерфейса.
Гитхаб
Твит
Pixelle: сделали AI-агента ComfyUI-Copilot, который помогает решить ошибки в Comfy, которые возникают при работе с воркфлоу.
Можно:
* Давать агенту задание исправить возникающие ошибки
* Просить изменить воркфлоу нужным образом
* Получать рекомендации и объяснения по моделям/нодам
* Получать советы касательно локальных настроек Comfy
* Задавать начальные и конечные параметры инференса, и получать пачку генераций в пределе заданных настроек
ComfyUI-Copilot ставится с гитхаба или через менеджер в комфи. Чат с агентом открывается в сайдбаре на иконке СС. Там же через интерфейс можно запросить API ключ, который придёт на почту, либо использовать API OpenAI или Genimi. Ну такое, хотелось бы локальную ллм подрубить.
На всякий противопожарный делайте бэкапы и тестируйте дебаг на свежих портативных сборках.
До этого Pixelle сделали MCP сервер работы с Comfy через чат, без необходимости касаться нодового интерфейса.
Гитхаб
Твит
❤5👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Еще немного шикарных результатов с использованием Kling 2.1 Start & End Frame
P.S. видео не мое
Еще немного шикарных результатов с использованием Kling 2.1 Start & End Frame
P.S. видео не мое
⚡5👍3❤2👎1
Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5⚡1👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Очень интересная новость: Метачка "лицензирует" все технологии Midjourney.
Похоже у Марка столько денег, что скупки мозгов недостаточно, и он просеивает рынок технологий.
Понятно, что в первую очередь им нужен генеративный контент для ленты, для аватаров, для цифровых мать-их инфлюенсеров.
Удивительно, что их картиночный и видео генераторы показывали неплохие результаты, но сделка с Midjourney показывает, что метачке хочется большего.
И хотя в статье поспешно написано в конце, что "Midjourney remains “an independent, community-backed research lab” with “no investors" по заверениям Хольца, я думаю мы скоро услышим больше подробностей.
Одно можно сказать, у Midjourney будет больше денег. Хотя бы на то, чтобы начать думать про нормальное редактирование картинок.
https://www.theverge.com/news/764715/meta-ai-midjourney-license-partnership
@cgevent
Похоже у Марка столько денег, что скупки мозгов недостаточно, и он просеивает рынок технологий.
Понятно, что в первую очередь им нужен генеративный контент для ленты, для аватаров, для цифровых мать-их инфлюенсеров.
Удивительно, что их картиночный и видео генераторы показывали неплохие результаты, но сделка с Midjourney показывает, что метачке хочется большего.
И хотя в статье поспешно написано в конце, что "Midjourney remains “an independent, community-backed research lab” with “no investors" по заверениям Хольца, я думаю мы скоро услышим больше подробностей.
Одно можно сказать, у Midjourney будет больше денег. Хотя бы на то, чтобы начать думать про нормальное редактирование картинок.
https://www.theverge.com/news/764715/meta-ai-midjourney-license-partnership
@cgevent
🤔3🤨3
#unrealneural #вкопилкуэрудита
"Эффект МакКордак"("Эффект AI")
Как только ИИ осваивает новую задачу, её часто начинают считать простой вычислительной операцией, а не примером интеллектуального процесса. Это приводит к постоянному пересмотру границ того, что считается ИИ, а что — интеллектуальной деятельностью.
Эффект назван в честь Памелы МакКордак, писательницы и исследовательницы ИИ, которая описала этот феномен в своей книге «Machines Who Think» (1979).
Яркий пример - когда шахматный компьютер Deep Blue обыграл чемпиона мира, многие были разочарованы: это была не та форма суперинтеллекта, о которой мечтали. Задача просто перестала быть показателем интеллекта, как только решилась машиной.
"Эффект МакКордак"("Эффект AI")
Как только ИИ осваивает новую задачу, её часто начинают считать простой вычислительной операцией, а не примером интеллектуального процесса. Это приводит к постоянному пересмотру границ того, что считается ИИ, а что — интеллектуальной деятельностью.
Эффект назван в честь Памелы МакКордак, писательницы и исследовательницы ИИ, которая описала этот феномен в своей книге «Machines Who Think» (1979).
Яркий пример - когда шахматный компьютер Deep Blue обыграл чемпиона мира, многие были разочарованы: это была не та форма суперинтеллекта, о которой мечтали. Задача просто перестала быть показателем интеллекта, как только решилась машиной.
👍9❤2
#unrealneural #вкопилкуэрудита
Semantic Structure in LLM Embeddings
Семантические пространства эмбеддингов LLM незаметно сжимают множество значений в небольшое общее пространство, отражающее человеческие суждения.
Трехмерное подпространство охватывает около 50% семантической дисперсии.
Психология показывает, что люди оценивают слова по нескольким осям, например, насколько они позитивны, насколько они сильны и насколько активны.
Авторы воссоздают это, формируя 28 направлений из пар антонимов и проецируя на них 301 слово.
Эти прогнозы хорошо соответствуют рейтингам опроса, показывая, что геометрия встраивания отражает человеческие ассоциации.
Анализ главных компонентов — инструмент, который находит основные направления вариации, сворачивает проекции в три компонента, такие как оценка, эффективность и активность.
https://arxiv.org/abs/2508.10003
Semantic Structure in LLM Embeddings
Семантические пространства эмбеддингов LLM незаметно сжимают множество значений в небольшое общее пространство, отражающее человеческие суждения.
Трехмерное подпространство охватывает около 50% семантической дисперсии.
Психология показывает, что люди оценивают слова по нескольким осям, например, насколько они позитивны, насколько они сильны и насколько активны.
Авторы воссоздают это, формируя 28 направлений из пар антонимов и проецируя на них 301 слово.
Эти прогнозы хорошо соответствуют рейтингам опроса, показывая, что геометрия встраивания отражает человеческие ассоциации.
Анализ главных компонентов — инструмент, который находит основные направления вариации, сворачивает проекции в три компонента, такие как оценка, эффективность и активность.
https://arxiv.org/abs/2508.10003
⚡3👍1