Media is too big
VIEW IN TELEGRAM
🔥9😁6❤1👍1
Forwarded from Tensor Banana
wan vace 1.3b video2video + depth + ghibli lora
- используется карта глубины для направления движения
- попросил chatgpt гиблифицировать несколько кадров для референса
- чтобы картинки-референсы лучше воспринимались, их композиция должна полностью совпадать композиции видео
- первый и последний кадр я тут не использовал, по причине того, что chatgpt меняет композицию картинки. Из-за этого движение будет не там где надо. Но можно заморочиться, сделать нужную композицию совпадающую с движением карты глубины. Будет лучше, особенно если еще и конечный кадр добавить.
- вместо depth anything можно попробовать другой контролнет, например openpose, но я не тестил
- чтобы карта глубины не слишком сильно влияла на конечное анимешное видео, я ее инвертирую и делаю меньшую контрастность (делаю белой). Если так не делать, в итоге будут люди из фильма, а не анимешные персонажи
vace также поддерживает маски.
- черный цвет - оставляет без изменений
- белый цвет - переделывает
- маски можно использовать, например, для сохранения исходного лица.
- для создания масок можно использовать segment anything (SAM2, не используется в этом воркфлоу, nsfw примеры есть тут: https://t.iss.one/tensor_art/410 )
Скорость на 3090:
81 кадр (5s) 640x480 20 шагов - 3 минуты
vram - 16 GB
1.3b поддерживает длину ролика до 81 кадров. Если длиннее, то будут визуальные артефакты (видно в первой сцене)
wan + vace ноды: https://github.com/kijai/ComfyUI-WanVideoWrapper
Depth-Anything ноды: https://github.com/DepthAnything/Depth-Anything-V2
ghibli lora 1.3b: https://civitai.com/models/1474964
workflow: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1_3B_VACE_v2v_with_depth_and_lora.json
- используется карта глубины для направления движения
- попросил chatgpt гиблифицировать несколько кадров для референса
- чтобы картинки-референсы лучше воспринимались, их композиция должна полностью совпадать композиции видео
- первый и последний кадр я тут не использовал, по причине того, что chatgpt меняет композицию картинки. Из-за этого движение будет не там где надо. Но можно заморочиться, сделать нужную композицию совпадающую с движением карты глубины. Будет лучше, особенно если еще и конечный кадр добавить.
- вместо depth anything можно попробовать другой контролнет, например openpose, но я не тестил
- чтобы карта глубины не слишком сильно влияла на конечное анимешное видео, я ее инвертирую и делаю меньшую контрастность (делаю белой). Если так не делать, в итоге будут люди из фильма, а не анимешные персонажи
vace также поддерживает маски.
- черный цвет - оставляет без изменений
- белый цвет - переделывает
- маски можно использовать, например, для сохранения исходного лица.
- для создания масок можно использовать segment anything (SAM2, не используется в этом воркфлоу, nsfw примеры есть тут: https://t.iss.one/tensor_art/410 )
Скорость на 3090:
81 кадр (5s) 640x480 20 шагов - 3 минуты
vram - 16 GB
1.3b поддерживает длину ролика до 81 кадров. Если длиннее, то будут визуальные артефакты (видно в первой сцене)
wan + vace ноды: https://github.com/kijai/ComfyUI-WanVideoWrapper
Depth-Anything ноды: https://github.com/DepthAnything/Depth-Anything-V2
ghibli lora 1.3b: https://civitai.com/models/1474964
workflow: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_1_3B_VACE_v2v_with_depth_and_lora.json
👍14❤11
Добавляем в штатное расписание:
Chief postAGI Officer
Раньше футурологи смотрели на 100 лет вперёд и рассказывали фантастику.
Теперь для того же эффекта достаточно смотреть вперёд на 3-5 лет.
А это уже не футурология, а бизнес-планирование.
#futurology #мысли
------
@tsingular
Chief postAGI Officer
Раньше футурологи смотрели на 100 лет вперёд и рассказывали фантастику.
Теперь для того же эффекта достаточно смотреть вперёд на 3-5 лет.
А это уже не футурология, а бизнес-планирование.
#futurology #мысли
------
@tsingular
👍12✍7⚡2❤2🔥2
Forwarded from эйай ньюз
А вот и первые независимые бенчи o4-mini
Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается.
В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.
@ai_newz
Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается.
В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.
@ai_newz
🔥6👍3
Forwarded from EFEMERA: AI news
Дрон с ИИ впервые одержал победу над чемпионами в гонках
◯ Дрон с ИИ, разработанный Делфтским технологическим университетом, победил в конкурсе A2RL Grand Challenge
◯ В турнире он обошёл 3 экс-чемпионов DCL, развив скорость до 95,8 км/ч
◯ Нейросеть управляла моторами дрона, минуя традиционные контроллеры
◯ Технология была разработана ESA для космических аппаратов
◯ Дрон функционировал с одной камерой и минимальными вычислительными ресурсами
◯ ИИ обучался методом проб и ошибок, что способствовало успеху
◯ Цель чемпионата - расширение возможностей и стимулирование исследований в области ИИ
@EF9MERA
Источник
◯ Дрон с ИИ, разработанный Делфтским технологическим университетом, победил в конкурсе A2RL Grand Challenge
◯ В турнире он обошёл 3 экс-чемпионов DCL, развив скорость до 95,8 км/ч
◯ Нейросеть управляла моторами дрона, минуя традиционные контроллеры
◯ Технология была разработана ESA для космических аппаратов
◯ Дрон функционировал с одной камерой и минимальными вычислительными ресурсами
◯ ИИ обучался методом проб и ошибок, что способствовало успеху
◯ Цель чемпионата - расширение возможностей и стимулирование исследований в области ИИ
@EF9MERA
Источник
👀11❤4⚡2👍2
Google выпустили Gemini 2.5 Flash - умнее, быстрее и дешевле o4-mini в 10 раз
Google открыл предварительный доступ к Gemini 2.5 Flash через API.
Новинка базируется на архитектуре версии 2.0, но предлагает усовершенствованные механизмы рассуждения.
Модель стала первой полностью гибридной системой от поискового гиганта.
Разработчики получили возможность настраивать режим "мышления" и устанавливать бюджеты для оптимизации.
Даже при деактивированном режиме размышлений программа демонстрирует лучшую производительность.
Уже доступна пользователям в приложении Gemini.
Поддерживает Canvas — интерактивное поле для правки документов и кода.
Это просто праздник какой-то! :)
Для агентов берём. Наконец-то хватит бюджета на их размышления.
В десятки раз дешевле аналогов и при этом в топ4 уже взлетел!!!
#Gemini #Google
------
@tsingular
Google открыл предварительный доступ к Gemini 2.5 Flash через API.
Новинка базируется на архитектуре версии 2.0, но предлагает усовершенствованные механизмы рассуждения.
Модель стала первой полностью гибридной системой от поискового гиганта.
Разработчики получили возможность настраивать режим "мышления" и устанавливать бюджеты для оптимизации.
Даже при деактивированном режиме размышлений программа демонстрирует лучшую производительность.
Уже доступна пользователям в приложении Gemini.
Поддерживает Canvas — интерактивное поле для правки документов и кода.
Это просто праздник какой-то! :)
Для агентов берём. Наконец-то хватит бюджета на их размышления.
В десятки раз дешевле аналогов и при этом в топ4 уже взлетел!!!
#Gemini #Google
------
@tsingular
🔥14 3⚡2
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Amazon Nova Reel 1.1: видеогенератор до 2 минут и ручное управление кадрами
• Генерация видео до 120 секунд из текстового промпта
• Два режима работы: автоматический и ручной
• Работа с референсными изображениями для настройки стиля
• Разрешение 1280х720 при 24 FPS
• API через Amazon Bedrock и интеграция с Python
Технические особенности
Самое вкусное тут в многокадровой генерации. В режиме Multi-shot Automated достаточно написать один промпт до 4000 символов, и модель сама нарежет его на 6-секундные сцены с единым стилем.
А в Multi-shot Manual можно задать до 20 разных промптов (каждый до 512 символов) и добавить к каждому своё референсное изображение.
Кстати, в коде уже есть нормальная асинхронная обработка через API, что важно для продакшена:
Готовое видео попадает прямо в S3-корзину.
Бизнес-применение
Приоритет маркетингу, рекламе и продакт-дизайну.
С Nova Reel можно:
• Создавать рекламные ролики без съёмочной группы и сложного монтажа
• Генерировать фоновые видео для презентаций
• Делать прототипы видеоконтента для соцсетей
• Визуализировать концепты продуктов для питчей
Особенно ценно, что можно настроить собственную "раскадровку" под конкретный бренд или продукт.
Безопасность и ограничения
Amazon явно перестраховался после всех этих скандалов с дипфейками:
• Встроены невидимые "водяные знаки" на все видео
• Блокировка генерации знаменитостей и публичных персон
• Автоматический детект потенциального нарушения авторских прав
• Встроенная проверка на токсичность с блокировкой 95,8% опасного контента
Кроме того, Amazon даёт неограниченную защиту от претензий по IP для контента, сгенерированного их моделями.
Для работы с Amazon Nova Reel 1.1 нужен доступ к Amazon Bedrock (пока только в регионе US East). Цены — по стандартной модели pay-as-you-go.
#AWS #нейрорендер #Nova
———
@tsingular
• Генерация видео до 120 секунд из текстового промпта
• Два режима работы: автоматический и ручной
• Работа с референсными изображениями для настройки стиля
• Разрешение 1280х720 при 24 FPS
• API через Amazon Bedrock и интеграция с Python
Технические особенности
Самое вкусное тут в многокадровой генерации. В режиме Multi-shot Automated достаточно написать один промпт до 4000 символов, и модель сама нарежет его на 6-секундные сцены с единым стилем.
А в Multi-shot Manual можно задать до 20 разных промптов (каждый до 512 символов) и добавить к каждому своё референсное изображение.
Кстати, в коде уже есть нормальная асинхронная обработка через API, что важно для продакшена:
invocation = bedrock_runtime.start_async_invoke(
modelId="amazon.nova-reel-v1:1",
modelInput=model_input,
outputDataConfig={"s3OutputDataConfig": {"s3Uri": S3_DESTINATION_BUCKET}},
)
Готовое видео попадает прямо в S3-корзину.
Бизнес-применение
Приоритет маркетингу, рекламе и продакт-дизайну.
С Nova Reel можно:
• Создавать рекламные ролики без съёмочной группы и сложного монтажа
• Генерировать фоновые видео для презентаций
• Делать прототипы видеоконтента для соцсетей
• Визуализировать концепты продуктов для питчей
Особенно ценно, что можно настроить собственную "раскадровку" под конкретный бренд или продукт.
Безопасность и ограничения
Amazon явно перестраховался после всех этих скандалов с дипфейками:
• Встроены невидимые "водяные знаки" на все видео
• Блокировка генерации знаменитостей и публичных персон
• Автоматический детект потенциального нарушения авторских прав
• Встроенная проверка на токсичность с блокировкой 95,8% опасного контента
Кроме того, Amazon даёт неограниченную защиту от претензий по IP для контента, сгенерированного их моделями.
Для работы с Amazon Nova Reel 1.1 нужен доступ к Amazon Bedrock (пока только в регионе US East). Цены — по стандартной модели pay-as-you-go.
#AWS #нейрорендер #Nova
———
@tsingular
👍7🔥2
🔥 Китайская гонка техногигантов: память HBM и флеш-память Poxiao прорывают барьеры скорости
Два невероятных прорыва происходят прямо сейчас в китайской технологической сфере, и оба касаются памяти — того самого "узкого горлышка", которое сдерживает потенциал современных AI-систем.
HBM: китайская погоня за независимостью от западных чипов
Компания CXMT (ChangXin Memory Technologies) делает неожиданный рывок в разработке высокоскоростной памяти HBM (High-Bandwidth Memory). По последним данным, отставание от мировых лидеров — Samsung, SK Hynix и Micron — сократилось до 3-4 лет вместо предполагаемых ранее 6-8 лет.
Почему это важно?
HBM — это ключевой компонент для GPU и ускорителей AI, который отвечает за сверхбыструю передачу данных между памятью и процессором. Именно HBM обеспечивает "питание" для обучения и запуска крупных языковых моделей.
После декабрьских санкций США 2024 года по ограничению доступа Китая к этой технологии, CXMT активно форсирует разработку:
• Уже освоили HBM2 в массовом производстве
• Работают над HBM3 с планом запуска в 2026 году
• Планируют HBM3E к 2027 году
На фоне этого впечатляет ажиотаж вокруг Nvidia H20 — единственного доступного для Китая мощного GPU с HBM3. Несмотря на то, что он в 6,7 раз слабее флагманского H100, китайские компании успели закупить более 1 миллиона штук до вступления в силу запрета.
Poxiao: флеш-память со скоростью, о которой никто не мечтал
Параллельно исследователи из университета Фудань представили прототип флеш-памяти "Poxiao" ("Рассвет"), который бьет все рекорды скорости перезаписи — 400 пикосекунд! Это в 100 000 раз быстрее существующих решений.
Суть прорыва:
Современная память разделена на две категории:
• Энергозависимая (SRAM/DRAM): быстрая, но дорогая, энергоемкая и теряет данные при отключении питания
• Энергонезависимая (флеш): дешевле, энергоэффективнее, хранит данные без питания, но медленная
Команда Фуданя нашла способ сделать флеш-память со скоростью, сравнимой с оперативной, сохранив все преимущества энергонезависимости.
Почему эти прорывы критичны для бизнеса?
1. Для разработчиков AI-систем:
- Ускорение обучения моделей в разы (а значит, снижение затрат)
- Возможность реализовать более сложную логику инференса
2. Для облачных провайдеров:
- Баланс между вычислительной мощностью и памятью (узкое место нынешних систем)
- Снижение энергопотребления дата-центров
3. Для производителей устройств:
- Устройства с меньшим потреблением энергии
- AI-вычисления на edge-устройствах без необходимости обращения к облаку
При этом:
• CXMT всё еще зависит от западного оборудования для производства (в особенности EUV-литографии)
• Прототип Poxiao пока имеет мизерный объем (килобайты)
• США продолжают ужесточать санкции, внося всё новые компании в Entity List
• Массовое производство и масштабируемость этих технологий пока под вопросом
#Память #Китай #Технологии
———
@tsingular
Два невероятных прорыва происходят прямо сейчас в китайской технологической сфере, и оба касаются памяти — того самого "узкого горлышка", которое сдерживает потенциал современных AI-систем.
HBM: китайская погоня за независимостью от западных чипов
Компания CXMT (ChangXin Memory Technologies) делает неожиданный рывок в разработке высокоскоростной памяти HBM (High-Bandwidth Memory). По последним данным, отставание от мировых лидеров — Samsung, SK Hynix и Micron — сократилось до 3-4 лет вместо предполагаемых ранее 6-8 лет.
Почему это важно?
HBM — это ключевой компонент для GPU и ускорителей AI, который отвечает за сверхбыструю передачу данных между памятью и процессором. Именно HBM обеспечивает "питание" для обучения и запуска крупных языковых моделей.
После декабрьских санкций США 2024 года по ограничению доступа Китая к этой технологии, CXMT активно форсирует разработку:
• Уже освоили HBM2 в массовом производстве
• Работают над HBM3 с планом запуска в 2026 году
• Планируют HBM3E к 2027 году
На фоне этого впечатляет ажиотаж вокруг Nvidia H20 — единственного доступного для Китая мощного GPU с HBM3. Несмотря на то, что он в 6,7 раз слабее флагманского H100, китайские компании успели закупить более 1 миллиона штук до вступления в силу запрета.
Poxiao: флеш-память со скоростью, о которой никто не мечтал
Параллельно исследователи из университета Фудань представили прототип флеш-памяти "Poxiao" ("Рассвет"), который бьет все рекорды скорости перезаписи — 400 пикосекунд! Это в 100 000 раз быстрее существующих решений.
Суть прорыва:
Современная память разделена на две категории:
• Энергозависимая (SRAM/DRAM): быстрая, но дорогая, энергоемкая и теряет данные при отключении питания
• Энергонезависимая (флеш): дешевле, энергоэффективнее, хранит данные без питания, но медленная
Команда Фуданя нашла способ сделать флеш-память со скоростью, сравнимой с оперативной, сохранив все преимущества энергонезависимости.
Почему эти прорывы критичны для бизнеса?
1. Для разработчиков AI-систем:
- Ускорение обучения моделей в разы (а значит, снижение затрат)
- Возможность реализовать более сложную логику инференса
2. Для облачных провайдеров:
- Баланс между вычислительной мощностью и памятью (узкое место нынешних систем)
- Снижение энергопотребления дата-центров
3. Для производителей устройств:
- Устройства с меньшим потреблением энергии
- AI-вычисления на edge-устройствах без необходимости обращения к облаку
При этом:
• CXMT всё еще зависит от западного оборудования для производства (в особенности EUV-литографии)
• Прототип Poxiao пока имеет мизерный объем (килобайты)
• США продолжают ужесточать санкции, внося всё новые компании в Entity List
• Массовое производство и масштабируемость этих технологий пока под вопросом
#Память #Китай #Технологии
———
@tsingular
👍6🔥3
13-14 апреля на конгрессе 4CIO Подмосковные вечера. Весна.
Обсудили с Дмитрием Алтуховым таймлайн Рэймонда Курцвейла.
Скорость развития технологий и, конечно, Технологическую Сингулярность, в которой мы все сейчас уже, очевидно, живём.
Для меня было сюрпризом, что аудитория с работами техдиректора Гугла практически не знакома.
Не смог не вспомнить в этом контексте роман Юрия Никитина "Трансчеловек" с которого у меня началось знакомство с работами Курцвейла около 20 лет назад.
Кстати на основе работ Курцвейла Билл Гейтс выпустил в своё время документ New World of Work, о котором, надо сказать, даже в российском офисе Майкрософт, в котором я работал в 2007-2008х годах, тоже мало кто знал.
Из чего делаем вывод, что люди, даже будучи в эпицентре развития технологий, могут упускать важные моменты.
Поэтому наша просветительская (евангелистская) работа так важна :).
Ещё рассказал про ИИ агентов, как они устроены, с чего начинались и куда развиваются.
Послушали интересный интерактивный доклад Дмитрия Гуреева (Gureev.pro), про то как решать самые актуальные задачи с помощью ИИ.
Провели деловую игру в группах на базе ИИ фреймворка компании Lad - GPTZator.
Очень проработанный инструмент, интегрируемый с любой офисной системой ( R7 офис, 1С, например) и любыми ИИ моделями - локальными или облачными.
Отдельно в кулуарах удалось показать коллегам голосовых ИИ ассистентов.
Собственной разработки, компании Союзтелеком и цифрового аватара Сергея Пименова Фабрики контента.
Было ещё много докладов про будущее и текущие проблемы бизнеса. Тут всего не изложишь. Но, думаю, будет не менее интересно на осеннем конгрессе, - так что если кто не доехал в этот раз, будем ждать на следующем.
Хочется сказать огромное спасибо клубу 4CIO за возможность выступить и пообщаться с такой интересной аудиторией.
#4CIO #конгресс #доклады
———
@tsingular
Обсудили с Дмитрием Алтуховым таймлайн Рэймонда Курцвейла.
Скорость развития технологий и, конечно, Технологическую Сингулярность, в которой мы все сейчас уже, очевидно, живём.
Для меня было сюрпризом, что аудитория с работами техдиректора Гугла практически не знакома.
Не смог не вспомнить в этом контексте роман Юрия Никитина "Трансчеловек" с которого у меня началось знакомство с работами Курцвейла около 20 лет назад.
Кстати на основе работ Курцвейла Билл Гейтс выпустил в своё время документ New World of Work, о котором, надо сказать, даже в российском офисе Майкрософт, в котором я работал в 2007-2008х годах, тоже мало кто знал.
Из чего делаем вывод, что люди, даже будучи в эпицентре развития технологий, могут упускать важные моменты.
Поэтому наша просветительская (евангелистская) работа так важна :).
Ещё рассказал про ИИ агентов, как они устроены, с чего начинались и куда развиваются.
Послушали интересный интерактивный доклад Дмитрия Гуреева (Gureev.pro), про то как решать самые актуальные задачи с помощью ИИ.
Провели деловую игру в группах на базе ИИ фреймворка компании Lad - GPTZator.
Очень проработанный инструмент, интегрируемый с любой офисной системой ( R7 офис, 1С, например) и любыми ИИ моделями - локальными или облачными.
Отдельно в кулуарах удалось показать коллегам голосовых ИИ ассистентов.
Собственной разработки, компании Союзтелеком и цифрового аватара Сергея Пименова Фабрики контента.
Было ещё много докладов про будущее и текущие проблемы бизнеса. Тут всего не изложишь. Но, думаю, будет не менее интересно на осеннем конгрессе, - так что если кто не доехал в этот раз, будем ждать на следующем.
Хочется сказать огромное спасибо клубу 4CIO за возможность выступить и пообщаться с такой интересной аудиторией.
#4CIO #конгресс #доклады
———
@tsingular
🔥11👍8👏8❤1
Media is too big
VIEW IN TELEGRAM
Очень крутой пример использования Курсора в качестве ИИ оркестратора от Степана Гершуни, если нет желания собирать конструкторы на n8n или langflow и т.д.
https://t.iss.one/cryptoEssay/2359
Вангую через год выход CursorOS
запомните этот твит :)
#Cursor #агенты
———
@tsingular
https://t.iss.one/cryptoEssay/2359
Сделал кибернетическую операционную систему.
В видео показываю как можно использовать Cursor для ИИ-автоматизации своей жизни, работы, бизнеса и процессов, экономя х10 времени в работе.
Я использую эту штуку для всех своих звонков (запись, транскрибация, саммари, анализ), всех сделок, всех статей, найма, организации мероприятий и долгих рисерч проектов. Такую же штуку можно раскатывать на организации от 2 до 20,000 человек, используя git как систему коллективной работы над AI воркфлоу, базами знаний и коннекторами.
Заменяет 90% всех ИИ продуктов. А если вам не хватает фичи — просто говорите и она появляется.
Смотреть как это работает: https://youtu.be/Am-B0bA9xBU
Вангую через год выход CursorOS
запомните этот твит :)
#Cursor #агенты
———
@tsingular
🔥14👍8✍4😁1😐1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Помните на сайте wan.video была опция выбора первого И ПОСЛЕДНЕГО кадра для генерации видео?
На сайте было, а в коде нет.
Так вот, вчера завезли все это добро в код.
Причем сразу в большую модель 14B с разрешением 720P.
Просто обновляем Wan и ну тестировать. Пойду раcчехлять облачный сервак на immerse.cloud
Что нового:
Frame conditional control:
‒ Perfectly replicates reference visuals
‒ Precise instruction-following
‒ Smooth transitions + real-world physics adherence
‒ Cinema-quality 720P output
https://github.com/Wan-Video/Wan2.1
И да, Киджай уже сделал ноды на Комфи.
@cgevent
На сайте было, а в коде нет.
Так вот, вчера завезли все это добро в код.
Причем сразу в большую модель 14B с разрешением 720P.
Просто обновляем Wan и ну тестировать. Пойду раcчехлять облачный сервак на immerse.cloud
Что нового:
Frame conditional control:
‒ Perfectly replicates reference visuals
‒ Precise instruction-following
‒ Smooth transitions + real-world physics adherence
‒ Cinema-quality 720P output
https://github.com/Wan-Video/Wan2.1
И да, Киджай уже сделал ноды на Комфи.
@cgevent
👍5