Вуги‐Буги

Hunyuan 3.0 x Tripo v3 x Hitem 1.5 x Meshy 6 x Rodin Gen-2

Все главные ИИ-3д-генераторы выкатили обновления.
Блендер-сцены с модельками прикреплю в комменты.

Hunyuan 3.0 - https://3d.hunyuan.tencent.com/
Hunyuan 3D Studio - https://3d.hunyuan.tencent.com/studio

Hitem 1.5 - https://hitem3d.ai/
Tripo v 3.0 - https://studio.tripo3d.ai/workspace/generate

Rodin Gen-2 - https://hyper3d.ai/
Meshy 6 -https://www.meshy.ai/workspace

#3d_Aironically

❤9

777 viewsVoogie, 23:22

Вуги‐Буги

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🤔

❓ Sora 2 вышла, и этот "король" — голый!

Сегодня вернулся OpenAI с громкими заявлениями о "революционном прогрессе" и синхронизированным аудио. Хайп поднялся до небес, Демо видео просто космические, но реальность куда прозаичнее.

⁉️

Что не так:
Качество по дефолту — шакальное. Сайт лагает так, что приходится обновлять вкладку. В продакшене это мало применимо. Только соцсети или костыли с апскейлом через WAN 2.2 в ComfyUI

IMG TO VIDEO работает из рук вон плохо: 99% результатов либо статичные, либо косячные. Люди на месте стоят, как манекены. Нет возможности задать начальную и финальную картинку для плавных переходов сцен — просто загружаешь одну картинку и молишься.

Прилично работает только TXT TO VIDEO!

❗️Модерация жёстче стереотипов о китайских цензорах — блокирует половину промптов и входящих изображений. У самих китайцев такой цензуры нет. Попытался что-то чуть креативнее бабки на бегемоте? Бан.

Черри-пикинг от OpenAI и реальность — два параллельных мира!!!
То, что показывают в официальных промо, и то, что получается у юзеров — небо и земля.

🔖В API функций ещё не завезли! Никакого 1080p...

😊

⚡️

Я прогнал несколько своих концепт-артов — результаты прикреплены.

В сухом остатке: Годится пока только для AI-слопа. Хотя физика работает топово, но блин через раз!

Пока OpenAI ~~буксовали~~ работали над Sora год, китайцы ушли в отрыв. Надеюсь они просто пока не раскатали свои мощности.

❤️‍🔥 PS. Больше моих реальных демок в комментах, там же оставлю инвайт для доступа.
А вы тестили? Поделитесь опытом.

©@voogieboogie

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤7👍4🔥1

1.03K viewsVoogie, 00:44

Вуги‐Буги

🤓

👾

🤓 Сегодня заметка для ~~задротов~~ тех, кто копается в агентных системах и N8N.

~~Щас пойдут отписки :)~~

🔬Вышла занимательная статья в Nature Communications про архитектуру MAP (Modular Agentic Planner).

Учёные взяли префронтальную кору мозга, разобрали её на составные части — как она занимается планированием — и воссоздали этот процесс через специализированные LLM-модули.

❓

Почему это интересно?

Обычная LLM в планировании работает как один универсальный инструмент: вроде справляется, но постоянно где-то спотыкается.

Проблема в том, что LLM могут выполнять отдельные функции планирования, но плохо координируют их между собой.

Отсюда галлюцинации, нереалистичные планы и забытые ограничения.

👁‍🗨

Что предложили исследователи:

Систему из специализированных модулей, где каждый — отдельный LLM с чёткой ролью:
• Монитор — отлавливает ошибки и конфликты

• Актёр — предлагает действия

• Предиктор — просчитывает последствия

• Оценщик — определяет ценность решений

• Декомпозер — разбивает задачи на подзадачи

• Оркестратор — координирует весь процесс

На классической задаче "Ханойская башня" точность выросла с 11% до 74% — довольно значительный скачок.

⚠️

Практическое применение:
Такую схему теоретически можно воспроизвести для персонального таск-менеджера если вы кодер или N8N задрот.

Примерная архитектура:
ВХОД (задачи + контекст)
↓
ДЕКОМПОЗЕР → разбивает сложные задачи
↓
МОНИТОР → проверяет конфликты и реалистичность
↓
ПРЕДИКТОР → оценивает последствия
↓
ОЦЕНЩИК → расставляет приоритеты
↓
ОРКЕСТРАТОР → собирает финальный план

⁉️Зачем это нужно вашему ИИ таск-менеджеру?

Такая система сможет проверять реалистичность планов, разбивать абстрактные цели на конкретные шаги, учитывать вашу энергию и контекстные переключения, автоматически ловить временные коллизии.

Да, это требует больше API-вызовов и сложнее в настройке, чем один промпт. Но разница между списком дел и планом, который реально работает, похоже стоит этих усилий.

Если кто-то пробовал в сложные мультиагентные таскменеддеры в N8N — поделитесь опытом.

Интересно посмотреть на практические реализации.

©@voogieboogie

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥11

857 viewsVoogie, edited 07:31

Вуги‐Буги

🧠

Почему Sora 2 технически крута, но всё равно УЖЕ проиграла китайцам!

После того как я разнёс Sora 2 в прошлом посте, мне в личку посыпались сообщения:

— "Вуги, ты несправедлив! Sora технически революционная!"

Ладно, давайте разбираться честно и по фактам. Прочитал пост Никиты Шарипова про различия архитектуры Veo 3 и Sora 2, и решил копнуть глубже.

❓ Давайте ответим на вопрос:
Как вообще работают эти генераторы, и почему за год качество выросло с "что за херня" до "почти кино"?

Спойлер: Sora 2 действительно технически сильна. Но уникальной её не назовёшь — и это ключевой момент.

👌

Старая беда ИИ генераторов: видео с памятью золотой рыбки

Главная проблема всех старых видеогенераторов — к концу ролика они забывали, что было в начале. Как ваш бухой друг, который к концу вечеринки уже не помнит, зачем вообще пришёл.

До 2024 года все работали на архитектуре U-Net. Модель обрабатывала видео локально, небольшими кусками, передавая информацию дальше как в игре "испорченный телефон". К 10-й секунде детали из начала стирались. Красная машина превращалась в синюю, у персонажа отрастали лишние руки, фон плавился.

Это называется временной дрейф. U-Net видела мир как близорукий художник с деменцией, который рисует мультфильм кадр за кадром и постоянно забывает детали.

🔜

Потом Появился DiT, и правила игры изменились

Исследователи Peebles и Xie предложили архитектуру на которой работает SORA 2 ещё в 2022 году, доказав, что трансформеры работают лучше U-Net для диффузионных моделей. Работа опубликована в ICCV 2023. Один из авторов, William Peebles, позже перешёл в OpenAI и применил DiT к видео.

❗️Архитектура Sora — не изобретение OpenAI. Это успешное применение чужой идеи, которую OpenAI масштабировала и завернула в красивую обёртку.

Как работает DiT и почему это изменило всё:
Видео превращается в набор маленьких кубиков — каждый содержит кусочек пространства И времени одновременно (16×16 пикселей на протяжении 16 кадров). Представьте, что вы режете желе не на плоские ломтики, а на объёмные кубики. Для минутного ролика получается примерно 30,000 таких кубиков АКА токенов.

Дальше эти токены обрабатываются трансформером с глобальным вниманием. Каждый токен может "посмотреть" на любой другой токен напрямую. Кадр на 60-й секунде видит кадр с 1-й секунды без промежуточных слоёв. Это как если бы скульптор лепил всю сцену в движении как единый объект, видя её целиком, а не по кускам.

Именно поэтому Sora 2 хорошо справляется с физикой. OpenAI пишет про "improved physics engine" — модель видит всю траекторию движения сразу, а не по кусочкам. Баскетбольный мяч может отскочить от кольца, а не телепортироваться в корзину. Волейболист бьёт по мячу реалистично, потому что модель помнит все предыдущие позиции его тела.

То же с отслеживанием состояния мира — персонажи сохраняют одежду между сценами, фон остаётся стабильным, объекты не исчезают в пустоту.

👂

Синхронный звук — тоже через DiT

Sora 2 генерирует звук синхронно с видео в едином латентном пространстве. Модель связывает положение губ и произносимые звуки напрямую — как профессиональный звукорежиссёр, который сводит картинку и аудио одновременно, а не постфактум.

📝

Плюс OpenAI использует автоматическое улучшение промптов — GPT переписывает ваш запрос ДО генерации видео. Вы пишете "Вуги дичь гонит", а система превращает это в детальное описание с освещением, одеждой, атмосферой.

95% обучающих данных — синтетические AI-генерированные описания, что даёт лучшее понимание промптов.

Проще говоря: Sora обучалась не на том, как люди описывают видео, а на том, как ИИ описывает видео для ИИ. Мета-уровень.

Veo 3 уже умеет делать все то же самое, только элегантнее. Google использует раздельную обработку пространства и времени. Результат тот же, но архитектурно чище и быстрее. Это как разница между американским маслкаром, который берёт мощностью, и японским спорткаром, который берёт инженерией.

📤

Проблема SORA: она жрёт вычисления как не в себя...

Продолжение в Комментариях (сорян не влезло)...

©@voogieboogie

Please open Telegram to view this post

VIEW IN TELEGRAM

3👍14❤6🔥2

899 viewsVoogie, edited 07:13

📺

Самый удобный способ генерировать в Sora 2: без вотермарков и в максимальном качестве

Подготовил для вас самый удобный способ работать с Sora API через ComfyUI — без мороки с агрегаторами, с живым трекингом и функцией Remix. Но сначала — немного контекста, почему вообще это нужно.

💥

Самое важное:
Sora убрала watermark, разлочила HD и открыла доступ к API. Звучит круто, но есть нюансы:

Пока я плевался от проблем Соры, я параллельно тестировал инструмент в реальных сценариях.

И выяснилось, что для очень определённых профессиональных задач эта штука вполне себе рабочая.

⁉️

Для чего Sora действительно годится:
Быстрое прототипирование трейлеров.

Генерация видеоряда с синхронным аудио и кучей склеек — отличная основа для дальнейшей ручной доработки. Генерите варианты, выбираете лучшее, монтируете с кадрами из других генераторов... Профит
.

🤑💸 Цены просто космические!

12 секунд в максимальном качестве (1792x1024) — $6.
Хотите контент в макс качестве? Готовьтесь, вас ждут адские 10-12 минут ожидания. За это время можно сварить борщ и пересмотреть свои жизненные приоритеты.

Если сгенерировать минуту то будьте добры ~~продать почку~~ отвалить $30 баксов!

📹

Full HD — это маркетинг! Обещанное разрешение на деле не дотягивает. Сюрприз-сюрприз. 20 секунд генерации нам тоже не завезли. На выбор только 4-8-12 секунд...

⁉️

Почему API-агрегаторы Соры — это страдание:

Попытка генерить себе ноды через сторонние сервисы типа FAL — это как собирать мебель IKEA без инструкции. Технически возможно, но зачем себя мучить?

Проблемы: невозможно нормально трекать прогресс (сидишь и гадаешь, оно работает или уже сдохло), плюс постоянное жонглирование API-эндпоинтами. Каждый раз разбираться, какой URL куда слать — это не работа, это квест. Ну и конечно в других агрегаторах будет переплата...

❗️

Поэтому я написал свою ноду для ComfyUi!

Работает напрямую с OpenAI API. Никаких посредников, никакой магии — просто удобный интерфейс и все официальные функции по себестоимости.

❓Что умеет:
Auto-Remix — запоминает ID последнего видео автоматически. Не нужно копировать и вставлять как дикарь. Исправляешь детали промптом — видео перегенерируется только в нужных местах

Живой прогресс-бар — видишь процент генерации в реальном времени. Никаких медитаций над пустым экраном

Smart Resize для Img2Vid — подключаешь любое изображение, нода сама подгонит под требования Sora с сохранением пропорций

Bulletproof обработка ошибок — даже если API свалится, очередь ComfyUI не крашнется

❓Как начать использовать:
1. Ставите ComfyUI (Portable версия — самое простое)
2. Ставите ComfyUI Manager
3. Открываете Manager → Install via Git URL
4. Вставляете: https://github.com/Cameraptor/SORA2_API_Node_ComfyUI
5. Перезапускаете ComfyUI
6. Грузите example workflow из репозитория
7. Вбиваете свой OpenAI API ключ (закидываете денег альтману на официальном сайте)
8. Profit

😊

Кстати: это моя первая публикация на GitHub специально для вас. Таких нод в открытом доступе пока нет. Сами создатели Комфи не раздуплились =).

В комментариях отвечу на вопросы и прикреплю короткий туториал по установке с нуля для тех, кто первый раз открывает ComfyUI.

❗️

В сухом остатке:
Sora 2 — дорогой и медленный инструмент. Но для конкретных задач (трейлеры, аудио+видео, быстрые склейки) вполне годится. Главное — использовать правильно и через нормальный интерфейс.

Кто уже пробовал Sora по API? Какие кейсы? Поделитесь 👇

©@voogieboogie

#AI #Sora #ComfyUI

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥16❤13👍7

2.23K viewsVoogie, edited 17:37

Индустрия гуманоидных роботов — грандиозный обман. Вот почему Tesla Optimus (и его аналоги) не придут в ваш дом в ближайшие годы.

😏

Мечтали о роботе-дворецком?
Забудьте. Индустрия учит железяки неправильно и спускает миллиарды впустую.

Представьте: вы хотите научить человека жарить стейк. Но вместо того, чтобы дать ему почувствовать температуру и текстуру мяса, вы просто показываете видео шеф-повара и ждёте магии.

Именно так Tesla, Figure и остальные компании пытаются обучить роботов.

Родни Брукс — создатель Roomba и учёный с 65 годами опыта в робототехнике — выдал индустрии пощёчину на 9,600 слов.

Суть: пытаться научить роботов ловкости через видео людей — это не сработает. Никогда.

🤩 — "Вы игнорируете осязание, гении"

Tesla записывает видео с пяти камер на шлеме оператора. Figure делает то же. Все верят, что если скормить визуальные данные world models, роботы магически научатся всему.

⚠️

Маленький нюанс: все они забыли про осязание.

В человеческой руке ~17,000 механорецепторов. Тысяча на кончике каждого пальца.

Есть крутой эксперимент: человеку анестезируют пальцы и просят зажечь спичку.

Результат?
- С чувствительностью в руке: 7 секунд
- Без чувствительности: 28 секунд и куча неудач

Любая простейшая задача в четыре раза сложнее без тактильной обратной связи.

Проблема в том, что у нас вообще нет технологий для записи, передачи и воспроизведения осязания. Мы записываем видео и аудио больше века. С осязанием? Терра инкогнита.т

🔬Все прорывы в AI — от распознавания речи до компьютерного зрения — базировались на понимании биологии людей и тщательной предобработке данных.

Никакой магии не существует: Мы целый век накапливали знания в нужных областях прежде чем скормили их ИИ... Но мы ничего не знаем про осязание и у нас НЕТ способа сбора и анализа этих данных.

World models vs реальность

Сегодня стало модно говорить о world models: пусть AI строит модель мира и предсказывает последствия. Красиво звучит.

Реальность: когда робот попытается взять кружку, ему понадобится тактильная обратная связь в реальном времени. Без неё любая world model — это GTA. Красивая симуляция, но к реальным гонкам не имеет никакого отношения.

🤡

Физика против маркетинга

Современные шагающие роботы используют алгоритм ZMP (Ему аж 56 лет в обед), постоянно балансируя мощными моторами.

А Люди — принципиально иная пружинящая система, которая ходит почти без сознательного контроля и полагается на другой подход.

Когда робот-гуманойд падает, в отличие от кожаного, его ноги превращаются в ускоряющиеся куски металла.

Увеличиваем гуманоида до человеческого роста и вуаля, подчиняясь Scaling Laws, ваш полноразмерный падающий робот становится в 8 раз тяжелее и опаснее маленького.

Брукс рекомендует держаться минимум 3 метра от любого гуманоида

Я бы добавил: если Optimus начал танцевать рядом с вами— бегите.

‼️

Что будет через 15 лет?

Помните "беспилотные автомобили"? Обещали полную автономию к 2020 но немного преувеличили свои возможности. Я все ещё жду роботакси...

С гуманоидами будет так же. Через 15 лет "гуманоидами" назовут промышленных роботов на колёсах с 4 руками и клешнеподобными захватами. Но маркетологи всё равно будут говорить о "революции".

Миллиарды долларов исчезнут. пузырь лопнет, как это уже было с доткомами, NFT, ИИ генерациями. Опять будут спекуляции и дорогие нишевые игрушки.

В сухом остатке

Будут красивые демо человекоподобных роботов.

Будут пресс-релизы о "прорывах". Но настоящей ловкости рук пока не будет, потому что индустрия игнорирует фундаментальную часть проблемы — осязание.

Если вы инвестор и предприниматель — перечитайте эссе Брукса трижды перед чеком на новый стартап.

Если работаете в AI — идите в тактильные сенсоры. Там будет прорыв и следующие горы денег.

Если просто интересуетесь — запаситесь попкорном и мыслите критически. Следующие 10 лет будут захватывающими и жалкими одновременно.

Сколько лет до первого громкого инцидента с гуманоидом? Кто первый признается, что спускал деньги впустую — Tesla или Figure? Посмотрим...

©@voogieboogie

#Роботы #robots

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍13❤6👎1

859 viewsVoogie, edited 07:08

Вуги‐Буги

6:00

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️Китайцы выпустили бесплатный аналог Nano Banana: DreamOmni2 делает то, что коммерческим моделям не под силу

Команда из CUHK и ByteDance выкатила DreamOmni2 — открытую мультимодальную систему для редактирования изображений. Все как всегда, пока Google и OpenAI предлагают платные API, китайцы делают все тоже самое доступным на GitHub бесплатно.

❓

Главная фишка: модель лучше конкурентов работает с абстрактными концепциями — текстурами, позами, художественными стилями.

DreamOmni2 принимает текст + несколько референсов одновременно и все это с кучей удобных возможностей:
1. Object Replace — встраивает объект из одного фото в другое с сохранением освещения.
2. Lighting Render — копирует характер света между изображениями.
3.Style Transfer — переносит стиль с пониманием контекста.
4.Pose Imitation — копирует позы.
5.Face Expression — передаёт мимику.
6.Hair Style — меняет причёски по форме головы.
7.Font Imitation — воспроизводит рукописные шрифты.
8.Pattern Imitation — переносит узоры с учётом перспективы.
9.Background Replace — меняет фон.
10. In-context Generation — миксует элементы из нескольких источников.

❗️

Главный кайф модели: судя по пэйперу она работает с 3-4 референсами одновременно, но без деградации качества.

Возможности в битве с конкурентами:
Модельку потестировали против Kontext (FLUX-based), Qwen-Edit (Alibaba), GPT-4o, Nano Banana (Google Gemini Flash) и OmniGen2.

И в задачах с абстрактными атрибутами (материалы, текстуры, стили) DreamOmni2 показывает лучшие результаты. GPT-4o отлично понимает текстовые инструкции, но проваливается в точном переносе визуальных концепций. Kontext и Qwen-Edit генерируют артефакты при работе со сложными мультимодальными командами.

❗️

Множественные референсы — слабое место конкурентов.
Там, где другие модели начинают путаться уже на двух изображениях, DreamOmni2 спокойно жонглирует четырьмя.

Требования и установка
Минимум 24GB VRAM (ну а как иначе). Кстати, можно потестировать все через API или прямо внутри FAL и прочих агрегаторов. Но я счмиаю, что цена неприлично конская для бесплатной модели.

DreamOmni2 доказывает: мощные инструменты создания контента становятся общедоступными. Барьер входа падает, скорость работы растёт.

©@voogieboogie

#Ai #нейронки

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🔥5👍2

946 viewsVoogie, edited 12:42

Вуги‐Буги

⚠️Скачивание видео с соц-сетей превратилось в квест!? Нашел решение...

Думаю многие заметили, что скачивание роликов из соц-сеток превратилось в пытку.

Мне все эти пляски стали напоминать выход из IKEA — вместо файла находишь пять всплывающих окон и предложение установить "Турбо-Ускоритель-9000".

Внезапно я н аткнулся на cobalt.tools — охренел от простоты. Вставил ссылку, нажал кнопку, получил файл. Без рекламы, без танцев с бубном.

~~YouTube~~, TikTok, Instagram и ещё вагон платформ. Опенсорс, бесплатно, без регистрации.

Интерфейс выглядит так, будто его делал человек, а не комитет по монетизации терпения.

Пользуйтесь, пока не испортили.

UDP: Ютуб в тулсете не работает :(((

Ютуб закрутил гайки, но все ещё можно использовать разные форки инструмента дл командной строки YT-DLP.

Есть интерфейсные версии для мака/винды и для андроида. В каменты к посту добавили ещё вариантов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17🔥3

801 viewsVoogie, edited 18:33

Вуги‐Буги

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

⚠️

Grок Imagine обновился — и теперь это не бесполезная игрушка, а реальный конкурент.

💡Это прям отличный бесплатный видео и фото генератор без навязчивых водяных знаков, который может надавать по щщам Sora 2 и остальным.

Прекрасно справляется с промптингом и потрясающе быстро генерирует видео с аудио и липсинком.

💰

И всё это бесплатно. Жаль FullHD пока нет даже на платке.

Рекомендую попробовать!

© @voogieboogie

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍2

871 viewsVoogie, 04:24

Вуги‐Буги

Channel photo updated

04:48

Вуги‐Буги

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

😱 Лайфхак:
Как платить за Sora 2 PRO в 5 раз меньше?

Один из моих любимых API-агрегаторов — Kie.ai дропнул Sora по скидке.

Кстати у этого же агрегатора собраны Suno, Midjourney и куча других моделей в одном месте.

💰

Ценники радуют!
Sora 2 Standard: $0.15 за 10 секунд с аудио (без вотермарка)

Sora 2 Pro: $0.45 за 10 сек / $0.675 за 15 сек
Sora 2 Pro HD: $1 за 10 сек / $2 за 15 сек

💵Лютая экономия в сравнении с официальным API от OpenAI.

Считаем на примере
30-секундныого ролика в HD:

OpenAI (официал): 30 сек × $0.50/сек = $15
Kie.ai: 3 × $1 = $3
Разница — в 5 раз. А если учесть, что для идеального результата нужно 5-10 итераций, то официально это $75-150 против $15-30 через Kie.ai.

‼️Что получаете?
Полноценный API-доступ с интеграцией в пайплайны, автоматизацией и масштабированием.

😏

Вотермарки с фри версии там, тоже удаляются автоматически — чистое видео сразу на выходе. Плюс есть доступ к другим моделям через единый API — не нужно жонглировать десятком платформ.

Если интересны ноды под этот API для ComfyUI — напишите в комментариях, посмотрю на спрос и возможно выпущу в открытый доступ. Я уже написал себе ;)

#AI
#Генерация_Видeo

@VoogieBoogie

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤16👍9🔥7

1.84K viewsedited 02:49

Вуги‐Буги

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

🔬НАУЧНОЕ ИССЛЕДОВАНИЕ:
ИИ превращает успешных в суперуспешных, а всех остальных делает бесполезными !!!

Некоторые всё ещё думают, что AGI будет делать всё: Midjourney заменит художников, Runway — видеопродакшены, ChatGPT превратит новичков в экспертов. Мол в итоге ИИ прокачается и у всех будут равные возможности.

👎 НО ЭТО НЕ ПРОИЗОШЛО И НЕ ПРОИЗОЙДЁТ.

И вот почему:
Мэтью Колл из Техасского университета A&M провёл масштабное исследование, где отслеживал сотни сотрудников компаний до и после внедрения ИИ.

📎

Результаты в The Wall Street Journal взорвали научную дискуссию.

😭ВЫВОД ЖЕСТКИЙ: технологии по экспоненте увеличивают разрыв между звездными профи и всеми остальными.

Разберёмся, кого Колл называет "звёздами" ? (разверни)

Это те, кто обладает тремя характеристиками: глубокими фундаментальными знаниями (не поверхностное понимание, а способность копать вглубь), высокой видимостью (их работу замечают) и социальным капиталом (связи, репутация, влияние).

Да это профессионалы, которые умеют себя демонстрировать!

Звёзды получают от ИИ непропорционально больше.

Это называют эффектом Матфея — феноменом, когда изначальное преимущество автоматически порождает ещё большее преимущество.

С ИИ ТАК ЖЕ: кто впереди улетает в космос, кто позади — застревает навсегда.

ТРИ ПРИЧИНЫ, ПОЧЕМУ ЗВЁЗДЫ всегда будут впереди (разверни):

1️⃣Представьте двух программистов перед ChatGPT.
• Вайбкодер Вася: "Напиши программу для сортировки данных".
• Программист Петя: "Implement merge sort with O(n log n) complexity, handle edge cases for null arrays, add unit tests with Jest, use TypeScript generics for type safety".

Один получает говнокод с костылями. Другой — production-ready решение.

Глубокие знания позволяют задавать хирургически точные вопросы. Остальные тыкают пальцем в небо

2️⃣Вторая проблема: новички не видят, когда ИИ несёт чушь.

Я уже писал об этом более подробно в отдельной статье о стадиях экспертности.

ChatGPT звучит убедительно, даже когда галлюцинирует. Эксперт моментально засечёт косяк. Джуниор положит красиво упакованную ересь в продакшн.

3️⃣Третье: звёзды системны. ИИ обожает структуру. Накорми чётким запросом — получишь золото. Накорми кашей — получишь говно.

😳СОЦИАЛЬНЫЙ СТАТУС КАК ЧИТЕРСКИЙ КОД:
Но самое циничное — статус.

Пока рядовой сотрудник боится использовать ИИ (а вдруг подумают, что не справляюсь?) и пьёт вечером пиво, звезда третий месяц строит ИИ-автоматизацию после работы.

Эксперимент провалился? Звезде простят. Обычному работяге — выговор.

Парадокс: когда середнячок выдаёт крутой результат с ИИ, думают: "Ну это нейросеть сделала". Когда звезда — "Гений! Он мастер на все руки".

Обычные люди, которые только учатся, легко лишаются признания даже за успех. Звёзды же купаются в славе, даже когда за них 80% сделал ИИ

Колл показал: через два года мы как общество получим две професиональные касты.

Сверху — суперлюди с 300% продуктивностью. Снизу — масса, которая отстаёт всё больше.

Где будете вы? Решать вам, и лучше, чтобы вы это решили не сегодня, а еще вчера.

Рекомендации Мэтью Колла для предпринимателей и творцов в моем изложении, а так-же практические советы ищите в комментариях к посту!

#AI
#общество

@VoogieBoogie

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥26❤10👍6

1.3K viewsedited 15:42

Вуги‐Буги

🇬🇧 Британцы свергли Nano-Banana: встречайте нового короля AI-редактирования

Sourceful анонсировали Riverflow — новую модель для редактирования изображений, которая возглавила бенчмарк Artificial Analysis, обходя даже чемпионов ByteDance Seedream 4.0 и Google gemini АКА Nano-Banana.

👉Ребята из Манчестера сделали модель специально для production-grade дизайна упаковки, где каждый миллиметр на счету.

😏Что умеет?
Reasoning VLM + диффузия = может менять направление редактирования прямо в процессе. Точная работа с текстом, удаление дефектов без затрагивания остального изображения, работа с прозрачностью. В общем, специализированная пушка для тех, кому нужна надежность.

Цены на Riverflow не радуют:

- Riverflow mini: $0.05 за картинку (но работает не очень, можно пропустить)

- Riverflow standard: $0.066 за картинку (вот это уже серьезно)

Для сравнения с конкурентами:
- Seedream 4.0: $0.03 за картинку

- Nano-Banana: $0.039 за картинку

То есть за "state-of-the-art" придется платить вдвое больше, чем за Seedream, который занимает третье место в том же бенчмарке.

😏

Моё мнение:
на бумаге лучше, на практике надо проверять (примеры в их демо выглядят неплохо).

Но лично для меня Seedream всё ещё оптимальнее — дешевле, выдает 4K качество и работает быстрее.

В моем воркфлоу важен поток, так как я очень быстро думаю, и по этой причине избегаю медленных рендеров (только риалтайм движки вроде Eevee и Unreal) и быстрые нейронки.

Но главное: всё больше моделей и конкуренции. Это радует, потому что заставляет всех подтягиваться.

Кстати, эти ребята уже анонсировали Brand World model — генерацию брендовых изображений на основе логотипов и референсов. Следим за развитием!

©@voogieboogie

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15👍1

1.38K views05:01

😱НОВОСТЬ НЕДЕЛИ:
Создание реалистичных 3D-миров из AI-картинок, фоток и видео теперь доступно всем! БЕСПЛАТНО.

Да, теперь вы можете пройти путь от фотки до виртуального мира за 2 секунды на вашей домашней видеокарте.

Tencent выкатили то, о чём мечтали все геймдевы и 3D-художники: берёшь видео или фотки — получаешь полноценную 3D-сцену через гауссиан сплат за пару секунд на обычной домашней видеокарте.

Говоря по-задротски:
Без серверов. Без COLMAP. Без молитв. Модель выдаёт всё сразу: point clouds, depth maps, camera params, normals, готовые гауссианы. Один forward pass — и ты летаешь по сцене, рендеришь с любого угла.

👌Говоря по-человечески:
Сгенерил фотку в Midjourney → Сгенерил разные ракурсы в NanoBanana → засунул в WorldMirror → получил гиперреалистичный 3D-мир. What a time to be alive!

‼️

Оно реально работает?
Снял комнату на телефон? Работает. Хочешь 3D-реконструкцию из видео? Работает. Одна картинка? Тоже работает, хотя и похуже.

Это именно та технология, про которую говорили "когда-нибудь в будущем".

Только будущее наступило прямо сейчас.

VR-миры, которые раньше собирали недели с дорогущим оборудованием, теперь создаются за минуты на домашнем железе.

Да, не идеально... Но уже юзабельно. Что же будет через год?

⚠️И самое крутое — мы можем это пощупать уже сегодня.
А насколько это полезно будет в рекламе и кино, я даже боюсь представить. Создание виртуальных локаций, превью сцен, быстрые концепты окружения — всё это перестаёт быть узким местом production pipeline.

А главное: open source, бесплатно, код и веса в открытом доступе.

Инди-разработчики получили инструмент уровня AAA-студий.

Технология, которая реально решает задачу, а не создаёт новые проблемы.

P.S. Походу новостей от меня ещё какое-то время не будет — я убежал это изучать 🔥

P.P.S Накидал примеров в каменты

@voogieboogie

Please open Telegram to view this post

VIEW IN TELEGRAM

4🔥20❤10

1.8K viewsedited 02:39

Вуги‐Буги

🤩

Чуваки, немного контекста:

С каждым днём писать обо всех этих новых нейронках, апдейтах и релизах становится всё сложнее.

Их уже тысячи, миллионы — и вычленять из этого реально интересное, тестить, разбирать и потом красиво упаковывать для вас — ну, вы поняли, это уже марафон без финиша.

Нет, я по-прежнему держу руку на пульсе, всё тестирую, всё смотрю. Но писать каждый день обо всём подряд — не вывожу. А когда фокусишься только на новостях, не остаётся сил на то, ради чего всё вообще начиналось — на свои мысли, идеи, наблюдения, разборы. На то, что делает этот канал не просто новостной лентой, а чем-то живым.

Поэтому я подумываю о том, чтобы автоматизировать часть процесса.

Как вы знаете, уже давно у меня есть свой ИИ бот/ассистент — Лена.

Я давно вытащил Лену из обычного ChatGpt, апгрейднул и превратил в отдельного агента у меня на серваке, который общается в Телеграме.

Теперь идея такая: сделать Лену умнее и дать ей возможность публиковать новости прямо в основной канал. Я прямо сейчас подключаю разные парсеры, которые собирают апдейты со всех возможных источников — от мейнстрима до узких и редких.

😏

Логика простая: Лена отбирает самое интересное, пишет это в своём стиле (не подражая мне), кидает мне на апрув, и потом пост выходит у нас на канале.

👋

Таким образом:
– публикации станут более регулярными,
– новости — свежими, актуальными и по делу,
– а я наконец смогу тратить больше времени на свои тексты — те самые наблюдения, идеи и режиссёрские и креативные штуки, ради которых многие из вас здесь.

То есть всё останется под моим контролем, я продолжу писать на интересующие меня темы, просто теперь рутину актуальных ИИ новостей будет писать Лена, в характерном для себя стиле.

Короче просто будет ещё один тематический редактор канала.

Как вам? Отпишите в каменты и проголосуйте в чате

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31❤11👎6🔥1

1.33K viewsedited 01:27

Вуги‐Буги

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Выяснил причину, по которой ByteDance резко ограничила бета-тест хайповой видеомодели Seedance 2, которая наводнила интернет новым витком гиперреалистичных экшен-генераций:

Китайская часть интернета гудит: в ходе тестов обнаружилась пугающая способность нейросети воссоздавать точный клон голоса и внешности любых, даже не особо известных селебрити, имея в распоряжении только одну фотографию — без каких-либо аудиообразцов.

Мультимодальность модели очаровывает и пугает одновременно.

Резонанс оказался настолько мощным, что привёл к экстренному запрету на использование изображений реальных людей в качестве референсов. Теперь понятно: нынешняя «невидимость» модели — это не просто технический переезд, а целенаправленная фильтрация функций безопасности перед официальным запуском, намеченным на 24 февраля.

❓ Цитируем СМИ:

Модель мгновенно становится вирусной после того, как известный китайский техно-инфлюенсер Пань Тяньхун (основатель MediaStorm / 影视飓风) публикует обзор, демонстрирующий пугающую способность Seedance 2.0 клонировать голос и манеру речи пользователя исключительно на основе одной фотографии лица, без предоставления образца аудио. Видео Тима, в котором он 6 раз употребил слово «ужасающий» (terrifying), спровоцировало немедленную дискуссию о приватности и рисках несанкционированных дипфейков.

11 февраля 2026 года: Оперативное Вмешательство. Реагируя на общественный резонанс и потенциальные регуляторные риски, ByteDance экстренно приостанавливает функцию генерации «голоса по фото» и удаляет прямой доступ к Seedance 2.0 из публичной панели BytePlus AI Playground. Официальная причина — «срочные изменения на основе отзывов пользователей» и необходимость усиления мер безопасности

🔖

Думаю, после 24-го февраля мир медиа изменится так, как никогда до этого:

Интеграция этой модели в CapCut сигнализирует о стратегии демократизации создания видео "режиссерского уровня" для масс, что может фундаментально подорвать рынки стоковых видео, 3Д анимации, моушндизайна и видеопродакшна уже к третьему кварталу 2026 года.

ByteDance строит не просто модель, а замкнутую экосистему "Генерация -> Редактирование -> Дистрибуция (TikTok)", которой нет у OpenAI.

P.S. Видеоролик сделан всего по одному простому промпту.

@voogieboogie — подпишись, тут интересно.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19🔥4🤪2

853 viewsedited 16:57

Вуги‐Буги

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

😏Последние несколько дней автор этого канала неспешно, почти медитативно собирает для команды презентацию с кейсами за последние годы. Большинство — на стыке ИИ и 3D.

И, делая это, я ловлю себя на кристально ясной мысли: ещё немного — и все костыли, показанные в видео выше, упростятся до неприличия.

То, что недавно требовало инженерной акробатики, десятков компромиссов и виртуозных технических ухищрений, с появлением моделей нового поколения сжимается в компактный, user-friendly, почти playful пайплайн.

📝Кино и анимация по собственным сценариям силами двух–трёх человек?

Это уже не фантазия. Это вопрос ближайших апдейтов, которые выйдут в течение пары недель. И от этого действительно слегка кружится голова — в хорошем смысле.

На этом фоне особенно иронично читать Twitter, где видеомонтажёры обсуждают, как рынок просел, как «нельзя» получать 5000 за рилс и что пора объединяться в профсоюзы.

Для меня это звучит как разговоры о повышении цен на плёночные фотоаппараты в эпоху смартфонов.

Потому что если смотреть трезво — дешёвый сегмент монтажа рилсов и съёмки простой рекламы просто испарится. Он уйдёт в автоматическую генерацию.

Быстро. Без лишних эмоций.

Да, мысль о том, что будет происходить с рынком дальше, одновременно завораживает и немного давит. Но я искренне рад, что когда-то повернул в сторону 3D, нейросетей и креатива, а не остался в классическом съёмочном продакшне.

Закрыв офис компании в России, я не стою сейчас перед необходимостью экстренно перекраивать экономику и спасать тонущий корабль. Искренне сочувствую коллегам — владельцам продакшн компаний и рекламных агентств.

Иногда правильный шаг — это выйти из старой игры до того, как её правила перепишут и начать играть в новые игры, а лучше делать свои ;)

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21❤9

287 viewsedited 04:07

About

Blog

Apps

Platform