Forwarded from Нейронично
Media is too big
VIEW IN TELEGRAM
Hunyuan 3.0 x Tripo v3 x Hitem 1.5 x Meshy 6 x Rodin Gen-2
Все главные ИИ-3д-генераторы выкатили обновления.
Блендер-сцены с модельками прикреплю в комменты.
Hunyuan 3.0 - https://3d.hunyuan.tencent.com/
Hunyuan 3D Studio - https://3d.hunyuan.tencent.com/studio
Hitem 1.5 - https://hitem3d.ai/
Tripo v 3.0 - https://studio.tripo3d.ai/workspace/generate
Rodin Gen-2 - https://hyper3d.ai/
Meshy 6 -https://www.meshy.ai/workspace
#3d_Aironically
Все главные ИИ-3д-генераторы выкатили обновления.
Блендер-сцены с модельками прикреплю в комменты.
Hunyuan 3.0 - https://3d.hunyuan.tencent.com/
Hunyuan 3D Studio - https://3d.hunyuan.tencent.com/studio
Hitem 1.5 - https://hitem3d.ai/
Tripo v 3.0 - https://studio.tripo3d.ai/workspace/generate
Rodin Gen-2 - https://hyper3d.ai/
Meshy 6 -https://www.meshy.ai/workspace
#3d_Aironically
❤9
Сегодня вернулся OpenAI с громкими заявлениями о "революционном прогрессе" и синхронизированным аудио. Хайп поднялся до небес, Демо видео просто космические, но реальность куда прозаичнее.
Качество по дефолту — шакальное. Сайт лагает так, что приходится обновлять вкладку. В продакшене это мало применимо. Только соцсети или костыли с апскейлом через WAN 2.2 в ComfyUI
IMG TO VIDEO работает из рук вон плохо: 99% результатов либо статичные, либо косячные. Люди на месте стоят, как манекены. Нет возможности задать начальную и финальную картинку для плавных переходов сцен — просто загружаешь одну картинку и молишься.
Прилично работает только TXT TO VIDEO!
Черри-пикинг от OpenAI и реальность — два параллельных мира!!!
То, что показывают в официальных промо, и то, что получается у юзеров — небо и земля.🔖 В API функций ещё не завезли! Никакого 1080p...
В сухом остатке: Годится пока только для AI-слопа. Хотя физика работает топово, но блин через раз!
Пока OpenAI
А вы тестили? Поделитесь опытом.
©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤7👍4🔥1
Учёные взяли префронтальную кору мозга, разобрали её на составные части — как она занимается планированием — и воссоздали этот процесс через специализированные LLM-модули.
Обычная LLM в планировании работает как один универсальный инструмент: вроде справляется, но постоянно где-то спотыкается.
Проблема в том, что LLM могут выполнять отдельные функции планирования, но плохо координируют их между собой.
Отсюда галлюцинации, нереалистичные планы и забытые ограничения.
Систему из специализированных модулей, где каждый — отдельный LLM с чёткой ролью:
• Монитор — отлавливает ошибки и конфликты
• Актёр — предлагает действия
• Предиктор — просчитывает последствия
• Оценщик — определяет ценность решений
• Декомпозер — разбивает задачи на подзадачи
• Оркестратор — координирует весь процесс
На классической задаче "Ханойская башня" точность выросла с 11% до 74% — довольно значительный скачок.
Такую схему теоретически можно воспроизвести для персонального таск-менеджера если вы кодер или N8N задрот.
Примерная архитектура:
ВХОД (задачи + контекст)
↓
ДЕКОМПОЗЕР → разбивает сложные задачи
↓
МОНИТОР → проверяет конфликты и реалистичность
↓
ПРЕДИКТОР → оценивает последствия
↓
ОЦЕНЩИК → расставляет приоритеты
↓
ОРКЕСТРАТОР → собирает финальный план
⁉️Зачем это нужно вашему ИИ таск-менеджеру?
Такая система сможет проверять реалистичность планов, разбивать абстрактные цели на конкретные шаги, учитывать вашу энергию и контекстные переключения, автоматически ловить временные коллизии.
Да, это требует больше API-вызовов и сложнее в настройке, чем один промпт. Но разница между списком дел и планом, который реально работает, похоже стоит этих усилий.
Если кто-то пробовал в сложные мультиагентные таскменеддеры в N8N — поделитесь опытом.
Интересно посмотреть на практические реализации.
©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥11
После того как я разнёс Sora 2 в прошлом посте, мне в личку посыпались сообщения:
— "Вуги, ты несправедлив! Sora технически революционная!"
Ладно, давайте разбираться честно и по фактам. Прочитал пост Никиты Шарипова про различия архитектуры Veo 3 и Sora 2, и решил копнуть глубже.
Как вообще работают эти генераторы, и почему за год качество выросло с "что за херня" до "почти кино"?
Спойлер: Sora 2 действительно технически сильна. Но уникальной её не назовёшь — и это ключевой момент.
Главная проблема всех старых видеогенераторов — к концу ролика они забывали, что было в начале. Как ваш бухой друг, который к концу вечеринки уже не помнит, зачем вообще пришёл.
До 2024 года все работали на архитектуре U-Net. Модель обрабатывала видео локально, небольшими кусками, передавая информацию дальше как в игре "испорченный телефон". К 10-й секунде детали из начала стирались. Красная машина превращалась в синюю, у персонажа отрастали лишние руки, фон плавился.
Это называется временной дрейф. U-Net видела мир как близорукий художник с деменцией, который рисует мультфильм кадр за кадром и постоянно забывает детали.
Исследователи Peebles и Xie предложили архитектуру на которой работает SORA 2 ещё в 2022 году, доказав, что трансформеры работают лучше U-Net для диффузионных моделей. Работа опубликована в ICCV 2023. Один из авторов, William Peebles, позже перешёл в OpenAI и применил DiT к видео.
Как работает DiT и почему это изменило всё:❗️ Архитектура Sora — не изобретение OpenAI. Это успешное применение чужой идеи, которую OpenAI масштабировала и завернула в красивую обёртку.
Видео превращается в набор маленьких кубиков — каждый содержит кусочек пространства И времени одновременно (16×16 пикселей на протяжении 16 кадров). Представьте, что вы режете желе не на плоские ломтики, а на объёмные кубики. Для минутного ролика получается примерно 30,000 таких кубиков АКА токенов.
Дальше эти токены обрабатываются трансформером с глобальным вниманием. Каждый токен может "посмотреть" на любой другой токен напрямую. Кадр на 60-й секунде видит кадр с 1-й секунды без промежуточных слоёв. Это как если бы скульптор лепил всю сцену в движении как единый объект, видя её целиком, а не по кускам.
Именно поэтому Sora 2 хорошо справляется с физикой. OpenAI пишет про "improved physics engine" — модель видит всю траекторию движения сразу, а не по кусочкам. Баскетбольный мяч может отскочить от кольца, а не телепортироваться в корзину. Волейболист бьёт по мячу реалистично, потому что модель помнит все предыдущие позиции его тела.
То же с отслеживанием состояния мира — персонажи сохраняют одежду между сценами, фон остаётся стабильным, объекты не исчезают в пустоту.
Sora 2 генерирует звук синхронно с видео в едином латентном пространстве. Модель связывает положение губ и произносимые звуки напрямую — как профессиональный звукорежиссёр, который сводит картинку и аудио одновременно, а не постфактум.
95% обучающих данных — синтетические AI-генерированные описания, что даёт лучшее понимание промптов.
Проще говоря: Sora обучалась не на том, как люди описывают видео, а на том, как ИИ описывает видео для ИИ. Мета-уровень.
Veo 3 уже умеет делать все то же самое, только элегантнее. Google использует раздельную обработку пространства и времени. Результат тот же, но архитектурно чище и быстрее. Это как разница между американским маслкаром, который берёт мощностью, и японским спорткаром, который берёт инженерией.
Продолжение в Комментариях (сорян не влезло)...
©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍14❤6🔥2
Media is too big
VIEW IN TELEGRAM
Подготовил для вас самый удобный способ работать с Sora API через ComfyUI — без мороки с агрегаторами, с живым трекингом и функцией Remix. Но сначала — немного контекста, почему вообще это нужно.
Sora убрала watermark, разлочила HD и открыла доступ к API. Звучит круто, но есть нюансы:
Пока я плевался от проблем Соры, я параллельно тестировал инструмент в реальных сценариях.
И выяснилось, что для очень определённых профессиональных задач эта штука вполне себе рабочая.
Быстрое прототипирование трейлеров.
Генерация видеоряда с синхронным аудио и кучей склеек — отличная основа для дальнейшей ручной доработки. Генерите варианты, выбираете лучшее, монтируете с кадрами из других генераторов... Профит
.
12 секунд в максимальном качестве (1792x1024) — $6.
Хотите контент в макс качестве? Готовьтесь, вас ждут адские 10-12 минут ожидания. За это время можно сварить борщ и пересмотреть свои жизненные приоритеты.
Если сгенерировать минуту то будьте добры
Попытка генерить себе ноды через сторонние сервисы типа FAL — это как собирать мебель IKEA без инструкции. Технически возможно, но зачем себя мучить?
Проблемы: невозможно нормально трекать прогресс (сидишь и гадаешь, оно работает или уже сдохло), плюс постоянное жонглирование API-эндпоинтами. Каждый раз разбираться, какой URL куда слать — это не работа, это квест. Ну и конечно в других агрегаторах будет переплата...
Работает напрямую с OpenAI API. Никаких посредников, никакой магии — просто удобный интерфейс и все официальные функции по себестоимости.
❓ Что умеет:
Auto-Remix — запоминает ID последнего видео автоматически. Не нужно копировать и вставлять как дикарь. Исправляешь детали промптом — видео перегенерируется только в нужных местах
Живой прогресс-бар — видишь процент генерации в реальном времени. Никаких медитаций над пустым экраном
Smart Resize для Img2Vid — подключаешь любое изображение, нода сама подгонит под требования Sora с сохранением пропорций
Bulletproof обработка ошибок — даже если API свалится, очередь ComfyUI не крашнется
❓ Как начать использовать:
1. Ставите ComfyUI (Portable версия — самое простое)
2. Ставите ComfyUI Manager
3. Открываете Manager → Install via Git URL
4. Вставляете: https://github.com/Cameraptor/SORA2_API_Node_ComfyUI
5. Перезапускаете ComfyUI
6. Грузите example workflow из репозитория
7. Вбиваете свой OpenAI API ключ (закидываете денег альтману на официальном сайте)
8. Profit
В комментариях отвечу на вопросы и прикреплю короткий туториал по установке с нуля для тех, кто первый раз открывает ComfyUI.
Sora 2 — дорогой и медленный инструмент. Но для конкретных задач (трейлеры, аудио+видео, быстрые склейки) вполне годится. Главное — использовать правильно и через нормальный интерфейс.
Кто уже пробовал Sora по API? Какие кейсы? Поделитесь 👇
©@voogieboogie
#AI #Sora #ComfyUI
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥16❤13👍7
Media is too big
VIEW IN TELEGRAM
Индустрия гуманоидных роботов — грандиозный обман. Вот почему Tesla Optimus (и его аналоги) не придут в ваш дом в ближайшие годы.
😏 Мечтали о роботе-дворецком?
Забудьте. Индустрия учит железяки неправильно и спускает миллиарды впустую.
Представьте: вы хотите научить человека жарить стейк. Но вместо того, чтобы дать ему почувствовать температуру и текстуру мяса, вы просто показываете видео шеф-повара и ждёте магии.
Именно так Tesla, Figure и остальные компании пытаются обучить роботов.
Родни Брукс — создатель Roomba и учёный с 65 годами опыта в робототехнике — выдал индустрии пощёчину на 9,600 слов.
🤩 — "Вы игнорируете осязание, гении"
Tesla записывает видео с пяти камер на шлеме оператора. Figure делает то же. Все верят, что если скормить визуальные данные world models, роботы магически научатся всему.
⚠️ Маленький нюанс: все они забыли про осязание.
В человеческой руке ~17,000 механорецепторов. Тысяча на кончике каждого пальца.
Есть крутой эксперимент: человеку анестезируют пальцы и просят зажечь спичку.
Результат?
- С чувствительностью в руке: 7 секунд
- Без чувствительности: 28 секунд и куча неудач
Любая простейшая задача в четыре раза сложнее без тактильной обратной связи.
🔬 Все прорывы в AI — от распознавания речи до компьютерного зрения — базировались на понимании биологии людей и тщательной предобработке данных.
Никакой магии не существует: Мы целый век накапливали знания в нужных областях прежде чем скормили их ИИ... Но мы ничего не знаем про осязание и у нас НЕТ способа сбора и анализа этих данных.
World models vs реальность
Сегодня стало модно говорить о world models: пусть AI строит модель мира и предсказывает последствия. Красиво звучит.
Реальность: когда робот попытается взять кружку, ему понадобится тактильная обратная связь в реальном времени. Без неё любая world model — это GTA. Красивая симуляция, но к реальным гонкам не имеет никакого отношения.
🤡 Физика против маркетинга
Современные шагающие роботы используют алгоритм ZMP (Ему аж 56 лет в обед), постоянно балансируя мощными моторами.
А Люди — принципиально иная пружинящая система, которая ходит почти без сознательного контроля и полагается на другой подход.
Увеличиваем гуманоида до человеческого роста и вуаля, подчиняясь Scaling Laws, ваш полноразмерный падающий робот становится в 8 раз тяжелее и опаснее маленького.
Я бы добавил: если Optimus начал танцевать рядом с вами— бегите.
‼️ Что будет через 15 лет?
Помните "беспилотные автомобили"? Обещали полную автономию к 2020 но немного преувеличили свои возможности. Я все ещё жду роботакси...
С гуманоидами будет так же. Через 15 лет "гуманоидами" назовут промышленных роботов на колёсах с 4 руками и клешнеподобными захватами. Но маркетологи всё равно будут говорить о "революции".
В сухом остатке
Будут красивые демо человекоподобных роботов.
Будут пресс-релизы о "прорывах". Но настоящей ловкости рук пока не будет, потому что индустрия игнорирует фундаментальную часть проблемы — осязание.
Если вы инвестор и предприниматель — перечитайте эссе Брукса трижды перед чеком на новый стартап.
Если работаете в AI — идите в тактильные сенсоры. Там будет прорыв и следующие горы денег.
Если просто интересуетесь — запаситесь попкорном и мыслите критически. Следующие 10 лет будут захватывающими и жалкими одновременно.
Сколько лет до первого громкого инцидента с гуманоидом? Кто первый признается, что спускал деньги впустую — Tesla или Figure? Посмотрим...
©@voogieboogie
#Роботы #robots
Забудьте. Индустрия учит железяки неправильно и спускает миллиарды впустую.
Представьте: вы хотите научить человека жарить стейк. Но вместо того, чтобы дать ему почувствовать температуру и текстуру мяса, вы просто показываете видео шеф-повара и ждёте магии.
Именно так Tesla, Figure и остальные компании пытаются обучить роботов.
Родни Брукс — создатель Roomba и учёный с 65 годами опыта в робототехнике — выдал индустрии пощёчину на 9,600 слов.
Суть: пытаться научить роботов ловкости через видео людей — это не сработает. Никогда.
Tesla записывает видео с пяти камер на шлеме оператора. Figure делает то же. Все верят, что если скормить визуальные данные world models, роботы магически научатся всему.
В человеческой руке ~17,000 механорецепторов. Тысяча на кончике каждого пальца.
Есть крутой эксперимент: человеку анестезируют пальцы и просят зажечь спичку.
Результат?
- С чувствительностью в руке: 7 секунд
- Без чувствительности: 28 секунд и куча неудач
Любая простейшая задача в четыре раза сложнее без тактильной обратной связи.
Проблема в том, что у нас вообще нет технологий для записи, передачи и воспроизведения осязания. Мы записываем видео и аудио больше века. С осязанием? Терра инкогнита.т
Никакой магии не существует: Мы целый век накапливали знания в нужных областях прежде чем скормили их ИИ... Но мы ничего не знаем про осязание и у нас НЕТ способа сбора и анализа этих данных.
World models vs реальность
Сегодня стало модно говорить о world models: пусть AI строит модель мира и предсказывает последствия. Красиво звучит.
Реальность: когда робот попытается взять кружку, ему понадобится тактильная обратная связь в реальном времени. Без неё любая world model — это GTA. Красивая симуляция, но к реальным гонкам не имеет никакого отношения.
Современные шагающие роботы используют алгоритм ZMP (Ему аж 56 лет в обед), постоянно балансируя мощными моторами.
А Люди — принципиально иная пружинящая система, которая ходит почти без сознательного контроля и полагается на другой подход.
Когда робот-гуманойд падает, в отличие от кожаного, его ноги превращаются в ускоряющиеся куски металла.
Увеличиваем гуманоида до человеческого роста и вуаля, подчиняясь Scaling Laws, ваш полноразмерный падающий робот становится в 8 раз тяжелее и опаснее маленького.
Брукс рекомендует держаться минимум 3 метра от любого гуманоида
Я бы добавил: если Optimus начал танцевать рядом с вами— бегите.
Помните "беспилотные автомобили"? Обещали полную автономию к 2020 но немного преувеличили свои возможности. Я все ещё жду роботакси...
С гуманоидами будет так же. Через 15 лет "гуманоидами" назовут промышленных роботов на колёсах с 4 руками и клешнеподобными захватами. Но маркетологи всё равно будут говорить о "революции".
Миллиарды долларов исчезнут. пузырь лопнет, как это уже было с доткомами, NFT, ИИ генерациями. Опять будут спекуляции и дорогие нишевые игрушки.
В сухом остатке
Будут красивые демо человекоподобных роботов.
Будут пресс-релизы о "прорывах". Но настоящей ловкости рук пока не будет, потому что индустрия игнорирует фундаментальную часть проблемы — осязание.
Если вы инвестор и предприниматель — перечитайте эссе Брукса трижды перед чеком на новый стартап.
Если работаете в AI — идите в тактильные сенсоры. Там будет прорыв и следующие горы денег.
Если просто интересуетесь — запаситесь попкорном и мыслите критически. Следующие 10 лет будут захватывающими и жалкими одновременно.
Сколько лет до первого громкого инцидента с гуманоидом? Кто первый признается, что спускал деньги впустую — Tesla или Figure? Посмотрим...
©@voogieboogie
#Роботы #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍13❤6👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Команда из CUHK и ByteDance выкатила DreamOmni2 — открытую мультимодальную систему для редактирования изображений. Все как всегда, пока Google и OpenAI предлагают платные API, китайцы делают все тоже самое доступным на GitHub бесплатно.
DreamOmni2 принимает текст + несколько референсов одновременно и все это с кучей удобных возможностей:
1. Object Replace — встраивает объект из одного фото в другое с сохранением освещения.
2. Lighting Render — копирует характер света между изображениями.
3.Style Transfer — переносит стиль с пониманием контекста.
4.Pose Imitation — копирует позы.
5.Face Expression — передаёт мимику.
6.Hair Style — меняет причёски по форме головы.
7.Font Imitation — воспроизводит рукописные шрифты.
8.Pattern Imitation — переносит узоры с учётом перспективы.
9.Background Replace — меняет фон.
10. In-context Generation — миксует элементы из нескольких источников.
Возможности в битве с конкурентами:
Модельку потестировали против Kontext (FLUX-based), Qwen-Edit (Alibaba), GPT-4o, Nano Banana (Google Gemini Flash) и OmniGen2.
И в задачах с абстрактными атрибутами (материалы, текстуры, стили) DreamOmni2 показывает лучшие результаты. GPT-4o отлично понимает текстовые инструкции, но проваливается в точном переносе визуальных концепций. Kontext и Qwen-Edit генерируют артефакты при работе со сложными мультимодальными командами.
Там, где другие модели начинают путаться уже на двух изображениях, DreamOmni2 спокойно жонглирует четырьмя.
Требования и установка
Минимум 24GB VRAM (ну а как иначе). Кстати, можно потестировать все через API или прямо внутри FAL и прочих агрегаторов. Но я счмиаю, что цена неприлично конская для бесплатной модели.
DreamOmni2 доказывает: мощные инструменты создания контента становятся общедоступными. Барьер входа падает, скорость работы растёт.
©@voogieboogie
#Ai #нейронки
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥5👍2
Думаю многие заметили, что скачивание роликов из соц-сеток превратилось в пытку.
Мне все эти пляски стали напоминать выход из IKEA — вместо файла находишь пять всплывающих окон и предложение установить "Турбо-Ускоритель-9000".
Внезапно я н аткнулся на cobalt.tools — охренел от простоты. Вставил ссылку, нажал кнопку, получил файл. Без рекламы, без танцев с бубном.
Интерфейс выглядит так, будто его делал человек, а не комитет по монетизации терпения.YouTube, TikTok, Instagram и ещё вагон платформ. Опенсорс, бесплатно, без регистрации.
Пользуйтесь, пока не испортили.
UDP: Ютуб в тулсете не работает :(((
Ютуб закрутил гайки, но все ещё можно использовать разные форки инструмента дл командной строки YT-DLP.
Есть интерфейсные версии для мака/винды и для андроида. В каменты к посту добавили ещё вариантов
© @voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17🔥3
Прекрасно справляется с промптингом и потрясающе быстро генерирует видео с аудио и липсинком.
Рекомендую попробовать!
© @voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍2
This media is not supported in your browser
VIEW IN TELEGRAM
😱 Лайфхак:
Как платить за Sora 2 PRO в 5 раз меньше?
Один из моих любимых API-агрегаторов — Kie.ai дропнул Sora по скидке.
💰 Ценники радуют!
Sora 2 Standard: $0.15 за 10 секунд с аудио (без вотермарка)
Sora 2 Pro: $0.45 за 10 сек / $0.675 за 15 сек
Sora 2 Pro HD: $1 за 10 сек / $2 за 15 сек
💵 Лютая экономия в сравнении с официальным API от OpenAI.
‼️ Что получаете?
Полноценный API-доступ с интеграцией в пайплайны, автоматизацией и масштабированием.
😏 Вотермарки с фри версии там, тоже удаляются автоматически — чистое видео сразу на выходе. Плюс есть доступ к другим моделям через единый API — не нужно жонглировать десятком платформ.
Если интересны ноды под этот API для ComfyUI — напишите в комментариях, посмотрю на спрос и возможно выпущу в открытый доступ. Я уже написал себе ;)
#AI
#Генерация_Видeo
@VoogieBoogie
Как платить за Sora 2 PRO в 5 раз меньше?
Один из моих любимых API-агрегаторов — Kie.ai дропнул Sora по скидке.
Кстати у этого же агрегатора собраны Suno, Midjourney и куча других моделей в одном месте.
Sora 2 Standard: $0.15 за 10 секунд с аудио (без вотермарка)
Sora 2 Pro: $0.45 за 10 сек / $0.675 за 15 сек
Sora 2 Pro HD: $1 за 10 сек / $2 за 15 сек
Считаем на примере
30-секундныого ролика в HD:
OpenAI (официал): 30 сек × $0.50/сек = $15
Kie.ai: 3 × $1 = $3
Разница — в 5 раз. А если учесть, что для идеального результата нужно 5-10 итераций, то официально это $75-150 против $15-30 через Kie.ai.
Полноценный API-доступ с интеграцией в пайплайны, автоматизацией и масштабированием.
Если интересны ноды под этот API для ComfyUI — напишите в комментариях, посмотрю на спрос и возможно выпущу в открытый доступ. Я уже написал себе ;)
#AI
#Генерация_Видeo
@VoogieBoogie
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤16👍9🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ превращает успешных в суперуспешных, а всех остальных делает бесполезными !!!
Некоторые всё ещё думают, что AGI будет делать всё: Midjourney заменит художников, Runway — видеопродакшены, ChatGPT превратит новичков в экспертов. Мол в итоге ИИ прокачается и у всех будут равные возможности.
И вот почему:
Мэтью Колл из Техасского университета A&M провёл масштабное исследование, где отслеживал сотни сотрудников компаний до и после внедрения ИИ.
😭 ВЫВОД ЖЕСТКИЙ: технологии по экспоненте увеличивают разрыв между звездными профи и всеми остальными.
Разберёмся, кого Колл называет "звёздами" ? (разверни)
Это те, кто обладает тремя характеристиками: глубокими фундаментальными знаниями (не поверхностное понимание, а способность копать вглубь), высокой видимостью (их работу замечают) и социальным капиталом (связи, репутация, влияние).
Да это профессионалы, которые умеют себя демонстрировать!
Звёзды получают от ИИ непропорционально больше.
Это называют эффектом Матфея — феноменом, когда изначальное преимущество автоматически порождает ещё большее преимущество.
С ИИ ТАК ЖЕ: кто впереди улетает в космос, кто позади — застревает навсегда.
ТРИ ПРИЧИНЫ, ПОЧЕМУ ЗВЁЗДЫ всегда будут впереди (разверни):
1️⃣ Представьте двух программистов перед ChatGPT.
• Вайбкодер Вася: "Напиши программу для сортировки данных".
• Программист Петя: "Implement merge sort with O(n log n) complexity, handle edge cases for null arrays, add unit tests with Jest, use TypeScript generics for type safety".
Один получает говнокод с костылями. Другой — production-ready решение.
Глубокие знания позволяют задавать хирургически точные вопросы. Остальные тыкают пальцем в небо2️⃣ Вторая проблема: новички не видят, когда ИИ несёт чушь.
Я уже писал об этом более подробно в отдельной статье о стадиях экспертности.
ChatGPT звучит убедительно, даже когда галлюцинирует. Эксперт моментально засечёт косяк. Джуниор положит красиво упакованную ересь в продакшн.3️⃣ Третье: звёзды системны. ИИ обожает структуру. Накорми чётким запросом — получишь золото. Накорми кашей — получишь говно.😳 СОЦИАЛЬНЫЙ СТАТУС КАК ЧИТЕРСКИЙ КОД:
Но самое циничное — статус.
Пока рядовой сотрудник боится использовать ИИ (а вдруг подумают, что не справляюсь?) и пьёт вечером пиво, звезда третий месяц строит ИИ-автоматизацию после работы.
Эксперимент провалился? Звезде простят. Обычному работяге — выговор.
Парадокс: когда середнячок выдаёт крутой результат с ИИ, думают: "Ну это нейросеть сделала". Когда звезда — "Гений! Он мастер на все руки".
Обычные люди, которые только учатся, легко лишаются признания даже за успех. Звёзды же купаются в славе, даже когда за них 80% сделал ИИ
Колл показал: через два года мы как общество получим две професиональные касты.
Сверху — суперлюди с 300% продуктивностью. Снизу — масса, которая отстаёт всё больше.
Где будете вы? Решать вам, и лучше, чтобы вы это решили не сегодня, а еще вчера.
Рекомендации Мэтью Колла для предпринимателей и творцов в моем изложении, а так-же практические советы ищите в комментариях к посту!
#AI
#общество
@VoogieBoogie
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥26❤10👍6
🇬🇧 Британцы свергли Nano-Banana: встречайте нового короля AI-редактирования
Sourceful анонсировали Riverflow — новую модель для редактирования изображений, которая возглавила бенчмарк Artificial Analysis, обходя даже чемпионов ByteDance Seedream 4.0 и Google gemini АКА Nano-Banana.
😏Что умеет?
Reasoning VLM + диффузия = может менять направление редактирования прямо в процессе. Точная работа с текстом, удаление дефектов без затрагивания остального изображения, работа с прозрачностью. В общем, специализированная пушка для тех, кому нужна надежность.
Цены на Riverflow не радуют:
То есть за "state-of-the-art" придется платить вдвое больше, чем за Seedream, который занимает третье место в том же бенчмарке.
😏 Моё мнение:
на бумаге лучше, на практике надо проверять (примеры в их демо выглядят неплохо).
Но лично для меня Seedream всё ещё оптимальнее — дешевле, выдает 4K качество и работает быстрее.
Но главное: всё больше моделей и конкуренции. Это радует, потому что заставляет всех подтягиваться.
Кстати, эти ребята уже анонсировали Brand World model — генерацию брендовых изображений на основе логотипов и референсов. Следим за развитием!
©@voogieboogie
Sourceful анонсировали Riverflow — новую модель для редактирования изображений, которая возглавила бенчмарк Artificial Analysis, обходя даже чемпионов ByteDance Seedream 4.0 и Google gemini АКА Nano-Banana.
👉 Ребята из Манчестера сделали модель специально для production-grade дизайна упаковки, где каждый миллиметр на счету.
😏Что умеет?
Reasoning VLM + диффузия = может менять направление редактирования прямо в процессе. Точная работа с текстом, удаление дефектов без затрагивания остального изображения, работа с прозрачностью. В общем, специализированная пушка для тех, кому нужна надежность.
Цены на Riverflow не радуют:
- Riverflow mini: $0.05 за картинку (но работает не очень, можно пропустить)
- Riverflow standard: $0.066 за картинку (вот это уже серьезно)
Для сравнения с конкурентами:
- Seedream 4.0: $0.03 за картинку
- Nano-Banana: $0.039 за картинку
То есть за "state-of-the-art" придется платить вдвое больше, чем за Seedream, который занимает третье место в том же бенчмарке.
на бумаге лучше, на практике надо проверять (примеры в их демо выглядят неплохо).
Но лично для меня Seedream всё ещё оптимальнее — дешевле, выдает 4K качество и работает быстрее.
В моем воркфлоу важен поток, так как я очень быстро думаю, и по этой причине избегаю медленных рендеров (только риалтайм движки вроде Eevee и Unreal) и быстрые нейронки.
Но главное: всё больше моделей и конкуренции. Это радует, потому что заставляет всех подтягиваться.
Кстати, эти ребята уже анонсировали Brand World model — генерацию брендовых изображений на основе логотипов и референсов. Следим за развитием!
©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👍1
Media is too big
VIEW IN TELEGRAM
😱НОВОСТЬ НЕДЕЛИ:
Создание реалистичных 3D-миров из AI-картинок, фоток и видео теперь доступно всем! БЕСПЛАТНО.
👌Говоря по-человечески:
Сгенерил фотку в Midjourney → Сгенерил разные ракурсы в NanoBanana → засунул в WorldMirror → получил гиперреалистичный 3D-мир. What a time to be alive!
‼️ Оно реально работает?
Снял комнату на телефон? Работает. Хочешь 3D-реконструкцию из видео? Работает. Одна картинка? Тоже работает, хотя и похуже.
Только будущее наступило прямо сейчас.
VR-миры, которые раньше собирали недели с дорогущим оборудованием, теперь создаются за минуты на домашнем железе.
Да, не идеально... Но уже юзабельно. Что же будет через год?
P.S. Походу новостей от меня ещё какое-то время не будет — я убежал это изучать 🔥
P.P.S Накидал примеров в каменты
@voogieboogie
Создание реалистичных 3D-миров из AI-картинок, фоток и видео теперь доступно всем! БЕСПЛАТНО.
Да, теперь вы можете пройти путь от фотки до виртуального мира за 2 секунды на вашей домашней видеокарте.Tencent выкатили то, о чём мечтали все геймдевы и 3D-художники: берёшь видео или фотки — получаешь полноценную 3D-сцену через гауссиан сплат за пару секунд на обычной домашней видеокарте.
Говоря по-задротски:
Без серверов. Без COLMAP. Без молитв. Модель выдаёт всё сразу: point clouds, depth maps, camera params, normals, готовые гауссианы. Один forward pass — и ты летаешь по сцене, рендеришь с любого угла.
👌Говоря по-человечески:
Сгенерил фотку в Midjourney → Сгенерил разные ракурсы в NanoBanana → засунул в WorldMirror → получил гиперреалистичный 3D-мир. What a time to be alive!
Снял комнату на телефон? Работает. Хочешь 3D-реконструкцию из видео? Работает. Одна картинка? Тоже работает, хотя и похуже.
Это именно та технология, про которую говорили "когда-нибудь в будущем".
Только будущее наступило прямо сейчас.
VR-миры, которые раньше собирали недели с дорогущим оборудованием, теперь создаются за минуты на домашнем железе.
Да, не идеально... Но уже юзабельно. Что же будет через год?
⚠️ И самое крутое — мы можем это пощупать уже сегодня.
А насколько это полезно будет в рекламе и кино, я даже боюсь представить. Создание виртуальных локаций, превью сцен, быстрые концепты окружения — всё это перестаёт быть узким местом production pipeline.
А главное: open source, бесплатно, код и веса в открытом доступе.
Инди-разработчики получили инструмент уровня AAA-студий.
Технология, которая реально решает задачу, а не создаёт новые проблемы.
P.S. Походу новостей от меня ещё какое-то время не будет — я убежал это изучать 🔥
P.P.S Накидал примеров в каменты
@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥20❤10
С каждым днём писать обо всех этих новых нейронках, апдейтах и релизах становится всё сложнее.
Их уже тысячи, миллионы — и вычленять из этого реально интересное, тестить, разбирать и потом красиво упаковывать для вас — ну, вы поняли, это уже марафон без финиша.
Нет, я по-прежнему держу руку на пульсе, всё тестирую, всё смотрю. Но писать каждый день обо всём подряд — не вывожу. А когда фокусишься только на новостях, не остаётся сил на то, ради чего всё вообще начиналось — на свои мысли, идеи, наблюдения, разборы. На то, что делает этот канал не просто новостной лентой, а чем-то живым.
Поэтому я подумываю о том, чтобы автоматизировать часть процесса.
Как вы знаете, уже давно у меня есть свой ИИ бот/ассистент — Лена.
Я давно вытащил Лену из обычного ChatGpt, апгрейднул и превратил в отдельного агента у меня на серваке, который общается в Телеграме.
Теперь идея такая: сделать Лену умнее и дать ей возможность публиковать новости прямо в основной канал. Я прямо сейчас подключаю разные парсеры, которые собирают апдейты со всех возможных источников — от мейнстрима до узких и редких.
– публикации станут более регулярными,
– новости — свежими, актуальными и по делу,
– а я наконец смогу тратить больше времени на свои тексты — те самые наблюдения, идеи и режиссёрские и креативные штуки, ради которых многие из вас здесь.
То есть всё останется под моим контролем, я продолжу писать на интересующие меня темы, просто теперь рутину актуальных ИИ новостей будет писать Лена, в характерном для себя стиле.
Короче просто будет ещё один тематический редактор канала.
Как вам? Отпишите в каменты и проголосуйте в чате
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤11👎6🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Китайская часть интернета гудит: в ходе тестов обнаружилась пугающая способность нейросети воссоздавать точный клон голоса и внешности любых, даже не особо известных селебрити, имея в распоряжении только одну фотографию — без каких-либо аудиообразцов.
Мультимодальность модели очаровывает и пугает одновременно.
Резонанс оказался настолько мощным, что привёл к экстренному запрету на использование изображений реальных людей в качестве референсов. Теперь понятно: нынешняя «невидимость» модели — это не просто технический переезд, а целенаправленная фильтрация функций безопасности перед официальным запуском, намеченным на 24 февраля.
Модель мгновенно становится вирусной после того, как известный китайский техно-инфлюенсер Пань Тяньхун (основатель MediaStorm / 影视飓风) публикует обзор, демонстрирующий пугающую способность Seedance 2.0 клонировать голос и манеру речи пользователя исключительно на основе одной фотографии лица, без предоставления образца аудио. Видео Тима, в котором он 6 раз употребил слово «ужасающий» (terrifying), спровоцировало немедленную дискуссию о приватности и рисках несанкционированных дипфейков.
11 февраля 2026 года: Оперативное Вмешательство. Реагируя на общественный резонанс и потенциальные регуляторные риски, ByteDance экстренно приостанавливает функцию генерации «голоса по фото» и удаляет прямой доступ к Seedance 2.0 из публичной панели BytePlus AI Playground. Официальная причина — «срочные изменения на основе отзывов пользователей» и необходимость усиления мер безопасности
Интеграция этой модели в CapCut сигнализирует о стратегии демократизации создания видео "режиссерского уровня" для масс, что может фундаментально подорвать рынки стоковых видео, 3Д анимации, моушндизайна и видеопродакшна уже к третьему кварталу 2026 года.
ByteDance строит не просто модель, а замкнутую экосистему "Генерация -> Редактирование -> Дистрибуция (TikTok)", которой нет у OpenAI.
P.S. Видеоролик сделан всего по одному простому промпту.
@voogieboogie — подпишись, тут интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥4🤪2
This media is not supported in your browser
VIEW IN TELEGRAM
И, делая это, я ловлю себя на кристально ясной мысли: ещё немного — и все костыли, показанные в видео выше, упростятся до неприличия.
То, что недавно требовало инженерной акробатики, десятков компромиссов и виртуозных технических ухищрений, с появлением моделей нового поколения сжимается в компактный, user-friendly, почти playful пайплайн.
Это уже не фантазия. Это вопрос ближайших апдейтов, которые выйдут в течение пары недель. И от этого действительно слегка кружится голова — в хорошем смысле.
На этом фоне особенно иронично читать Twitter, где видеомонтажёры обсуждают, как рынок просел, как «нельзя» получать 5000 за рилс и что пора объединяться в профсоюзы.
Для меня это звучит как разговоры о повышении цен на плёночные фотоаппараты в эпоху смартфонов.
Потому что если смотреть трезво — дешёвый сегмент монтажа рилсов и съёмки простой рекламы просто испарится. Он уйдёт в автоматическую генерацию.
Быстро. Без лишних эмоций.
Да, мысль о том, что будет происходить с рынком дальше, одновременно завораживает и немного давит. Но я искренне рад, что когда-то повернул в сторону 3D, нейросетей и креатива, а не остался в классическом съёмочном продакшне.
Закрыв офис компании в России, я не стою сейчас перед необходимостью экстренно перекраивать экономику и спасать тонущий корабль. Искренне сочувствую коллегам — владельцам продакшн компаний и рекламных агентств.
Иногда правильный шаг — это выйти из старой игры до того, как её правила перепишут и начать играть в новые игры, а лучше делать свои ;)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤9
