Вуги‐Буги
1.33K subscribers
51 photos
61 videos
96 links
Танцуем мозгами!

Автор прошел путь от вирусных роликов и рекламы, до полнометражки.

🎬 Режиссёр • 3D-аниматор • Креативный директор • Продюсер = https://cameraptor.com/voogie

Рассказываю как устроена индустрия изнутри + нейросети, которые её меняют.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👑У нас новый император генерации изображений, и разумеется он китайский!!!

ByteDance и другие гиганты КНР на этой неделе работают как конвейер по производству хайпа — одно обновление за другим.

Сегодня они подтвердили абсолютную доминацию Seedream 4.0, которая просто размазала всех конкурентов по Artificial Analysis и заняла #1 место, обойдя Нану-Банану АКА Gemini 2.5 Flash, Imagen 4 и GPT-4o.

👑 Если кратко то привет генерация 2K изображений за 1.8 секунды с поддержкой разрешений до 4K и официальная корона от пользователей =)

Но сначала — лирическое отступление про дешёвую фото\видео генерацию по API (кому там Seedance?) от ByteDance
⚡️Оказывается, ByteDance запустил платформу BytePlus, которая теперь принимает оплату от не-китайских пользователей. Это значит, что вы наконец-то можете нормально генерировать во всех их моделях, включая Seedance PRO (который, на мой взгляд, до сих пор один из лучших видеогенераторов).

Более того:
~10 бесплатных генераций пятисекундных видео в максимальном качестве
$0.03 за вызов API или смешные 2,490₽ за 1000 генераций (2.49₽ за изображение)
API по цене в разы дешевле агрегаторов (Вайбкодим ноды и в бой)

Доступ к Seedream 4.0 на BytePlus пока недоступен, но появится скоро (как и на других агрегаторах).


⁉️Что умеет Seedream 4.0? (если вы еще не вкурсе)
1️⃣ Batch Input & Output
Загружаете до 6 референсов → получаете до 9 согласованных изображений за раз. Идеально для серий, вариаций продуктов, сториборда.

🕙 Prompt-based Editing одной фразой:
"Remove the boy in this picture"
"Turn on the lights to light up the living room"
"Change 'Festival' to 'Photography Exhibition'"
"Colorize and repair the scratches"

Любите Flux Kontext и Nano Banana? Так вот, Seedream 4.0 делает всё то же самое, только похоже что ещё точнее и быстрее.

Одна фраза — и модель понимает контекст без костылей.

3️⃣ Text Rendering
ByteDance выдали текст среди всех конкурентов — читаемые надписи, правильные шрифты, точное выравнивание. Наконец-то можно забыть про иероглифы на плакатах.

4️⃣ Knowledge-driven Generation
Модель понимает контекст и может создавать образовательные иллюстрации, математические формулы, исторические таймлайны, инфографику — всё, что трбует не просто картинки, а понимания смысла.


Почему это реально прорыв?

В 10+ раз быстрее предыдущей версии. ELO 1222 на Text-to-Image Leaderboard. #1 на Image Editing Leaderboard.


Пока Midjourney вместо API дает вам танцы с бубном и боты в Discord, китайцы решили разорвать Google, OpenAI и всех остальных. Профессионально. Быстро. И в 4K.

Ну а если вам жалко денег на API, у вас теперь есть новенький Qwen.

Где потестить и когда ждать полный доступ?
Прямо сейчас можно поиграться на AIGC Arena (5 бесплатных генераций в день, правда не гарантировано что выпадет именно Seedream 4).

Уже доступна у всех API провайдеров: fal.ai, Replicate, и другие


Все технические подробности, архитектуру и бенчмарки можно изучить официальном пейпере (там 50+ авторов ByteDance Seed Team постарались).

❗️PS ОБЯЗАТЕЛЬНО СОХРАНИТЕ ПОСТ
Специально для вас я сделал Custom GPT на основе официальной документации, который генерирует топовые промпты к Seedream 4.0.

Это важно, потому что правила промптинга для неё отличаются от других моделей и даже от версии 3.0.


Короче, скоро мы с вами заговорим по-китайски 🇨🇳

PPS ну и не забывайте шерить годноту друзьям :)

©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
325🔥10👍4
Forwarded from Нейронично
Media is too big
VIEW IN TELEGRAM
Hunyuan 3.0 x Tripo v3 x Hitem 1.5 x Meshy 6 x Rodin Gen-2

Все главные ИИ-3д-генераторы выкатили обновления.
Блендер-сцены с модельками прикреплю в комменты.

Hunyuan 3.0 -
https://3d.hunyuan.tencent.com/
Hunyuan 3D Studio -
https://3d.hunyuan.tencent.com/studio

Hitem 1.5 -
https://hitem3d.ai/
Tripo v 3.0 -
https://studio.tripo3d.ai/workspace/generate

Rodin Gen-2 -
https://hyper3d.ai/
Meshy 6 -
https://www.meshy.ai/workspace

#3d_Aironically
9
🤔 Sora 2 вышла, и этот "король" — голый!

Сегодня вернулся OpenAI с громкими заявлениями о "революционном прогрессе" и синхронизированным аудио. Хайп поднялся до небес, Демо видео просто космические, но реальность куда прозаичнее.

⁉️Что не так:
Качество по дефолту — шакальное. Сайт лагает так, что приходится обновлять вкладку. В продакшене это мало применимо. Только соцсети или костыли с апскейлом через WAN 2.2 в ComfyUI

IMG TO VIDEO работает из рук вон плохо: 99% результатов либо статичные, либо косячные. Люди на месте стоят, как манекены. Нет возможности задать начальную и финальную картинку для плавных переходов сцен — просто загружаешь одну картинку и молишься.

Прилично работает только TXT TO VIDEO!

❗️Модерация жёстче стереотипов о китайских цензорах — блокирует половину промптов и входящих изображений. У самих китайцев такой цензуры нет. Попытался что-то чуть креативнее бабки на бегемоте? Бан.

Черри-пикинг от OpenAI и реальность — два параллельных мира!!!
То, что показывают в официальных промо, и то, что получается у юзеров — небо и земля.

🔖В API функций ещё не завезли! Никакого 1080p...


😊⚡️ Я прогнал несколько своих концепт-артов — результаты прикреплены.


В сухом остатке: Годится пока только для AI-слопа. Хотя физика работает топово, но блин через раз!

Пока OpenAI буксовали работали над Sora год, китайцы ушли в отрыв. Надеюсь они просто пока не раскатали свои мощности.

❤️‍🔥 PS. Больше моих реальных демок в комментах, там же оставлю инвайт для доступа.
А вы тестили? Поделитесь опытом.

©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍4🔥1
🤓👾🤓 Сегодня заметка для задротов тех, кто копается в агентных системах и N8N.

Щас пойдут отписки :)

🔬Вышла занимательная статья в Nature Communications про архитектуру MAP (Modular Agentic Planner).

Учёные взяли префронтальную кору мозга, разобрали её на составные части — как она занимается планированием — и воссоздали этот процесс через специализированные LLM-модули.

Почему это интересно?
Обычная LLM в планировании работает как один универсальный инструмент: вроде справляется, но постоянно где-то спотыкается.

Проблема в том, что LLM могут выполнять отдельные функции планирования, но плохо координируют их между собой.

Отсюда галлюцинации, нереалистичные планы и забытые ограничения.


👁‍🗨Что предложили исследователи:
Систему из специализированных модулей, где каждый — отдельный LLM с чёткой ролью:
• Монитор — отлавливает ошибки и конфликты

• Актёр — предлагает действия

• Предиктор — просчитывает последствия

• Оценщик — определяет ценность решений

• Декомпозер — разбивает задачи на подзадачи

• Оркестратор — координирует весь процесс

На классической задаче "Ханойская башня" точность выросла с 11% до 74% — довольно значительный скачок.
⚠️Практическое применение:
Такую схему теоретически можно воспроизвести для персонального таск-менеджера если вы кодер или N8N задрот.

Примерная архитектура:
ВХОД (задачи + контекст)

ДЕКОМПОЗЕР → разбивает сложные задачи

МОНИТОР → проверяет конфликты и реалистичность

ПРЕДИКТОР → оценивает последствия

ОЦЕНЩИК → расставляет приоритеты

ОРКЕСТРАТОР → собирает финальный план

⁉️Зачем это нужно вашему ИИ таск-менеджеру?

Такая система сможет проверять реалистичность планов, разбивать абстрактные цели на конкретные шаги, учитывать вашу энергию и контекстные переключения, автоматически ловить временные коллизии.

Да, это требует больше API-вызовов и сложнее в настройке, чем один промпт. Но разница между списком дел и планом, который реально работает, похоже стоит этих усилий.


Если кто-то пробовал в сложные мультиагентные таскменеддеры в N8N — поделитесь опытом.

Интересно посмотреть на практические реализации.

©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥11
🧠 Почему Sora 2 технически крута, но всё равно УЖЕ проиграла китайцам!

После того как я разнёс Sora 2 в прошлом посте, мне в личку посыпались сообщения:

— "Вуги, ты несправедлив! Sora технически революционная!"

Ладно, давайте разбираться честно и по фактам. Прочитал пост Никиты Шарипова про различия архитектуры Veo 3 и Sora 2, и решил копнуть глубже.

Давайте ответим на вопрос:
Как вообще работают эти генераторы, и почему за год качество выросло с "что за херня" до "почти кино"?

Спойлер: Sora 2 действительно технически сильна. Но уникальной её не назовёшь — и это ключевой момент.


👌Старая беда ИИ генераторов: видео с памятью золотой рыбки

Главная проблема всех старых видеогенераторов — к концу ролика они забывали, что было в начале. Как ваш бухой друг, который к концу вечеринки уже не помнит, зачем вообще пришёл.

До 2024 года все работали на архитектуре U-Net. Модель обрабатывала видео локально, небольшими кусками, передавая информацию дальше как в игре "испорченный телефон". К 10-й секунде детали из начала стирались. Красная машина превращалась в синюю, у персонажа отрастали лишние руки, фон плавился.

Это называется временной дрейф. U-Net видела мир как близорукий художник с деменцией, который рисует мультфильм кадр за кадром и постоянно забывает детали.

🔜Потом Появился DiT, и правила игры изменились

Исследователи Peebles и Xie предложили архитектуру на которой работает SORA 2 ещё в 2022 году, доказав, что трансформеры работают лучше U-Net для диффузионных моделей. Работа опубликована в ICCV 2023. Один из авторов, William Peebles, позже перешёл в OpenAI и применил DiT к видео.

❗️Архитектура Sora — не изобретение OpenAI. Это успешное применение чужой идеи, которую OpenAI масштабировала и завернула в красивую обёртку.
Как работает DiT и почему это изменило всё:
Видео превращается в набор маленьких кубиков — каждый содержит кусочек пространства И времени одновременно (16×16 пикселей на протяжении 16 кадров). Представьте, что вы режете желе не на плоские ломтики, а на объёмные кубики. Для минутного ролика получается примерно 30,000 таких кубиков АКА токенов.

Дальше эти токены обрабатываются трансформером с глобальным вниманием. Каждый токен может "посмотреть" на любой другой токен напрямую. Кадр на 60-й секунде видит кадр с 1-й секунды без промежуточных слоёв. Это как если бы скульптор лепил всю сцену в движении как единый объект, видя её целиком, а не по кускам.

Именно поэтому Sora 2 хорошо справляется с физикой. OpenAI пишет про "improved physics engine" — модель видит всю траекторию движения сразу, а не по кусочкам. Баскетбольный мяч может отскочить от кольца, а не телепортироваться в корзину. Волейболист бьёт по мячу реалистично, потому что модель помнит все предыдущие позиции его тела.

То же с отслеживанием состояния мира — персонажи сохраняют одежду между сценами, фон остаётся стабильным, объекты не исчезают в пустоту.



👂Синхронный звук — тоже через DiT

Sora 2 генерирует звук синхронно с видео в едином латентном пространстве. Модель связывает положение губ и произносимые звуки напрямую — как профессиональный звукорежиссёр, который сводит картинку и аудио одновременно, а не постфактум.

📝Плюс OpenAI использует автоматическое улучшение промптов — GPT переписывает ваш запрос ДО генерации видео. Вы пишете "Вуги дичь гонит", а система превращает это в детальное описание с освещением, одеждой, атмосферой.

95% обучающих данных — синтетические AI-генерированные описания, что даёт лучшее понимание промптов.

Проще говоря:
Sora обучалась не на том, как люди описывают видео, а на том, как ИИ описывает видео для ИИ. Мета-уровень.

Veo 3 уже умеет делать все то же самое, только элегантнее. Google использует раздельную обработку пространства и времени. Результат тот же, но архитектурно чище и быстрее. Это как разница между американским маслкаром, который берёт мощностью, и японским спорткаром, который берёт инженерией.


📤Проблема SORA: она жрёт вычисления как не в себя...

Продолжение в Комментариях (сорян не влезло)...

©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍146🔥2
Media is too big
VIEW IN TELEGRAM
📺 Самый удобный способ генерировать в Sora 2: без вотермарков и в максимальном качестве

Подготовил для вас самый удобный способ работать с Sora API через ComfyUI — без мороки с агрегаторами, с живым трекингом и функцией Remix. Но сначала — немного контекста, почему вообще это нужно.

💥Самое важное:
Sora убрала watermark, разлочила HD и открыла доступ к API. Звучит круто, но есть нюансы:

Пока я плевался от проблем Соры, я параллельно тестировал инструмент в реальных сценариях.

И выяснилось, что для очень определённых профессиональных задач эта штука вполне себе рабочая.

⁉️ Для чего Sora действительно годится:
Быстрое прототипирование трейлеров.

Генерация видеоряда с синхронным аудио и кучей склеек — отличная основа для дальнейшей ручной доработки. Генерите варианты, выбираете лучшее, монтируете с кадрами из других генераторов... Профит
.

🤑💸 Цены просто космические!

12 секунд в максимальном качестве (1792x1024) — $6
.
Хотите контент в макс качестве? Готовьтесь, вас ждут адские 10-12 минут ожидания. За это время можно сварить борщ и пересмотреть свои жизненные приоритеты.

Если сгенерировать минуту то будьте добры продать почку отвалить $30 баксов!

📹Full HD — это маркетинг! Обещанное разрешение на деле не дотягивает. Сюрприз-сюрприз. 20 секунд генерации нам тоже не завезли. На выбор только 4-8-12 секунд...

⁉️Почему API-агрегаторы Соры — это страдание:

Попытка генерить себе ноды через сторонние сервисы типа FAL — это как собирать мебель IKEA без инструкции. Технически возможно, но зачем себя мучить?

Проблемы: невозможно нормально трекать прогресс (сидишь и гадаешь, оно работает или уже сдохло), плюс постоянное жонглирование API-эндпоинтами. Каждый раз разбираться, какой URL куда слать — это не работа, это квест. Ну и конечно в других агрегаторах будет переплата...

❗️❗️Поэтому я написал свою ноду для ComfyUi!

Работает напрямую с OpenAI API. Никаких посредников, никакой магии — просто удобный интерфейс и все официальные функции по себестоимости.

Что умеет:
Auto-Remix — запоминает ID последнего видео автоматически. Не нужно копировать и вставлять как дикарь. Исправляешь детали промптом — видео перегенерируется только в нужных местах

Живой прогресс-бар — видишь процент генерации в реальном времени. Никаких медитаций над пустым экраном

Smart Resize для Img2Vid — подключаешь любое изображение, нода сама подгонит под требования Sora с сохранением пропорций

Bulletproof обработка ошибок — даже если API свалится, очередь ComfyUI не крашнется


Как начать использовать:
1. Ставите ComfyUI (Portable версия — самое простое)
2. Ставите ComfyUI Manager
3. Открываете Manager → Install via Git URL
4. Вставляете: https://github.com/Cameraptor/SORA2_API_Node_ComfyUI
5. Перезапускаете ComfyUI
6. Грузите example workflow из репозитория
7. Вбиваете свой OpenAI API ключ (закидываете денег альтману на официальном сайте)
8. Profit


😊Кстати: это моя первая публикация на GitHub специально для вас. Таких нод в открытом доступе пока нет. Сами создатели Комфи не раздуплились =).

В комментариях отвечу на вопросы и прикреплю короткий туториал по установке с нуля для тех, кто первый раз открывает ComfyUI.


❗️В сухом остатке:
Sora 2 — дорогой и медленный инструмент. Но для конкретных задач (трейлеры, аудио+видео, быстрые склейки) вполне годится. Главное — использовать правильно и через нормальный интерфейс.

Кто уже пробовал Sora по API? Какие кейсы? Поделитесь 👇

©@voogieboogie

#AI #Sora #ComfyUI
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1613👍7
Media is too big
VIEW IN TELEGRAM
Индустрия гуманоидных роботов — грандиозный обман. Вот почему Tesla Optimus (и его аналоги) не придут в ваш дом в ближайшие годы.

😏 Мечтали о роботе-дворецком?
Забудьте. Индустрия учит железяки неправильно и спускает миллиарды впустую.

Представьте: вы хотите научить человека жарить стейк. Но вместо того, чтобы дать ему почувствовать температуру и текстуру мяса, вы просто показываете видео шеф-повара и ждёте магии.

Именно так Tesla, Figure и остальные компании пытаются обучить роботов.

Родни Брукс — создатель Roomba и учёный с 65 годами опыта в робототехнике — выдал индустрии пощёчину на 9,600 слов.

Суть: пытаться научить роботов ловкости через видео людей — это не сработает. Никогда.
🤩 — "Вы игнорируете осязание, гении"

Tesla записывает видео с пяти камер на шлеме оператора. Figure делает то же. Все верят, что если скормить визуальные данные world models, роботы магически научатся всему.

⚠️Маленький нюанс: все они забыли про осязание.

В человеческой руке ~17,000 механорецепторов. Тысяча на кончике каждого пальца.

Есть крутой эксперимент: человеку анестезируют пальцы и просят зажечь спичку.

Результат?
- С чувствительностью в руке: 7 секунд
- Без чувствительности: 28 секунд и куча неудач

Любая простейшая задача в четыре раза сложнее без тактильной обратной связи.

Проблема в том, что у нас вообще нет технологий для записи, передачи и воспроизведения осязания. Мы записываем видео и аудио больше века. С осязанием? Терра инкогнита


🔬Все прорывы в AI — от распознавания речи до компьютерного зрения — базировались на понимании биологии людей и тщательной предобработке данных.

Никакой магии не существует: Мы целый век накапливали знания в нужных областях прежде чем скормили их ИИ... Но мы ничего не знаем про осязание и у нас НЕТ способа сбора и анализа этих данных.

World models vs реальность

Сегодня стало модно говорить о world models: пусть AI строит модель мира и предсказывает последствия. Красиво звучит.

Реальность: когда робот попытается взять кружку, ему понадобится тактильная обратная связь в реальном времени. Без неё любая world model — это GTA. Красивая симуляция, но к реальным гонкам не имеет никакого отношения.

🤡Физика против маркетинга

Современные шагающие роботы используют алгоритм ZMP (Ему аж 56 лет в обед), постоянно балансируя мощными моторами.

А Люди — принципиально иная пружинящая система, которая ходит почти без сознательного контроля и полагается на другой подход.

Когда робот-гуманойд падает, в отличие от кожаного, его ноги превращаются в ускоряющиеся куски металла.


Увеличиваем гуманоида до человеческого роста и вуаля, подчиняясь Scaling Laws, ваш полноразмерный падающий робот становится в 8 раз тяжелее и опаснее маленького.

Брукс рекомендует держаться минимум 3 метра от любого гуманоида

Я бы добавил: если Optimus начал танцевать рядом с вами— бегите.

‼️Что будет через 15 лет?

Помните "беспилотные автомобили"? Обещали полную автономию к 2020 но немного преувеличили свои возможности. Я все ещё жду роботакси...

С гуманоидами будет так же. Через 15 лет "гуманоидами" назовут промышленных роботов на колёсах с 4 руками и клешнеподобными захватами. Но маркетологи всё равно будут говорить о "революции".

Миллиарды долларов исчезнут. пузырь лопнет, как это уже было с доткомами, NFT, ИИ генерациями. Опять будут спекуляции и дорогие нишевые игрушки.


В сухом остатке

Будут красивые демо человекоподобных роботов.

Будут пресс-релизы о "прорывах". Но настоящей ловкости рук пока не будет, потому что индустрия игнорирует фундаментальную часть проблемы — осязание.

Если вы инвестор и предприниматель — перечитайте эссе Брукса трижды перед чеком на новый стартап.

Если работаете в AI — идите в тактильные сенсоры. Там будет прорыв и следующие горы денег.

Если просто интересуетесь — запаситесь попкорном и мыслите критически. Следующие 10 лет будут захватывающими и жалкими одновременно.

Сколько лет до первого громкого инцидента с гуманоидом? Кто первый признается, что спускал деньги впустую — Tesla или Figure? Посмотрим...

©@voogieboogie

#Роботы #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍136👎1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Китайцы выпустили бесплатный аналог Nano Banana: DreamOmni2 делает то, что коммерческим моделям не под силу

Команда из CUHK и ByteDance выкатила DreamOmni2 — открытую мультимодальную систему для редактирования изображений. Все как всегда, пока Google и OpenAI предлагают платные API, китайцы делают все тоже самое доступным на GitHub бесплатно.

Главная фишка: модель лучше конкурентов работает с абстрактными концепциями — текстурами, позами, художественными стилями.

DreamOmni2 принимает текст + несколько референсов одновременно и все это с кучей удобных возможностей:
1. Object Replace — встраивает объект из одного фото в другое с сохранением освещения.
2. Lighting Render — копирует характер света между изображениями.
3.Style Transfer — переносит стиль с пониманием контекста.
4.Pose Imitation — копирует позы.
5.Face Expression — передаёт мимику.
6.Hair Style — меняет причёски по форме головы.
7.Font Imitation — воспроизводит
рукописные шрифты.
8.Pattern Imitation — переносит узоры с учётом перспективы.
9.Background Replace — меняет фон.
10. In-context Generation — миксует элементы из нескольких источников.

❗️Главный кайф модели: судя по пэйперу она работает с 3-4 референсами одновременно, но без деградации качества.

Возможности в битве с конкурентами:
Модельку потестировали против Kontext (FLUX-based), Qwen-Edit (Alibaba), GPT-4o, Nano Banana (Google Gemini Flash) и OmniGen2.

И в задачах с абстрактными атрибутами (материалы, текстуры, стили) DreamOmni2 показывает лучшие результаты. GPT-4o отлично понимает текстовые инструкции, но проваливается в точном переносе визуальных концепций. Kontext и Qwen-Edit генерируют артефакты при работе со сложными мультимодальными командами.


❗️Множественные референсы — слабое место конкурентов.
Там, где другие модели начинают путаться уже на двух изображениях, DreamOmni2 спокойно жонглирует четырьмя.

Требования и установка
Минимум 24GB VRAM (ну а как иначе). Кстати, можно потестировать все через API или прямо внутри FAL и прочих агрегаторов. Но я счмиаю, что цена неприлично конская для бесплатной модели.

DreamOmni2 доказывает: мощные инструменты создания контента становятся общедоступными. Барьер входа падает, скорость работы растёт.

©@voogieboogie

#Ai #нейронки
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥5👍2
⚠️Скачивание видео с соц-сетей превратилось в квест!? Нашел решение...

Думаю многие заметили, что скачивание роликов из соц-сеток превратилось в пытку.


Мне все эти пляски стали напоминать выход из IKEA — вместо файла находишь пять всплывающих окон и предложение установить "Турбо-Ускоритель-9000".

Внезапно я н аткнулся на cobalt.tools — охренел от простоты. Вставил ссылку, нажал кнопку, получил файл. Без рекламы, без танцев с бубном.

YouTube, TikTok, Instagram и ещё вагон платформ. Опенсорс, бесплатно, без регистрации.
Интерфейс выглядит так, будто его делал человек, а не комитет по монетизации терпения.

Пользуйтесь, пока не испортили.

UDP: Ютуб в тулсете не работает :(((
Ютуб закрутил гайки, но все ещё можно использовать разные форки инструмента дл командной строки YT-DLP.

Есть интерфейсные версии для мака/винды и для андроида. В каменты к посту добавили ещё вариантов

© @voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥3
⚠️Grок Imagine обновился — и теперь это не бесполезная игрушка, а реальный конкурент.

💡Это прям отличный бесплатный видео и фото генератор без навязчивых водяных знаков, который может надавать по щщам Sora 2 и остальным.

Прекрасно справляется с промптингом и потрясающе быстро генерирует видео с аудио и липсинком.

💰И всё это бесплатно. Жаль FullHD пока нет даже на платке.

Рекомендую попробовать!

© @voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍2
Channel photo updated
This media is not supported in your browser
VIEW IN TELEGRAM
😱 Лайфхак:
Как платить за Sora 2 PRO в 5 раз меньше?

Один из моих любимых API-агрегаторов — Kie.ai дропнул Sora по скидке.

Кстати у этого же агрегатора собраны Suno, Midjourney и куча других моделей в одном месте.


💰Ценники радуют!
Sora 2 Standard: $0.15 за 10 секунд с аудио (без вотермарка)

Sora 2 Pro: $0.45 за 10 сек / $0.675 за 15 сек
Sora 2 Pro HD: $1 за 10 сек / $2 за 15 сек

💵Лютая экономия в сравнении с официальным API от OpenAI.

Считаем на примере
30-секундныого ролика в HD:

OpenAI (официал): 30 сек × $0.50/сек = $15
Kie.ai: 3 × $1 = $3
Разница — в 5 раз. А если учесть, что для идеального результата нужно 5-10 итераций, то официально это $75-150 против $15-30 через Kie.ai.


‼️Что получаете?
Полноценный API-доступ с интеграцией в пайплайны, автоматизацией и масштабированием.

😏 Вотермарки с фри версии там, тоже удаляются автоматически — чистое видео сразу на выходе. Плюс есть доступ к другим моделям через единый API — не нужно жонглировать десятком платформ.

Если интересны ноды под этот API для ComfyUI — напишите в комментариях, посмотрю на спрос и возможно выпущу в открытый доступ. Я уже написал себе ;)

#AI
#Генерация_Видeo

@VoogieBoogie
Please open Telegram to view this post
VIEW IN TELEGRAM
216👍9🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
🔬НАУЧНОЕ ИССЛЕДОВАНИЕ:
ИИ превращает успешных в суперуспешных, а всех остальных делает бесполезными !!!

Некоторые всё ещё думают, что AGI будет делать всё: Midjourney заменит художников, Runway — видеопродакшены, ChatGPT превратит новичков в экспертов. Мол в итоге ИИ прокачается и у всех будут равные возможности.

👎 НО ЭТО НЕ ПРОИЗОШЛО И НЕ ПРОИЗОЙДЁТ.

И вот почему:
Мэтью Колл из Техасского университета A&M провёл масштабное исследование, где отслеживал сотни сотрудников компаний до и после внедрения ИИ.

📎Результаты в The Wall Street Journal взорвали научную дискуссию.

😭ВЫВОД ЖЕСТКИЙ: технологии по экспоненте увеличивают разрыв между звездными профи и всеми остальными.


Разберёмся, кого Колл называет "звёздами" ? (разверни)
Это те, кто обладает тремя характеристиками: глубокими фундаментальными знаниями (не поверхностное понимание, а способность копать вглубь), высокой видимостью (их работу замечают) и социальным капиталом (связи, репутация, влияние).

Да это профессионалы, которые умеют себя демонстрировать!

Звёзды получают от ИИ непропорционально больше.

Это называют эффектом Матфея — феноменом, когда изначальное преимущество автоматически порождает ещё большее преимущество.

С ИИ ТАК ЖЕ: кто впереди улетает в космос, кто позади — застревает навсегда.

ТРИ ПРИЧИНЫ, ПОЧЕМУ ЗВЁЗДЫ всегда будут впереди (разверни):
1️⃣Представьте двух программистов перед ChatGPT.
Вайбкодер Вася: "Напиши программу для сортировки данных".
Программист Петя: "Implement merge sort with O(n log n) complexity, handle edge cases for null arrays, add unit tests with Jest, use TypeScript generics for type safety".

Один получает говнокод с костылями. Другой — production-ready решение.

Глубокие знания позволяют задавать хирургически точные вопросы. Остальные тыкают пальцем в небо

2️⃣Вторая проблема: новички не видят, когда ИИ несёт чушь.

Я уже писал об этом более подробно в отдельной статье о стадиях экспертности.

ChatGPT звучит убедительно, даже когда галлюцинирует. Эксперт моментально засечёт косяк. Джуниор положит красиво упакованную ересь в продакшн.

3️⃣Третье: звёзды системны. ИИ обожает структуру. Накорми чётким запросом — получишь золото. Накорми кашей — получишь говно.

😳СОЦИАЛЬНЫЙ СТАТУС КАК ЧИТЕРСКИЙ КОД:
Но самое циничное — статус.

Пока рядовой сотрудник боится использовать ИИ (а вдруг подумают, что не справляюсь?) и пьёт вечером пиво, звезда третий месяц строит ИИ-автоматизацию после работы.

Эксперимент провалился? Звезде простят. Обычному работяге — выговор.

Парадокс: когда середнячок выдаёт крутой результат с ИИ, думают: "Ну это нейросеть сделала". Когда звезда — "Гений! Он мастер на все руки".

Обычные люди, которые только учатся, легко лишаются признания даже за успех. Звёзды же купаются в славе, даже когда за них 80% сделал ИИ


Колл показал: через два года мы как общество получим две професиональные касты.

Сверху — суперлюди с 300% продуктивностью. Снизу — масса, которая отстаёт всё больше.

Где будете вы? Решать вам, и лучше, чтобы вы это решили не сегодня, а еще вчера.

Рекомендации Мэтью Колла для предпринимателей и творцов в моем изложении, а так-же практические советы ищите в комментариях к посту!

#AI
#общество

@VoogieBoogie
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥2610👍6
🇬🇧 Британцы свергли Nano-Banana: встречайте нового короля AI-редактирования

Sourceful анонсировали Riverflow — новую модель для редактирования изображений, которая возглавила бенчмарк Artificial Analysis, обходя даже чемпионов ByteDance Seedream 4.0 и Google gemini АКА Nano-Banana.

👉Ребята из Манчестера сделали модель специально для production-grade дизайна упаковки, где каждый миллиметр на счету.


😏Что умеет?
Reasoning VLM + диффузия = может менять направление редактирования прямо в процессе. Точная работа с текстом, удаление дефектов без затрагивания остального изображения, работа с прозрачностью. В общем, специализированная пушка для тех, кому нужна надежность.

Цены на Riverflow не радуют:
- Riverflow mini: $0.05 за картинку (но работает не очень, можно пропустить)

- Riverflow standard: $0.066 за картинку (вот это уже серьезно)

Для сравнения с конкурентами:
- Seedream 4.0: $0.03 за картинку

- Nano-Banana: $0.039 за картинку


То есть за "state-of-the-art" придется платить вдвое больше, чем за Seedream, который занимает третье место в том же бенчмарке.

😏Моё мнение:
на бумаге лучше, на практике надо проверять (примеры в их демо выглядят неплохо).

Но лично для меня Seedream всё ещё оптимальнее — дешевле, выдает 4K качество и работает быстрее.

В моем воркфлоу важен поток, так как я очень быстро думаю, и по этой причине избегаю медленных рендеров (только риалтайм движки вроде Eevee и Unreal) и быстрые нейронки.


Но главное: всё больше моделей и конкуренции. Это радует, потому что заставляет всех подтягиваться.

Кстати, эти ребята уже анонсировали Brand World model — генерацию брендовых изображений на основе логотипов и референсов. Следим за развитием!

©@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍1
Media is too big
VIEW IN TELEGRAM
😱НОВОСТЬ НЕДЕЛИ:
Создание реалистичных 3D-миров из AI-картинок, фоток и видео теперь доступно всем! БЕСПЛАТНО.

Да, теперь вы можете пройти путь от фотки до виртуального мира за 2 секунды на вашей домашней видеокарте.
Tencent выкатили то, о чём мечтали все геймдевы и 3D-художники: берёшь видео или фотки — получаешь полноценную 3D-сцену через гауссиан сплат за пару секунд на обычной домашней видеокарте.

Говоря по-задротски:
Без серверов. Без COLMAP. Без молитв. Модель выдаёт всё сразу: point clouds, depth maps, camera params, normals, готовые гауссианы. Один forward pass — и ты летаешь по сцене, рендеришь с любого угла.

👌Говоря по-человечески:
Сгенерил фотку в Midjourney → Сгенерил разные ракурсы в NanoBanana → засунул в WorldMirror → получил гиперреалистичный 3D-мир. What a time to be alive!

‼️Оно реально работает?
Снял комнату на телефон? Работает. Хочешь 3D-реконструкцию из видео? Работает. Одна картинка? Тоже работает, хотя и похуже.

Это именно та технология, про которую говорили "когда-нибудь в будущем".


Только будущее наступило прямо сейчас.

VR-миры, которые раньше собирали недели с дорогущим оборудованием, теперь создаются за минуты на домашнем железе.

Да, не идеально... Но уже юзабельно. Что же будет через год?

⚠️И самое крутое — мы можем это пощупать уже сегодня.
А насколько это полезно будет в рекламе и кино, я даже боюсь представить. Создание виртуальных локаций, превью сцен, быстрые концепты окружения — всё это перестаёт быть узким местом production pipeline.

А главное: open source, бесплатно, код и веса в открытом доступе.

Инди-разработчики получили инструмент уровня AAA-студий.

Технология, которая реально решает задачу, а не создаёт новые проблемы.



P.S. Походу новостей от меня ещё какое-то время не будет — я убежал это изучать 🔥

P.P.S Накидал примеров в каменты

@voogieboogie
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2010
🤩Чуваки, немного контекста:

С каждым днём писать обо всех этих новых нейронках, апдейтах и релизах становится всё сложнее.

Их уже тысячи, миллионы — и вычленять из этого реально интересное, тестить, разбирать и потом красиво упаковывать для вас — ну, вы поняли, это уже марафон без финиша.

Нет, я по-прежнему держу руку на пульсе, всё тестирую, всё смотрю. Но писать каждый день обо всём подряд — не вывожу. А когда фокусишься только на новостях, не остаётся сил на то, ради чего всё вообще начиналось — на свои мысли, идеи, наблюдения, разборы. На то, что делает этот канал не просто новостной лентой, а чем-то живым.

Поэтому я подумываю о том, чтобы автоматизировать часть процесса.


Как вы знаете, уже давно у меня есть свой ИИ бот/ассистент — Лена.

Я давно вытащил Лену из обычного ChatGpt, апгрейднул и превратил в отдельного агента у меня на серваке, который общается в Телеграме.

Теперь идея такая: сделать Лену умнее и дать ей возможность публиковать новости прямо в основной канал. Я прямо сейчас подключаю разные парсеры, которые собирают апдейты со всех возможных источников — от мейнстрима до узких и редких.
😏Логика простая: Лена отбирает самое интересное, пишет это в своём стиле (не подражая мне), кидает мне на апрув, и потом пост выходит у нас на канале.

👋Таким образом:
– публикации станут более регулярными,
– новости — свежими, актуальными и по делу,
– а я наконец смогу тратить больше времени на свои тексты — те самые наблюдения, идеи и режиссёрские и креативные штуки, ради которых многие из вас здесь.

То есть всё останется под моим контролем, я продолжу писать на интересующие меня темы, просто теперь рутину актуальных ИИ новостей будет писать Лена, в характерном для себя стиле.

Короче просто будет ещё один тематический редактор канала.

Как вам? Отпишите в каменты и проголосуйте в чате
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3010👎6🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Выяснил причину, по которой ByteDance резко ограничила бета-тест хайповой видеомодели Seedance 2, которая наводнила интернет новым витком гиперреалистичных экшен-генераций:

Китайская часть интернета гудит: в ходе тестов обнаружилась пугающая способность нейросети воссоздавать точный клон голоса и внешности любых, даже не особо известных селебрити, имея в распоряжении только одну фотографию — без каких-либо аудиообразцов.

Мультимодальность модели очаровывает и пугает одновременно.

Резонанс оказался настолько мощным, что привёл к экстренному запрету на использование изображений реальных людей в качестве референсов. Теперь понятно: нынешняя «невидимость» модели — это не просто технический переезд, а целенаправленная фильтрация функций безопасности перед официальным запуском, намеченным на 24 февраля.

Цитируем СМИ:
Модель мгновенно становится вирусной после того, как известный китайский техно-инфлюенсер Пань Тяньхун (основатель MediaStorm / 影视飓风) публикует обзор, демонстрирующий пугающую способность Seedance 2.0 клонировать голос и манеру речи пользователя исключительно на основе одной фотографии лица, без предоставления образца аудио. Видео Тима, в котором он 6 раз употребил слово «ужасающий» (terrifying), спровоцировало немедленную дискуссию о приватности и рисках несанкционированных дипфейков.

11 февраля 2026 года: Оперативное Вмешательство. Реагируя на общественный резонанс и потенциальные регуляторные риски, ByteDance экстренно приостанавливает функцию генерации «голоса по фото» и удаляет прямой доступ к Seedance 2.0 из публичной панели BytePlus AI Playground. Официальная причина — «срочные изменения на основе отзывов пользователей» и необходимость усиления мер безопасности


🔖 Думаю, после 24-го февраля мир медиа изменится так, как никогда до этого:

Интеграция этой модели в CapCut сигнализирует о стратегии демократизации создания видео "режиссерского уровня" для масс, что может фундаментально подорвать рынки стоковых видео, 3Д анимации, моушндизайна и видеопродакшна уже к третьему кварталу 2026 года.

ByteDance строит не просто модель, а замкнутую экосистему "Генерация -> Редактирование -> Дистрибуция (TikTok)", которой нет у OpenAI.


P.S. Видеоролик сделан всего по одному простому промпту.

@voogieboogie — подпишись, тут интересно.
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥2🤪1