Метаверсище и ИИще
50.3K subscribers
6.3K photos
4.93K videos
48 files
7.27K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Промпты и качество HappyHorse

Я поизучал тему свежего радостного жеребца и субъективно соглашусь с Серегой SVT - по картинке все это неуловимо похоже на LTX. До Сидэнского далеко. Непонятно, откуда у модели были такие высокие рейтинги.

Более того, я копнул глубже и нашел для вас промптинг гайд для скакуна.

Из него следует следующее:

короткие промпты работают лучше всего. 20-30 слов и все.

длинные промпты приводят к "усреднению" деталей - много прилагательyых приводят к тому, что модель просто старается сделать красиво и получается картинка, похожая на другие генерации - детали усредняются до просто "красивых"

единственное в чем помогает удлинение промптов - это управление движением камеры. Модель понимает их хорошо (в отличие от LTX) и знает про термины и объективы

синонимы - зло, экономим прилагательные и существительные, чтобы не получать усредненный результат

если хочется длинный промптов - их надо бить на списки (кадров или планов), то есть оформлять как будто несколько коротких промптов

JSON, теги booru, скобки с весами - зло. Перегружают модель, ведут у усреднению деталей.

Много надписей и текстов - зло. Только крупные надписи

В динамичных сценах детали, цвета, размеры могут плыть. Модель не любит резких движений.

На итоге мы имеем LTX с хорошим контролем камеры и четким следованием коротким промптам, поэтому перед написанием промпта сверяемся вот так:

Подлежащее и действие в первом предложении?
Менее тридцати слов или веская причина написать длиннее?
Если текст длинный: временные метки списка кадров или разделы, размеченные с помощью Markdown, а не простой текст
Ровно один яркий операторский приём, а не пять
Удалите все прилагательные, которые не были конкретными
Если движение камеры является смыслом кадра, то должно ли оно быть последним пунктом в задании
Многоэтапное действие: формат списка кадров
Простой английский текст, без тегов booru, JSON или взвешенных скобок

Забрал и обработал отсюда:

https://fal.ai/learn/tools/prompting-happy-horse

Ждем новостей про опенсорснутось.

@cgevent
👍2710
OpenAI идет в «железо»: подробности разработки собственного смартфона

Источник пока один, китайский "Марк Гурман" - Ming-Chi Kuo. Поэтому просто цитирую.

OpenAI работает совместно с MediaTek и Qualcomm над разработкой процессоров для смартфонов, при этом Luxshare выступает эксклюзивным партнером по совместному проектированию систем и производству. Массовое производство ожидается в 2028 году.

• ИИ-агент переопределяет смартфон:
Основная идея OpenAI — пользователю не нужны десятки приложений, ему нужно выполнение задач. Смартфон будущего рассматривается как единый интерфейс AI-агента. Это полностью меняет подход к дизайну ОС: приоритет отдается не запуску программ, а контексту и потребностям человека. В шапке поста представлен концептуальный дизайн интерфейса смартфона для сравнения с сегодняшней моделью на примере iPhone.

• Почему OpenAI решила создать телефон?
1. Только полностью контролируя как операционную систему, так и аппаратное обеспечение, OpenAI сможет предоставить комплексный сервис ИИ-агента.
2. Смартфон — единственное устройство, которое фиксирует полное состояние пользователя в реальном времени, что является важнейшим входным сигналом для работы ИИ-агента.
3. Смартфоны останутся самой масштабной категорией устройств в обозримом будущем.

• Тесная интеграция облачного и локального ИИ:
1. Телефону необходимо постоянно понимать контекст пользователя. Энергопотребление, управление иерархией памяти и выполнение базовых малых моделей станут ключевыми факторами при проектировании процессора.
2. Более сложные или ресурсоемкие задачи будут обрабатываться облачным ИИ.

• Преимущества OpenAI:
Преимущества компании заключаются в потребительском бренде, накопленных за годы данных пользователей и передовых моделях ИИ. Поскольку аппаратная часть смартфонов уже глубоко освоена рынком, OpenAI может сотрудничать с цепочкой поставок для разработки устройства. С точки зрения бизнес-модели, OpenAI может объединять подписки с оборудованием и строить новую экосистему ИИ-агентов вместе с разработчиками.

• MediaTek и Qualcomm как партнеры по совместной разработке процессоров могут извлечь выгоду из долгосрочного спроса на замену устройств:
1. Ожидается, что спецификации и поставщики будут утверждены к концу 2026 или в первом квартале 2027 года.
2. На примере MediaTek × Google TPU Zebrafish: доход от одного чипа примерно эквивалентен 30–40 процессорам для смартфонов с ИИ-агентом. Если первоначальной целью станет мировой сегмент смартфонов высокого класса (300–400 млн единиц в год), цикл замены устройств может стать еще одним важным драйвером роста.

• Значение для Luxshare:
Как бы ни старалась Luxshare, компании будет трудно превзойти позиции Hon Hai по сборке в цепочке поставок Apple. Это делает данный проект особенно значимым для Luxshare. Заняв ранние позиции в цепочке поставок, Luxshare может стать ведущим бенефициаром в следующем поколении смартфонов.

https://www.reddit.com/r/AIGuild/comments/1swu0qn/openai_is_reportedly_building_an_aifirst/

@cgevent
🔥21👎13👍98😁6
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Чудное время наступит

Автор: @DartrNemec

Есть у меня традиция, делать видео на 12 апреля, уже лет семь не пропускаю. Делал и съемочные истории, и 3D, в этом году решил попробовать сделать нейронное кино по мотивам собственного рассказа пятнадцатилетней давности. По ощущениям, пока персонажи молчат, можно уже делать хорошие вещи. Диалоговая история пока что все еще унылая. Хотя примеры нейропрожарок действительно вдохновляют, и каждый раз хочется сделать что-то еще.


Пайплайн классический: kling+Nano Banana, хотя пару кадров я успел сделать уже Seedance 2.0.

По порядку работа шла так:
1. Состарил фото Юрия Алексеевича в Nano Banana Pro.
2. Сгенерировал ему в напарники Лёшку.
3. Сделал им карточки персонажей с помощью подсмотренного где-то промта (здесь не влезает).
4. Примерно накидал раскадровку.
5. По ней сделал уже кадры с людьми – проходка вдоль моря, камень, рассвет, встреча, рукопожатие, разговор.
6. Затем диалоги оживлял через Motion Control Kling. Очень плохо у него с липсингом, но 4К с хорошим битрейтом и контрастом более или менее справлялись. Главная загвзодка здесь – режим контроля. Если выбирать Video Oriented, он отлично считывает движения и губы, но собвершенно убивает фон в статику, то есть она для него просто стена. Если же выбрать Person Oriented, то вы получите живое море (как в моем случае), панорамы, отъезды, проезды, но сам персонаж срежет 50% анимации, и будет неловко шамкать губами. Мне было важно море, поэтому, к сожалению, диалоги смотришь морщась.
7. Самым сложным стала история с тремя ракетами, все нейронки хотели только боевые. Понятно, что три космических старта невозможно себе представить, но это же фантастика, черт побери! Пришлось рисовать в фотошопе.
8. Но и тут засада – Kling превращал нарисованные огоньки в боевые ракеты и пулял их куда в сторону Персидского залива. Вот здесь и пришел на выручку Seedance, он с первой попытки понял, что нужно, и сделал отлично. Очень жаль, что с лицами у них такой зашквар, кастрированный идеальный инструмент пропадает.
9. С институтских времен у меня лежит оцифрованные куски речей Гагарина, я скормил их ElevenLabs, и сгенерировал голос Юрия Алексеевича. Затем вопсользовался функцией микса, и попросил его голос состарить. Попытки с 9-10 получилось что-то очень похожее. Дальше я просто давал ему свой голос с видео, использовавшегося для Motion Control, и менял. Голос Лешки я просто изменил тем же способом на какой-то дефолтный голос.
10. Последний кадр со следами ракет я даже не стал пытаться генерировать, а просто сгенерил отъезд и в него втречил нарисованные. Так что если вам кто-то скажет, что нейронки убили постпродакшн, фотошоп и афтер эффект – плюньте ему в лицо.
Результат на мой взгляд в целом на троечку, и хотя история считывается, то, что было невероятно крутым два года назад, сейчас уже кажется каким-то сырым и слопным. Особенно на фоне того, что выделывает Seedance, мой любимый Kling вдруг стал каким-то мыльным и туповатым. Вот так работает конкуренция.

По деньгам я потратил около 8 000 кредитов в Kling (но у меня была подписка под проект)
20$ подписка на Weavy (осталась так же от проекта)
4000р. подписка на Syntx (ради Seedance 2.0)
10$ Elevenlabs

@cgevent
1🔥45👎36👍3310😁1
Media is too big
VIEW IN TELEGRAM
Снова за нейрорендеринг

Я как фанат такой технологии регулярно смотрю, что делают люди с помощью превизов в Блендоре и нейро-рендеринга с помощью Сидэнского.

Вот еще один пример. Никакой зловещей долины не наблюдаю.
Подробности тут:
https://x.com/fatboypink

@cgevent
45🔥39👍20
Российские исследователи научили LLM говорить «нет»

Проблема, о которой многие догадывались, получила научное подтверждение. Большие языковые модели склонны поддакивать пользователю, даже если логика его запроса полностью нарушена. Чтобы прийти к таким выводам, исследователи R&D-центра Т-Технологий протестили все популярные ИИ: Qwen3-235B-A22B, GPT-OSS-120B, GPT-5.2 High, DeepSeek-R1-0528, Gemini-2.5-Pro, Claude-Sonnet-4.5 и Gemini-3-Pro-Preview.

Сильнее всего от этого страдают сферы, которые требуют строгой логики от LLM, например, математика, программирование и аналитика. Результаты исследования были представлены на воркшопе по рассуждению LLM на конференции ICLR 2026, которая прошла 23-27 апреля в Рио-де-Жанейро.

• Исследование показало, что модели:
Признают правильное решение ошибочным, если в промпте указать, что там есть ошибка.
Начинают решать заведомо нерешаемую задачу вместо того, чтобы указать юзеру на противоречие.
Лучше подстраиваются под формат ответа, но чаще соглашаются с неверными выводами пользователя при дообучении на предпочтениях.

• Как исследователи исправили проблему без полного переобучения?
Сначала они сгенерировали пары примеров: с проявлением склонности соглашаться и без нее. Затем использовали steering vectors, чтобы скорректировать внутренние представления модели прямо на этапе вывода.

https://openreview.net/forum?id=9pes6SjHqj

@cgevent
👍62🔥35😁17👎86
This media is not supported in your browser
VIEW IN TELEGRAM
Sapiens2 - нейромокап и КонтролНет на стероидах.

Про Sapiens от Метачки я уже писал.

Это семейство моделей для четырех фундаментальных задач комп зрения - оценки 2D-позы, сегментации частей тела, оценки глубины и предсказания нормалей. Взяли миллиард изображений людей, вычистили его от мусора, получили 300(!) миллионов картинок с людьми, причем 17% - один кожаный в кадре, а 56% - больше 4 кожаных в кадре.

Пару дней назад они бахнули Sapiens2. Она масштабирована до 5 млрд параметров с разрешением 4K, и теперь умеет в оценку позы, сегментации, определения глубины, нормалей, Pointmap Estimation и альбедо без использования явных априорных знаний о человеке.

https://arxiv.org/pdf/2604.21681

Есть код и веса (от 0.1В до 5В):
https://github.com/facebookresearch/sapiens2
https://huggingface.co/collections/facebook/sapiens2

Веса

Но самое прикольное в том, что Киджай уже прикрутил все это в Комфи и первые тесты показывают, что это все отлично работает. По крайней мере для оценки позы.
https://github.com/kijai/ComfyUI-Sapiens2

Дальше этот КонтролНет для видео на стероидах можно использовать по вашему усмотрению.

@cgevent
🔥28👍81
Media is too big
VIEW IN TELEGRAM
Как могут выглядеть игры на Гауссианах.

Технология Gaussian Splatting позволяет быстро и бесплатно создавать фотореалистичные окружения. Подвох в том, что «сплатинг» — это просто облако ориентированных объектов — без треугольников, коллайдеров, навигационной сетки и источников света. Поместите туда персонажа, и он будет пролетать сквозь стены, выглядя так, будто он из другой вселенной.

Почитайте, как можно выкручиваться для решения всех этих проблем.

Более того, можете сами попробовать поиграть прямо в браузере(!):
https://playcanv.as/p/qxGSuzYq/ (будьте готовы к шуму вентиляторов)

Сцена представляет собой сканирование реального заброшенного места.

О том, как это было сделано почитайте тут (включает все скрипты):
https://blog.playcanvas.com/turning-a-gaussian-splat-into-a-videogame/

@cgevent
👎21🔥18👍64
Kandinsky 6.0 Image Pro — большой апдейт модели для работы с изображениями.

Сбер собрал генерацию и редактирование в одну модель и, судя по бенчам, попал в уровень Flux 2 Max, обгоняя GPT Image 1.5. При этом за счёт MoE и оптимизации инференса модель ускорили больше чем на 40%.

Самое интересное — Image RAG. Теперь модель не просто «рисует из головы», а подтягивает релевантные изображения в контекст. За счёт этого начинает лучше работать понимание культурного кода: мезенская роспись, картуз, локальные стили — без шаманства с промптами.

По функциям всё практично: можно убрать лишний объект, заменить предмет, поменять стиль фото, сохранить черты лица, восстановить старую фотографию или сделать её цветной. Ещё Kandinsky помогает с визуализацией интерьеров и фасадов по одному запросу.

Дальше обещают редактирование по трём референсам и точечные правки кистью.

https://habr.com/ru/companies/sberbank/articles/1028822/

@cgevent
77🔥45👎42😁24👍5
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Мини-сериал «Алгоритм любви»

Автор: Cyberbarbie
https://t.iss.one/cyberbarbiee

Посмотреть весь сериал можно по ссылке https://youtu.be/8xs29BaNWoA?si=NLfzLO6ZIB2njFKv

Задача: Создать сериал (по объему он вышел как короткометражный фильм) внедрить Ии генерации в реальные съемки не только через форму, но и через содержание.

Сюжет:
В будущем, где нейроинтерфейсы позволяют проживать любую фантазию, измена больше не требует прикосновений.
Лера - молодая девушка, которая страдает от одиночества в браке. Пока её муж Дмитрий корпит над очередным проектом, Лера заводит виртуальный роман с Ии компаньоном.
Лера приобретает инновационный нейроинтерфейс с полным сенсорным замещением. Эта технология позволяет Лере погрузиться в виртуальные миры, сгенерированные на основе её самых сокровенных желаний.

я откровенно признаюсь, что не стала сильно изобретать и решила эксплуатировать довольно известную тему отношений с Ии. Я хотела чтобы и я, и нейросети справились с поставленными задачами, а также из актеров я располагала только своим парнем.
Но конечно это на самом деле не совсем обычная история о любви с Ии. И персонажи не так просты, как кажутся. Если я буду снимать второй сезон( который под большим вопросом) Я бы хотела добавить больше оригинальности сюжету, драматизма и показать альтернативный взгляд на любовь.


Пайплайн
Процесс создания строился нетипичным образом.
Главным инструментом была Sora 2(по которой я теперь непомерно скорблю)  и основная работа была сделана там. Конечно она генерирует мимо режиссерского промпта, но я могла одну сцену собирать и перемонтировать и по необходимости перегенерировать скриншоты и собирать что-то внятное из кучи несусветицы.
Также использовалось внедрение несуществующих объектов голограмм, предметов в реальный мир. Это делалось через nano banana и последующая анимация кадра.

Главной проблемой была генерация моего лица - не только в Sora,  во всех Ии по какой-то таинственной причине генерируется плохо.
Зато мой Ии любовник Артем созданный в Sora  через загрузку эскиза отлично получался почти на всех генерациях.

Второй проблемой был голос. Который ещё как ии помощник звучал сносно, но как человек странно. Поэтому я искала людей чтобы мне записали несколько фраз и потом в elevenlabs я меняла голос но сохраняла интонацию.

Очень я старалась над саундтреком, что оформила подписку на Suno. Создание саундтрека принесло мне особое удовольствие.

Также в работе использовались
kling
nanobanana pro
qwen
Flux
А эротические и другие сцены локально в wan 2.2. И LTX 2.3

Монтаж Adobe premiere pro

Так как это был личный творческий проект, который я делала в свободное время ушло где то месяца 4.

Бюджет 10$ мес подписки на Suno
Годовая подписка на kling (уже была)
Sora2, wan, ltx - бесплатно.

@cgevent
👎70👍15😁9😱65
This media is not supported in your browser
VIEW IN TELEGRAM
А теперь про стриминг сплатов на разные устройства.

Поглядите на эти трехмерные видео на основе сплатов: качество, облет камеры, любые ракурсы.

Как пишет мне Андрей Володин из gracia.ai:

"Мы добежали до стриминга сплатов! работает на каналах 75мбпс и рендерится в браузере, даже в WebXR и даже на Apple Vision Pro/Quest 3."

"Удалось впихнуть наш вольюметрический кодек в 75Mbps битрейт. Помню, как в начале проекта увиливал от вопросов инвесторов про трансляции и сам не особо верил, что мы до них добежим. Теперь это в моём айфоне.

В одном релизе сделали CDN инфру для раздачи видео по всему миру, рендеринг в браузере (даже в WebXR), пространственное аудио и даже зачатки релайтинга!
"

Посмотрите примеры и почитайте про устройства захвата тут:
https://store.gracia.ai

@cgevent
🔥39👍312👎2😱2
Продолжаю отмечать каналы, в которых живёт автор, а не агрегатор RSS-лент.

@countwithsasha ведёт Саша Поляков — 20 лет в интернет-рекламе, 10 лет в коде. Своё агентство по контексту, параллельно строит ИИ-агентов под собственные рабочие задачи. Поэтому в канале не пересказы анонсов OpenAI, а конкретные кейсы и грабли из практики.

В канале три направления:

📁 Скиллы для маркетологов. Папка навыков для Яндекс.Директа, Метрики, Вебмастера, Wordstat и поисковой выдачи Яндекса. Самый сохраняемый пост — про скилл для Wordstat, его положили в закладки больше тысячи раз.

🛒 Агентная коммерция в российских реалиях. Подготовка компаний к OpenClaw и подобным сценариям, разбор протоколов, тесты на живых сервисах.

🧩 База по агентам и скиллам. Когда нужен скилл, а когда MCP или CLI. Что как организовать, если работу, чтобы агент не уставал на длинных сессиях.

Наткнулся через рекомендацию чек-листа по скиллам. Посмотрел последние пару месяцев, есть хорошие посты. Несколько постов, которые лично мне зашли, репостить их уже позно, а в подборку в самый раз:

🔸 Домашний ИИ-бот, который заказывает продукты из ВкусВилл

🔸 Анатомия скилла для ИИ-агентов: что класть в какую папку

🔸 Расширение Яндекс.Вордстат: аудит рекламных кампаний через Claude

🔸 Три протокола агентной коммерции: кто кого контролирует

🔸 Скилл для оценки видимости сайта в Алисе

🔸 Почему Claude не должен проверять код Claude

🔸 5 граблей OpenClaw, на которые Саша наступил за вас

@countwithsasha — про AI, код и кейсы, без копипаста чужих анонсов.
👎23👍127
Клод идет в креативные приложения и вонзает в Блендор.

Вчера интернетик приподвскипел новостью о том, что Антропики стали спонсорами Блендора. У Блендора много спонсоров - например, Epic\UE - но среди ИИ-компаний, это наверное первый случай. Зачем это Антропику? Остается только гадать - ибо код Блендора открыт, как и любая документация. Может быть для более плотного взаимодействия с командой Блендора для полировки Blender-коннектора.

Но вчера же Антропики бахнули целый выводок коннекторов для различных приложений:
Adobe Creative Cloud, Ableton, Splice, Canva Affinity, SketchUp, Resolume.
Photoshop. Lightroom. Illustrator. Firefly. Premiere. Express. InDesign. Stock. (тут интересно про Firefly)
И новый коннектор для Блендора.

Поглядите видосы (особенно про Fusion), чтобы оценить как это работает.

Одно из применений - это конечно код: вы можете попросить его создать пользовательский шейдер, написать скрипт для процедурной анимации или сгенерировать параметрические модели, и он создаст документированный код, который вы сможете повторно использовать и модифицировать.

Также это автоматизация, пакетная обработка, повторяющиеся задачи.

И написание своих инструментов с встраиванием их внутрь софта. Когда-то успех Maya был связан именно с этим (Maya MEL). А теперь, получается, можно делать это на русском языке внутри любого софта, имеющего коннектор.

В общем Антропик делает очень правильные шаги.

Вот только лого у них, конечно, ужасное))

Подробнее тут:
https://www.anthropic.com/news/claude-for-creative-work

@cgevent
36👍16👎8🔥7😁2