VAI
2.98K subscribers
441 photos
76 videos
4 files
124 links
15 лет в компьютерной графике, 6 лет - арт-директор.
Работал над десятками проектов.
Изучаю ИИ для развития и собираю здесь свой опыт, находки и эксперименты.
Присоединяйтесь!
Личный контакт - @AlexBakakin
Boosty - boosty.to/vai_art

AI l ИИ
Download Telegram
Forwarded from эйай ньюз
Genie 3 — SOTA World Model от Google

World Model — это по сути нейронные игровые движки, позволяющие двигатся и взаимодействовать с миром.существующим исключительно в воображении нейросетки. Прошлое поколение — Genie 2, позволяло создать по текстовому промпту окружение, в котором можно было походить 10-20 секунд в 360p. В этом поколении разрешение уже 720p, а длится взаимодействие с ней может уже несколько минут.

Но делает особенной эту модель возможность хорошо помнить эти несколько минут симуляции, даже взаимодействия пользователя с миром. Одно из демонстрационных вдиео — как пользователь красит сцену, потом отходит и немного крутится по комнате, а краска на стене остаётся. А ведь меньше года назад в нейронном майнкрафте достаточно было просто отвернутся чтобы модель совсем забыла всё об окружающей среде.

Крайне сильно выросла и возможность симулировать живой мир — промпты позволяют сгенерировать не просто окружение, но и события в этом окружении. Такая эволюция позволяет уже запускать симуляцию для тренировки полноценных агентов для реального мира, которым можно тренировать выполнять разные задачи. Я, правда, очень смутно представляю как такое окружение сделать верифицируемым.

А вот игры на такой технологии представляются куда проще — ведь не просто так игровой гигант Tencent настолько сильно инвестирует в world models. Кстати, многие не знают что глава Google DeepMind, Демис Хассабис, начинал с игровой индустрии. До DeepMind он основал свою студию, которая выпустила несколько игр, например Evil Genius.

Блогпост

@ai_newz
👍4🔥3
Давненько не писал основные посты. Исправляюсь.

Одна тема — захват движения по видео, как по мне, остается неоправданно в тени. А ведь данные ИИ сервисы прокачались не хуже остальных. 💪

Суть простая, закидываешь видео с персонажем → нейросеть считывает движение → получаешь готовую анимацию, которую можно использовать в своём проекте.
И всё это — без motion capture-сессий, трекеров и костюмов.

Зачем это вообще нужно:

🔹 экономит часы (а то и дни) рутинной анимации
🔹 дает отличную базу, которую можно доработать руками
🔹 подходит и для реалистичных проектов, и для стилизованных
🔹 помогает тестировать идеи быстрее — особенно на этапе концепта

Также из того, что нужно знать, для того, чтобы анимация хорошо перенеслась:

🔹 движения должны быть хорошо различимы
🔹 человек должен быть полностью в кадре
🔹 качество исходного видео должно быть нормальным

Я протестил некоторое количество подобных сервисов — и могу точно сказать, что можно с нуля собрать неплохой результат.

По моему личному топу могу выделить топ 2 сервисов, которые как по мне выдают неплохой результат:

- QuickMagic
- Meshcapade

И там и там есть бесплатные попытки для захвата движения.

Сервисов много, так что, возможно, есть что-то, что я упустил.
Если знаете — пишите! Буду рад посмотреть и протестировать.

Пока инструменты ещё развиваются, но уже сейчас экономят массу времени.

Как перенести анимацию на свой скелет — расписывать не буду.
Достаточно вбить запрос на YouTube или RuTube — там ребята подробно рассказывают, как это делается.
Думаю, любой аниматор без проблем справится с этим.

Как по мне крутая тема! 🔥🔥🔥

P.S. Закинул в комментарии пример.

P.P.S. Я тут в отпуск ушел. Так что могу пропадать 😁. Вернусь с новыми силами и новыми постами. Не теряйте! И сами не пропадайте😁. Может получится написать пачку постов, пока будет побольше свободного времени от основных проектов.

P.P.P.S. Обложка, кстати, сгенерирована в Sora. И такое может ИИ. Главное правильно описать.

@VAI_ART
#VAI_General
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥7👍51👌1
Forwarded from Tips AI | IT & AI
Media is too big
VIEW IN TELEGRAM
💫 Вышла GPT-5 [блог]

• Гораздо точнее и быстрее отвечает, умеет думать сложнее, глубже понимает контекст.
• Сильно прокачан в программировании, может создавать красивые и работающие веб-приложения и игры
• Писать тексты стал не просто лучше, а с душой: стихи, рассказы, даже сложные структуры без шаблонов.
• В медицине теперь точнее, умнее, предупреждает о проблемах и помогает разбираться в сложных вопросах, но не заменяет врача.
• Может работать с картинками, видео и другими типами данных, понимает не только текст.
• Есть лёгкий режим для большинства задач и глубокое мышление для сложных вопросов. GPT сам решает, когда что использовать.
• Контекст до миллиона токенов
• Меньше галлюцинаций и не пытается угодить, а даёт честные ответы.

Важное:
• Бесплатные пользователи: базовый доступ, с ограничениями.
• Plus: больше запросов и возможностей.
• Pro: расширенное мышление, точные и глубокие ответы.
• Так же доступ через API.

GPT-5 доступен уже сегодня.

@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65
Век живи — век учись! 🧐

Сейчас такое большое количество инструментов, что не успеваешь понять, куда их можно применить. Появилось что-то новое, а ты ещё и со старым не успел всё протестировать. Поэтому некоторые вещи, даже лежащие на поверхности, могут просто не замечаться.

Я периодически занимаюсь поиском людей на проект, и иногда это может занимать больше времени, чем хотелось бы. Сидишь вручную, перебираешь ArtStation, Behance и тд. в поисках кандидатов.

Так было и с последней вакансией. Сел я вечером поискать сотрудника на задачи и подумал: а почему бы не попробовать сделать это через ChatGPT? Написал запрос с определёнными условиями. Скинул ссылки сайтов где искать, чтобы получить список подходящих кандидатов. И на моё удивление — получилось! Через минуту у меня был список из 30 человек, подходящих под заданные условия. Отобрал тех, кто точно подходит, и написал сразу пятерым. Итого — 10 минут и 5 писем. А обычно на это уходили часы. 🔥

Как же круто, что при должном подходе сейчас можно оптимизировать очень многие процессы! Нужно лишь понимать инструменты и иногда включать голову. 🙃

Ну и речь не только про поиск кандидатов. Такой подход можно применить к чему угодно: хотите что-то купить на Avito или Ozon — задаёте условия поиска, и через минуту у вас уже есть отсортированный список нужного. Это может экономить часы, а порой и целые дни вашего времени. 🔥

P.S. Обложка была сгенерирована в GPT-5, по первым тестам он стал лучше генерировать изображения, но дольше раза в 2-3.

@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥31
Я вернулся! Отдохнул, надеюсь сил теперь хватит надолго! За 2 недели накопилось некоторое количество новостей. Давайте пройдемся по ним!

🔹Genie 3. Искусственный интеллект от Google, создающий интерактивные миры по текстовому описанию.
Google DeepMind представило третье поколение своей революционной модели искусственного интеллекта – Genie 3.
Эта модель способна генерировать полноценные интерактивные трехмерные миры на основе простого текстового запроса, открывая новые горизонты для создания игр, симуляций и виртуального опыта. В комментарии закинул как сгенерированные люди внутри симуляции мира гуляют по симуляции внутри симуляции (в которой вы можете погулять сидя в своей симуляции).

🔹Midjourney запустили режим HD Video для подписчиков Pro и Mega. Продолжают развивать свой видеогенератор и пополнять его новыми фишками.

🔹GPT-5 уже здесь. Делился ссылкой на него ранее.

🔹Также OpenAI разродились двумя опенсорсными моделями, на 120b и 20b параметров. Модели рассуждающие, но нет мультимодальности, картинки и тем более звук модели не воспринимают.

🔹Suno. Скоро запустит Suno–Studio. Многодорожечное создание, экспорт в MIDI и многое другое. Становится более гибким и делает вектор на профессионалов и управляемость.

🔹ElevenLabs. Запустили Eleven Music. Заходят на поляну Suno. Инструмент, который позволяет создавать музыкальные композиции по текстовому описанию.

🔹Minimax Speech 2.5. Генератор речи от Минимакс(TTS):
По сравнению с версией Speech 02, выпущенной в мае, Speech 2.5 обладает тремя новыми фишками:
более высокой выразительностью речи на нескольких языках, более реалистичным воспроизведением голоса и широким охватом 40 языков.

🔹Grok 4, видимо на фоне появления GPT-5 также открыл доступ для бесплатных пользователей. Одна из самых сильных языковых моделей, которая может так же в редактирование и генерацию изображений.

🔹Matrix-Game 2.0 - опенсорс ответочка на Genie 3 от Google. Генерирует контент в 25 фпс, про разрешение и качество скромно умалчивают.
Можно обучать на своих видосах и получать на выходе миры, размером под 7-8 гиг, по которым можно бегать.

🔹Wonder Studio. Облачная платформа для нейро мокапа, снова появился бесплатный тариф с 300 кредитами/мес, которых хватит на 15 секунд обработки живых кадров/анимации или 30 сек нейро мокапа.

🔹Rodin Gen-2. Пока не дали, но обещают что-то интересное в 3d генерации. Сегментацию геометрии, неплохие детали и полноценные текстуры.

🔹Tripo3d. Давно туда не заходил так как появились неплохо работающие 3d генераторы. Появилось много нового, например ретопология модели, но я тестил ретоп в Hunyuan 3d и там было пока все не очень. Тут же надо тестировать. А так значительно прокачал качество генерации 3D — теперь модели стали детальнее, особенно в лицах и сложной геометрии. В обновлении появилась возможность загружать собственные модели (glb, obj, fbx, stl), использовать улучшенный инструмент Pro-Refine для доработки геометрии и текстур.

🔹В Google добавили эксперементальный AI Mode
Теперь там есть Canvas: можно прямо внутри поиска собирать планы, списки дел, готовиться к поездкам и тд. Пишете промпт, жмете Create Canvas, и получаете набор структурированных карточек. Можно загружать свои файлы расписания, PDF, фотки.
Также появился Search Live: теперь можно показывать модели фотки, видео или сразу транслировать с камеры. Плюс система умеет делить сложные вопросы на подтемы и искать по каждому лучшие ответы с источниками.
Пока все тестируют в Штатах через Labs, но скоро будет доступно всем. В будущем обещают добавить интеграцию с Google Drive, рисовать графики по запросу и помогать с бронированиями.

🔹Higgsfield набирает обороты: ребята выкатили функцию Draw-to-Video — по сути видео-фотошоп, где можно загрузить картинку, нарисовать поверх стрелки и детали, а система сама оживит сцену. Плюс появился Product-to-Video: достаточно показать предмет и задать действие, и он превращается в кинематографичный ролик без лишних промптов. Работает со всеми топ-моделями (MiniMax, Veo 3 и тд). Скинул в комментарии пример.

И в конце будет небольшой опрос.

@VAI_ART
#VAI_News
4👍3
Нашёл небольшую шпаргалку по свету для генераций. В комментариях прикрепил гугл-таблицу — можно просто скопировать и вставить себе в промпт.🔥

@VAI_ART
#VAI_Notes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👌43
Не GPT единым! Крутая новость! 🔥🔥🔥

Qwen(разработка Alibaba) вчера под вечер релизнули собственную Image Edit модель

Qwen Image 20B была выпущена 4 августа и является основной моделью. В свою очередь, версия Edit предназначена специально для редактирования изображений: изменения стиля, корректировки деталей, добавление или удаление объектов, а также изменение поз и других элементов.

Если кому то интересно веса и гитхаб .

Теперь у нас есть еще один опенсорсный редактор изображений, и судя по примерам, он вполне хороший. Пока, как я понял, кириллица не поддерживается в редактировании на самих изображениях, но думаю, со временем это добавят.

Так же можно попробовать в чате (в нем есть ограничения).

@VAI_ART
#VAI_News
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4