Метаверсище и ИИще
35.3K subscribers
4.51K photos
2.64K videos
40 files
5.54K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Мятное видео.

Вы будете смеяться, но у нас новый видео-генератор!

Причем не простой! А с ништяками.

MinT is the first text-to-video model capable of generating sequential events and controlling their timestamps.

Во-первых, это Снап. Там в авторах Сергей Туляков и Александр Сярохин. Хотя я так понимаю, это работа интерна Ziyi Wu.

Во-вторых, там интересная фишка, работа со временем, промптовый монтаж. Только не прямыми склейками, а латентными. Видео просто генерится с последнего кадра, сохраняя ВСЮ консистентность предыдущего видео. Это вам не image2video склейки.

Проще показать промпт:

[0.0s → 2.3s]: A young man typing on the laptop keyboard with both hands.
[2.3s → 4.5s]: The man touches the headphones with his right hand.
[4.5s → 6.5s]: The man closes the laptop with his left hand.
[6.5s → 9.1s]: The man stands up.

И все это в одном сеттинге.

Выглядит очень нарядно, всегда симпатизировал разработкам Снапа.

Обязательно посмотрите примеры тут:
https://mint-video.github.io/
Там интересно.

По поводу сравнения с другими моделями - я так понимаю, что так принято, потому что качество на примерах довольно мыльное.

У моделей вообще отношения со временем не очень, а тут попытка приручить время.

Также поглядите на интересную работу на тему времени тут.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Оппа, оказывается у Клинга тоже можно управлять временем:

[0.0s → 1.5s]: The woman tilts her head side to side, smiling at the camera.
[1.5s → 3.5s]: She waves hello with her right hand, still smiling.
[3.5s → 5s]: She rests both hands under her chin, tilting her head side to side with a smile.

@cgevent
Оригинал, а не копия

MTС провел конференцию MTS StartUp Day. Мероприятие стало настоящим парадом главных инвестиционных трендов российского рынка.

По мнению спикеров, 2024 год стал периодом венчурной зимы — много проектов заморозились в связи с низкой активностью фондов. Но в 2025 году сулят оттепель. Уже растет количество новых сделок M&A и увеличивается интерес к pre-IPO.

Инвесторы не обошли стороной три главных слова — что с ИИ? В отличие от B2B и энергетики, сегмент до сих пор ощущается рынком как пузырь. Поэтому вопрос, откуда брать деньги на развитие генеративных технологий, остается открытым.

Главным тезисом дискуссии стал вывод, что рынку необходимо стремиться к созданию новых оригинальных продуктов, а не пытаться повторить успех существующих аналогов. Алексей Басов, BSF Partners, подчеркнул: «Наша программа подготовки к pre-IPO с МИК уже завершила первый выпуск 40 будущих эмитентов, из которых 80% вероятно будут куплены в полете, не добравшись до публичных рынков». А Дмитрий Курин добавил: «У нас законтрактовано больше 10 качественных компаний», демонстрируя наличие значительного числа готовящихся сделок, как публичных, так и частных.

Что ж, такому настрою можно только позавидовать. Посмотрим, что готовит нам рынок в следующем году.
This media is not supported in your browser
VIEW IN TELEGRAM
Руй видео.

Вы будете смеяцца, но у нас новая опенсорсная видео модель. Причем image2video.

Ruyi is an image-to-video model capable of generating cinematic-quality videos at a resolution of 768, with a frame rate of 24 frames per second, totaling 5 seconds and 120 frames. It supports lens control and motion amplitude control. Using a RTX 3090 or RTX 4090, you can generate 512 resolution, 120 frames (or 768 resolution, ~72 frames) videos without any loss of quality.

https://github.com/IamCreateAI/Ruyi-Models


Поддержка видеогенерации в Комфи из коробки.

@p0lygon, что будем делать? Когда все это успеть протестировать?

@cgevent

И очень толково оформленный GitHub:
Media is too big
VIEW IN TELEGRAM
Mocha 2025 - Object Brush

В новую версию Mocha завезли нейроротоскоп.
Если это в реальности работает хорошо как на видео (сомневаюсь), то глядишь, всякие громоздкие костыли станут не нужны

#roto #video2mask
Forwarded from Denis Sexy IT 🤖
Что показали сегодня, анонсы в основном для разработчиков:

- O1 модели теперь поддерживают строгие JSON схемы на выходе (и это не повлияет на качество работы модели) и Functions calling (это когда модель должна выбрать какой-то скрипт сама по себе во время ответа), фичи которые давно есть у других моделей OpenAI

- Упомянули «Developers Messages» для O1 — штука, которая позволяет разработчиком «направить» модель в нужную сторону в процессе ответа, что-то вроде второго системного промпта, но слабее

- «Reasoning Effort» — вы теперь можете указать сколько времени O1-модель будет «размышлять» перед тем как ответить, ответы будут лучше, но дороже или можно запретить ей слишком много думать перед ответом пользователю

- O1 API теперь поддерживает картинки на вход

- Advanced Voice Mode API теперь работает с WebRTC, то есть голосового ассистента OpenAI будет проще встраивать на веб-страницы без особых мучений (12 строк кода и готово)

- Наконец-то цены на Advanced Voice Mode API понизили на 60%, и теперь доступна новая, в 10 раз дешевле, mini-аудио моделька

- Показали новый способ файнтюна моделей «Prefence Finetuning» — можно тренировать на парах данных, что нравится и не нравится в ответе модели, доступно с сегодня для gpt4o & gpt4o-mini

- Вышли новые SDK — для Go и для Java

Если честно затянуто немного со всеми этими днями, я бы списком почитал уже, еще 3 дня осталось
Ну, за Сора. Не чокаясь

Вы извините, но у нас снова про видеогенераторы.

В твиттор хлынули тесты Veo2 - генератора видео от Гугла.

По крайней мере, это уже не черрипики с сайта и можно оценить реальное качество.

И оно, похоже, очень и очень неплохое.

Поглядите только на сцены из Прибытия, пересобранные с Veo.

Но есть один маленький момент. Гугл, как обычно, очень перестраховывается с цензурой.
Поэтому вместо Image2video у них text2image2video - вы не можете подсунуть свои картинки на вход, вы можете их только сгенерить в самом генераторе и уже из них он сделает видео. Это позволяет отсечь всякие глупости, которые вы будете пихать в него.

@cgevent