Метаверсище и ИИще

Это я играюсь с Pyramidal Flow Matching for Efficient Video Generative Modeling

Опенсорсным видеогенератором.

Пообщался с командой, завтра напишу подробнее.

Спойлер. Нет, вы пока ничего не сможете в нем сделать, но есть перспективы роста. Тренируют новую модель.

@cgevent

3🔥33❤6👍6🙏1

7.39K viewsSergey Tsyptsyn ️️, 21:22

Метаверсище и ИИще

Вместо веселых картинок с утра будет веселое видео.

Ну или невеселое. Там вообще много "не", "нелюди", "нежить".

В общем, я, наконец-то, дал волю магическому мышлению, ушел от технических тем и вывалил всю свою ИИ-рефлекцию. Одна гибридизация души чего стоит.
Тем более, что в собеседниках у меня был Сергей Карелов, которого я знаю 28 лет. С момента открытия офиса Silicon Graphics на Спортивной.
И с ним было интересно сверить взгляды "сверху", а не технические вопросы.

Я вот недолюбливаю философов, но тут сам выступал частенько именно в такой роли, не зря говорят, что если тебя раздражает что-то в людях, сильно присутствует в тебе самом.

А вообще, я задумывал канал, еще в фейсбучном девичестве, как повод задуматься и поразмышлять. Просто новостей стало настолько много, что зачастую это повод бежать и пробовать, не раздумывая. Но вот такие вот встречи на троих Сергеев Владимировичей - отличный повод притормозить и подумать.

Притормозите, поразмышляйте.
https://www.youtube.com/watch?v=SOH743KhJms

Канал Сергея Карелова:
https://t.iss.one/theworldisnoteasy
Вот где есть поводы поразмышлять!

Вещал из египетского Дахаба, там до сих пор лимитный интернет по кабелю по всей стране, битрейт беда.
@cgevent

YouTube

Сергей Карелов & Сергей Цыпцын: Нежить и нелюди | «Ноосфера» #093

#ИИ #AI #технологии

На встрече упоминаются:
-- Доклад "Мир химер" https://disk.yandex.ru/i/6At69k8ylwA1LQ
-- ТГ-канал https://t.iss.one/sukhovjournal

Гости Дискуссионного клуба:

— Сергей Карелов - независимый исследователь и консультант, кандидат наук, экс…

1🔥41👍13❤4

6.96K viewsSergey Tsyptsyn ️️, edited 07:57

Метаверсище и ИИще

Forwarded from Сиолошная

Нечасто в последнее время пишу про новые модели, так как они почти никогда не открывают ничего нового — тут стало на пару процентов получше, там чуть прокачали, здесь воспроизвели чужой результат, но не более. Наконец-то появился повод — на прошлой неделе вышла Aria, открытая мультимодальная модель.

Основных фишки две: это модель с микстурой экспертов (когда для обработки данных в каждый момент времени используется лишь малая часть сети, несколько экспертов из большого множества) и длинным контекстом в 64k токенов. Всего в модели 25B параметров, но в один момент времени активируется лишь 3.5B (3.9B для картинок).

Вкупе с поддержкой картинок как входных данных получается, что модель может очень быстро обрабатывать видео (быстрота за счёт экспертов, ведь не нужно гонять всю сеть) или скриншоты страниц целых статей/отчётов: и то, и то представляется как набор картинок и подаётся в модель.

Каждая картинка (или кадр видео) может подаваться в модель в трёх разрешениях:
— низкое: длинная сторона до 490 пикселей, займёт 128 токенов «текста» (то есть модель переведет картинку в понятные ей, но не нам, слова и вставит их в ваш промпт)
— высокое: 980 пикселей, 256 токенов
— ультравысокое: картинка нарезается на N кусков с высоким разрешением (как выше), итого N*256 токенов

Отсюда легко посчитать, что максимум в контекст можно подать ~255 картинок высокого разрешения. Если брать по 2 кадра в секунду, то выйдет 2 минуты — не очень долго (не как у Gemini), но уже что-то. А если вам нужна общая суть, а не прям каждая деталь, то можно брать и по 1 кадру раз в 2-3 секунды — это уже 8-12 минут.

Блог, статья, веса (под Apache 2.0, делать можно что угодно)

👍23❤4🔥2

5.66K viewsSergey Tsyptsyn ️️, 08:41

Метаверсище и ИИще

Интересное наблюдение. Когда работаю дома слушаю Suno-радио (меню Explore). Когда еду в машине, слушаю youtube music и его рекомендации.
Ну и как обычно, среди потока музыки ухо иногда выхватывает что-то типа "о, интересно, это хтоваще?".
Так вот, с Суно это случается сильно чаще.
Этому, конечно, есть просто объяснение. Из всего, что мне подсовывает Ютюб Мьюзик я половину уже слышал, но даже если взять незнакомые вещи, то там этот эффект "о, интересно" случается чаще с Суно.
Это тоже понятно. Новые ходы, схемы, ритмы. Плюс я слушаю музику довольно странным образом, как будто оцениваю ее на хитопригодность, свежеть и ear-worm-ность. Как робот, в общем.
Как у вас?
@cgevent

Suno

Suno | AI Music

Create stunning original music for free in seconds using our AI generator. Make your own masterpieces, share with friends, and discover music from artists worldwide.

🔥39👍16👎8❤6

6.71K viewsSergey Tsyptsyn ️️, 09:32

Метаверсище и ИИще

ИИ-Агенты, которые не тупеют со временем.

Агенты искусственного интеллекта будут не просто помогать - вскоре, они будут взаимодействовать и сотрудничать с людьми и даже испытывать эмоции.

На сайте OpenAI довольно неожиданный материал про стартап Altera.
https://openai.com/index/altera/

"ИИ-агенты взаимодействуют с миром, принимая решения в режиме реального времени, но поскольку их собственный вывод становится их будущим вводом, качество данных со временем ухудшается. С этой проблемой сталкивается большинство систем ИИ-агентов, но для наших цифровых людей, которые должны жить автономно в течение нескольких часов или даже дольше, это становится одной из самых насущных проблем, требующих решения".

Для борьбы с деградацией данных и повышения долгосрочной автономности своих ИИ-агентов Altera обратилась к языковым моделям OpenAI, которые сыграли решающую роль в сохранении целостности процессов принятия решений. Усовершенствованные модели OpenAI позволили Altera создать первые ИИ-агенты, которые играют в игры с людьми, как и их друзья. Эти агенты достигают более длительных и сложных взаимодействий без быстрого снижения производительности, которое ограничивало потенциал агентов.

Первый продукт стартапа Altera на GPT-4o: первые автономные агенты, которые могут играть с вами в Minecraft, как с другом.
Пробуем тут: https://playlabs.altera.al/discover

@cgevent

Openai

OpenAI and Altera logos appear on a white background, with a central image of a close-up orange leaf showing intricate vein details.

Altera uses GPT-4o to build a new area of human collaboration

🔥31👍12👎3😁1😱1

7.37K viewsSergey Tsyptsyn ️️, 10:39

Метаверсище и ИИще

Forwarded from Михаил Мыцык