Метаверсище и ИИще
49.4K subscribers
6.11K photos
4.7K videos
47 files
7.04K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Это я играюсь с Pyramidal Flow Matching for Efficient Video Generative Modeling

Опенсорсным видеогенератором.

Пообщался с командой, завтра напишу подробнее.

Спойлер. Нет, вы пока ничего не сможете в нем сделать, но есть перспективы роста. Тренируют новую модель.

@cgevent
3🔥336👍6🙏1
Вместо веселых картинок с утра будет веселое видео.

Ну или невеселое. Там вообще много "не", "нелюди", "нежить".

В общем, я, наконец-то, дал волю магическому мышлению, ушел от технических тем и вывалил всю свою ИИ-рефлекцию. Одна гибридизация души чего стоит.
Тем более, что в собеседниках у меня был Сергей Карелов, которого я знаю 28 лет. С момента открытия офиса Silicon Graphics на Спортивной.
И с ним было интересно сверить взгляды "сверху", а не технические вопросы.

Я вот недолюбливаю философов, но тут сам выступал частенько именно в такой роли, не зря говорят, что если тебя раздражает что-то в людях, сильно присутствует в тебе самом.

А вообще, я задумывал канал, еще в фейсбучном девичестве, как повод задуматься и поразмышлять. Просто новостей стало настолько много, что зачастую это повод бежать и пробовать, не раздумывая. Но вот такие вот встречи на троих Сергеев Владимировичей - отличный повод притормозить и подумать.


Притормозите, поразмышляйте.
https://www.youtube.com/watch?v=SOH743KhJms

Канал Сергея Карелова:
https://t.iss.one/theworldisnoteasy
Вот где есть поводы поразмышлять!

Вещал из египетского Дахаба, там до сих пор лимитный интернет по кабелю по всей стране, битрейт беда.
@cgevent
1🔥41👍134
Forwarded from Сиолошная
Нечасто в последнее время пишу про новые модели, так как они почти никогда не открывают ничего нового — тут стало на пару процентов получше, там чуть прокачали, здесь воспроизвели чужой результат, но не более. Наконец-то появился повод — на прошлой неделе вышла Aria, открытая мультимодальная модель.

Основных фишки две: это модель с микстурой экспертов (когда для обработки данных в каждый момент времени используется лишь малая часть сети, несколько экспертов из большого множества) и длинным контекстом в 64k токенов. Всего в модели 25B параметров, но в один момент времени активируется лишь 3.5B (3.9B для картинок).

Вкупе с поддержкой картинок как входных данных получается, что модель может очень быстро обрабатывать видео (быстрота за счёт экспертов, ведь не нужно гонять всю сеть) или скриншоты страниц целых статей/отчётов: и то, и то представляется как набор картинок и подаётся в модель.

Каждая картинка (или кадр видео) может подаваться в модель в трёх разрешениях:
— низкое: длинная сторона до 490 пикселей, займёт 128 токенов «текста» (то есть модель переведет картинку в понятные ей, но не нам, слова и вставит их в ваш промпт)
— высокое: 980 пикселей, 256 токенов
— ультравысокое: картинка нарезается на N кусков с высоким разрешением (как выше), итого N*256 токенов

Отсюда легко посчитать, что максимум в контекст можно подать ~255 картинок высокого разрешения. Если брать по 2 кадра в секунду, то выйдет 2 минуты — не очень долго (не как у Gemini), но уже что-то. А если вам нужна общая суть, а не прям каждая деталь, то можно брать и по 1 кадру раз в 2-3 секунды — это уже 8-12 минут.

Блог, статья, веса (под Apache 2.0, делать можно что угодно)
👍234🔥2
Интересное наблюдение. Когда работаю дома слушаю Suno-радио (меню Explore). Когда еду в машине, слушаю youtube music и его рекомендации.
Ну и как обычно, среди потока музыки ухо иногда выхватывает что-то типа "о, интересно, это хтоваще?".
Так вот, с Суно это случается сильно чаще.
Этому, конечно, есть просто объяснение. Из всего, что мне подсовывает Ютюб Мьюзик я половину уже слышал, но даже если взять незнакомые вещи, то там этот эффект "о, интересно" случается чаще с Суно.
Это тоже понятно. Новые ходы, схемы, ритмы. Плюс я слушаю музику довольно странным образом, как будто оцениваю ее на хитопригодность, свежеть и ear-worm-ность. Как робот, в общем.
Как у вас?
@cgevent
🔥39👍16👎86
ИИ-Агенты, которые не тупеют со временем.

Агенты искусственного интеллекта будут не просто помогать - вскоре, они будут взаимодействовать и сотрудничать с людьми и даже испытывать эмоции.

На сайте OpenAI довольно неожиданный материал про стартап Altera.
https://openai.com/index/altera/

"ИИ-агенты взаимодействуют с миром, принимая решения в режиме реального времени, но поскольку их собственный вывод становится их будущим вводом, качество данных со временем ухудшается. С этой проблемой сталкивается большинство систем ИИ-агентов, но для наших цифровых людей, которые должны жить автономно в течение нескольких часов или даже дольше, это становится одной из самых насущных проблем, требующих решения".

Для борьбы с деградацией данных и повышения долгосрочной автономности своих ИИ-агентов Altera обратилась к языковым моделям OpenAI, которые сыграли решающую роль в сохранении целостности процессов принятия решений. Усовершенствованные модели OpenAI позволили Altera создать первые ИИ-агенты, которые играют в игры с людьми, как и их друзья. Эти агенты достигают более длительных и сложных взаимодействий без быстрого снижения производительности, которое ограничивало потенциал агентов.

Первый продукт стартапа Altera на GPT-4o: первые автономные агенты, которые могут играть с вами в Minecraft, как с другом.
Пробуем тут: https://playlabs.altera.al/discover

@cgevent
🔥31👍12👎3😁1😱1
Forwarded from Михаил Мыцык
Оттестил новый мейджик экстендер в премьере, по итогу:

- Очень хорошо понимает динамику
- На вход строго 16:9 и 1080 либо 720 исходник, скейл и нэст не подойдёт, так что если исходник 4k придется пересчитать
- Качество (пока?) вообще никуда, только в мобилку на пол-секундочки
11👍4
Forwarded from Psy Eyes
E2-F5: фреймворк для генерации речи по тексту (TTS) с клонированием голоса без трени.

Работать можно с двумя моделями на выбор. E2 это zero-shot TTS на основе flow-matching, которая, не смотря на то что в ней не используется дополнительных компонентов вроде преобразования графем в фонемы или сложных техник, показывает неплохие результаты по клону голоса. F5 является развитием идей E2, и использует метод Sway Sampling для более быстрых и разнообразных результатов.

На вход берётся 15 сек аудио. Если что оно автоматом обрубается, как и делается транскрибация речи в текст, но можно его и прописать вручную.

Обе работают шустро, и неплохо выхватывают тембр, но качество на выходе пожатое, и очень реченька спешит — нужны рульки направлять её в нужное русло по скорости, интонации, итд.

Вот как раз в онлайн демке и есть управление по скорости, и кажись качество выше. Думаю в Pinokio эти обновы заедут следом.

Чекпоинты работают только с инглишом и китайским.

Нужно 5-7 ГБ VRAM.

Демо
Установка через Pinokio
👍307
А вы заметили, что в большинстве опенсорсных генераторов seed по умолчанию установлен в 42?
Приятно, что молодые, а насмотренные и начитанные.
@cgevent
1😁7919👍13🔥5👎2😱2
This media is not supported in your browser
VIEW IN TELEGRAM
В Суно присунули image2music и video2music!

Мы привыкли, что на вход текстовые промпты, ну и может быть аудио референс.

Суно решили заигрывать с мемасной аудиторией и новыми нормальными зумерами.

Типа озвучь свой мемас.

С точки зрения монетизации и стартапности - очень нарядный шаг.

Но если вы в музыку, то тут ничего нового.

Но зато у Суно будет больше денег. И лучше качество на итоге.

Какашка на торте.
Только иос-приложение.
Только в Штатах. Даже в Канаде не работает.
Твиттор Суно разрывается от возмущенных индусов.
Суно отшучиваются "усе будет скоро".

Ну и старую школу учили, что монтируем видео под музику, а не музику под видео.

Вот вам плейлист озвученых мемасов
https://suno.com/song/377d0638-ca5f-4f97-b452-7b8c9d32fe6d

@cgevent
25👍18👎2🔥2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже в видеогенераторы будут завозить все больше предустановленных эффектов.

Да потому что у вас словесов не хватит, а в датасетах вариативности, чтобы описывать то, что вам нужно. Это вам не картинки(о чем я постоянно ною).

Поэтому Пика просто решила плодить вирусные эффекты. Как фильтры в Фотошопе. Ну или скорее, украшалки типа красивая рамка для фотачки.

Они прям классные.
Crumble, Dissolve, Deflate and Ta-Da stuff.

Но одинаковые. Сразу будут узнаваемы на любых видосах.
Помните их пресс? Он одинаковый везде.

Помните перелистывание страницы, которое так всех достало, что стало чорным мемом?

Только прямая склейка или уход в чорное.

А пике придется постоянно клепать такие вирусные эффекты, чтобы твиттор не прекращал приподвзвизгивать.

Прикольно, но ненадолго.
Ta-Da stuff.

@cgevent
🔥36😁16👍8👎53
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам пример для сравнения с предыдущим постом и одинаковыми эффектами от Pika.

Пример того, что если перестать жмакать кнопку Тыдыщъ-эффект на котиках и проявить немного креатива, то можно делать симпатичные Кастомные эффекты в Единое.
Если вкратце.
Берется живой видос. Режется вертикально. Правый нужный кадр идёт в Kling 1.0 - там есть motion brush. Выращиваются грибы.
В cupcat они склеиваются с левым кадром. А потом все это вместе(последний кадр) отправляется в Kling 1.5 для финального оживляжа.

Получаем кастомный грибной эффект, а не мемы от Pika.
Подробнее тут.

@cgevent
🔥48😁17👍11😱4👎3
Вот держите список open-source-ных генераторов картинок. Которые можно развести локально.

Не у всех хорошие лицензии, например, Хуньянь только что обновили свое лицензионное соглашение вот так:
You must not use, reproduce, modify, distribute, or display the Tencent Hunyuan Works, Output or results of the Tencent Hunyuan в Европейском Союзе. Еще раз "показывать работы!!!!".

Ну да ладно. Вернемся к списку.

Список неполный, но Влад его постоянно обновляет.
https://github.com/vladmandic/automatic/wiki/Models

Только что добавил неведомых зверух типа MeissonFlow или Thu-ML или IDKiro.
Есть даже динозавры типа Дипфлойда.

Дико полезно, что вы можете в одном месте поглядеть и сравнить вот такие параметры:
Size
Diffusion Architecture
Model Params
Text Encoder(s)
TE Params
Auto Encoder


Еще раз, это то, для чего есть код. Для Flux 1.1 кода нет.

В общем сразу хочется все попробовать, целюсь в MeissonFlow.

Пишите, кто пробовал разную дичь из этого списка.
И кто вообще юзает SD.Next.

p.s. Тут все постят про SANA от Нвидия.
https://nvlabs.github.io/Sana/
Пока кода нет, сложно что-то сказать. Упор на скорость. Я не впечатлился и не стал постить. Странная ответочка на Flux Turbo от Алимамы, но меня зацепило, что там вся команда из Пиксарт Сигмы, которую сманили из Хуавея в Нвидию.

@cgevent
17👍12🔥9
Картинку в предыдущем посте (для удобства чтения) я сделал с помощью вот такого лайфкаха.
Идете в Эксель,-> Данные, -> Из интернета и даете ссылку на страницу с любой таблицей. Далее Импорт.
Получаете таблицу с любой веб-страницы у себя в Экселе.
В отличие от копипаста работает с форматированием.

@cgevent
👍34🙏74🔥2😱1
Forwarded from Psy Eyes
Huggingface заколлабились с Ollama и теперь можно любую языковую модель (LLM), у которой на хабе есть GGUF от квантизации, запустить прямо в командной строке вбив строчку формата:

ollama run hf.co/{username}/{repository}


Можно попробовать на чём-то из этого:
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF


На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить ollama run hf.co/ и вставить скопированное. Если нужна конкретная квантизация, например Q4_0, то она дописывается в конце рез двоеточие. LLM скачается и с ней можно будет общаться.

Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде: C:\Users\PsyEyes\AppData\Local\Programs\Ollama. И в переменных среды найдите строчку Path » изменить » создайте новую строку и впишите в неё адрес.

Сегодня в заголовках Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Claude и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:

ollama run hf.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF:IQ1_M


Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.

Анонс
Список LLM на хаггинге
🔥196👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Подложил музичку, мне кажется идеально подходит.

Опен-сорсным генераторам видео до коммерческих, как до Луны пешком. Не думаю, что что-то изменится, только если Чорный Лес нас не удивит в ближайшее время.

Щас напишу обещанный пост про Пирамиду.

Ну и вообще, есть идея написать жоский гигантский обзор видеогенераторов. Не в духе "лучшие нейрасетачки", а с глупыми коментариями, как я люблю.
Куда его лучше присунуть: Хабра, VC? Где еще остались думающие люди?

@cgevent
😁44👍22😱7👎43
Итак, про Пирамиду.

Самая интересная модель (на мой вкус) из всех опенсорсных генераторов (CogVideo, Open Sora).

У нее там текстовый энкодер конских размеров, как у Флюкса (T5 от Гугла). Должна хорошо понимать промпт.

Но обучение проводилось на столь ничтожно маленьком датасете, что модель просто не вывозит все это понимание.

Я спросил, как обучали, на каких промптах: шаманских от SD1.5 или более натуральные описания, как у Флюкса и SD3.

I suppose short natural text is more suitable. This is due to (1) we use T5 text encoder as in SD3 and FLUX so it supports natural text well. (2) during recaptioning, we set our recaptioner (Video-LLaMA2) to produce short natural caption without tags.

Из интересного, обучали на синтетике из Мидджорни, поэтому возможно все эти wow artstation и redshift до сих пор работают:
That being said, since we used some image dataset where the caption may not look like natural text (e.g. MidJourney synthetic dataset), our model may work better with proper tags. I am not a prompting expert and haven't tested the effect of those tags.

Далее, если поковыряться в коде, то есть и негативный промпт и еще интересные настройки.
Но разработчики пишут, что
Yes, we find that the negative prompt is helpful for both visual quality and temporal stability. We do not yet know the mechanism, as the captions we used did not include these prompts. We will investigate this in the new model training process.

Тут закрадывается грустная мысль, что сидят очень смышленые парни (часть из Клинга), пишут очень смышленые алгоритмы, но у них нет ни комппьюта, ни датасетов, ни опыта обучения на конских размерах данных. Все немного на коленке. И вот эта вот недомасштабируемость (по железу, данным, людям и опыту) тут же дает о себе знать.

The image generation capability of this model is from 100m+ images (and 10m video initial frames), with some knowledge inherited from SD3. The training dataset is very small.

Это слезы, как вы понимаете.

При этом эти гении смогли распараллелить генерацию! Я погонял на серваке из 8xA100. Нелинейно, но ощутимо. 10 секунд генерятся 15, 11, 6 минут на 1, 2, 4 GPU. На 8ми - 7 секунд, там код недописан еще.

Я также погонял Пирамиду в режиме fp32 (по умолчанию bf16), качество стало лучше (на глаз), но в целом расколбас такой же. Но считает в 2.5 медленнее и ждет 70 гиг VRAM.

Очень хорошая новость в том, что они тренируют новую модель. С нуля. Фиксят родовые проблемы SD3 с анатомией.

Ждем, надеемся.

А пока в Креа добавили еще и Пику. И Firefly 4 уже на похоже, есть уже примеры.

@cgevent
2🔥22👍95👎3