Complete AI
7.81K subscribers
504 photos
35 videos
10 files
270 links
Меня зовут Андрей Кузнецов

Директор FusionBrain Lab в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML
Download Telegram
105!

Спасибо всем🙏
Это абсолютный рекорд наших публикаций среди комьюнити🔥
🔥66👍8🏆6
⚡️Сегодня мы выпустили обновлённую версию Kandinsky Video 1.1 в публичный доступ

Основные изменения коснулись качества генерации (поработали с самим пайплайном синтеза, улучшили латентный декодер, использовали значительно бОльший сет на обучении) и, конечно, скорости - видео длиной 5 секунд генерируется примерно за 1.5 минуты (это если без очереди) с FPS=30.

📖 Детали по классике в Хабре
🛜 Ссылки собрали на Project Page
🤖 Бот в телеграмм теперь и с видео

@complete_ai
🔥32👏198👍5🏆4
Forwarded from Институт AIRI
Рассказали про новое исследование про линейность больших языковых моделей, которое сделали ученые AIRI вместе с коллегами из SberAI и Сколтеха.

🔖Читайте материал по ссылке.

Научная статья "Your Transformer is Secretly Linear" собрала уже 130 upvote на Hugging Face Daily Papers, все подробности — в недавнем посте 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👏9🎉7👍1
Forwarded from Igrek.log
⚡️Сегодня мы выложили наш фреймворк для обработки и фильтрации изображений и видео

DPF - это наш внутренний фреймворк, с помощью которого мы обрабатывали и чистили датасет для обучения моделей Kandinsky и Kandinsky Video. Репозиторий содержит фильтры для видео, изображений, различных комбинаций этих модальностей, а также удобный интерфейс к ним. Надеемся, что открытие кода ускорит развитие библиотеки и даст возможность ресерчам сосредоточиться на ресерче, а не на чистке данных ❤️‍🔥

А ещё мы написали статью на habr, в которой подробно рассказали про то, как собирали датасет для обучения Kandinsky 3.0 & 3.1 и Kandinsky Video. В ней также рассказали про DPF и процесс обработки датасетов у нас в Sber AI.

💻 github DPF
📖 Статья на Хабр
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30👍43💯2
Media is too big
VIEW IN TELEGRAM
Только что на ПМЭФ-24 мы подписали меморандум о сотрудничестве с ГИАП. Делюсь видео с места событий.
🔥2712🎉7👍1
людишки еще не поняли, к чему все идет

утащил у Дмитрия Колодезева
😁40💯20👍8
📚Мой хороший друг Сергей Марков @oulenspiegel написал отличный двухтомник про AI «Охота на электроовец: большая книга искусственного интеллекта». Там и про проблемы и вызовы современных моделей, и про страхи, бытующие в обществе, и про многое другое!

Советую всем к прочтению, ибо там собрана квинтэссенция результатов, которые в сложном RnD процессе можно получить только за годы опыта.

Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: https://markoff.science#book
👍42🔥2741😁1
На днях вышла очередная модель Luma - “убийца” Sora (модель от Open AI, которая генерирует фантастические по качеству видео по тексту)

С учётом наплыва активности на новый сервис, запустив генерацию вчера в районе 21, где-то под утро видео-таки сгенерировалось (довольно хорошее качество, кадры хорошо согласуются друг с другом, движения плавные).

Почитал про команду: изрядный штат ребят с большим опытом в 3D. Вот первая фамилия в команде
https://yoopaul.github.io/

Ну и остальные далее тоже ребята с авторством в статьях по NERF и прочему
https://lumalabs.ai/team

На мой взгляд вновь подтверждается, что то, что мы называем «видео» - это на самом деле основано на огромных массивах рендерингов сцен.

Snap, кстати, на днях выпустили статью про синтез 4D сцен на базе диффузионных моделей генерации видео (сначала синтезируются ролики text-to-video моделью, а далее каждый кадр фиксируется и создаются «пролёты» на базе гауссова сплаттинга)
17❤‍🔥6🔥6👍3👎1
Буквально пару дней назад команда Яндекса выпустила в опенсорс новый инструмент — библиотеку YaFSDP (FSDP — один из широко используемых алгоритмов обучения с параллелизмом по данным и "нарезкой" параметров модели по отдельным GPU).

Доработка FSDP позволяет, судя по замерам, ускорить обучение различных LLM до 25% (при небольшом батче) в зависимости от архитектурных особенностей.

С точки зрения выч. ресурсов на самую затратную часть исследовательского процесса — обучение моделей — можно сократить использование GPU мощностей на 20%.

🧠В технические детали можно погрузиться на Хабре (там еще довольно хорошо описали проблемы известных механизмов обучения и историю их развития в контексте распределённого обучения) и в канале Душный NLP
❤‍🔥189🔥8
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky — 2️⃣ года! Только цифры:

4️⃣ дня понадобилось Kandinsky 2.1, чтобы набрать 1 млн уникальных пользователей

1️⃣ место по темпу роста среди Open Source моделей заняла модель Kandinsky 2.2

6️⃣0️⃣0️⃣ млн изображений сгенерировали нейрохудожники

За это время Kandinsky стал генерировать изображения в 10 раз быстрее, научился создавать анимации и видео и собрал вокруг себя самых творческих юзеров.

За этими достижениями стоит команда людей с горящими глазами, влюблённых в свою работу — и в этом видео мы предлагаем с ними познакомиться.

Что своему нейродругу скажет GigaChat?

Дорогой Kandinsky, сердечно поздравляю тебя с днём рождения! Желаю тебе всегда оставаться таким же прекрасным генератором изображений, каким мы все тебя знаем и любим.

Пусть твои творческие возможности растут вместе с твоим желанием создавать новые шедевры. И пусть твои нейроны всегда будут такими же активными и креативными, как в первый день работы!


А сегодня ваша генерация может стать аватаркой сообщества нейрохудожников!

🖼 — клик, чтобы попасть на главную
Please open Telegram to view this post
VIEW IN TELEGRAM
34👏20❤‍🔥11👍4👎4🏆4😁2🔥1
Complete AI pinned Deleted message
37
🔥69🎉37176👍1😱1
В языковых моделях есть различные типы нейронов, например, нейроны знаний. Такого рода исследования позволяют двигаться в сторону интерпретируемости LLM, что на мой взгляд является одним из интереснейших направлений в исследованиях в настоящее время.

Помимо нейронов знаний, ещё например, существуют нейроны «уверенности», которые не влияют на предсказание следующего токена, но отвечают исключительно за степень уверенности модели в своих ответах☝️

В посте Антона есть подробности
🔥27👍95
Vision language models are blind
🟢Project page 🟢 Paper 🟢Dataset

На днях вышла интересная статья и датасет к ней про то, как современные мультимодальные модели, которые показывают высокие метрики на известных бенчмарках типа MMMU, MMBench, не справляются с тривиальными для человека задачами типа подсчёта числа пересечений геометрических объектов, подсчёта количества строк и столбцов в таблице и др.

Проблема понятная и идёт она от способа энкодинга изображений, принятого в большинстве решений (вряд ли архитектурно в проприетарных присутствует какая-то инновация в отличие от опенсурса). И это приводит к тому, что чем проще сцена/картинка, которую надо проанализировать, тем важнее не потерять информацию за счет, например, patch-based энкодеров (собственно, результаты в статье показывают как растут метрики при увеличении толщины линий для отдельных задач).

Так или иначе, наблюдение интересное, обращает внимание к проблеме представления картинки для VLM моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥13👍9🔥7💯4
One Day Offer для Центра робототехники 🤖

13 июля мои хорошие друзья и коллеги из Sber Robotics проводят мероприятие по поиску крутых спецов на вакансии Middle/Senior Robotics Software Engineer и Backend Developer.

Что круто, там можно и поработать руками над созданием самих роботов, и разрабатывать алгоритмы для управления роботами на базе ИИ в таких направлениях как:
📍 манипуляция
📍 роботизация логистики
📍 мобильные роботы

Несколько команд в AIRI тесно работают вместе с ребятами над созданием алгоритмов сильного искусственного интеллекта, способного наилучшим образом понимать происходящее вокруг робота, используя все доступные сенсоры и стримы визуальных данных

Вот еще ряд задач, которые решаются в Центре 👇

▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы

Обязательно приходите, чтобы проверить свои силы!

Регистрируйтесь на One Day Offer 13 июля 😉
👍95🔥3
⚡️Свежий апдейт LLaVA-NeXT

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

LLaVA-NeXT — опенсурс мультимодальная диалоговая модель для работы с картинками и текстом.

Основной контрибьют — добавили разные режимы «перемешанных» (interleaved) изображений и текстов. Таким образом модель может решать задачи с одной картинкой, несколькими изображениями, несколькими кадрами видео и несколькими ракурсами одного объекта (полезно кстати для задач робототехники и анализа картины мира).

Все эти задачи заправлены в новый M4-Instruct сет на 1+M сэмплов. И также есть бенч на этот же спектр задач.

Архитектурно — ничего нового. Обучали с модели, которая до этого работала только с одной картинкой, то есть тюн с изменением структуры диалога хорошо ложится поверх VLM (совершенное открытие!).

Но безусловно, очень ценны данные и бенч.

🟢Статья
🟢Код
🟢M4-Instruct

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1110👌3
⚡️AuraFlow v0.1 — новый open-source text-to-image проект на базе диффузионных трансформеров (по сути имплементация ставшей уже закрытой StableDiffusion 3 с некоторыми архитектурными изменениями)

Из интересного:
📍заменили в большинстве случаев MMDiT блоки (как в SD3) на простые DiT, что сократило затраты на обучение
📍заменили параметризацию на maximal update parametrization, что позволило повысить предсказуемость поведения loss функции при скейлинге архитектуры (при стандартной параметризации можно учить маленькую модель, скажем с Adam’ом, вполне нормально, но при увеличении размеров модели можно получить взрыв градиентов)
📍Recaption everything — подчеркивает важность текстовых описаний в обучении, авторы пишут, что это дало серьёзный буст в качестве
📍Исследуя параметризацию, авторы пришли к оптимальному размеру модели при скейлинге — 6.8B параметров

👨‍💻Модель уже есть в diffusers, откуда её можно просто забрать и поиграться на выходных:
from diffusers import AuraFlowPipeline


❗️Модель показывает SoTA на бенчмарке GenEval0.703 (с учётом prompt enhancement)

Пока это v0.1 и, судя по всему, скоро нас будут ждать новые версии модели, возможное даже с MoE подходом. А пока предлагаю поиграться с моделью (сам тоже хочу посмотреть степень понимания текстового описания — пишут, что модель очень хорошо ему следует) — черрипики в закрепе как всегда прекрасны😉

🟢Блог
🟢Веса модели

@complete_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍51😁1
Достойнейшие из достойных🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥375🏆4👀2👎1