Derp Learning
12.3K subscribers
2.84K photos
712 videos
9 files
1.19K links
Используем ИИ строго не по назначению.
Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Download Telegram
Forwarded from partially unsupervised
Добрался почитать статью SAM 2: Segment Anything in Images and Videos (старье, ей уже больше месяца!), искренне восхитился. Причем даже не только красивой демкой и высокими метриками на всех подряд zero-shot / semi-supervised бенчмарках по сегментации, а дизайном всего решения.

TL;DR такой:
- поставили новую задачу promptable video segmentation - в такой постановке задачу не решают, зато ее можно рассматривать как обобщение ранее известных задач;
- чтобы ее решить, подошли с обеих сторон - модель и данные;
- модель дизайнили под относительно быстрый стриминг инференс, пригодный и для видео, и для отдельных картинок, которые рассматриваются как частный случай видео из одного кадра;
- поддержка видео реализована через memory attention блок (выход енкодера проходит через self-attention на себя, а cross-attention - на memory, содержащий фичемапы предыдущих фреймов и предсказаний + вектора сегментируемого таргета);
- собрали огромный датасет из 600k+ масок, используя много итераций self-labeling с вовлечением разметчиков (human in the loop is all we need), в конце добившись среднего времени разметки кадра человеком 4.5 секунд;
- при помощи тех же self-labeling + валидацией человеками расширили датасет в четыре раза, и обеспечили этим еще и хорошую сегментацию фоновых объектов;
- для каждого куска пайплайна есть детальный ablation study.

Вообще не знаю, зачем пересказывать такую статью - она написана максимально понятно, вникать не придется, читается легче, чем телеграм-канал среднего ML-графомана. Но если читать все равно лень, можете посмотреть видео.
Секреты успеха от Ильи Суцкевера или как поднять $1b на 1 хтмл страницу:
1) $1b поднимайте
2) не $1b не поднимайте
Узкие специалисты
Shtosh
Forwarded from Denis Sexy IT 🤖
⚡️В ближайшем обновлении emoji будет добавлен самый важный, которого мы ждали — читатель интернета вечером


PDF-документ обоснования добавления
Media is too big
VIEW IN TELEGRAM
Очень хочется посмотреть «необчные» версии известных шоу, сделанные AI.
Чож случилось то
Маск, Альтман, Брокман, Суцкевер
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Вот держите еще немного утечек и Снапчат-метаверса.

Эван Шпигель, сам, без ансамбля, тизерит генеративный AI при создании линз.
Тут бы впору выпить за всех, кто зарабатывает на линзах, ибо он просто говорит давай чизбургер или котика - и оно моментально генерит (сначала 2Д-прокси, а потом 3Д(!) AR-объект. Он делает хорошее шоу - из зала люди кричат, что они хотят увидеть, а он просто говорит "imagine cowboy frog" и лягушка ковбой возникает в 3Д. Смотрится куда лучше, чем твитторные треды типа "кидайте промпты, а я нагенерю".
Ну и совсем убойно смотрится вот это вот меню на ладони. А трюк с настройками на тыльной стороне - вообще шедевр UX.
Все эти фильмы про будущее уже здесь.

Снап молодцы, у них очень крутой ресерч.
И я добавлю, что именно тут ИИ-генерация очень уместна и по делу - нет требований к качеству 2Д и 3Д, аудитория уже приучена к некоторому стилю, в которой ИИ попадает с первого раза.

А порассматривать очки можете тут:
https://techcrunch.com/2024/09/17/snaps-extremely-large-spectacles-bring-impressive-ar-to-developers-at-99-a-month/

@cgevent
Издалека прочитал неправильно название - даже захотелось купить кому-нибудь в подарок 😅🥲
Finally!
Forwarded from Dev Meme
While we’re talking about nuances

Winamp published their source code on github

https://github.com/WinampDesktop/winamp

And they used custom license which, among other things, forbids creation of forks

What’s nuance? GitHub’s license doesn’t allow usage of license where forks are forbidden 🌚

Fork time ! 😈
Forwarded from Denis Sexy IT 🤖
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents

Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код

Агента Смита пожалуйста не делайте, спасибо
I shared the following note with the Openai team today
Forwarded from Сиолошная
АХАХАХХАХАХАХАХАХАХ