эйай ньюз
57.8K subscribers
1.38K photos
728 videos
7 files
1.71K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Вот так эти двое могли бы дружно праздновать релиз GPT-5.

@ai_newz
Неродайджест за неделю (#10)

Я решил возобновить рубрику нейродайджестов (последний раз они были в 2023), думаю будет полезно. Тут будет выжимка всех основных постов за неделю со ссылками.

1. Новости AI и Big Tech
- Open Grok от XAI: новая модель с 314B параметров, и код доступен на GitHub. Полностью открыта, все веса на гихабе и никакой цензуры!
- Зарплаты в Big Tech vs. академия, GPU для народа: Washington Post осознали, что BigTech значительно превосходит академическую сферу по уровню зарплат.
- Apple готовится залететь в AI с двух ног, и покупает Darwin AI для ускорения и уменьшения AI моделей. А так же, ведет переговоры с Google. Это шаг к использованию LLM локально на устройствах.

2. Разработки и инновации
- Новые GPU от Nvidia: Blackwell B200 и GB200 "суперчип", ускоряющие AI тренировки и снижающие энергопотребление.
- ChatGPT момент для роботов может быть уже за углом: что нового Nvidia делает в робототехнике.
- Робот-Гуманоид EVE от норвежского стартапа 1X получил в качестве мозга одну большую модель, которая помогает ему выполнять разные задачи - это шаг к генерализации.
- Stable Video 3D от Stability: созданию 3D меша из одного изображения с помощью видео-дифуузии.

3. Обновления
- Google Gemini 1.5 Pro теперь доступен для всех, позволяя анализировать видео и файлы с 1M токенами контекста.
- Ожидается ChatGPT-5 этим летом, обещая значительные улучшения и новые возможности для пользователей и разработчиков.

4. Перспективы и предсказания
- BitNet 1.58 от Microsoft обещает оптимизировать инференс моделей, делая процесс в РАЗЫ быстрее и энергоэффективнее.
- SD3-Turbo: пейпер обещает prompt alignment и даже красоту лучше чем у миджорни за 4 шага диффузии.

5. Закулисье и инсайды
- Microsoft переманил к себе ⅔ основателей Inflection AI. Не понятно что теперь будет со стартапом.
- Stability ai: CEO и ключевые сотрудники ушли из компании. Стабилити - всё? Надеюсь, хоть SD3 заопенсорсят.
- История Bloomberg о том, как они свой BloombergGPT тренировали, и почему так делать не стоит.

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🔥RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 74 FPS на шлеме Quest Pro.

Сайт проекта

@ai_newz
Тут на днях Mistral хакатон устроили, показали базовую модель для Mistral Instruct 7B v0.2 (в бенчмарках вроде проигрывает 0.1, но длина контекста 32к против 8к у 0.1). Затюненная моделька вышла в декабре, а базовую тогда просто забыли выложить.

Участники хакатона веселились на полную – модельку научили (плохо) играть в PacMan и DOOM: в первом случае юзали LLaVa, во втором игру рендерили в ASCII и кормили это в модель. По помещению бегал танцующий робот с запущенной на нём Mistral 7B.

Серьёзных проектов тоже хватало – поисковик по arxiv затюненый на 50к статей, проект использующий LLM для анализа РНК, а ещё очередные ассистенты по написанию промптов и клон Devin.

Из забавного вокруг хакатона: кто-то в твиттере решил разыграть 7900 XTX среди тех кого не пустили на хакатон, но она оказалась настолько никому не нужна (тизер будущего поста) что в розыгрыше был ровно один участник.


> Если интересно, то про стартап Mistral я писал длиннопост (часть 1, часть 2).

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Моушн-кэпчер больше не нужен.

Заценили позавчерашний видосик с Сэмой и Ильёй?

Это Viggle AI - он способен анимировать любую картинку по текстовому промпту или видео-референсу. Причем качество моушн-кэпчера такое, будто его снимали в специальном костюме.

Тут тебе и доработка недостающих ракурсов (и частей тела!), как в SD3-Video, и липсинк (если снимать портрет), и бот в дискорде! Всё, как мы любим! Немного всрато может выйти, но думаю, еще не вечер.

Разработчики гордо хвастаются своей JST-1 "первой базовой 3D-видеомоделью с *настоящим физическим пониманием*". Не совсем понятно, что они имеют в виду под пониманием физики и какую роль это играет в генерации их видео. На вид модель немного напоминает диффузию AnimateAnyone от Alibaba, но с другой стороны оно выглядит так, что просто текстуру наклеили поверх предсказанного 3D тела актера. Но самое главное — всё это в удобном родном интерфейсе Discord.

Узнали персонажа? Нормальные примеры будут ниже😄

Дискорд Viggle AI – пока все работает бесплатно.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
DBRX - новый лидер открытых моделек от Databricks

Обгоняет все открытые модельки на большинстве бенчмарков, в том числе опубликованный неделю назад Grok (который в два раза больше). Лицензия похожая на лицензию ламы - все кто меньше телеграма могут спокойно использовать в своих коммерческих продуктах.

Архитектурно это Mixture of Experts (16 экспертов, из них 4 активных), 132 миллиарда параметров (из них 36 миллиардов - активные), тренировали пару месяцев на 3 тысячах H100 и 12 триллионах токенов, длина контекста - 32к, Модель тренировали в fp8, что дало 1.4x-1.5x прирост по сравнению с bf16. В целом она тренируется при том же компьюте в 4 раза эффективнее чем их же прошлогодняя MPT - 2x прироста идёт от MoE, 2x от датасета получше.

В минимальных требованиях - 320 гигабайт видеопамяти, что недоступно для простых смертных.

Демка
Instruct модель (доступ дают сразу после подписания лицензии)
Базовая модель (доступ одобряют отдельно)
Код
Блогпост с анонсом модели
Блогпост с деталями тренировки

@ai_newz
Stable Code Instruct 3B - кажись, Stability, несмотря на недавнюю драму, не перестала выпускать модельки.

По результатам бьёт все модели своего и меньшего размера и даже некоторые 7B/15B модели. Ничего сверхпримечательного нету, но интересен сам факт релиза. Возможно у нас ещё есть шансы получить веса SD3.

Моделька может быть полезна для локального инференса на персональных задачах, за что я очень топлю. Хотя, конечно качество у больших моделей уровня GPT-4 будет лучше, но и локально их не погоняешь.

Модель
Технический отчёт

@ai_newz
Кожаная куртка нашла нового хозяина. Видимо, к заказу в 350к H100 GPU куртка от CEO идет в подарок.

Вообще поражает, насколько у людей из топа списка Форбс все схвачено, и как близко они все друг с другом общаются, устраивают "бои" в октагоне, празднуют свадьбы в Индии и т.д.

@ai_newz
Media is too big
VIEW IN TELEGRAM
PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator

Я уже не успеваю писать обзоры на все новые методы ускорения text2image диффузии (вот тут делал целую подборку). Вот появился еще один метод от китайцев из ТикТока. Заключается он в том, чтобы дистиллировать сильно нелинейные траектории процесса гаусовской диффузии в более прямые траектории, где ошибка не так быстро копится во время инференса с малым числом шагов.

В InstaFlow ранее уже пытались выпрямлять траектории, но там они стремились к полностью линейной траектории, что довольно проблематично. В PeRFlow же предлагают учить кусочно-линейные траектории, что немного релаксирует проблему.

В итоге, показывают результаты лучше чем Latent Consistency Models за 4 и 8 шагов. LCM, конечно, уже не СОТА, но все же.

Статьи еще нет, но код и веса уже есть. Это выглядит довольно странно – думаю, что торопились выложить хоть что-то после выхода статьи SD3 и до релиза их весов.

Обучили PeRFlow пока только для SD1.5 и SD2.1. К тому же показали, что можно применять разницу весов (W_orig - W_PerFlow) на всевозможные LoRA и файнтюны с civitai.com и получать ускорение из коробки – это прям круто!

Код и веса
Сайт проекта с картинками

@ai_newz
Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого

Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.

А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели – dense.

Зачем так сделали – непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.

В целом ничего не понятно, но очень интересно.😊

Веса
Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
На этой неделе всплыло две заметных истории на стыке AI и крипты, хороший повод напомнить, что они связаны сильнее чем кажется.

Виталик Бутерин (основатель Ethereum), как оказалось, ещё в 2021 году, задонатил мемкоинов Shiba Inu в Future of Life Institute (FLI) – это авторы петиции о запрете тренировки моделей умнее GPT-4, они же добились ряда ужесточающих правок в недавний Европейский AI Act.

Сам Виталик на тот момент думал, что вывести они смогут всего пару десятков лямов, но его подарок оказался ГОРАЗДО дороже - астрономические, для think tank-ов, 665 миллионов долларов. Это нарушило баланс настолько сильно, что Виталик уже пообещал исправить ситуацию и закинуть монет pro-акселерационистам (тем, кто топит за быстрейшее развити AI). Между тем свои деньги FLI едва ли начал тратить – так что ждите куда больше призывов запретить AI в ближайшем времени.

Другая заметная криптоиистория на этой неделе – про бывшую ранее криптобиржей, а сейчас возвращающую деньги вкладчикам, FTX. Обанкротившаяся биржа продала 2/3 своей доли в Anthropic за $884 миллиона, это стало известно из документов суда. FTX приобрела в 2021 году 8% Anthropic за $500 лямов, в обычной ситуации это считалось бы удачной инвестицией, но, как и многие другие операции FTX, это было сделано за деньги со счетов клиентов, что незаконно. За это их и судят (основатель уже сидит свой срок в 25 лет). Из хороших новостей - с продажи этих акций планируется вернуть деньги вкладчикам.

Обе эти истории начались ещё до глобального AI бума, который начался с выхода ChatGPT в декабре 2022 (пост). А в прошлом году, посмотрев на низкую цену биткоина и почуяв денежный зхапах от хайпа вокруг ChatGPT, куча криптобро резко переобулись и стали AI-интузиастами. Так что криптоденьги точно всплывут где-то ещё и в большем масштабе. Интересно где?

@ai_newz