эйай ньюз
77.4K subscribers
1.73K photos
890 videos
7 files
2.03K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Тут на днях Mistral хакатон устроили, показали базовую модель для Mistral Instruct 7B v0.2 (в бенчмарках вроде проигрывает 0.1, но длина контекста 32к против 8к у 0.1). Затюненная моделька вышла в декабре, а базовую тогда просто забыли выложить.

Участники хакатона веселились на полную – модельку научили (плохо) играть в PacMan и DOOM: в первом случае юзали LLaVa, во втором игру рендерили в ASCII и кормили это в модель. По помещению бегал танцующий робот с запущенной на нём Mistral 7B.

Серьёзных проектов тоже хватало – поисковик по arxiv затюненый на 50к статей, проект использующий LLM для анализа РНК, а ещё очередные ассистенты по написанию промптов и клон Devin.

Из забавного вокруг хакатона: кто-то в твиттере решил разыграть 7900 XTX среди тех кого не пустили на хакатон, но она оказалась настолько никому не нужна (тизер будущего поста) что в розыгрыше был ровно один участник.


> Если интересно, то про стартап Mistral я писал длиннопост (часть 1, часть 2).

@ai_newz
👍74😁1513😍9🔥5🤯2🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Моушн-кэпчер больше не нужен.

Заценили позавчерашний видосик с Сэмой и Ильёй?

Это Viggle AI - он способен анимировать любую картинку по текстовому промпту или видео-референсу. Причем качество моушн-кэпчера такое, будто его снимали в специальном костюме.

Тут тебе и доработка недостающих ракурсов (и частей тела!), как в SD3-Video, и липсинк (если снимать портрет), и бот в дискорде! Всё, как мы любим! Немного всрато может выйти, но думаю, еще не вечер.

Разработчики гордо хвастаются своей JST-1 "первой базовой 3D-видеомоделью с *настоящим физическим пониманием*". Не совсем понятно, что они имеют в виду под пониманием физики и какую роль это играет в генерации их видео. На вид модель немного напоминает диффузию AnimateAnyone от Alibaba, но с другой стороны оно выглядит так, что просто текстуру наклеили поверх предсказанного 3D тела актера. Но самое главное — всё это в удобном родном интерфейсе Discord.

Узнали персонажа? Нормальные примеры будут ниже😄

Дискорд Viggle AI – пока все работает бесплатно.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
😁68🔥25👍116🤯3
DBRX - новый лидер открытых моделек от Databricks

Обгоняет все открытые модельки на большинстве бенчмарков, в том числе опубликованный неделю назад Grok (который в два раза больше). Лицензия похожая на лицензию ламы - все кто меньше телеграма могут спокойно использовать в своих коммерческих продуктах.

Архитектурно это Mixture of Experts (16 экспертов, из них 4 активных), 132 миллиарда параметров (из них 36 миллиардов - активные), тренировали пару месяцев на 3 тысячах H100 и 12 триллионах токенов, длина контекста - 32к, Модель тренировали в fp8, что дало 1.4x-1.5x прирост по сравнению с bf16. В целом она тренируется при том же компьюте в 4 раза эффективнее чем их же прошлогодняя MPT - 2x прироста идёт от MoE, 2x от датасета получше.

В минимальных требованиях - 320 гигабайт видеопамяти, что недоступно для простых смертных.

Демка
Instruct модель (доступ дают сразу после подписания лицензии)
Базовая модель (доступ одобряют отдельно)
Код
Блогпост с анонсом модели
Блогпост с деталями тренировки

@ai_newz
46👍20🔥12🦄21
Stable Code Instruct 3B - кажись, Stability, несмотря на недавнюю драму, не перестала выпускать модельки.

По результатам бьёт все модели своего и меньшего размера и даже некоторые 7B/15B модели. Ничего сверхпримечательного нету, но интересен сам факт релиза. Возможно у нас ещё есть шансы получить веса SD3.

Моделька может быть полезна для локального инференса на персональных задачах, за что я очень топлю. Хотя, конечно качество у больших моделей уровня GPT-4 будет лучше, но и локально их не погоняешь.

Модель
Технический отчёт

@ai_newz
💯30🔥24👍87
Кожаная куртка нашла нового хозяина. Видимо, к заказу в 350к H100 GPU куртка от CEO идет в подарок.

Вообще поражает, насколько у людей из топа списка Форбс все схвачено, и как близко они все друг с другом общаются, устраивают "бои" в октагоне, празднуют свадьбы в Индии и т.д.

@ai_newz
😁191❤‍🔥14🦄10👍75😱3💯3😍2
Media is too big
VIEW IN TELEGRAM
PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator

Я уже не успеваю писать обзоры на все новые методы ускорения text2image диффузии (вот тут делал целую подборку). Вот появился еще один метод от китайцев из ТикТока. Заключается он в том, чтобы дистиллировать сильно нелинейные траектории процесса гаусовской диффузии в более прямые траектории, где ошибка не так быстро копится во время инференса с малым числом шагов.

В InstaFlow ранее уже пытались выпрямлять траектории, но там они стремились к полностью линейной траектории, что довольно проблематично. В PeRFlow же предлагают учить кусочно-линейные траектории, что немного релаксирует проблему.

В итоге, показывают результаты лучше чем Latent Consistency Models за 4 и 8 шагов. LCM, конечно, уже не СОТА, но все же.

Статьи еще нет, но код и веса уже есть. Это выглядит довольно странно – думаю, что торопились выложить хоть что-то после выхода статьи SD3 и до релиза их весов.

Обучили PeRFlow пока только для SD1.5 и SD2.1. К тому же показали, что можно применять разницу весов (W_orig - W_PerFlow) на всевозможные LoRA и файнтюны с civitai.com и получать ускорение из коробки – это прям круто!

Код и веса
Сайт проекта с картинками

@ai_newz
🔥44👍1233🤯2🤩1
Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого

Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.

А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели – dense.

Зачем так сделали – непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.

В целом ничего не понятно, но очень интересно.😊

Веса
Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
48🔥15😁14👍9🤯6
На этой неделе всплыло две заметных истории на стыке AI и крипты, хороший повод напомнить, что они связаны сильнее чем кажется.

Виталик Бутерин (основатель Ethereum), как оказалось, ещё в 2021 году, задонатил мемкоинов Shiba Inu в Future of Life Institute (FLI) – это авторы петиции о запрете тренировки моделей умнее GPT-4, они же добились ряда ужесточающих правок в недавний Европейский AI Act.

Сам Виталик на тот момент думал, что вывести они смогут всего пару десятков лямов, но его подарок оказался ГОРАЗДО дороже - астрономические, для think tank-ов, 665 миллионов долларов. Это нарушило баланс настолько сильно, что Виталик уже пообещал исправить ситуацию и закинуть монет pro-акселерационистам (тем, кто топит за быстрейшее развити AI). Между тем свои деньги FLI едва ли начал тратить – так что ждите куда больше призывов запретить AI в ближайшем времени.

Другая заметная криптоиистория на этой неделе – про бывшую ранее криптобиржей, а сейчас возвращающую деньги вкладчикам, FTX. Обанкротившаяся биржа продала 2/3 своей доли в Anthropic за $884 миллиона, это стало известно из документов суда. FTX приобрела в 2021 году 8% Anthropic за $500 лямов, в обычной ситуации это считалось бы удачной инвестицией, но, как и многие другие операции FTX, это было сделано за деньги со счетов клиентов, что незаконно. За это их и судят (основатель уже сидит свой срок в 25 лет). Из хороших новостей - с продажи этих акций планируется вернуть деньги вкладчикам.

Обе эти истории начались ещё до глобального AI бума, который начался с выхода ChatGPT в декабре 2022 (пост). А в прошлом году, посмотрев на низкую цену биткоина и почуяв денежный зхапах от хайпа вокруг ChatGPT, куча криптобро резко переобулись и стали AI-интузиастами. Так что криптоденьги точно всплывут где-то ещё и в большем масштабе. Интересно где?

@ai_newz
🤯47👍17🔥1513😁8💯3🦄3🤩1🫡1
Hume.ai - теперь бот способен чувствовать🥹

Нарратив о психологической помощи от AI-ботов с самого начала появления LLM витает в воздухе. Для многих это более доступно чем обратиться к кожаному психологу (конечно, есть сомнения по поводу качества, но мы туда движемся). И, кажется, Hume – это огромный шаг в этом направлении. Он способен понимать эмоции собеседника не только по контексту, но и по его интонации! За этим очень интересно наблюдать на диаграмме внизу экрана, которую разработчики нам гордо оставили. Кстати, в плейграунде Humе.ai также лежит демка, способная определять эмоции по выражению лица, но в чат её пока не прикрутили.

Сейчас модель предлагают использовать для развлечения, а бизнесу - для аналитики разговоров и выявления токсичности в играх.

Из прикольного ещё то, что бот отвечает с разной интонацией (да, он разговаривает), в зависимости от того, какую эмоцию он хочет передать. Да и вообще, всё настроено на болтовню так, чтобы пользователь вообще не замечал, что общается с ботом. Ты просто говоришь, а он тебе сразу же, без задержек, отвечает. Разговор действительно получается довольно живым и интересным.

Рекомендую попробовать - Демо

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥78👍1918😁6🦄5😍4
Microsoft планирует построить для OpenAI суперкомпьютер за $100 миллиардов (!). Называется Stargate, запустят в 2028, это будет пятой стадией постройкой Microsoft суперкомпьютеров для OpenAI. Третью заканчивают сейчас, четвёртую запустят в 2026 году, а звёздные врата откроют уже в 2028, с планируемым расширением в 2030.

Жрать энергии он будет вплоть до 5 гигаватт, так что питать его скорее всего планируют энергией ядерного синтеза – Microsoft год назад заключила контракт c Helion, компанией в которой у Сэма Альтмана большая доля, на поставку электроэнергии в больших объёмах, и как раз к 2028 году.

Большая часть денег уйдёт на чипы, а так как энергию скорее всего организовывает Альтман, то и с чипами может выйти такая история.

Со слов Альтмана, для создания superintelligence нам скорее всего понадобится значительный прорыв в энергетике.

Проект очень рискован технически – не очень понятно получится ли питать, связывать и охлаждать такое количество чипов, особенно учитывая то что (по слухам) строить это всё будут в пустыне. Под землю что-ли все закопают? Реализация проекта ещё под вопросом и зависит от результатов GPT-5.

Что вообще они там собираются тренировать? 😢

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯255🔥4119😁12👍9🦄6😱3
Дайджест по новым LLM

На неделе появился целый батч новых любопытных моделей, про них и поговорим.

▶️x.ai Илона Маска анонсировали Grok 1.5. По опубликованным авторами бенчмаркам заметно лучше v1.0, особенно в ризонинге (способности к логическому мышлению). Увеличили длину контекста до 128к. Обещают дать доступ к модели на следующей неделе. Grok 2, по словам Маска, "обгонит современный AI по всем метрикам" 😨.

▶️Samba-CoE - семейство франкенштейн-моделек. Авторы берут кучу моделек с HF, даже с разными архитектурами, и делают что-то в духе c-BTM: тренируют ещё одну модель которая выбирает лучшего "эксперта" в зависимости от задачи. Весов нету, есть демка. То есть это монстр из нескольких моделей, где во время инференся динамически выбирается какой токен и через какую модель пропустить. Samba – это хороший пример того, что бенчмарки не совсем отражают полезность модели и воспринимать репорты лучше со щепоткой соли. Особенно здесь, где смешали в кучу сомнительных моделей с хаггингфейса, которые не факт что не тренировали на бенчмарках. Ждем реальных тестов на Chatbot Arena.

▶️Qwen1.5-MoE-A2.7B - 14.3B MoE моделька от Alibaba, по перформансу на уровне Qwen1.5 7B (был пост про Qwen1.0) при этом в три раза быстрее. Архитектурно - 64 эксперта, 4 из них выбраны по дефолту, ещё 4 выбираются из оставшихся 60. Активно 2.7 миллиарда параметров (отсюда и название): 0.7B эмбеддинги + 2B в теле модели. Хороша если у вас много памяти, чтобы вместить 14.3B параметров, но слабое железо. Напрмиер, если запускаете на CPU, маках и старых enterprise видеокартах. Блогпост с деталями.

▶️ Кроме этого вышли DBRX [тык], Stable Code Instruct 3B [тык] и Jamba [тык], про них были отдельные посты.

#дайджест
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4116👍10❤‍🔥7