эйай ньюз
63.5K subscribers
1.48K photos
789 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Никто:

Илон Маск: высказывается в поддержку калифорнийского закон SB 1047 о регуляции AI, который зажмёт его собственные компании тоже.

@ai_newz
Сверхзвуковые LLM

Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B

Сделал это стартап Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq.

Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например Sohu. Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно?

Попробовать можно тут.

@ai_newz
VGGHeads: Восстанавливаем 3D головы на групповых фото

В догонку к недавнему посту про OccluFaceDiff, где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про VGGHeads. Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко.

Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов).

Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример с недавней сходки в Варшаве.

Project page
Пейпер
Код
Демо
Датасет (скоро)

@ai_newz
MLPerf Inference v4.1 - триумф Nvidia B200

MLPerf - это главное соревнование производительности железа для ИИ, где сравнивают их производительность на реальных моделях. Есть две основных категории - тренировка и инференс, сейчас закончился инференс. В этом раунде аж 4 новых ускорителя, два - от компаний участвующих впервые. Все новички участвовали лишь в одной дисциплине.

Главная звезда - Nvidia со своей B200. Она в 2.5 раза быстрее новенькой H200, которую Nvidia начала продавать лишь вчера, и в 4 раза быстрее H100 - на новой видеокарте Llama 2 70B выдаёт больше 11к токенов в секунду.

Впервые на MLPerf появилась AMD, с MI300x. Перформанс Llama 2 70B - 3к токенов в секунду, уровень H100, но отстаёт от 4.5к у H200. Прямой конкурент H200, MI325x (монстр с 288 гигами видеопамяти) выйдет в четвёртом квартале, то есть отставание по железу у AMD сейчас всего несколько месяцев. Но отставание в софте - совсем другая проблема.

Кстати видеокарты AMD уже светились на MLPerf один раз прежде, правда геймерские. tinycorp, которая производит серверы на основе геймерских видеокарт, удалось натренировать ResNet на 6x7900XTX, используя и свой фреймворк и свои драйвера.

Ещё один новичок - Untether AI, их собственный ускоритель смог добиться 60% перформанса H100 в ResNet, при эффективности в три раза выше. Достигли этого, засунув всю модельку прямо на чип, а не в видеопамять, поэтому участвовали лишь в дисциплине с очень маленькой моделькой. Как они будут запускать модели побольше – открытый вопрос. Однако, эту проблему уже удалось решить Groq - стартапу с похожей архитектурой чипа, но Llama 70B запускается у них на 576 чипах, что требует нетривиального нетворкинга.

Заявился туда и Google, с новыми TPU v6. В инференсе SDXL перформанс в три раза лучше чем у v5e или примерно 70% от перформанса H100. Это младшая версия TPU v6, созданная для инференса. Разница в производительности между младшей и старшей версией предыдущего поколения - 2.3x, похожую разницу стоит ожидать и сейчас.

В своих маркетинговых материалах разработчики железа манипулируют всем, что только можно, сравнивают тёплое с мягким. Поэтому сравнивать железо на общих, независимых, бенчмарках, как это происходит на MLPerf, чрезвычайно важно.

Результаты

@ai_newz
Новая Alexa будет на основе Claude

По сообщению Reuters, продвинутые фичи на основе новой модели будут стоить 5-10 долларов в месяц. Выглядит как ещё одна попытка получить хоть какую-то прибыль от Alexa, потери от которой с 17 по 21 годы составили 25 миллиардов (более новых данных нет, но там вряд ли дела обстоят лучше).

Увы, похоже это будет не омни-модель, вроде GPT-4o, так что задержка лучше текущих голосовых режимов не станет (то есть ~3 секунды, а не ~300 миллисекунд). Надеюсь Антропик подсуетится и даст возможность Claude работать напрямую с аудио и на вход и на выход, тогда будет разнос (но о стоимости инференса даже думать страшно).

Вот и начинается интеграция Claude в продукты Amazon, раньше это было лишь API. Инвестицию в 4 миллиарда отбивать-то нужно.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Новые роботы NEO Beta от 1x

В движении видно что робот, но чисто по стопкадрам сложно отличить от человека в костюме. А всего три месяца назад роботы компании ещё ездили на колёсах. А тут можете похвалить (или поругать) одного из разработчиков.

What a day to be alive

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Как LLM хранят факты?

Принес вам на вечер субботы отличный ролик от 3blue1brown. На этот раз гений интуитивного обучения расскажет про то, как LLM запоминает факты.

Это видео для полных новичков, объясняющее роль многоуровневого перцептрона (MLP/FFN) в LLM. Это третье и последний эпизод в серии о работе LLM. D первых двух объяснялось как работают эмбеддинги и как работает механизм внимания. Эта серия - лучшее объяснение для непрограммистов о том, как работают LLM, с кучей хороших визуализаций.

https://www.youtube.com/watch?v=9-Jl0dxWQs8

Смотрим здесь. Клип сверху — просто отрывок.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Подъехала новая text2video халява от китайцев – Minimax video-01

Еще до выхода всяких Лум, Alibaba периодически скидывала статьи по видео генерации. И вот стартап Minimax, за спиной у которого Alibaba, показал свою видео модельку video-01. Еще в инвесторах, конечно же, Tencent — они, кажется, имеют долю вообще во всех китайских ИИ-стартапах. Трудолюбивые продолжают пытаться скопировать SORA и занять рынок до того, как OpenAI релизнет свою модель.

Релиз мощный, еще никто не делал фильм, лол. Помимо черрипика выше, есть еще твитерские примеры, и складывается ощущение, что эта моделька наиболее продвинутая в плане мувмента — чекните руки в первом видосе внизу. Максимальная длина генерации видо – 6 сек.

Кроме этого у них есть полный набор продуктов - генерация изображений, музыки, копирование голоса, свои LLM, клон Perplexity. Всё ориентировано на китайский рынок, поэтому компания не особо заметна за пределами Китая. За 250 миллионов долларов, которые поднял стартап, это очень достойные результаты.

Пробуем годноту здесь, если есть китайский номер: hailuoai.com

Официально работает только с ПК, но можно и в десктоп-режиме на мобилках.

@ai_newz
Тесты video-01 от твитерских:

Руки двигаются хорошо, а вот глаза немного прыгают (еле уловимо). Ну, скоро и эти недочеты в моделя будут исправлены.

@ai_newz
Нейродайджест за неделю (#33)

LLM
- Арена для русскоязычных LLM. Попробуйте предсказать результаты.
- Cerebras бьёт рекорд по токенам/сек. Огромная пропускная способность памяти чипа позволяет достичь сверхзвуковых скоростей.
- Claude в Alexa. Вот и «мозги» для колоночки подъехали, но поможет ли это спасти проект?
- Как LLM хранит факты. Самый понятный гайд по многослойному персептрону.

Роботы
- Комплект для самостоятельной сборки. Инструкция прилагается и стоит не так уж дорого.
- NEO Beta от 1x. Скайнет всё ближе, ботов уже не отличить от людей в костюме.

Другое
- Маск за регуляции или он уже нашёл лазейку?
- VGGHeads. Восстанавливаем 3D-шейпы голов в неограниченном количестве с новым датасетом в 1М картинок. Всё ради фильтров в инсту.
- MLPerf. Олимпиада чипов для нейросеток. Вот как понять, кто реально быстрее.
- Minimax video-01. Ещё один китайский игрок на рынке видеомоделей. Очень достойный перформанс.

> Читать дайджест #32

#дайджест 
@ai_newz
Media is too big
VIEW IN TELEGRAM
Совсем уже зашугали роботов в Китае. Боятся всего и всех, отскакивая в ужасе. Как бы нам обраточка не пришла через пару лет.

А если серьезно, то это робопёсик X30 от китайской компании DEEP Robotics. И они научили его избегать контакта с людьми и другими объектами ради безопасности, конечно.

Цена такого четвероногого друга начинается от $65000. И это не мало. У Boston Dynamics робопес стоил $75к, когда они их ещё продавали (сейчас, кажется, продажи делают только по индивидуальным договоренностям).

@ai_newz
эйай ньюз
XAI построили крупнейший тренировочный кластер в мире Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии…
Маск продолжает удивлять - XAI уже запустили Colossus, крупнейший в мире кластер для тренировки. Там сейчас 100k H100, а в течение пары месяцев его мощности удвоят - добавят по 50k H100 и H200. Построили кластер всего за четыре месяца, что крайне быстро для суперкомпьютеров.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
RunwayML тизерят новую модельку, анонс завтра в 15:00 CET

В тизере ничего особо интересного не показали, кроме шикарных картинок, но думаю, релиз будет любопытный.

Теперь ждем презентации свежих видеомоделей, как новенький айфон.
😋

UPD: Это оказался тизер короткометражки, сделанной при помощи Runway Gen-3, которую обещали скоро показать.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👮Калифорнийский законопроект о регуляции ИИ прошёл ассамблею

TLDR: SB 1047 фактически запрещает публикацию передовых моделей в опенсорс. Несмотря на сильную оппозицию (см скрин) со стороны индустрии и не только, закон удалось провести сквозь ассамблею. На него ещё может наложить вето губернатор.

Последний раз я писал о законе ещё в июле, с тех пор туда внесли ряд правок. Вот основные изменения в законопроекте с прошлого поста:

Подпадают под закон модели, которые стоили бы более $100 млн по "средним ценам облачного компьюта". Файнтюны же таких моделей, на которые потрачено более $10 млн, считаются новыми моделями. До 1 января ограничение также даётся в флопсах - 1e26 и 3e25.

Обновлять определение подпадающих под закон моделей теперь будет "Board of Frontier Models" (совет по делам фронтирных моделей). Пять из девяти мест в борде будут занимать: представитель опенсорс сообщества, представитель индустрии, эксперт по кибербезопасности, эксперт по оружию массового поражения и эксперт в ИИ. Их назначает губернатор, подтверждает назначение сенат. Ещё два места, которые назначает спикер ассамблеи – это академики, специализирующиеся в AI. Оставшиеся два места назначает комитет по правилам сената, требований к компетентности членов тут нет.

Главная проблема закона, напоминаю – это ответственность разработчиков модели за "критический вред", который нанесла не только сама модель, но и её файнтюны "дешевле $10 млн". По факту это запрещает публикацию в опенсорс моделей, подпадающих под закон. Даже если сама модель безобидная, доказать, что все возможные файнтюны в пределах ограничений по компьюту, будут тоже безобидными - невозможно.

Вторая большая проблема - определение денежной стоимости тренировки модели "средней ценой по рынку". Разброс в стоимости H100 в час на рынке сейчас более 4x (AWS - $12.25/hr, Lambda - $3/hr), так что со средним значением под закон будут подпадать модели в разы дешевле чем лимит на бумаге.

Сейчас закон отправился на рассмотрение к губернатору, у которого месяц на то, чтобы либо подписать закон либо наложить на него вето. Если он его подпишет - регуляции вступят в силу уже в 2026 году.

Кажется, если закон примут, то это может прибить AI стартапы в Силиконовой Долине – они будут делать ноги в другие штаты, где и налоги пониже и регуляции помягче. При условии, конечно, что не примут похожую регуляцию на федеральном уровне.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Минимум две компании собираются строить датацентры стоимостью более чем в $125 млрд

Комиссар по торговле Северной Дакоты заявил, что правительство штата проводит переговоры о постройке гигантских кластеров в штате - потребление каждого может доходить до 10 гигаватт. Это беспрецедентные масштабы - запущенный вчера Colossus, самый большой кластер в мире, потребляет менее 200 мегаватт, то есть разница более чем в 50 раз.

По словам комиссара, речь идёт о двух компаниях с капитализацией более триллиона. Компаний с такой капитализацией немного: Nvidia, Amazon, Google, Apple, Meta и Microsoft. Apple и Nvidia не столь активны в постройке датацентров, так что это, скорее всего, не они. А вот слухи о Stargate, гигантском датацентре Microsoft, ходят уже полгода.

Северную Дакоту, вероятно, рассматривают потому, что это один из немногих штатов с избытком электроэнергии. Обусловлено это огромными запасами нефти - штат добывает 1,3 миллиона баррелей в день - столько же, сколько добывает, например, Катар. А ведь побочный продукт сланцевой нефти - природный газ, который какое-то время настолько некуда было деть, что его просто сжигали, было видно из космоса.

Использовать оба датацентра точно планируют для ИИ - другие юзкейсы представить сложно. Для контекста: Azure, второе по популярности облако в мире, в сумме потребляло 5 гигаватт на конец предыдущего года. Для того чтобы такие затраты были оправданы, выручка от AI должна вырасти ещё во много раз.

Сейчас пока работают на опережение - вбухивают бабло в AI, чтобы не отстать от конкурентов и застолбить лидерскую позицию. А монетизация и прибыль придут чуть позже.

@ai_newz