эйай ньюз
65.7K subscribers
1.48K photos
791 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Внимание! Hugging Face представляет конструктор «Собери сам роборуку и обучи ее»

Вкомплект входит:
- Конструктор «Собери сам» — роборука с ссылками для заказа запчастей ~ $300 (опционально есть еще вторая за $250) + файлы для принтера.
Гайды по:
- Cборке и калибровке.
- Записи собственного датасета на камеру телефона.
- Тренировке нейросетей для управления рукой.

Прикольная инициатива, ребята надеются максимально помочь начинающим в надежде привлечь больше рук  (кожаных, а не робо-) в опен-сорс, что, в общем-то, шикарно!

Расходники вышли дороговатыми, но это уже не $108K за домашнего робогуманоида + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки.

Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки. Здесь для обучения используется способ, похожий на тот, что я описывал в посте про живую сталь. Там можно почитать подробнее.

Хотел бы я подарить такую штуку себе 15 лет назад.

Туториал на гитхабе
Тред с гайдом получше (есть и видео и ноутбуки с тренировкой нейронок)

@ai_newz
Нашел мем, высмеивающий завышенные ожидания от применения нейронок 10 лет назад. Хотя мем и забавный, важно понять не только как и почему так вышло, но и отметить, что несмотря на сохранение профессии радиолога, медицина продолжает трансформироваться под влиянием AI.

Главная причина таких ошибочных прогнозов — концентрация на бенчмарках без учёта полевых условий применения. Модели, превосходящие человека в анализе рентгеновских снимков на бенчмарках, часто оказываются менее эффективными на реальных клинических данных. Кроме того, бенчмарки не отражают всего спектра задач, с которыми сталкиваются радиологи.

Сейчас исследователи начали применять ключевой принцип стартапов — прямое общение с пользователями, в данном случае с практикующими врачами. Это позволяет внедрять AI для решения реальных проблем, таких как поиск редких патологий, которые из-за своей нечастой встречаемости могут быть не замечены обычными врачами.

Хороший пример и такого юзкейса — нейросеть, которая выявляет редкие патологии нервной системы на ранних стадиях беременности по результатам УЗИ. Идея проекта принадлежит фонду "Спина бифида", а создали нейросеть в Яндексе в сотрудничестве с врачами перинатального центра Кулакова и студентами Школы анализа данных. Несмотря на относительно небольшой процент детей с подобными патологиями, в масштабах стран речь идёт о тысячах случаев ежегодно. Раннее выявление может значительно улучшить качество жизни этих детей

Архитектурно тут всё очень просто - YOLOv10 и пара DenseNet. А основная сложность – это датасет, который размечали на основе 6 тысяч УЗИ снимков (в том числе 300 с патологиями).
Моделька открытая,плюс её можно затюнить искать дополнительные патологии или лучше понимать снимки какой-то отдельной модели УЗИ аппаратов.

На фоне шумихи вокруг LLM часто забывается, как AI уже сейчас реально улучшает жизни, и до прихода AGI (а там еще посмотрим кто кого спасать будет).

@ai_newz
LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!

Для новчиков - тут я писал подробнее, что такое ChatBot Arena.

@ai_newz
Никто:

Илон Маск: высказывается в поддержку калифорнийского закон SB 1047 о регуляции AI, который зажмёт его собственные компании тоже.

@ai_newz
Сверхзвуковые LLM

Llama 3 70B запустили на скорости в 450 токенов в секунду. А 8B - на бешенных 1800 токенов в секунду. Это всё без квантизации, да и цена не кусается - API стоит 10 центов за лям токенов для 8B и 60 для 70B. Предыдущий рекорд по скорости побили в более чем два раза для 8B. В будущем обещают добавить больше моделей, начиная с Llama 3.1 405B

Сделал это стартап Cerebras. Он производит железо для нейронок, известен самым большим чипом в мире (в 57 раз больше по размеру H100!). Предыдущий рекорд по скорости поставил тоже стартап со своим железом - Groq.

Хороший пример того что специализированные только под нейронки чипы вроде могут в разы превосходить видеокарты по скорости инференса, а ведь скоро ещё будут чипы которые заточены под конкретные модели, например Sohu. Кстати, давно хотел разобрать разные стартапы по производству железа и разницу их подходов. Интересно?

Попробовать можно тут.

@ai_newz
VGGHeads: Восстанавливаем 3D головы на групповых фото

В догонку к недавнему посту про OccluFaceDiff, где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про VGGHeads. Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко.

Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов).

Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример с недавней сходки в Варшаве.

Project page
Пейпер
Код
Демо
Датасет (скоро)

@ai_newz
MLPerf Inference v4.1 - триумф Nvidia B200

MLPerf - это главное соревнование производительности железа для ИИ, где сравнивают их производительность на реальных моделях. Есть две основных категории - тренировка и инференс, сейчас закончился инференс. В этом раунде аж 4 новых ускорителя, два - от компаний участвующих впервые. Все новички участвовали лишь в одной дисциплине.

Главная звезда - Nvidia со своей B200. Она в 2.5 раза быстрее новенькой H200, которую Nvidia начала продавать лишь вчера, и в 4 раза быстрее H100 - на новой видеокарте Llama 2 70B выдаёт больше 11к токенов в секунду.

Впервые на MLPerf появилась AMD, с MI300x. Перформанс Llama 2 70B - 3к токенов в секунду, уровень H100, но отстаёт от 4.5к у H200. Прямой конкурент H200, MI325x (монстр с 288 гигами видеопамяти) выйдет в четвёртом квартале, то есть отставание по железу у AMD сейчас всего несколько месяцев. Но отставание в софте - совсем другая проблема.

Кстати видеокарты AMD уже светились на MLPerf один раз прежде, правда геймерские. tinycorp, которая производит серверы на основе геймерских видеокарт, удалось натренировать ResNet на 6x7900XTX, используя и свой фреймворк и свои драйвера.

Ещё один новичок - Untether AI, их собственный ускоритель смог добиться 60% перформанса H100 в ResNet, при эффективности в три раза выше. Достигли этого, засунув всю модельку прямо на чип, а не в видеопамять, поэтому участвовали лишь в дисциплине с очень маленькой моделькой. Как они будут запускать модели побольше – открытый вопрос. Однако, эту проблему уже удалось решить Groq - стартапу с похожей архитектурой чипа, но Llama 70B запускается у них на 576 чипах, что требует нетривиального нетворкинга.

Заявился туда и Google, с новыми TPU v6. В инференсе SDXL перформанс в три раза лучше чем у v5e или примерно 70% от перформанса H100. Это младшая версия TPU v6, созданная для инференса. Разница в производительности между младшей и старшей версией предыдущего поколения - 2.3x, похожую разницу стоит ожидать и сейчас.

В своих маркетинговых материалах разработчики железа манипулируют всем, что только можно, сравнивают тёплое с мягким. Поэтому сравнивать железо на общих, независимых, бенчмарках, как это происходит на MLPerf, чрезвычайно важно.

Результаты

@ai_newz
Новая Alexa будет на основе Claude

По сообщению Reuters, продвинутые фичи на основе новой модели будут стоить 5-10 долларов в месяц. Выглядит как ещё одна попытка получить хоть какую-то прибыль от Alexa, потери от которой с 17 по 21 годы составили 25 миллиардов (более новых данных нет, но там вряд ли дела обстоят лучше).

Увы, похоже это будет не омни-модель, вроде GPT-4o, так что задержка лучше текущих голосовых режимов не станет (то есть ~3 секунды, а не ~300 миллисекунд). Надеюсь Антропик подсуетится и даст возможность Claude работать напрямую с аудио и на вход и на выход, тогда будет разнос (но о стоимости инференса даже думать страшно).

Вот и начинается интеграция Claude в продукты Amazon, раньше это было лишь API. Инвестицию в 4 миллиарда отбивать-то нужно.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Новые роботы NEO Beta от 1x

В движении видно что робот, но чисто по стопкадрам сложно отличить от человека в костюме. А всего три месяца назад роботы компании ещё ездили на колёсах. А тут можете похвалить (или поругать) одного из разработчиков.

What a day to be alive

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Как LLM хранят факты?

Принес вам на вечер субботы отличный ролик от 3blue1brown. На этот раз гений интуитивного обучения расскажет про то, как LLM запоминает факты.

Это видео для полных новичков, объясняющее роль многоуровневого перцептрона (MLP/FFN) в LLM. Это третье и последний эпизод в серии о работе LLM. D первых двух объяснялось как работают эмбеддинги и как работает механизм внимания. Эта серия - лучшее объяснение для непрограммистов о том, как работают LLM, с кучей хороших визуализаций.

https://www.youtube.com/watch?v=9-Jl0dxWQs8

Смотрим здесь. Клип сверху — просто отрывок.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Подъехала новая text2video халява от китайцев – Minimax video-01

Еще до выхода всяких Лум, Alibaba периодически скидывала статьи по видео генерации. И вот стартап Minimax, за спиной у которого Alibaba, показал свою видео модельку video-01. Еще в инвесторах, конечно же, Tencent — они, кажется, имеют долю вообще во всех китайских ИИ-стартапах. Трудолюбивые продолжают пытаться скопировать SORA и занять рынок до того, как OpenAI релизнет свою модель.

Релиз мощный, еще никто не делал фильм, лол. Помимо черрипика выше, есть еще твитерские примеры, и складывается ощущение, что эта моделька наиболее продвинутая в плане мувмента — чекните руки в первом видосе внизу. Максимальная длина генерации видо – 6 сек.

Кроме этого у них есть полный набор продуктов - генерация изображений, музыки, копирование голоса, свои LLM, клон Perplexity. Всё ориентировано на китайский рынок, поэтому компания не особо заметна за пределами Китая. За 250 миллионов долларов, которые поднял стартап, это очень достойные результаты.

Пробуем годноту здесь, если есть китайский номер: hailuoai.com

Официально работает только с ПК, но можно и в десктоп-режиме на мобилках.

@ai_newz
Тесты video-01 от твитерских:

Руки двигаются хорошо, а вот глаза немного прыгают (еле уловимо). Ну, скоро и эти недочеты в моделя будут исправлены.

@ai_newz
Нейродайджест за неделю (#33)

LLM
- Арена для русскоязычных LLM. Попробуйте предсказать результаты.
- Cerebras бьёт рекорд по токенам/сек. Огромная пропускная способность памяти чипа позволяет достичь сверхзвуковых скоростей.
- Claude в Alexa. Вот и «мозги» для колоночки подъехали, но поможет ли это спасти проект?
- Как LLM хранит факты. Самый понятный гайд по многослойному персептрону.

Роботы
- Комплект для самостоятельной сборки. Инструкция прилагается и стоит не так уж дорого.
- NEO Beta от 1x. Скайнет всё ближе, ботов уже не отличить от людей в костюме.

Другое
- Маск за регуляции или он уже нашёл лазейку?
- VGGHeads. Восстанавливаем 3D-шейпы голов в неограниченном количестве с новым датасетом в 1М картинок. Всё ради фильтров в инсту.
- MLPerf. Олимпиада чипов для нейросеток. Вот как понять, кто реально быстрее.
- Minimax video-01. Ещё один китайский игрок на рынке видеомоделей. Очень достойный перформанс.

> Читать дайджест #32

#дайджест 
@ai_newz
Media is too big
VIEW IN TELEGRAM
Совсем уже зашугали роботов в Китае. Боятся всего и всех, отскакивая в ужасе. Как бы нам обраточка не пришла через пару лет.

А если серьезно, то это робопёсик X30 от китайской компании DEEP Robotics. И они научили его избегать контакта с людьми и другими объектами ради безопасности, конечно.

Цена такого четвероногого друга начинается от $65000. И это не мало. У Boston Dynamics робопес стоил $75к, когда они их ещё продавали (сейчас, кажется, продажи делают только по индивидуальным договоренностям).

@ai_newz
эйай ньюз
XAI построили крупнейший тренировочный кластер в мире Но самый большой построенный не значит самый большой работающий. Питаться кластеру пока что не от чего: из рассчитанных 200 мегаватт, в датацентр поступает всего лишь 8. То есть из ста тысяч GPU энергии…
Маск продолжает удивлять - XAI уже запустили Colossus, крупнейший в мире кластер для тренировки. Там сейчас 100k H100, а в течение пары месяцев его мощности удвоят - добавят по 50k H100 и H200. Построили кластер всего за четыре месяца, что крайне быстро для суперкомпьютеров.

@ai_newz