эйай ньюз
65.5K subscribers
1.48K photos
792 videos
7 files
1.8K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Amazon релизнули Nova - новое поколение своих моделей

В семействе четыре LLM - Micro, Lite, Pro и Premier. Первые три уже доступны на AWS, а Premier ещё тренируется. Все кроме Micro - мультимодальные.

Модели вышли дороговатые - Pro по бенчам чуть лучше Llama 3.2 90B, но по гораздо более высокой цене – $0.8/$3.2 за лям токенов у Pro, против $0.72/$0.72 у Llama на том же AWS. Но Amazon очень хочется сравнивать себя с передовыми моделями, поэтому все результаты Nova Pro в табличке выделили жирным, не смотря на более слабые результаты по сравнению с GPT-4o и Claude Sonnet.

Что неплохо - длина контекста. Хоть у Micro она всего 128к, у Lite и Pro она уже солидные 300к. Этого уже достаточно чтобы туда засовывать видео, пусть и в маленьком фреймрейте. Больше контекст только у Gemini.

Также релизнули Nova Canvas и Nova Reel, для генерации изображений и видео. Пока примеров генерации не очень, так что отпишусь про них я как-то потом.

Model card

@ai_newz
Сейчас будет пост для новичков и повод вспомнить былое для старичков. 

Зачем ученым нужен AI? 


Тут мой бывший преподаватель по алгоритмам из Школы анализа данных в Минске, а ныне руководитель всего ШАДа Алексей Толстиков написал небольшое эссе на эту тему и собрал пару юзкейсов из академии. 

Кроме всяких чатов GPT, и Copilot'ов, помогающих писать код, машинное обучение уже давно используется в науке. Например, бозон Хиггса еще в 2012 году открыли с помощью ML (хоть и классического). Модели кормили килотоннами данных с датчиков, пока они искали какие-то необычные паттерны.

Самый известный на сегодняшний день пример, пожалуй, — AlphaFold, который предсказывает трехмерную структуру белков. Этот инструмент открыл множество новых комбинаций, за что и получил Нобелевскую премию. 

В таких задачах людям пришлось бы годами разбираться в бесконечных датасетах и графиках. Нейросети здесь незаменимы, особенно когда дело доходит до эмпирического вывода закономерностей — первого шага к построению полноценной теории или законов. 

Кстати, ШАД тоже занимается разработкой ИИ-моделей для научных задач.. Например, там собрали нейронку для предсказания распространения вулканического пепла в атмосфере. Это помогает заранее подготовиться к выпадению пепла и и минимизировать риски для людей и инфраструктуры. Такие риски есть, например, на Камчатке и в других регионах с активными вулканами. 

Технологии ИИ в науке начали применять еще давно. Например, с помощью модели Morpheus астрономы с 2020 года анализируют космическое небо в поисках экзопланет  Однако рядовой астроном или биолог вряд ли соберет AlphaFold, а обычный ML-щик без биолога тоже не справится. Поэтому ML-специалисты нужны везде! 

Вообще, междисциплинарный ресерч — это топ (я и сам начинал PhD с интердисциплинарного проекта с историей искусств). У нас уже есть Нобелевские премии по физике и химии, а еще осталась куча дисциплин, где использование AI еще не получило такого большого признания. Кто знает, может, следующая будет по истории? Например, за расшифровку каких-нибудь древних рун.

@ai_newz
Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz
Colossus расширят минимум до миллиона видеокарт

Размер суперкомпьютера xAI, который построили за рекордные четыре месяца, пару месяцев назад начали удваивать - к 100k H100 решили докинуть 50k H100 и 50k H200. Закончены ли уже работы - непонятно, но Маск вроде пока этим не хвастался.

До лета следующего года планируется докинуть ещё 300к GB200, первые из которых начнут устанавливать уже в январе, за приоритетный доступ к GPU Маск заплатил больше миллиарда долларов. А вот сейчас выяснилось что и это не предел, а общее количество карт планируется довести более чем до миллиона.

Для понимания масштабов - Llama 3 405B тренировали на 16k H100, Grok 2 - на 20k. Кластеры для тренировки других передовых моделей тоже находятся в пределах пары десятков тысяч GPU. Следующее поколение моделей, вроде Grok 3, тренируется уже на 100k+ GPU, а компании уже закладывают инфраструктуру на всё большую и большую тренировку.

А ведь миллион GPU это не предел - уже какое-то время ходят слухи о многогигаваттных инсталляциях, стоимостью за сотню миллиардов долларов каждая, с многими миллионами чипов.

@ai_newz
LLM стают ещё дешевле - Lambda запустили Inference API

Миллион токенов Llama 3.1 405B в fp8 теперь стоит всего 90 центов (одинаковая цена за инпут и аутпут). Это почти в два раза дешевле самого дешёвого провайдера. Цена других моделей тоже поражает - за миллион токенов Qwen 2.5 Coder просят всего 9 центов.

Увы, пока что нет context caching и batch api, но если их когда-то добавят, то разнос будет полный. Ждём бенчей эндпоинтов и поддержку bf16.

Ещё жаль, что пока у них нет VLM моделей.

https://lambdalabs.com/inference

@ai_newz
Начался первый из 12 стримов с анонсами OpenAI!

https://www.youtube.com/watch?v=rsFHqpN2bCM

@ai_newz
Слухи оказались правдивыми - OpenAI запускает подписку за 200 долларов в месяц

Подписка даст доступ к o1 pro режиму - модели позволят дольше думать над запросами. Также дают неограниченный доступ к o1, o1-mini и Advanced Voice Mode.

Ещё o1 выходит из превью, релизная версия принимает на вход картинки и заметно лучше в математике и кодинге. Плюс она лучше понимает сколько нужно думать над таском - над простыми запросами теперь будет думать быстрее, над сложными - больше.

А ведь ещё ходили слухи о подписке за $2k в месяц ☠️

@ai_newz
Вышла Llama 3.3!

70B модельку дотюнили так, что она часто обгоняет даже 405B. Особенно большой прирост на математике и кодинге, в которых Llama традиционно была послабее. В этот раз релизят только 70B, других размеров и VLM нету.

Это последняя итерация Llama 3 и последний большой опенсорс релиз Meta в этом году. Следующая остановка - Llama 4.

Веса

@ai_newz
Все как с цепи сорвались перед вторым стримом OpenAI

1️⃣ Google выпустили Gemini-Exp-1206, которая заняла первое место на арене во всех категориях (хард промпты, стиль, кодинг), плюс повысили лимиты в AI Studio (бесплатно можно потыкать гемини, нужен впн).

2️⃣ xAI сделали Grok бесплатным - теперь можно с ним общаться 10 сообщений каждые 2 часа. А ещё куда-то пропал Grok 2 mini. Неужели Grok 3 не за горами?

А посмотреть стрим OpenAI можно вот тут, начнётся через 15 минут. Что, думаете, там покажут?

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI показали файнтюнинг O1

Запустят полноценно в следующем году, пока что бета.

Заявляют, что всего из пары десятков примеров модель сможет при помощи RL научится новым скиллам в какой-то узкой области.

Зааплаится на бету

@ai_newz
xAI Илона Маска запустили Aurora - свой собственный генератор картинок

После вчерашнего апдейта использовать его можно бесплатно - 10 сообщений каждые два часа. Оригинальный Grok 2 с FLUX.1 пока ещё тоже доступен.

grok.x.com

@ai_newz
Нейродайджест за неделю (#47)

12 стримов OpenAI
- ChatGPT Pro за 200 баксов — анлим на o1, o1-mini и Advanced Voice Mode + доступ к еще более долгодумающему (теперь это круто) o1 Pro.
- Паника перед стримами OpenAI — все судорожно релизят свои модели (Gemini-Exp-1206) и открывают бесплатный доступ (к Grok), чтобы успеть попасть в инфополе и подпортить релиз OpenAI.
- Файнтюнинг o1 — запуск в следующем году, можно записаться на бету.

LLM
- Nova — свежие мультимодальные LLM от Amazona, но подороже конкурентов.
- Миллион токенов за 9 центов — Inference API Lambda предлагает цены в два раза ниже самого дешевого предложения, которое было на рынке раньше. А Llama 3.1 405B в fp8 стоит всего 90 центов.
- Llama 3.3 — 70B обогнала в перфомансе старую 405B, но пока это всё, других моделей не будет до 4-й версии.

Железо
- Intel на грани — CEO ушел на пенсию, оставив убыточную компанию без единого успешного направления.
- Intel Battlemage — новое поколение GPU, теперь Intel в позиции догоняющего. Это не топ-карта, а скорее бюджетная серия с неплохим коэф. цена/качество. Ждем ответки NVIDIA.
- На чем тренят Anthropic? — разбор чипов Trainium от Amazon.
- Colossus — миллионный кластер Маска. Суперкомпьютер xAI растет до невиданных размеров.

Генеративные модели

- Hunyuan Video — еще одно детище Tencent, опенсорс 13B видео-генератор + небольшой разбор архитектуры.
- Genie 2 — игровая world model от DeepMind позволяет генерить игры всех мастей и размеров. Пока еще есть над чем работать, но нас ждет шикарный AI-геймплей в будущем.
- Aurora — xAI выпустили очень сносный генератор картинок без цензуры на лица, который можно запустить в их теперь условно бесплатном чате Grok 2. Уже его убрали.

Прочее
- HuggingFace — прошла халява: ввели ограничения на хранилище. Где теперь хранить датасеты — неясно. Говорят, его использовали как облачное хранилище для обычных файлов.
- Зачем ученым нужен AI — ретроспективный пост о развитии LLM и немного об интердисциплинарном ресерче.
- OpenAI в Цюрихе — «открытая» компания впервые открыла офис вне США, и это еще и прямо у меня под боком!


> Читать дайджест #46

#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Утекла экранная копия ролика Sora v2. Версию v1 видать просто пропустили:)

Ролик эффектно выглядит, но учитывайте, что это промо.
Будет доступна "совсем скоро". Ага, верим (нет), ждем.

Обещают 1 мин генерации, text2video, image2video, video2video.

@ai_newz
Sora всё ближе! 🥳

На сайте OpenAI уже появилась страница со списком стран где будет доступна Sora. Сюрприза не случилось: модель недоступна в ЕС и Великобритании, из-за драконовских регуляций. Всем остальным странам, где есть ChatGPT, доступ дадут.

Судя по тому, как участились утечки (вроде вчерашней экранки), релиз не за горами, может быть даже сегодня вечером! Но, мне кажется, что желающим попробовать Sora стоит приготовить $200 на новый тир подписки - генерация даже пары секунд видео это очень дорогое удовольствие, а ведь Sora 2, судя по утечкам, сможет генерить аж целую минуту!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM