эйай ньюз
77.6K subscribers
1.73K photos
900 videos
7 files
2.04K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
СЛИВ SORA

или художника обидеть может каждый...

Я обычно скептически отношусь ко всем подобным заявлениям, вот, например, про strawberry. Но здесь ситуация еще более неоднозначная.

Что у нас есть:

1. Группа анонимных бетатестеров.

2. Hugging Face Space, куда захардкодили запрос на OpenAI Sora API endpoint.
Вот, зацените:
def generate_video(prompt, size, duration, generation_history, progress=gr.Progress()):
url = 'https://sora.openai.com/backend/video_gen?force_paragen=false'

headers = json.loads(os.environ["HEADERS"])

cookies = json.loads(os.environ["COOKIES"])
if size == "1080p":
width = 1920
height = 1080
elif size == "720p":
width = 1280
height = 720
elif size == "480p":
width = 854
height = 480
elif size == "360p":
width = 640
height = 360
payload = {
"type": "video_gen",
"prompt": prompt,
"n_variants": 1,
"n_frames": 30 * duration,
"height": height,
"width": width,
"style": "natural",
"inpaint_items": [],
"model": "turbo",
"operation": "simple_compose"
}

Здесь видно, что у нас есть возможность выбирать стиль, inpaint_items (можно инпейнтить?) и даже саму модель. В данном случае стоит Turbo.

3. Подозрительное письмо — "Корпоративным повелителям искусственного интеллекта", где обвиняют OpenAI в абьюзе бесплатного труда с целью пиара, ссылаясь на то, что лишь малая часть сгенерированных видео увидит свет. В письме также утверждается, что они хотят помочь OpenAI стать более "open". Мотивация, так скажем, натянутая.

4. Сами видео и тесты от успевших счастливчиков, которые выдают 1080p и продолжительность 10 секунд с высокой консистентностью, динамикой и адекватной анатомией, ура!

5. Водяной знак OpenAI, который, конечно, можно было подделать.

6. В качестве пруфа слили также имена некоторых ранних тестеров. Кстати, на демоспейсе сейчас написано, что спустя 3 часа доступ закрыли для всех.
some sora-alpha-artists, Jake Elwes, Memo Akten, CROSSLUCID, Maribeth Rauh, Joel Simon, Jake Hartnell, Bea Ramos, Power Dada, aurèce vettier, acfp, Iannis Bardakos, 204 no-content | Cintia Aguiar Pinto & Dimitri De Jonghe, Emmanuelle Collet, XU Cheng, Operator, Katie Peyton Hofstadter


Тяжело говорить о том, настоящий ли это слив, хотя выглядит очень похоже. Видео, хоть и немного, но действительно получше, чем у конкурентов. С другой стороны, бета-тестеры на то и бета-тестеры, чтобы работать бесплатно. Никто их не заставляет, так что жаловаться не на что. Я бы вот с удовольствием сам потестировал)

Sora ли это на самом деле или может это все часть маркетинговой кампании? Может быть модель еще не готова к релизу, т.к. обучена на некошерных данных, но хайпа нагнать очень хотелось? До официального релиза мы этого не узнаем.

@ai_newz
👍6222🔥15🤯81🦄1
Маск пообещал заделать целую ИИ игровую студию внутри xAI, как противовес "студиям во владении гигантских корпораций". У xAI, кстати, оценка 50 миллиардов, это между Electronic Arts и Nintendo.

Как думаете, что из этого выйдет?

@ai_newz
5🔥152😁58🦄30🙏20👍10❤‍🔥5🤯5😱3
Black Forest Labs привлекают $200M по оценке более чем в $1B

Такая оценка неудивительна - посмотрите на сравнение популярности FLUX.1 с разными версиями Stable Diffusion, у последних версий которой большие проблемы.

Вообще оцените темп - парни ушли из Stability в марте, в августе уже релизнули первую модельку, попутно зарейзив $31M на Seed. Сейчас в процессе рейза $200M по оценке $1B. Достигли единорога за 4 месяца c запуска первой модели в начале Августа! 🦄

Пацаны вообще ребята!

@ai_newz
🤯171🔥11028👍17🦄14❤‍🔥1🫡1
Выложили веса INTELLECT-1, первой модели натренированной децентрализованно

Пару дней назад я уже писал про завершение тренировки, а вот релизнули и веса. Модель оказалась в среднем по бенчам примерно на уровне Llama 2 7B, но, так как сейчас есть куча моделей получше в схожей весовой категории (Llama 3.1, Qwen 2.5, Mistral Nemo, Gemma), юзать её вряд ли кто-то будет. Всё-таки для первой распределённой тренировки такого масштаба результаты отличные.

Вместе с релизом модели выпустили и техрепорт, где рассказывается, как они уменьшили необходимость коммуникации во время тренировки в 400 раз. Помимо использования смеси DiLoCo и FSDP2, они квантизируют градиенты в int8. К сожалению, никаких абляций эффективности такого метода в техрепорте нет. Оно-то точно работает, но насколько хорошо – вопрос, плюс явно можно придумать схемы квантизации получше.

В будущем Prime Intellect планируют расширить масштабы тренировки, оптимизировать стек и добавить экономические стимулы для комьюнити. Как может работать последнее – непонятно, может быть, у вас есть идеи?

Демка
Веса
Техрепорт

@ai_newz
👍72🔥255
CS492(D): Diffusion Models and Their Applications

Курс по Диффузионным моделям от KAIST (Южная Корея) - если хочется поднять базу, не ходя в университет.

Читает леции вот этот чувак - Minhyuk Sung. На сайте есть записи всех лекций и слайды, плюс 2 гостевые лекции от крутых ученых.

Список лекций:
1 - Course Introduction
2 - Introduction to Generative Models / GAN / VAE
3 - DDPM 1
4 - DDPM 2
5 - DDIM 1
6 - DDIM 2 / CFG
7 - CFG / Latent Diffusion / ControlNet / LoRA
8 - Zero-Shot Applications
9 - Guest Lecture 1 by Or Patashnik
10 - DDIM Inversion / Score Distillation 1
11 - Score Distillation 2
12 - Diffusion Synchronization
13 - Inverse Problems 1
14 - Inverse Problems 2
15 - Probability Flow ODE / DPM-Solver
16 - Flow Matching 1
17 - Flow Matching 2
18 - Course Summary
19 - Guest Lecture 2 by Jiaming Song, Chief Scientist at Luma AI

https://mhsung.github.io/kaist-cs492d-fall-2024/

Ну а еще почитать про диффузию можно у меня :) Вот пара ссылок:
- Как ускорить диффузию часть 1, часть 2
- Моя любимая статья по диффузионным моделям (база)
- Разбор нашей статьи Cashe Me if You Can по ускорению диффузионок
- И ещё пара туториалов, вот первый и второй

#ликбез

@ai_newz
8👍117❤‍🔥35🔥1714😱5
Нейродайджест за неделю (#46)

LLM
- Model Context Protocol — открытый протокол развязывает руки LLM для работы с внешними серверами, как LSP, но для нейронок.
- INTELLECT-1 — цифровые анархисты ликуют! Первая большая распределённая тренировка прошла успешно. Модель вышла не слишком мощной, но какой задел! Кожанка ликует, ведь может повториться история с майнингом.
- Веса INTELLECT-1 — техрепорт и подробности о результатах.
- AI Assistant API — нативно интегрирован в API RAG.
- SmolVLM — мизерная VLM, умещается в 6 GB RAM, выдаёт 80 токенов/сек на M1 Max, причём значительно лучше конкурентов.

Генеративные модели
- СЛИВ SORA — на обнимающее лицо залили доступ к Sora по API, Карл! Теперь у нас есть реальные тесты второй (после MovieGen) модельки.
- Black Forest Labs подняли $200M — при оценке в $1B, став единорогом за 4 месяца.
- Курс по диффузионным моделям от KAIST — здесь всё необходимое для старта + подборка постов на тему.

Прочее
- Маск возвращается в геймдев — впервые после истории, как он, будучи подростком, продал игру за $500, Маск заявил о планах xAI возглавить рынок AI-игр.

Читать дайджест #45

#дайджест
@ai_newz
🔥3211👍43❤‍🔥2😍1
В Intel серьёзные перестановки

CEO Пэт Гельсингер ушёл на пенсию, а пока ищут полноценную замену, его роль будут выполнять два временных co-CEO - текущий CFO компании и глава Client Computing Group (подразделения, делающего консьюмерские продукты).

У компании большие проблемы: на основных рынках, где компания совсем недавно была монополистом, появились серьёзные конкуренты. Серверные процы Intel теряют свою долю рынка из-за Epyc от AMD, а Arm-процы теперь делают уже все, кому не лень - от больших клиентов, вроде Amazon, Nvidia и Google, до мелких рыбёшек вроде Ampere.

С десктопными процессорами вообще ад - Intel на пару с производителями материнок настолько их разогнали, что они просто начали гореть (при этом всё равно отставая от чипов AMD, жрущих в два раза меньше энергии). В ноутбучных тоже шляпа - 6 лет назад конкурентов совсем не было, а сейчас компанию душат одновременно AMD, Qualcomm и Apple.

Не вышло и выйти на новые рынки - компания зачем-то сделала три поколения Gaudi, чипов для нейронок, а потом убила направление в пользу серверных видеокарт, причём когда Gaudi 3 удалось догнать H100 по производительности. С серверными видяхами тоже не очень - первое поколение, вышедшее в прошлом году, совсем не задалось, второе решили просто не выпускать, третье выйдет лишь в следующем году. Пытались они сделать и свои геймерские видеокарты, где доля, которая на старте была 2% от рынка новых видях, сейчас опустилась до 0%. Кстати, завтра презентация нового поколения геймерских видях Intel.

На кошельке компании всё это отразилось крайне сильно - убытки выросли с 1,6 миллиарда во втором квартале до астрономических 16,6 миллиардов в третьем. Посмотрев на такие выдающиеся успехи, акции за последний год упали более чем в два раза.

Пока не выберут нового CEO, компания в подвешенном состоянии. У 18A (18 ангстремов) техпроцесса, на который Пэт поставил будущее всей компании, судя по слухам, значительные проблемы. Но даже его абсолютный успех мог не предотвратить продажу ряда подразделений, а что будет, если он провалится - страшно и подумать.

@ai_newz
1😱103🫡51👍2917🙏5😁2🔥1
HuggingFace ввели ограничение на объём загруженных моделей и датасетов. Pro подписка не спасает - она всего лишь удваивает лимит до терабайта, как повысить дальше не очень понятно.

Что будет с теми кто уже превысил лимит не говорят, но, надеюсь, массовой чистки репозиториев не будет.

Конец эпохи.

Ну, и пора делать бэкапы датасетов.

@ai_newz
10🫡194😱55🤯11👍95🙏5😁3🦄2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz
🔥96🤯1615👍9❤‍🔥1💯1🦄1
Intel показали новое поколение видюх - Battlemage

Хоть у компании и большие проблемы, смена CEO менее чем сутки назад не помешала провести презентацию видеокарт. В этом поколении ещё больший упор на бюджетных геймеров, чем в прошлом, а показали лишь две карты. У старшей B580 12 гигов видеопамяти, по бенчам Intel она на 10% быстрее 4060, а выйдет уже 13 декабря за $249. Соотношение цена/качество очень хорошее, но стоит подождать что смогут предложить конкуренты в этом поколении.

У младшей B570 всего 10 гигов, сильно урезанные характеристики, а цена не сильно ниже — $219. Выйдет она 16 января, цену до этого момента, мб, успеют сбросить, ведь разница в характеристиках сильно больше разницы в цене.

Набор фич в гейминге подтянули до уровня Nvidia — завезли Frame Generation в свой XeSS, аналог Nvidia DLSS. Добавили и Low Latency режим, аналог Nvidia Reflex. Но новое поколение Nvidia выходит уже в начале следующего года, а для него Хуанг явно придумал что-то новое.

Довольно большой упор делают на ИИ-фичи - сделали AI Playground, приложение, позволяющее простым юзерам запускать модели на видяхах Intel. Поддерживаются не только LLM, оно умеет ещё и в генерацию изображений - внутри Playground есть как ComfyUI, так и AUTOMATIC1111 webui. Для людей не разбирающихся, как работает Comfy, сделали библиотеку готовых пайплайнов.

Софт всё ещё сырой, но ситуация улучшается. Хвастаются, что поддержку видях Intel скоро смержат в мейнлайн PyTorch, так что запуск рандомных репозиториев будет возможен без костылей. Говорят, что стабильность драйверов тоже возросла - с момента выпуска прошлого поколения выпустили больше 50 крупных апдейтов, что исправило кучу проблем. Надеюсь, Intel сможет себе позволить выпустить следующее поколение - Celestial, желательно с хайенд видяхами. Софт к тому моменту должны уже полностью допилить, а серьёзной конкуренции на рынке GPU очень не хватает.

В общем, новое поколение потребительских GPU началось, ждём анонсов от Nvidia и AMD на CES.

@ai_newz
👍144🔥3414🤯10🫡3😱2
Так-с, OpenAI открывает офис в Цюрихе! И это не может не радовать. Это, кстати, их первый research-офис вне США.

Круто, что в Цюрихе есть офисы почти всех самых классных AI компаний. Думаю, скоро и другие AI стартапы-переростки подтянутся.

Почему тут открывают офисы? Потому что сюда можно хайрить лучшие таланты со всего мира (не все хотят жит в США), это не ЕС, тут очень сильные университеты по профилю AI/ML, низкая налоговая база для компаний и для работников. Плюс можно переманивать людей из других местных бигтехов.

@ai_newz
170🔥86👍32🤩9🦄3
Amazon релизнули Nova - новое поколение своих моделей

В семействе четыре LLM - Micro, Lite, Pro и Premier. Первые три уже доступны на AWS, а Premier ещё тренируется. Все кроме Micro - мультимодальные.

Модели вышли дороговатые - Pro по бенчам чуть лучше Llama 3.2 90B, но по гораздо более высокой цене – $0.8/$3.2 за лям токенов у Pro, против $0.72/$0.72 у Llama на том же AWS. Но Amazon очень хочется сравнивать себя с передовыми моделями, поэтому все результаты Nova Pro в табличке выделили жирным, не смотря на более слабые результаты по сравнению с GPT-4o и Claude Sonnet.

Что неплохо - длина контекста. Хоть у Micro она всего 128к, у Lite и Pro она уже солидные 300к. Этого уже достаточно чтобы туда засовывать видео, пусть и в маленьком фреймрейте. Больше контекст только у Gemini.

Также релизнули Nova Canvas и Nova Reel, для генерации изображений и видео. Пока примеров генерации не очень, так что отпишусь про них я как-то потом.

Model card

@ai_newz
👍42🦄16😁8❤‍🔥54
Сейчас будет пост для новичков и повод вспомнить былое для старичков. 

Зачем ученым нужен AI? 


Тут мой бывший преподаватель по алгоритмам из Школы анализа данных в Минске, а ныне руководитель всего ШАДа Алексей Толстиков написал небольшое эссе на эту тему и собрал пару юзкейсов из академии. 

Кроме всяких чатов GPT, и Copilot'ов, помогающих писать код, машинное обучение уже давно используется в науке. Например, бозон Хиггса еще в 2012 году открыли с помощью ML (хоть и классического). Модели кормили килотоннами данных с датчиков, пока они искали какие-то необычные паттерны.

Самый известный на сегодняшний день пример, пожалуй, — AlphaFold, который предсказывает трехмерную структуру белков. Этот инструмент открыл множество новых комбинаций, за что и получил Нобелевскую премию. 

В таких задачах людям пришлось бы годами разбираться в бесконечных датасетах и графиках. Нейросети здесь незаменимы, особенно когда дело доходит до эмпирического вывода закономерностей — первого шага к построению полноценной теории или законов. 

Кстати, ШАД тоже занимается разработкой ИИ-моделей для научных задач.. Например, там собрали нейронку для предсказания распространения вулканического пепла в атмосфере. Это помогает заранее подготовиться к выпадению пепла и и минимизировать риски для людей и инфраструктуры. Такие риски есть, например, на Камчатке и в других регионах с активными вулканами. 

Технологии ИИ в науке начали применять еще давно. Например, с помощью модели Morpheus астрономы с 2020 года анализируют космическое небо в поисках экзопланет  Однако рядовой астроном или биолог вряд ли соберет AlphaFold, а обычный ML-щик без биолога тоже не справится. Поэтому ML-специалисты нужны везде! 

Вообще, междисциплинарный ресерч — это топ (я и сам начинал PhD с интердисциплинарного проекта с историей искусств). У нас уже есть Нобелевские премии по физике и химии, а еще осталась куча дисциплин, где использование AI еще не получило такого большого признания. Кто знает, может, следующая будет по истории? Например, за расшифровку каких-нибудь древних рун.

@ai_newz
95👍55🔥20❤‍🔥6🤯3🦄3
Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz
661👍33🔥11🤯8🦄5🤩4😁2😱2