эйай ньюз
72.1K subscribers
1.57K photos
846 videos
7 files
1.9K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Выкатили улучшенную Gemini 1.5 Pro.

- Она теперь доступна в Gemini Advanced (примиумная подписка) и для разработчиков.

- В Gemini 1.5 Pro (доступна в чате gemini.google.com) теперь длина контекста 1 млн токенов! Это прvерно 1.5k страниц тектса и больше чем вся книга "Война и Мир".

- Обещают вскоре добавить поддержку видео - до 1 часа.

- В приватном превью для разработчиков будет доступна версия с контекстом в 2 млн токенов!

https://blog.google/products/gemini/google-gemini-update-may-2024/

@ai_newz
Gemini 1.5 Flash - легкая и быстрая модель

На сцену выпустили Демиса Хассабиса, главу Google DeepMind.

Он показал Gemini 1.5 Flash, более лёгкую модель, оптимизированную для низкой задержки.
- Размер контекста у нее 1 миллионом токенов, и она лучше по бенчмаркам (смотри в комментах) чем предыдущая Gemini 1.0 Pro, и, конечно, быстрее.
- Умеет в мультимодальность.
- Уже доступна как public preview: тут

Это довольно круто. Думаю, что это своего рода GPT4-Turbo от Google.

>> Подбробности

@ai_newz
Imagen 3 - новая моделька для генерации изображений.

Лучше понимает длинные промпты и рендерит текст.

Будет несколько версий Imagen 3, каждая оптимизирована для разных задач. От быстрой генерации скетчей, до high-res изображений.

>> Подробности | Записаться в вейтлист

@ai_newz
Veo - конкурент Sora от Google

Понимает промпты в виде текста, видео и картинок, генерит в 1080p.

Модель доступна через вайтлист на labs.google, заявки уже принимаются.

@ai_newz
Новое железо!

1. Представили новое поколение чипов для тренировки от Google - TPU v6 Trillium, в 4.7 раз быстрее текущего поколения, будут доступны клиентам в конце 2024 года.

https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus

2. Гугл создал свой собственый Arm CPU: Axion для датацентров.

https://cloud.google.com/blog/products/compute/introducing-googles-new-arm-based-cpu

@ai_newz
эйай ньюз
Veo - конкурент Sora от Google Понимает промпты в виде текста, видео и картинок, генерит в 1080p. Модель доступна через вайтлист на labs.google, заявки уже принимаются. @ai_newz
А вот примеры генерации с помощью Veo.

Говорят, что могут сгенерит до 60 секунд в 1080p. Но почему-то все примеры в твиттере, кроме одного, по 8 сек.

Собака, кстати, вообще не очень-то черипикнутая вышла.

Это все также Latent Diffusion на Трансформере, как и Сора.

> Больше примеров тут
> Подробности

@ai_newz
Gems - аналог GPTs для Gemini.

- Подписчики Gemini Advanced скоро смогут создавать Gems - персонализированные версии Gemini (потому что одного Gemini вам явно мало).
- Вы cможете создать любой Gem. Например, партнер по тренажерному залу, су-шеф или партнер по программированию.
- Их легко настроить с помощью промпта. Просто опишите, чего вы хотите от своего Джема и как он должен отвечать (например, "будь моим беговым тренером, давай мне ежедневный план и будь позитивным и мотивирующим")
- Gemini возьмет эти инструкции и однимкликом улучшит их, чтобы создать Gem, который соответствует вашему запросу.

Как всегда, не релизят сразу, Джемы будут доступны только через несколько месяцев.

@ai_newz
Опенсорс: Gemma 2 и Visual LLM PaliGemma 3B

Gemma 2 релизнут в опенсорс уже в следующем месяце.
К существующим 2B и 7B (на самом деле 8B) размерам добавится ещё 27B моделька.

Ещё прямо сейчас релизнули визуальную LLM PaliGemma на 3B, веса уже тут.

>> Подробности

@ai_newz
Media is too big
VIEW IN TELEGRAM
Тут, кажется, все пропустили Music Ai Sandbox. Первая music2music моделька! Это уже полноценный инструмент со своим интерфейсом, который дорабатывает готовые сэмплы, а еще делает style transfer и вариации. Короче, диванным-продюсерам наконец-то есть с чем поэкспериментировать. Хотя, если честно, я действительно вижу, как настоящие музыканты могли бы ее использовать в своем workflow (см пример на видео, как hip-hop исполнители ее используют для создания сэмплов).

Гугл об этом инструменте писал еще в Ноябре 2023 года (модель Lyria). Его только переименовали в Music Ai Sandbox теперь, и, наверное, доработали. Но сейчас, как и тогда, инструмент доступен только узкому кругу музыкантов. 😢

Еще примеры работы тут.

@ai_newz
Провел гугл свою презентацию Google I/O

Смотреть стало скучно спустя 0 секунд, начиная с речи ни о чем от Сундара Пичалька. Фото из зрительского зала прикрепляю.

Показали свою новую Сору, а еще поржали сами над собой, посчитав, что сказали "AI" 121 раз. Ну, были, конечно, и крутые штуки вроде Gemini 1.5 Pro с 1-2 млн токенов контекста, которую открыли для премиум подписчиков.

Почти все презентованное будет доступно... когда-то...

В целом, это был рассказ о том, как Google видит свое будущее в AI или AI будущее в себе. Gemini запихнули ну куда только можно, о чем директор каждого отдела с большой гордостью отчитался. Такое ощущение, что у них там устроили конкурс, кто больше придумает юзкейсов и интеграций в интерфейсы своих приложух. Ну а в итоге, все говорили об одном и том же.

Акции GOOGL немножко приподнялись в моменте, думаю в этом и была цель — закинуть удочку на будущее для инвесторов.

При всем при этом вот что я думаю:
Gemini со всеми этими приколюхами может стать go-to нейронкой для обывателей, так как он торчит из всех щелей, бесплатный и бесшовно встраивается в существующие привычки пользователей. Я говорю о том, что в Chrome ты так и так зайдешь, а вот сайт OpenAI не каждый обыватель специально откроет.

Краткое содержание всей презы: https://t.iss.one/ai_newz/2712

@ai_newz
Gemini Nano встроят в следующую версию Chrome

Кроме того, что зарелизили мультимодальную супер-легковесную Gemini Nano, предназначенную бегать на Edge девайсах, ее теперь еще и встраивают в Chrome!

Запускаться будет прямо на девайсе (!), что даст очень хороший автокомплит всюду в браузере. Но главное - разработчикам сайтов дадут доступ к модельке, в том числе через специальные упрощенные API (пока обещают перевод, суммирование текста, транскрибирование аудио). Сайтам теперь не нужно будет платить за дорогие облачные LLM, всё будет на клиенте.

Кажется, это может стать киллер-фичей для Хрома.

Работать это всё пока будет через WebGPU, но вроде обещают в будущем запускать модельку на NPU. Как и всё на Google I/O, эта фича ещё в превью. Но релиз будет уже в Chrome 126, который выходит 5 июня.

Теперь Хром ещё больше полюбит оперативку

Блогпост
Податься на превью можно тут

@ai_newz
Для всех, кто пропустил. Я собрал для вас саммари всего самого интересного, что было на Google I/O вчера, со ссылками на посты:

1️⃣Gemini 1.5 Pro https://t.iss.one/ai_newz/2698

2️⃣Gemini 1.5 Flash https://t.iss.one/ai_newz/2699

3️⃣Imagen 3 новая text2image модель https://t.iss.one/ai_newz/2700

4️⃣Модель для генерации видо - Veo https://t.iss.one/ai_newz/2703

5️⃣Gems - кастомные версии Gemini https://t.iss.one/ai_newz/2707

6️⃣Gemini Nano - мультимодальная легковесная LLM для Android https://blog.google/products/android/google-ai-android-update-io-2024/

7️⃣ Gemini Nano встраивают в Chrome - будет бегать прямо на клиенте https://t.iss.one/ai_newz/2711

8️⃣Опенсорс Gemma 2 и PaliGemma (Vision-Language Model) https://t.iss.one/ai_newz/2708

9️⃣Новое железо: Trillium TPU + Arm-based Axion CPU https://t.iss.one/ai_newz/2702

1️⃣0️⃣Music AI Sandbox - music2music модель и тулза для музыкантов https://t.iss.one/ai_newz/2709

И в заключение – мое мнение обо всей этой движухе (осторожно, пост-ирония).

Пишите в комментах, если я что-то забыл.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
ThunderKittens - GPUs Go Brrr

Ребята из Стенфорда сделали фреймворк, упрощающий взаимодействие с тензорными ядрами. И показали его мощь на FlashAttention в сотне строк, который работает быстрее оригинального FlashAttention 2!

Почему так быстро?🥵

Для ThunderKittens придумали новые абстракции поверх тензорных ядер, что дало удобный доступ к ~95% мощности H100
На полную задействуется новый ускоритель доступа к памяти (TMA)
Подобрав незадокументированные лейауты памяти, вышло задействовать новые асинхронные инструкции для работы с тензорными ядрами
FlashAttention-1 оптимизировал доступ к HBM. FlashAttention-2 – использование тензорных ядер на A100. А тут пошли ещё дальше: начали оптимизировать доступ к разделяемой памяти (shared memory)
Всё это полили соусом из мелких улучшений

FlashAttention – всего лишь первая демка фреймворка, и другие кернелы на нём уже активно пишутся. А тем временем этот проект благословил Tri Dao – мега крутой мужик, автор FlashAttention.

Если хотите, чтобы я рассказал как работает FlashAttention - ставьте 🦄

Блогпост
Гитхаб

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🔥CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Ухх! Кажется, диффузия все-таки доехала до полноценного 3D. Джон Барон из Гугла, монстр Нерфов (писал о нем тут), постарался.

На вход одна или несколько фоток -> на выходе 3D сцена в виде NeRF. Заметьте, как хорошо он генерит объекты даже сзади, где не было фоток на входе.

Кода нет, и не думаю, что будет.

Сайт проекта
Статья

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
CAT3D: Как это работает?

1. Имея любое количество исходных изображений и набор целевых новых ракурсов, диффузия генерирует согласованные новые виды сцены.
2. Эти сгенерированные виды затем используются в качестве входных данных для тренирвоки NeRF.
3. В результате получается 3D-представление, которое можно рендерить с любого ракурса в реальном времени.

В качестве диффузии, тут взяли Latent Diffusion и сперва натренили ее генерить 2d картинки в 512x512 по тексту. Все внутри Гугла, они не использовали публичные Stable Diffusion. А затем дотюнили модель на генерацию сразу серии консистентных видов по нескольких входным фото. Консистентность здесь - это ключ к хорошему результату.

Весь процесс, включая генерацию новых видов и 3D-реконструкцию, занимает всего около минуты. Это значительно быстрее существующих методов создания 3D по одному изображению или небольшому набору ракурсов.

@ai_newz
ох чего не сделаешь ради nsfw или Как запустить ЛЛМ на ноутбуке.

Не знаю почему, но как-то по ощущениям ЛЛМ-ки народ меньше запускает локально, как, например, тот же стэйбл диффьюжн. Хотя я за локальные ллм очень топлю – не люблю свои данные в клауд опенаи отправлять. То ли проблема в том, что нормальных открытых моделей до недавнего не было, то ли в том, что модельки эти просят 40 GB VRAM.

Но ведь у нас теперь есть LLAMA 3 8B! Мне удалось запустить квантизированную версию на ноуте с GTX 1650 Ti c 4 GB VRAM без особой нагрузки. (Оно и неудивительно, ведь Ламу и на мобиле уже запускают.)

Короче, вот вам гайд, как за пару тыков поставить эту кударявую лошадку себе на домашний компьютер:

1) Заходим на сайт LM Studio , качаем под свою систему сетап.
2) В поиске находим QuantFactory/Meta-Llama-3-8B-Instruct-GGUF, берем версию под себя. Там несколько квантизаций с разным уровнем сжатия. Ну или выбираем любую другую модель.
3) Заходим в окно чата, подгружаем модель и радуемся.

После того как освоились с этим, можно и поизвращаться)

Вот вам еще моя копипаста - небольшая подборка постов, про локальнные LLM:
- LLaMa с text-retrieval плагином: тык-1, тык-2
- LLama-7B на на макбуке: тык
- LLaMa-30B на макбуке (4-bit + mmap): тык
- llama2.c или Карпатый запускает LLaMa-2-7B на рисоварке: тык; а вот реализация на часах: тык
- Falcon 180B дома на маке M2 Ultra: тык

LM Studio

#туториал
@ai_newz
Нейродайджест за неделю (#18)

1. Презентации и релизы
- OpenAI показали GPT-4o (omni). Новая модель GPT-4o понимает звук, видео, может петь и теперь с приложением для MacOS. Новый токенизатор снижает расходы в 3.5 раза для русского языка.
- Прикольный юзкейс GPT-4o. GPT-4o можно использовать как переводчик в поездках по Азии, Google Translate тут не соперник.
- Google I/O. Моё мнение о презентации. Скукота, но гулг все-равно на коне.
- Саммари Google I/O. Ссылки на все новинки, представленные на Google I/O, включая Gemini 1.5 Pro, Imagen 3 и новые аппаратные разработки.
- Смешные токены в новом токенизаторе GPT-4o. Туда попали спам и что еще похуже, в дайджест писать не буду)

2. Гайды

- Курс по квантизации. Эндрю Ын и Hugging Face дропнули курс по квантизации. Учимся сжимать модели до 2 бит без значительных потерь в качестве.
- Как запустить LLM на ноутбуке. Пошаговый гайд по запуску LLAMA 3 8B на стареньком ноуте.

3. Разработки
- ThunderKittens - GPUs Go Brrr. Стенфорд представил фреймворк упрощающий взаимодействие с тензорными ядрами. Тестили на FlashAttention и случайно обогнали его вторую версию.
- CAT3D: Create Anything in 3D. Моделька для генерации 3D сцен из фотографий. Процесс на Latent Diffusion занимает около минуты. Здесь же о том, как оно работает.

> Читать дайджест #17

#дайджест
@ai_newz
KV-cache для больших промптов в Gemini

Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов.

Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час.

Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической.

Неплохо было бы иметь такую фичу в API GPT-4o и Claude.

@ai_newz