эйай ньюз
69.3K subscribers
1.52K photos
811 videos
7 files
1.84K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.

Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.

Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.

Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.

Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост

@ai_newz
Media is too big
VIEW IN TELEGRAM
Вы ждали бой Илона и Марка в октагоне? Вот вам бой. Смотреть со звуком и до конца (никто не ожидал такого исхода).

@ai_newz
Скорость Llama 3.1 70B выросла в 4 раза

Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.

Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.

Попробовать можно тут.

@ai_newz
Google готовит к релизу Jarvis

Заказать билеты на самолёт, отменить подписку или сделать какую-то мелкую монотонную работу скоро за вас сможет ИИ агент на основе Gemini. В отличие от Anthropic, которые научили Claude использовать весь компьютер, Jarvis будет ограничен браузером и как-то интегрирован с Chrome. С одной стороны это меньшая гибкость, с другой - таким образом надёжность агента будет заметно выше, что очень важно для релиза на сотни миллионов человек.

Показать могут уже вместе с Gemini 2.0, в декабре. А вот попользоваться, скорее всего, сначала дадут лишь маленькой группе пользователей.

Rabbit нужно было всего лишь подождать годик с релизом

@ai_newz
Нейродайджест за неделю (#41)

LLM
- Computer от Anthropic. Вышло обновление моделей и почти автономный агент Computer, который может использовать интерфейс ПК. Пока сыровато, но какой потенциал!
- Jarvis. Почти тот самый! Вслед за Anthropic гугловские решили анонсировать их конкурента, правда, доступ будет только в Хроме.
- Натренеруй свой GPT-2 Small за 12 минут. Процесс настолько заоптимизировали, что теперь это стоит 5 баксов на 8xH100. Как? Подробнее в посте.
- API Grok 2. По деньгам дороговато: $5 input/$15 output на миллион токенов.
- Квантизированные Ламы. Официальные и лучшие сжатые модели на 1 и 3B.
- Llama 70B на 2200 токенов в секунду. Cerebras уже не впервые ставит рекорды скорости.

Подготовка к интервью
- Cracking the coding interview. Скоро релиз новой версии одной из лучших книг по подготовке к собесам. Рекомендасион!

Генеративные модели
- Movie Gen в Голливуде. Блюмхаус получил в руки нашу модельку и вовсю её тестит.
- Stable Diffusion 3.5 Large. Ну не SOTA, но хоть выложили, раз уж обещали.
- Voice Design. Первая text2voice модель. Не просто читает текст, а генерит именно тембр голоса по запросу.
- Бой Маска и Цукерберга. Жалко, что всё это только в латентном пространстве...

> Читать дайджест #40

#дайджест
@ai_newz
Forwarded from KaravAI
На прошлой неделе мы зарелизили мою последнюю статью на PhD - CoTracker3, следующую версию модели для трекинга точек на видео CoTracker (не спрашивайте где CoTracker2 - мы сами не поняли).

TLDR такой: мы сильно упростили архитектуру модели и дообучили ее на реальных видео с помощью псевдо-лейблинга другими моделями (прошлая модель обучена только на синтетических данных). У нас получилось обойти конкурирующую модель от DeepMind с X1000 раз меньше реальных видео, чему мой научрук был очень рад.

Нас даже успели потроллить по поводу того, что мы сами не знаем, кому и зачем эта модель нужна. Изначально это было слабо понятно, сейчас чуть лучше - трекинг точек оказался полезным для обучения роботов с помощью imitation learning. Тут, тут и тут используют нашу первую модель как раз для этого. Еще одно неожиданное применение - контролируемая видео генерация: раз, два, три.

https://www.linkedin.com/feed/update/urn:li:activity:7252361677868826624/?actorCompanyId=35482514
Media is too big
VIEW IN TELEGRAM
Посмотрите как робот чуть больше часа учится играть в дженгу хлыстом полностью в реальной жизни, без всяких симуляций. По-моему результаты под конец впечатляющие. Настолько быстро учиться выходит из-за того что человеческие демонстрации и исправление ошибок встроено прямо в RL пайплайн.

Кроме дженги подход работает на куче других задач, например разные этапы сборки ПК и мебели, на обучение уходит до двух с половиной часов.

Сайт проекта

@ai_newz
И смешно и грустно. Увидел тут в ленте линкедина как выпускник магистратуры из ETH Zurich жалуется, как трудно найти интересную ML работу в Европе, если нет PhD. Все меньше ML вакансий, где не требуется узкая специализация и PhD (кроме стартапов). Нужно чтобы ваше резюме действительно выделялось, чтобы вас звали на собесы.

Да, что уж там - даже с PhD это еще не гарантия, что вы будете на расхват у рекрутеров. Нужно качать скилы и своё публичное портфолио. У PhD студента в это плане слегка больше инструментов, так как можно показать свои статьи, если они качественные и релевантные.

Как видите ценность глубоких специалистов возрастает. Так что занимаемся постоянным обучениеи, делаем пет-проекты и прокачиваем свой публичный рабочий профиль. А если есть возможность – публикуем статьи.

@ai_newz
Я довольно внимательно слежу за русскоговорящими ЛЛМ. Кому-то может показаться, что в этом мало смысла, ведь GPT от OpenAI или какой-нибудь Claude будут всегда лучше, хотя бы просто из-за больших размеров и количества компьюта, потраченного на обучение. Но здесь есть пара нюансов.

Во-первых, модели, у которых русский — это первый язык, которого в тренировочных данных больше чем других, должны говорить на нем как носители, что-ли. Я бы, сколько английский ни учил, говорить как какой-нибудь чел из Бруклина никогда не смогу. Так вот, нативно русскоязычные модельки могут в каких-то уникальных случаях справляться со своей задачей лучше. Ну, навскидку, в каких-нибудь устойчивых выражениях или каламбурах. Про знание всяких ГОСТов и местных законов я вообще молчу.

А во-вторых, мне просто по приколу наблюдать, что там на рынке локальных моделей происходит.

Так вот, недавно вышла YandexGPT 4 в PRO и Lite версии. По внутренним тестам смотрится неплохо, но бенчам доверять, как всегда, не стоит. Хотя Яндекс и не слишком задирают нос, а ставят вполне адекватные цели — добраться до уровня LLaMA 70B, что у них почти получилось. Хотя, если взглянуть на RuArenaGeneral — это chatbot arena для русскоговорящих моделей, где судья GPT-4 — то уровень YandexGPT 4 PRO сейчас на уровне адаптированной и дообученной LLaMA 3 8B. Однако те фишки нативно русскоязычных моделей все еще в силе, так что правда где-то посередине.

Модельку можно потыкать в Yandex Cloud, по API либо через чатовый интерфейс (тут) для рядовых пользователей. Но цель у них явно работа по API для каких-то продуктовых решений.

Еще из приколов — увеличили контекст с 8 до 32к токенов и даже сделали какой-то намек на Chain of Thought. Но, как я понял, они его просто немного подтюнили на рассуждения. Кстати в облаке можно дообучить модельку под свою нужды.

1M токенов обойдется в $12.3. Причем для input/output цена одна. Правда у них там такая мудренная формула для расчета. Можете сами глянуть.

Пока еще не SOTA на русском, но потенциал есть. Для саммари отзывов и результатов выдачи сгодится. А дальше посмотрим.

@ai_newz
Mixture of Parrots: Experts improve memorization more than reasoning

Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.

Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.

Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.

Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.

Пейпер

@ai_newz
Github Copilot начинает серьёзно конкурировать с Cursor

На Github Universe показали новые фичи Copilot, похоже после продолжительного застоя компания всерьёз взялась за конкуренцию.

Добавили поддержку новых моделей - Gemini, Claude Sonnet (нужно отдельно включать в настройках) и o1-preview с o1-mini. Модельки будут раскатывать в течении следующих пары недель. У меня уже есть Sonnet и o1, жду Gemini.

Наконец-то добавили multi-file editing.

Кастомные промпты для моделек - наконец-то в чате не нужно будет повторяться каждый раз чтобы добиться нужного результата. Вот инструкция по конфигурации.

Copilot теперь доступен в Xcode и Windows Terminal.

Code Review - теперь коммит можно заревьювить с помощью ИИ прямо в редакторе.

Показали и Spark - платформу для создания и хостинга миниапок с помощью ИИ. Записаться в waitlist можно тут.

Большая часть показаных фич уже доступна, правда некоторые лишь в превью.

@ai_newz
Ого! Кто-то посмел побить Flux 1.1 Pro на text2image арене.

Ребята из стартапа Recraft.ai выпустили свои модель V3, которая прям очень хорошо генерит картинки. Еще они очень круто обучились разным стилям, включая Vector Art, на котором у стартапа и был изначальный фокус.

Кстати, респект ребятам, кто тренил модель! Напишите в комментах (или в лс), если кто-то из вас читает канал:)


Потестить можно на Recraft.ai (50 бесплатных генераций)

@ai_newz
Вот еще мой непредвзятый тест Recraft v3 c одним и тем же промптом и 8-ми разными стилями. Текст тоже хорошо рисует.

На каждый стиль я сгенерил по 2 картинки и выбрал одну лучшую, так что тут минимальный черипик. Одна генерация занимает от 8 до 14 секунд.

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Уже пару недель прошло с выставки Adobe MAX, а только сейчас дошли руки посмотреть, что там они наворотили. Все потому, что презентация шла аж три дня, и новости поступали постепенно. Причем нигде нет какого-то списка нововведений, поэтому я собрал свой дайджест новых фич с упором на GenAI, чтобы убедиться, что вы ничего не пропустили.


Photoshop

1. Firefly 3. Генерит картинки получше. Юзается в Generative Fill и почти во всем, что идет далее.

2. Project Clean Machine. Чистит картинки от всех артефактов и мусора (включая людей). Выделяет мусор автоматически.

3. Harmonize. По сути, релайт, но удобно встроенный в Photoshop. Теперь композить ничего не стоит.

4. Substance 3D. Можно открывать 3D-файлы, крутить их, вращать и менять как материалы, так и освещение. Кроме того, Adobe научили Photoshop генерить гауссиан сплаты, которые потом можно апгрейдить до юзабельного состояния через встроенный img2img рефайнер.

5. Generative Work Space. Встроенный интерфейс Midjourney. Можно генерить картиночки. Из приколов — знакомый нам IP Adapter на стиль и новый Composition Reference, ну и всякие пресетики для ньюбисов.

6. Project Concept. Прикольный поисковик референсов на основе ИИ. Мудборды теперь делаем только там. Кроме того, можно мешать картинки по целому списку параметров: стиль, фон, цвет, освещение и объект. Можно указать, что тебе нравится на референс-картинке, а потом еще и удобным ползунком их смешать. Там же — realtime генерация с перемещением картинок как в Krea. Короче, упор не в промптинг, а в смешивание картинок через img2img или IP-адаптеры всех мастей.


Premiere Pro / After Effects

7. Firefly Video и Generative Extend. Можно продолжить клип на пару секунд. Зачем? Ну, наверное, спасти всратый футаж, ну и видосики генерить.

8. Project Super Sonic. Такого мы еще не видели. Генерирует аудиоэффекты на основе голосового наброска. Короче, рычишь в микрофон своим тоненьким голоском, а на выходе получаешь рык дракона. Весело будет поиграться. (Демо как раз показано на видео в этом посте)

9. Также улучшили выделение объектов по типу как в Segment Anything Video. (Гринскрин больше не нужен). А вот про трекинг новостей вроде бы не было.


Illustrator

10. Gen Shape Fill. Generative Fill для Illustrator. Делаешь набросок формы, а оно его закрашивает и добавляет деталей. И все это вектор. Наверное, лучший txt2svg, но нужно тестить.

11. Rotatable Vectors. Немного ломает мозг — SVG-шки (2D-векторы) крутятся! Зачем — хз, сразу норм нарисовать, не? Хотя выглядит клево.

12. Layout Variations. Мало того, что сам постер нарисовали со скетча от руки, так потом еще и дергают его во все стороны, меняя соотношение сторон, а постер сам подстраивается. Удобно!

Ну и вишенка на торте для тех, кто все еще переживает за авторские права: все это абсолютно легализовано и лицензировано. Так что вот, наслаждаемся.Часть инструментов уже доступна на сайте Adobe, но большинство непонятно когда выпустят.

В целом довольно интересно. Часть решений, конечно, уже год валялись в опенсорсе, но здесь заметен скачок в качестве (всё-таки есть и данные, и железо), и даже показали пару новых фич.


P.S. Примеры смотрим в комментариях.

@ai_newz
Еще один миллиардер мульти-миллионер вышел из OpenAI на пенсию.

Chief Research Officer уволился из OpenAI. Не знаю, чем именно он там занимался, но за свои восемь лет работы, он явно заработал несколько сотен миллионов $$$. Обычно такие ребята зарабатывают от нескольких миллионов в год акциями до нескольких десятков миллионов. Учитывая 10x рост оценки OpenAI c $15 млрд до $157 млрд только за последние 4 года, легко оценить что Бобу больше не нужно будет работать никогда.

И вертел он все эти политические игры в руководстве и перестройку компании с non-profit в for-profit.

@ai_newz