эйай ньюз
71.5K subscribers
1.55K photos
831 videos
7 files
1.88K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
🔥Molmo: Outperforming Proprietary Multimodal Language Models

Приношу вам самый сок. Кажется, это самый лучший доклад за сегодня.

За два часа до релиза Llama 3.2 челы выложили семейство открытых моделей Molmo (и нет, это не совпадение):
- 1B
- 7B
- 72B

По качеству на визуальных задачах Molmo выдаёт +- перформанс как Llama 3.2: где-то лучше, где-то хуже, и приближается к GPT-4o.

- Но, пре-трейн модель они делали всего на 700k размеченных парах картинка-текст (PixMo-Cap). В то время как Llama тренили на 6 млрд!
- Использовали в 9000 раз меньше данных, но гораздо более высокого качества.
- Люди не любят печатать, люди любят говорить. Поэтому разметчиков просили не печатать описание картинки, а описывать её ГОЛОСОМ 60-90 секунд. Далее запись автоматически переводили в текст. Это гораздо эффективнее, проще и помогает быстро собрать очень длинные и детальные описания картинок.
- Дополнительно разметчиков просили тыкать точками на объекты, про которые они говорят. Это помогло научить модель связывать пиксели с текстом, выдавая точки на картинке, когда она описывает какой-то объект.

Все это очень сильно подняло качество модели. Это прям крутые идеи.

По архитектуре ничего необычного – transformer с late fusion. То есть токены картинок пропускаются через обучаемый коннектор, а затем кормятся в LLM.

Трейн в два стейджа, ничего не замораживая:
(1) multimodal pre-training для генерации описаний на новом датасете – 700k картинок; (2) supervised fine-tuning на instruction-датасете, который они тоже собрали сами (там и точки на картинках, и документы, прочие задачи) – тут около 1.9 млн картинок (возможно, пересекается с претрейн-датасетом).

Трейн и эвал код и датасет (PixMo) выложат в течение 2 месяцев – я им верю!

Блогпост про модели
Arxiv

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет! 
Недавно я анонсировал, что решил впервые провести менторинг-программу для всех желающих попасть на разные AI должности в топовые места, такие как FAANG, ну и не-FAANG:) Цель – поделиться своими знаниями и опытом, в том числе как человек который регулярно собеседует людей в Мету, и помочь мотивированным ребятам стать сильными кандидатами на такие роли как Data Scientist, ML Engineer, Research Engineer или Research Scientist.

Эта программа идеально вам подойдет, если:
1️⃣ Вы уже в IT и, например, software-инженер (или схожее), но хотите перейти в AI и понять как стать сильным кандидатом и успешно проходить собеседования.
2️⃣ Вы уже работаете на AI-related роли, но либо хотите попасть в топовые места следующего уровня как например FAANG+, либо хотите перейти на должность Research Scientist. 
3️⃣ Вы студент в STEM и хотите попасть на стажировку в AI и понять как выстроить сильное резюме, портфолио, получить приглашения на интервью и успешно проходить их. 

Эта программа не будет вам подходить, если: 
1️⃣ Вы только начинаете свой путь/ свою карьеру в AI и только учитесь программировать и нет никакой ML-базы. 
2️⃣ Вы ищете курс по теоретической базе в AI/ML.
3️⃣ Вы Staff+ AI специалист и хотите понять как запромоутиться на Senior Staff и выше. 

Две недели, с 14 по 27 октября, мы будем плотно общаться в закрытом комьюнити, я буду отвечать на вопросы, а также проведу 4 live-стрима, где буду делиться опытом и лучшими практиками. На 2х из 4x стримов я проведу мок-интервью на разные темы (Coding и AI/ML Design) с разбором.

Группа уже формируется очень крутая (из тех, кто уже присоединился). Так что если вы хотите стать сильным кандидатом и успешно пройти на высокооплачиваемые AI роли в топ компании, например в FAANG, можно зарегаться на интенсив через бота @ai_newz_intensive_bot. Вступить в группу по Early-Bird цене можно до вторника. 

Ну, а если вы студент, очень мотивированы, но интенсив вам не по карману - у вас есть возможность участвовать в charity программе и попасть на одно из трех бесплатных мест. Условия участия в конкурсе вы узнаете также в боте. Дедлайн участия 4.10. 

По вопросам, в боте есть FAQ секция. А в крайнем случае всегда можете через него же написать свой вопрос. 

Всем большой привет из Милана!

@ai_newz_intensive_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#37)

Про карьеру в FAANG
- Про зп в FAANG. Из чего состоит Total comp, кто такие refreshers и где выше ценят сотрудников.
- Запись стрима. Поболтали про собесы и карьеру в FAANG.
- Как сделать PhD в Meta. Есть даже ссылка как подать.

OpenAI
- OpenAI выпустили свой крипто-токен. Шучу, скамеры взломали очередной твиттер аккаунт.
- Voice Mode ChatGPT. Наконец-то долгожданную фичу раскатали наполную.
- Минус CTO OpenAI. Мира Мурати ушла из компании со словами, что хочет заняться своим exploration.
- OpenAI планируют отказаться от нонпрофит. Возможно, именно это стало причиной ухода Миры и связано с новым раундом инвестиций.

Meta Connect

- Meta Connect. Презентация Meta. Показали:
- Quest 3s. Облегченная версия оригинальных квестов, чуть подешевле.
- Редактор изображений в MetaAI, над которым работала моя команда и я.
- Голосовой режим. Прямой конкурент такого же режима от OpenAI. А вы думали, чего они так активизировались?
- LLaMa 3.2 - Multimodal. И снова в опенсорс! Завезли понимание изображений, в том числе графиков и пр.

Конференция ECCV

- Курс на ECCV. И списочек докладов, которые хочу послушать.
- Кружок с места событий. И моя довольная борода.
- Molmo. Горячая новость прямо с доклада ECCV. Очень интересное семейство мультимодальных LLM на уровне Llama 3.2, при том что использовали в 9000 раз меньше данных, а все благодаря свежим идеям, подробности знаете где.

Генеративки и LMM, что не попали выше
- AI компилятор или гениальный костыль для мертвых языков.
- PixelDance. Тикток готовит свою видеомодельку.
- Blueberry. Загадка txt2img, неизвестная модель рвет всех на арене.
- SB-1047 всё! Губернатор наложил свое вето, чем спас калифорнийские AI стартапы. Но пообещал вернуться через год со своей версией.

> Читать дайджест #36

#дайджест
@ai_newz
Вчера собралась тусовка с ребятами из нашего ECCV чата. Я забронил итальянский рест недалеко от конференции, за вином и пастой очень здорово шла беседа.

Каждый раз радуюсь, какое же крутое комьюнити у нас образовалось за последние несколько лет! Все с кем вчера удалось пообщаться очень классные, крутые в своем деле, и в тоже время веселые ребята. Среди нас были и сайнтисты, и PhD студенты, и магистранты со статьями, и стартаперы, и C-левел чуваки, и VC инвесторы, и AI инженеры.

А после ужина было ещё афтерпати в баре с говорящим названием "Академия", не смотря на то что в Милане в вск все довольно рано закрывается) там тоже обсуждались важные вопросы – каково оно работать в академии 🍻, и какая окрошка вкуснее на квасе или на кефире.

Ну, а сейчас я уже опять на докладах, мой фаворит сегодня – воркшоп Knowledge in Generative Models.

Напишите в комментах, что бы вам хотелось, чтобы я транслировал с конференции.

#конфа
@ai_newz
Всем привет! Хочу напомнить, что сегодня последний день, чтобы присоединиться к нашему закрытому комьюнити по Early Bird цене и участвовать в интенсиве по карьере в AI/ML. Регаться тут.

Если пропустили: в этом посте (тык) можете ознакомиться, кому этот интенсив будет полезен, и для кого он не подходит.

Кроме стримов – это также отличная возможность понетворкать и пообщаться с другими крутыми ребятами. В комьюнити уже набралась сильная группа, включая тимлидов и синьоров из разных мест.

Также напоминаю что если вы студент и очень мотивированы, но интенсив вам не по карману - у вас есть возможность участвовать в charity программе и попасть на одно из трех бесплатных мест. Условия, чтобы участвовать в конкурсе вы узнаете также в боте. Дедлайн на участие: 4.10.

Если есть какие-то вопросы, можете писать в бота.

@ai_newz_intensive_bot
Ну всё. OpenAI скоро официально можно будет переименовать в Closed. Они становятся for-profit. Об этом я уже писал несколько дней назад - интересно, подтвердится ли что-то во время их сегоднешней презентации DevDay.

Нравится какие серьезные лица стоят в пиджаках за Альтманом. Далеко не сайнтисты.

- По слухам, идут обсуждения, чтобы поднять новый раунд инвестиций по оценке в $150 млрд.
- Сэма получит долю в компании
- фирма будет открыта для других инвесторов, больше не скованна Microsoft.
- команда, которая занималась рисками, теперь распускается, что AI открывает компании более «креативные» возможности
- почти все первоначальные соучредители теперь ушли (вот Мира из последних)

@ai_newz
Cerebras, стартап, занимающийся чипами для нейронок, собирается выходить на биржу

Месяц назад писал о сверхбыстром инференсе Cerebras в канале. А тут подъехала внутренняя кухня - ведь перед IPO компании нужно опубликовать финансовую отчётность (S-1 form). И там всё очень грустно.

Оказалось, что у компании всего один крупный клиент - 97% выручки с продажи железа и 56% остальной выручки идёт от него. То есть суммарно 87% выручки компании идут от G42 - клауд-провайдера из ОАЭ.

До появления большого папочки у компании все было довольно плохо - судя по выручке, за весь 2022 год стартап продал около 10 своих машин, а за первую половину 2023 - всего одну. Позже в 2023 компания нашла своего основного клиента и ситуация поправилась, но терять по сто с лишним миллионов в год от этого она не перестала.

При таких маленьких объёмах производства не удивительно, что они не предоставляют инференс Llama 405B - у компании просто может не быть необходимой пары десятков свободных машин на руках. А будущие модели будут только больше, так что будущее их инференса под большим вопросом.

Учитывая, что компании уже больше восьми лет, - всё это вряд ли взлетит и для тренировки. Крупным клиентам нужны кластеры на сотни и тысячи таких машин, которые компания вряд ли может произвести в разумные сроки. А заказы поменьше не оправдают огромные инвестиции в софт, которые нужны для перехода на такую архитектуру. Так что возможности тренировки на двух тысячах CS-3, скорее всего, навсегда останутся инфографикой, а Хуанг - королём. А жаль, у них интересная архитектура. Может быть, я про неё напишу на днях.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Заснял как китайцы (unitree) показывают новую зверюгу на ECCV. Может и бегать, и ездить – удобно!

На нём человек может даже проехать верхом, робот выдерживает до 100 кг.

А внутри у него – видюха Nvidia Jetson Xavier NX, разработанная специально чтобы устанавливаться на роботов и всякие автономные давайсы.

Робопсом Спотом от Boston Dynamics уже никого не удивить, мы видим, что выходят все более и более навороченные зверюги.

#конфа
@ai_newz
OpenAI привлекла 6,6 млрд долларов при оценке в 157 млрд долларов

Последние несколько недель факт привлечения инвестиций был секретом Полишинеля — все знали, кто, примерно сколько и по какой оценке инвестирует. И вот сразу после DevDay 2024 OpenAI закрыла этот раунд финансирования.

Оценка в 157 миллиардов долларов, похоже, делает их дороже всех независимых конкурентов вместе взятых — Anthropic собирается поднимать следующий раунд по оценке в 40 млрд, XAI недавно привлекла 6 миллиардов при оценке в 24, а Mistral за эти 6,6 млрд можно вообще купить с потрохами. Компаний поменьше на почти 90 миллиардов вряд ли наберётся.

Деньги привлекаются конвертируемыми облигациями — долгом, который при желании кредитора конвертируется в акции компании. Но они идут с условиями — в течение двух лет компания должна реструктурироваться и стать коммерческой, иначе вступают в силу штрафные санкции. Но и у OpenAI есть свои условия — инвесторы в OpenAI не должны инвестировать в конкурентов.

Диктуют они их не просто так — компания растёт бешеными темпами и, похоже, утроит свою прогнозируемую выручку с 3,6 миллиардов до 11,6 миллиардов в год к концу 2025 года. Часть плана по росту выручки — повышение цен на ChatGPT, основной драйвер роста компании. В этом году цена вырастет до 22 долларов, а до конца 2029 года она более чем удвоится — до 44 долларов. А про цены на GPT-5 и думать страшно.

@ai_newz
Flux 1.1[pro]: А вот и официальный релиз

Моделька уже доступна по API.

Из интересного,
- Flux 1.1 pro в 3 раза быстрее чем Flux 1.0, хоть и лучше ее по качеству генерации.
- Flux 1.0 pro ускорили в 2 раза.

За счёт чего приходит ускорение – пока не понятно, ведь мы даже не знаем, на скольки GPU запускались модели до этого и сейчас. Если качество осталось тем же у 1.0, то скорее всего это low-level оптимизации, разумная квантизация, хитрый семплер и тд.

А 1.1, наверное, имеет архитектуру поменьше, и, возможно, использует меньшее число шагов.

Блог

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Movie Gen: A Cast of Media Foundation Models

Мы наконец выкатили нашу 30B модель для генерации видео! И я очень рад, что являюсь одним из контрибьютеров в этот грандиозный проект.

Bye-bye SORA. Movie Gen – это новая SOTA в генерации видео по тексту!

Модель генерит 16-секундные видео в 1080p, 16FPS.

Общая длина контекста - 73к видео токенов (256 кадров).

Выкатываем ещё:
- 13B модель для генерации видео одновременно со звуком в 48kHz.
- И ещё тюны для редактирования видео и генерации персонализированных видосов с вашим лицом по заданному фото.

В статье мы описываем много новых штук по части архитектуры, рецептов тренировки больших видео-моделей, параллелизации, увеличения скорости инференса, оценки качества, курирования данных и других трюков. В статье очень много деталей!

Сайт
Блогпост
Подробная статья (92 стр)

Скоро ждите ещё дополнительный пост с разбором.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
А вот ещё примеры генерации нашей Movie Gen модели вам на обозрение.

Те примеры, где показано маленькое фото в правом верхнем углу – это результат персонализированной генерации с заданным лицом (Personalized Movie Gen).

Переходим на качественно новый уровень!

@ai_newz