Сделал вам небольшой румтур по офису Мечты Меты в Menlo Park.
Я сейчас в Менло Парке, тут самый большой офис Меты в мире, где работает наверное несколько десятков тысяч человек. Да, это шокируют, но и размах пространства тут соответствующий. Приходится на маршрутке либо велосипедах передвигаться между корпусами.
Сижу в том же здании, где и сам Марк Цукерберг. Позитивно заряжаюсь от рабочей суеты, когда много людей в офисе. Народ кодит, рисует на вайтбордах, обсуждают идеи, толпится на микрокухнях и общается. После небольшого цюрихского офиса, тут все выглядит очень очень движово.
---
Кстати, я обещал создать чатик для встречи в Пало Альто либо рядом. Вот он — присоединяйтесь, если хотите поужинать либо встретиться на пиво сегодня.
#personal
@ai_newz
Я сейчас в Менло Парке, тут самый большой офис Меты в мире, где работает наверное несколько десятков тысяч человек. Да, это шокируют, но и размах пространства тут соответствующий. Приходится на маршрутке либо велосипедах передвигаться между корпусами.
Сижу в том же здании, где и сам Марк Цукерберг. Позитивно заряжаюсь от рабочей суеты, когда много людей в офисе. Народ кодит, рисует на вайтбордах, обсуждают идеи, толпится на микрокухнях и общается. После небольшого цюрихского офиса, тут все выглядит очень очень движово.
---
Кстати, я обещал создать чатик для встречи в Пало Альто либо рядом. Вот он — присоединяйтесь, если хотите поужинать либо встретиться на пиво сегодня.
#personal
@ai_newz
Diffusion Models for Video Generation
Вышел новый пост #ликбез в моем любимом блоге. У Lilian Weng (OpenAI) всегда получаются очень подробные разборы тем. На этот раз она написала про существующие подходы для генерации видео с помощью диффузии. Контент для продвинутых юдокас.
Другие крутые посты из блога Lilian:
- Про диффузию
- Про оптимизацию трансформеров
- Про другие генеративные модели
@ai_newz
Вышел новый пост #ликбез в моем любимом блоге. У Lilian Weng (OpenAI) всегда получаются очень подробные разборы тем. На этот раз она написала про существующие подходы для генерации видео с помощью диффузии. Контент для продвинутых юдокас.
Другие крутые посты из блога Lilian:
- Про диффузию
- Про оптимизацию трансформеров
- Про другие генеративные модели
@ai_newz
Для контекста о посте ниже: Степан (автор e/acc) — фаундер и венчурный инвестор. У него можно почитать и про крипту, и про веб3 (это не формат файла, если что), ну и без AI/ML, конечно, не обошлось. А еще, как инвестор, Степан много рассуждает на тему того, как будет устроен мир в перспективе от 5 до 30 лет. Так что там не обошлось и без программируемой экономики с цифровыми государствами. Рекомендую почитать, если про такое еще не слышали — контент в канале у Степана топовый.
@ai_newz
@ai_newz
Forwarded from e/acc
О будущем LLM
Не знаю за ваши модные ку-стары, но вот некоторый набор уже практически фактов про LLM в перспективе месяцев:
1. GPT и LLaMa — это не продукты, а исследовательские проекты. Как только детали архитектуры, пайплайнов, датасетов станут ясны (экспериментальным путём), стоимость тренировки аналогичной модели упадет в разы, а скорее сотни раз. Вы сможете сделать претрейн специализированной модели за $10-100k, причем даже в распределенной среде.
2. То же самое с инференсом. За счет квантизации, MoD, оптимизации под edge девайсы и архитектуры ARM, TPU, NPU модели уровня 13-30В параметров можно будет запускать на телефонах.
3. За счет увеличения окна контекста до миллионов токенов, файнтьюнинг становится не так важен. Ты просто копируешь промт на 10-100 страниц со всей историей своей жизни или организации и получаешь персональную модель. Стоимость переключения с Зефира на Гермес, с Клода на Databricks становится ровно три клика и один копипаст.
4. Адаптивный роутинг. Приложения выбирают модели на лету, в зависимости от задачи. Модели выбирают инфраструктуру для вычислений на лету, в зависимости от спроса и предложения на железо в конкретный момент.
5. RAG не уйдет, а, наоборот, заменит в некоторой степени претрейнинг. Большие децентрализованные RAG датасеты на миллиарды или триллионы токенов будут просто «подсасывать» знания на лету, что позволит делать базовые еще тоньше, быстрее и запускать на микроволновке (quite literally).
Не знаю за ваши модные ку-стары, но вот некоторый набор уже практически фактов про LLM в перспективе месяцев:
1. GPT и LLaMa — это не продукты, а исследовательские проекты. Как только детали архитектуры, пайплайнов, датасетов станут ясны (экспериментальным путём), стоимость тренировки аналогичной модели упадет в разы, а скорее сотни раз. Вы сможете сделать претрейн специализированной модели за $10-100k, причем даже в распределенной среде.
2. То же самое с инференсом. За счет квантизации, MoD, оптимизации под edge девайсы и архитектуры ARM, TPU, NPU модели уровня 13-30В параметров можно будет запускать на телефонах.
3. За счет увеличения окна контекста до миллионов токенов, файнтьюнинг становится не так важен. Ты просто копируешь промт на 10-100 страниц со всей историей своей жизни или организации и получаешь персональную модель. Стоимость переключения с Зефира на Гермес, с Клода на Databricks становится ровно три клика и один копипаст.
4. Адаптивный роутинг. Приложения выбирают модели на лету, в зависимости от задачи. Модели выбирают инфраструктуру для вычислений на лету, в зависимости от спроса и предложения на железо в конкретный момент.
5. RAG не уйдет, а, наоборот, заменит в некоторой степени претрейнинг. Большие децентрализованные RAG датасеты на миллиарды или триллионы токенов будут просто «подсасывать» знания на лету, что позволит делать базовые еще тоньше, быстрее и запускать на микроволновке (quite literally).
Покажу вам, что творилось в Стенфорде сегодня, когда было выступление Сэма Альтмана.
Мой отель находится буквально в 200 метрах от Стенфорда. И сегодня Сэма решил приехать в университет дать лекцию. Народ стоял в очереди как за маслом в девяностые. Я честно сказать в шоке от таких раскладов и сам, конечно, в очереди не стоял, а был на работе. Увидел эти видосы в твиттере.
@ai_newz
Мой отель находится буквально в 200 метрах от Стенфорда. И сегодня Сэма решил приехать в университет дать лекцию. Народ стоял в очереди как за маслом в девяностые. Я честно сказать в шоке от таких раскладов и сам, конечно, в очереди не стоял, а был на работе. Увидел эти видосы в твиттере.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft выпустила Phi-3
Моделька интересная и довольно умная, есть поддержка 128к контекста, запускается на айфоне со скоростью в 12 токенов в секунду. Я не сразу запостил, потому что у неё подозрительно хорошие результаты бенчмарков: mini (3.8B на 3.3 триллионах токенов) версия модели тягается с LLaMa 3 8B (15 триллионов токенов), а medium - с Mistral 8x22B Instruct. По поводу моделей семейства давно ходят шутки из-за того что их (возможно) тренируют на бенчмарках. Однако авторы заявляют, что такие высокие метрики — следствие их датасета, который лучше всех учит модельку размышлять. Через трое суток после релиза весов я все ещё жду проверки этой модели на ChatBot Arena, так как доверия к бенчмаркам нет. [UPD: появились результаты на арене]
Предыдущие модели семейства Phi тренировали на синтетических данных, тут же, большая часть датасета - данные из интернета. Тренируют в две стадии: первая - тренировка на сильно отфильтрованных данных. На второй стадии её, как и прошлые модели, тренируют на синтетических данных, но добавляют ещё более отфильтрованную примесь данных из интернета.
Авторы пытаются отсеять данные которые LLM такого размера и так вряд ли выучит, например результаты конкретных спортивных матчей. Назвали они это Data Optimal Regime, но у него есть заметный минус: после 7B параметров качество почти не растёт, 14B моделька очень недалеко ушла от 7B модели. Тут может быть две интерпретации: первая – из датасета убрали всё, что не может понять 3B моделька (то есть что-то такое, только для LLM), вторая – модель выучила все ответы на бенчмарки, что были в датасете и насытилась. Из-за этого, хоть в пейпере речь идёт о моделях трёх размеров: mini (3.8B), small (7B) и medium (14B), пока что релизнули только самую маленькую.
--
На видео, демонстрации инференса в fp16 на M3 Max: Вход - 131.917 tps, Генерация- 43.387 tps. Бегает шустро, но можно сделать ещё быстрее.
А вы что думаете про Phi-3?
Technical report
4k версия модели
128k версия
Тут можно початиться с моделькой
@ai_newz
Моделька интересная и довольно умная, есть поддержка 128к контекста, запускается на айфоне со скоростью в 12 токенов в секунду. Я не сразу запостил, потому что у неё подозрительно хорошие результаты бенчмарков: mini (3.8B на 3.3 триллионах токенов) версия модели тягается с LLaMa 3 8B (15 триллионов токенов), а medium - с Mistral 8x22B Instruct. По поводу моделей семейства давно ходят шутки из-за того что их (возможно) тренируют на бенчмарках. Однако авторы заявляют, что такие высокие метрики — следствие их датасета, который лучше всех учит модельку размышлять. Через трое суток после релиза весов я все ещё жду проверки этой модели на ChatBot Arena, так как доверия к бенчмаркам нет. [UPD: появились результаты на арене]
Предыдущие модели семейства Phi тренировали на синтетических данных, тут же, большая часть датасета - данные из интернета. Тренируют в две стадии: первая - тренировка на сильно отфильтрованных данных. На второй стадии её, как и прошлые модели, тренируют на синтетических данных, но добавляют ещё более отфильтрованную примесь данных из интернета.
Авторы пытаются отсеять данные которые LLM такого размера и так вряд ли выучит, например результаты конкретных спортивных матчей. Назвали они это Data Optimal Regime, но у него есть заметный минус: после 7B параметров качество почти не растёт, 14B моделька очень недалеко ушла от 7B модели. Тут может быть две интерпретации: первая – из датасета убрали всё, что не может понять 3B моделька (то есть что-то такое, только для LLM), вторая – модель выучила все ответы на бенчмарки, что были в датасете и насытилась. Из-за этого, хоть в пейпере речь идёт о моделях трёх размеров: mini (3.8B), small (7B) и medium (14B), пока что релизнули только самую маленькую.
--
На видео, демонстрации инференса в fp16 на M3 Max: Вход - 131.917 tps, Генерация- 43.387 tps. Бегает шустро, но можно сделать ещё быстрее.
А вы что думаете про Phi-3?
Technical report
4k версия модели
128k версия
Тут можно початиться с моделькой
@ai_newz
Появились результаты с арены: чуда не случилось, Phi-3 mini не догнала LLaMa 3 8B, но модель показала себя очень хорошо и вполне себе тягается с Mistral 7B. Вин (или слив?) засчитан.
@ai_newz
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Vidu — Китайцы забахали свою СОРУ!
Обучили нового конкурента Альтману в стартапчике Shengshu Technology и Университете Цинхуа.
Генерит видео до 16 секунд в 1080p. Если демо не фейк, то качество Vidu уже тупо в шаге от качества генерацией Соры.
Архитектура модели вроде как основана на U-ViT, которая похожа на Diffusion Transformer, что у Соры.
Если интересно, что за мозг за этим стоит, то вот гугл сколар профиль научрука, который руководил этим проектов.
Ждём больше подробностей про эту модель! Exciting!
Блогпост на китайском
Подать заявку на доступ можно тут
@ai_newz
Обучили нового конкурента Альтману в стартапчике Shengshu Technology и Университете Цинхуа.
Генерит видео до 16 секунд в 1080p. Если демо не фейк, то качество Vidu уже тупо в шаге от качества генерацией Соры.
Архитектура модели вроде как основана на U-ViT, которая похожа на Diffusion Transformer, что у Соры.
Если интересно, что за мозг за этим стоит, то вот гугл сколар профиль научрука, который руководил этим проектов.
Ждём больше подробностей про эту модель! Exciting!
Блогпост на китайском
Подать заявку на доступ можно тут
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера провели шикарную сходку недалеко от Сан-Франциско, нас захостил у себя один замечательный человек, который тоже читает канал. Попозже расскажу про свои впечатления подробнее и скину фотки.
А сейчас еду в Сан-Франциско, и буду там гулять до вечера, так что если хотите пересечься — пингуйте!
@ai_newz
А сейчас еду в Сан-Франциско, и буду там гулять до вечера, так что если хотите пересечься — пингуйте!
@ai_newz
Нейродайджест за неделю (#15)
1. Хайлайты из US
- Вылетаю из Цюриха в Сан-Франциско для встреч с коллегами, ну и чтобы отметить успешнвй релиз Imagine Flash и LLaMa-3.
- Румтур по офису Мечты от Меты в Menlo Park, где работает несколько десятков тысяч человек.
- О Сан-Франциско, и о сходке.
2. Роботехам стало скучно.
- Огнедышащий робо-пес от Throwflame теперь доступен для покупки каждому психопату.
- Как развлекается кофаундер HuggingFace: создали робота Немо из г*ван, палок и трёх open-source LLM.
3. ЭйАй селебрити
- Марк Цукерберг кайфанул от Imagine Flash и почему-то задумался об открытии магазина мяса после ухода из Meta.
- Сэм Альтман выступил в Стэнфорде, таких очередей не видели даже в советском союзе.
4. ЛэЛэМэ
- Microsoft выпустила Phi-3, новую модель с поддержкой 128K контекста. Я уже боялся, что она догонит Llama 8B, но чуда не произошло.
- будущее LLM и что будет потом...
- FineWeb - новый датасет чище, больше, круче! Все для претрейна моделей.
- OpenELM - Apple выпустили открытую LLM (с трейнинг кодом), по качеству такая себе, но важен сам факт.
5.Дегенеративные Видосы
- Vidu в шаге от Sora, китайским стартапом из универа Цинхуа наступает на пятки Open AI (если верить демке).
- Диффузионные модели для генерации видео – новый #ликбез от Lilian Weng, о текущих подходах.
> Читать дайджест #14
#дайджест
@ai_newz
1. Хайлайты из US
- Вылетаю из Цюриха в Сан-Франциско для встреч с коллегами, ну и чтобы отметить успешнвй релиз Imagine Flash и LLaMa-3.
- Румтур по офису Мечты от Меты в Menlo Park, где работает несколько десятков тысяч человек.
- О Сан-Франциско, и о сходке.
2. Роботехам стало скучно.
- Огнедышащий робо-пес от Throwflame теперь доступен для покупки каждому психопату.
- Как развлекается кофаундер HuggingFace: создали робота Немо из г*ван, палок и трёх open-source LLM.
3. ЭйАй селебрити
- Марк Цукерберг кайфанул от Imagine Flash и почему-то задумался об открытии магазина мяса после ухода из Meta.
- Сэм Альтман выступил в Стэнфорде, таких очередей не видели даже в советском союзе.
4. ЛэЛэМэ
- Microsoft выпустила Phi-3, новую модель с поддержкой 128K контекста. Я уже боялся, что она догонит Llama 8B, но чуда не произошло.
- будущее LLM и что будет потом...
- FineWeb - новый датасет чище, больше, круче! Все для претрейна моделей.
- OpenELM - Apple выпустили открытую LLM (с трейнинг кодом), по качеству такая себе, но важен сам факт.
5.
- Vidu в шаге от Sora, китайским стартапом из универа Цинхуа наступает на пятки Open AI (если верить демке).
- Диффузионные модели для генерации видео – новый #ликбез от Lilian Weng, о текущих подходах.
> Читать дайджест #14
#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Snowflake Arctic - непрофильная компания сделала LLM, результат предсказуем
Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.
Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.
Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.
Модель
Демка
Блогпост
Серия постов с деталями тренировки
@ai_newz
Модель гигантская - 482 миллиарда параметров (больше из открытых разве только Switch Transformer 2021 года), и очень странная архитектурно - 10B Dense модель параллельно с которой засунули MoE FFN слои, в итоге это даёт 17 миллиардов активных параметров. Длина контекста - всего 4k токенов (даже 8k у LLaMa 3 сейчас считается маленькой), но обещают поднять до 32k.
Не смотря на огромные размеры, модель тренировали всего ~400k GPU часов. Это в три раза меньше LLaMa 3 8B, от которой она слегка отстаёт на большинстве общих бенчмарков, но слегка обходит на кодинге и следовании инструкциям. Пейпера нету, но тренировку обещали описать в серии постов, которая ещё публикуется.
Из-за огромного (128) количества экспертов, модель имеет смысл использовать только в энтерпрайзе с батчсайзом в тысячах. Единственный юзкейс который я смог придумать для себя - тесты железа на может ли оно запустить LLaMa 3 405B.
Модель
Демка
Блогпост
Серия постов с деталями тренировки
@ai_newz
Привет, друзья! Я наконец вернулся из Кремниевой долины, и хочу поделиться своими впечатлениями.
В прошлую пятницу вечером я организовал небольшую тусовку с подписчиками, которая прошла просто на ура!
В моем канале действительно высока концентрация очень приятных и открытых людей, и на каждой новой встрече во время моих поездок в другую страну я обязательно знакомлюсь с новыми крутыми ребятам! Вот вам пример: я не знал, где и как устроить эту встречу, а тут в комментариях один из читателей предложил затусить у него. В итоге, Мы собрались недалеко от Сан-Франциско, в уютном доме с классным пространством для тусовок на заднем дворе (Игорь, респект!).
Я немного опоздал из-за пробок - ну что поделаешь, час на машине из Пало-Альто. Собралась очень крутая компания, около 20 человек. Мы жарили мясо на гриле и говорили о насущном - от трендов в AI и стартапов до жизни в Кремниевой долине. Ребята оказались настоящими экспертами в самых разных областях - были и стартаперы, и VC-инвесторы, и инженеры из Bigtech, и PhD-студенты из Беркли. Даже был парень, который занимается развитием инфраструктуры для будущего AI, прокладывая сетевые коммуникации по всей долине, в том числе и по известному мосту Golden Gate в Сан-Франциско.
Было очень весело, все травили байки и смешные истории. Такие моменты напоминают, что у меня в канале собралась действительно крутая аудитория - открытые, интересные и увлеченные люди.
Короче, ребята, это была одна из лучших встреч, которые я когда-либо организовывал. Спасибо всем, кто пришел, и особенно Игорю и Оле за гостеприимство. Не терпится устроить следующую тусовку в другом интересном месте (ну, либо опять в Калифорнии)!
--
А в следующем посте расскажу, как прошли мои рабочие встречи с коллегами и боссами, и как меня это еще сильнее замотивировало.
#personal
@ai_newz
В прошлую пятницу вечером я организовал небольшую тусовку с подписчиками, которая прошла просто на ура!
В моем канале действительно высока концентрация очень приятных и открытых людей, и на каждой новой встрече во время моих поездок в другую страну я обязательно знакомлюсь с новыми крутыми ребятам! Вот вам пример: я не знал, где и как устроить эту встречу, а тут в комментариях один из читателей предложил затусить у него. В итоге, Мы собрались недалеко от Сан-Франциско, в уютном доме с классным пространством для тусовок на заднем дворе (Игорь, респект!).
Я немного опоздал из-за пробок - ну что поделаешь, час на машине из Пало-Альто. Собралась очень крутая компания, около 20 человек. Мы жарили мясо на гриле и говорили о насущном - от трендов в AI и стартапов до жизни в Кремниевой долине. Ребята оказались настоящими экспертами в самых разных областях - были и стартаперы, и VC-инвесторы, и инженеры из Bigtech, и PhD-студенты из Беркли. Даже был парень, который занимается развитием инфраструктуры для будущего AI, прокладывая сетевые коммуникации по всей долине, в том числе и по известному мосту Golden Gate в Сан-Франциско.
Было очень весело, все травили байки и смешные истории. Такие моменты напоминают, что у меня в канале собралась действительно крутая аудитория - открытые, интересные и увлеченные люди.
Короче, ребята, это была одна из лучших встреч, которые я когда-либо организовывал. Спасибо всем, кто пришел, и особенно Игорю и Оле за гостеприимство. Не терпится устроить следующую тусовку в другом интересном месте (ну, либо опять в Калифорнии)!
--
А в следующем посте расскажу, как прошли мои рабочие встречи с коллегами и боссами, и как меня это еще сильнее замотивировало.
#personal
@ai_newz