я обучала одну модель
In all seriousness, вижн про выглядят круто, особенно в плане наложения приложений на окружающий мир. С одной стороны, из этого можно сделать крутой функционал, мне лично зашла идея не покупать мониторы к компу, а просто крутить вокруг него головой))) Еще…
This media is not supported in your browser
VIEW IN TELEGRAM
пророчества полугодовой давности сбылись: attention span зумеров больше никогда не оправится после выпуска apple vision pro
🥴42😁5🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32😁20🕊3
Forwarded from Kali Novskaya (Tatiana Shavrina)
Media is too big
VIEW IN TELEGRAM
OpenAI только что выпустили SORA— text2video модель
Генерация видео по текстовому описанию наступила!
Сегодня обещают статью
Промпт:
🟣 https://openai.com/sora#research
Генерация видео по текстовому описанию наступила!
Сегодня обещают статью
Промпт:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.Please open Telegram to view this post
VIEW IN TELEGRAM
🤯17🔥8❤3👍3
Меня помимо фотореалистичности видео поразили еще конкретно вот эти два примера. На первом в каждом телевизоре свой видеоряд (мы прикрутили видео в твое видео), а на втором супер точно передан изгиб линзы камеры на телефоне, так, что вообще все пропорции соблюдены. И отдельно меня убивает, что модель смогла в ОТРАЖЕНИЯ в стекле, которые в нужный момент становятся четче, когда поезд проезжает темное здание…. Насколько крутую world model они смогли туда запихнуть
🤯44🔥12👍2👏2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
В последние сутки в Твиттере и на LocalLLaMA кажется нет ничего, кроме обсуждения groq (с q на конце). Все потому, что groq сервят Mixtral со скоростью вплоть до 500 токенов в секунду, пока конкуренты типа Together.ai не успевают за это время сгенерить 70
Секрет успеха тут в том, что groq уже много лет разрабатывали процессоры, которые должны составить конкуренцию NVIDIA, по крайней мере в области сервинга LLM. Собственно поэтому название для них затрейдмаркали как Language Processing Unit
Вот тут есть хороший разбор про то, как устроена архитектура их карточек. Я, как не самый большой эксперт в железе, почерпнула из него только идею, что эти процессоры оптимизированы именно для сервинга моделей, поскольку они гораздо реже перекладывают веса из RAM на сами чипы. А еще похоже их GroqCard уже продаются за 20 тысяч бачей. Если у вас нет таких денег, то их демо пока еще бесплатное – https://groq.com/
Хотя какой-то breakthrough у них случился только сейчас, groq как торговая марка был зарегистирован оказывается уже 7 лет назад (видимо в ту же секунду, как вышла Attention is all you need). А еще основали компанию те же люди, что разрабатывали TPU в Google🤯
Секрет успеха тут в том, что groq уже много лет разрабатывали процессоры, которые должны составить конкуренцию NVIDIA, по крайней мере в области сервинга LLM. Собственно поэтому название для них затрейдмаркали как Language Processing Unit
Вот тут есть хороший разбор про то, как устроена архитектура их карточек. Я, как не самый большой эксперт в железе, почерпнула из него только идею, что эти процессоры оптимизированы именно для сервинга моделей, поскольку они гораздо реже перекладывают веса из RAM на сами чипы. А еще похоже их GroqCard уже продаются за 20 тысяч бачей. Если у вас нет таких денег, то их демо пока еще бесплатное – https://groq.com/
Хотя какой-то breakthrough у них случился только сейчас, groq как торговая марка был зарегистирован оказывается уже 7 лет назад (видимо в ту же секунду, как вышла Attention is all you need). А еще основали компанию те же люди, что разрабатывали TPU в Google
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38❤8🤯5👌4👍2🥴1
Как мне кажется, Mixture-of-Depths – одна из самых интересных недавно вышедших статей, так как посвящена она довольно очевидной проблеме, что все токены в механизме оттеншена потребляют одинаковое количество компьюта, хотя польза от них не одинаковая. Конкретно эта статья фокусируется на том, как тратить меньше вычислений на токены, которые особенно и не нужны в предсказании
Идея очень простая и поэтому уважаемая: перед каждым трансформер-блоком (в котором находится аттеншн и MLP) работает роутер, который выдает для каждого токена входной последовательности какой-нибудь вес. Дальше в блок поступают и обрабатываются только top-k токенов c наибольшими весами, а все остальные через residual connection обходят блок без каких-либо изменений. Соответственно, механизм оттеншена в итоге требует k^2 вычислений, где k << числа токенов во входной последовательности
Поскольку k задается самим пользователем, размеры матриц внутри аттеншена нам изначально известны, и мы точно можем посчитать, сколько компьюта урежет заданное значение k
Как корректно заметил один человек в реплаях Твиттера, в таком подходе если какой-то токен был проигнорирован в конкретном трансформер-блоке, то дальше все последующие токены не смогут аттендиться к нему, так как этот токен не попадет в KV-кеш. То есть он навсегда остается таким “слепым пятном” в этом блоке, но в следующих блоках он все равно может попасть в top-k и сыграть роль там. В теории возможно, что какой-то совсем бесполезный токен занулится во всех блоках и не окажет вообще никакого влияния на генерацию
В экспериментах лучшая вариация MoD оказалась та, где k был равен 256 (12.5% от всех входных токенов попадали в блок) и где роутер стоял перед каждым вторым трансформер-блоком. Помимо того, что у этой модели лосс был даже ниже, чем у стандартной модели с таким же количеством параметров, она еще и на 66% быстрее совершала шаг инференса. Это по сути и подтверждает, что куча операций в ванильном трансформере излишняя и не дает прироста качества
Довольно приколькую идею скрестить Mixture-of-Depths и Mixture-of-Experts предложили также сами авторы – просто можно заменить одного эксперта на identity function и готово👍 По-моему очень элегантно
Еще хорошую идею развития этого ресерча закидывают в конце в discussion – можно предположить, что некоторые токены очень полезны как keys, но не очень полезны как queries или наоборот. В общем кажется, что эта команда ресерчеров опубликует позднее что-то еще про более сложный роутинг
Идея очень простая и поэтому уважаемая: перед каждым трансформер-блоком (в котором находится аттеншн и MLP) работает роутер, который выдает для каждого токена входной последовательности какой-нибудь вес. Дальше в блок поступают и обрабатываются только top-k токенов c наибольшими весами, а все остальные через residual connection обходят блок без каких-либо изменений. Соответственно, механизм оттеншена в итоге требует k^2 вычислений, где k << числа токенов во входной последовательности
Поскольку k задается самим пользователем, размеры матриц внутри аттеншена нам изначально известны, и мы точно можем посчитать, сколько компьюта урежет заданное значение k
Как корректно заметил один человек в реплаях Твиттера, в таком подходе если какой-то токен был проигнорирован в конкретном трансформер-блоке, то дальше все последующие токены не смогут аттендиться к нему, так как этот токен не попадет в KV-кеш. То есть он навсегда остается таким “слепым пятном” в этом блоке, но в следующих блоках он все равно может попасть в top-k и сыграть роль там. В теории возможно, что какой-то совсем бесполезный токен занулится во всех блоках и не окажет вообще никакого влияния на генерацию
В экспериментах лучшая вариация MoD оказалась та, где k был равен 256 (12.5% от всех входных токенов попадали в блок) и где роутер стоял перед каждым вторым трансформер-блоком. Помимо того, что у этой модели лосс был даже ниже, чем у стандартной модели с таким же количеством параметров, она еще и на 66% быстрее совершала шаг инференса. Это по сути и подтверждает, что куча операций в ванильном трансформере излишняя и не дает прироста качества
Довольно приколькую идею скрестить Mixture-of-Depths и Mixture-of-Experts предложили также сами авторы – просто можно заменить одного эксперта на identity function и готово
Еще хорошую идею развития этого ресерча закидывают в конце в discussion – можно предположить, что некоторые токены очень полезны как keys, но не очень полезны как queries или наоборот. В общем кажется, что эта команда ресерчеров опубликует позднее что-то еще про более сложный роутинг
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤5🤔2🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴52😁19😱5🔥3👍2
state of ai research apr 2024:
на lmsys появилась загадочная модель gpt2-chatbot, которая всем очень нравится и демонстрирует себя на уровне gpt-4 последних версий. при этом, никто не знает, что это и кто это тренировал 👁👄👁
в твиттере спекулируют, что это дроп от самих openai, что крайне на них не похоже, но на мои вопросы она отвечает действительно почти идентично gpt-4. из аргументов в пользу этого есть только то, что модель воспринимает special tokens именно характерные для openai, и что с ней работают типичные для openai промпт инджекшены
наконец-то завезли gpt-2vol2 спустя пять лет в общем🎧
на lmsys появилась загадочная модель gpt2-chatbot, которая всем очень нравится и демонстрирует себя на уровне gpt-4 последних версий. при этом, никто не знает, что это и кто это тренировал 👁👄👁
в твиттере спекулируют, что это дроп от самих openai, что крайне на них не похоже, но на мои вопросы она отвечает действительно почти идентично gpt-4. из аргументов в пользу этого есть только то, что модель воспринимает special tokens именно характерные для openai, и что с ней работают типичные для openai промпт инджекшены
наконец-то завезли gpt-2vol2 спустя пять лет в общем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30🥰2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12
Невыдуманная история: сижу на семинаре, где нас попросили кратко представиться и рассказать, какого известного человека ты хотел бы позвать на ужин. Разумеется я сказала, что хотела бы позвать на ужин Юргена Шмидхубера. Оказалось, что препод с этого курса живет в бывшей квартире Юргена и до сих пор у него остался его велосипед…..
😁66🔥26🤯10🥰8
Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4
Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует
Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:
1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме
В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…
Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует
Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:
1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме
В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…
Openai
Weak-to-strong generalization
We present a new research direction for superalignment, together with promising initial results: can we leverage the generalization properties of deep learning to control strong models with weak supervisors?
👍34❤2🔥1
Понравился тред о том, какие апдейты касательно GPT-4o OpenAI не показали на презентации, но указали на своем сайте:
1. Очень хорошая генерация текста на картинках (настолько хорошая, что может сама генерировать шрифты, а еще изображения текста с курсивом типа от руки)
2. Text-to-3D из коробки
3. Помимо речи, можно генерировать саунд-эффекты
4. Перенос стиля на изображениях в zero-shot
1. Очень хорошая генерация текста на картинках (настолько хорошая, что может сама генерировать шрифты, а еще изображения текста с курсивом типа от руки)
2. Text-to-3D из коробки
3. Помимо речи, можно генерировать саунд-эффекты
4. Перенос стиля на изображениях в zero-shot
🔥36