я обучала одну модель

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

🟣

https://openai.com/sora#research

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯17🔥8❤3👍3

3.72K views18:31

я обучала одну модель

Меня помимо фотореалистичности видео поразили еще конкретно вот эти два примера. На первом в каждом телевизоре свой видеоряд (мы прикрутили видео в твое видео), а на втором супер точно передан изгиб линзы камеры на телефоне, так, что вообще все пропорции соблюдены. И отдельно меня убивает, что модель смогла в ОТРАЖЕНИЯ в стекле, которые в нужный момент становятся четче, когда поезд проезжает темное здание…. Насколько крутую world model они смогли туда запихнуть

🤯44🔥12👍2👏2❤1

30.2K views18:46

я обучала одну модель

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

В последние сутки в Твиттере и на LocalLLaMA кажется нет ничего, кроме обсуждения groq (с q на конце). Все потому, что groq сервят Mixtral со скоростью вплоть до 500 токенов в секунду, пока конкуренты типа Together.ai не успевают за это время сгенерить 70

Секрет успеха тут в том, что groq уже много лет разрабатывали процессоры, которые должны составить конкуренцию NVIDIA, по крайней мере в области сервинга LLM. Собственно поэтому название для них затрейдмаркали как Language Processing Unit

Вот тут есть хороший разбор про то, как устроена архитектура их карточек. Я, как не самый большой эксперт в железе, почерпнула из него только идею, что эти процессоры оптимизированы именно для сервинга моделей, поскольку они гораздо реже перекладывают веса из RAM на сами чипы. А еще похоже их GroqCard уже продаются за 20 тысяч бачей. Если у вас нет таких денег, то их демо пока еще бесплатное – https://groq.com/

Хотя какой-то breakthrough у них случился только сейчас, groq как торговая марка был зарегистирован оказывается уже 7 лет назад (видимо в ту же секунду, как вышла Attention is all you need). А еще основали компанию те же люди, что разрабатывали TPU в Google 🤯

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥38❤8🤯5👌4👍2🥴1

6.43K viewsedited 13:23

я обучала одну модель

Вероятностные процессы в эйай ресерч

😁77🥴10👍2👏2❤1

4.42K views11:40

я обучала одну модель

Как мне кажется, Mixture-of-Depths – одна из самых интересных недавно вышедших статей, так как посвящена она довольно очевидной проблеме, что все токены в механизме оттеншена потребляют одинаковое количество компьюта, хотя польза от них не одинаковая. Конкретно эта статья фокусируется на том, как тратить меньше вычислений на токены, которые особенно и не нужны в предсказании

Идея очень простая и поэтому уважаемая: перед каждым трансформер-блоком (в котором находится аттеншн и MLP) работает роутер, который выдает для каждого токена входной последовательности какой-нибудь вес. Дальше в блок поступают и обрабатываются только top-k токенов c наибольшими весами, а все остальные через residual connection обходят блок без каких-либо изменений. Соответственно, механизм оттеншена в итоге требует k^2 вычислений, где k << числа токенов во входной последовательности

Поскольку k задается самим пользователем, размеры матриц внутри аттеншена нам изначально известны, и мы точно можем посчитать, сколько компьюта урежет заданное значение k

Как корректно заметил один человек в реплаях Твиттера, в таком подходе если какой-то токен был проигнорирован в конкретном трансформер-блоке, то дальше все последующие токены не смогут аттендиться к нему, так как этот токен не попадет в KV-кеш. То есть он навсегда остается таким “слепым пятном” в этом блоке, но в следующих блоках он все равно может попасть в top-k и сыграть роль там. В теории возможно, что какой-то совсем бесполезный токен занулится во всех блоках и не окажет вообще никакого влияния на генерацию

В экспериментах лучшая вариация MoD оказалась та, где k был равен 256 (12.5% от всех входных токенов попадали в блок) и где роутер стоял перед каждым вторым трансформер-блоком. Помимо того, что у этой модели лосс был даже ниже, чем у стандартной модели с таким же количеством параметров, она еще и на 66% быстрее совершала шаг инференса. Это по сути и подтверждает, что куча операций в ванильном трансформере излишняя и не дает прироста качества

Довольно приколькую идею скрестить Mixture-of-Depths и Mixture-of-Experts предложили также сами авторы – просто можно заменить одного эксперта на identity function и готово 👍 По-моему очень элегантно

Еще хорошую идею развития этого ресерча закидывают в конце в discussion – можно предположить, что некоторые токены очень полезны как keys, но не очень полезны как queries или наоборот. В общем кажется, что эта команда ресерчеров опубликует позднее что-то еще про более сложный роутинг

Please open Telegram to view this post

VIEW IN TELEGRAM

👍43❤5🤔2🔥1

6.37K viewsedited 21:57

я обучала одну модель

Сегодня в универе делали ner tagging, и ЭТО было первое предложение в корпусе русского языка 🔫

Please open Telegram to view this post

VIEW IN TELEGRAM

🥴52😁19😱5🔥3👍2

3.97K views19:39

я обучала одну модель

state of ai research apr 2024:
на lmsys появилась загадочная модель gpt2-chatbot, которая всем очень нравится и демонстрирует себя на уровне gpt-4 последних версий. при этом, никто не знает, что это и кто это тренировал 👁👄👁

в твиттере спекулируют, что это дроп от самих openai, что крайне на них не похоже, но на мои вопросы она отвечает действительно почти идентично gpt-4. из аргументов в пользу этого есть только то, что модель воспринимает special tokens именно характерные для openai, и что с ней работают типичные для openai промпт инджекшены

наконец-то завезли gpt-2vol2 спустя пять лет в общем 🎧

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30🥰2

3.77K views17:21

я обучала одну модель

Forwarded from ds girl

😁47👏1

3.31K views10:32

я обучала одну модель

А также для любителей cryptoposting from openai basement 🤨

Please open Telegram to view this post

VIEW IN TELEGRAM

😁12

3.53K views10:49

я обучала одну модель

Невыдуманная история: сижу на семинаре, где нас попросили кратко представиться и рассказать, какого известного человека ты хотел бы позвать на ужин. Разумеется я сказала, что хотела бы позвать на ужин Юргена Шмидхубера. Оказалось, что препод с этого курса живет в бывшей квартире Юргена и до сих пор у него остался его велосипед…..

😁66🔥26🤯10🥰8

3.26K viewsedited 16:33

я обучала одну модель

Пару дней назад у меня в школе был open Q&A с ресерчером из OpenAI Яном Кирхнером. Ян работает в Superalignment команде, и он один из соавторов очень крутой статьи Weak-to-strong generalization. Если TLDR, это статья про то, как не очень умные хуманы могут в перспективе обучать superhuman AI. В статье они используют GPT-2, чтобы генерировать фидбек для обучения гораздо большей GPT-4. В итоге такой фидбек от weak supervisor все равно получается лучше, чем обычный файнтюн, но разумеется не дотягивает до оригинальной GPT-4

Собственно команда Superalignment занята фундаментальным вопросом, как нам прыгнуть на голову выше человеческого перфоманса. Основная предпосылка тут, что обучаясь на человеческих данных (и на человеческих текстах, и на человеческой разметке), мы так и останемся примерно на уровне среднестатистических людей. Тут это напоминает Goodhart’s law: поскольку человеческая разметка в обучении стала таргетом, а не метрикой, то она перестает быть хорошей метрикой. Ян признается, что infinitely scalable solution for alignment у них еще нет, и что в течение 4-5 лет они надеются либо его найти, либо прийти к тому, что его не существует

Мне это рассуждение напомнило вот этот недавний твит, где автор приводит причины, почему обучаясь на человеческих данных мы все равно можем получить сильный AI:

1. Self-play. В этом году на эту тему вышла сначала статья SPIN, а потом Self-Rewarding Language Models от Meta. В последний модель учится сама быть и генератором, и разметчиком, и итеративно обучается на своем же фидбеке, при этом продолжая наращивать метрики (полоток в этой работе не был достигнут)
2. Aggregated peak performance – ни один участник межнара по математике не может решить все задачи сразу, но модель обучается на решениях всего и сразу
3. Aggregated knowledge – AI может “удерживать” в памяти гораздо больше изученного материала, чем люди в среднем
4. Speed – возможно AI не сможет стать умнее людей, но может значительно обойти из по скорости (см. LLaMA 3 on Groq), а это иногда решает
5. Unique data – можно обучить модель на огромном количестве очень специфичных данных, вроде структур белков, которые предсказывает AlphaFold. Такие данные людям слишком сложно воспринимать самим напрямую, и тем более не в таком объеме

В реплаях там накидали и критики этих тейков (feel free покритиковать их в коментах!), но мне показалось, что этот список неплохой + заставляет задуматься…

Openai

Weak-to-strong generalization

We present a new research direction for superalignment, together with promising initial results: can we leverage the generalization properties of deep learning to control strong models with weak supervisors?

👍34❤2🔥1

4.12K views15:12

я обучала одну модель

мем дня!

😁59🤯9🔥2❤1

3.62K views19:50

я обучала одну модель

Понравился тред о том, какие апдейты касательно GPT-4o OpenAI не показали на презентации, но указали на своем сайте:
1. Очень хорошая генерация текста на картинках (настолько хорошая, что может сама генерировать шрифты, а еще изображения текста с курсивом типа от руки)
2. Text-to-3D из коробки
3. Помимо речи, можно генерировать саунд-эффекты
4. Перенос стиля на изображениях в zero-shot

🔥36

3.71K views19:09

About

Blog

Apps

Platform