DL in NLP – Telegram

DL in NLP

12.4K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.4K subscribers

Главный RL-ивент Тинькофф + Петербург + Июль = 💛

Этот идеальный комбо AI-команда Тинькофф хочет разделить с комьюнити. Поэтому ребята приглашают на Tinkoff.AI Saint Reinforcenburg 6 июля в Санкт-Петербурге.

Будут говорить о новых исследованиях, которые делали сами и вместе с InstaDeep, а еще о будущем RL. Подробнее на странице митапа. Там же можно зарегистрироваться.

И не забудьте позвать с собой RL-друзей!

#промо

🤮29🔥14👍3❤1💩1

5.59K viewsVlad Lialin, 11:15

KOSMOS-2: Grounding Multimodal Large Language Models to the World
arxiv.org/abs/2306.14824

Кажется проблема работы с текстом близка к решению: отдельные downstream задачи стали прерогативой продуктовых команд, почти всё можно решить подходом BERT/ChatGPT + labelled data. Аналогичная ситуация обстоит с многими задачами CV.

Но в мультимодальных сетях всё ещё есть открытые исследовательские вопросы. Команда Microsoft разработала новую модель Kosmos-2, которая умеет в mixed-modality language modeling, но в отличие от Flamingo, где в качестве инпута используется только текст и изображение, тут модель умеет принимать на вход (и генерировать) bounding boxes. То есть можно например спросить, куда смотрить этот[bbox] человек и модель ответит вам туда[bbox]. Кроме новых возможностей это также позволяет улушать интерпретируемость модели и снижать галлюцинации, тк модель сильнее обсуславливается на объекты в изображении.

Для тренировки использовали довольно хитрый пайплайн похожий на MDETR, где текст изначально парсился на группы существительных с помощью spaCy которым находили bbox с помощью GLIP (не путать с CLIP).

Результаты — новый датасет GrIT на 90M изображений и 137M bbox-text pairs, сильные результаты на RefCOCO, VQA, и Flickr.

Модель, код и датасет доступны на гитхабе.

❤19👍8🔥5

6.58K viewsVlad Lialin, 17:10

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
blog.salesforceairesearch.com/xgen/

Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen.

XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К, после чего ещё на 400B токенах с длинной 4К

XGen-7B-8K-base — дополнительно натренирована на 300B токенах при длине 8К.

В блогпосте также описывают data mixture: Redpajama (включая статьи с Arxiv) + Wikipedia (оверсемпл x4) + C4 (undersample x0.2) + The Pile (mathematics) + StarCoder.

Другие оперсорсные модели тоже могут обрабатывать последовательности длины 8К, но они никогда не были тренированы на таких длинных текстах. Обычно модельки тренируются на 1К-2К и дальше просто экстраполируют. Но из-за этого страдает качество моделей на текстах длиннее 2К. На проприетарных моделях хорошо видеть этот эффект в ChatGPT-16К, который почти гарантированно забывает все после 8К токенов.

В результате XGen-7B-8K на MMLU обходит LLaMA, OpenLLaMA, Falcon, Redpajama того же размера и Cerebras-13B, Dolly-12B, OPT-13b. Посмотрев на лидербоард MMLU добавлю что также обходит OPT-175B и Bloom, но заметно хуже оригинального GPT-3, CohereCommand-52B и CohereCommand-6B. Хорошо было бы ещё сравниться с недавней MPT-30B которая может быть одной из лучших опенсорсных моделей доступных сейчас.

Но самые интересные результаты конечно на более длинных задачах: на SCROLLS (суммаризация) разрыв между XGen и другими 8B моделями становится очень большим: 5+ поинтов.

Модели доступны на 🤗

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length

TLDR We trained a series of 7B LLMs named XGen-7B with standard dense attention on up to 8K sequence length for up to 1.5T tokens. We also fine tune the models on public-domain…

👍23❤8

6.28K viewsVlad Lialin, 14:15

Подробности, а вернее спекуляции о деталях GPT4

Коротко в цифрах:
1. 1.8T параметров, 13T токенов, батч 60 миллионов токенов
1. MoE, 16 экспертов, 2 на каждый инференс
1. Мультимодальная GPT4 сделана аналогично Flamingo, затюнена на 2Т токенов
1. Тренировали на 25 тысячах A100 в течение 90-100 дней, ~2.15e25 FLOPs
1. Условная стоимость тренировки $63M (но в реальности нельзя арендовать 25K A100)
1. Tensor parallel = 8, pipeline parallel = 15, zero stage = 1
1. Две эпохи по текстовой части датасета, четыре — по кодовой (13Т токенов это умноженные на эпохи)
1. MultiQuery Attention — очень помогает в инференсе, тк сокращает размер KV cache
1. Инферится на нескольких независимых кластерах из 128GPU

Источник: Semianalysis (пейвол на $500, я не готов столько платить), но добрые люди суммаризировали статью в твиттере
В эти спекуляции легко поверить — OpenAI всегда были известны тем что они берут простые идеи и пишут очень эффективный код который эти идеи выполняет.

Теперь немного своих мыслей. Действительно кажется что сейчас для больших компаний стоимость тренировки абсолютно не важна, но что важно — это стоимость инференса. Она уже сильно влияет на архитектуру GPT4, например небольшое число экспертов, MQA. Очень забавно что вся история про спарсовые модели пошла от философско-биологичских аналогий, а в конце-концов реально нужна по инженерным причинам.

Кроме этого, заметили, что GPT4 недотренирована по Шиншилле? Если в модели 1.8T параметров, то chinchilla-optimal будет 36T токенов (не очень корректно из-за спарсовости). Это намекает на:
1. OpenAI играет в долгую и они будут дотренировывать GPT4 ещё много раз
1. Полезные токены в интернете начали заканчиваться. Sam Altman говорил про эту проблему, и оказалось мы её уже достигли.
1. Модели перестанут расти (?)

Я немного удивлён относительно низкой эквивалентной стоимости A100-часов. В мире очень много компаний которые могут позволить себе потратить $100M на важный продукт. Ждём анонса мега-кластеров в AWS?

🔥24👍16❤5💘1

6.27K viewsVlad Lialin, edited 01:23

OMG, тот твиттер тред удалили из-за копирайта (Semianalysis). Но мы всё помним.
Продолжение скринов в комментариях к этому посту.

😁22👍7❤3🤔1

5.33K viewsVlad Lialin, 01:48

Сделал свой небольшой тред: https://twitter.com/guitaricet/status/1678589577148153856

Там те же идеи что и тут, но на английском.

X (formerly Twitter)

Vlad Lialin (@guitaricet) on X

So.. because we seem to be descending into a world where information is not free, let me reiterate some public ideas about #GPT4 architecture and training details:

1. 1.8T parameters, 13T tokens
1. MoE with 16 experts
1. 25K A100s, 3 months
1. Multiple epochs…

🔥12

5.04K viewsVlad Lialin, 02:20

Forwarded from Сиолошная

This media is not supported in your browser

VIEW IN TELEGRAM

Anthropic анонсировали Claude 2, новую модель в авангарде интеллектуальных ассистентов. Прямых сравнений с GPT-4 нет, но относительно старой модели улучшили всё, особенно математику, программирование и способность рассуждать.

Сама компания предлагает думать о Claude 2 как "о дружелюбном, полном энтузиазма коллеге или личном помощнике, которого можно проинструктировать на естественном языке, чтобы помочь вам со многими задачами".

Потыкать бету можно тут: https://claude.ai/
Почитать карточку модели (больше про метрики и сравнение Alignment, нежели технические детали обучения): тяжелый pdf

В прикрепленном видео - демонстрация юзкейсов (но "вау"-эффекта уже не производит...)

Source

👍10🔥2❤1

3.61K viewsVlad Lialin, 14:53

Claude 2 доступный как ChatGPT это очень классно

Наконец-то у ChatGPT появляются настоящие конкуренты, а не Bard (который просто игрушка гугла so far). И то что нам принесла конкуренция — реально удобный интерфейс работы с длинными файлами.

Потестировал свой любимый промпт который пока что никто из моделей не смог сделать. Claude 2 пока что тоже с ходу не может написать приличный код для ditributed LM training.

~~Offtop: заметил что~~ ~~ai.com~~ ~~стал вести не на chagpt, а на сайт майкрософт~~ (нет)

👍13❤1😁1

19.6K viewsVlad Lialin, edited 15:09

IT’s Tinkoff CTF

Tinkoff проводит соревнование по спортивному программированию с отличными призами.

Задания будут интересны разработчикам, SRE- и QA-инженерам, аналитикам и другим ИТ-специалистам. А еще вы сможете потренироваться на тестовых заданиях и выбрать лигу по своим скиллам.

В каждой лиге 30 задач, которые нужно решить всего за 36 часов. Но не обязательно делать это водиночку, разрешается участвовать командам вплоть до 3 человек.

Обещают сложные задачи на мидл- и сеньор-специалистов, атмосферный сетап путешествия по мультивселенным, капибар, ачивки и пасхалки.

Лучшим командам — вселенский почет и денежные призы до 360 000 рублей!

Совервания будут проиходить 15 и 16 июля. Участвовать можно онлайн и очно в 14 ИТ-хабах Тинькофф по всей России. Офлайн-участников ждут квизы, настолки, крутой мерч и нетворкинг с экспертами.

🚀Переходим на IT’s Tinkoff CTF, читаем подробности и регистрируемся

#промо
Ерид: LdtCKCQiN

💩35👍7🐳1

5.49K viewsVlad Lialin, 09:01

Возможно Claude 2 может стать моим основным методом чтения статей. Не хватает только возможности картинки экстрактить из PDF.

❤65🔥6👍4

6.32K viewsVlad Lialin, 16:24

Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length blog.salesforceairesearch.com/xgen/ Команда Salesforce выпустила новую серию опенсорсных моделей модель: XGen. XGen-7B-4K-base натренирована на 800B токенах с длинной текста 2К…

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
Статья: arxiv.org/abs/2307.05695
Код: GitHub

Мы задались вопросом: если LoRA настолько хороша для файнтюнинга, можем ли мы применить её для претренинга?
Мы представляем ReLoRA — первый метод PEFT, который может использоваться для обучения с нуля! 🔥

Почему мы не можем использовать LoRA для претренинга? Потому что он оптимизирует только в маленьком подпространстве низкого ранга параметров модели. Этого достаточно для файнтюнинга, но не для претренинга. Что мы можем сделать?

Применить LoRA несколько раз подряд. Это работает, потому что параметры LoRA могут быть интегрированы в основную сеть (W += W_A @ W_B) и потому что сумма матриц низкого ранга может иметь ранг больше, ранги слагаемых.

Но теперь у нас новая проблема: оптимизаторы сильно полагаются на momentum который и определяет большую часть направления апдейта по предыдущим градиентам (а не текущему градиенту). Это делает шаги оптимизации сильно скоррелированными

Представьте первый шаг оптимизации после ресета ReLoRA. Он сделает параметры ReLoRA похожими на параметры предыдущей итерации. Это потенциально может "заполнить ранг" параметров LoRA и минимально увеличить суммарный ранг. Поэтому при ресете ReLoRA мы частично ресетим стейт оптимизатора сохраняя только 0-10% весов. Далее, чтобы избежать нестабильностей мы прогреваем LR 10-50 шагов

LayerNorm и эмбеддинги тренируются как обычно, без репараметризации. Наконец, ранняя фаза обучения очень важна, и нам действительно нужно "подогреть" сеть с помощью обычного полноценного обучения. На практике достаточно 3-5 тысяч шагов

TL;DR
1. LoRA + ресеты
1. Частичный сброс стейта оптимизатора
1. "Зубчатый" LR scheduler
1. Прогрев через обычную тренировку

На совсем маленьких сетках всё грустно, но начиная с 250M метод начинает работать близко к обычной тренировке. На 1B видим уменьшение потребления RAM и ускорение на 50%. Сейчас ищем компьют на тренировку 1B-модели

Буду рад ретвиту вот этого треда — продвигать статьи это довольно сложно 😅

🤯44🔥25👍10❤6✍1

9.06K viewsVlad Lialin, 21:10

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

🦙 Llama 2 — Meta обучили и опенсорснули новую LLM Llama 2 (и внимание!) для коммерческого использования

Обучили 2 группы моделей: Llama 2 и Llama 2-Chat:
— Llama 2 обучена на открытых данных (размер корпуса увеличилина 40% в сравнение с Llama 1), удвоили контекст, используя adopted grouped-query attention (Ainslie et al., 2023).
— Llama 2-Chat это зафайтюненная с помощью RLHF (Reinforcement learning from human feedback) версия Llama 2, оптимизированная для диалогов (как Chat-GPT или GPT-4)

Опенсорснули Llama 2 с параметрами:
— Llama2-7B
— Llama2-13B
— Llama2-70B
Обидно то, что еще обучали Llama2-34B модель, но не зарелилзили. Именно там самый высокий TruthfulQA = 67.20, против 64.14 у Llama2-70B

Лицензия позволяет юзать Llama-2 не только для ресерча, но и для коммерческих целей!

По метрикам это лучшая опенсорс LLM-ка, а по качеству Llama2-Chat-70B, местами, сопоставимая с Chat-GTP 3.5

📄 Paper
📇 Blog
💻 Download Llama2

🔥37❤7👍2

7.41K viewsVlad Lialin, 17:30

Howto 2.0
Github

Я тут вчера сел и переписал почти весь howto. Для тех кто не знает: это простая CLI тулза на OpenAI API гененирующая shell из вопроса на естественном языке.

Главная фича: минимум интерфейса. В отличие от ChatGPT вам не надо покидать терминал. В отличие от Github Copilot CLI тут нет красивого TUI и диалога с пользователем. Вы просто вводите howto install conda single line и получаете команду в ответ.

Новые фичи:
1. gpt-3.5-turbo и gpt-4
1. Более удобный конфиг
1. Кастомизируемый system message
1. Follow-up вопросы

Я использую howto постоянно и фича с follow-up пришла в голову когда понял что иногда команда сгененирована почти правильно, но надо немного подправить и не хочется этого делать руками. Теперь вы можете попросить howto сделать это за вас.

Release Howto 2.0 · Guitaricet/howto

The first major update to howto!

New features

OpenAI Completions API.
You can now choose between gpt-3.5-turbo and gpt-4 models.
gpt-3.5-turbo is better, faster, and cheaper than davinchi now b...

🔥68👍19❤11🌚1

9.66K viewsVlad Lialin, 22:13

🔥102🤡16🤪15❤‍🔥3🥴3💋1

12.6K viewsVlad Lialin, 01:57

Я люблю слушать подкасты на фоне делания чего-нибудь нерабочего. Когда еду в транспорте, бегаю, гуляю, или просто ем. Например постоянно слушаю Radio-T уже лет 10 и @zavtracast уже лет 5.

Долго не мог понять почему мне не заходят подкасты на английском. Иногда могу послушать Lex Fridman, если к нему пришел кто-нибудь интересный типа Sam Altman (OpenAI) или Robert Playter (Boston Dynamics). Но именно эпизодически. Ещё сюда же можно добавить подскасты от The Gradient, Microsoft Research, talkRL, и LatentSpace. Те подкасты которые хорошо и дорого срежисированы и качественно записаны, например подкаст DeepMind мне как-то совсем не заходят.

Но сегодня я понял что мне просто не получается расслабиться слушая их и я хочу что-то типа Завтракаста, где народ рассказывает новости и несёт дичь, но более техническое про ML, DL, AI.

И кажется я его нашёл. This Day in AI оказался для меня идеальным сочетанием новостей, техничности (несмотря на попсовое название), и — главное — дичи. Я понял что мы сойдёмся на фразе "… and you have Anthropic, which is some weird futuristic safety sex cult." В общем будем слушать на прогулках.

P.S.
Сейчас пройду собеседования, запущу ReLoRA-1B и надеюсь что смогу вернуться к чуть-чуть более частым постам и обзорам. А то что-то раз в неделю это совсем некрасиво. Ну либо хотя бы найду время заменить себя на GPT4.

Радио-Т Подкаст

Еженедельные разговоры на темы хайтек, высоких компьютерных технологий, гаджетов, облаков, программирования и прочего интересного из мира ИТ.

👍41❤15🔥6💩3

8.82K viewsVlad Lialin, 20:07

Universal-NER
https://universal-ner.github.io

Named Entity Recognition — это очень типичная и полезная задачка NLP. Вам надо заэкстрактить адреса, даты, названия компаний итд. Последний раз я был впечатлён моделью NER.... наверное никогда. А тут Microsoft выложил универсальную NER-модель. Вы просто даёте ей описание каждой entity что вам нужно и запускаете.

Вот как модельку обучили: насемплили коротких (256tok) текстов из The Pile и попросили ChatGPT-3.5 сгенерировать ответы на основе описаний сущностей, повторяем этот процесс ещё 45,888 раз и получаем наш датасет. После чего добавили negative samples и немного high-quality человеческой разметки. Дальше на основе этого датасета обучили модель.

Обходит обычные чат-модели вроде Викуньи и ChatGPT-3.5 (сравнения с GPT-4 нет), а также обходит BERT based когда зафайтюнено на тех же данных

Модели доступны на huggingface. Выглядят очень полезно для рабочего использования (в качестве учителя, тк модель 7B). Если кто-нибудь применит, пишите в чат опыт использования

👍47🔥20❤3

9.66K viewsVlad Lialin, edited 05:19

🥴43👍5❤2💯2🔥1😁1🥱1

8.4K viewsVlad Lialin, 14:23