DL in NLP

Только что прошла презентация Google I/O вот мои заметки:

Гугл активно пошёл вширь со своими Generative AI продуктами: "help me write" в Gmail, Docs, и Android; "help me visualize" в Slides, "magic edit" в Google Photos и показал как будет выглядеть интеграция в Search.

1. PaLM 2 — мультиязычное семейство языковых моделей от "запускаемых на мобильных устройствах" до "очень больших". Мало специфики, но наверное больше мы и не узнаем
1. Gemini — следующее поколение языковой модели от Google. Главная фича: мультимодальность и поддержка tools.
1. Bard.google.com теперь доступен без очереди, а также скоро начнёт поддержвать тулзы вроде генерации изображений с помощью Adobe Firefly, инпута изображений с помощью Google Lens итд
1. Tailwind — чат с вашими документами вроде статей, книжек, и остального. Изначально делался для образования, но потом поняли что он может быть general-purpose.

Text2image Imagen, code generation Codey, и Chirp будут доступны в Google Cloud через API. Обещают возможность файтнюнинга и дифференциально приватного файтнюнинга для работы с чувствительнми данными. Также анонсировали что в Google Cloud будет сервис для RLHF и новые инстансы серии A3 с H100 на борту 🔥

Следующие пару лет будут очень интересными и гугл несмотря на вялый старт с Bard потихоньку набирает обороты. Технологически они и так одни из самых сильных игроков благодаря TPU, Google Brain и DeepMind. Главное сделать из этих технологий полезные продукты и то что показали на I/O выглядит многообещающе.

👍42❤1🔥1

5.1K viewsVlad Lialin, edited 19:31

DL in NLP

About PaLM 2:
https://ai.google/static/documents/palm2techreport.pdf

As with GPT4, almost no technical details (as I was predicting, forget about big tech publishing detailed papers about their top-performing models), but a few things are still there:

1. "mixture of objectives similar to UL2"
1. "more multilingual and diverse pre-training mixture", "larger models can handle more disparate non-English datasets without causing a drop in English language understanding performance" — less than 78% English, exact number is unknown
1. "The largest model in the PaLM 2 family, PaLM 2-L, is significantly smaller than the largest PaLM model but uses more training compute" — largest PaLM 2 is less than 500B
1. "For a small fraction of pre-training data, we added special control tokens marking the toxicity of text, using signals from a fixed version of the Perspective API." — after training, you can use these to control the toxicity of the text.

Some downstream tests compare PaLM 2 to GPT4 and show similar levels of performance. Tho, I wouln't be surprised if Google didn't include cases when GPT4 significantly outperforms PaLM 2. This is not a research paper by scientists, this is a technical report by Google, as the first page says.

❤2

4.82K viewsVlad Lialin, 23:47

DL in NLP

Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning 11 Мая на Münich NLP в 12pm EDT буду презентовать наш обзор PEFT методов. Заходите спросить почему BitFit больше не классный, какие методы работают лучше LoRA и зачем вообще этот PEFT обычным…

Начинаем сейчас! Приходите послушать про PEFT методы в дискорд Münich NLP

❤12

4.92K viewsVlad Lialin, 16:01

DL in NLP

И ещё один маленький announcement

Почти все новости и статьи в этом канале начинают свою жизнь как url сохранённые в мои Saved Messages в телеграме, но 90% этих ссылок остаются там умирать. И я подумал и решил нагло украсть идею @j_links и сделать канал куда я буду постить все эти ссылки, без каких-либо комментариев но сразу же как их нахожу.

Начал собирать там ссылки ещё несколько дней назад, так что там уже не пусто. Если хотите получать сырые новости сразу же как я про них узнаю, подписывайтесь на t.iss.one/dlinnlp_links

👍19💩9👎4🤩4❤2🤮1

5.94K viewsVlad Lialin, edited 17:20

DL in NLP

Anthropic Claude теперь поддерживает размер инпута в 100K токенов 🤯

anthropic.com/index/100k-context-windows

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥41❤9👍6😁1

6.51K viewsVlad Lialin, 18:40

DL in NLP

Flash attention in practice 🔥

PyTorch 2.0 has flash-attention built-in, here's how you can use it:

1. Replace your attention op with torch.nn.functional.scaled_dot_product_attention
1. Use 16-bit float (which you should always be using for training anyway)
1. Make sure that your head dim is a multiple of 8 and no more than 128

Lookup git diff above as an example.

Result:
1. 2010 examples/sec ⟼ 2790 examples/sec. 40% speedup (8x4090 setup)
1. RAM: 22Gb ⟼ 16 GB reduction at 256 sequence length
1. Absolutely the same model, no approximations

(In my case a big chunk of improvement also came at the cost of reducing softmax precision from fp32 to bf16, but to hell with that)

Flash attention should yield even higher improvements on larger sequence lengths.

🔥49👍9❤3🤯2

6.77K viewsVlad Lialin, 18:49

DL in NLP

Как мы дожили до того что CNBC рассказывает больше чем статья на архиве?

😁15😢10🤔5

4.5K viewsVlad Lialin, 23:03

DL in NLP

Forwarded from gonzo-обзоры ML статей

Говорят, PaLM 2 (https://t.iss.one/gonzo_ML/1559) содержит 340B параметров и обучена на 3.6T токенов.

https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html

gonzo-обзоры ML статей

[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/

Вчера на Google…

👍3❤1

4.06K viewsVlad Lialin, 23:03

DL in NLP

От моего PI:

« людей, которые верят, что большие модели обретут AGI from further scaling, надо называть большевиками 🙂 »

😁97🥴11❤2❤‍🔥2🤮1😈1

4.66K viewsVlad Lialin, 13:29

DL in NLP

Forwarded from Futuris (Anton)

Тут кто-то на реддите нашёл способ как дать ChatGPT полный доступ над своей системой через выполнение небезопасной функции eval в JavaScript. Через чат пользователь смог узнать описание и содержимое файлов у себя на жёстком диске, открыть браузер и выполнить поисковый запрос и даже управлять мышкой 🤯

Привет SkyNet 😅

🤯39🔥5😁4👍3❤2🥰1

3.01K viewsVlad Lialin, 14:11

DL in NLP

Получил доступ к Claude и попробовал запрос который пробую со всеми новыми модельками: минималистичный DDP для тренировки LM.

И получилось относительно неплохо, хотя и не полностью то что я хочу. Пока что никто из моделей GPT4/PALM2/gpt4all-snoozy не справился и в общем кажется неплохим тестовым кейсом, тк в интернете нету нормальных туториалов по DDP с препроцессингом для LM (если знаете — кидайте в коменты).

В общем мне кажется что на фоне хайпа GPT4/PALM2 Claude недооценён. С учётом 100K context length я прямо смогу сделать новые проекты которые было сложнее сделать с GPT4.

👍18❤2🤔2

4.42K viewsVlad Lialin, 14:36

DL in NLP

Prompts is the new “stack more layers”. Change my mind 🤡

👏31😁14💯5😢2🥱1

4.3K viewsVlad Lialin, 18:13

DL in NLP

Очень странная новость от The Information о том что OpenAI планирует выпустить open-source LLM. К сожалению оригинальная новость за пейволом и тк я не готов платить $500 за чтение новостей будем читать перепечатки и гадать.

Зачем им может это быть нужно?
<натягиваем сову на глобус>
OpenAI всё-таки часть community и одна из их задач, в соответствии с OpenAI Charter это "create a global community working together to address AGI’s global challenges". Несмотря на мемы про ClosedAI часть проектов OpenAI всё-таки были заопенсоршены: PPO, gym, GPT2, Jukebox, CLIP, Tiktoken, Whisper, Shap-E, Point-E, пара датасетов для RLHF, Triton.

Кроме этого, LLaMA и другие сильные модели зарелижены без alignment и их можно использовать для генерации чего угодно. Я бы предположил что они будут релизить уже aligned модель, тк это больше согласуется с их подходом. Возможно хайп который поднимает вокруг себя OpenAI позволит сфокусировать внимание на этой модели и сделать так что больше людей будут использовать их модельку.
</натягиваем сову на глобус>

Новость звучит очень сас и я не готов ей прямо верить на 100%, но было бы интересно посмотреть на что-нибудь такое. Всё-таки конкуренция полезна не только для коммерческих компаний, но и для opensource решений.

UPD: саммари статьи

The Information

Open-Source AI Is Gaining on Google and ChatGPT

In February, Meta Platforms set off an explosion of artificial intelligence development when it gave academics access to sophisticated machine-learning models that can understand conversational language. Within weeks, the academics turned those models into…

👍15❤2

4.64K viewsVlad Lialin, edited 19:04

DL in NLP

Neeva.com — платный поисковик без рекламы c фокусом на приватность — закрывается 😥
neeva.com/blog/may-announcement

Neeva появилась несколько лет назад, ещё до you.com и задолго до нового AI-поколения поисковиков. Я пользовался ими около полугода и был готов платить, но не был удовлетворён качеством поиска.

После начала ChatGPT-хайпа они были одними из первых кто внедрил LLM в поиск, после чего они заслуженно тролили гугл. Однако на фоне текущей рецессии neeva.com решил закрыться over the next few weeks.

Причины объясняют следующим образом:
We’ve discovered that it is one thing to build a search engine, and an entirely different thing to convince regular users of the need to switch to a better choice. ... Contrary to popular belief, convincing users to pay for a better experience was actually a less difficult problem compared to getting them to try a new search engine in the first place.

Все кто оплатили подписку получат рефанд, все пользовательские данные будут удалены.

Но в этой новости есть и немного позитива. Команда не распущена, она будет сконцентрирована на новых (неанонсированных) продуктах и направлениях развития на основе поиска + LLM + эффективного инференса.

RIP

P.S. Я после neeva год назад перешел на you.com и очень им доволен. Сейчас ещё активно посматриваю на perplexity.ai

😭22👍4😁2❤1🤔1

4.52K viewsVlad Lialin, edited 20:19

DL in NLP

Intel 64-bit only architecture
intel.com/content/www/us/en/developer/articles/technical/envisioning-future-simplified-architecture.html

Кажется гигант задергался и после откровенно неудачных последних поколений процессоров, ухода Apple на свои ARM процессоры и слухов что другие сделают так же они решили убрать 40-летнее легаси из X86.

Новая архитектура называется X86S (Simplified) и в ней отказываются от поддержки 16-битных процессоров, промежуточных уровней доступа (ring1 и ring2), которые не используются современным hardware от слова совсем, 8259-прерывания и some unused operating system mode bits.

Честно я мало чего ожидаю от интела и мне кажется их эпоха уже на закате и через 10 лет мы про них даже не будем вспоминать. На данный момент например я пользуюсь их процессорами только в серверах, да и то там давит AMD. Но будем надеяться что та встряска которая идет последние несколько лет позволит гиганту опомниться и начинать делать что-то интересное.

Intel

Envisioning a Simplified Intel® Architecture

Intel investigated architectural enhancements and modifications for a 64-bit mode-only architecture.

👍11🫡6❤1

4.57K viewsVlad Lialin, edited 12:23

About

Blog

Apps

Platform