DL in NLP – Telegram

DL in NLP

12.5K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.5K subscribers

Neeva.com — платный поисковик без рекламы c фокусом на приватность — закрывается 😥
neeva.com/blog/may-announcement

Neeva появилась несколько лет назад, ещё до you.com и задолго до нового AI-поколения поисковиков. Я пользовался ими около полугода и был готов платить, но не был удовлетворён качеством поиска.

После начала ChatGPT-хайпа они были одними из первых кто внедрил LLM в поиск, после чего они заслуженно тролили гугл. Однако на фоне текущей рецессии neeva.com решил закрыться over the next few weeks.

Причины объясняют следующим образом:
We’ve discovered that it is one thing to build a search engine, and an entirely different thing to convince regular users of the need to switch to a better choice. ... Contrary to popular belief, convincing users to pay for a better experience was actually a less difficult problem compared to getting them to try a new search engine in the first place.

Все кто оплатили подписку получат рефанд, все пользовательские данные будут удалены.

Но в этой новости есть и немного позитива. Команда не распущена, она будет сконцентрирована на новых (неанонсированных) продуктах и направлениях развития на основе поиска + LLM + эффективного инференса.

RIP

P.S. Я после neeva год назад перешел на you.com и очень им доволен. Сейчас ещё активно посматриваю на perplexity.ai

😭22👍4😁2❤1🤔1

4.52K viewsVlad Lialin, edited 20:19

Intel 64-bit only architecture
intel.com/content/www/us/en/developer/articles/technical/envisioning-future-simplified-architecture.html

Кажется гигант задергался и после откровенно неудачных последних поколений процессоров, ухода Apple на свои ARM процессоры и слухов что другие сделают так же они решили убрать 40-летнее легаси из X86.

Новая архитектура называется X86S (Simplified) и в ней отказываются от поддержки 16-битных процессоров, промежуточных уровней доступа (ring1 и ring2), которые не используются современным hardware от слова совсем, 8259-прерывания и some unused operating system mode bits.

Честно я мало чего ожидаю от интела и мне кажется их эпоха уже на закате и через 10 лет мы про них даже не будем вспоминать. На данный момент например я пользуюсь их процессорами только в серверах, да и то там давит AMD. Но будем надеяться что та встряска которая идет последние несколько лет позволит гиганту опомниться и начинать делать что-то интересное.

Envisioning a Simplified Intel® Architecture

Intel investigated architectural enhancements and modifications for a 64-bit mode-only architecture.

👍11🫡6❤1

4.56K viewsVlad Lialin, edited 12:23

LIMA: Less Is More for Alignment
arxiv.org/abs/2305.11206

Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.

Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.

Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.

👀13❤4

12.3K viewsVlad Lialin, 15:11

Восстание AI начинается (или нет?)

😁82👍6❤5🖕1

4.5K viewsVlad Lialin, 15:22

🤔30🥱4😁1🥴1

4.42K viewsVlad Lialin, 15:41

Просто 7b модель которую вы можете запустить локально на айфоне со скоростью 6 токенов/секунду. Ничего особенно, проходим дальше.

https://github.com/mlc-ai/mlc-llm/blob/main/ios/README.md

mlc-llm/ios/README.md at main · mlc-ai/mlc-llm

Universal LLM Deployment Engine with ML Compilation - mlc-ai/mlc-llm

🤯46👍5❤3

4.94K viewsVlad Lialin, edited 00:01

Forwarded from gonzo-обзоры ML статей

Sounds good

MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.

Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/

fairseq/examples/mms at main · facebookresearch/fairseq

Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - facebookresearch/fairseq

👍20🔥5❤1🤯1

4.55K viewsVlad Lialin, 00:14

Forwarded from эйай ньюз

Наконец-то нормальный доклад про тренировку ChatGPT. Карпатый сделал вчера презу в Microsoft и хорошо раскидал.

От токенизации, до претрейна, supervised файнтюнинга и RLHF. И все это за 40 минут.

Доклад

@ai_newz

🔥48❤8👍6

4.61K viewsVlad Lialin, 09:59

Current Best Practices for Training LLMs from Scratch

Забавный документ от Wandb в котором описывают важные вещи для тренировки LLM:
1. Scaling laws, compute-optimal training
1. Data Parallelism, Tensor Parallelism, Pipeline parallelism
1. Data clearning, deduplication, and upsampling
1. Hyperparameters (high-level)
1. Evaluation
1. Instruction tuning, RLHF

Гайд оч классный, местами немного устаревший, например не обсуждает zero-redundancy opitmizers (DeepSpeed) или Chinchilla trap — если вам надо деплоить, модели выгодно тренировать на большем числе токенов чем оптимально. В общем даёт неплохой high-level overview.

❤10👍5

5.86K viewsVlad Lialin, 18:14

🤔1

5.67K viewsVlad Lialin, 18:14

6435aabdc0a041194b243eef_Current_Best_Practices_for_Training_LLMs.pdf

👍8🔥6⚡2👏1

6.54K viewsVlad Lialin, 18:14

Forwarded from Сиолошная

Подъехал свежий видео-мем про очередную ML-конференцию. Ссылка: https://fxtwitter.com/postrat_dril/status/1663177876605206528
Имхо в этот раз не так смешно, но с выпуска прошлого года я умирал со смеху (ознакомиться можно тут).
Пишите, сколько мемов и отсылок поняли!

Спасибо автору @j_links за наводку.

FixTweet / FixupX

postrat wint (@postrat_dril)

🔥4🥴2💋2

4.14K viewsVlad Lialin, 00:15

А теперь коротко о последних двух днях

😁21🔥3

5.32K viewsVlad Lialin, 00:16

Forwarded from DeepSchool

Как LLMs могут принимать сразу 100К токенов на вход?

Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.

В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google.

В статье описаны:
- подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения
- хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch
- нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный
- Multi-Query Attention, Sparse Attention и Условные вычисления

Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium:
https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

Задавайте вопросы Гале в комментариях к этому посту 👇

The Secret Sauce behind 100K context window in LLMs: all tricks in one place

tldr; techniques to speed up training and inference of LLMs to use large context window up to 100K input tokens during training and…

👍28🔥12❤4⚡2🤯1

5.64K viewsVlad Lialin, 17:36

Rack-mount MacPro и M2 Ultra с 198Gb unified RAM...

Кажется кто-то вспомнил что они умеют делать железо и Mac Server is back. Вангую на то что Apple уже эспериментирует с датацентрами на M2 Ultra вместо NVIDIA. Про примерение M2 Ultra к тренировке LLM сказали прямо на конференции. Интересно как они будут впихивать несколько M2 в один сервер и коммуникацию между серверами.

Unified RAM == GPU, CPU и Neural Engine используют одну и ту же память

👍33🤡10🔥7🥴2❤1

5.08K viewsVlad Lialin, 17:25

The Falcon has landed in the Hugging Face ecosystem
huggingface.co/blog/falcon

Хороший блогпост от 🤗 в который рассказывает про Falcon-40B — полностью опенсорсную модель (теперь веса тоже распространяются под Apache 2.0) от, внезапно, Technology Innovation Institute in Abu Dhabi.

Что классно, в посте не только говорят про то что модель есть, сколько её тренировали и какие метрики, но и рассказывает про:

1. Multi-Query Attention — разные головы используют одни и те же K и V, что сильно сокращает потребление памяти на длинных последовательностях (см картинку)
1. 8-bit и 4-bit inference — поддержка 4-bit уже есть в Transformers на main branch на гитхабе и наверное скоро зарелизится
1. 🤗 Text Generation Inference — готовый и обернутый в Docker сервер для инференса больших моделей
1. Файнтюнинг через PEFT и конкретно через QLoRA

Очень рекомедую почитать и поиграться всем кому интересна работа с большими моделями. Тут прямо всё самое свежее.

❤46🔥7👍6❤‍🔥3⚡2👌1

5.73K viewsVlad Lialin, 16:07

LLM.university

Хороший бесплатный миникурс от Cohere о том как работают word embeddings, attention, трансформеры, генерация текста и как всё это применять для реальных задач.

В курсе также обсуждают промптинг, prompt chaining и дают несколько аннотированных примеров того как все это применять к задачам вроде document QA, semantic search (w Langchain) и так далее.

Местами high-level, но множество хороших иллюстраций. Рекомендую показывать это вашим студентам / джунам (если их ещё не заменил GPT4)

Welcome to LLM University! | Cohere

LLM University (LLMU) offers in-depth, practical NLP and LLM training. Ideal for all skill levels. Learn, build, and deploy Language AI with Cohere.

👍41❤1👏1

6.92K viewsVlad Lialin, 21:18

Deploying Transformers on the Apple Neural Engine
https://machinelearning.apple.com/research/neural-engine-transformers

Под шумок WWDC вышел отличный пост о том как гонять трансформеры на ANE (Apple Neural Engine) который есть во всех современных iOS и MacOS девайсах. На секундочку ANE в iPhone 14 Pro может в 17 fp16-TFlops, что близко к RTX 3070 (20 TFlops). Неплохо для телефона.

Очень короткое содержание статьи:
1. Picking the Right Data Format — use (B, C, 1, S) tensors
1. Chunking Large Intermediate Tensors — считайте головы attention последовательно а не параллельно, что увеличит вероятность L2 cache residency
1. Minimizing Memory Copies — избегайте reshape и transpose
1. Handling Bandwidth-Boundness — батчуйте если можете

On-device LLM весьма возможны, например на iPhone 14 можно запускать 7B модель со скоростью генерации 6 токенов/секунду, и конкретно с железом Apple это делать очень просто потому что один и тот же код может работать и на куче айфонов и на маках и на apple vision. Поэтому очень интересно наблюдать за тем что происходит в opensource и гадать о следующей WWDC.

Несколько предсказаний ~~которые будут неправильными и вы мне про это припомните~~:
1. LLM API от Apple на следующей WWDC
1. Одна централизованная небольшая (~7B) модель которая всегда бежит на вашем афоне и приложения могут к ней обращаться за генерациями
1. Большие модели бегут на серверах Apple и доступны аналогично OpenAI API
1. Скорее всего нет, но Apple было бы логично купить кого-нибудь типа Cohere, тк судя по слухам от The Information внутри у них так себе с большими языковыми моделями.

Apple Machine Learning Research

Deploying Transformers on the Apple Neural Engine

An increasing number of the machine learning (ML) models we build at Apple each year are either partly or fully adopting the Transformer…

👍20🔥7❤1

6.52K viewsVlad Lialin, 11:45

Simple and Controllable Music Generation
arxiv.org/abs/2306.05284
Код
Демо

Свежая статья Мета о генерации музыки.
Основная идея: просто языковая моделька, но с хитро построенными аудио токенами от аудиотокенизатора EnCodec.
Код и модель доступны!

🔥31👍4❤3👏1🤬1

6.65K viewsVlad Lialin, 12:46