DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Neeva.com — платный поисковик без рекламы c фокусом на приватность — закрывается 😥
neeva.com/blog/may-announcement

Neeva появилась несколько лет назад, ещё до you.com и задолго до нового AI-поколения поисковиков. Я пользовался ими около полугода и был готов платить, но не был удовлетворён качеством поиска.

После начала ChatGPT-хайпа они были одними из первых кто внедрил LLM в поиск, после чего они заслуженно тролили гугл. Однако на фоне текущей рецессии neeva.com решил закрыться over the next few weeks.

Причины объясняют следующим образом:
We’ve discovered that it is one thing to build a search engine, and an entirely different thing to convince regular users of the need to switch to a better choice. ... Contrary to popular belief, convincing users to pay for a better experience was actually a less difficult problem compared to getting them to try a new search engine in the first place.

Все кто оплатили подписку получат рефанд, все пользовательские данные будут удалены.

Но в этой новости есть и немного позитива. Команда не распущена, она будет сконцентрирована на новых (неанонсированных) продуктах и направлениях развития на основе поиска + LLM + эффективного инференса.

RIP

P.S. Я после neeva год назад перешел на you.com и очень им доволен. Сейчас ещё активно посматриваю на perplexity.ai
😭22👍4😁21🤔1
Intel 64-bit only architecture
intel.com/content/www/us/en/developer/articles/technical/envisioning-future-simplified-architecture.html

Кажется гигант задергался и после откровенно неудачных последних поколений процессоров, ухода Apple на свои ARM процессоры и слухов что другие сделают так же они решили убрать 40-летнее легаси из X86.

Новая архитектура называется X86S (Simplified) и в ней отказываются от поддержки 16-битных процессоров, промежуточных уровней доступа (ring1 и ring2), которые не используются современным hardware от слова совсем, 8259-прерывания и some unused operating system mode bits.

Честно я мало чего ожидаю от интела и мне кажется их эпоха уже на закате и через 10 лет мы про них даже не будем вспоминать. На данный момент например я пользуюсь их процессорами только в серверах, да и то там давит AMD. Но будем надеяться что та встряска которая идет последние несколько лет позволит гиганту опомниться и начинать делать что-то интересное.
👍11🫡61
LIMA: Less Is More for Alignment
arxiv.org/abs/2305.11206

Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.

Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.

Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.
👀134
Восстание AI начинается (или нет?)
😁82👍65🖕1
🤔30🥱4😁1🥴1
Просто 7b модель которую вы можете запустить локально на айфоне со скоростью 6 токенов/секунду. Ничего особенно, проходим дальше.

https://github.com/mlc-ai/mlc-llm/blob/main/ios/README.md
🤯46👍53
Forwarded from эйай ньюз
Наконец-то нормальный доклад про тренировку ChatGPT. Карпатый сделал вчера презу в Microsoft и хорошо раскидал.

От токенизации, до претрейна, supervised файнтюнинга и RLHF. И все это за 40 минут.

Доклад

@ai_newz
🔥488👍6
Current Best Practices for Training LLMs from Scratch

Забавный документ от Wandb в котором описывают важные вещи для тренировки LLM:
1. Scaling laws, compute-optimal training
1. Data Parallelism, Tensor Parallelism, Pipeline parallelism
1. Data clearning, deduplication, and upsampling
1. Hyperparameters (high-level)
1. Evaluation
1. Instruction tuning, RLHF

Гайд оч классный, местами немного устаревший, например не обсуждает zero-redundancy opitmizers (DeepSpeed) или Chinchilla trap — если вам надо деплоить, модели выгодно тренировать на большем числе токенов чем оптимально. В общем даёт неплохой high-level overview.
10👍5
🤔1
Forwarded from Сиолошная
Подъехал свежий видео-мем про очередную ML-конференцию. Ссылка: https://fxtwitter.com/postrat_dril/status/1663177876605206528
Имхо в этот раз не так смешно, но с выпуска прошлого года я умирал со смеху (ознакомиться можно тут).
Пишите, сколько мемов и отсылок поняли!


Спасибо автору @j_links за наводку.
🔥4🥴2💋2
А теперь коротко о последних двух днях
😁21🔥3
Forwarded from DeepSchool
Как LLMs могут принимать сразу 100К токенов на вход?

Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.

В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google.

В статье описаны:
- подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения
- хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch
- нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный
- Multi-Query Attention, Sparse Attention и Условные вычисления

Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium:
https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

Задавайте вопросы Гале в комментариях к этому посту 👇
👍28🔥1242🤯1
Rack-mount MacPro и M2 Ultra с 198Gb unified RAM...

Кажется кто-то вспомнил что они умеют делать железо и Mac Server is back. Вангую на то что Apple уже эспериментирует с датацентрами на M2 Ultra вместо NVIDIA. Про примерение M2 Ultra к тренировке LLM сказали прямо на конференции. Интересно как они будут впихивать несколько M2 в один сервер и коммуникацию между серверами.

Unified RAM == GPU, CPU и Neural Engine используют одну и ту же память
👍33🤡10🔥7🥴21
The Falcon has landed in the Hugging Face ecosystem
huggingface.co/blog/falcon

Хороший блогпост от 🤗 в который рассказывает про Falcon-40B — полностью опенсорсную модель (теперь веса тоже распространяются под Apache 2.0) от, внезапно, Technology Innovation Institute in Abu Dhabi.

Что классно, в посте не только говорят про то что модель есть, сколько её тренировали и какие метрики, но и рассказывает про:

1. Multi-Query Attention — разные головы используют одни и те же K и V, что сильно сокращает потребление памяти на длинных последовательностях (см картинку)
1. 8-bit и 4-bit inference — поддержка 4-bit уже есть в Transformers на main branch на гитхабе и наверное скоро зарелизится
1. 🤗 Text Generation Inference — готовый и обернутый в Docker сервер для инференса больших моделей
1. Файнтюнинг через PEFT и конкретно через QLoRA

Очень рекомедую почитать и поиграться всем кому интересна работа с большими моделями. Тут прямо всё самое свежее.
46🔥7👍6❤‍🔥32👌1
LLM.university

Хороший бесплатный миникурс от Cohere о том как работают word embeddings, attention, трансформеры, генерация текста и как всё это применять для реальных задач.

В курсе также обсуждают промптинг, prompt chaining и дают несколько аннотированных примеров того как все это применять к задачам вроде document QA, semantic search (w Langchain) и так далее.

Местами high-level, но множество хороших иллюстраций. Рекомендую показывать это вашим студентам / джунам (если их ещё не заменил GPT4)
👍411👏1
Deploying Transformers on the Apple Neural Engine
https://machinelearning.apple.com/research/neural-engine-transformers

Под шумок WWDC вышел отличный пост о том как гонять трансформеры на ANE (Apple Neural Engine) который есть во всех современных iOS и MacOS девайсах. На секундочку ANE в iPhone 14 Pro может в 17 fp16-TFlops, что близко к RTX 3070 (20 TFlops). Неплохо для телефона.

Очень короткое содержание статьи:
1. Picking the Right Data Format — use (B, C, 1, S) tensors
1. Chunking Large Intermediate Tensors — считайте головы attention последовательно а не параллельно, что увеличит вероятность L2 cache residency
1. Minimizing Memory Copies — избегайте reshape и transpose
1. Handling Bandwidth-Boundness — батчуйте если можете

On-device LLM весьма возможны, например на iPhone 14 можно запускать 7B модель со скоростью генерации 6 токенов/секунду, и конкретно с железом Apple это делать очень просто потому что один и тот же код может работать и на куче айфонов и на маках и на apple vision. Поэтому очень интересно наблюдать за тем что происходит в opensource и гадать о следующей WWDC.

Несколько предсказаний которые будут неправильными и вы мне про это припомните:
1. LLM API от Apple на следующей WWDC
1. Одна централизованная небольшая (~7B) модель которая всегда бежит на вашем афоне и приложения могут к ней обращаться за генерациями
1. Большие модели бегут на серверах Apple и доступны аналогично OpenAI API
1. Скорее всего нет, но Apple было бы логично купить кого-нибудь типа Cohere, тк судя по слухам от The Information внутри у них так себе с большими языковыми моделями.
👍20🔥71
Simple and Controllable Music Generation
arxiv.org/abs/2306.05284
Код
Демо

Свежая статья Мета о генерации музыки.
Основная идея: просто языковая моделька, но с хитро построенными аудио токенами от аудиотокенизатора EnCodec.
Код и модель доступны!
🔥31👍43👏1🤬1