DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
Download Telegram
Тут Юра Кашницкий, которого вы можете знать по mlcourse.ai рассказал у себя в канале про работу в корпорации зла Elsevier. А конкретнее о том что в текущем мире где зачастую гранты обязывают вас публиковать в Open Access и Elsevier приходится переосмысливать себя и становиться добрее к людям. То, о чём рассказывает Юра — борьба с плагиатом и мельницами "paper mills". Другими словами, с журналами которые пишут вам на [@]edu-имеил со словами "мы super duper international machine learning journal (SDIML) и мы опубликуем вашу статью, просто заплатите нам за это денег".

Советую к чтению, меня Юра в личных разговорах почти убедил что вектор в нужном направлении есть и может быть со временем мы попадём в мир где реально все научные статьи будут доступны всем без пейволлов.
👍144🔥3🤔2
Forwarded from AbstractDL
Memorizing Transformers: как добавить в GPT долговременную память (by Google)

Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!

Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.

Статья
🔥54🤯13👍82🍌2
^^^очередной пример того как простые методы "в лоб" работают лучше, чем все хитрые методы основанные на человеческих аналогиях или сложной математике
👍243🔥1🤩1
🎉
🎉88👍123🔥1
Занавес
3
Forwarded from Just links
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks https://arxiv.org/abs/2303.15056
😱30😁1💩1
🥴32😁13🔥97👎4🥰2
Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning
arxiv.org/abs/2303.15647

Наша новая статья! Мы обозреваем методы parameter-efficient fine-tuning: от простых и популярных типа adapters или LoRa до более хитрых типа Compacter или KronA.

Продублирую сюда моё короткое описание статьи из твиттера.

PEFT methods can target several things: storage efficiency, multitask inference efficiency, and memory efficiency are among them. We are interested in the case of fine-tuning large models, so memory efficiency is a must.

I feel like everyone knows about Adapters, BitFit, and LoRa, but there are even better methods out there! In the last two years, low-rank methods took off.
Compacter and KronA use a more rank-efficient way to get large matrices. Kronecker product is the new matmul for PEFT.

We dive into the details of 20 different PEFT methods in the paper. Still, because we understand not everyone has the time to read the full 15 pages, we highlight a one-sentence description of each method and provide a pseudocode!
🔥40👍113
Forwarded from Сиолошная
Умный ассистент Siri появился больше 10 лет назад, в 2011. Кажется, что многие тогда думали "ухххх через 10-то лет будет такой умной! Настоящий ИИ!"

Парень с твиттера прикрутил к Siri в Apple Watch вызовы GPT-4. Далее он сказал своим часам, мол, мне надо в репозиторий с моим проектом добавить вот такую кнопку, так и так, можешь помочь?". Дальше происходит магия, и на GitHub появляется пулл-реквест от GPT-шки, с написанным кодом.

Ухххх поскорее бы аналог Джарвиса из "Железного Человека"...

3-минутное видео с демонстрацией: https://fxtwitter.com/i/status/1641204093074145281
🤯42🔥7👍41😢1
И ещё одно, что сложно не запостить (но сложно и прочитать ибо пейволл)

Гугл объединил все свои силы с DeepMind и делает проект Gemini чтобы догнать OpenAI с GPT-4. Jacob Devlin (помните BERT?) при этом ушёл в OpenAI. И также большой шум про то, что Bard обучался на результатах ChatGPT, что типа нельзя по ToS.

https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai
👍41😁1🤔1
Кажется у нас в этом году будет очень много драм. Запасаемся попкорном.
👍23🌭10💯4💔2🤪21
Слухи о гиганской языковой модели от Google
twitter.com/o42nl/status/1642204593206509568

Гонка вооружений языковых моделей в самом разгаре и понятно что гугл один из первых кто в неё включился: у них очень сильная рисеч команда, свой уникальный hardware который уже проверен at scale - TPU Pod. Ну и ещё бизнес гугла реально может быть под угрозой - ChatGPT и бинг уже немного его подъели.

Суть слуха:
1. Тридцать триллионов параметров - в 170 раз больше GPT-3
1. Архитектура основана на PALM - FFN и Attention параллельны друг другу, что позволяет проще скейлиться на большое число TPU
1. Тренируется на восьми TPUv4 Pods - в сумме 16 тысяч TPU-чипов
1. Использует некую новую форму scaling law, что насекает на серьезные изменения в архитектуре - скорее всего MoE, но может быть и ещё что-то
1. Мультимодальность - текст, картинки, видео, аудио, и векторы состояния роботов

Модель будет анонсирована на Google I/O в Мае

И все это первоапрельская шутка на которую я попался 😂
🖕92😁43🤡32👍8😢43🤮3
Исследование: восприятие искусства

Международная лаборатория экспериментальной и поведенческой экономики ВШЭ проводит исследования того, какие эмоции могут вызвать те или иные изображения. Подробнее о проекте тут.

Сейчас авторы работы приглашают добровольцев поучаствовать в этом исследовании, для чего создали специального бота.

Приложение запускается в telegram
по ссылке 📲 https://t.iss.one/galaimagebot
👉 @galaimagebot

🎯 онлайн формат, анонимность
5-7 минут время прохождения
🎁 В качестве бонуса среди всех участников будет разыгран ценный приз
#промо
10👾2👍1
Одной строкой #14

Давно не было подборок новостей, пора это исправить

1. Новая версия bitsandbytes: поддержка 8-bit Lion, который в 8 раз дешевле Adam и сериализация сразу в 8bit, чтобы ваши модели занимали в 2 раза меньше storage
1. Пост Greg Brockman о том, что alignment становится всё важнее и что возможно стоит переходить от больших релизов новых моделей раз в 3 года к более итеративным релизам, например промежуточным чекпоинтам тренируемой модели
1. BigCode/santacoderопенсорсная 1.1B модель натренированная на Python, Java, Javascript. Использует multiquery attention, который шарит K и V между головами, очень сильно сокращая потребрление памяти.
1. DeepSpeed Chat — RLHF оптимизированный с помощью PEFT и трюков DeepSpeed. Позволяет впихать невпихуемое — тренировать 7B на одной GPU.
1. Robots that learn from videos of human activities — последнее время от фейсбука статьи по роботам пошли прямо потоком. Вот зарелизили большой датасет и рассказали про модельку по task-oriented end2end robot control.
1. Teaching Large Language Models to Self-Debug — новая статья от гугла о том как научить языковые модельки итеративно улучшать и дебажить свой код. SOTA на Spider и TransCoder

Новости от подписчиков 🔥
1. Большая подборка новостей об LLM за прошлую неделю
1. PokiToki — опенсорсный интерфейс для ChatGPT в телеге. Поддерживает DM и группы, может сам ходить по ссылкам, есть генерация изображений через DALLE-2.
20🔥11
отныне 1.3B-модели — это small/toy

а в 2020 я даже не знал как такую дичь (GPT2) запустить на паре GPU
😱46😁30👍1👏1
ML-разработчики, хотите создать что-то действительно уникальное? Присоединяйтесь к IT-команде Сбера и приступайте к работе над русской версией ChatGPT 🖥

Чем предстоит заниматься?

• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.

Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚

#промо
💩69👎38👍27🤮9😁4🎃2🔥1🤔1😐1
🤗 Transformers 4.28
github.com/huggingface/transformers/releases/tag/v4.28.0

Новый минорный апдейт твоей любимой библиотеки с парой важных улучшений.

1. LLaMa! Веса конечно официально нельзя, но код теперь в библиотеке (да и веса на хабе если постараться можно найти)
1. Больше мультимодальности: Pix2Struct, MatCha, DePlot
1. GPTBigCode - трансформер с multi-query attention вместо обычного multi-head attention. Нужен для SantaCoder от BigCode
1. NLLB-MoE - mixture of experts из статьи no language left behind
1. 8-bit serialization
👍149🔥6🤗1
Кстати заметили как все компании которые начинали с "ClosedAI ужасные и не релизят веса, мы будем другими и по-настоящему открытыми" постепенно перестают выкатывать тренировочный код, потом и веса, а потом и статьи описывающие их новые модели? Тем самым полностью повторяя путь GPT2 -> GPT3 -> GPT4

Это был пинок в сторону Stability.ai и Stable Diffusion XL если что

UPD: всё-таки обещают в будущем выложить, будем смотреть
😢36👍81