DL in NLP – Telegram

DL in NLP

12.4K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

Download Telegram

About

Blog

Apps

Platform

12.4K subscribers

Тут Юра Кашницкий, которого вы можете знать по mlcourse.ai рассказал у себя в канале про работу в ~~корпорации зла~~ Elsevier. А конкретнее о том что в текущем мире где зачастую гранты обязывают вас публиковать в Open Access и Elsevier приходится переосмысливать себя и становиться добрее к людям. То, о чём рассказывает Юра — борьба с плагиатом и ~~мельницами~~ "paper mills". Другими словами, с журналами которые пишут вам на [@]edu-имеил со словами "мы super duper international machine learning journal (SDIML) и мы опубликуем вашу статью, просто заплатите нам за это денег".

Советую к чтению, меня Юра в личных разговорах почти убедил что вектор в нужном направлении есть и может быть со временем мы попадём в мир где реально все научные статьи будут доступны всем без пейволлов.

New Yorko Times

Про Elsevier и антифрод в науке
#science #career #research_integrity

Набрался смелости поговорить про Elsevier - компанию, в которой я работаю уже почти 3 года. Смелость тут нужна потому, что репутация у компании неоднозначная в академических кругах, многое…

👍14❤4🔥3🤔2

4.03K viewsVlad Lialin, 15:57

Forwarded from AbstractDL

Memorizing Transformers: как добавить в GPT долговременную память (by Google)

Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!

Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.

Статья

🔥54🤯13👍8❤2🍌2

3.2K viewsVlad Lialin, 17:24

^^^очередной пример того как простые методы "в лоб" работают лучше, чем все хитрые методы основанные на человеческих аналогиях или сложной математике

👍24❤3🔥1🤩1

4.84K viewsVlad Lialin, 17:25

🎉

🎉88👍12❤3🔥1

4.09K viewsVlad Lialin, 02:53

Занавес

❤3

4.05K viewsVlad Lialin, 04:39

Forwarded from Just links

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks https://arxiv.org/abs/2303.15056

😱30😁1💩1

3.86K viewsVlad Lialin, 04:39

Forwarded from еба́ные идеи для резерча

🥴32😁13🔥9⚡7👎4🥰2

3.49K viewsVlad Lialin, 18:15

Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning
arxiv.org/abs/2303.15647

Наша новая статья! Мы обозреваем методы parameter-efficient fine-tuning: от простых и популярных типа adapters или LoRa до более хитрых типа Compacter или KronA.

Продублирую сюда моё короткое описание статьи из твиттера.

PEFT methods can target several things: storage efficiency, multitask inference efficiency, and memory efficiency are among them. We are interested in the case of fine-tuning large models, so memory efficiency is a must.

I feel like everyone knows about Adapters, BitFit, and LoRa, but there are even better methods out there! In the last two years, low-rank methods took off.
Compacter and KronA use a more rank-efficient way to get large matrices. Kronecker product is the new matmul for PEFT.

We dive into the details of 20 different PEFT methods in the paper. Still, because we understand not everyone has the time to read the full 15 pages, we highlight a one-sentence description of each method and provide a pseudocode!

🔥40👍11❤3

13.1K viewsVlad Lialin, 18:29

Forwarded from Сиолошная

Умный ассистент Siri появился больше 10 лет назад, в 2011. Кажется, что многие тогда думали "ухххх через 10-то лет будет такой умной! Настоящий ИИ!"

Парень с твиттера прикрутил к Siri в Apple Watch вызовы GPT-4. Далее он сказал своим часам, мол, мне надо в репозиторий с моим проектом добавить вот такую кнопку, так и так, можешь помочь?". Дальше происходит магия, и на GitHub появляется пулл-реквест от GPT-шки, с написанным кодом.

Ухххх поскорее бы аналог Джарвиса из "Железного Человека"...

3-минутное видео с демонстрацией: https://fxtwitter.com/i/status/1641204093074145281

🤯42🔥7👍4❤1😢1

4.02K viewsVlad Lialin, 14:14

Forwarded from gonzo-обзоры ML статей

И ещё одно, что сложно не запостить (но сложно и прочитать ибо пейволл)

Гугл объединил все свои силы с DeepMind и делает проект Gemini чтобы догнать OpenAI с GPT-4. Jacob Devlin (помните BERT?) при этом ушёл в OpenAI. И также большой шум про то, что Bard обучался на результатах ChatGPT, что типа нельзя по ToS.

https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai

The Information

Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI

OpenAI’s success in overtaking Google with an artificial intelligence–powered chatbot has achieved what seemed impossible in the past: It has forced the two AI research teams within Google’s parent, Alphabet, to overcome years of intense rivalry to work together.…

👍4❤1😁1🤔1

4.84K viewsVlad Lialin, 14:31

Кажется у нас в этом году будет очень много драм. Запасаемся попкорном.

👍23🌭10💯4💔2🤪2❤1

5.6K viewsVlad Lialin, 14:32

Слухи о гиганской языковой модели от Google
twitter.com/o42nl/status/1642204593206509568

Гонка ~~вооружений~~ языковых моделей в самом разгаре и понятно что гугл один из первых кто в неё включился: у них очень сильная рисеч команда, свой уникальный hardware который уже проверен at scale - TPU Pod. Ну и ещё бизнес гугла реально может быть под угрозой - ChatGPT и бинг уже немного его подъели.

Суть слуха:
1. Тридцать триллионов параметров - в 170 раз больше GPT-3
1. Архитектура основана на PALM - FFN и Attention параллельны друг другу, что позволяет проще скейлиться на большое число TPU
1. Тренируется на восьми TPUv4 Pods - в сумме 16 тысяч TPU-чипов
1. Использует некую новую форму scaling law, что насекает на серьезные изменения в архитектуре - скорее всего MoE, но может быть и ещё что-то
1. Мультимодальность - текст, картинки, видео, аудио, и векторы состояния роботов

Модель будет анонсирована на Google I/O в Мае

И все это первоапрельская шутка на которую я попался 😂

🖕92😁43🤡32👍8😢4❤3🤮3

5.56K viewsVlad Lialin, edited 22:06

Исследование: восприятие искусства

Международная лаборатория экспериментальной и поведенческой экономики ВШЭ проводит исследования того, какие эмоции могут вызвать те или иные изображения. Подробнее о проекте тут.

Сейчас авторы работы приглашают добровольцев поучаствовать в этом исследовании, для чего создали специального бота.

Приложение запускается в telegram
по ссылке 📲 https://t.iss.one/galaimagebot
👉 @galaimagebot

🎯 онлайн формат, анонимность
⏰ 5-7 минут время прохождения
🎁 В качестве бонуса среди всех участников будет разыгран ценный приз
#промо

❤10👾2👍1

6.01K viewsVlad Lialin, 14:15

Одной строкой #14

Давно не было подборок новостей, пора это исправить

1. Новая версия bitsandbytes: поддержка 8-bit Lion, который в 8 раз дешевле Adam и сериализация сразу в 8bit, чтобы ваши модели занимали в 2 раза меньше storage
1. Пост Greg Brockman о том, что alignment становится всё важнее и что возможно стоит переходить от больших релизов новых моделей раз в 3 года к более итеративным релизам, например промежуточным чекпоинтам тренируемой модели
1. BigCode/santacoder — опенсорсная 1.1B модель натренированная на Python, Java, Javascript. Использует multiquery attention, который шарит K и V между головами, очень сильно сокращая потребрление памяти.
1. DeepSpeed Chat — RLHF оптимизированный с помощью PEFT и трюков DeepSpeed. Позволяет впихать невпихуемое — тренировать 7B на одной GPU.
1. Robots that learn from videos of human activities — последнее время от фейсбука статьи по роботам пошли прямо потоком. Вот зарелизили большой датасет и рассказали про модельку по task-oriented end2end robot control.
1. Teaching Large Language Models to Self-Debug — новая статья от гугла о том как научить языковые модельки итеративно улучшать и дебажить свой код. SOTA на Spider и TransCoder

Новости от подписчиков 🔥
1. Большая подборка новостей об LLM за прошлую неделю
1. PokiToki — опенсорсный интерфейс для ChatGPT в телеге. Поддерживает DM и группы, может сам ходить по ссылкам, есть генерация изображений через DALLE-2.

❤20🔥11

5.07K viewsVlad Lialin, 19:18

отныне 1.3B-модели — это small/toy

а в 2020 я даже не знал как такую дичь (GPT2) запустить на паре GPU

😱46😁30👍1👏1

4.59K viewsVlad Lialin, 19:34

ML-разработчики, хотите создать что-то действительно уникальное? Присоединяйтесь к IT-команде Сбера и приступайте к работе над русской версией ChatGPT 🖥

Чем предстоит заниматься?

• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.

Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚

#промо

💩69👎38👍27🤮9😁4🎃2🔥1🤔1😐1

5.07K viewsVlad Lialin, 11:59

🤗 Transformers 4.28
github.com/huggingface/transformers/releases/tag/v4.28.0

Новый минорный апдейт твоей любимой библиотеки с парой важных улучшений.

1. LLaMa! Веса конечно официально нельзя, но код теперь в библиотеке (да и веса на хабе если постараться можно найти)
1. Больше мультимодальности: Pix2Struct, MatCha, DePlot
1. GPTBigCode - трансформер с multi-query attention вместо обычного multi-head attention. Нужен для SantaCoder от BigCode
1. NLLB-MoE - mixture of experts из статьи no language left behind
1. 8-bit serialization

Release v4.28.0: LLaMa, Pix2Struct, MatCha, DePlot, MEGA, NLLB-MoE, GPTBigCode · huggingface/transformers

LLaMA
The LLaMA model was proposed in LLaMA: Open and Efficient Foundation Language Models. It is a collection of foundation language models ranging from 7B to 65B parameters. You can request acces...

👍14❤9🔥6🤗1

4.96K viewsVlad Lialin, edited 16:11

Кстати заметили как все компании которые начинали с "ClosedAI ужасные и не релизят веса, мы будем другими и по-настоящему открытыми" постепенно перестают выкатывать тренировочный код, потом и веса, а потом и статьи описывающие их новые модели? Тем самым полностью повторяя путь GPT2 -> GPT3 -> GPT4

Это был пинок в сторону Stability.ai и Stable Diffusion XL если что

UPD: всё-таки обещают в будущем выложить, будем смотреть

Stable Diffusion XL Beta Available for API Customers and DreamStudio Users — Stability AI

SDXL is the latest addition to the Stable Diffusion suite of models offered through Stability’s APIs catered to enterprise developers. SDXL produces more detailed imagery and composition than its predecessor Stable Diffusion 2.1 and represents an important…

😢36👍8❤1

5.5K viewsVlad Lialin, edited 16:37