Тут Юра Кашницкий, которого вы можете знать по mlcourse.ai рассказал у себя в канале про работу в корпорации зла Elsevier. А конкретнее о том что в текущем мире где зачастую гранты обязывают вас публиковать в Open Access и Elsevier приходится переосмысливать себя и становиться добрее к людям. То, о чём рассказывает Юра — борьба с плагиатом и мельницами "paper mills". Другими словами, с журналами которые пишут вам на [@]edu-имеил со словами "мы super duper international machine learning journal (SDIML) и мы опубликуем вашу статью, просто заплатите нам за это денег".
Советую к чтению, меня Юра в личных разговорах почти убедил что вектор в нужном направлении есть и может быть со временем мы попадём в мир где реально все научные статьи будут доступны всем без пейволлов.
Советую к чтению, меня Юра в личных разговорах почти убедил что вектор в нужном направлении есть и может быть со временем мы попадём в мир где реально все научные статьи будут доступны всем без пейволлов.
Telegram
New Yorko Times
Про Elsevier и антифрод в науке
#science #career #research_integrity
Набрался смелости поговорить про Elsevier - компанию, в которой я работаю уже почти 3 года. Смелость тут нужна потому, что репутация у компании неоднозначная в академических кругах, многое…
#science #career #research_integrity
Набрался смелости поговорить про Elsevier - компанию, в которой я работаю уже почти 3 года. Смелость тут нужна потому, что репутация у компании неоднозначная в академических кругах, многое…
👍14❤4🔥3🤔2
Forwarded from AbstractDL
Memorizing Transformers: как добавить в GPT долговременную память (by Google)
Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!
Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.
Статья
Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!
Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.
Статья
🔥54🤯13👍8❤2🍌2
^^^очередной пример того как простые методы "в лоб" работают лучше, чем все хитрые методы основанные на человеческих аналогиях или сложной математике
👍24❤3🔥1🤩1
Forwarded from Just links
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks https://arxiv.org/abs/2303.15056
😱30😁1💩1
Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning
arxiv.org/abs/2303.15647
Наша новая статья! Мы обозреваем методы parameter-efficient fine-tuning: от простых и популярных типа adapters или LoRa до более хитрых типа Compacter или KronA.
Продублирую сюда моё короткое описание статьи из твиттера.
PEFT methods can target several things: storage efficiency, multitask inference efficiency, and memory efficiency are among them. We are interested in the case of fine-tuning large models, so memory efficiency is a must.
I feel like everyone knows about Adapters, BitFit, and LoRa, but there are even better methods out there! In the last two years, low-rank methods took off.
Compacter and KronA use a more rank-efficient way to get large matrices. Kronecker product is the new matmul for PEFT.
We dive into the details of 20 different PEFT methods in the paper. Still, because we understand not everyone has the time to read the full 15 pages, we highlight a one-sentence description of each method and provide a pseudocode!
arxiv.org/abs/2303.15647
Наша новая статья! Мы обозреваем методы parameter-efficient fine-tuning: от простых и популярных типа adapters или LoRa до более хитрых типа Compacter или KronA.
Продублирую сюда моё короткое описание статьи из твиттера.
PEFT methods can target several things: storage efficiency, multitask inference efficiency, and memory efficiency are among them. We are interested in the case of fine-tuning large models, so memory efficiency is a must.
I feel like everyone knows about Adapters, BitFit, and LoRa, but there are even better methods out there! In the last two years, low-rank methods took off.
Compacter and KronA use a more rank-efficient way to get large matrices. Kronecker product is the new matmul for PEFT.
We dive into the details of 20 different PEFT methods in the paper. Still, because we understand not everyone has the time to read the full 15 pages, we highlight a one-sentence description of each method and provide a pseudocode!
🔥40👍11❤3
Forwarded from Сиолошная
Умный ассистент Siri появился больше 10 лет назад, в 2011. Кажется, что многие тогда думали "ухххх через 10-то лет будет такой умной! Настоящий ИИ!"
Парень с твиттера прикрутил к Siri в Apple Watch вызовы GPT-4. Далее он сказал своим часам, мол, мне надо в репозиторий с моим проектом добавить вот такую кнопку, так и так, можешь помочь?". Дальше происходит магия, и на GitHub появляется пулл-реквест от GPT-шки, с написанным кодом.
Ухххх поскорее бы аналог Джарвиса из "Железного Человека"...
3-минутное видео с демонстрацией: https://fxtwitter.com/i/status/1641204093074145281
Парень с твиттера прикрутил к Siri в Apple Watch вызовы GPT-4. Далее он сказал своим часам, мол, мне надо в репозиторий с моим проектом добавить вот такую кнопку, так и так, можешь помочь?". Дальше происходит магия, и на GitHub появляется пулл-реквест от GPT-шки, с написанным кодом.
Ухххх поскорее бы аналог Джарвиса из "Железного Человека"...
3-минутное видео с демонстрацией: https://fxtwitter.com/i/status/1641204093074145281
🤯42🔥7👍4❤1😢1
Forwarded from gonzo-обзоры ML статей
И ещё одно, что сложно не запостить (но сложно и прочитать ибо пейволл)
Гугл объединил все свои силы с DeepMind и делает проект Gemini чтобы догнать OpenAI с GPT-4. Jacob Devlin (помните BERT?) при этом ушёл в OpenAI. И также большой шум про то, что Bard обучался на результатах ChatGPT, что типа нельзя по ToS.
https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai
Гугл объединил все свои силы с DeepMind и делает проект Gemini чтобы догнать OpenAI с GPT-4. Jacob Devlin (помните BERT?) при этом ушёл в OpenAI. И также большой шум про то, что Bard обучался на результатах ChatGPT, что типа нельзя по ToS.
https://www.theinformation.com/articles/alphabets-google-and-deepmind-pause-grudges-join-forces-to-chase-openai
The Information
Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI
OpenAI’s success in overtaking Google with an artificial intelligence–powered chatbot has achieved what seemed impossible in the past: It has forced the two AI research teams within Google’s parent, Alphabet, to overcome years of intense rivalry to work together.…
👍4❤1😁1🤔1
Кажется у нас в этом году будет очень много драм. Запасаемся попкорном.
👍23🌭10💯4💔2🤪2❤1
Слухи о гиганской языковой модели от Google
twitter.com/o42nl/status/1642204593206509568
Гонкавооружений языковых моделей в самом разгаре и понятно что гугл один из первых кто в неё включился: у них очень сильная рисеч команда, свой уникальный hardware который уже проверен at scale - TPU Pod. Ну и ещё бизнес гугла реально может быть под угрозой - ChatGPT и бинг уже немного его подъели.
Суть слуха:
1. Тридцать триллионов параметров - в 170 раз больше GPT-3
1. Архитектура основана на PALM - FFN и Attention параллельны друг другу, что позволяет проще скейлиться на большое число TPU
1. Тренируется на восьми TPUv4 Pods - в сумме 16 тысяч TPU-чипов
1. Использует некую новую форму scaling law, что насекает на серьезные изменения в архитектуре - скорее всего MoE, но может быть и ещё что-то
1. Мультимодальность - текст, картинки, видео, аудио, и векторы состояния роботов
Модель будет анонсирована на Google I/O в Мае
И все это первоапрельская шутка на которую я попался 😂
twitter.com/o42nl/status/1642204593206509568
Гонка
Суть слуха:
1. Тридцать триллионов параметров - в 170 раз больше GPT-3
1. Архитектура основана на PALM - FFN и Attention параллельны друг другу, что позволяет проще скейлиться на большое число TPU
1. Тренируется на восьми TPUv4 Pods - в сумме 16 тысяч TPU-чипов
1. Использует некую новую форму scaling law, что насекает на серьезные изменения в архитектуре - скорее всего MoE, но может быть и ещё что-то
1. Мультимодальность - текст, картинки, видео, аудио, и векторы состояния роботов
Модель будет анонсирована на Google I/O в Мае
🖕92😁43🤡32👍8😢4❤3🤮3
Исследование: восприятие искусства
Международная лаборатория экспериментальной и поведенческой экономики ВШЭ проводит исследования того, какие эмоции могут вызвать те или иные изображения. Подробнее о проекте тут.
Сейчас авторы работы приглашают добровольцев поучаствовать в этом исследовании, для чего создали специального бота.
Приложение запускается в telegram
по ссылке 📲 https://t.iss.one/galaimagebot
👉 @galaimagebot
🎯 онлайн формат, анонимность
⏰ 5-7 минут время прохождения
🎁 В качестве бонуса среди всех участников будет разыгран ценный приз
#промо
Международная лаборатория экспериментальной и поведенческой экономики ВШЭ проводит исследования того, какие эмоции могут вызвать те или иные изображения. Подробнее о проекте тут.
Сейчас авторы работы приглашают добровольцев поучаствовать в этом исследовании, для чего создали специального бота.
Приложение запускается в telegram
по ссылке 📲 https://t.iss.one/galaimagebot
👉 @galaimagebot
🎯 онлайн формат, анонимность
⏰ 5-7 минут время прохождения
🎁 В качестве бонуса среди всех участников будет разыгран ценный приз
#промо
❤10👾2👍1
Одной строкой #14
Давно не было подборок новостей, пора это исправить
1. Новая версия bitsandbytes: поддержка 8-bit Lion, который в 8 раз дешевле Adam и сериализация сразу в 8bit, чтобы ваши модели занимали в 2 раза меньше storage
1. Пост Greg Brockman о том, что alignment становится всё важнее и что возможно стоит переходить от больших релизов новых моделей раз в 3 года к более итеративным релизам, например промежуточным чекпоинтам тренируемой модели
1. BigCode/santacoder — опенсорсная 1.1B модель натренированная на Python, Java, Javascript. Использует multiquery attention, который шарит K и V между головами, очень сильно сокращая потребрление памяти.
1. DeepSpeed Chat — RLHF оптимизированный с помощью PEFT и трюков DeepSpeed. Позволяет впихать невпихуемое — тренировать 7B на одной GPU.
1. Robots that learn from videos of human activities — последнее время от фейсбука статьи по роботам пошли прямо потоком. Вот зарелизили большой датасет и рассказали про модельку по task-oriented end2end robot control.
1. Teaching Large Language Models to Self-Debug — новая статья от гугла о том как научить языковые модельки итеративно улучшать и дебажить свой код. SOTA на Spider и TransCoder
Новости от подписчиков 🔥
1. Большая подборка новостей об LLM за прошлую неделю
1. PokiToki — опенсорсный интерфейс для ChatGPT в телеге. Поддерживает DM и группы, может сам ходить по ссылкам, есть генерация изображений через DALLE-2.
Давно не было подборок новостей, пора это исправить
1. Новая версия bitsandbytes: поддержка 8-bit Lion, который в 8 раз дешевле Adam и сериализация сразу в 8bit, чтобы ваши модели занимали в 2 раза меньше storage
1. Пост Greg Brockman о том, что alignment становится всё важнее и что возможно стоит переходить от больших релизов новых моделей раз в 3 года к более итеративным релизам, например промежуточным чекпоинтам тренируемой модели
1. BigCode/santacoder — опенсорсная 1.1B модель натренированная на Python, Java, Javascript. Использует multiquery attention, который шарит K и V между головами, очень сильно сокращая потребрление памяти.
1. DeepSpeed Chat — RLHF оптимизированный с помощью PEFT и трюков DeepSpeed. Позволяет впихать невпихуемое — тренировать 7B на одной GPU.
1. Robots that learn from videos of human activities — последнее время от фейсбука статьи по роботам пошли прямо потоком. Вот зарелизили большой датасет и рассказали про модельку по task-oriented end2end robot control.
1. Teaching Large Language Models to Self-Debug — новая статья от гугла о том как научить языковые модельки итеративно улучшать и дебажить свой код. SOTA на Spider и TransCoder
Новости от подписчиков 🔥
1. Большая подборка новостей об LLM за прошлую неделю
1. PokiToki — опенсорсный интерфейс для ChatGPT в телеге. Поддерживает DM и группы, может сам ходить по ссылкам, есть генерация изображений через DALLE-2.
❤20🔥11
ML-разработчики, хотите создать что-то действительно уникальное? Присоединяйтесь к IT-команде Сбера и приступайте к работе над русской версией ChatGPT 🖥
Чем предстоит заниматься?
• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.
Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚
#промо
Чем предстоит заниматься?
• Довести качество русской версии до ChatGPT и даже обогнать его
• Придумывать и реализовывать новые варианты применения LLM
• Находить решения бизнес-задач с помощью технологии Сбера.
Если у вас есть опыт обучения моделей, знание математики, алгоритмов, а еще вы не боитесь экспериментировать — переходите по ссылке, смотрите все условия и откликайтесь на вакансию 💚
#промо
💩69👎38👍27🤮9😁4🎃2🔥1🤔1😐1
🤗 Transformers 4.28
github.com/huggingface/transformers/releases/tag/v4.28.0
Новый минорный апдейт твоей любимой библиотеки с парой важных улучшений.
1. LLaMa! Веса конечно официально нельзя, но код теперь в библиотеке (да и веса на хабе если постараться можно найти)
1. Больше мультимодальности: Pix2Struct, MatCha, DePlot
1. GPTBigCode - трансформер с multi-query attention вместо обычного multi-head attention. Нужен для SantaCoder от BigCode
1. NLLB-MoE - mixture of experts из статьи no language left behind
1. 8-bit serialization
github.com/huggingface/transformers/releases/tag/v4.28.0
Новый минорный апдейт твоей любимой библиотеки с парой важных улучшений.
1. LLaMa! Веса конечно официально нельзя, но код теперь в библиотеке (да и веса на хабе если постараться можно найти)
1. Больше мультимодальности: Pix2Struct, MatCha, DePlot
1. GPTBigCode - трансформер с multi-query attention вместо обычного multi-head attention. Нужен для SantaCoder от BigCode
1. NLLB-MoE - mixture of experts из статьи no language left behind
1. 8-bit serialization
GitHub
Release v4.28.0: LLaMa, Pix2Struct, MatCha, DePlot, MEGA, NLLB-MoE, GPTBigCode · huggingface/transformers
LLaMA
The LLaMA model was proposed in LLaMA: Open and Efficient Foundation Language Models. It is a collection of foundation language models ranging from 7B to 65B parameters. You can request acces...
The LLaMA model was proposed in LLaMA: Open and Efficient Foundation Language Models. It is a collection of foundation language models ranging from 7B to 65B parameters. You can request acces...
👍14❤9🔥6🤗1
Кстати заметили как все компании которые начинали с "ClosedAI ужасные и не релизят веса, мы будем другими и по-настоящему открытыми" постепенно перестают выкатывать тренировочный код, потом и веса, а потом и статьи описывающие их новые модели? Тем самым полностью повторяя путь GPT2 -> GPT3 -> GPT4
Это был пинок в сторону Stability.ai и Stable Diffusion XL если что
UPD: всё-таки обещают в будущем выложить, будем смотреть
Это был пинок в сторону Stability.ai и Stable Diffusion XL если что
UPD: всё-таки обещают в будущем выложить, будем смотреть
Stability AI
Stable Diffusion XL Beta Available for API Customers and DreamStudio Users — Stability AI
SDXL is the latest addition to the Stable Diffusion suite of models offered through Stability’s APIs catered to enterprise developers. SDXL produces more detailed imagery and composition than its predecessor Stable Diffusion 2.1 and represents an important…
😢36👍8❤1