Forwarded from partially unsupervised
Finding why Pytorch Lightning made my training 4x slower - отличный пост про поиск замысловатого бага в ML инфраструктуре. Пример инженерного здравого смысла: хорошо использовать готовые инструменты, но не боги горшки обжигают - не стоит бояться залезть под капот и что-то пофиксить.
Medium
Finding why Pytorch Lightning made my training 4x slower.
🤔 What happened?
Forwarded from исследовано (Katya Artemova)
Всем привет!
Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.
Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html
Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.
Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html
cs.hse.ru
Семинар НУЛ ММВП "Четыре соревнования Dialogue Evaluation"
Со мной связались разработчики интересной opensource тулзы для журналистов. Приятно видеть как на рынке появляется больше открытых рускоязычных NLP продуктов. Репозиторий пока что сыроват, но будет интересно как он будет развиваться. Вот что они про себя говорят:
Открытый набор инструментов «СоАвтор»
Работа с текстами сегодня сложна из-за нехватки структурированного контента и рабочих моделей. Для того, чтобы сделать ее более комфортной, компания ISGNeuro запустила опенсорс-проект "СоАвтор".
Платформа "СоАвтор" имеет модульную структуру. Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке.
Первый инструмент «СоАвтора» формирует бэкграунд (предысторию события или справочную информацию по теме). Задача состоит в том, чтобы журналист или копирайтер получал максимально релевантное короткое саммари из собранных новостных статей по заданной теме.
Как это работает? Система анализирует ключевые слова и NER, а обученная модель находит самые релевантные тексты и формирует бэкграунд с помощью алгоритмов суммаризации.
Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке, при этом получить поддержку сообщества WellnessDataClub и возможности ОТ.Платформы, которые использует проект. Подробности доступны на странице GitHub
Открытый набор инструментов «СоАвтор»
Работа с текстами сегодня сложна из-за нехватки структурированного контента и рабочих моделей. Для того, чтобы сделать ее более комфортной, компания ISGNeuro запустила опенсорс-проект "СоАвтор".
Платформа "СоАвтор" имеет модульную структуру. Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке.
Первый инструмент «СоАвтора» формирует бэкграунд (предысторию события или справочную информацию по теме). Задача состоит в том, чтобы журналист или копирайтер получал максимально релевантное короткое саммари из собранных новостных статей по заданной теме.
Как это работает? Система анализирует ключевые слова и NER, а обученная модель находит самые релевантные тексты и формирует бэкграунд с помощью алгоритмов суммаризации.
Вы можете придумать новый инструмент, который упрощает работу с текстом, или принять участие в работе над теми, что уже есть в разработке, при этом получить поддержку сообщества WellnessDataClub и возможности ОТ.Платформы, которые использует проект. Подробности доступны на странице GitHub
GitHub
GitHub - ISGNeuroTeam/CoAuthor: NLP project that works with news (NER, context generation, news trend analytics)
NLP project that works with news (NER, context generation, news trend analytics) - ISGNeuroTeam/CoAuthor
Improving language models by retrieving from trillions of tokens
Borgeaud, Mensch, Hoffmann et al. [DeepMind]
arxiv.org/abs/2112.04426
RETRO от DeepMind это интересная смесь KNN и нейросетевых языковых моделей. Принципиально, я бы описал это как более глубокий KNN-LM.
Для начала впомним идею KNN-LM: для предсказания следующего токена текста KNN-LM использует большой корпус в поктором ищется top-k похожих текстов и берутся их продолжения (которые потенциально похожи на то, что модель должна сгенерировать). Вектора этих продолжений мёржатся вместе и языковая модель использует этот дополнительный контекст чтобы предсказать следующее слово.
В оригинальной статье этот трюк использовался только во время inference. DeepMind в RETRO предлагает несколько модицикаций трансформера, чтобы использовать подобный подход прямо во время обучения.
Архитектура выглядит так: нарезаем входной текст на L кусков по 64 токена и ищем по ним K~4 похожих чанков в огромном корпусе текстов (поисковой индекс берётся от BERT и не меняется во время обучения). Эти найденные куски с их продолжением K*L*(64+64) запихиваются в энкодер трансформера. Оригинальный текст запихивается в декодер трансформера в котором cross-attention модифицирован чтобы он 1) более эффективно смотрел на разные чанки из энкодера 2) не читерил и чанки из прошлого не смотрели на чанки из будущего.
По результатам: используя базу из более чем 2 триллионов токенов RETRO 7B берёт SOTA на Wikitext, the Pile обходя Gopher 280B. Кроме этого авторы тюнят модель на QA датасетах и она показывает неплохие метрики, но до SOTA далековато.
Borgeaud, Mensch, Hoffmann et al. [DeepMind]
arxiv.org/abs/2112.04426
RETRO от DeepMind это интересная смесь KNN и нейросетевых языковых моделей. Принципиально, я бы описал это как более глубокий KNN-LM.
Для начала впомним идею KNN-LM: для предсказания следующего токена текста KNN-LM использует большой корпус в поктором ищется top-k похожих текстов и берутся их продолжения (которые потенциально похожи на то, что модель должна сгенерировать). Вектора этих продолжений мёржатся вместе и языковая модель использует этот дополнительный контекст чтобы предсказать следующее слово.
В оригинальной статье этот трюк использовался только во время inference. DeepMind в RETRO предлагает несколько модицикаций трансформера, чтобы использовать подобный подход прямо во время обучения.
Архитектура выглядит так: нарезаем входной текст на L кусков по 64 токена и ищем по ним K~4 похожих чанков в огромном корпусе текстов (поисковой индекс берётся от BERT и не меняется во время обучения). Эти найденные куски с их продолжением K*L*(64+64) запихиваются в энкодер трансформера. Оригинальный текст запихивается в декодер трансформера в котором cross-attention модифицирован чтобы он 1) более эффективно смотрел на разные чанки из энкодера 2) не читерил и чанки из прошлого не смотрели на чанки из будущего.
По результатам: используя базу из более чем 2 триллионов токенов RETRO 7B берёт SOTA на Wikitext, the Pile обходя Gopher 280B. Кроме этого авторы тюнят модель на QA датасетах и она показывает неплохие метрики, но до SOTA далековато.
Forwarded from AbstractDL
XGLM: кросс-язычный аналог GPT-3 от Meta AI
Наконец появилась по-настоящему мультиязычная языковая модель! Формально GPT-3 тоже понимает много языков, но обучающих данных на НЕ английском там было всего 8 процентов, а тут целых 70! Причём на 128 разных языках.
В итоге эта модель бьёт все соты на всех кросс-язычных бенчмарках, и даже обходит многие supervised модели на WMT (machine translation).
P.S. Похоже, что XGLM должна классно работать для русского языка, ведь он тут второй по частотности после английского (см. картинку).
Статья, GitHub, HuggingFace
Наконец появилась по-настоящему мультиязычная языковая модель! Формально GPT-3 тоже понимает много языков, но обучающих данных на НЕ английском там было всего 8 процентов, а тут целых 70! Причём на 128 разных языках.
В итоге эта модель бьёт все соты на всех кросс-язычных бенчмарках, и даже обходит многие supervised модели на WMT (machine translation).
P.S. Похоже, что XGLM должна классно работать для русского языка, ведь он тут второй по частотности после английского (см. картинку).
Статья, GitHub, HuggingFace
👍3🔥1
Канал хорошо вырос за этот год. В следующем году будем набирать обороты и писать больше обзоров статей, больше новостей и больше материалов для погружения в современный NLP. Вы все классные, не забывайте об этом (и не забывайте выключать ваши GPU инстансы когда они простаивают).
Тем, кто хочет вспомнить что происходило в NLP в 2021, рекомендую посмотреть традиционный обзор от Валентина Малых с Дата Ёлки youtu.be/-8BsN4vIHSQ
Тем, кто хочет вспомнить что происходило в NLP в 2021, рекомендую посмотреть традиционный обзор от Валентина Малых с Дата Ёлки youtu.be/-8BsN4vIHSQ
The Illustrated Retrieval Transformer
jalammar.github.io/illustrated-retrieval-transformer/
Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.
RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.
jalammar.github.io/illustrated-retrieval-transformer/
Мы уже обозревали RETRO в этом коротком посте, но на днях Jay Alammar опубликовал новый блогпост, где идея RETRO описывается визуально.
RETRO — это модель, которая работает на уровне GPT-3 175B имея всего 7B параметров. Это делается с помощью того, что модель может обращаться к дополнительной "базе данных" текстов и их продолжений во время генерации текста.
🔥16👍5
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
Colab
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
Colab
🔥34👍31🎉6
Это 🥇. Если бы все видео на онлайн конференциях были такими, я бы даже смотрел их.
youtu.be/4KO2TO_cm2I
youtu.be/4KO2TO_cm2I
YouTube
[Research, NeurIPS 2021] Is Topic Model Evaluation Broken? The Incoherence of Coherence
Topic models help historians, journalists, and analysts make sense of large text collections. But how do you know if you have a good one? The field has settled on using “Automatic Coherence”, but this paper argues that maybe that isn’t the right choice…
🔥24👍2
Stanford выложил лекции CS224u Natural Language Understanding 2021 в открытый доступ.
Курс отличается от CS224n фокусом на конкретные задачи NLU (анализ тональности, извлечение реляций, поиск, ...). Кроме этого, так как курс проходил полностью онлайн, видео сделаны не как двухчасовые лекций, а как короткие 15-минутные видео ближе к формату курсеры. Домашки доступны на сайте web.stanford.edu/class/cs224u
youtu.be/rha64cQRLs8
Курс отличается от CS224n фокусом на конкретные задачи NLU (анализ тональности, извлечение реляций, поиск, ...). Кроме этого, так как курс проходил полностью онлайн, видео сделаны не как двухчасовые лекций, а как короткие 15-минутные видео ближе к формату курсеры. Домашки доступны на сайте web.stanford.edu/class/cs224u
youtu.be/rha64cQRLs8
YouTube
Introduction and Welcome | Stanford CS224U Natural Language Understanding | Spring 2021
For more information about Stanford's Artificial Intelligence professional and graduate programs visit: https://stanford.io/ai
To learn more about this course visit: https://online.stanford.edu/courses/cs224u-natural-language-understanding
To follow along…
To learn more about this course visit: https://online.stanford.edu/courses/cs224u-natural-language-understanding
To follow along…
🔥31👍12
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🦌🎄One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.
👀 см картинки к посту
Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot
💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
Creative as DALL-E and Smart as CLIP
Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.
👀 см картинки к посту
Гипермодальный RuDolph может:
▪️ Генерировать текст
▪️ Генерировать изображения по тексту
▪️ «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
▪️ Изменять (inpainting) изображения по описанию
▪️ Генерировать текстовые описания для изображений
▪️ Быть Feature Extractor’ом для few-shot и linear probe классификации
▪️ Ранжировать изображения по текстовому описанию
▪️ Классифицировать изображения в режиме Zero-Shot
💻 Git Код + Веса
📰 Paper [soon]
🦌 HF demo (только 4 картинки)
🤗 Model Card
🔮 Colab со всеми возможностями
👍16
Forwarded from Хроники Непуганых Идиотов (Larisa M)
У меня тут, кстати, пробежал интересный сайт: https://mavenlin.github.io/ai_research_trends/
Он анализирует arxiv и показывает статьи, которые сейчас в тренде. Оч удобно чтобы вычислять что сейчас на повестке ☝️
Он анализирует arxiv и показывает статьи, которые сейчас в тренде. Оч удобно чтобы вычислять что сейчас на повестке ☝️
👍20
Forwarded from Ivan Smurov
Привет всем!
В рамках Dialogue Evaluation запущено соревнование о распознавании сгенерированных текстов. Все подробности есть в репозитории (https://github.com/dialogue-evaluation/RuATD).
Присоединяйтесь, будем рады всех видеть!
В рамках Dialogue Evaluation запущено соревнование о распознавании сгенерированных текстов. Все подробности есть в репозитории (https://github.com/dialogue-evaluation/RuATD).
Присоединяйтесь, будем рады всех видеть!
GitHub
GitHub - dialogue-evaluation/RuATD: Russian Artificial Text Detection
Russian Artificial Text Detection. Contribute to dialogue-evaluation/RuATD development by creating an account on GitHub.
👍13
Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018
На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.
Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).
Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.
В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.
Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax
arxiv.org/abs/2002.09018
На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.
Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).
Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.
В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.
Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax
Twitter
Boris Dayma 🥑
We just finished comparing Adam, Adafactor & Distributed Shampoo (thanks to @_arohan_) for dalle-mini training 🥳 TLDR: Distributed Shampoo is 🔥 and will become the new default for dalle-mini 🥑
👍10
Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.
Теперь такое место есть! 🤗 Tasks
Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов
На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.
Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.
Теперь такое место есть! 🤗 Tasks
Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов
На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.
Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на 🤗 Tasks.
huggingface.co
Tasks - Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍55🎉4
Forwarded from TechSparks
Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc
Meta
Introducing the AI Research SuperCluster — Meta’s cutting-edge AI supercomputer for AI research
👍4🔥3
Давно не было подборки новостей и интересных блогпостов
1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.
Openai
Introducing text and code embeddings
We are introducing embeddings, a new endpoint in the OpenAI API that makes it easy to perform natural language and code tasks like semantic search, clustering, topic modeling, and classification.
👍10🔥4🤮1
🤗Transformers обновились до версии 4.16 и там есть пара интересных вещей
1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline
1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline
GitHub
Release v4.16.0 · huggingface/transformers
What's Changed
New models
Nyströmformer
The Nyströmformer model was proposed in Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudras...
New models
Nyströmformer
The Nyströmformer model was proposed in Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention by Yunyang Xiong, Zhanpeng Zeng, Rudras...
👍14🔥7