Новости NLP одной строкой
1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
1. Тренировка BLOOM - 176B модели от BigScience почти завершена. А ещё Optimum уже поддерживает BLOOM🔥🔥🔥
1. Отличный тред о том как CodeParrot искал ошибки в тренировке своей большой модели
1. Minerva - языковая модель от гугл которая может решать математические задачи
1. Named Tensor 2.0 в пайторче с поддержкой einsum
X (formerly Twitter)
alewkowycz (@alewkowycz) on X
Very excited to present Minerva🦉: a language model capable of solving mathematical questions using step-by-step natural language reasoning.
Combining scale, data and others dramatically improves performance on the STEM benchmarks MATH and MMLU-STEM. http…
Combining scale, data and others dramatically improves performance on the STEM benchmarks MATH and MMLU-STEM. http…
🔥11👍3
DALL-E Mini Is the Internet's Favorite AI Meme Machine
wired.com/story/dalle-ai-meme-machine
Вот мы и дошли до того что я даю ссылки на Wired в постах...
Сейчас переехал в новых город 🗽 и знакомлюсь с кучей новых людей, из них почти все не из диплернинга. И довольно быстро я понял что несмотря на весь хайп который создаёт вокруг себя OpenAI, довольно мало людей знает про DALL-E или GPT-3.
Но буквально на днях встретил несколько людей которые почти ничего не знают про OpenAI, но знают про DALL-E Mini/Crayon. Всё-таки мемы - лучший способ продвижения.
В статье собственно обсуждают саму модельку, немного её истории, и что она умеет и не умеет. Рекомендую запомнить её и показывать своим недиплернинговым знакомым.
wired.com/story/dalle-ai-meme-machine
Вот мы и дошли до того что я даю ссылки на Wired в постах...
Сейчас переехал в новых город 🗽 и знакомлюсь с кучей новых людей, из них почти все не из диплернинга. И довольно быстро я понял что несмотря на весь хайп который создаёт вокруг себя OpenAI, довольно мало людей знает про DALL-E или GPT-3.
Но буквально на днях встретил несколько людей которые почти ничего не знают про OpenAI, но знают про DALL-E Mini/Crayon. Всё-таки мемы - лучший способ продвижения.
В статье собственно обсуждают саму модельку, немного её истории, и что она умеет и не умеет. Рекомендую запомнить её и показывать своим недиплернинговым знакомым.
WIRED
Inside DALL-E Mini, the Internet's Favorite AI Meme Machine
The viral image generation app is good, absurd fun. It's also giving the world an education in how artificial intelligence may warp reality.
👍11
Forwarded from Towards NLP🇺🇦
CMU Multilingual NLP Course
For everyone who is interested in processing of multilingual text and speech data, now there is available the course from Carnegie Mellon University of 2022 year. Enjoy!
https://youtube.com/playlist?list=PL8PYTP1V4I8BhCpzfdKKdd1OnTfLcyZr7
For everyone who is interested in processing of multilingual text and speech data, now there is available the course from Carnegie Mellon University of 2022 year. Enjoy!
https://youtube.com/playlist?list=PL8PYTP1V4I8BhCpzfdKKdd1OnTfLcyZr7
👍20
BLOOM - 176B модель от BigScience официально выпущена!
bigscience.huggingface.co/blog/bloom
46 человеческих языков
16 языков программирования
Теперь будет интересно насколько сложно завести её на том железе которое доступно обычным смертным. Только веса уже занимают несколько сотен gb.
bigscience.huggingface.co/blog/bloom
46 человеческих языков
16 языков программирования
Теперь будет интересно насколько сложно завести её на том железе которое доступно обычным смертным. Только веса уже занимают несколько сотен gb.
🔥22👍6
Forwarded from AI для Всех
DALL·E Now Available in Beta
С сегодняшнего дня пользователи получают полные права на коммерческое использование изображений, созданных ими с помощью DALL-E, включая право на перепечатку, продажу и мерчандайзинг. Сюда входят изображения, созданные ими во время предварительного просмотра.
Пользователи сообщили OpenAI, что планируют использовать изображения DALL-E для коммерческих проектов, таких как иллюстрации для детских книг, иллюстрации для информационных бюллетеней, концепт-арт и персонажи для игр, moodboards для дизайнерских консультаций и раскадровки для фильмов.
анонс
С сегодняшнего дня пользователи получают полные права на коммерческое использование изображений, созданных ими с помощью DALL-E, включая право на перепечатку, продажу и мерчандайзинг. Сюда входят изображения, созданные ими во время предварительного просмотра.
Пользователи сообщили OpenAI, что планируют использовать изображения DALL-E для коммерческих проектов, таких как иллюстрации для детских книг, иллюстрации для информационных бюллетеней, концепт-арт и персонажи для игр, moodboards для дизайнерских консультаций и раскадровки для фильмов.
анонс
❤17👍4🔥3
Подробнее про новую схему доступа к DALL-E
Цены:
При регистрации вам дают 50 кредитов. Один кредит = одиз запрос к DALL-E. Как они заканчиваются вы можете купить 115 кредитов за $15, получается 13 центов за запрос (модель выдает 4 картинки на каждый запрос). Дальше каждый месяц вы получаете 15 кредитов.
15 или даже 50 кредитов это прямо немного. Я когда использую далли для картинок в презентации думаю раз 10-20 запрашиваю модель.
Те кто участвовали в альфе получили 100 кредитов сверху, что приятно.
Другие детали:
В начале альфы модель генерила 10 картинок на каждый запрос. Потом 8, теперь вообще 4, что немного. Зато гораздо быстрее.
Теперь история генераций стала гораздо больше. Вроде бы с 10 увеличили до 1000.
Права:
Вы не обладаете копирайтом на изображения. Им обладает OpenAI, а у вас есть эксклюзивные права на распространение и коммерциализацию. OpenAI не может продавать изображения которые вы сгенерили. Также они обещают not assert any copyright against you or your users. Но если вы нарушаете Content Policy, например скрываете что это сгенеренная картинка, ваши права отзываются.
Цены:
При регистрации вам дают 50 кредитов. Один кредит = одиз запрос к DALL-E. Как они заканчиваются вы можете купить 115 кредитов за $15, получается 13 центов за запрос (модель выдает 4 картинки на каждый запрос). Дальше каждый месяц вы получаете 15 кредитов.
15 или даже 50 кредитов это прямо немного. Я когда использую далли для картинок в презентации думаю раз 10-20 запрашиваю модель.
Те кто участвовали в альфе получили 100 кредитов сверху, что приятно.
Другие детали:
В начале альфы модель генерила 10 картинок на каждый запрос. Потом 8, теперь вообще 4, что немного. Зато гораздо быстрее.
Теперь история генераций стала гораздо больше. Вроде бы с 10 увеличили до 1000.
Права:
Вы не обладаете копирайтом на изображения. Им обладает OpenAI, а у вас есть эксклюзивные права на распространение и коммерциализацию. OpenAI не может продавать изображения которые вы сгенерили. Также они обещают not assert any copyright against you or your users. Но если вы нарушаете Content Policy, например скрываете что это сгенеренная картинка, ваши права отзываются.
👍21🔥5👏2
Тинькофф приглашает на питерский AI-митап 🔎
На митапе команда исследований расскажет о том, как развивает AI-ресерч в Тинькофф.
— Расскажут про последние статьи в NLP Research — модели early exiting и контролируемую генерацию;
— разберут недавние эксперименты со стохастическими нейронными сетями;
— объяснят ситуации, когда применяли Offline RL в реальной жизни.
Митап пройдет 29 июля в Санкт-Петербурге в технопарке ЛЕНПОЛИГРАФМАША. Начало в 19:00. Регистрируйтесь по ссылке: https://u.tinkoff.ru/ai-saintp-research-meetup
#промо
На митапе команда исследований расскажет о том, как развивает AI-ресерч в Тинькофф.
— Расскажут про последние статьи в NLP Research — модели early exiting и контролируемую генерацию;
— разберут недавние эксперименты со стохастическими нейронными сетями;
— объяснят ситуации, когда применяли Offline RL в реальной жизни.
Митап пройдет 29 июля в Санкт-Петербурге в технопарке ЛЕНПОЛИГРАФМАША. Начало в 19:00. Регистрируйтесь по ссылке: https://u.tinkoff.ru/ai-saintp-research-meetup
#промо
👎35👍21🤮5🤔2🤩1
Simple Local Attentions Remain Competitive for Long-Context Tasks
arxiv.org/abs/2112.07210
За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.
Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).
Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.
arxiv.org/abs/2112.07210
За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.
Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).
Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.
🔥32👍7🤔2❤🔥1👎1
Loss Landscape of Neural Networks: theoretical insights and practical implications
Немного теории диплернинга вам в ленту. EPFL выложил записи миниконфы по loss landscape. Из хайлайтов там есть выступление Jonathan Frankle - автора Lottery Ticket Hypotheses - на тему Understanding Loss Landscapes through Neural Network Sparsity. Обычно его выступления топ. По личному общению с ним он очень не любит теоретиков и считает что его подход, который больше похож на лабы по физике чем на вывод теорем. Последняя лекция содержит в себе "practical bayesian deep learning", что скорее всего ловушка, но может быть интересно.
P.S. Чтобы увидеть ссылки на видео тыкните на Program/Recordings и откроется список.
Немного теории диплернинга вам в ленту. EPFL выложил записи миниконфы по loss landscape. Из хайлайтов там есть выступление Jonathan Frankle - автора Lottery Ticket Hypotheses - на тему Understanding Loss Landscapes through Neural Network Sparsity. Обычно его выступления топ. По личному общению с ним он очень не любит теоретиков и считает что его подход, который больше похож на лабы по физике чем на вывод теорем. Последняя лекция содержит в себе "practical bayesian deep learning", что скорее всего ловушка, но может быть интересно.
P.S. Чтобы увидеть ссылки на видео тыкните на Program/Recordings и откроется список.
EPFL
Loss Landscape of Neural Networks: theoretical insights and practical implications
EPFL Virtual Symposium – 15-16 February 2022
🔥11👍7💩1
Давайте поговорим о серьёзных вещах. О постерах. Тех самых постерах которые вы делаете для конференции чтобы показать свою статью другим рисёчерам.
Как правило эти постеры 💩
Сорян
И сегодня я нашёл очень классные видео от Mike Morrison которые описывают как сделать ваши постеры лучше и быстрее.Просто уберите 99% текста и добавьте мем.
Итак, начнём: How to create a better research poster in less time.
Если вам понравилось, можете посмотреть второй видос, который продолжает идею. А потом и видео о том как твитить про вашу статью (Твиттер важен, 99% новостей и статей в этом канале приходят ко мне из твиттера).
Как правило эти постеры 💩
Сорян
И сегодня я нашёл очень классные видео от Mike Morrison которые описывают как сделать ваши постеры лучше и быстрее.
Итак, начнём: How to create a better research poster in less time.
Если вам понравилось, можете посмотреть второй видос, который продолжает идею. А потом и видео о том как твитить про вашу статью (Твиттер важен, 99% новостей и статей в этом канале приходят ко мне из твиттера).
🔥32💩5👎4🤬1🎉1
Forwarded from Graph Machine Learning
Geometric DL News: 200M proteins in AlphaFold DB, Euclidean nets, Italian GDL Summer School, Diffusers
This week brought us a bunch of news and new materials:
- DeepMind announced expanding the AlphaFold DB to 200 million protein structures. Celebrating 1Y anniversary since the release of groundbreaking AlphaFold 2, DeepMind mentions a huge success of the system among scientists all over the world - more than 500.000 researchers from 190 countries have accesses AlphaFold predictions - and sketches further plans to apply the outcomes in other areas such as drug discovery, fusion, and climate change
- Mario Geiger (MIT) and Tess Smidt (MIT) released an updated version of the writeup on e3nn - the most popular Python library to build Euclidean Neural Networks, a basis for many new cool works like Steerable GNNs and SE(3)-Transformers. The writeup includes simple intuitions behind spherical harmonics, tensor product, irreducible representations, and other key building blocks - if you work on equivariant architectures, you probably do that with e3nn 😉
- 🇮🇹 First Italian School on Geometric Deep Learning releases all slides and Colab Notebooks on equivariance, topology, differential geometry and other topics covered by top speakers including Michael Bronstein, Cristian Bodnar, Maurice Weiler, Pim de Haan, and Francesco Di Giovanni.
- Following the hottest 2022 trend, HuggingFace 🤗 aims to tame the wilds of diffusion models and releases Diffusers 🧨, a single library to build and train diffusion models of all modalities - image generation, text generation, and, of course, graph generation! The PR with GeoDiff, a SOTA molecule generation model from ICLR 2022, is already prepared 🚀
This week brought us a bunch of news and new materials:
- DeepMind announced expanding the AlphaFold DB to 200 million protein structures. Celebrating 1Y anniversary since the release of groundbreaking AlphaFold 2, DeepMind mentions a huge success of the system among scientists all over the world - more than 500.000 researchers from 190 countries have accesses AlphaFold predictions - and sketches further plans to apply the outcomes in other areas such as drug discovery, fusion, and climate change
- Mario Geiger (MIT) and Tess Smidt (MIT) released an updated version of the writeup on e3nn - the most popular Python library to build Euclidean Neural Networks, a basis for many new cool works like Steerable GNNs and SE(3)-Transformers. The writeup includes simple intuitions behind spherical harmonics, tensor product, irreducible representations, and other key building blocks - if you work on equivariant architectures, you probably do that with e3nn 😉
- 🇮🇹 First Italian School on Geometric Deep Learning releases all slides and Colab Notebooks on equivariance, topology, differential geometry and other topics covered by top speakers including Michael Bronstein, Cristian Bodnar, Maurice Weiler, Pim de Haan, and Francesco Di Giovanni.
- Following the hottest 2022 trend, HuggingFace 🤗 aims to tame the wilds of diffusion models and releases Diffusers 🧨, a single library to build and train diffusion models of all modalities - image generation, text generation, and, of course, graph generation! The PR with GeoDiff, a SOTA molecule generation model from ICLR 2022, is already prepared 🚀
Google DeepMind
AlphaFold reveals the structure of the protein universe
Today, in partnership with EMBL’s European Bioinformatics Institute (EMBL-EBI), we’re now releasing predicted structures for nearly all catalogued proteins known to science, which will expand the...
👏8
🤗 Анонсировали Private Hub 🔥🔥🔥
huggingface.co/blog/introducing-private-hub
Это биг дил для Huggingface и для индустрии. По сути последние несколько лет HF строила не только свои библиотеки, но огромную платформу которая умеет хостить, версионировать, и, самое главное – удобно работать с датасетами и предобученными моделями. А Transformers и Datasets приучили разработчиков к этой экосистеме.
Если вы работали в больших компаниях, вы знаете насколько странными, неудобными и устаревшими является большинство внутренних подобных продуктов. Даже в FAANG все далеко не так хорошо, ибо легаси.
Теперь каждая компания может хостить приватную версию 🤗 Hub для себя. Она включает модельки, датасеты, AutoTrain, Spaces, discussions, и Inference API.
Не думаю что сейчас все ломанутся их покупать, но парочка больших клиентов может гарантировать что 🤗 сможет остаться с нами надолго и продолжать нас радовать удобными тулзами. Очень рад за ребят.
huggingface.co/blog/introducing-private-hub
Это биг дил для Huggingface и для индустрии. По сути последние несколько лет HF строила не только свои библиотеки, но огромную платформу которая умеет хостить, версионировать, и, самое главное – удобно работать с датасетами и предобученными моделями. А Transformers и Datasets приучили разработчиков к этой экосистеме.
Если вы работали в больших компаниях, вы знаете насколько странными, неудобными и устаревшими является большинство внутренних подобных продуктов. Даже в FAANG все далеко не так хорошо, ибо легаси.
Теперь каждая компания может хостить приватную версию 🤗 Hub для себя. Она включает модельки, датасеты, AutoTrain, Spaces, discussions, и Inference API.
Не думаю что сейчас все ломанутся их покупать, но парочка больших клиентов может гарантировать что 🤗 сможет остаться с нами надолго и продолжать нас радовать удобными тулзами. Очень рад за ребят.
🔥75
Новости NLP одной строкой #7
1. Поддержка int8 для всех моделей в Transformers 🔥🔥🔥. Обещают есть в 4 раза меньше памяти при минимальных потерях в качестве. Сейчас в бете, скоро обещают статью и релиз. Подробнее тут.
1. Графовые сети не нужны, трансформеры могут отлично решать графовые задачи, если использовать правильный метод эмбеддинга.
1. Модель Atlas это такой RETRO, но где более правильно тюнят и retreiver и language model. Atlas-11B обходит PALM-540B на QA задаче. Вообще в статье очень хороший анализ того как правильно варить retreival-augmented модели.
1. Интересная статья Meta AI о том как обучать conversational модель после деплоя.
1. Branch-Train-Merge — забавный метод где в начале тренируют кучу не очень больших LM на разных доменах а потом их ансамблируют. В результате обошли GPT-3.
1. Multiplying Matrices Without Multiplying — кажется я уже когда-то видел статю с таким названием, но всё равно забавная идея. Предлагают хитрый способ ускорения матричного умножения который не требует операций умножения (которые для процессора гораздо дороже сложения).
1. Робастность трансформеров и CNN на vision задачах на удивление близка. Вообще забавно смотреть на то что уже почти два года пошло после ViT, на CNN так и не сдают.
1. Поддержка int8 для всех моделей в Transformers 🔥🔥🔥. Обещают есть в 4 раза меньше памяти при минимальных потерях в качестве. Сейчас в бете, скоро обещают статью и релиз. Подробнее тут.
1. Графовые сети не нужны, трансформеры могут отлично решать графовые задачи, если использовать правильный метод эмбеддинга.
1. Модель Atlas это такой RETRO, но где более правильно тюнят и retreiver и language model. Atlas-11B обходит PALM-540B на QA задаче. Вообще в статье очень хороший анализ того как правильно варить retreival-augmented модели.
1. Интересная статья Meta AI о том как обучать conversational модель после деплоя.
1. Branch-Train-Merge — забавный метод где в начале тренируют кучу не очень больших LM на разных доменах а потом их ансамблируют. В результате обошли GPT-3.
1. Multiplying Matrices Without Multiplying — кажется я уже когда-то видел статю с таким названием, но всё равно забавная идея. Предлагают хитрый способ ускорения матричного умножения который не требует операций умножения (которые для процессора гораздо дороже сложения).
1. Робастность трансформеров и CNN на vision задачах на удивление близка. Вообще забавно смотреть на то что уже почти два года пошло после ViT, на CNN так и не сдают.
👍44🔥3
Forwarded from AbstractDL
BlenderBot 3: лучший в мире чатбот (by Meta)
Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).
Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.
Статья, GitHub, блог, бот
Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).
Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.
Статья, GitHub, блог, бот
🔥26👍9🏆3🤔2🤯2
Новости NLP одной строкой #8
1. AI Art and Reliable Pretrained Language Models — The Gradient о DALL-E, больших моделях и всему тому что вы любите.
1. В paperspace теперь можно бесплатно попробовать IPU в ноутбуках (это как TPU, но не от гугла а от graphcore). Вот тут туториал. Выглядит кривовато, но интересно.
1. Efficient Training on a Single GPU — отличный туториал по производительности. Отлично подходит и для новичков и для тех кто уже хорошо знаком с pytorch. Начинают с простых вещей вроде gradient accumulation и заканчивают bf16 и Deepspeed Zero.
1. Рассказ о том как TensorFlow модельку ускоряли с помощью XLA. В 1000 раз быстрее eager, в 5-10 раз быстрее pytorch при семплировании (но медленнее pytorch при beam search). Коротко: фиксируйте шейпы батчей, используйте tf.function и jit.compile.
1. DP-Transformers 🙃— тренировка трансформеров с differential privacy от Microsoft.
1. Google Universal Image Embeddings Challenge — задачка на Kaggle по retreival схожих изображений от гугла. Обещают интересный датасет в котором сочетается куча различных доменов — от фотографий одежды до мемов.
1. GLM-130B — en-ch моделька на 130B праметров. Говорят что зирошотит лучше BLOOM, OPT, и GPT-3.
1. Data Science Pet Projects — статья на хабре о том зачем и как делать пет-проекты. Очень наболевшая для меня тема — рекомендую.
1. Мега простое объяснение как писать свои декораторы в питоне
1. AI Art and Reliable Pretrained Language Models — The Gradient о DALL-E, больших моделях и всему тому что вы любите.
1. В paperspace теперь можно бесплатно попробовать IPU в ноутбуках (это как TPU, но не от гугла а от graphcore). Вот тут туториал. Выглядит кривовато, но интересно.
1. Efficient Training on a Single GPU — отличный туториал по производительности. Отлично подходит и для новичков и для тех кто уже хорошо знаком с pytorch. Начинают с простых вещей вроде gradient accumulation и заканчивают bf16 и Deepspeed Zero.
1. Рассказ о том как TensorFlow модельку ускоряли с помощью XLA. В 1000 раз быстрее eager, в 5-10 раз быстрее pytorch при семплировании (но медленнее pytorch при beam search). Коротко: фиксируйте шейпы батчей, используйте tf.function и jit.compile.
1. DP-Transformers 🙃— тренировка трансформеров с differential privacy от Microsoft.
1. Google Universal Image Embeddings Challenge — задачка на Kaggle по retreival схожих изображений от гугла. Обещают интересный датасет в котором сочетается куча различных доменов — от фотографий одежды до мемов.
1. GLM-130B — en-ch моделька на 130B праметров. Говорят что зирошотит лучше BLOOM, OPT, и GPT-3.
1. Data Science Pet Projects — статья на хабре о том зачем и как делать пет-проекты. Очень наболевшая для меня тема — рекомендую.
1. Мега простое объяснение как писать свои декораторы в питоне
👍32🔥1😁1
Тут в эйай ньюз обсуждение кэнселинга stable Diffusion и я решил сформулировать свои мысли. Мне интересно как будет меняться домен копирайта и лицензий под влиянием Codex, DALL-E и друзей. Вот три момента на подумать:
1. Если смотреть на текущие популярные свободные лицензии, многие из них (MIT, Apache, CC) требуют прикладывания копии лицензии с именами авторов к вашему продукту. Это сделать не очень сложно, но в текущих датасетах (том же LAION) такой метаинформации пока нет.
1. Когда эти лицензии составлялись никто не представлял себе в каких объёмах код/картинки могут быть использованы и что станет возможно автоматически генерировать сопоставимые по качеству код/картинки. Вангую что в ближайший год начнут распространяется новые виды лизензий которые будут копиями MIT/CC/Apache но с припиской что тренировать на этом нельзя. Как именно это будет сформулировано - очень интересно. Думаю что BigScience RAIL - это первая ласточка AI-aware лицензий.
1. В принципе уровень образованности в плане opensouce лицензий очень низок. Не все понимают разницу даже между MIT и GPLv3, но хуже то что зачастую на лицензии вообще не обращают внимания. Не исключаю что в LAION-5B может находиться много картинок которые не позволяют свое использование без разрешения автора. И если так и окажется, всем будет больно.
1. Если смотреть на текущие популярные свободные лицензии, многие из них (MIT, Apache, CC) требуют прикладывания копии лицензии с именами авторов к вашему продукту. Это сделать не очень сложно, но в текущих датасетах (том же LAION) такой метаинформации пока нет.
1. Когда эти лицензии составлялись никто не представлял себе в каких объёмах код/картинки могут быть использованы и что станет возможно автоматически генерировать сопоставимые по качеству код/картинки. Вангую что в ближайший год начнут распространяется новые виды лизензий которые будут копиями MIT/CC/Apache но с припиской что тренировать на этом нельзя. Как именно это будет сформулировано - очень интересно. Думаю что BigScience RAIL - это первая ласточка AI-aware лицензий.
1. В принципе уровень образованности в плане opensouce лицензий очень низок. Не все понимают разницу даже между MIT и GPLv3, но хуже то что зачастую на лицензии вообще не обращают внимания. Не исключаю что в LAION-5B может находиться много картинок которые не позволяют свое использование без разрешения автора. И если так и окажется, всем будет больно.
Telegram
эйай ньюз
Что думаете по поводу этого, господа?
Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более ко…
Нужно ли запретить все эти выкрутасы с открытыми генеративными моделями, дабы сохранить ценность работы честных работяг, либо стоит адаптироваться и учиться встраивать AI в свою рабочую рутину и становиться более ко…
👍11
Forwarded from AI для Всех
Андрей Карпати (ex Tesla AI) выложил новую лекцию
«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.
Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»
Смотреть
«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.
Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»
Смотреть
YouTube
The spelled-out intro to neural networks and backpropagation: building micrograd
This is the most step-by-step spelled-out explanation of backpropagation and training of neural networks. It only assumes basic knowledge of Python and a vague recollection of calculus from high school.
Links:
- micrograd on github: https://github.com/k…
Links:
- micrograd on github: https://github.com/k…
👍38🔥7😱2👎1
Новости NLP одной строкой #9
1. Stable Diffusion уже в Diffusers от HuggingFace. По слухам релиз весов будет на след неделе.
1. Бесплатный (но медленный) плейграунд OPT-175B
1. Топовая вводная лекция по backpropagation от Андрея Карпати.
1. PALM-540B может декомпозировать задачи для роботов, если взвесить генерацию с помощью value function. Начинаю верить что через 5 лет роботы будут повсюду и полезны.
1. Тред TIm Dettmers о том как работает int8 в Transformers. TL;DR — часть сетки квантизуется, а часть (аутлаеры) нет. Особенно важно для моделей > 6B
1. Классный трюк как можно использовать изображения Dalle-Mini как сид Stable Diffusion и получать безумные но реалистичные изображения.
1. Отличный блогпост об интерпретируемости моделей и о связи между преобразованием фурье и grokking.
1. Stable Diffusion уже в Diffusers от HuggingFace. По слухам релиз весов будет на след неделе.
1. Бесплатный (но медленный) плейграунд OPT-175B
1. Топовая вводная лекция по backpropagation от Андрея Карпати.
1. PALM-540B может декомпозировать задачи для роботов, если взвесить генерацию с помощью value function. Начинаю верить что через 5 лет роботы будут повсюду и полезны.
1. Тред TIm Dettmers о том как работает int8 в Transformers. TL;DR — часть сетки квантизуется, а часть (аутлаеры) нет. Особенно важно для моделей > 6B
1. Классный трюк как можно использовать изображения Dalle-Mini как сид Stable Diffusion и получать безумные но реалистичные изображения.
1. Отличный блогпост об интерпретируемости моделей и о связи между преобразованием фурье и grokking.
Google
stable_diffusion.ipynb
Run, share, and edit Python notebooks
👍31
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIG online seminar on data science:
👨🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве
В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.
О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !
Google calendar link
Ссылка на зум будет доступна на канале: https://t.iss.one/sberlogabig перед началом доклада - подписывайтесь!
👨🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве
В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.
О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !
Google calendar link
Ссылка на зум будет доступна на канале: https://t.iss.one/sberlogabig перед началом доклада - подписывайтесь!
👍14👎12
This media is not supported in your browser
VIEW IN TELEGRAM
Новости NLP (и не только) одной строкой #10
1. Using AI to generate fashion — как использовать DALL-E inpainting в видео. Просто добавьте EbSynth + DAIN.
1. AI Test Kitchen от Google — попытка гугла выкатить демки их нейросеток (например LaMDA или PARTI) обычным людям. Записаться в бету можно уже сейчас.
1. Landing a job at top-tier AI labs — хороший блогпост о том как выучить DL и пройти в DeepMind всего за 4 года. Спойлер — это сложно.
1. Statement of purpose Abudakar Abid (фаундер Gradio) который позволил ему пройти в MIT и Stanford.
1. Training Data Extraction Challenge — соревнование по экстракции данных из языковых моделей.
1. Lexica — a search engine for AI-generated images and prompts (and seeds).
1. Исследование Anthropic о том как эффективнее всего алайнить языковые модели. RL с human feedback работает лучше всех.
1. Using AI to generate fashion — как использовать DALL-E inpainting в видео. Просто добавьте EbSynth + DAIN.
1. AI Test Kitchen от Google — попытка гугла выкатить демки их нейросеток (например LaMDA или PARTI) обычным людям. Записаться в бету можно уже сейчас.
1. Landing a job at top-tier AI labs — хороший блогпост о том как выучить DL и пройти в DeepMind всего за 4 года. Спойлер — это сложно.
1. Statement of purpose Abudakar Abid (фаундер Gradio) который позволил ему пройти в MIT и Stanford.
1. Training Data Extraction Challenge — соревнование по экстракции данных из языковых моделей.
1. Lexica — a search engine for AI-generated images and prompts (and seeds).
1. Исследование Anthropic о том как эффективнее всего алайнить языковые модели. RL с human feedback работает лучше всех.
👍29🔥11❤1