Forwarded from Love. Death. Transformers.
Короче я расстроен докладчиками:
* мы проебались с выборкой, метрик не будет, метод сосет бибу
* У нас модель заикается мы не знаем почему
Алсо этот же докладчик: НИКТО НИ ИСПОЛЬЗУЕТ БИМ СЕРЧ ВЫ ВСЕ ВРЕТИ!?!
PPLM очень медленные, а giant LM не медленные?)))
Короче доклад про LM сосет бибу, авто не умеет в conditional gpt и тюнинг модели. Зато умеет делать stack more models)))
Короче говоря я расстроен, я ждал анонс VKLM с sparce attention от big bird ((((
* мы проебались с выборкой, метрик не будет, метод сосет бибу
* У нас модель заикается мы не знаем почему
Алсо этот же докладчик: НИКТО НИ ИСПОЛЬЗУЕТ БИМ СЕРЧ ВЫ ВСЕ ВРЕТИ!?!
PPLM очень медленные, а giant LM не медленные?)))
Короче доклад про LM сосет бибу, авто не умеет в conditional gpt и тюнинг модели. Зато умеет делать stack more models)))
Короче говоря я расстроен, я ждал анонс VKLM с sparce attention от big bird ((((
Вы могли знать, что наконец-то выкатили модель для использования в ваших рабочих и учебных чатиках, а именно модельку для детокса текста на русском
Для этой задачи авторы тюнили GPT и BERT:
• В случае GPT сама модель уже умеет перефразировать предложения (если начать ввод с 'перефразируй' или поставить >>> в конце), но авторы дополнительно ее файн-тюнили: брали пары из одних и тех же по смыслу предожений, но одно из них токсичное, второе нет. На вход подается токсичное предложение, на выходе хотят нейтральное. Авторы утверждают, что хватило 200 таких пар для обучения. Минус подхода в том, что модель по сути генерит новое предложение с нуля, поэтому по содержанию выход может сильно отличаться.
• В случае BERT все сложнее. Для начала, авторы взяли conditional BERT и обучали соотвественно на тексты с лейблами двух стилей – токс и не токс. Дальше во время обучения токсичные слова маскировались, и модель просили заменить их на что-то не токсичное. Как определять токсичные слова? Ну, авторы обучили логистическую регрессию на мешке слов, чтобы она предсказывала, токсичный текст или нет, – и оттуда можно было взять веса (оценку токсичности) для каждого слова. Минус подхода в том, что BERT меняет всего одного слово, а не все предложение, что может плохо сказаться на грамматике и вообще логике предложения (или он может вообще вставить special token типа [UNK])
Разумеется, важно не это все, а то, что на выходе получаются кеки (тыкать тут). Я например экспериментально установила, что сделать добрыми треки Фараона у модели пока не выходит( Вообще это не сюрприз ни для кого, но авторы сильно черипикали примеры, потому что как правило мат она заменяет просто на рандомный набор букв
Для этой задачи авторы тюнили GPT и BERT:
• В случае GPT сама модель уже умеет перефразировать предложения (если начать ввод с 'перефразируй' или поставить >>> в конце), но авторы дополнительно ее файн-тюнили: брали пары из одних и тех же по смыслу предожений, но одно из них токсичное, второе нет. На вход подается токсичное предложение, на выходе хотят нейтральное. Авторы утверждают, что хватило 200 таких пар для обучения. Минус подхода в том, что модель по сути генерит новое предложение с нуля, поэтому по содержанию выход может сильно отличаться.
• В случае BERT все сложнее. Для начала, авторы взяли conditional BERT и обучали соотвественно на тексты с лейблами двух стилей – токс и не токс. Дальше во время обучения токсичные слова маскировались, и модель просили заменить их на что-то не токсичное. Как определять токсичные слова? Ну, авторы обучили логистическую регрессию на мешке слов, чтобы она предсказывала, токсичный текст или нет, – и оттуда можно было взять веса (оценку токсичности) для каждого слова. Минус подхода в том, что BERT меняет всего одного слово, а не все предложение, что может плохо сказаться на грамматике и вообще логике предложения (или он может вообще вставить special token типа [UNK])
Разумеется, важно не это все, а то, что на выходе получаются кеки (тыкать тут). Я например экспериментально установила, что сделать добрыми треки Фараона у модели пока не выходит( Вообще это не сюрприз ни для кого, но авторы сильно черипикали примеры, потому что как правило мат она заменяет просто на рандомный набор букв
GitHub
GitHub - s-nlp/rudetoxifier: Code and data of "Methods for Detoxification of Texts for the Russian Language" paper
Code and data of "Methods for Detoxification of Texts for the Russian Language" paper - s-nlp/rudetoxifier
Интересная довольно работа по unsupervised question answering. По сути авторы пытаются построить модель, которой не нужен размеченный датасет с вопросами по типу SQuAD. При этом, по качеству она не дотягивает до supervised обучения (когда есть ручная разметка вопрос-ответ), но хотя бы обгоняет более ранние модели QA. Что они делают:
1. Рандомно семплируются парагрфы из Википедии опредленной длины. Внутри них ищутся noun sentences или name entity sentences (то есть когда в предложении есть специфичные наименования вроде даты/места/имени/марки и т.д.).
2. Из этих предложений составляются Cloze Questions – предожения, где ответ замаскирован (например, 'летние олимпийские игры 1980 года проходили в _' или 'летние олимпийские игры _ года проходили в Москве' ). За ответ считается, собственно, named entity или главное существительное в предложении.
3. Далее нужно перевести эти Cloze Questions в вопросы, сформулированные на естественом языке. Для этого авторы используют seq2seq модель, которая по сути занимается переносом стиля на текстовых данных: она берет два корпуса – один это cloze questions, второй это реальные вопросы, составленные людьми, и пытается перенести стиль, сохранив содержание. Чтобы улучить качество переноса, авторы стали еще подавать тип ответа вместе с самим cloze question, чтобы генерировалось правильное вопросительное слово (например, если ответ – это дата (temporal), то нужно подставить вместо маски when). Еще авторы пытались повысить робастность, добавляя шум, то есть перемешивая и удаляя слова в вопросе, предполагая, что модель дожна выучиь определнные n-граммы, которые указывают на тот или иной ответ, и быть устойчивой к различным вариантам парафраза.
Тренируют это все на BERT-Large, и в принципе выходит неплохо, вообще интересно, как тема с обучением на синтетических данных будет развиваться. Еще по статье видно, что этот один из тех случаев, когда авторы умоляют нейроночку заработать с помощью любых эвристик, ну или они просто ответственные, и прямо сильно документировали процесс экспериментов с методом
Сслыка на гит
1. Рандомно семплируются парагрфы из Википедии опредленной длины. Внутри них ищутся noun sentences или name entity sentences (то есть когда в предложении есть специфичные наименования вроде даты/места/имени/марки и т.д.).
2. Из этих предложений составляются Cloze Questions – предожения, где ответ замаскирован (например, 'летние олимпийские игры 1980 года проходили в _' или 'летние олимпийские игры _ года проходили в Москве' ). За ответ считается, собственно, named entity или главное существительное в предложении.
3. Далее нужно перевести эти Cloze Questions в вопросы, сформулированные на естественом языке. Для этого авторы используют seq2seq модель, которая по сути занимается переносом стиля на текстовых данных: она берет два корпуса – один это cloze questions, второй это реальные вопросы, составленные людьми, и пытается перенести стиль, сохранив содержание. Чтобы улучить качество переноса, авторы стали еще подавать тип ответа вместе с самим cloze question, чтобы генерировалось правильное вопросительное слово (например, если ответ – это дата (temporal), то нужно подставить вместо маски when). Еще авторы пытались повысить робастность, добавляя шум, то есть перемешивая и удаляя слова в вопросе, предполагая, что модель дожна выучиь определнные n-граммы, которые указывают на тот или иной ответ, и быть устойчивой к различным вариантам парафраза.
Тренируют это все на BERT-Large, и в принципе выходит неплохо, вообще интересно, как тема с обучением на синтетических данных будет развиваться. Еще по статье видно, что этот один из тех случаев, когда авторы умоляют нейроночку заработать с помощью любых эвристик, ну или они просто ответственные, и прямо сильно документировали процесс экспериментов с методом
Сслыка на гит
GitHub
GitHub - facebookresearch/UnsupervisedQA: Unsupervised Question answering via Cloze Translation
Unsupervised Question answering via Cloze Translation - facebookresearch/UnsupervisedQA
This media is not supported in your browser
VIEW IN TELEGRAM
Просто восхитительный видос, полученный следующим образом: взяли датасет лиц Ukiyo-e, сетку для image-to-image translation (архитетура похожа на GAN с аттеншеном), и еще один очень крутой GAN, который может переводить видео в видео (вообще его изначально тренировали на аниме)
Повторюсь, единственно правильный подход к АИ-решениям я вижу именно так
Повторюсь, единственно правильный подход к АИ-решениям я вижу именно так
Специально для людей как я, которые любят заводить странички в ноушене, но не очень любят все это потом делать))) Но вообще по-моему тут очень адекватная градация скилов, к тому же списки можно кастомайзить под себя
https://towardsdatascience.com/a-checklist-to-track-your-data-science-progress-bf92e878edf2
https://towardsdatascience.com/a-checklist-to-track-your-data-science-progress-bf92e878edf2
Medium
A checklist to track your Data Science progress
Use the one-day-per-week principle to gradually tick it
И вот еще очень хороший роудмэп по всему DS от train-test split и knn до облачных сервисов, все идет вместе с ссылками на курсы/материалы
https://whimsical.com/machine-learning-roadmap-2020-CA7f3ykvXpnJ9Az32vYXva
https://whimsical.com/machine-learning-roadmap-2020-CA7f3ykvXpnJ9Az32vYXva
Whimsical
Machine Learning Roadmap 2020
2020 machine learning roadmap built in Whimsical. View for detailed mind map on: machine learning resources and the machine learning process for projects.
Еще один достойнейший представитель аккаунтов-нейроночек в твиттере
Forwarded from нью крипто щит (Sasha Tsereteli)
Пока на эфире клепают однообразные pfp-проекты по образу и подобию Bored Ape Yacht Club, что-то действительно интересное неожиданно вышло на Binance Smart Chain 🐸
Друзья-соотечественники из моего любимого канала @NeuralShit сгенерили нейронкой 7777 уникальных изображений лягушонка пепе на основе нескольких тысяч артов, вытащенных с форчана, и превратили в NFT-проект Neural Pepe.
Как они сами иногда говорят, вышло «проклято, но эпично». С каждым пепе идёт 420 токенов AI, и ещё 2.3 фармится ежедневно. За 420 AI вашего нейропепе можно переименовать, увековечив его имя на блокчейне – механика наверняка знакома.
Немаловажный аспект: с правами вопрос вроде как уладили, так что проект будет жить. В продаже из 7777 разновидностей нейропепе осталось около 1500. Купить можно всего за 0.5 BNB вот тут: https://neuralpepe.com/
Друзья-соотечественники из моего любимого канала @NeuralShit сгенерили нейронкой 7777 уникальных изображений лягушонка пепе на основе нескольких тысяч артов, вытащенных с форчана, и превратили в NFT-проект Neural Pepe.
Как они сами иногда говорят, вышло «проклято, но эпично». С каждым пепе идёт 420 токенов AI, и ещё 2.3 фармится ежедневно. За 420 AI вашего нейропепе можно переименовать, увековечив его имя на блокчейне – механика наверняка знакома.
Немаловажный аспект: с правами вопрос вроде как уладили, так что проект будет жить. В продаже из 7777 разновидностей нейропепе осталось около 1500. Купить можно всего за 0.5 BNB вот тут: https://neuralpepe.com/
neuralpepe.com
Neural Pepe
The first AI-(de)generated NFT collectibles on BSC. Only 7777 neural pepes will ever exist.
Еще один крутой аккаунт в Твиттере, куда постят картинки, сгенерированные BigGAN или VQGAN. Примечательно, что ГАНы могут довольно точно рисовать как что-то конкретное (лица конкретых людей вроде Джо Байдена), так и совершенно абстрактные концепты (например, the end of time and space).
Вот пока что мои любимые примеры:
Stairway to Heaven
The Greenhouse Shadows
Wind Over the Ocean
rococo socialist realism, dogs
The Chillwave Venue Underneath Our House
Вот пока что мои любимые примеры:
Stairway to Heaven
The Greenhouse Shadows
Wind Over the Ocean
rococo socialist realism, dogs
The Chillwave Venue Underneath Our House