Pandas медленный, верно? 🤨
И кажется не только мы так считаем, но и ребята из RAPIDS.
Представьте такаю ситуацию, что вы работаете с настолько большим сетом, что даже самая простая операция в пандасе занимает минимум 10 минут. Что в таком случае вы будете делать?
Первым на ум приходит удаление ненужных колонок из памяти и конвертация колонок в более "легкие" типы, такие как: float16/32, int8/32. Но вот незадача, этого всё равно недостаточно, а значит пришло время серьезной артиллерии - юзаем GPU.
Как именно? С помощью библиотеки cuDF. Она имеет практически такой же интерфейс, что и pandas и позволяет без лишней боли пользоваться прекрасным инструментом.
Но тут есть ограничения, а именно - поддерживаются только P4, P100, T4, V100. Админ около часа пытался запустить в колабе на K80, но безуспешно. Благо есть Kaggle с P100 на которой все работает как часы и даже conda инсталить не нужно.
Ну так, админ, что там по скоростям? Бывает по разному, но вы однозначно получите ускорение в 30-100 раз 🔥
Kaggle notebook
Статья с более подробным описанием
И кажется не только мы так считаем, но и ребята из RAPIDS.
Представьте такаю ситуацию, что вы работаете с настолько большим сетом, что даже самая простая операция в пандасе занимает минимум 10 минут. Что в таком случае вы будете делать?
Первым на ум приходит удаление ненужных колонок из памяти и конвертация колонок в более "легкие" типы, такие как: float16/32, int8/32. Но вот незадача, этого всё равно недостаточно, а значит пришло время серьезной артиллерии - юзаем GPU.
Как именно? С помощью библиотеки cuDF. Она имеет практически такой же интерфейс, что и pandas и позволяет без лишней боли пользоваться прекрасным инструментом.
Но тут есть ограничения, а именно - поддерживаются только P4, P100, T4, V100. Админ около часа пытался запустить в колабе на K80, но безуспешно. Благо есть Kaggle с P100 на которой все работает как часы и даже conda инсталить не нужно.
Ну так, админ, что там по скоростям? Бывает по разному, но вы однозначно получите ускорение в 30-100 раз 🔥
Kaggle notebook
Статья с более подробным описанием
RAPIDS | GPU Accelerated Data Science
Open source GPU accelerated data science libraries
👍8
Великие и могучие tiny модели пополнили свои ряды 🙌
Я думаю, что каждый датасаентист рано или поздно задавал себе вопрос - почему моя модель так долго инференсит/обучется? Ну так, вот помимо всяких оптимизационных решений есть вариант попроще - взять маленькую модель, но со схожим качеством. Таким образом вы значительно ускоряете ваш процесс почти не меняя код, круто ведь?
Примерно такими же мыслями(наверное) руководствовались ребята из deeppavlov, когда выпускали новую русскую distilrubert-tiny модель примерно неделю назад 🔥.
По параметрам и весу она незначительно, но меньше ранее известной rubert-tiny. По скорости также есть улучшения, как и по кол-ву токенов в словаре. Кст, на батче 16 на CPU моделька в 3 раза быстрее ⚡️.
Я думаю, что каждый датасаентист рано или поздно задавал себе вопрос - почему моя модель так долго инференсит/обучется? Ну так, вот помимо всяких оптимизационных решений есть вариант попроще - взять маленькую модель, но со схожим качеством. Таким образом вы значительно ускоряете ваш процесс почти не меняя код, круто ведь?
Примерно такими же мыслями(наверное) руководствовались ребята из deeppavlov, когда выпускали новую русскую distilrubert-tiny модель примерно неделю назад 🔥.
По параметрам и весу она незначительно, но меньше ранее известной rubert-tiny. По скорости также есть улучшения, как и по кол-ву токенов в словаре. Кст, на батче 16 на CPU моделька в 3 раза быстрее ⚡️.
deeppavlov.ai
DeepPavlov: an open source conversational AI framework
DeepPavlov is designed for development of production ready chat-bots and complex conversational systems, research in the area of NLP and, particularly, of dialog systems.
🔥3
Временные ряды ⏱
Сталкивались ли вы с задачей предсказания каких-то значений на основе временных меток? Если да, то скорее всего вы знаете, что значения каждого ряда специфичны и зависят от множества факторов. Давайте разберем их на примере нефти.
1️⃣ Нефть - сезонный продукт, особенно в России, так как из неё делают мазут, который часто используется в зимнее время. Её основными ценообразующими факторами являются решения ОПЕК/ОПЕК+ (регулируют добычу нефти в каждой участвующей стране) и уровень запасов в коммерческих хранилищах.
2️⃣ Но это ещё не все, также существенное влияние оказывают внешние факторы по типу сильных климатических изменений(ураганы) и следовательно, изменения в цепочках поставок.
3️⃣ Исходя из фактов выше, уже можно понять, что собирать подобные данные в автоматическом режиме крайне сложно, а учитывать их степень влияния ещё сложнее.
Именно поэтому, когда админ делал предсказание на год вперед, он осознавал, что его результат будет очень плачевен. Так и вышло, я ошибся примерно на 10 баксов вниз за одну единицу 😁.
Сталкивались ли вы с задачей предсказания каких-то значений на основе временных меток? Если да, то скорее всего вы знаете, что значения каждого ряда специфичны и зависят от множества факторов. Давайте разберем их на примере нефти.
1️⃣ Нефть - сезонный продукт, особенно в России, так как из неё делают мазут, который часто используется в зимнее время. Её основными ценообразующими факторами являются решения ОПЕК/ОПЕК+ (регулируют добычу нефти в каждой участвующей стране) и уровень запасов в коммерческих хранилищах.
2️⃣ Но это ещё не все, также существенное влияние оказывают внешние факторы по типу сильных климатических изменений(ураганы) и следовательно, изменения в цепочках поставок.
3️⃣ Исходя из фактов выше, уже можно понять, что собирать подобные данные в автоматическом режиме крайне сложно, а учитывать их степень влияния ещё сложнее.
Именно поэтому, когда админ делал предсказание на год вперед, он осознавал, что его результат будет очень плачевен. Так и вышло, я ошибся примерно на 10 баксов вниз за одну единицу 😁.
😁1
Ну а вообще зачем был пост выше?
Его основной посыл - проверяйте ваши возможности и данные во время работы с временными признаками. Зачастую можно проглядеть утечку данных и получить супер результат, даже не проверяя предсказанные значения на графике.
В реальных проектах такие ошибки стараются минимизировать. Бывает, что ваша модель просто-напросто может выдать отрицательный результат и вы об этом не узнаете 💁.
Как такое исправлять? Стакать модели и простые подходы, например - взять средневзвешенное значений:
1) бустинг
2) среднее за прошлый месяц/прошлого года
3) значение прошлого года
4) линейная модель
Таким образом ваши предсказания станут устойчивее к выкрутасам моделей, но менее устойчивы к краткосрочным изменениям, хотя на то они и краткосрочны.
Видео про факторы нефти
Его основной посыл - проверяйте ваши возможности и данные во время работы с временными признаками. Зачастую можно проглядеть утечку данных и получить супер результат, даже не проверяя предсказанные значения на графике.
В реальных проектах такие ошибки стараются минимизировать. Бывает, что ваша модель просто-напросто может выдать отрицательный результат и вы об этом не узнаете 💁.
Как такое исправлять? Стакать модели и простые подходы, например - взять средневзвешенное значений:
1) бустинг
2) среднее за прошлый месяц/прошлого года
3) значение прошлого года
4) линейная модель
Таким образом ваши предсказания станут устойчивее к выкрутасам моделей, но менее устойчивы к краткосрочным изменениям, хотя на то они и краткосрочны.
Видео про факторы нефти
VK Видео
Вебинар «Мировой рынок нефти и факторы её ценообразования»
Watch Вебинар «Мировой рынок нефти и факторы её ц.. 1 hr. 19 min 19 s from 18 September 2020 online in HD for free in the VK catalog without signing up! Views: 533. Likes: 11.
Хотите пройти интервью? 🤷♀️
Когда я готовил пост про суммаризацию, случайно наткнулся на интересный сайт на котором нашел серию вопросов-ответов для подготовки к собеседованию и честно, мне понравилось. Есть картинки, которые сильно упрощают понимание текста, только жалко что все на английском.
[1] В первой части затрагивают такие вопросы как:
— Что вы знаете о фича инжиниринге?
— Что такое NLP?
— Что такое рекомендательные системы?
[2] Во второй части стало чуть ближе к практике и появились вопросы про:
— Градиентный спуск
— Преобразование Бокса-Кокса(для временных рядов бывает полезно)
— Variance inflation factors(честно хз что это)
[3] В последней части вопросы начали затрагивать тему классификации и такие штуки как:
— AdaBoost/XGBoost/Random Forest
— Метрики/Ошибки первого и второго рода
— Переобучение
Ну т.е. спрашивают реально дельные вещи, я бы даже сказал, что инфа из этой статьи далеко не во всех курсах присутствует.
А вообще хотите что-нибудь разобрать из этого списка? Пишите в комменты, попробуем.✊
Когда я готовил пост про суммаризацию, случайно наткнулся на интересный сайт на котором нашел серию вопросов-ответов для подготовки к собеседованию и честно, мне понравилось. Есть картинки, которые сильно упрощают понимание текста, только жалко что все на английском.
[1] В первой части затрагивают такие вопросы как:
— Что вы знаете о фича инжиниринге?
— Что такое NLP?
— Что такое рекомендательные системы?
[2] Во второй части стало чуть ближе к практике и появились вопросы про:
— Градиентный спуск
— Преобразование Бокса-Кокса(для временных рядов бывает полезно)
— Variance inflation factors(честно хз что это)
[3] В последней части вопросы начали затрагивать тему классификации и такие штуки как:
— AdaBoost/XGBoost/Random Forest
— Метрики/Ошибки первого и второго рода
— Переобучение
Ну т.е. спрашивают реально дельные вещи, я бы даже сказал, что инфа из этой статьи далеко не во всех курсах присутствует.
А вообще хотите что-нибудь разобрать из этого списка? Пишите в комменты, попробуем.✊
Telegram
Градиентное погружение
Что вы знаете о задаче суммаризации?
Знали ли вы что её можно разделить на 2 категории:
- Экстрактивный подход (всякие хитрые и не очень алгоритмы)
- Абстрактивный подход (нейронки)
Если со вторым все понятно, то вот про первый стоит немного поговорить.…
Знали ли вы что её можно разделить на 2 категории:
- Экстрактивный подход (всякие хитрые и не очень алгоритмы)
- Абстрактивный подход (нейронки)
Если со вторым все понятно, то вот про первый стоит немного поговорить.…
ONNX - не панацея
Странно такое слышать от человека, который около месяца конвертировал различные клипы: начиная от классического Open AI и заканчивая RuCLIP.
И так, когда применять onnx не совсем разумно?
Оказалось тогда, когда ваша модель и так мегабастрая.
Из-за чего конкретно так происходит, я разобраться не смог, но предполагаю, что из-за всяких оптимизаций.
Странно такое слышать от человека, который около месяца конвертировал различные клипы: начиная от классического Open AI и заканчивая RuCLIP.
И так, когда применять onnx не совсем разумно?
Оказалось тогда, когда ваша модель и так мегабастрая.
Из-за чего конкретно так происходит, я разобраться не смог, но предполагаю, что из-за всяких оптимизаций.
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIG online seminar on machine learning:
👨🔬 Vlad Lialin «Современные модели с памятью. Начало новой парадигмы? »
⌚️ Четверг 3 февраля, 18.00 по Москве
О докладчике: Влад - автор одного из лучших каналов в телеграмме по Natural Language Processing - "DL in NLP" (@dlinnlp) - подписывайтесь !
В 2019 GPT-2 изменил NLP навсегда. Впервые подход "больше данных, больше слоёв" начал работать для языка. 2020 принёс GPT-3, который поражал нас своими размерами ещё больше. Постепенно гигантские модели стали практически повседневными - у каждой большой компании есть одна или две - но тренировать их становится всё сложнее.
Всего несколько месяцев назад DeepMind выпустил модель RETRO. Её особенность заключается в том, что несмотря на небольшой по современным меркам размер (7B), она обходит GPT-3 (175B) и Gopher (280B) на большом числе задач. Каким образом? Кроме информации заключенной в параметрах нейросети, RETRO обращается к огромному текстовому корпусу в котором ищет похожие тексты. Эти похожие тексты подаются в языковую модель вместе с обычным входом, который языковая модель должна продолжить. Таким образом RETRO может "подсмотреть" какую-то информацию которую никогда не видела или не запомнила из этой внешней базы данных.
На встрече мы разберём предшествовавшие модели, такие как KNN-LM, подробно разберём саму RETRO и как она работает и пофантазируем как такой подход может потенциально изменить NLP в 2022.
Ссылка на зум будет доступна в этом канале: https://t.iss.one/sberlogabig ближе к началу доклада.
Подписывайтесь на канал https://t.iss.one/sberlogabig ! Интересные материалы и увлекательные доклады.👍
👨🔬 Vlad Lialin «Современные модели с памятью. Начало новой парадигмы? »
⌚️ Четверг 3 февраля, 18.00 по Москве
О докладчике: Влад - автор одного из лучших каналов в телеграмме по Natural Language Processing - "DL in NLP" (@dlinnlp) - подписывайтесь !
В 2019 GPT-2 изменил NLP навсегда. Впервые подход "больше данных, больше слоёв" начал работать для языка. 2020 принёс GPT-3, который поражал нас своими размерами ещё больше. Постепенно гигантские модели стали практически повседневными - у каждой большой компании есть одна или две - но тренировать их становится всё сложнее.
Всего несколько месяцев назад DeepMind выпустил модель RETRO. Её особенность заключается в том, что несмотря на небольшой по современным меркам размер (7B), она обходит GPT-3 (175B) и Gopher (280B) на большом числе задач. Каким образом? Кроме информации заключенной в параметрах нейросети, RETRO обращается к огромному текстовому корпусу в котором ищет похожие тексты. Эти похожие тексты подаются в языковую модель вместе с обычным входом, который языковая модель должна продолжить. Таким образом RETRO может "подсмотреть" какую-то информацию которую никогда не видела или не запомнила из этой внешней базы данных.
На встрече мы разберём предшествовавшие модели, такие как KNN-LM, подробно разберём саму RETRO и как она работает и пофантазируем как такой подход может потенциально изменить NLP в 2022.
Ссылка на зум будет доступна в этом канале: https://t.iss.one/sberlogabig ближе к началу доклада.
Подписывайтесь на канал https://t.iss.one/sberlogabig ! Интересные материалы и увлекательные доклады.👍
👍1
RuCLIP tiny - быстрее, чем вы думаете 🔥
Спустя около месяца с начала разработки, мы готовы представить вам самую свежую нашу работу - модель для связывания текста и изображения - RuCLIP tiny.
Что в ней такого примечательного? Как минимум её размер на диске 146Мб(!), занимаемый объем ~800Мб в памяти видеокарты, а также кол-во параметров 38М. И все это в fp32.
А что ещё? Конечно же скорость работы, а именно ~16мс на батче размером 64(!). Мы также протестировали нашу разработку на датасете CIFAR100 и получили 46.62% top1 и 73.18% top5 zero-shot accuracy.
Помимо всего прочего мы не забыли сделать удобный интерфейс и ноутбуки для наших пользователей.
Почитать поподробнее можно в нашей статье на хабре
Саму разработку вы можете найти на нашем гитхабе
Спустя около месяца с начала разработки, мы готовы представить вам самую свежую нашу работу - модель для связывания текста и изображения - RuCLIP tiny.
Что в ней такого примечательного? Как минимум её размер на диске 146Мб(!), занимаемый объем ~800Мб в памяти видеокарты, а также кол-во параметров 38М. И все это в fp32.
А что ещё? Конечно же скорость работы, а именно ~16мс на батче размером 64(!). Мы также протестировали нашу разработку на датасете CIFAR100 и получили 46.62% top1 и 73.18% top5 zero-shot accuracy.
Помимо всего прочего мы не забыли сделать удобный интерфейс и ноутбуки для наших пользователей.
Почитать поподробнее можно в нашей статье на хабре
Саму разработку вы можете найти на нашем гитхабе
👍11🔥3
AlphaCode - ещё один генератор кода
*но это не точно*
Буквально вчера компания DeepMind(подконтрольная гуглом) выпустила свежую статью, в которой рассказала о своем исследовании в области решения задач с Codeforces. Как обычно, с помощью нейронки.
Суть в чем - взяли все задачки/решения с платформы, в том числе неправильные, и подали на вход модельке похожей на Copilot, при этом указывали правильно ли решена поставленная задача.
Результаты тестирования показали, что AlphaCode решает задачки лучше чем 54% всех пользователей Codeforces. Подобных результатов получилось достичь за счет генерации большого числа решений и тестирования в системе.
Посмотреть визуализацию работы модели можно по ссылке
Почитать статью из блога можно тут
Датасет вроде как тоже выпустили
*но это не точно*
Буквально вчера компания DeepMind(подконтрольная гуглом) выпустила свежую статью, в которой рассказала о своем исследовании в области решения задач с Codeforces. Как обычно, с помощью нейронки.
Суть в чем - взяли все задачки/решения с платформы, в том числе неправильные, и подали на вход модельке похожей на Copilot, при этом указывали правильно ли решена поставленная задача.
Результаты тестирования показали, что AlphaCode решает задачки лучше чем 54% всех пользователей Codeforces. Подобных результатов получилось достичь за счет генерации большого числа решений и тестирования в системе.
Посмотреть визуализацию работы модели можно по ссылке
Почитать статью из блога можно тут
Датасет вроде как тоже выпустили
Google DeepMind
Competitive programming with AlphaCode
Solving novel problems and setting a new milestone in competitive programming.
Forwarded from Kirill Vlasov
Кликбейт заголовок: Не пытайся тюнить гиперпараметры пока... 😸😸😸
Ну а если серьезно и вы пытаетесь побороть преобучение или недообчение то посмотрите видео, в котором @nikitxskv расскажет как его детектить с помощью наших встроенных инструментов: https://youtu.be/O2OJ_JWYV0I?t=0
👀 Посмотри все серии Catboost tips'n'tricks videos
📌 Не забудь подписаться на наш канал в Twitter
Ну а если серьезно и вы пытаетесь побороть преобучение или недообчение то посмотрите видео, в котором @nikitxskv расскажет как его детектить с помощью наших встроенных инструментов: https://youtu.be/O2OJ_JWYV0I?t=0
👀 Посмотри все серии Catboost tips'n'tricks videos
📌 Не забудь подписаться на наш канал в Twitter
YouTube
CatBoost | Learning curves: handy progress visualization and overfit/underfit detection helpers
CatBoost is an open-source machine learning library for gradient boosting.
Boost your knowledge with Nikita Dmitriev - CatBoost developer @ Yandex
In this video, Nikita reminds us how to tune the learning rate and the number of iterations with help of a…
Boost your knowledge with Nikita Dmitriev - CatBoost developer @ Yandex
In this video, Nikita reminds us how to tune the learning rate and the number of iterations with help of a…
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
VQGAN + Clip = годнейший симулятор спайсового наркомана
Все началось с того, что я пошел в пиццерию, чтобы сделать матешу.
Ну а дальше случилась странная(в хорошем смысле) ситуация. Прогуливаясь по ТЦ, наткнулись на магазинчик с кубиками рубика. Друг решил что пора бы продемонстрировать свои навыки в сборке и попросил дать кубик 7*7.
Стоим мы такие, смотрим. В какой-то момент зашла речь про наше место учебы, мы и сказали что учимся в {Место учебы}. Оказалось, что сын продавщицы учится там же.
Болтаем, рассказываем о жизни и вдруг я говорю, что мои оценки ниже среднего т.к. большую часть времени занимаюсь далеко не программой обучения. Отвечая на вопрос - "И чем же?", сказал, что занимаюсь нейронками и вот, вот этим всем.
Тут же она спрашивает - "Вы случаем не знаете парня, который перед президентом выступал?"(подразумевается конференция AI Jorney). И знаете, этим парнем был я 😉. После этих слов меня попросили дать контакт, что я конечно же сделал 😂.
Самое интересно в этой ситуации то, что парень давно хотел со мной встретится и когда я выступал на одном внутреннем мероприятии, он был одним из слушателей.
Кажется, выступления дают свои плоды 👍
Ну а дальше случилась странная(в хорошем смысле) ситуация. Прогуливаясь по ТЦ, наткнулись на магазинчик с кубиками рубика. Друг решил что пора бы продемонстрировать свои навыки в сборке и попросил дать кубик 7*7.
Стоим мы такие, смотрим. В какой-то момент зашла речь про наше место учебы, мы и сказали что учимся в {Место учебы}. Оказалось, что сын продавщицы учится там же.
Болтаем, рассказываем о жизни и вдруг я говорю, что мои оценки ниже среднего т.к. большую часть времени занимаюсь далеко не программой обучения. Отвечая на вопрос - "И чем же?", сказал, что занимаюсь нейронками и вот, вот этим всем.
Тут же она спрашивает - "Вы случаем не знаете парня, который перед президентом выступал?"(подразумевается конференция AI Jorney). И знаете, этим парнем был я 😉. После этих слов меня попросили дать контакт, что я конечно же сделал 😂.
Самое интересно в этой ситуации то, что парень давно хотел со мной встретится и когда я выступал на одном внутреннем мероприятии, он был одним из слушателей.
Кажется, выступления дают свои плоды 👍
AI Journey
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта
Конференция AI Journey 2025. Ключевые спикеры в сфере технологий искусственного интеллекта.
👍8
Silero может лучше
Если вы работали с text2speech или speech2text моделями, то скорее всего уже знаете о существовании такой разработки как Silero. Простая в использовании, с хорошим качеством(по мере опенсурса) и в меру быстрая библиотека. Ещё она умеет расставлять автоматически ударения(улучшает качество синтеза речи), но получается не всегда хорошо, поэтому давайте пилить костыли.
Обычно я использую для этого библиотеку StressRNN. Она инференсится на onnxruntime и имеет в себе небольшой словарь для проверки корректности.
Получается недурно, так например
Вход: Шифровальщица попросту забыла ряд ключевых множителей и тэгов.
Выход: Шифров+альщица п+опросту заб+ыла р+яд ключев+ых множ+ителей +и т+эгов.
Если вы работали с text2speech или speech2text моделями, то скорее всего уже знаете о существовании такой разработки как Silero. Простая в использовании, с хорошим качеством(по мере опенсурса) и в меру быстрая библиотека. Ещё она умеет расставлять автоматически ударения(улучшает качество синтеза речи), но получается не всегда хорошо, поэтому давайте пилить костыли.
Обычно я использую для этого библиотеку StressRNN. Она инференсится на onnxruntime и имеет в себе небольшой словарь для проверки корректности.
Получается недурно, так например
Вход: Шифровальщица попросту забыла ряд ключевых множителей и тэгов.
Выход: Шифров+альщица п+опросту заб+ыла р+яд ключев+ых множ+ителей +и т+эгов.
👍3
Код для получения примера прилагается:
# !pip install git+https://github.com/Desklop/StressRNN
from stressrnn import StressRNN
import re
stress_rnn = StressRNN()
text = "Шифровальщица попросту забыла ряд ключевых множителей и тэгов."
stressed_text = stress_rnn.put_stress(text)
print(stressed_text)
print(re.compile(r"(.)\+", re.UNICODE).sub(r"+\1", stressed_text))
# ^ формат для silero
👍1
Forwarded from AbstractDL
OFA: нужно лишь спросить
One For All — мультимодальная модель от Alibaba, которая умеет решать практически все CV-NLP задачи:
- text2image generating
- image captioning
- image inpainting
- VQA
- object detection
- NLU
Мало того, что она побила кучу сот, но и впервые для переключения между задачами не требуется совсем никаких архитектурных изменений (как во Florence). Нужно всего лишь текстом указать что мы хотим: «Закрась центр картинки» или «Что находится в *координаты куска картинки*?». Но САМОЕ крутое здесь это то, что модель смогла обобщиться на новые задачи, которых не было во время обучения — главное правильно сформулировать, что от неё требуется.
Технические детали:
Это энкодер-декодер архитектура — гибрид VQVAE и BART. Для слов, координат и визуальных токенов используется общий словарь репрезентаций, благодаря чему можно произвольно комбинировать модальности. Обучается это всё только на общедоступных данных, за что отдельный респект.
Статья, GitHub
One For All — мультимодальная модель от Alibaba, которая умеет решать практически все CV-NLP задачи:
- text2image generating
- image captioning
- image inpainting
- VQA
- object detection
- NLU
Мало того, что она побила кучу сот, но и впервые для переключения между задачами не требуется совсем никаких архитектурных изменений (как во Florence). Нужно всего лишь текстом указать что мы хотим: «Закрась центр картинки» или «Что находится в *координаты куска картинки*?». Но САМОЕ крутое здесь это то, что модель смогла обобщиться на новые задачи, которых не было во время обучения — главное правильно сформулировать, что от неё требуется.
Технические детали:
Это энкодер-декодер архитектура — гибрид VQVAE и BART. Для слов, координат и визуальных токенов используется общий словарь репрезентаций, благодаря чему можно произвольно комбинировать модальности. Обучается это всё только на общедоступных данных, за что отдельный респект.
Статья, GitHub
Forwarded from тоже моушн
Media is too big
VIEW IN TELEGRAM
исследователи из гугла на днях выложили алгоритм frame interpolation. он умеет делать что то типа оживших фото из гарри поттера - гифку из набора картинок. так вот он неожиданно хорошо показал себя при замедлении анимаций сделанных в VQGAN+CLIP, pytti или Disco Diffusion. собрал это дело в колаб!
frame interpolation on github
demo video on youtube
colab notebook
frame interpolation on github
demo video on youtube
colab notebook