📑RedPajama: текстовый датасет на 1.2 триллиона токенов!
Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!
RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.
RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:
- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы
Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.
Блогпост
Скачать датасет
@ai_newz
Недавно я писал про открытую модель Dolly 2.0. Теперь таких моделей станет больше, ведь подъехал самосвал с текстовыми данными!
RedPajama - это датасет на 1.2 триллиона текстовых токенов, созданный с целью воспроизведения передовых LLM. Датасет был воссоздан, следуя рецепту описанному в статье о LLaMA (то есть LLaMA училась на чем-то похожем). Кайф в том, что RedPajama-Data-1T является открытым и доступным для скачивания, то есть на нем можно обучать свои модельки.
RedPajama-Data-1T - это 2048 json файлов, которые включают 7 сегментов данных:
- CommonCrawl: 5 дампов
- C4 датасет
- GitHub код, отфильтрованный по лицензиям
- arXiv: Научные статьи
- Books: Корпус открытых книг
- Wikipedia: Подмножество страниц
- StackExchange: скроулили 28 крупнейших сайтов платформы
Кажется, что через пару месяцев мы увидим в open-source полностью открытую версию LLaMA, обученную с нуля с использованием этого набора данных.
Блогпост
Скачать датасет
@ai_newz
Media is too big
VIEW IN TELEGRAM
🚀Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
[CVPR 2023]
Кажется, этот год будет годом генерации видео!
Тут авторы Stable Diffusion постажировались в NVIDIA и выкатили Latent Diffusion для синтеза видео.
Со слов автора статьи и моего одногруппника Робина, важной частью тут является временной fine-tuning декодера для видео — он исправляет мерцающие артефакты, возникающие при наивном декодировании.
Кода и весов не будет, потому что это NVIDIA🌚. Так что наслаждайтесь примерами и ждем реиплементации от китайцев.
Сайт проекта
@ai_newz
[CVPR 2023]
Кажется, этот год будет годом генерации видео!
Тут авторы Stable Diffusion постажировались в NVIDIA и выкатили Latent Diffusion для синтеза видео.
Со слов автора статьи и моего одногруппника Робина, важной частью тут является временной fine-tuning декодера для видео — он исправляет мерцающие артефакты, возникающие при наивном декодировании.
Кода и весов не будет, потому что это NVIDIA🌚. Так что наслаждайтесь примерами и ждем реиплементации от китайцев.
Сайт проекта
@ai_newz
Что нужно ученому для счастья
Сегодня после обеда было паршивое настроение из-за XFN партнеров. Что я сделал? Взялсамые лютые статейки по трактовке диффузионных моделей через дифференциальные уравнения (например, [ICLR21 , NIPS22 ]) и закопался в теорию. Сразу такое приятное и теплое чувство окутало, и на душе полегчало. Так что читайте побольше статей, будьте добрее:)
#карьера
@ai_newz
Сегодня после обеда было паршивое настроение из-за XFN партнеров. Что я сделал? Взял
#карьера
@ai_newz
В индустрии сейчас есть тенденция на сближение фундаментальных ресерч команд с продуктовыми делами. AI уже не маленький пиздючок, который ничего без взрослых не может. Хватит играть в песочнице, пора бы и хлеб в дом приносить.
Теперь больше нет отдельной компании DeepMind, вчера она окончательно слилась с Google, где попала в состав большой команды Google DeepMind, куда так же вошла и ресерч команда Google Brain. Я так понимаю, теперь ресерчеры будут ближе к продуктам, ближе к импакту.
Кроме того, Jeff Dean был назначен главным учёным всей компании (Google’s Chief Scientist), который стоит над всеми ресерчерами и докладывает напрямую CEO.
@ai_newz
Теперь больше нет отдельной компании DeepMind, вчера она окончательно слилась с Google, где попала в состав большой команды Google DeepMind, куда так же вошла и ресерч команда Google Brain. Я так понимаю, теперь ресерчеры будут ближе к продуктам, ближе к импакту.
Кроме того, Jeff Dean был назначен главным учёным всей компании (Google’s Chief Scientist), который стоит над всеми ресерчерами и докладывает напрямую CEO.
@ai_newz
Google
Google DeepMind: Bringing together two world-class AI teams
We announced some changes that will accelerate our progress in AI and help us develop more capable AI systems more safely and responsibly.
This media is not supported in your browser
VIEW IN TELEGRAM
Вы только посмотрите какого малыша я встретил! ❤️
Стричь лужайку полагается в определенном порядке, и в этом ему помогает ChatGPT-4,сорян, ну уж точно нет ! Юд, кстати, в ужасе.
Хайп настолько велик, что не удивляйтесь, если теперь будете видеть технику с наклейкой "ChatGPT внутри". Это все грязный маркетинг, но обыватель будет брать.
@ai_newz
Стричь лужайку полагается в определенном порядке, и в этом ему помогает ChatGPT-4,
Хайп настолько велик, что не удивляйтесь, если теперь будете видеть технику с наклейкой "ChatGPT внутри". Это все грязный маркетинг, но обыватель будет брать.
@ai_newz
Scaling Transformer to 1M tokens and beyond with RMT
Парни из DeepPavlov (привет, если читаете!) на днях выпустили тех-репорт, где соорудили Recurrent Memory Transformer, который способен держать контекст в 1M токенов!
Чтобы вы понимали, ChatGPT сейчас имеет контекст в 32k токенов. А 1 миллион токенов - это несколько книг приличного размера. Теперь модель сможет держать гораздо больше информации "в голове", и например, написать эссе по целому роману, вместо того чтобы работать на маленьких отрывках.
Принцип работы похож на рекурентную сеть, где трансформер постепенно поедает куски контекста, при этом сжимая инфу из каждого куска и обновляя свое внутреннее состояние. В результате такой компресси финальный результат получается слегка хуже чем при работе с маленькими контекстами. Ну, и работает это медленно, ведь все равно придется прогнать все 1M токенов через сеть.
Однако, это интересный результат, который, вероятно, через несколько месяцев доработают и оптимизируют.
Код для BERT
Статья
@ai_newz
Парни из DeepPavlov (привет, если читаете!) на днях выпустили тех-репорт, где соорудили Recurrent Memory Transformer, который способен держать контекст в 1M токенов!
Чтобы вы понимали, ChatGPT сейчас имеет контекст в 32k токенов. А 1 миллион токенов - это несколько книг приличного размера. Теперь модель сможет держать гораздо больше информации "в голове", и например, написать эссе по целому роману, вместо того чтобы работать на маленьких отрывках.
Принцип работы похож на рекурентную сеть, где трансформер постепенно поедает куски контекста, при этом сжимая инфу из каждого куска и обновляя свое внутреннее состояние. В результате такой компресси финальный результат получается слегка хуже чем при работе с маленькими контекстами. Ну, и работает это медленно, ведь все равно придется прогнать все 1M токенов через сеть.
Однако, это интересный результат, который, вероятно, через несколько месяцев доработают и оптимизируют.
Код для BERT
Статья
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Что у нас по SOTA self-supervised сетям для зрения?
Зарелизили DINOv2.
Это трансформер для картинок, который натренирован абсолютно без лейблов.
Идея позаимствована из тренировки языковых моделей, где случайным образом удаляется слово из предложения и нейронка должна предсказать, что было пропущено. В картинках же закрашивают случайный патч черным и просят сеть предсказать, что там было.
В чем прелесть?
В том, что DINOv2 натренировали на огромном сбалансированном датасете (142M изображения) и выложили код и веса на гитхаб. То есть теперь, когда решаете свою задачу, нужно начинать не с весов, натренированных на ImageNet, а с весов DINOv2, которые более универсальные и лучше подходят под новые задачи. Так же авторы показали, что фичи DINOv2 лучше чем фичи OpenCLIP, который тренировался соотносить размеченные пары картинок и их текстовых описаний.
Натренили ViT трансформеры разного размера: дистиллированный ViT-L/14 с 300М параметров перформит почти как ViT-g/14 с 1.1B параметров!
Блог
Код
Демо
@ai_newz
Зарелизили DINOv2.
Это трансформер для картинок, который натренирован абсолютно без лейблов.
Идея позаимствована из тренировки языковых моделей, где случайным образом удаляется слово из предложения и нейронка должна предсказать, что было пропущено. В картинках же закрашивают случайный патч черным и просят сеть предсказать, что там было.
В чем прелесть?
В том, что DINOv2 натренировали на огромном сбалансированном датасете (142M изображения) и выложили код и веса на гитхаб. То есть теперь, когда решаете свою задачу, нужно начинать не с весов, натренированных на ImageNet, а с весов DINOv2, которые более универсальные и лучше подходят под новые задачи. Так же авторы показали, что фичи DINOv2 лучше чем фичи OpenCLIP, который тренировался соотносить размеченные пары картинок и их текстовых описаний.
Натренили ViT трансформеры разного размера: дистиллированный ViT-L/14 с 300М параметров перформит почти как ViT-g/14 с 1.1B параметров!
Блог
Код
Демо
@ai_newz
Про обобщение DINOv2 на другие задачи и трюки обучения
DINOv2 тренировалась на сбалансированном large-scale датасете, да ещё и без лейблов, то есть информация, на которой обучают сеть, не ограничена качеством текстовых аннотациями.
Авторы тут еще применили серию SOTA трюков для тренировки self-supervised моделей на картинках:
— Обучали одновременно и на целых изображениях и на патчах, чтобы учить сеть замечать более мелкие детали на изображениях
— Варьировали разрешение картинок во время тренировки
— Использовали регуляризатор, который максимизирует энтропию фичей внутри батча
— и несколько других трюков, про которые можно почитать в статье.
В итоге фичи DINOv2 хорошо показывают себя на ряде новых задач, например на предсказании глубины, сегментации и матчинге точек на парах изображений. Причем без всякого файнтюнинга. Просто берутся замороженные фичи DINOv2 и поверх них тренируется один линейный слой, которые решает новую задачу.
Конечно, можно и файнтюнить, если у вас данных достаточно.
@ai_newz
DINOv2 тренировалась на сбалансированном large-scale датасете, да ещё и без лейблов, то есть информация, на которой обучают сеть, не ограничена качеством текстовых аннотациями.
Авторы тут еще применили серию SOTA трюков для тренировки self-supervised моделей на картинках:
— Обучали одновременно и на целых изображениях и на патчах, чтобы учить сеть замечать более мелкие детали на изображениях
— Варьировали разрешение картинок во время тренировки
— Использовали регуляризатор, который максимизирует энтропию фичей внутри батча
— и несколько других трюков, про которые можно почитать в статье.
В итоге фичи DINOv2 хорошо показывают себя на ряде новых задач, например на предсказании глубины, сегментации и матчинге точек на парах изображений. Причем без всякого файнтюнинга. Просто берутся замороженные фичи DINOv2 и поверх них тренируется один линейный слой, которые решает новую задачу.
Конечно, можно и файнтюнить, если у вас данных достаточно.
@ai_newz
🥩 A Cookbook of Self-Supervised Learning
Раз уж пошла такая пьянка про self-supervised learning для зрения, то вот вам ещё подарочек от моих коллег из Meta AI. Позавчера Ян Лекун в соавторстве с другими ребятами опубликовали книгу рецептов по self-supervised обучению.
Авторы отобрали плотную выжимку рецептов из топовых статей про self-supervised обучение за последние 5-6 лет и теперь представили в виде 44 страниц годноты. Кстати, таких маленьких, но плотных книг очень не хватает в других областях AI.
В книге вы найдете трюки и подходы к тому как правильно приготовить и обучить свою self-supervised модель на своих данных. Начиная от лоссов и заканчивая способами ускорить тренировку и методами оценки качества моделей. Также по этой книженции вы сможете лучше разобраться как работает тот же DINOv2 из поста выше.
Советую, однозначно.
❱❱ Книга на arXiv
@ai_newz
Раз уж пошла такая пьянка про self-supervised learning для зрения, то вот вам ещё подарочек от моих коллег из Meta AI. Позавчера Ян Лекун в соавторстве с другими ребятами опубликовали книгу рецептов по self-supervised обучению.
Авторы отобрали плотную выжимку рецептов из топовых статей про self-supervised обучение за последние 5-6 лет и теперь представили в виде 44 страниц годноты. Кстати, таких маленьких, но плотных книг очень не хватает в других областях AI.
В книге вы найдете трюки и подходы к тому как правильно приготовить и обучить свою self-supervised модель на своих данных. Начиная от лоссов и заканчивая способами ускорить тренировку и методами оценки качества моделей. Также по этой книженции вы сможете лучше разобраться как работает тот же DINOv2 из поста выше.
Советую, однозначно.
❱❱ Книга на arXiv
@ai_newz
🔥DeepFloyd IF: новая text-2-image модель
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.
Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.
Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL
— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост
— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.
Код выложили, веса ждем тут. И ждем подробной статьи от авторов.
@ai_newz
Италия: Блокирует доступ к ChatGPT.
Тоже Италия: майский выпуск Vogue выходит с обложкой, сгенерированной в DALLE-2.
Итальянцы, определитесь уже, можно ли использовать AI 🌚.
Фотограф Vogue сначала пытался сам сгенерировать фон в DALLE-2, но у него не получалось толком описать словами то, что он хочет. В итоге пригласили профессионального промт-инженера, который нагенерил им фонов.
Со слов редакции:
"Мы поняли, что создание эстетически приятных изображений для такого журнала, как Vogue, требует титанических усилий, до пяти раз превышающих студийное производство. Таким образом, с точки зрения экономической эффективности при нынешнем уровне развития техники все же стоит выбрать традиционную фотосессию, даже если для этого потребуется отправить весь экипаж на Северный полюс."
В общем, Vogue пока не готовы полность переходить на AI фото. Мало опыта в промптинге что ли? А нанимать промпт-инженера дорого, ведь поговаривают, что они сейчас зарабатывают $200k+ (кек).
@ai_newz
Тоже Италия: майский выпуск Vogue выходит с обложкой, сгенерированной в DALLE-2.
Итальянцы, определитесь уже, можно ли использовать AI 🌚.
Фотограф Vogue сначала пытался сам сгенерировать фон в DALLE-2, но у него не получалось толком описать словами то, что он хочет. В итоге пригласили профессионального промт-инженера, который нагенерил им фонов.
Со слов редакции:
"Мы поняли, что создание эстетически приятных изображений для такого журнала, как Vogue, требует титанических усилий, до пяти раз превышающих студийное производство. Таким образом, с точки зрения экономической эффективности при нынешнем уровне развития техники все же стоит выбрать традиционную фотосессию, даже если для этого потребуется отправить весь экипаж на Северный полюс."
В общем, Vogue пока не готовы полность переходить на AI фото. Мало опыта в промптинге что ли? А нанимать промпт-инженера дорого, ведь поговаривают, что они сейчас зарабатывают $200k+ (кек).
@ai_newz
🔥Появились веса и демка модельки DeepFloyd IF!
Погенерил животных с табличками. Получается хорошо, но очень медленно! На каждую картинку уходило по 2 минуты на A100. Минута на модель первого уровня и минута на апскейлер.
Модель жирненькая и медленная — 4.3 млрд параметров только базовая модель, которая генерит 64×64. Для сравнения, Stable Diffusion v2 имеет только ≈1 млрд параметров.
➕Скачать веса
➕Погонять демку
➕Блогпост с галлереей
@ai_newz
Погенерил животных с табличками. Получается хорошо, но очень медленно! На каждую картинку уходило по 2 минуты на A100. Минута на модель первого уровня и минута на апскейлер.
Модель жирненькая и медленная — 4.3 млрд параметров только базовая модель, которая генерит 64×64. Для сравнения, Stable Diffusion v2 имеет только ≈1 млрд параметров.
➕Скачать веса
➕Погонять демку
➕Блогпост с галлереей
@ai_newz
Media is too big
VIEW IN TELEGRAM
🦿Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model
Друзья, спешу поделиться с вами своей статьей на CVPR 2023! Я написал ее со своим интерном в Meta Reality Labs до того, как мы перешли в GenAI.
Метод называется Avatars Grow Legs (AGRoL), и смысл его в том, чтобы научиться управлять всем телом 3D аватара в VR без дополнительных сенсоров. Обычно в VR вы пользуетесь шлемом и двумя джойстиками в руках. При этом сигнала с ног не поступает никакого. И даже несмотря на то, что в Quest есть камеры которые направлены вниз, ноги почти никогда полностью не видны, и уж тем более если у вы человек широкой кости.
Поэтому мы предложили своё решение — диффузионную модель, которая по трекингу рук и головы синтезирует движение всего тела в 3D. То есть по глобальной 3D позиция и 3D повороту трех точек можно предсказать как двигаются ноги, даже явно их не наблюдая.
❱❱ Мы опубликовали код и веса, так что можете позапускать сами.
❱❱ arXiv
❱❱ Сайт проекта с примерами
@ai_newz
Друзья, спешу поделиться с вами своей статьей на CVPR 2023! Я написал ее со своим интерном в Meta Reality Labs до того, как мы перешли в GenAI.
Метод называется Avatars Grow Legs (AGRoL), и смысл его в том, чтобы научиться управлять всем телом 3D аватара в VR без дополнительных сенсоров. Обычно в VR вы пользуетесь шлемом и двумя джойстиками в руках. При этом сигнала с ног не поступает никакого. И даже несмотря на то, что в Quest есть камеры которые направлены вниз, ноги почти никогда полностью не видны, и уж тем более если у вы человек широкой кости.
Поэтому мы предложили своё решение — диффузионную модель, которая по трекингу рук и головы синтезирует движение всего тела в 3D. То есть по глобальной 3D позиция и 3D повороту трех точек можно предсказать как двигаются ноги, даже явно их не наблюдая.
❱❱ Мы опубликовали код и веса, так что можете позапускать сами.
❱❱ arXiv
❱❱ Сайт проекта с примерами
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
...Продолжение про Avatars Grow Legs (CVPR 2023)
Наша модель AGRoL — это диффузионную модель, которая синтезирует motion последовательности полного скелета человека (координаты + поворот 26 точек) по трем входным точкам. Более того, мы задизайнили AGRoL с помощью эффективной архитектуры, которая состоит только из линейных слоёв, которые применяются попеременно по временной оси и по пространственной, что существенно увеличивает скорость семплинга.
Во время инференса, мы прогоняем 5 шагов DDIM. В итоге AGRoL работает со скоростью 30 FPS на V100, что довольно быстро для диффузионных моделей.
🔊Смотрите видео-презентацию со звуком. Полная версия тут.
@ai_newz
Наша модель AGRoL — это диффузионную модель, которая синтезирует motion последовательности полного скелета человека (координаты + поворот 26 точек) по трем входным точкам. Более того, мы задизайнили AGRoL с помощью эффективной архитектуры, которая состоит только из линейных слоёв, которые применяются попеременно по временной оси и по пространственной, что существенно увеличивает скорость семплинга.
Во время инференса, мы прогоняем 5 шагов DDIM. В итоге AGRoL работает со скоростью 30 FPS на V100, что довольно быстро для диффузионных моделей.
🔊Смотрите видео-презентацию со звуком. Полная версия тут.
@ai_newz