Утекли подробности про GPT-4.
Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.
Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.
Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.
@ai_newz
Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.
Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.
Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.
@ai_newz
Новая LDM модель от Stability AI
Встретился со своими бывшими коллегами по PhD — Робином (справа) и Адреасом (слева).
Парни являются основными авторами Stable Diffusion и сейчас работают в Stability AI.
Сегодня они зарелизили новую Latent Diffusion модель примерно на 3 млрд параметров.
Я так понимаю, это следующее поколение SDXL. И будет опубликован код!
#personal
@ai_newz
Встретился со своими бывшими коллегами по PhD — Робином (справа) и Адреасом (слева).
Парни являются основными авторами Stable Diffusion и сейчас работают в Stability AI.
Сегодня они зарелизили новую Latent Diffusion модель примерно на 3 млрд параметров.
Я так понимаю, это следующее поколение SDXL. И будет опубликован код!
#personal
@ai_newz
🔥Stable Diffusion SDXL 0.9
А вот и официальное подтверждение релиза новой модели, но пока без ссылки на код.
Модель SDXL 0.9 имеет 3.5 B параметров в базовой версии. И будет ещё ансамбль из двух моделей, суммарно на 6.6 B параметров.
Для текстового гайданса вместо одной CLIP модели используется конкатенация из двух: базовый клип от OpenAI)и OpenCLIP ViT-G/14. Это позволяет генерировать более точные детали на картинках.
На парных картинках — сравнение результатов SDXL beta и новой версии SDXL 0.9. Качество сильно возросло
Во время инференса нужна будет видеокарта от AMD с 16 GB VRAM, либо от NVIDIA с 8GB VRAM.
Ждём блог пост со всеми деталями и сам код (который по идее должен появиться сегодня).
https://stability.ai/blog/sdxl-09-stable-diffusion
@ai_newz
А вот и официальное подтверждение релиза новой модели, но пока без ссылки на код.
Модель SDXL 0.9 имеет 3.5 B параметров в базовой версии. И будет ещё ансамбль из двух моделей, суммарно на 6.6 B параметров.
Для текстового гайданса вместо одной CLIP модели используется конкатенация из двух: базовый клип от OpenAI)и OpenCLIP ViT-G/14. Это позволяет генерировать более точные детали на картинках.
На парных картинках — сравнение результатов SDXL beta и новой версии SDXL 0.9. Качество сильно возросло
Во время инференса нужна будет видеокарта от AMD с 16 GB VRAM, либо от NVIDIA с 8GB VRAM.
Ждём блог пост со всеми деталями и сам код (который по идее должен появиться сегодня).
https://stability.ai/blog/sdxl-09-stable-diffusion
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🔥А вот и код SDXL 0.9 подоспел!
В репозитории есть код базовой модели и код рефайнера. Рефайнер — это модель, которая тренировалась на очень качественных картинках и низких уровнях шума. Она предназначена для улучшения выхода базовой модели.
Доступ к весам для исследовательских целей можно запросить по ссылкам [1, 2] в репе. Через пару дней, думаю, они утекут в интернет, если ещё нет.
Кроме того, весь код LDM отрефакторили и причесали (раньше это был просто кошмарный код). Теперь используется Pytorch Lightning. Из этой репы можно также запускать модели SD 2.1.
Короче, кайф!
@ai_newz
В репозитории есть код базовой модели и код рефайнера. Рефайнер — это модель, которая тренировалась на очень качественных картинках и низких уровнях шума. Она предназначена для улучшения выхода базовой модели.
Доступ к весам для исследовательских целей можно запросить по ссылкам [1, 2] в репе. Через пару дней, думаю, они утекут в интернет, если ещё нет.
Кроме того, весь код LDM отрефакторили и причесали (раньше это был просто кошмарный код). Теперь используется Pytorch Lightning. Из этой репы можно также запускать модели SD 2.1.
Короче, кайф!
@ai_newz
CVPR день пятый: постеры и демо
В последний день конфы все уже идет на спад. Многие уезжают сразу после обеда, поэтому лучше презентовать свою работу в первые дни.
Я немного походил по постерам, их как обычно было овер-дохрена. На каждой сессии около 400 постеров презентуются одновременно, две сессии в день. Затем еще погулял между стендами компаний и посмотрел демки.
1. Демка DATID-3D
2. Демка DINO v2 с риалтайм визуализацией фичей, выученных моделью.
3. Сервачки с видюшками от Lambda. Обожаю серваки ❤️.
4. Селф-драйвинг пикап Ford от Latitude AI, дочерней компании Форда, которая будет фокусироваться сугубо на Level 3 автопилотах. То есть цель этой фирмы создать не полностью автономную тачку, а только частично, что с точки зрения Ford более реалистично на коротком горизонте.
@ai_newz
В последний день конфы все уже идет на спад. Многие уезжают сразу после обеда, поэтому лучше презентовать свою работу в первые дни.
Я немного походил по постерам, их как обычно было овер-дохрена. На каждой сессии около 400 постеров презентуются одновременно, две сессии в день. Затем еще погулял между стендами компаний и посмотрел демки.
1. Демка DATID-3D
2. Демка DINO v2 с риалтайм визуализацией фичей, выученных моделью.
3. Сервачки с видюшками от Lambda. Обожаю серваки ❤️.
4. Селф-драйвинг пикап Ford от Latitude AI, дочерней компании Форда, которая будет фокусироваться сугубо на Level 3 автопилотах. То есть цель этой фирмы создать не полностью автономную тачку, а только частично, что с точки зрения Ford более реалистично на коротком горизонте.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги из Reality Labs запилили full-body tracking в VR по имеющимся сигналам со шлема и джойстиков. Ещё тут моделируется взаимодействие с предметами (например, сесть/встать со стула).
Работа называется QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors.
Метод натренирован на основе Reinforcement Learning в физической симуляции. То есть во время инференса тоже придется гонять симуляцию и знать примерные 3д меши и позиции предметов, с которыми юзер взаимодействует в реальном мире.
Выглядит правдоподобно, потому что все движения тела соответствуют физическим законам. Из ограничений — это требование гонять симуляцию во время инференса (это ресурсоемкая и небыстрая вещь) и условие, что мы заранее имеем виртуальную копию физического окружёния, в котором действует юзер.
В моей работе Avatars Grow Legs мы решали похожую проблему 3D трекинга тела, но используя кинематический data-driven подход вместо RL и физической симуляции.
@ai_newz
Работа называется QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors.
Метод натренирован на основе Reinforcement Learning в физической симуляции. То есть во время инференса тоже придется гонять симуляцию и знать примерные 3д меши и позиции предметов, с которыми юзер взаимодействует в реальном мире.
Выглядит правдоподобно, потому что все движения тела соответствуют физическим законам. Из ограничений — это требование гонять симуляцию во время инференса (это ресурсоемкая и небыстрая вещь) и условие, что мы заранее имеем виртуальную копию физического окружёния, в котором действует юзер.
В моей работе Avatars Grow Legs мы решали похожую проблему 3D трекинга тела, но используя кинематический data-driven подход вместо RL и физической симуляции.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Вот ещё пример. Интересно как аватар симулирует раскачивание на стуле, стараясь следовать входным сигналам с головы и рук.
Ноги не падают под текстуры, как оно иногда бывает в других подходах, где явно нет физических ограничений. Здесь же в явном виде в физической симуляции используются законы гравитации, масса и материалы объектов. Policy network (нейронка, которая учится контролировать аватар) моделирует момент силы на костях скелета человека, что приводит аватар в действие. Поэтому аватару и приходится следовать законам физики в данном виртуальном пространстве и учиться балансировать и не падать.
@ai_newz
Ноги не падают под текстуры, как оно иногда бывает в других подходах, где явно нет физических ограничений. Здесь же в явном виде в физической симуляции используются законы гравитации, масса и материалы объектов. Policy network (нейронка, которая учится контролировать аватар) моделирует момент силы на костях скелета человека, что приводит аватар в действие. Поэтому аватару и приходится следовать законам физики в данном виртуальном пространстве и учиться балансировать и не падать.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Пока летел в самолете я послушал разговор с CEO Майкрософта, Сатьей Наделлой в подкасте Freakonomics.
Я впервые послушал интервью с Сатьей, он оказался прикольным весельчаком, который любит переводить поэзию на разные языки с помощью ChatGPT. Ещё он работает в Майкрософте аж с 1992 — это 31 год!
В подкасте они поверхностно поговорили про ChatGPT и про то, почему Майкрософт проинвестировал 13 млрд $ в OpenAI.
Среди достижений Наделлы как CEO — увеличение фокуса компании на облачных вычислениях и конечно AI. За его время на посту CEO, Майкрософт, можно сказать, встал с колен.
Был ещё такой прикол. Мы знаем, что Сатья был одним из тех, кто подписывал различные письма призывающие к созданию ограничений для AI и ответственному подходу к его разработке (на прошлой неделе появилось ещё одно письмо размером в одно предложение). Так вот ведущий спросил Сатью, почему во время массовых увольнений из Майкрософта они под ноль вырезали команду, которая занималась этикой, ведь это очень важно для создания "ответственного ИИ". На это CEO очень ловко ответил, мол им уже не нужна отдельная команда, которая бы этим занималась, потому что теперь он просит каждого инженера и каждого сайнтиста думать об "безопасном ИИ", и что теперь такой "ответственный" подход также неразрывен с созданием AI моделей, как неразрывна разработка ПО с его тестированием.
Выпуск короткий, можно послушать на сайте подкаста.
@ai_newz
Я впервые послушал интервью с Сатьей, он оказался прикольным весельчаком, который любит переводить поэзию на разные языки с помощью ChatGPT. Ещё он работает в Майкрософте аж с 1992 — это 31 год!
В подкасте они поверхностно поговорили про ChatGPT и про то, почему Майкрософт проинвестировал 13 млрд $ в OpenAI.
Среди достижений Наделлы как CEO — увеличение фокуса компании на облачных вычислениях и конечно AI. За его время на посту CEO, Майкрософт, можно сказать, встал с колен.
Был ещё такой прикол. Мы знаем, что Сатья был одним из тех, кто подписывал различные письма призывающие к созданию ограничений для AI и ответственному подходу к его разработке (на прошлой неделе появилось ещё одно письмо размером в одно предложение). Так вот ведущий спросил Сатью, почему во время массовых увольнений из Майкрософта они под ноль вырезали команду, которая занималась этикой, ведь это очень важно для создания "ответственного ИИ". На это CEO очень ловко ответил, мол им уже не нужна отдельная команда, которая бы этим занималась, потому что теперь он просит каждого инженера и каждого сайнтиста думать об "безопасном ИИ", и что теперь такой "ответственный" подход также неразрывен с созданием AI моделей, как неразрывна разработка ПО с его тестированием.
Выпуск короткий, можно послушать на сайте подкаста.
@ai_newz
Freakonomics
Satya Nadella’s Intelligence Is Not Artificial - Freakonomics
The Little Book of Deep Learning
Карманная книга по DL от профессора из Женевского Университета François Fleuret. Всего 160 страниц размером с экран телефона, где очень ёмко описываются основные принципы Глубокого Обучения с отличными иллюстрациями.
Классно подойдёт для того чтобы освежить знания перед собеседованиями либо для быстрого входа в DL (желательно, конечно, пользоваться и другими источниками параллельно).
• По ссылке можно бесплатно скачать PDF, отформатированную специально для удобного чтения на мобильных телефонах.
• Либо можно заказать бумажный вариант. #книги
@ai_newz
Карманная книга по DL от профессора из Женевского Университета François Fleuret. Всего 160 страниц размером с экран телефона, где очень ёмко описываются основные принципы Глубокого Обучения с отличными иллюстрациями.
Классно подойдёт для того чтобы освежить знания перед собеседованиями либо для быстрого входа в DL (желательно, конечно, пользоваться и другими источниками параллельно).
• По ссылке можно бесплатно скачать PDF, отформатированную специально для удобного чтения на мобильных телефонах.
• Либо можно заказать бумажный вариант. #книги
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Новый курс: Generative AI with Large Language Models
Сегодня Эндрю Ын аннонсировал на Coursera новый трёхнедельный курс по большим языковым моделям (LLM).
Курс подойдет для все кто хочет в структурированной форме разобраться как работают LLM-ки такие как LLaMa и GPT-4, и как с ними работать. Все лекции в сумме - примерно 15 часов. Преподавать будут 3 эксперта из AWS, которые занимаются LLM на работе и имеют широкий практический опыт.
Вот примеры некоторых тем, которые покрываются курсом:
— RLHF: Reinforcement Learning from Human Feedback (RLHF) - это подход, который помогает согласовать большие языковые модели с предпочтениями людей, что значительно улучшает качество взаимодействия между людьми и этими моделями. ChatGPT тоже была обучена с помощью этого подхода.
— Zero-shot, one-shot, и few-shot обучение с LLM: Это обучение моделей на ограниченном количестве примеров. Эта функция появляется примерно начиная с 100M+ параметров. Эффективность модели в zero-shot, one-shot или few-shot режиме кажется масштабируется с размером модели, то есть крупные модели (с большим количеством обучаемых параметров или слоев) обычно более эффективны.
— Продвинутый промптинг ReAct: ReAct - это фреймворк, в котором большие языковые модели используются для генерации как логических шагов, так и задачно-ориентированных действий попеременно. Генерация логических шагов позволяет модели формировать, отслеживать и обновлять планы действий, а также обрабатывать исключения.
— Fine-tuning LLMs: Fine-tuning ("дообучение") - это процесс адаптации большой языковой модели к конкретной задаче путем ее обучения на меньшем, соответствующем наборе данных.
Короче, это топ курс, бесплатно и без СМС! Думаю сам тоже посмотреть.
👁 Записаться на курс на Coursera
#ликбез
@ai_newz
Сегодня Эндрю Ын аннонсировал на Coursera новый трёхнедельный курс по большим языковым моделям (LLM).
Курс подойдет для все кто хочет в структурированной форме разобраться как работают LLM-ки такие как LLaMa и GPT-4, и как с ними работать. Все лекции в сумме - примерно 15 часов. Преподавать будут 3 эксперта из AWS, которые занимаются LLM на работе и имеют широкий практический опыт.
Вот примеры некоторых тем, которые покрываются курсом:
— RLHF: Reinforcement Learning from Human Feedback (RLHF) - это подход, который помогает согласовать большие языковые модели с предпочтениями людей, что значительно улучшает качество взаимодействия между людьми и этими моделями. ChatGPT тоже была обучена с помощью этого подхода.
— Zero-shot, one-shot, и few-shot обучение с LLM: Это обучение моделей на ограниченном количестве примеров. Эта функция появляется примерно начиная с 100M+ параметров. Эффективность модели в zero-shot, one-shot или few-shot режиме кажется масштабируется с размером модели, то есть крупные модели (с большим количеством обучаемых параметров или слоев) обычно более эффективны.
— Продвинутый промптинг ReAct: ReAct - это фреймворк, в котором большие языковые модели используются для генерации как логических шагов, так и задачно-ориентированных действий попеременно. Генерация логических шагов позволяет модели формировать, отслеживать и обновлять планы действий, а также обрабатывать исключения.
— Fine-tuning LLMs: Fine-tuning ("дообучение") - это процесс адаптации большой языковой модели к конкретной задаче путем ее обучения на меньшем, соответствующем наборе данных.
Короче, это топ курс, бесплатно и без СМС! Думаю сам тоже посмотреть.
👁 Записаться на курс на Coursera
#ликбез
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Мы уже почти во вселенной Марвел. Тут челы из Университета Токио изобрели Доктора Октавиуса — к человеку приделали ещё две пары рук!
Выглядит жутко, но представьте как много всякого можно будет делать, если мозг овладеет всеми четырьмя дополнительными руками так же хорошо как и двумя дефолтными. И это недалеко от правды, ведь мозг человека очень адаптивен, и есть исследования, показывающие, как он может адаптироваться к управлению всякими новыми штуками. Самый простой пример — это управление автомобилем. После периода привыкания к машине, она начинает казаться вам продолжением вашего тела. Вы идеально чувствуете его габариты и совершенно точно можете им маневрировать. Похожий эффект достигается если дать определенным нейронам управлять новым девайсом напрямую, например дополнительным пальцем либо дополнительными руками, как тут.
Всякие бионические протезы и симбиоз роботических девайсов с кожаными телами — очень занимательная область. Интересно, когда такие прибамбасы пойдут в массы?
@ai_newz
Выглядит жутко, но представьте как много всякого можно будет делать, если мозг овладеет всеми четырьмя дополнительными руками так же хорошо как и двумя дефолтными. И это недалеко от правды, ведь мозг человека очень адаптивен, и есть исследования, показывающие, как он может адаптироваться к управлению всякими новыми штуками. Самый простой пример — это управление автомобилем. После периода привыкания к машине, она начинает казаться вам продолжением вашего тела. Вы идеально чувствуете его габариты и совершенно точно можете им маневрировать. Похожий эффект достигается если дать определенным нейронам управлять новым девайсом напрямую, например дополнительным пальцем либо дополнительными руками, как тут.
Всякие бионические протезы и симбиоз роботических девайсов с кожаными телами — очень занимательная область. Интересно, когда такие прибамбасы пойдут в массы?
@ai_newz