🔥PIXART-Σ:
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.
Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.
Сайт проекта
Демо (только в 1024p)
Кода пока нет
@ai_newz
Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Китайцы из Huawei опубликовали новую text2image модель, которая может генерить картинки в 4к! Результаты выглядят очень достойно.
Архитектура основана на DiT (как и у Stable Diffusion 3), но с модифицированным аттеншеном. Кажется, теперь все новые text2img и yext2vid будут на базе DiT, UNet уходит в историю.
Сайт проекта
Демо (только в 1024p)
Кода пока нет
@ai_newz
А вот это интересно. Маск сказал, что они заопенсорсят свою LLM Grok на этой неделе.
Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).
Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.
@ai_newz
Вы же слышали, что Маск пошел в атаку на OpenAI и даже подал в суд на них (если коротко, то из-за того, что они превратились из Open в Closed).
Любопытно увидеть, что же там у Grok под капотом. Модель, конечно, не Gpt4 и не Claude3 уровень, но опенсорс — это всегда замечательно.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Когда стараешься не наговорить на пару многомиллионных исков.
П.С. Это Мира Мурати, CTO OpenAI.
Она недавно давала итервью WS о Sora.
Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):
- Sora выйдет в течение 2024 года
- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.
- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.
- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.
Полное интервью.
@ai_newz
П.С. Это Мира Мурати, CTO OpenAI.
Она недавно давала итервью WS о Sora.
Несколько ключевых моментов оттуда (помимо сомнительных данных для обучения):
- Sora выйдет в течение 2024 года
- Вместо часов, Мира отметила, что требуется лишь несколько минут для создания 20-секундного видео в разрешении 720p.
- Самая большая проблема AI-генерируемого видео это консистентность между кадрами, и Sora особенно хороша в этом.
- Политика фильтрации контента, аналогичная Dall-E, будет применяться и к Sora для предотвращения дезинформации, включая ограничения, чтобы запретить Sora генерировать изображения публичных фигур.
Полное интервью.
@ai_newz
Media is too big
VIEW IN TELEGRAM
Mapillary - уличные карты на стеройдах
Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.
Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.
Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!
Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app
@ai_newz
Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.
Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.
Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!
Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
NeRF 360 on Mapillary: Swiss National Museum
Кажется, кто-то нащупал золотую жилу 🥹 .
Мужикам с зоны есть чему поучиться у африканских гуру.
@ai_newz
Мужикам с зоны есть чему поучиться у африканских гуру.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎥Video Editing via Factorized Diffusion Distillation
Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.
Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.
Таким образом, студент выучивает консистентно менять кадры на видео.
ArXiv
Сайт проекта с примерами
@ai_newz
Коллеги из Meta AI выпустили новый метод для редактирования видео. Все это поверх нашей модели Emu. Если вкратце, то архитектура представляет собой комбинацию Emu Edit и Emu Video (Temporal слои) поверх базовой модели Emu.
Тренируют модель с помощью двойной дистилляции с дискриминаторами. Студент состоит из комбинайии Emu Edit + Emu Video , то есть умеет и генерировать видео и менять изображения покадрово. А учителя два: 1) Это предобученный Emu Edit, который меняет каждый кадр по инструкции, 2) предобученный Emu Video, который тупо генерит видео по заданному промпту.
Таким образом, студент выучивает консистентно менять кадры на видео.
ArXiv
Сайт проекта с примерами
@ai_newz
🔥 Grok: 314B параметров. 8 экспертов. Нормально!
Код должен быть тут https://github.com/xai-org/grok
@ai_newz
Код должен быть тут https://github.com/xai-org/grok
@ai_newz
Никогда такого не было и вот опять - британские учёные Washington Post выяснили, что BigTech платит в разы лучше академии
Ли Фэй-Фэй, типа крестной мамки ИИ (эта тетя еще и была научным руководителем Андрея Карпатого), закинула тему о бабле на нацпроект по AI перед Байденом. Суть в том, чтобы университеты cмогли догнать корпоративных монстров типа Meta, Google и Microsoft, которые уже натренировали кучу моделей, пока академия пыталась выжить на остатках грантов.
Ребята, конечно, совершили высадку на луну с 4kb RAM, но пока Meta закупает 350к H100, бедняги из Стэнфорда пытаются что-то выжать из своих 68... штучек. Я уже даже не говорю про разницу в з/п между индустрией и академией - можете глянуть levels.fyi сами.
Чтобы хоть как-то замутить свой исследовательский хайп, ученым приходится ломиться в биг-теки, которые в ответ задают направление ресерча. Как результат, большая часть крутых исследований теперь идет под флагом индустрии, а университеты вынуждены довольствоваться крохами. Чтобы это проверить, достаточно вспомнить хоть бы одну Foundation модель для Language или Computer Vision, которую натренировали в университете - мне сходу на ум ничего не приходит.
А вообще, Open source, конечно, задает жару всяким гуглам, только вот мощностей все равно катастрофически не хватает.
Ли уже каталась по Вашингтону, пытаясь пробить финансирование на "GPU для народа", чтобы хоть как-то уровнять шансы. В то же время, корпорации, типа Microsoft, уже подкинули кое-какие ресурсы ($20M) в общий котел, но это, по большому счету, капля в море.
Ситуация настолько критична, что почти 70% PhD по AI уходят в индустрию, искушенные зарплатами и возможностью работать над чем-то крутым. А 10 лет назад эта цифра была 21%. И вот они стоят перед выбором: сидеть в академии и пилить науку за гроши или перейти на темную сторону и ресерчить за бабло. Те, кто решает остается, приходится либо договариваться с индустрией, либо наблюдать, как их темы уплывают к тем, кто может позволить себе больше железа и данных.
По себе знаю, в универститетах круто в плане свободы выбора тем исследований, но там совсем нет ресурсов на тренировку современных больших моделей...
@ai_newz
Ли Фэй-Фэй, типа крестной мамки ИИ (эта тетя еще и была научным руководителем Андрея Карпатого), закинула тему о бабле на нацпроект по AI перед Байденом. Суть в том, чтобы университеты cмогли догнать корпоративных монстров типа Meta, Google и Microsoft, которые уже натренировали кучу моделей, пока академия пыталась выжить на остатках грантов.
Ребята, конечно, совершили высадку на луну с 4kb RAM, но пока Meta закупает 350к H100, бедняги из Стэнфорда пытаются что-то выжать из своих 68... штучек. Я уже даже не говорю про разницу в з/п между индустрией и академией - можете глянуть levels.fyi сами.
Чтобы хоть как-то замутить свой исследовательский хайп, ученым приходится ломиться в биг-теки, которые в ответ задают направление ресерча. Как результат, большая часть крутых исследований теперь идет под флагом индустрии, а университеты вынуждены довольствоваться крохами. Чтобы это проверить, достаточно вспомнить хоть бы одну Foundation модель для Language или Computer Vision, которую натренировали в университете - мне сходу на ум ничего не приходит.
А вообще, Open source, конечно, задает жару всяким гуглам, только вот мощностей все равно катастрофически не хватает.
Ли уже каталась по Вашингтону, пытаясь пробить финансирование на "GPU для народа", чтобы хоть как-то уровнять шансы. В то же время, корпорации, типа Microsoft, уже подкинули кое-какие ресурсы ($20M) в общий котел, но это, по большому счету, капля в море.
Ситуация настолько критична, что почти 70% PhD по AI уходят в индустрию, искушенные зарплатами и возможностью работать над чем-то крутым. А 10 лет назад эта цифра была 21%. И вот они стоят перед выбором: сидеть в академии и пилить науку за гроши или перейти на темную сторону и ресерчить за бабло. Те, кто решает остается, приходится либо договариваться с индустрией, либо наблюдать, как их темы уплывают к тем, кто может позволить себе больше железа и данных.
По себе знаю, в универститетах круто в плане свободы выбора тем исследований, но там совсем нет ресурсов на тренировку современных больших моделей...
@ai_newz
Telegram
эйай ньюз
Google: "У нас нет преимущества перед конкурентами, также его нет у OpenAI"
Из Гугла утек внутренний документ, где один из ресерчеров пишет о том, что Гугл проигрывает гонку AI опенсоурсу, который не сдержан никакими юридическими трудностями.
Вот цитата…
Из Гугла утек внутренний документ, где один из ресерчеров пишет о том, что Гугл проигрывает гонку AI опенсоурсу, который не сдержан никакими юридическими трудностями.
Вот цитата…
Похоже, Apple все же подарит Siri мозг!
Помните недавно прошелся слух, что готовится Apple GPT?
Так вот, Apple только что купила стартап Darwin AI, который работает над уменьшением и ускорением AI моделей. Тим Кук уже успел пообещать "открыть новые горизонты" в этом году, и похоже, все-таки у нас будет возможность пользоваться нейросетью от эпл локально на новеньком айфоне.
Apple всегда заботилась о безопасности и приватности, так что возможность общаться с ботом и редактировать фотки локально была бы пушкой, да и за облачные вычисления платить не придется, как это решил сделать Samsung.
Времени до конца года осталось не так много, интересно, успеют ли.😐
@ai_newz
Помните недавно прошелся слух, что готовится Apple GPT?
Так вот, Apple только что купила стартап Darwin AI, который работает над уменьшением и ускорением AI моделей. Тим Кук уже успел пообещать "открыть новые горизонты" в этом году, и похоже, все-таки у нас будет возможность пользоваться нейросетью от эпл локально на новеньком айфоне.
Apple всегда заботилась о безопасности и приватности, так что возможность общаться с ботом и редактировать фотки локально была бы пушкой, да и за облачные вычисления платить не придется, как это решил сделать Samsung.
Времени до конца года осталось не так много, интересно, успеют ли.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
эйай ньюз
Похоже, Apple все же подарит Siri мозг! Помните недавно прошелся слух, что готовится Apple GPT? Так вот, Apple только что купила стартап Darwin AI, который работает над уменьшением и ускорением AI моделей. Тим Кук уже успел пообещать "открыть новые горизонты"…
Тут еще и сделка между Google и Apple назревает.
Яблоко хочет получить лицензию на использование моделей Gemini в новых фичах, которые появятся на iPhone в этом году. Gemini планируют использовать для более тяжелых задач, и гонять модели в клауде, а не на девайсе. Свои же модели Apple пилят под телефон.
В целом, Apple либо позади в гонке LLM, либо они очень секретно двигаются.
@ai_newz
Яблоко хочет получить лицензию на использование моделей Gemini в новых фичах, которые появятся на iPhone в этом году. Gemini планируют использовать для более тяжелых задач, и гонять модели в клауде, а не на девайсе. Свои же модели Apple пилят под телефон.
В целом, Apple либо позади в гонке LLM, либо они очень секретно двигаются.
@ai_newz
Bloomberg.com
Apple Is in Talks to Let Google Gemini Power iPhone AI Features
Apple Inc. is in talks to build Google’s Gemini artificial intelligence engine into the iPhone, according to people familiar with the situation, setting the stage for a blockbuster agreement that would shake up the AI industry.
Как всегда бывает на презентациях NVIDIA, слово "быстро" - это вчерашний день.
Но не радуйтесь раньше времени - цены будут ядреными! Если H100 стоит около $40k, то GB200 будет минимум в 4-5 раз дороже.
Да и не достать их будет простым смертным. Первыми их получат Amazon, Google, Microsoft и Oracle. Известно, что Амазон уже планирует кластер на 20,000 GB200.
А потребительские версии Blackwell ожидаются не раньше 2025 г.
Ещё посты для интересующихся:
1. Про H100
2. Про H100 NVL192GB
3. Про GH200
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
А вот так выглядит сам суперчип GB200.
Подробности: https://blogs.nvidia.com/blog/2024-gtc-keynote/
@ai_newz
Подробности: https://blogs.nvidia.com/blog/2024-gtc-keynote/
@ai_newz