EXTENDED (SUR)REALITY

Вспомнила крутой пример устройства для создания «постфотографий»

В 2023 году голландский дизайнер Bjoern Karmann разработал ИИ-фотокамеру под названием Paragraphica.
Камера работает, собирая данные о местоположении фотографа (локация, погода, время суток и т.п.). На основе этих данных создается текстовое описание, а затем text-to-image модель преобразует этот текст в "фотографию".

(На сайте дизайнера периодически появляется возможность протестировать камеру в реальном времени прямо через браузер)

#aesthetics
#technologies

2.2K views17:14

1:15

Увидела этот Ted Talk с дизайнером Джейсоном Руголо про audio computers, захотелось поделиться.

Руголо продемонстрировал работу носимого устройства IYO ONE, представляющего собой пару наушников, способных пропускать и регулировать звуки из реального мира, а также быстро реагировать на широкий спектр голосовых запросов.

Компания дизайнера уже начала обработку предзаказов и планирует выпустить продукт этой зимой (видимо, запрос «turn that baby down» показался многим потенциальным пользователям актуальным). Ожидаемая цена - 600-700$.

Что ж, ИИ уже давно вдохновляет изобретателей на создание новых типов устройств для ежедневного пользования, но пока их продукты не особо выстреливают.
(Можно вспомнить AI Pin, который позиционировался как альтернатива смартфона, но в итоге был признан «самым бесполезным изобретением последних лет»).

Скорее всего многие функции подобного «аудио-компьютера» в будущем будут попросту интегрированы в какие-нибудь универсальные смарт-очки.

Но, с другой стороны, спекулятивный дизайн никто не отменял: как и ИИ-фотокамера в примере выше, такие штуки заставляют задуматься, как радикально может измениться наша повседневность уже совсем скоро.

#technologies
#future

1.7K views07:02

0:28

В последнее время отчаянно цепляюсь за любые новости про Spatial AI

(У меня не закрыт гештальт с темой пространственных вычислений - видимо из-за того, что наш самый нашумевший «пространственный компьютер» Apple Vision Pro, мягко говоря, не выстрелил, хотя классные кейсы с применением этих очков периодически всплывают - вот пример).

Напомню, Spatial AI - это область, которая фокусируется на исследованиях восприятия, понимания и взаимодействия ИИ с 3D-миром, физическим и/или виртуальным.

Сюда относятся: анализ и интерпретация визуальных данных (изображений, видео, 3D-сканов и др.), создание 3D-моделей реальных объектов и пространств (цифровых двойников) для реализации обучающих симуляций, определение положения ИИ-агента (робота) в пространстве, картографирование ИИ окружающей среды, планирование перемещения в ней, манипуляция физическими объектами и т.д.

Spatial AI находит применение в робототехнике, создании беспилотных автомобилей, развитии умных домов/городов, проектировании промышленных метавселенных и др.

Примеры можно приводить бесконечно: платформа Omniverse от Nvidia, обучение роботов Optimus на примере действий людей в VR-шлемах (видео сверху), обучение робопсов в симуляторах.

Deloitte в своем ежегодном отчете отмечают, что объем рынка пространственных вычислений к 2032 году составит $600 млрд (ну предположим).

А еще я заметила недавнее выступление Фей-Фей Ли, которая говорит про «цифровой Кэмбрийский взрыв» в контексте развития пространственного ИИ.

В общем, цифровой философ потирает ладошки, когда слова «ИИ», «симуляция», «цифровые двойники» ~~и «трилобиты»~~ используются в одном контексте.

#technologies
#philosophy

1.5K views06:52

2:04

Media is too big

Начала вчера листать 165-страничный документ от экс-сотрудника OpenAI о будущем AGI: если коротко, то вполне возможно, что «общий ИИ» появится к 2027 году, а там и суперинтеллект не за горами (тут есть интервью с автором статьи, где он пересказывает основные идеи работы на протяжении 4 часов).

В какой-то момент я не выдержала и отвлеклась на новую фишку GPT-4о: теперь нам показали, как модель говорит разными голосами, которые пользователь может настраивать в соответствии со своими пожеланиями.

Актеров озвучки, конечно, немного жалко, но, черт возьми, как же это прикольно.

#trends
#technologies

1.9K views06:10

0:06

0:06

Ну что, появился новый конкурент Sora

Речь о китайской Kling, создающей видео-ролики продолжительностью до 2 минут. Она неплохо справляется с моделированием пространств, движений и физических законов (конечно, пока не на ‘отлично’, но все лучше, чем некоторые видео от гугловской Veo).

Напомню, что такие генеративные модели нужны не только для того, чтобы отнимать работу у режиссеров и видео-креаторов, но и для обучения ИИ-агентов.

(Кстати, наконец нашла удобоваримый термин, который заменяет более тяжеловесный «универсально-воплощенный агент»: foundation agents. Это как foundation model, только речь уже не о языковых моделях, а об агентах, обученных на мультимодальных датасетах, способных действовать как в физических, так и в виртуальных средах, а также автономно принимать решения. Подробнее - в этой статье).

Так вот, если реальных интерактивных данных недостаточно или их получение невозможно, для обучения «фундаментальных агентов» можно использовать симуляторы и генеративные модели, такие как Sora, Veo или Kling.

Так что чем больше конкурентоспособных моделей, генерирующих консистентные видео, тем больше потенциальных данных для будущих агентов.
И тем больше шансы, что OpenAI в конце-концов откроет доступ к Sora.

#technologies

1.8K views06:24

Это явно неделя генеративного видео: сначала всех удивил китайский Kling, а теперь компания Luma AI представила нейросеть Dream Machine

Это text-to-video модель + с ее помощью также можно анимировать статичные изображения (пользователи уже ринулись оживлять известные мемы).

Качество, конечно, еще не на уровне Sora, но зато абсолютно всем доступны 30 бесплатных генераций в месяц - бегите пробовать!

#technologies
#trends

1.9K views08:44

0:08