EXTENDED (SUR)REALITY
2.56K subscribers
208 photos
68 videos
223 links
Канал Александры Танюшиной (PhD, MSU) о современной медиакультуре, цифровой философии и диджитал-арте

Распутничаем с цифровым сюром и парим в виртуальных эмпиреях

Контакт для связи: @SyuTanyushina
Download Telegram
Последние пару дней все обсуждают уход из OpenAI Ильи Суцкевера и Яна Лейке, отвечавших в компании за направление SuperAlingnmet.

Напомню, что их исследовательская группа была организована в июле прошлого года в целях изучения проблем контроля и обеспечения безопасности будущего сверхразумного ИИ, который потенциально может значительно превосходить человека в интеллектуальных способностях.

Тогда в анонсе OpenAI заявила, что планирует использовать 20% своих вычислительных мощностей для обеспечения работы направления. В итоге именно из-за проблем с вычислительными ресурсами команде в последнее время становилось все сложнее проводить свои исследования.

(О причинах ухода, а тоже о том, почему их группа «шла против ветра», см. пост Яна Лейке).

Про проблему «супервыравнивания» на данный момент написано много. Хотя, учитывая, что нынче это одна из ключевых проблем, связанных с долгосрочными рисками развития AGI, про которую говорят почти все разработчики, ученые и философы, занимающиеся ИИ, то любое «много» остается недостаточным.

Поэтому вот топ важных обзорных постов от Яна Лейке, с которых можно начать изучение этой темы:

▪️What is the alignment problem?
(тут Лейке описывает «трудную проблему выравнивания» - мало нам было «трудных проблем»)

▪️What could a solution to the alignment problem look like?

▪️What is inner alignment?

▪️Why I’m optimistic about our alignment approach

#technologies
#philosophy
This media is not supported in your browser
VIEW IN TELEGRAM
Вспомнила крутой пример устройства для создания «постфотографий»

В 2023 году голландский дизайнер Bjoern Karmann разработал ИИ-фотокамеру под названием Paragraphica.
Камера работает, собирая данные о местоположении фотографа (локация, погода, время суток и т.п.). На основе этих данных создается текстовое описание, а затем text-to-image модель преобразует этот текст в "фотографию".

(На сайте дизайнера периодически появляется возможность протестировать камеру в реальном времени прямо через браузер)

#aesthetics
#technologies
This media is not supported in your browser
VIEW IN TELEGRAM
Увидела этот Ted Talk с дизайнером Джейсоном Руголо про audio computers, захотелось поделиться.

Руголо продемонстрировал работу носимого устройства IYO ONE, представляющего собой пару наушников, способных пропускать и регулировать звуки из реального мира, а также быстро реагировать на широкий спектр голосовых запросов.

Компания дизайнера уже начала обработку предзаказов и планирует выпустить продукт этой зимой (видимо, запрос «turn that baby down» показался многим потенциальным пользователям актуальным). Ожидаемая цена - 600-700$.

Что ж, ИИ уже давно вдохновляет изобретателей на создание новых типов устройств для ежедневного пользования, но пока их продукты не особо выстреливают.
(Можно вспомнить AI Pin, который позиционировался как альтернатива смартфона, но в итоге был признан «самым бесполезным изобретением последних лет»).

Скорее всего многие функции подобного «аудио-компьютера» в будущем будут попросту интегрированы в какие-нибудь универсальные смарт-очки.

Но, с другой стороны, спекулятивный дизайн никто не отменял: как и ИИ-фотокамера в примере выше, такие штуки заставляют задуматься, как радикально может измениться наша повседневность уже совсем скоро.

#technologies
#future
This media is not supported in your browser
VIEW IN TELEGRAM
В последнее время отчаянно цепляюсь за любые новости про Spatial AI

(У меня не закрыт гештальт с темой пространственных вычислений - видимо из-за того, что наш самый нашумевший «пространственный компьютер» Apple Vision Pro, мягко говоря, не выстрелил, хотя классные кейсы с применением этих очков периодически всплывают - вот пример).

Напомню, Spatial AI - это область, которая фокусируется на исследованиях восприятия, понимания и взаимодействия ИИ с 3D-миром, физическим и/или виртуальным.

Сюда относятся: анализ и интерпретация визуальных данных (изображений, видео, 3D-сканов и др.), создание 3D-моделей реальных объектов и пространств (цифровых двойников) для реализации обучающих симуляций, определение положения ИИ-агента (робота) в пространстве, картографирование ИИ окружающей среды, планирование перемещения в ней, манипуляция физическими объектами и т.д.

Spatial AI находит применение в робототехнике, создании беспилотных автомобилей, развитии умных домов/городов, проектировании промышленных метавселенных и др.

Примеры можно приводить бесконечно: платформа Omniverse от Nvidia, обучение роботов Optimus на примере действий людей в VR-шлемах (видео сверху), обучение робопсов в симуляторах.

Deloitte в своем ежегодном отчете отмечают, что объем рынка пространственных вычислений к 2032 году составит $600 млрд (ну предположим).

А еще я заметила недавнее выступление Фей-Фей Ли, которая говорит про «цифровой Кэмбрийский взрыв» в контексте развития пространственного ИИ.

В общем, цифровой философ потирает ладошки, когда слова «ИИ», «симуляция», «цифровые двойники» и «трилобиты» используются в одном контексте.

#technologies
#philosophy
Media is too big
VIEW IN TELEGRAM
Начала вчера листать 165-страничный документ от экс-сотрудника OpenAI о будущем AGI: если коротко, то вполне возможно, что «общий ИИ» появится к 2027 году, а там и суперинтеллект не за горами (тут есть интервью с автором статьи, где он пересказывает основные идеи работы на протяжении 4 часов).

В какой-то момент я не выдержала и отвлеклась на новую фишку GPT-4о: теперь нам показали, как модель говорит разными голосами, которые пользователь может настраивать в соответствии со своими пожеланиями.

Актеров озвучки, конечно, немного жалко, но, черт возьми, как же это прикольно.

#trends
#technologies
Ну что, появился новый конкурент Sora

Речь о китайской Kling, создающей видео-ролики продолжительностью до 2 минут. Она неплохо справляется с моделированием пространств, движений и физических законов (конечно, пока не на ‘отлично’, но все лучше, чем некоторые видео от гугловской Veo).

Напомню, что такие генеративные модели нужны не только для того, чтобы отнимать работу у режиссеров и видео-креаторов, но и для обучения ИИ-агентов.

(Кстати, наконец нашла удобоваримый термин, который заменяет более тяжеловесный «универсально-воплощенный агент»: foundation agents. Это как foundation model, только речь уже не о языковых моделях, а об агентах, обученных на мультимодальных датасетах, способных действовать как в физических, так и в виртуальных средах, а также автономно принимать решения. Подробнее - в этой статье).

Так вот, если реальных интерактивных данных недостаточно или их получение невозможно, для обучения «фундаментальных агентов» можно использовать симуляторы и генеративные модели, такие как Sora, Veo или Kling.

Так что чем больше конкурентоспособных моделей, генерирующих консистентные видео, тем больше потенциальных данных для будущих агентов.
И тем больше шансы, что OpenAI в конце-концов откроет доступ к Sora.


#technologies
Это явно неделя генеративного видео: сначала всех удивил китайский Kling, а теперь компания Luma AI представила нейросеть Dream Machine

Это text-to-video модель + с ее помощью также можно анимировать статичные изображения (пользователи уже ринулись оживлять известные мемы).

Качество, конечно, еще не на уровне Sora, но зато абсолютно всем доступны 30 бесплатных генераций в месяц - бегите пробовать!

#technologies
#trends
This media is not supported in your browser
VIEW IN TELEGRAM
С головой ушла в один креативно-исследовательский проект, посвященный культуре нового «нового видения».

Набираю для него огромное количество интересных кейсов, связанных с генеративным кино и видео: фильм «Последний сценарист», сценарий к которому написал ChatGPT, и показ которого отменили из-за многочисленных жалоб, бесконечный ИИ-фильм “What the robot saw” от художницы Эми Александер и др. (не только же на мемы от Dream Machine смотреть).

В частности, наткнулась на ИИ-кинокамеру от 1stAveMachine и SpecialGuestX (про похожую по задумке ИИ-фотокамеру уже писала ранее). Camera Model 1 записывает реальные изображения и преобразует их с помощью video-tо-video модели. Это первоначальный прототип, не предназначенный для коммерческих целей, однако дизайн камеры был разработан таким образом, чтобы в дальнейшем можно было масштабировать ее производство. 

Но пока цель создателей – критически переосмыслить культовый лозунг, который в свое время использовался компанией Kodak: "You press the button, we do the rest". 

Камеру на днях представили на международном фестивале «Каннские львы», где, кстати, также же выступал Илон Маск с рассказом о своем видении будущего (посмотреть интервью можно тут, но если резюмировать выступление – мы с вами живем в самую интересную эпоху за всю историю человечества).

#technologies
#art