РЕПТИЛОИДНАЯ
2.28K subscribers
427 photos
380 videos
4 files
304 links
О будущем, которое мы заслужили: AR/VR, AI, роботы, трансгуманизм.
Авторский блог Дениса Россиева. Для связи: @enuriru
Чат: @reptiloidnaya_chat
 
instagram.com/enuriru/
awesome-ar.com
Download Telegram
Media is too big
VIEW IN TELEGRAM
ИИ заберет у вас не только работу, но и девушку

Как-то не дошли руки написать про свежий релиз от OpenAI, но ведь лучше поздно, чем никогда?

Почти месяц назад была представлена новая языковая модель GPT-4o, которая уже доступна всем, причем даже без платной подписки.

Главным отличием заявлена полная мультимодальность. Что это значит?

Ранее голосовой диалог с моделью работал так: голос переводился в текст отдельной нейронкой (Whisper), текст кормился GPT, она отвечала, и в финале текст также отдельной нейронкой переводился в речь.

Новая модель умеет понимать речь (а также картинки и прочее) без предварительной обработки, что позволяет распознавать интонации, оттенки голоса, говорить намного более естественно, и главное, делать это все практически в реалтайме. Новый голосовой режим еще включили не всем, ждем.

Мужики, чувствуете конкуренцию?


🔴 @reptiloidnaya × #ai #llm #chatgpt #киберпанк
Apple очень жирно навалили ИИ.

Так, как это не умеет никто, кроме Apple — в виде красивых, удобных, человеческих интерфейсов.
Все что описано в посте работает на уровне всей системы, а не в виде какого-то отдельного приложения или костыля.

Настоятельно рекомендую прям посмотреть эту часть презентации: https://youtu.be/RXeOiIDNNek?t=4031

А вот краткая сводка.

В айфон, айпад и мак на уровне системы интегрирована собственная мультимодальная модель (как ChatGPT, только маленькая) от Apple. Модель работает без интернета, прямо на устройстве, и делает огромное количество всего:

Тексты:
— Саммарайз (выделение ключевых смыслов из текста): из смс, емейлов, документов и даже сайтов прямо в браузере.
— Проверка грамматики, орфографии.
— Переписывание текстов (смс, емейлов, etc) в нужном стиле — профессиональном, неформальном, и так далее.
— Генерация текстов.
— Улучшенное распознание рукописного текста на iPad.
— Автоматические исправление почерка — он становится более красивым.
— Рукописный текст можно редактировать — удалять или дописывать фрагменты, буквы и строчки будут двигаться автоматически.
— Smart reply — например, вас спросили, придет ли ваш друг на встречу — система автоматически генерирует интерфейс с кнопками выбора ответов на вопросы из сообщения, а затем составит текстовый ответ.
— В калькуляторе на iPad можно стилусом писать формулы и выражения, ИИ автоматически их вычислит.

Фото:
— Плоские фото на Vision Pro автоматически становятся объемными.
— Можно использовать естественный язык для поиска по галерее, например «фото где Настя на пляже в красном платье».
— Поиск по видео перебрасывает в нужный момент в видео(!)
— Удаление объектов с фото, улучшение цвета.
— Генерация картинок (тоже без интернета!)
— Генерация эмоджи.

Система
— ИИ-выделение важного из пуш-уведомлений и их группировка по контексту.
— Глобальный ИИ-поиск по всему — емейлам, смс, фото, видео, приложениям, заметкам, календарям.
— С Siri можно чатиться голосом или текстом. Все также без интернета! Но модель маленькая, и может предложить напрямую обратиться к более-мощной ChatGPT в облаке (причем аккаунт в ChatGPT для этого не нужен, а платные подписчики могут линкануть свой и открыть доступ ко всем фичам).
— Siri видит что у вас на экране, понимает это, и может управлять системой(!)
— Siri может управлять сторонними приложениями, используя их публичные API — заказать еду, вызвать такси, что угодно еще (зависит от того, что разрешат разработчики).
— Siri помнит контекст диалога — например, вы спросили адрес ресторана, можно теперь просто сказать — построй маршрут.

В общем, смотрите презентацию. Это то, как должен работать ИИ — интегрировано во всех частях системы, а не просто в формате какого-то там чатбота.


🔴 @reptiloidnaya × #ai #generativeai #llm #chatgpt #apple
ИИ-генерация видео в открытом доступе.

Вот вам мемы, пока все остальные кидают скучные и вылизанные видосики.

Прошло всего 4 месяца(!!!) с момента, как OpenAI показали нам SORA. И вот, эта неделя ознаменовалась двумя жирными релизами — китайской KLING и Dream Machine от Luma AI.

SORA будет в доступе неизвестно когда, про KLING я даже писать не стал, ибо доступен только китайцам, а вот Dream Machine работает прямо сейчас. Дают 30 генераций на бесплатном аккаунте.

Попробовать можно тут: https://lumalabs.ai/dream-machine/


🔴 @reptiloidnaya × #ai #generativeai #sora
Ответочка приехала

Фотографа дисквалифицировали с ИИ-конкурса после победы с реальной фотографией. Вот с этой.

Помните, как у кожаных художников горело, когда конкурсы стали выигрывать картинками из Midjourney?

На этот раз сгорели «промт-инженеры», возомнившие себя гениями искусства 🌚


🔴 @reptiloidnaya × #ai #generativeai
Однозначно — мы вступаем в новую эру.

В эру генерации видео. В 2022 все смеялись над корявыми картинками из DALLE.
В 2023 смеялись над Уиллом Смитом, который ест спагетти. Смеялись над еле шевелящимися картинками в Gen2 и Pika. Смеялись над Animate Diff кашей.

Ну, добро пожаловать в 2024. Анонсирована SORA, в публичном доступе есть Luma, у китайцев есть KLING.

Вот и Runway, кажется, не смогли больше терпеть и анонсировали Gen-3 Alpha. Очередная модель, которая «понимает» мир, его динамику и свойства, а не просто картинки шевелит.

Посмотрите, кстати, как хорошо людей генерирует.

Попробовать пока не дают, ждем и играемся с Luma.

Что же будет лет через 5?


🔴 @reptiloidnaya × #ai #generativeai #видео
Media is too big
VIEW IN TELEGRAM
Копи-паст объектов из реального мира все ближе.

1. Распознавание объектов в реалтайме (я тоже такое делал пару лет назад)
2. Генерация меша.
3. Генерация текстур.
4. AR.

Под капотом моделька 3D-генерации Rodin (уже доступна, можно поиграться).


🔴 @reptiloidnaya × #ai #generativeai #ar
Тут ИИ-генератор мемов подвезли.

Вводите про кого мем, получаете картинку.

https://glif.app/@fab1an/glifs/clxtc53mi0000ghv10g6irjqj


🔴 @reptiloidnaya × #ai
Media is too big
VIEW IN TELEGRAM
Прогресс в ИИ-генерации 3D

Одна из главных проблем в генерации 3D на сегодняшний день — топология. Сгенерированные модели хоть и красивые, но просто не подходят для анимации и серьезного продакшна — куча корявых полигонов, разбросанных как попало.

И тут на днях китайцы показали MeshAnything: эта штука пытается построить что-то более-менее вменяемое. Все еще далеко до идеала, но уже намного лучше того, что было.

Думаю, в течение нескольких лет вопрос решится и ворклфлоу 3D-моделлинга значительно изменится. Врядли будет генерация всего и сразу, но однозначно появится качественная генерация каких-то несложных объектов. Плюс интерфейсы управления более комплексными объектами — например, выбрать часть модели и перегенерировать геометрию по текстовому запросу или референсу, вместе с материалами и текстурами — также, как сейчас работает инпеинтинг для изображений.

🔴 @reptiloidnaya × #ai #generativeai #3d
РЕПТИЛОИДНАЯ
AR в Telegram Давно ничего не писал в канал, возвращаемся! Последние пару недель я активно прототипировал различные AR/AI пайплайны, делюсь одним из них: бот с мини-аппом в Телеграме. Представьте канал магазина, где можно примерять одежду c помощью AR (на…
Продолжаю эксперименты

Веб-приложение (может быть отдельным, или ботом в Телеграме, или интегрировано на сайт) теперь поддерживает консистентный AI-процессинг, как поверх обычной камеры, так и поверх AR.

AR может обрабатываться как напрямую, так и в скрытом режиме (в камере может быть невидимым, но использоваться как ControlNet для AI, «помогая» нейронке рисовать нужное).

AI-пайплайн полностью кастомный, крутится в облаке, стоимость генерации пока что в районе $0.01 — думаю, должно получиться снизить раза в два.


🔴 @reptiloidnaya × #ar #ai #generativeai
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ построили цивилизацию в Майнкрафте

1000 ИИ-агентов построили с нуля цивилизацию с государством, экономикой, культурой и религией.

Вместе, агенты, управляющие персонажами в Майнкрафте, научились собирать в 5 раз больше ресурсов, чем в соло.

Они даже придумали конституцию и вместе редактировали ее в Google Docs, а затем голосовали.

Видео также рассказывает драматическую историю фермера по имени Оливия, которая мечтала отправиться в путешествие, но отказалась от мечты ради общества — кто-то же должен выращивать еду.

Полное видео: https://www.youtube.com/watch?v=2tbaCn0Kl90

Начали с Майнкрафта, закончим настоящей Матрицей. Запомните этот твит.


🔴 @reptiloidnaya × #ai
Movie Gen: Новая модель видео генерации от Meta

ИИ-видеогенерация развивается какими-то безумными темпами. Вот свежая работа от Meta.

Генерирует 16 сек. видео в 1080p, 16FPS.

Первый видос с Цукером — это НЕ video-to-video (но такое там тоже есть) — это генерация на основе фотки человека и промта.

Генерация озвучки тоже имеется.

Читаем подробнее тут. Имаджинируем лица видео-операторов, монтажеров, виэфиксеров, и прочих.

🔴 @reptiloidnaya × #meta #ai
ИИ-чатботы

В последнее время несколько выгорел от AR и прочих штук, решил отвлечься и сделать LLM-чатбота в телеграм.

Встречайте — Настя

Что умеет:
- Комментить посты в канале
- Отвечать в чатике (триггерится на свое имя/никнейм или ответы), а также рандомно врываться в диалоги
- Понимать текст, картинки, кружочки и голосовые сообщения
- Ставить реакции, видеть чужие реакции и иногда даже отвечать на них
- Записывать голосовые
- Ходить по ссылкам
- Смотреть видосы на ютубе
- Искать инфу в интернете

Поиграться можно в чате этого канала: @reptiloidnaya_chat (в коментах к посту не видно все диалоги)


🔴 @reptiloidnaya × #ai #llm
Безумно интересный подкаст про ИИ

https://www.youtube.com/watch?v=SOH743KhJms

От двух моих любимых авторов — Сергея Цыпцына (Метаверсище и ИИще) и Сергея Карелова (Малоизвестное Интересное), каналы которых я постоянно читаю.

Там долго и местами душно, но если вам интересен фундаментальный уровень понимания, куда все идет — обязательно нужно смотреть.


🔴 @reptiloidnaya × #ai
Фотошоп: сделать красиво.

Наконец-то кнопка, о которой в шутку все мечтали, стала правдой.

Adobe показали Perfect Blend: тул для быстрого коллажирования.

В мою бытность графдизайнером лет так 12 назад, помню, заменял фон на фотках с девочками для календаря. Удаление фона и перерисовка света занимала бессонную ночь.

Еще недавно такое нужно было целый день собирать в ComfyUI, устанавливая кучу корявых скриптов и собирая пачки нод.

Теперь в один клик. В чудесное время живем, даже завидую молодым дизайнерам.

🔴 @reptiloidnaya × #ai #adobe
Media is too big
VIEW IN TELEGRAM
10 лет назад я бы за такое продал душу.

Вы извините, но я тут опять про Adobe и свежие анонсы с их конфы Max.

Поворот плоского, 2D вектора в 3D. Магия.
Не, я, конечно, понимаю как это работает. И все же. Магия.

🔴 @reptiloidnaya × #ai #adobe
Продолжаю делать ИИ-чатбота.

Задача — сделать веселого ИИ-бота для телеграма, изначально казавшаяся простейшей, вылилась уже в несколько тысяч строк кода — подводных камней и интересных моментов накопилось уже на пару больших технических статей, лайкайте если интересны детали.

А пока что поделюсь свежими фичами, которые добавил в Настю.

1. Память.
- Теперь запоминает информацию о тех, с кем общается — как в личке, так и в групповых чатах. Память о себе можно посмотреть командой /memory
- Запись памяти модель может инициировать сама(!).
- Также периодически производится анализ всего свежего лога чата, выдергиваются факты и сохраняются.

2. Отношение
- Периодически анализируя лог чата, определяет отношение к пользователю. Проще говоря, будете оскорблять — получите низкий скор, общаться вежливо — высокий. Скоринг производится даже если не взаимодействовать с ИИ, она читает все. Можно посмотреть командой /attitude

3. Персонализация ответов
- ИИ отвечает в групповых чатах не просто читая историю — при ответе вам учитываются данные памяти и отношение.

4. Интроспекция
- Периодически анализирует историю переписки и делает саммари — но не просто выжимку и темы, а свое отношение и мысли на основе данных собственной личности. /intro
- После этого частично переписывает собственный системный промт для конкретного чата, в итоге, во всех чатах общаясь по-разному и эволюционируя.
- Далее запускается интенция — что-то вроде chain of thoughts, бот может как написать что-то в чат, так и самостоятельно пойти что-то искать в гугле, генерить картинки, кидать войсы и так далее.

5. Фичи
- Улучшил поиск в интернете.
- Добавил поиск по картинкам.
- Добавил генерацию картинок флюксом.
- В групповых чатах есть задержка ответа — рандом + от длины текста (чтобы было меньше флуда и более по-человечески).

-------------------------------------------

Приглашаю всех поиграться в чат @reptiloidnaya_chat — тегайте там Настю по имени (заходите именно в чат, в коментах к посту не будет видно половину диалогов).

Что думаете?


🔴 @reptiloidnaya × #ai #llm