Transformer
1.46K subscribers
19 photos
7 videos
3 files
50 links
Про ИИ и стартапы.

Денис Волхонский @den_vol. Рекламу не продаю
Download Telegram
​​Как обучать self-driving car в GTA 5

Вчера я показал вам много применений CycleGAN — нейросети, которая переводит одно изображение в другое. Сложно представить ситуацию, где нам понадобится делать из апельсинов на фото яблоки. Оказывается, одна такая модель может упростить жизнь и сохранить денег.

Представим, что вы разрабатываете self-driving car. Вам нужно сделать алгоритмы, которые ориентируются в пространстве. Для этого нужно много данных. Очень много. Если машину с необученными алгоритмами пустить на улицу собирать данные — вы сядите в тюрьму за убийство.

Если будете сами управлять машиной — данные будете собирать долго. Безусловно, это нужно будет делать. Но процесс можно ускорить.

Знаете игру GTA? В ней продуманный реалистичный мир, в котором можно ездить на машине. Чем не плацдарм для сбора данных? А чтобы нарисованный мир был похож на наш, можно использовать CycleGAN.

А чтобы ещё расширить данные, можно опять применить CycleGAN: изменить время суток и время года. Так вы сможете обучать ваши алгоритмы не только в солнечные летние дни, но и среди сугробов.

С помощью одной модели AI и популярной игры можно получить много данных для обучения самопилотируемых алгоритмов. Причём на этой стадии машина не нужна.
👍1
​​Есть такая профессия — родину защищать. А ещё есть профессия дизайнера стульев. Человек, который вкладывает все свои эмоции, чтобы создать оригинальный стул. Там, где человек что-то создаёт, рано или поздно появится нейросеть, которая создаёт это за него.

Учёные из NVidia натравили генеративные нейросети на датасет из стульев. А потом люди воспроизвели наработки нейросети в реальной жизни. Получилось интересно (см фото под постом). Но долго на таком стуле не просидишь.
​​А молоко у вас когда привозят?

Пришли в магазин за молоком. А его там нет. Вы не получили того, что хотели. Магазин не получил клиента. Всем плохо.

Нужен кто-то, чтобы следить за всеми полками и бить тревогу, когда товар заканчивается. У кассиров не всегда есть такая возможность. Они могут пропустить товар, заниматься другими делами. В конце концов, им за это нужно платить.

Российский стартап neurus.ru решает эту проблему. Алгоритмы считывают видео с камер в магазине и анализируют наличие товаров. Такая система уже работает в магазинах Вкусвилл. Похожее решение есть у X5 — технические детали можно посмотреть тут. Помимо наличия товаров, камеры могут анализировать их разнообразие.

Профит для компании можно посчитать. Если увеличить доступность товаров на 3-4 процента, то прирост товарооборота увеличится на один процент.
Пост в видео-формате смотрите ниже.

На прошлой неделе mail.ru показала систему для создания виртуальных ведущих. Загружаете текст, выбираете диктора и получаете видео. Виртуальная девушка зачитывает ваш текст.

Если вы владелец B2C бизнеса — потенциально сможете создавать персональные(!) видео для пользователей. Например, ваш пользователь прошёл 10к шагов за день. Вылезает видео, в котором девушка говорит ему: "Молодец, Петя, ты наконец-то использовал свои умные часы по назначению".

Похожий стартап есть в Англии. Synthesia помогает создавать видео на основе вашего текста. Стартап выглядит более зрелым, но не поддерживает русский язык. Согласно crunchbase, суммарно они получили $4.1 млн инвестиций.

Со стороны AI могу сказать, что сейчас очень много разработок ведётся именно в генерации данных. Потенциально мы сможем заменить многие творческие профессии. А это может оказаться экономически выгоднее, чем заменять рутинные низкооплачиваемые профессии.
👍1
Редакция вернулась из отпуска. И начнёт своё вещание с крутой модельки от OpenAI.

Представьте, что вы написали книгу и хотите добавить картинок. Художники голодными быть не хотят, просят много денег. В этот момент вы можете заменить их труд на генератор картинок по текстовому описанию DALL.E.

Эта штука принимает на вход текст, который описывает, что должно быть на картинке. А на выходе вы получаете саму картинку. Да ещё какую. Да и не одну, а целых N штук. Нарисует вам художник столько?

Интересно, что моделька генерит ещё и то, что трезвому человеку бы не пришло на ум. Чайник в форме рыбы — пожалуйста. Кошка, сделанная из чеснока — а почему бы и нет.

Работает DALL.E на основе технологии Transformer. Та же самая технология выдаёт state of the art в генерации текста. Всего 12 миллиардов параметров.

Интересно, что эта модель не основана на ГАНах — нейросетях, которые все используют для генерации картинок. Так что эта работа — своего рода демонстрация миру, что можно по-другому.

Блог | Неофициальный GitHub
​​AI замена фитнесс-тренера

Одна персональная тренировка в зале в Москве стоит минимум 1000 рублей. За эту сумму вы получите услуги человека, который может быть неквалифицированным. Скорее всего, он даст вам шаблонную программу тренировок и будет следить за вашей техникой. Польза от этого, безусловно, есть.

Задачи тренера можно автоматизировать с помощью AI. И с этим неплохо справляется стартап Onyx. Это приложение для iPhone, которое руководит вашей тренировкой. И выполняет все те функции, которые мы ждём от физрука.

Оно не только говорит, какие упражнения делать. Onyx корректирует вашу технику и считает повторения, анализируя вашу позу. Приседаете с кривой спиной — оно попросит вас её выпрямить. Отжимаетесь недостаточно низко — скажет приседать ниже.

Стоит всё это удовольствие 1200 рублей в месяц. Для приложения дороговато, но не забывайте — надо сравнивать с тренером. Для желающих не платить есть бесплатные тренировки, которые меняются каждую неделю.

Я попробовал провести несколько тренировок. Тренировка проходит футуристично — телефон тебя видит и понимает, что ты делаешь. Но сам тренировочный контент мне не очень понравился. Слишком интенсивные тренировки длиной в 5-10 минут череваты проблемами для организма.

Для тех, кто не хочет тратить на тренировки по часу за раз — самое то. Для тех, кто хочет качественно покачаться, увы, не подойдёт.
​​Быстрая оценка позы от Google на любом устройстве

Гугл недавно выкатили модельку для оценки позы человека на фото и видео. Фишка их модели в том, что она очень лёгкая и быстрая. Её можно запустить на iOS, Android и даже в браузере. И она в реальном времени будет оценивать позу человека на видео.

Достигается лёгкость и скорость за счёт того, что сетка предсказывает координаты точек (x, y). Предыдущие модели обычно классифицировали каждый пиксель, что сильно замедляло их работу.

Как это можно использовать?

1. В фитнес-приложениях. С помощью оценки позы можно понять, что человек делать в упражнении не так. По такому принципу работают приложения Onyx, Zenia.
2. На предприятиях, чтобы понять, кто чем занимается. По позе не сложно отличить, работает ли человек или сплетничает у кулера.
3. Для перевода с языка жестов на русский. Чтобы это сделать, можно классифицировать последовательность поз.

Пост | Модель
​​ИИ вместо личного секретаря

Пандемия перевела почти весь мир в онлайн. Если раньше мы могли в любой момент организовать митинг в офисе, то теперь приходится договариваться о созвонах.

Найти время, которое всем удобно, не просто. Один может только вечером, другой вечером уже уедет, а третий не отвечает последние два часа. Если все эти люди в разных чатах, задача ещё усложняется. "Спроси Васю, когда Петя и Антон могут созвониться". Сложно.

Чтобы упростить организацию созвонов, нужен личный секретарь. Эту проблему закрывает стартап x.ai. Работает это так: вы указываете свою доступность и посылаете коллегам своё расписание. Они в пару кликов выбирают нужный временной слот.

Это ещё не всё. Когда у вас есть расписание доступности, вы пишите коллегам письмо, и ставите x.ai в копию. ИИ связывается со всеми адресатами и согласовывает время встречи.

Алгоритм распознаёт то, что вы пишите в письме. Например, вы пишите (на английском): "Привет, Лиза и Майк, давайте проведём встречу по проекту в начале следующей недели в моём офисе". После этого создаётся событие со всеми деталями: их ИИ достаёт из текста.

Для персонального использования сервис бесплатный. Для команды сервис стоит 15 долларов за человека в месяц. Всего сервис привлекал $45 млн инвестиций.
​​Я забыл, что хотел сказать

Наша память несовершенна. Сколько бы мы в школе не учили стихов, всё равно иногда говорим фразу "я забыл, что хотел сказать". И это не самое плохое. Иногда мы забываем то, что стоит помнить: счастливые моменты, интересные идеи, впечатления от поездок, воспоминания о родственниках.

На каждую проблему найдётся отважный предприниматель, который будет её решать. Стартап hu.man.ai решил заменить вашу плохую память с помощью цифровой.

Работает это следующим образом. Вы на родном английском пишите воспоминание. Например, "Прошлым летом мы ездили на шашлыки и нечаянно уронили всё мясо в мангал". Когда захотели вспомнить, что же там было, вы начинаете набирать в окошке "на шашлыках летом", а система выдаёт вам ваше воспоминание.

Под капотом — AI. Думаю, что используют какую-то архитектуру трансформеров. За сохранность данных отвечает блокчейн. На сайте пишут, что к данным ни у кого доступа не будет. И в фейсбуке таргет по воспоминаниям вы не увидите.

Интересно позиционирование стартапа. Внутри поиск предложений. Технология далеко не новая. Но продавать поиск по базе предложений не интересно. А вот оцифровать человеческую память — благородное занятие.

За всё время стартап поднял $3.2 млн. Пока что стартап на стадии сбора заявок на использование — я оставил и жду подтверждения. Хочу попробовать его в качестве хранилища инсайдов и идей, которые приходят в голову.
​​Давайте улучшим

Чтобы распечатать большую фотографию, нужно высокое разрешение. Вы не сможете распечатать в хорошем качестве фото, сделанное на старенький Nokia.

Если вы хотите выставить свою квартиру на продажу, то тоже хорошо бы иметь качественные большие фотки. Но имеющаяся техника может не позволить вам этого сделать.

На помощь приходит стартап Let's enhance. У него идея до банальности проста. Давайте возьмём работающий метод повышения разрешения (super-resolution) и сделаем из этого продукт. И оно работает. На сайте обещают увеличить картинку в 16 раз.

Стартап нацелен на бизнесы. Если у вас свой интернет-магазин, то с их помощью сможете улучшить фото на сайте.

Зарабатывает стартап на API по подписке. Самый большой из описанных на сайте тарифов — 5000 фото в месяц за 290 долларов. Примерно 17 фото за один доллар.
👍1
​​Потанцуем?

Десять лет назад в интернете гулял видос, где Димон танцует под песню Американ Бой. "Каждый президент должен танцевать!" — подумали учёные, глядя на Димона. И сделали для этого нейросеть.

Она переносит позу с одного фото на другое. Внутри модельки есть механизм внимания — именно то, что OpenAI использует для генерации текста и картинок.

Как это можно использовать?

- В сервисах, где нужно создавать видео с объяснением упражнений. Можно записать себя дома на видео с немытой головой. А потом по этому видео анимировать фото человека в студии.
- В Fashion индустрии — чтобы переносить одежду с одного человека на другого. Такое нужно для виртуальной примерки или генерации фото моделей.
- В конце концов, можно заставить старика Дональда танцевать.

Сайт | Статья | GitHub | Google Colab (можно потыкать)
​​В новом цвете

Если вы начнёте смотреть старый чёрно-белый фильм, то вам может стать скучно. Наш мозг привык к бОльшей плотности информации. Мы смотрим цветные видео, а иногда ускоряем их в два раза на YouTube.

Фильмы, которые были сняты в первой половине двадцатого века, могут быть интересны современному зрителю, если сами станут современнее. Для этого их хорошо бы превратить в цветные.

Недавно Google выкатила модельку, которая как раз это и делает. На вход чёрно-белое фото, на выходе — цветное. Внутри опять механизм внимания: без этого уже мало что обходится в современных нейросетях.

Интересно, что модель может добавлять разные цвета на одни и те же объекты. Если машина чёрно-белая, то можно сделать из неё как зелёную, так и красную. Это открывает новое применение — перекрашивание объектов на существующих цветных фото. Для этого надо лишь убрать цвет и заново раскрасить с помощью этой модельки.

Как это можно использовать?

- Делать сервисы для добавления цвета на старые фото.
- Превращать старые фильмы и мультики в цветные. И пускать в кинотеатрах.
- Перекрашивать существующие фото: менять цвет одежды, домов или машин.

Статья | Код

#модели
​​Отойди, не загораживай

Глядя на красивый закат на набережной, вы решили его сфоткать. Достали телефон, пока нет людей. Щёлк. Блин, велосипедист в кадр влез. Ещё раз. Теперь дети в углу снимка бегают.

Знакомая проблема? Решать её решили основатели стартапа Invisi. Скачиваете приложение, загружаете фото, выделяете область, которую надо удалить и закрасить — вуаля.

Работает это лучше всего при однообразном фоне. Небо, море, песок, снег подходят лучше всего. Если фон сложный, с разными другими объектами, то закрашивание будет не очень.

Внутри технология inpainting — закраски неизвестных частей фото. Нейросеть принимает изображение и область, которую надо закрасить. И сама "додумывает", что там должно быть. Если хочется потыкать — можно скачать само приложение или попробовать бесплатное демо от Nvidia.

#стартапы
​​Нейросеть вместо хромакея

Большинство современных блокбастеров используют хромакей — зелёный экран. Во время производства фильма его заменяют на нужный фон. Благодаря этому мы можем видеть, как Тони Старк дерётся с Таносом на несуществующей в реальной жизни планете.

Почему экран зелёный? Чтобы его можно было легко отделить от людей, глядя только на цвет.

Бывают ситуации, когда надо отделить людей от фона, а зелёного фона нет. Например, если мы хотим поменять фон в Zoom. Либо же какой-нибудь блогер на YouTube хочет изменить фон, а хромакей некуда ставить.

На помощь приходит новая работа от китайских учёных. Они придумали нейросетку, которая с хорошим качеством удаляет фон на изображении.

Работает правда круто: вот тут можно залить своё фото и получить результат.

Как это можно использовать?

- Заменять фон в Zoom, Google Meet или других программах для видео-звонков
- Добавить функцию/плагин в редактор видео: блогеры смогут менять фон своих видео
- Портретный режим — выделять людей и размывать фон с помощью телефона

Статья | GitHub | Colab | Демо

#модели