Transformer
1.46K subscribers
19 photos
7 videos
3 files
50 links
Про ИИ и стартапы.

Денис Волхонский @den_vol. Рекламу не продаю
Download Telegram
​​Нейросеть вместо хромакея

Большинство современных блокбастеров используют хромакей — зелёный экран. Во время производства фильма его заменяют на нужный фон. Благодаря этому мы можем видеть, как Тони Старк дерётся с Таносом на несуществующей в реальной жизни планете.

Почему экран зелёный? Чтобы его можно было легко отделить от людей, глядя только на цвет.

Бывают ситуации, когда надо отделить людей от фона, а зелёного фона нет. Например, если мы хотим поменять фон в Zoom. Либо же какой-нибудь блогер на YouTube хочет изменить фон, а хромакей некуда ставить.

На помощь приходит новая работа от китайских учёных. Они придумали нейросетку, которая с хорошим качеством удаляет фон на изображении.

Работает правда круто: вот тут можно залить своё фото и получить результат.

Как это можно использовать?

- Заменять фон в Zoom, Google Meet или других программах для видео-звонков
- Добавить функцию/плагин в редактор видео: блогеры смогут менять фон своих видео
- Портретный режим — выделять людей и размывать фон с помощью телефона

Статья | GitHub | Colab | Демо

#модели
​​Трейлер фильма

Глядя на трейлер фильма вы решаете, пойдёте вы в кино или нет. Трейлер — визитная карточка фильма.

Тяжело ли сделать трейлер фильма? Понятия не имею, т.к. никогда этим не занимался. Кажется, что да — нужно найти именно те моменты в фильме, которые вызовут больше всего эмоций. При этом трейлер не должен содержать спойлеров. А ещё он должен быть динамичным. А ещё смешным. Короче, та ещё морока.

Если вы занимаетесь созданием трейлеров, то можете выдохнуть. Скоро не нужно будет так страдать. Вас заменят нейросети.

В прошлом году вышла статья, где авторы придумали алгоритм для поиска самых важных фрагментов фильма. Для каждого кадра они предсказывают, насколько он подходит в качестве кадра трейлера.

Применять такое можно не только к фильмам. Модель может выявлять важные моменты в любых видео. Главное подобрать правильный датасет. Может через пару лет появится расширение для браузера, чтобы просматривать важные фрагменты любого видео.

#модели
​​Блогер-нейросеть

Представьте, что вы читаете статью про детокс-смузи. С большой вероятностью её написал копирайтер, а не доктор медицинских наук. Этот человек ещё вчера писал про устройство ракет. Сегодня про смузи. Завтра он напишет статью про психологические проблемы детей в семьях без отца.

Ещё копирайтер придумывает тексты для маркетинговых целей. Захотели вы запустить рекламу в Яндексе — нужно для этого придумать текст объявления. Причём текст должен быть продающим.

Стартап CopySmith решил копирайтеров заменить. Поставил в землю флаг и сказал: "с этого дня наша нейросеть будет писать посты для блогов и маркетинговые тексты". А по чему бы и нет, ведь модель GPT3 умеет генерировать очень осмысленный текст.

Чтобы всё заработало, надо CopySmith дать вводные. Для поста на блог это аудитория, тематика и пример текста, чтобы нейронка скопировала ваш стиль. Нейросеть всё это анализирует и выдаёт вам пост.

У стартапа широкая линейка тарифов. Для маркетинга своей компании и ведения блога хватит 59 долларов в месяц. А если у вас своё копирайтинговое агенство, то будте любезны заплатить 500 за почти безлимитное использование.

Выгода от стартапа очень легко считается. Средний копирайтер в Америке получает 50к долларов в год. Самый дорогой тариф обойдётся вам в 6к долларов в год. Нейросеть получается выгоднее в 8 раз. К тому же она не болеет, не залипает на работе в твиттере и не требует уплаты налогов.

#стартапы
​​Нейросеть-стабилизатор

Видео стабилизатор нужен для того, чтобы избавить записываемое видео от тряски. Вы вставляете телефон в специальную штуку и записываете видео, например, во время ходьбы. Непроизвольно ваши руки трясутся. Но вот на видео этой тряски будет сильно меньше.

Самый дорогой стабилизатор на яндекс-маркете стоит 120 тысяч рублей. Дорого? С вами согласны авторы нейросети, которая призвана заменить стабилизатор.

Челлендж стабилизации заключается в том, что надо как можно меньше обрезать кадры. Представьте, что вы идёте с камерой в руках. И трясёте камеру вверх-вниз так сильно, что рука перемещается аж на 10 см. Представляете, что вы наснимаете? Чем больше трясётся рука, тем больше приходится обрезать кадры. И тут нейронка хороша тем, что позволяет оставить большую часть кадра.

Увы, моделька не работает в реал-тайме. Процессинг одного кадра на GPU занимает почти 10 секунд. Поэтому до замены реального стабилизатора дело не дошло. Но всё равно это важный шаг в замене дорогой штуки на нейросеть.

Статья | Код | Примеры работы

#модели
​​Контрол Ц, Контрол В

Копировать. Вставить. Ctrl+C и Ctrl+V. Когда вы печатаете текст, то наверняка часто используете эти сочетания клавиш. В крайнем случае в ход идёт правая кнопка мыши и долгий поиск слов "копировать" и "вставить". Набирая текст, постоянно приходится это делать.

А теперь подумайте, какого художникам и дизайнерам? Вот захотели они скопировать объект из одного фото и перенести на другое. Это надо объект руками отделять от фона, кропотливо обрабатывать каждый миллиметр фото. А если из реальной жизни объект — как его на перенести на рисунок? Та ещё задачка.

Стартап ClipDrop решил прийти дизайнерам на помощь. Он позволяет копировать объекты из реального мира и добавлять их, например, в фотошоп.

На примере расскажу, как это работает. Я сижу за столом, рядом со мной лежат наушники. Я делаю одну фотографию в телефоне, жду пару секунд и получаю фото наушников. Без стола, без других предметов, без фона, только наушники. Дальше объект можно отправить в другое приложение. Например, можно сразу с телефона отправить его в фотошоп на компе.

С точки зрения ИИ стартап решает 2 задачи. В начале ему нужно определить, какой конкретно объект надо скопировать. Предположу, что для этого используется какой-то object detection. Затем нужно отделить этот объект от фона. Я уже писал про похожую задачу отделения людей от фона. Но тут всё сложнее — объект может быть любым.

ClipDrop — крутой пример того, как можно технологию превратить в полезный продукт. И ключ тут — это не сама технология, а именно концепция "скопировать-вставить".

#стартапы
👍1
​​Нейро-MARVEL

Кинокомиксы — явление, которое стало особенно популярно десять лет назад. Последние Мстители собрали в кинотеатрах больше двух миллиардов долларов. Всё это стало возможным благодаря наличию огромного количества комиксов. Ведь из них можно брать интересные сюжеты про супер героев и экранизировать.

Работает ли это в обратную сторону? Создают ли люди комиксы на основе фильмов? Оказывается, что да. Например, существуют комиксы по Терминатору, Пятница 13-е и Назад в будущее.

Как вы могли догадаться, сегодня речь пойдёт про нейросеть, которая создаёт комиксы на основе фильма. На вход – фильм с субтитрами, на выход — готовый комикс: изображения + текст.

Работает это следующим образом. Из фильма каждые пол секунды берётся кадр. Дальше кадры делятся на две части: с субтитрами и без. Каждому кадру предсказывается его "важность" для комикса. Чтобы предсказать важность, используется нейросеть для суммаризации текста — выделения самых важных фраз.

В комикс оставляются только кадры с самой большой важностью. Каждый кадр стиллизуется под комикс. На кадры добавляется текст из субтитров. Причём то, как выглядит текст, определяется на основе эмоций в диалогах — за это отвечает аудио-нейросеть. В итоге всё компануется в один комикс.

Кода, увы, у этой статьи нет. Возможно, авторы сразу планируют коммерческое использование. И пожалуйста, за то мы знаем, как заменить нейросетями ещё одну творческую профессию.

#модели
​​Цветные хроники первой мировой войны

Властелин колец — замечательный фильм. Помимо фильмов о средиземье Питер Джексон снял фильм “Они никогда не станут старше”. Это фильм о первой мировой войне. Интересен он тем, что в нём использовались кадры, снятые в 1910-е годы. 100 часов чёрно-белой съёмки.

Но как так получилось, что фильм цветной? Сто лет назад звук то не умели записывать вместе с видео, не то что цветные фильмы снимать. Со звуком сделали так: специалисты по губам определяли, что говорят солдаты, а после актёры фильм озвучивали. А что с видео?

Современные нейросети могут реставрировать чёрно-бело видео и делать его цветным. В открытом доступе есть некоторые модели для этого. Вот и вот.

Естественно, при наличии решения найдутся стартаперы, которые обернут технологию в удобный сервис. Так решил сделать стартап neural.love. Кроме добавления цвета на чёрно-белые видео они умеют:
— Увеличивать в 4 раза разрешение видео
— Делать slow-mo, то есть добавлять новые кадры между существующими
— Улучшать качество лица на видео

Информацию об инвестициях я не находил. Но уверен, что клиентов для таких решений найти всегда можно. Пересмотреть старый любимый фильм в хорошем качестве захотят многие. Тот же Властелин колец сейчас идёт в кинотеатрах в качестве 4К. Правда, что-то зрители недовольны работой нейросетей. Но это уже другая история…

#стартапы
🤔1
​​Что мы обсуждали в прошлый раз

Во время ковида сильно выросло количество звонков по работе. Каждая такая встреча — намерение обсудить что-то важное. Но наружу выплывают все минусы удалённых встреч. Один в это время гуляет с ребёнком, второй залипает в инстаграм. Такое вполне можно позволить, просто выключив камеру и микрофон. В таких условиях можно пропустить что-то важное.

Самое простое решение — надо, чтобы кто-то во время встречи записывал, что вы обсуждаете. А потом поделился со всеми. Но слушать, анализировать и записывать — то ещё занятие. Наш мозг может параллелить фоновые процессы. Но тут совсем не фоновые.

Стартап otter.ai берёт заметки со встреч на себя. Вы просто созваниваетесь как обычно. А Otter слушает и записывает всё, что слышит. После встречи у вас получается страничка, которую легко можно отредактировать: выделить важные мысли, добавить картинки и удалить оффтоп обсуждения. А после скинуть ссылку всем, кто был на встрече.

Интересно, что внутри стартапа доступная технология перевода речи в текст. Вот, например, гайд по распознаванию речи для Python. Добавьте к этому правильную обёртку и позиционирование — получится стартап otter.ai.

В месяц можно бесплатно анализировать 600 минут созвонов. Для компаний безлимитный тариф обойдётся в 20 долларов в месяц на пользователя. Общие инвестиции в стартап — $63M.

#стартапы
​​AI команда из Google работает на вас

Google представил новую нейронку MoveNet для оценки позы человека по фото. Главные особенности — работает быстро и хорошо. Можно использовать на телефоне или в браузере.

Интересно, что их модель не сильно отличается от существующих. Самое важное в этой задаче — хороший датасет. Они набрали из YouTube видео с фитнесом, йогой, и танцами. С каждого видео брали по три кадра, чтобы было разнообразнее. Руками их разметили, и на этом уже обучали.

Почему это важно? Pose Estimation используется в многих фитнес-приложениях. Если вы знаете, где на фото какой сустав, можно оценивать правильность позы. Так, например, делает Zenia — AI йога-инструктор.

Невольно напрашивается сравнение с BlazePose, обновление которой так же недавно представила Google. BlazePose оценивает больше точек (33 против 17 в MoveNet), и может ещё оценить глубину каждой точки. Но MoveNet работает лучше.

Сделать приложение для фитнеса с помощью AI никогда не было так легко, как сейчас. Как минимум две команды в Гугле делают вам модельки, постоянно улучшают их и может даже соревнуются друг с другом.

#модели
​​Нужно больше TikTok видосов

Монтировать видео — задача долгая и муторная. Среди всего видео нужно найти места, которые стоит вырезать — неудачные дубли, молчание и тд. Кропотливая работа тут состоит в том, чтобы просматривать всё видео очень внимательно, чтобы такие моменты находить.

Стартап Kamua решил снять эту боль. Он автоматом разбивает видео на осмысленные куски, чтобы их потом руками обрезать. Задача чем-то похожа на создание трейлеров в фильмах, о которой я писал тут.

Кроме этого, Kamua предлагает автоматические субтитры для вашего видео. Вам нужно лишь выбрать шрифт и где их разместить. Для этого звук переводится текст — довольно хорошо решённая задача сейчас.

Но и это ещё не всё. Они автоматически понимают, где в кадре человек. После этого обрезает видео под формат телефона. Это позволяет автоматические из YouTube видео делать ТикТок. Думаю, что технически тут самая сложная задача — найти в кадре человека. Для этого можно использовать любой bounding box детектор, например, Yolo5.

Работает всё в браузере. За 2 доллара в месяц вы получите возможность обработать 1 час сырого видео. Суммарные инвестиции — $475K.

#стартапы
​​Как глубоко мы зашли

Self-driving машинам и роботам нужно уметь оценивать расстояния до объектов. По-другому это называют оценкой глубины. Если человек или машина на дороге близко, алгоритм может это не понять и не успеет затормозить.

Оценивать расстояние можно несколькими способами. Способ “в лоб” — использовать Lidar, который строит пространство вокруг себя в виде облака точек. Его главный минус — он стоит несколько тысяч долларов. Недавно Tesla заявила, что отказывается от Лидаров в пользу обычных камер.

Альтернативный способ — использовать нейросеть, чтобы оценить глубину по фото. Глядя на любую фотографию, наш мозг сразу понимает, какие объекты на ней располагаются дальше, а какие ближе. Почему бы не обучить этому нейронку.

Совсем недавно учёные представили новую модель для оценки глубины. На вход — фото. На выход — относительно расстояние от камеры до объектов. Мы не получим расстояние в метрах, но сможем понять, какой объект ближе, а какой дальше. Главное достоинство модели: работа с высоким разрешением (> 1000x1000).

У этой модели лицензия некоммерческая. Если хотите что-то подобное применять в своём бизнесе, то можно посмотреть на эту альтернативу.

Статья | Код

#модели
​​Куда мне поставить эту кнопку

Стоимость создания приложений и веб сайтов сейчас самая низкая в истории. И всё благодаря no-code инструментам. Больше не нужно уметь программировать, чтобы сделать что-то простое. Захотели сделать сайт — есть Tilda, Unicorn Platform. Захотели приложение на телефон — есть FlutterFlow, Adalo, Glide.

При работе с no-code инструментами вы выбираете элементы (кнопки, текст, картинки), добавляете взаимодействия и располагаете их в нужном месте. Выбрать хорошее расположение — важная задача. Сдвинули кнопку на другое место — повысили конверсию. Добавили больше изображений — понизили.

Встаёт вопрос: можем ли мы автоматически выбирать расположение объектов на нашем сайте? Пока нет, но движение в этом направлении есть. Недавно Гугл предложили нейросеть для генерации расположения объектов. Она может генерировать layout документов, UI, комнат. Внутри вариационный автокодировщик и трансформеры.

Главный минус — нейросети нельзя подать на вход объекты. То есть она просто генерирует layout, который похож на обучающее множество. Значит пока что её не получится напрямую для no-code нужд использовать. Кроме этого нейронка не учитывает влияние сгенерированного расположения на пользователя — конверсию и тд.

Тем не менее эта работа — ещё один шаг в сторону упрощения создания приложений, сайтов и документов. Скоро будет так: “Алиса, создай мне стартап, который решает проблему, которую ты сама сгенерируешь”. Ушли готовить пельмешки. Поели. Вернулись — exit.

#модели
👍1
​​Пора увольнять программистов?

Год назад я писал об интересном применении модели GPT-3: генерация кода из комментариев. Но тогда это был лишь идея, готовых сервисов для этого не было.

С тех пор я пользовался tabnine.com — это хороший плагин, который использует ИИ для автодополнения кода. Но автодополнение — это не то же самое, что программировать за программиста.

На днях увидел сервис от GitHub — Copilot. Работает так: вы объявляете функцию, пишите к ней комментарий, а нейронка сама генерирует весь код функции.

Профит от такого приложения понятный. Много времени программист тратит на простые функции. Если это автоматизировать, то производительность увеличится. И можно половину программистов уволить.

Мне пока не дали доступ на тестирование. Если это работает, как в примерах — просто вау.

#сервисы
​​Как можно было написать такой код

Привет! Продолжаю вещать про ИИ, стартапы и всё, что с этим связано.

В последнем посте (как же давно это было) я рассказывал про генерацию кода с помощью ИИ. Чтобы такое сделать, нужно собрать огромную выборку с кодом и комментариями, и научить нейросеть генерировать код, принимая на вход этот комментарий. Задача очень сложная. Но судя по всему уже неплохо решаемая.

А что если перевернуть картинку, и генерировать комментарий по коду? Для этого ведь нужен тот же самый датасет, и может подойти похожая нейросеть. Так сделал стартап Denigma. Они для программных функций с помощь ИИ генерируют описание.

А ведь понятная и (теперь) очевидная боль: вникать в чужой код бывает сложно. Особенно, если к нему нет документации, а писали его быстрей-быстрей к дедлайну. Стартап работает с большинством современных языков программирования. Альтернативное применение этой же технологии — это написание комментариев на основе того, что генерирует нейросеть.

Есть расширение для Visual Studio. Подписка стоит восемь долларов в месяц.
👍5
​​Нет войне

Моя бабушка всегда повторяла: лишь бы не было войны. Она родилась в 1933 году. Она пережила очень тяжёлые времена. Сейчас её уже нет в живых. И я не могу представить, как бы она ужаснулась, увидев, какое безумие происходит. Нет войне.

Я долго думал, чем я могу быть полезен в это трудное время. Решил, что стоит рассказать вам о стартапах с Украинскими корнями. Некоторые из этих стартапов известны на весь мир. Некоторыми вы пользуетесь каждый день.

Сегодня речь пойдёт о знаменитом Grammarly. Стартап встраивается почти в любое текстовое поле и исправляет английский текст. Причём сейчас он может не только исправлять артикли, орфографию, но и пунктуацию, стиль текста и его сложность.

У Grammarly есть расширение для браузера. Можно использовать его в офисных программах, Slack, почте или как обычные текстовый редактор, в который встроен весь функционал исправления ошибок.

Сервис незаменим как для не носителей языка, так и для носителей (лично видел, как они его используют). Есть бесплатная версия, которая уже приносит пользу. Платную подписку продают от 12$ в месяц. В прошлом году стартап оценивался в 13 миллиардов долларов.
19👍6💩1
​​Это платье меня полнит

Продолжаю рассказывать вам про стартапы с основателями из Украины. 3DLOOK — стартап, который делает виртуальную примерку одежды. Как мне видится, задача стартапа — убить классическую примерку. Сидя дома, вы должны видеть, как на вас одежда будет сидеть и знать, подойдёт ли она вам по размеру.

Технически задача очень сложная. Представьте, что человек сфоткался в штанах, и хочет виртуально померить шорты. Для этого нужна сначала удалить штаны. Потом, нужно дорисовать человеку ноги ниже шорт. Так как штаны обычно шире ноги, нужно ещё и закрасить каким-то образом фон за штанами. Шорты нужно поставить в нужное место, а ещё и деформировать их так, чтобы подошёл размер. В идеале нужно учитывать физику ткани.

Стартап утверждает, что виртуальная примерка сокращает возвраты на 40 процентов, увеличивает конверсию в 4 раза и на 20 процентов увеличивает среднюю стоимость заказа.

У 3DLOOK свои разработки в ИИ части, которые основаны на 3D модели тела человека. В научном сообществе очень много статей, которые делают виртуальную примерку. Но как правило всё ограничено каким-то узким датасетом и черрипикнутыми картинками. На реальных данных же это всё не работает.

Виртуальная примерка сейчас — это hot topic. Ещё есть стартапы Easy Try, Astrafit, Drapr, Zeekit.
9👍1💩1
​​В трёх соснах заблудился

Бывало у вас такое: устроились в новый офис, и долго ищите нужный кабинет. Или пришли в ТЦ, а найти нужный магазин сложнее, чем иголку в стоге сена.

Стартап с украинскими корнями Augmented Pixels разработал приложение, которое строит навигацию в дополненной реальности для помещений. Сначала вы проходитесь по помещению и сканируете его с помощью телефона. После этого на полученной 3D карте отмечаете точки интереса: важные комнаты, кулер с печеньками или нужную полку на складе. Навигация готова: телефон в дополненной реальности покажет путь до печенек.

Другой продукт стартапа, GlobalMap, позволяет делать 3D сканы объектов по всему миру. Ставку сделали на краудсорсинг.

Стартап поднял 6.1M инвестиций. В январе 2022 их купил Qualcomm, сумма сделки не разглашалась.
6👍3
Можно ли прочитать мысли человека?

В конце прошлого года учёные представили метод генеративного ИИ, который может что-то подобное.

Человеку показывают какое-то изображение. В этот момент ему делают функциональную магнитно-резонансную томографию (ФМРТ). Дальше модель из результатов исследования может сгенерировать изображение, которое видел человек. Получается такой нейроинтерфейс на основе ФМРТ и нейронной сети.

Внутри для генерации изображений используется диффузионная модель (по типу тех, что находятся внутри Stable Diffusion, Midjourney, DALLE 2). Увы, для каждого человека нужна своя нейросеть, так как у разных людей мозг по-разному реагирует на изображения.

https://mind-vis.github.io/
👍12🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Live photo from two photos

На камере айфона есть функция Live photo. Вместо статического фото она сохраняет “живое” фото. Технически это видео длиной в 3 секунды, которое позволяет чуть лучше воспроизвести момент на снимке.

Учёные из гугла в прошлом году придумали метод FILM, который может создавать “живое” фото из двух фотографий. Между двумя фотографиями модель делает интерполяцию. То есть создаёт кадры между двумя фото, чтобы из них получилось видео. Метод работает на картинках большого разрешения.

Зачем это нужно?
⁃ Получать live photo из уже сделанных фотографий
⁃ Увеличивать частоту кадров в видео и делать slow-motion (я писал об этом тут)

Сайт проекта: https://film-net.github.io/
Поиграть с демо: https://huggingface.co/spaces/johngoad/frame-interpolation
👍8🔥2
Github Copilot

Какое-то время назад я писал про Github Copilot. Это сервис от GitHub и Microsoft, который автоматически пишет код. Тогда он был в формате закрытого тестирования. Сейчас доступ может получить кто угодно. Я уже довольно много пользуюсь им, и хочу поделиться своим опытом.

Подсказки Copilot нативно встраиваются в среду разработки. Достаточно нажать Tab, чтобы код написался сам. Для персонального использования сервис стоит 10 баксов в месяц. Заменит ли он программиста за такие то деньги? Однозначно — нет. Но он точно упрощает и ускоряет написание кода. Вот мои сценарии использования:

1. Если мне нужно написать простую функцию, я часто гуглю это. Часто ответ содержится в первой же ссылке в гугле. Например, нужно прочитать JSON файл. Или мне нужна функция, которая находит файл в папке, у которого в названии максимальное число.

Сейчас же я просто начинаю писать “def maximum_file_number(“. Когда открывается скобка, copilot сразу предлагает аргументы функции и саму функцию целиком.

2. Если мне нужно написать функцию средней сложности, которая вызывает другие мои функции. Например, загрузить видео из памяти, и для каждого кадра запустить какую-нибудь ML модель и вернуть результат в виде массива. С таким Copilot справится почти всегда хорошо. Иногда для этого нужно написать комментарий для функции, на основе которого он сгенерирует функцию.

Кажется, что Copilot полезен в тех случаях, когда код хорошо структурирован и разбит по функциям. Несложные функции он щёлкает как орешки, а в сложных будет подсказывать по одной строчке. Архитектуру программы придётся разрабатывать самому (или спрашивать у ChatGPT). Но работать всё равно придётся 😉.

Ссылка в описании, а по промокоду NE_PRODAYU_REKLAMU вы сможете купить одну подписку по цене двух.
🔥83👍1
Несколько примеров работы. Серый код — то, что предлагает Copilot.
👍9🔥2