Transformer
1.46K subscribers
19 photos
7 videos
3 files
50 links
Про ИИ и стартапы.

Денис Волхонский @den_vol. Рекламу не продаю
Download Telegram
​​Нейро-MARVEL

Кинокомиксы — явление, которое стало особенно популярно десять лет назад. Последние Мстители собрали в кинотеатрах больше двух миллиардов долларов. Всё это стало возможным благодаря наличию огромного количества комиксов. Ведь из них можно брать интересные сюжеты про супер героев и экранизировать.

Работает ли это в обратную сторону? Создают ли люди комиксы на основе фильмов? Оказывается, что да. Например, существуют комиксы по Терминатору, Пятница 13-е и Назад в будущее.

Как вы могли догадаться, сегодня речь пойдёт про нейросеть, которая создаёт комиксы на основе фильма. На вход – фильм с субтитрами, на выход — готовый комикс: изображения + текст.

Работает это следующим образом. Из фильма каждые пол секунды берётся кадр. Дальше кадры делятся на две части: с субтитрами и без. Каждому кадру предсказывается его "важность" для комикса. Чтобы предсказать важность, используется нейросеть для суммаризации текста — выделения самых важных фраз.

В комикс оставляются только кадры с самой большой важностью. Каждый кадр стиллизуется под комикс. На кадры добавляется текст из субтитров. Причём то, как выглядит текст, определяется на основе эмоций в диалогах — за это отвечает аудио-нейросеть. В итоге всё компануется в один комикс.

Кода, увы, у этой статьи нет. Возможно, авторы сразу планируют коммерческое использование. И пожалуйста, за то мы знаем, как заменить нейросетями ещё одну творческую профессию.

#модели
​​Цветные хроники первой мировой войны

Властелин колец — замечательный фильм. Помимо фильмов о средиземье Питер Джексон снял фильм “Они никогда не станут старше”. Это фильм о первой мировой войне. Интересен он тем, что в нём использовались кадры, снятые в 1910-е годы. 100 часов чёрно-белой съёмки.

Но как так получилось, что фильм цветной? Сто лет назад звук то не умели записывать вместе с видео, не то что цветные фильмы снимать. Со звуком сделали так: специалисты по губам определяли, что говорят солдаты, а после актёры фильм озвучивали. А что с видео?

Современные нейросети могут реставрировать чёрно-бело видео и делать его цветным. В открытом доступе есть некоторые модели для этого. Вот и вот.

Естественно, при наличии решения найдутся стартаперы, которые обернут технологию в удобный сервис. Так решил сделать стартап neural.love. Кроме добавления цвета на чёрно-белые видео они умеют:
— Увеличивать в 4 раза разрешение видео
— Делать slow-mo, то есть добавлять новые кадры между существующими
— Улучшать качество лица на видео

Информацию об инвестициях я не находил. Но уверен, что клиентов для таких решений найти всегда можно. Пересмотреть старый любимый фильм в хорошем качестве захотят многие. Тот же Властелин колец сейчас идёт в кинотеатрах в качестве 4К. Правда, что-то зрители недовольны работой нейросетей. Но это уже другая история…

#стартапы
🤔1
​​Что мы обсуждали в прошлый раз

Во время ковида сильно выросло количество звонков по работе. Каждая такая встреча — намерение обсудить что-то важное. Но наружу выплывают все минусы удалённых встреч. Один в это время гуляет с ребёнком, второй залипает в инстаграм. Такое вполне можно позволить, просто выключив камеру и микрофон. В таких условиях можно пропустить что-то важное.

Самое простое решение — надо, чтобы кто-то во время встречи записывал, что вы обсуждаете. А потом поделился со всеми. Но слушать, анализировать и записывать — то ещё занятие. Наш мозг может параллелить фоновые процессы. Но тут совсем не фоновые.

Стартап otter.ai берёт заметки со встреч на себя. Вы просто созваниваетесь как обычно. А Otter слушает и записывает всё, что слышит. После встречи у вас получается страничка, которую легко можно отредактировать: выделить важные мысли, добавить картинки и удалить оффтоп обсуждения. А после скинуть ссылку всем, кто был на встрече.

Интересно, что внутри стартапа доступная технология перевода речи в текст. Вот, например, гайд по распознаванию речи для Python. Добавьте к этому правильную обёртку и позиционирование — получится стартап otter.ai.

В месяц можно бесплатно анализировать 600 минут созвонов. Для компаний безлимитный тариф обойдётся в 20 долларов в месяц на пользователя. Общие инвестиции в стартап — $63M.

#стартапы
​​AI команда из Google работает на вас

Google представил новую нейронку MoveNet для оценки позы человека по фото. Главные особенности — работает быстро и хорошо. Можно использовать на телефоне или в браузере.

Интересно, что их модель не сильно отличается от существующих. Самое важное в этой задаче — хороший датасет. Они набрали из YouTube видео с фитнесом, йогой, и танцами. С каждого видео брали по три кадра, чтобы было разнообразнее. Руками их разметили, и на этом уже обучали.

Почему это важно? Pose Estimation используется в многих фитнес-приложениях. Если вы знаете, где на фото какой сустав, можно оценивать правильность позы. Так, например, делает Zenia — AI йога-инструктор.

Невольно напрашивается сравнение с BlazePose, обновление которой так же недавно представила Google. BlazePose оценивает больше точек (33 против 17 в MoveNet), и может ещё оценить глубину каждой точки. Но MoveNet работает лучше.

Сделать приложение для фитнеса с помощью AI никогда не было так легко, как сейчас. Как минимум две команды в Гугле делают вам модельки, постоянно улучшают их и может даже соревнуются друг с другом.

#модели
​​Нужно больше TikTok видосов

Монтировать видео — задача долгая и муторная. Среди всего видео нужно найти места, которые стоит вырезать — неудачные дубли, молчание и тд. Кропотливая работа тут состоит в том, чтобы просматривать всё видео очень внимательно, чтобы такие моменты находить.

Стартап Kamua решил снять эту боль. Он автоматом разбивает видео на осмысленные куски, чтобы их потом руками обрезать. Задача чем-то похожа на создание трейлеров в фильмах, о которой я писал тут.

Кроме этого, Kamua предлагает автоматические субтитры для вашего видео. Вам нужно лишь выбрать шрифт и где их разместить. Для этого звук переводится текст — довольно хорошо решённая задача сейчас.

Но и это ещё не всё. Они автоматически понимают, где в кадре человек. После этого обрезает видео под формат телефона. Это позволяет автоматические из YouTube видео делать ТикТок. Думаю, что технически тут самая сложная задача — найти в кадре человека. Для этого можно использовать любой bounding box детектор, например, Yolo5.

Работает всё в браузере. За 2 доллара в месяц вы получите возможность обработать 1 час сырого видео. Суммарные инвестиции — $475K.

#стартапы
​​Как глубоко мы зашли

Self-driving машинам и роботам нужно уметь оценивать расстояния до объектов. По-другому это называют оценкой глубины. Если человек или машина на дороге близко, алгоритм может это не понять и не успеет затормозить.

Оценивать расстояние можно несколькими способами. Способ “в лоб” — использовать Lidar, который строит пространство вокруг себя в виде облака точек. Его главный минус — он стоит несколько тысяч долларов. Недавно Tesla заявила, что отказывается от Лидаров в пользу обычных камер.

Альтернативный способ — использовать нейросеть, чтобы оценить глубину по фото. Глядя на любую фотографию, наш мозг сразу понимает, какие объекты на ней располагаются дальше, а какие ближе. Почему бы не обучить этому нейронку.

Совсем недавно учёные представили новую модель для оценки глубины. На вход — фото. На выход — относительно расстояние от камеры до объектов. Мы не получим расстояние в метрах, но сможем понять, какой объект ближе, а какой дальше. Главное достоинство модели: работа с высоким разрешением (> 1000x1000).

У этой модели лицензия некоммерческая. Если хотите что-то подобное применять в своём бизнесе, то можно посмотреть на эту альтернативу.

Статья | Код

#модели
​​Куда мне поставить эту кнопку

Стоимость создания приложений и веб сайтов сейчас самая низкая в истории. И всё благодаря no-code инструментам. Больше не нужно уметь программировать, чтобы сделать что-то простое. Захотели сделать сайт — есть Tilda, Unicorn Platform. Захотели приложение на телефон — есть FlutterFlow, Adalo, Glide.

При работе с no-code инструментами вы выбираете элементы (кнопки, текст, картинки), добавляете взаимодействия и располагаете их в нужном месте. Выбрать хорошее расположение — важная задача. Сдвинули кнопку на другое место — повысили конверсию. Добавили больше изображений — понизили.

Встаёт вопрос: можем ли мы автоматически выбирать расположение объектов на нашем сайте? Пока нет, но движение в этом направлении есть. Недавно Гугл предложили нейросеть для генерации расположения объектов. Она может генерировать layout документов, UI, комнат. Внутри вариационный автокодировщик и трансформеры.

Главный минус — нейросети нельзя подать на вход объекты. То есть она просто генерирует layout, который похож на обучающее множество. Значит пока что её не получится напрямую для no-code нужд использовать. Кроме этого нейронка не учитывает влияние сгенерированного расположения на пользователя — конверсию и тд.

Тем не менее эта работа — ещё один шаг в сторону упрощения создания приложений, сайтов и документов. Скоро будет так: “Алиса, создай мне стартап, который решает проблему, которую ты сама сгенерируешь”. Ушли готовить пельмешки. Поели. Вернулись — exit.

#модели
👍1
​​Пора увольнять программистов?

Год назад я писал об интересном применении модели GPT-3: генерация кода из комментариев. Но тогда это был лишь идея, готовых сервисов для этого не было.

С тех пор я пользовался tabnine.com — это хороший плагин, который использует ИИ для автодополнения кода. Но автодополнение — это не то же самое, что программировать за программиста.

На днях увидел сервис от GitHub — Copilot. Работает так: вы объявляете функцию, пишите к ней комментарий, а нейронка сама генерирует весь код функции.

Профит от такого приложения понятный. Много времени программист тратит на простые функции. Если это автоматизировать, то производительность увеличится. И можно половину программистов уволить.

Мне пока не дали доступ на тестирование. Если это работает, как в примерах — просто вау.

#сервисы
​​Как можно было написать такой код

Привет! Продолжаю вещать про ИИ, стартапы и всё, что с этим связано.

В последнем посте (как же давно это было) я рассказывал про генерацию кода с помощью ИИ. Чтобы такое сделать, нужно собрать огромную выборку с кодом и комментариями, и научить нейросеть генерировать код, принимая на вход этот комментарий. Задача очень сложная. Но судя по всему уже неплохо решаемая.

А что если перевернуть картинку, и генерировать комментарий по коду? Для этого ведь нужен тот же самый датасет, и может подойти похожая нейросеть. Так сделал стартап Denigma. Они для программных функций с помощь ИИ генерируют описание.

А ведь понятная и (теперь) очевидная боль: вникать в чужой код бывает сложно. Особенно, если к нему нет документации, а писали его быстрей-быстрей к дедлайну. Стартап работает с большинством современных языков программирования. Альтернативное применение этой же технологии — это написание комментариев на основе того, что генерирует нейросеть.

Есть расширение для Visual Studio. Подписка стоит восемь долларов в месяц.
👍5
​​Нет войне

Моя бабушка всегда повторяла: лишь бы не было войны. Она родилась в 1933 году. Она пережила очень тяжёлые времена. Сейчас её уже нет в живых. И я не могу представить, как бы она ужаснулась, увидев, какое безумие происходит. Нет войне.

Я долго думал, чем я могу быть полезен в это трудное время. Решил, что стоит рассказать вам о стартапах с Украинскими корнями. Некоторые из этих стартапов известны на весь мир. Некоторыми вы пользуетесь каждый день.

Сегодня речь пойдёт о знаменитом Grammarly. Стартап встраивается почти в любое текстовое поле и исправляет английский текст. Причём сейчас он может не только исправлять артикли, орфографию, но и пунктуацию, стиль текста и его сложность.

У Grammarly есть расширение для браузера. Можно использовать его в офисных программах, Slack, почте или как обычные текстовый редактор, в который встроен весь функционал исправления ошибок.

Сервис незаменим как для не носителей языка, так и для носителей (лично видел, как они его используют). Есть бесплатная версия, которая уже приносит пользу. Платную подписку продают от 12$ в месяц. В прошлом году стартап оценивался в 13 миллиардов долларов.
19👍6💩1
​​Это платье меня полнит

Продолжаю рассказывать вам про стартапы с основателями из Украины. 3DLOOK — стартап, который делает виртуальную примерку одежды. Как мне видится, задача стартапа — убить классическую примерку. Сидя дома, вы должны видеть, как на вас одежда будет сидеть и знать, подойдёт ли она вам по размеру.

Технически задача очень сложная. Представьте, что человек сфоткался в штанах, и хочет виртуально померить шорты. Для этого нужна сначала удалить штаны. Потом, нужно дорисовать человеку ноги ниже шорт. Так как штаны обычно шире ноги, нужно ещё и закрасить каким-то образом фон за штанами. Шорты нужно поставить в нужное место, а ещё и деформировать их так, чтобы подошёл размер. В идеале нужно учитывать физику ткани.

Стартап утверждает, что виртуальная примерка сокращает возвраты на 40 процентов, увеличивает конверсию в 4 раза и на 20 процентов увеличивает среднюю стоимость заказа.

У 3DLOOK свои разработки в ИИ части, которые основаны на 3D модели тела человека. В научном сообществе очень много статей, которые делают виртуальную примерку. Но как правило всё ограничено каким-то узким датасетом и черрипикнутыми картинками. На реальных данных же это всё не работает.

Виртуальная примерка сейчас — это hot topic. Ещё есть стартапы Easy Try, Astrafit, Drapr, Zeekit.
9👍1💩1
​​В трёх соснах заблудился

Бывало у вас такое: устроились в новый офис, и долго ищите нужный кабинет. Или пришли в ТЦ, а найти нужный магазин сложнее, чем иголку в стоге сена.

Стартап с украинскими корнями Augmented Pixels разработал приложение, которое строит навигацию в дополненной реальности для помещений. Сначала вы проходитесь по помещению и сканируете его с помощью телефона. После этого на полученной 3D карте отмечаете точки интереса: важные комнаты, кулер с печеньками или нужную полку на складе. Навигация готова: телефон в дополненной реальности покажет путь до печенек.

Другой продукт стартапа, GlobalMap, позволяет делать 3D сканы объектов по всему миру. Ставку сделали на краудсорсинг.

Стартап поднял 6.1M инвестиций. В январе 2022 их купил Qualcomm, сумма сделки не разглашалась.
6👍3
Можно ли прочитать мысли человека?

В конце прошлого года учёные представили метод генеративного ИИ, который может что-то подобное.

Человеку показывают какое-то изображение. В этот момент ему делают функциональную магнитно-резонансную томографию (ФМРТ). Дальше модель из результатов исследования может сгенерировать изображение, которое видел человек. Получается такой нейроинтерфейс на основе ФМРТ и нейронной сети.

Внутри для генерации изображений используется диффузионная модель (по типу тех, что находятся внутри Stable Diffusion, Midjourney, DALLE 2). Увы, для каждого человека нужна своя нейросеть, так как у разных людей мозг по-разному реагирует на изображения.

https://mind-vis.github.io/
👍12🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Live photo from two photos

На камере айфона есть функция Live photo. Вместо статического фото она сохраняет “живое” фото. Технически это видео длиной в 3 секунды, которое позволяет чуть лучше воспроизвести момент на снимке.

Учёные из гугла в прошлом году придумали метод FILM, который может создавать “живое” фото из двух фотографий. Между двумя фотографиями модель делает интерполяцию. То есть создаёт кадры между двумя фото, чтобы из них получилось видео. Метод работает на картинках большого разрешения.

Зачем это нужно?
⁃ Получать live photo из уже сделанных фотографий
⁃ Увеличивать частоту кадров в видео и делать slow-motion (я писал об этом тут)

Сайт проекта: https://film-net.github.io/
Поиграть с демо: https://huggingface.co/spaces/johngoad/frame-interpolation
👍8🔥2
Github Copilot

Какое-то время назад я писал про Github Copilot. Это сервис от GitHub и Microsoft, который автоматически пишет код. Тогда он был в формате закрытого тестирования. Сейчас доступ может получить кто угодно. Я уже довольно много пользуюсь им, и хочу поделиться своим опытом.

Подсказки Copilot нативно встраиваются в среду разработки. Достаточно нажать Tab, чтобы код написался сам. Для персонального использования сервис стоит 10 баксов в месяц. Заменит ли он программиста за такие то деньги? Однозначно — нет. Но он точно упрощает и ускоряет написание кода. Вот мои сценарии использования:

1. Если мне нужно написать простую функцию, я часто гуглю это. Часто ответ содержится в первой же ссылке в гугле. Например, нужно прочитать JSON файл. Или мне нужна функция, которая находит файл в папке, у которого в названии максимальное число.

Сейчас же я просто начинаю писать “def maximum_file_number(“. Когда открывается скобка, copilot сразу предлагает аргументы функции и саму функцию целиком.

2. Если мне нужно написать функцию средней сложности, которая вызывает другие мои функции. Например, загрузить видео из памяти, и для каждого кадра запустить какую-нибудь ML модель и вернуть результат в виде массива. С таким Copilot справится почти всегда хорошо. Иногда для этого нужно написать комментарий для функции, на основе которого он сгенерирует функцию.

Кажется, что Copilot полезен в тех случаях, когда код хорошо структурирован и разбит по функциям. Несложные функции он щёлкает как орешки, а в сложных будет подсказывать по одной строчке. Архитектуру программы придётся разрабатывать самому (или спрашивать у ChatGPT). Но работать всё равно придётся 😉.

Ссылка в описании, а по промокоду NE_PRODAYU_REKLAMU вы сможете купить одну подписку по цене двух.
🔥83👍1
Несколько примеров работы. Серый код — то, что предлагает Copilot.
👍9🔥2
В декабре OpenAI представила ChatGPT — чат-бота, который умнее, чем твоя бывшая большинство современных языковых моделей. Он может вести диалоги на сложные темы, писать тексты и даже кодить.

Несколько примеров того, что может эта зверюга:
⁃ Написать сочинение или пост на выбранную тему
⁃ Сгенерировать идеи для вашего нового стартапа, а потом ещё и к любой идее написать бизнес план и стратегию создания MVP
⁃ Написать код, изменять его в соответствии с вашими запросами
⁃ Рассказать вам что-то по вашему запросу. Этакий персональный гугл
⁃ Притвориться, что он — терминал Linux, и исполнять команды

На моё удивление ChatGPT умеет говорить на русском языке. Инструкция для получения доступа к нему из России легко гуглится.

ChatGPT довольно умён. Но не стоит забывать, что он легко вас обманет и выдаст ложные факты за истину. Кроме этого, он немного староват. События 2022 года он не знает. Следующая версия чат-бота обещает обрести тревожность и уметь отвечать на вопрос “Где вы были 8 лет?”.

Ощущение, что мы проживаем революцию в реальном времени. В следующем посте расскажу про разные возможности ChatGPT с примерами запросов.
🔥11😁1
🔥9👎1
​​Глаза мои этого бы не видели

Одна из возможностей ChatGPT — суммаризация контента. Чат-бота можно попросить “Summarise the following text in 100 words” и скинуть текст, а в ответ получить краткое содержание. В эпоху бесконечного количества контента краткое содержание — этой новый тренд.

Чтобы добавить в свой сервис суммаризацию, можно использовать языковую модель GPT-3 от OpenAI, доступную по API. Уже появляются приложения, которые используют суммаризацию в качестве основной фичи.

Вчера мне написал автор расширения для Chrome, которое создаёт саммари YouTube ролика. Работает просто и гениально. Под роликом появляется кнопка. Кликаешь, ждёшь несколько секунд и читаешь краткое содержание всего ролика в виде тезисов. Напротив каждого тезиса — время в видео, к которому относится тезис.

Само расширение, на мой взгляд, пример идеального MVP. Сделано за два дня, выполняет ровно одну функцию. Выполняет хорошо. Каждые семь дней доступно три бесплатных саммари. Дополнительное саммари стоит 30-50 центов.

Если понравился проект, то можно апвоутнуть его на Product Hunt. Он сегодня там запускается.
🔥14👍51