AI замена фитнесс-тренера
Одна персональная тренировка в зале в Москве стоит минимум 1000 рублей. За эту сумму вы получите услуги человека, который может быть неквалифицированным. Скорее всего, он даст вам шаблонную программу тренировок и будет следить за вашей техникой. Польза от этого, безусловно, есть.
Задачи тренера можно автоматизировать с помощью AI. И с этим неплохо справляется стартап Onyx. Это приложение для iPhone, которое руководит вашей тренировкой. И выполняет все те функции, которые мы ждём от физрука.
Оно не только говорит, какие упражнения делать. Onyx корректирует вашу технику и считает повторения, анализируя вашу позу. Приседаете с кривой спиной — оно попросит вас её выпрямить. Отжимаетесь недостаточно низко — скажет приседать ниже.
Стоит всё это удовольствие 1200 рублей в месяц. Для приложения дороговато, но не забывайте — надо сравнивать с тренером. Для желающих не платить есть бесплатные тренировки, которые меняются каждую неделю.
Я попробовал провести несколько тренировок. Тренировка проходит футуристично — телефон тебя видит и понимает, что ты делаешь. Но сам тренировочный контент мне не очень понравился. Слишком интенсивные тренировки длиной в 5-10 минут череваты проблемами для организма.
Для тех, кто не хочет тратить на тренировки по часу за раз — самое то. Для тех, кто хочет качественно покачаться, увы, не подойдёт.
Одна персональная тренировка в зале в Москве стоит минимум 1000 рублей. За эту сумму вы получите услуги человека, который может быть неквалифицированным. Скорее всего, он даст вам шаблонную программу тренировок и будет следить за вашей техникой. Польза от этого, безусловно, есть.
Задачи тренера можно автоматизировать с помощью AI. И с этим неплохо справляется стартап Onyx. Это приложение для iPhone, которое руководит вашей тренировкой. И выполняет все те функции, которые мы ждём от физрука.
Оно не только говорит, какие упражнения делать. Onyx корректирует вашу технику и считает повторения, анализируя вашу позу. Приседаете с кривой спиной — оно попросит вас её выпрямить. Отжимаетесь недостаточно низко — скажет приседать ниже.
Стоит всё это удовольствие 1200 рублей в месяц. Для приложения дороговато, но не забывайте — надо сравнивать с тренером. Для желающих не платить есть бесплатные тренировки, которые меняются каждую неделю.
Я попробовал провести несколько тренировок. Тренировка проходит футуристично — телефон тебя видит и понимает, что ты делаешь. Но сам тренировочный контент мне не очень понравился. Слишком интенсивные тренировки длиной в 5-10 минут череваты проблемами для организма.
Для тех, кто не хочет тратить на тренировки по часу за раз — самое то. Для тех, кто хочет качественно покачаться, увы, не подойдёт.
Быстрая оценка позы от Google на любом устройстве
Гугл недавно выкатили модельку для оценки позы человека на фото и видео. Фишка их модели в том, что она очень лёгкая и быстрая. Её можно запустить на iOS, Android и даже в браузере. И она в реальном времени будет оценивать позу человека на видео.
Достигается лёгкость и скорость за счёт того, что сетка предсказывает координаты точек (x, y). Предыдущие модели обычно классифицировали каждый пиксель, что сильно замедляло их работу.
Как это можно использовать?
1. В фитнес-приложениях. С помощью оценки позы можно понять, что человек делать в упражнении не так. По такому принципу работают приложения Onyx, Zenia.
2. На предприятиях, чтобы понять, кто чем занимается. По позе не сложно отличить, работает ли человек или сплетничает у кулера.
3. Для перевода с языка жестов на русский. Чтобы это сделать, можно классифицировать последовательность поз.
Пост | Модель
Гугл недавно выкатили модельку для оценки позы человека на фото и видео. Фишка их модели в том, что она очень лёгкая и быстрая. Её можно запустить на iOS, Android и даже в браузере. И она в реальном времени будет оценивать позу человека на видео.
Достигается лёгкость и скорость за счёт того, что сетка предсказывает координаты точек (x, y). Предыдущие модели обычно классифицировали каждый пиксель, что сильно замедляло их работу.
Как это можно использовать?
1. В фитнес-приложениях. С помощью оценки позы можно понять, что человек делать в упражнении не так. По такому принципу работают приложения Onyx, Zenia.
2. На предприятиях, чтобы понять, кто чем занимается. По позе не сложно отличить, работает ли человек или сплетничает у кулера.
3. Для перевода с языка жестов на русский. Чтобы это сделать, можно классифицировать последовательность поз.
Пост | Модель
ИИ вместо личного секретаря
Пандемия перевела почти весь мир в онлайн. Если раньше мы могли в любой момент организовать митинг в офисе, то теперь приходится договариваться о созвонах.
Найти время, которое всем удобно, не просто. Один может только вечером, другой вечером уже уедет, а третий не отвечает последние два часа. Если все эти люди в разных чатах, задача ещё усложняется. "Спроси Васю, когда Петя и Антон могут созвониться". Сложно.
Чтобы упростить организацию созвонов, нужен личный секретарь. Эту проблему закрывает стартап x.ai. Работает это так: вы указываете свою доступность и посылаете коллегам своё расписание. Они в пару кликов выбирают нужный временной слот.
Это ещё не всё. Когда у вас есть расписание доступности, вы пишите коллегам письмо, и ставите x.ai в копию. ИИ связывается со всеми адресатами и согласовывает время встречи.
Алгоритм распознаёт то, что вы пишите в письме. Например, вы пишите (на английском): "Привет, Лиза и Майк, давайте проведём встречу по проекту в начале следующей недели в моём офисе". После этого создаётся событие со всеми деталями: их ИИ достаёт из текста.
Для персонального использования сервис бесплатный. Для команды сервис стоит 15 долларов за человека в месяц. Всего сервис привлекал $45 млн инвестиций.
Пандемия перевела почти весь мир в онлайн. Если раньше мы могли в любой момент организовать митинг в офисе, то теперь приходится договариваться о созвонах.
Найти время, которое всем удобно, не просто. Один может только вечером, другой вечером уже уедет, а третий не отвечает последние два часа. Если все эти люди в разных чатах, задача ещё усложняется. "Спроси Васю, когда Петя и Антон могут созвониться". Сложно.
Чтобы упростить организацию созвонов, нужен личный секретарь. Эту проблему закрывает стартап x.ai. Работает это так: вы указываете свою доступность и посылаете коллегам своё расписание. Они в пару кликов выбирают нужный временной слот.
Это ещё не всё. Когда у вас есть расписание доступности, вы пишите коллегам письмо, и ставите x.ai в копию. ИИ связывается со всеми адресатами и согласовывает время встречи.
Алгоритм распознаёт то, что вы пишите в письме. Например, вы пишите (на английском): "Привет, Лиза и Майк, давайте проведём встречу по проекту в начале следующей недели в моём офисе". После этого создаётся событие со всеми деталями: их ИИ достаёт из текста.
Для персонального использования сервис бесплатный. Для команды сервис стоит 15 долларов за человека в месяц. Всего сервис привлекал $45 млн инвестиций.
Я забыл, что хотел сказать
Наша память несовершенна. Сколько бы мы в школе не учили стихов, всё равно иногда говорим фразу "я забыл, что хотел сказать". И это не самое плохое. Иногда мы забываем то, что стоит помнить: счастливые моменты, интересные идеи, впечатления от поездок, воспоминания о родственниках.
На каждую проблему найдётся отважный предприниматель, который будет её решать. Стартап hu.man.ai решил заменить вашу плохую память с помощью цифровой.
Работает это следующим образом. Вы на родном английском пишите воспоминание. Например, "Прошлым летом мы ездили на шашлыки и нечаянно уронили всё мясо в мангал". Когда захотели вспомнить, что же там было, вы начинаете набирать в окошке "на шашлыках летом", а система выдаёт вам ваше воспоминание.
Под капотом — AI. Думаю, что используют какую-то архитектуру трансформеров. За сохранность данных отвечает блокчейн. На сайте пишут, что к данным ни у кого доступа не будет. И в фейсбуке таргет по воспоминаниям вы не увидите.
Интересно позиционирование стартапа. Внутри поиск предложений. Технология далеко не новая. Но продавать поиск по базе предложений не интересно. А вот оцифровать человеческую память — благородное занятие.
За всё время стартап поднял $3.2 млн. Пока что стартап на стадии сбора заявок на использование — я оставил и жду подтверждения. Хочу попробовать его в качестве хранилища инсайдов и идей, которые приходят в голову.
Наша память несовершенна. Сколько бы мы в школе не учили стихов, всё равно иногда говорим фразу "я забыл, что хотел сказать". И это не самое плохое. Иногда мы забываем то, что стоит помнить: счастливые моменты, интересные идеи, впечатления от поездок, воспоминания о родственниках.
На каждую проблему найдётся отважный предприниматель, который будет её решать. Стартап hu.man.ai решил заменить вашу плохую память с помощью цифровой.
Работает это следующим образом. Вы на родном английском пишите воспоминание. Например, "Прошлым летом мы ездили на шашлыки и нечаянно уронили всё мясо в мангал". Когда захотели вспомнить, что же там было, вы начинаете набирать в окошке "на шашлыках летом", а система выдаёт вам ваше воспоминание.
Под капотом — AI. Думаю, что используют какую-то архитектуру трансформеров. За сохранность данных отвечает блокчейн. На сайте пишут, что к данным ни у кого доступа не будет. И в фейсбуке таргет по воспоминаниям вы не увидите.
Интересно позиционирование стартапа. Внутри поиск предложений. Технология далеко не новая. Но продавать поиск по базе предложений не интересно. А вот оцифровать человеческую память — благородное занятие.
За всё время стартап поднял $3.2 млн. Пока что стартап на стадии сбора заявок на использование — я оставил и жду подтверждения. Хочу попробовать его в качестве хранилища инсайдов и идей, которые приходят в голову.
Давайте улучшим
Чтобы распечатать большую фотографию, нужно высокое разрешение. Вы не сможете распечатать в хорошем качестве фото, сделанное на старенький Nokia.
Если вы хотите выставить свою квартиру на продажу, то тоже хорошо бы иметь качественные большие фотки. Но имеющаяся техника может не позволить вам этого сделать.
На помощь приходит стартап Let's enhance. У него идея до банальности проста. Давайте возьмём работающий метод повышения разрешения (super-resolution) и сделаем из этого продукт. И оно работает. На сайте обещают увеличить картинку в 16 раз.
Стартап нацелен на бизнесы. Если у вас свой интернет-магазин, то с их помощью сможете улучшить фото на сайте.
Зарабатывает стартап на API по подписке. Самый большой из описанных на сайте тарифов — 5000 фото в месяц за 290 долларов. Примерно 17 фото за один доллар.
Чтобы распечатать большую фотографию, нужно высокое разрешение. Вы не сможете распечатать в хорошем качестве фото, сделанное на старенький Nokia.
Если вы хотите выставить свою квартиру на продажу, то тоже хорошо бы иметь качественные большие фотки. Но имеющаяся техника может не позволить вам этого сделать.
На помощь приходит стартап Let's enhance. У него идея до банальности проста. Давайте возьмём работающий метод повышения разрешения (super-resolution) и сделаем из этого продукт. И оно работает. На сайте обещают увеличить картинку в 16 раз.
Стартап нацелен на бизнесы. Если у вас свой интернет-магазин, то с их помощью сможете улучшить фото на сайте.
Зарабатывает стартап на API по подписке. Самый большой из описанных на сайте тарифов — 5000 фото в месяц за 290 долларов. Примерно 17 фото за один доллар.
👍1
Потанцуем?
Десять лет назад в интернете гулял видос, где Димон танцует под песню Американ Бой. "Каждый президент должен танцевать!" — подумали учёные, глядя на Димона. И сделали для этого нейросеть.
Она переносит позу с одного фото на другое. Внутри модельки есть механизм внимания — именно то, что OpenAI использует для генерации текста и картинок.
Как это можно использовать?
- В сервисах, где нужно создавать видео с объяснением упражнений. Можно записать себя дома на видео с немытой головой. А потом по этому видео анимировать фото человека в студии.
- В Fashion индустрии — чтобы переносить одежду с одного человека на другого. Такое нужно для виртуальной примерки или генерации фото моделей.
- В конце концов, можно заставить старика Дональда танцевать.
Сайт | Статья | GitHub | Google Colab (можно потыкать)
Десять лет назад в интернете гулял видос, где Димон танцует под песню Американ Бой. "Каждый президент должен танцевать!" — подумали учёные, глядя на Димона. И сделали для этого нейросеть.
Она переносит позу с одного фото на другое. Внутри модельки есть механизм внимания — именно то, что OpenAI использует для генерации текста и картинок.
Как это можно использовать?
- В сервисах, где нужно создавать видео с объяснением упражнений. Можно записать себя дома на видео с немытой головой. А потом по этому видео анимировать фото человека в студии.
- В Fashion индустрии — чтобы переносить одежду с одного человека на другого. Такое нужно для виртуальной примерки или генерации фото моделей.
- В конце концов, можно заставить старика Дональда танцевать.
Сайт | Статья | GitHub | Google Colab (можно потыкать)
В новом цвете
Если вы начнёте смотреть старый чёрно-белый фильм, то вам может стать скучно. Наш мозг привык к бОльшей плотности информации. Мы смотрим цветные видео, а иногда ускоряем их в два раза на YouTube.
Фильмы, которые были сняты в первой половине двадцатого века, могут быть интересны современному зрителю, если сами станут современнее. Для этого их хорошо бы превратить в цветные.
Недавно Google выкатила модельку, которая как раз это и делает. На вход чёрно-белое фото, на выходе — цветное. Внутри опять механизм внимания: без этого уже мало что обходится в современных нейросетях.
Интересно, что модель может добавлять разные цвета на одни и те же объекты. Если машина чёрно-белая, то можно сделать из неё как зелёную, так и красную. Это открывает новое применение — перекрашивание объектов на существующих цветных фото. Для этого надо лишь убрать цвет и заново раскрасить с помощью этой модельки.
Как это можно использовать?
- Делать сервисы для добавления цвета на старые фото.
- Превращать старые фильмы и мультики в цветные. И пускать в кинотеатрах.
- Перекрашивать существующие фото: менять цвет одежды, домов или машин.
Статья | Код
#модели
Если вы начнёте смотреть старый чёрно-белый фильм, то вам может стать скучно. Наш мозг привык к бОльшей плотности информации. Мы смотрим цветные видео, а иногда ускоряем их в два раза на YouTube.
Фильмы, которые были сняты в первой половине двадцатого века, могут быть интересны современному зрителю, если сами станут современнее. Для этого их хорошо бы превратить в цветные.
Недавно Google выкатила модельку, которая как раз это и делает. На вход чёрно-белое фото, на выходе — цветное. Внутри опять механизм внимания: без этого уже мало что обходится в современных нейросетях.
Интересно, что модель может добавлять разные цвета на одни и те же объекты. Если машина чёрно-белая, то можно сделать из неё как зелёную, так и красную. Это открывает новое применение — перекрашивание объектов на существующих цветных фото. Для этого надо лишь убрать цвет и заново раскрасить с помощью этой модельки.
Как это можно использовать?
- Делать сервисы для добавления цвета на старые фото.
- Превращать старые фильмы и мультики в цветные. И пускать в кинотеатрах.
- Перекрашивать существующие фото: менять цвет одежды, домов или машин.
Статья | Код
#модели
Отойди, не загораживай
Глядя на красивый закат на набережной, вы решили его сфоткать. Достали телефон, пока нет людей. Щёлк. Блин, велосипедист в кадр влез. Ещё раз. Теперь дети в углу снимка бегают.
Знакомая проблема? Решать её решили основатели стартапа Invisi. Скачиваете приложение, загружаете фото, выделяете область, которую надо удалить и закрасить — вуаля.
Работает это лучше всего при однообразном фоне. Небо, море, песок, снег подходят лучше всего. Если фон сложный, с разными другими объектами, то закрашивание будет не очень.
Внутри технология inpainting — закраски неизвестных частей фото. Нейросеть принимает изображение и область, которую надо закрасить. И сама "додумывает", что там должно быть. Если хочется потыкать — можно скачать само приложение или попробовать бесплатное демо от Nvidia.
#стартапы
Глядя на красивый закат на набережной, вы решили его сфоткать. Достали телефон, пока нет людей. Щёлк. Блин, велосипедист в кадр влез. Ещё раз. Теперь дети в углу снимка бегают.
Знакомая проблема? Решать её решили основатели стартапа Invisi. Скачиваете приложение, загружаете фото, выделяете область, которую надо удалить и закрасить — вуаля.
Работает это лучше всего при однообразном фоне. Небо, море, песок, снег подходят лучше всего. Если фон сложный, с разными другими объектами, то закрашивание будет не очень.
Внутри технология inpainting — закраски неизвестных частей фото. Нейросеть принимает изображение и область, которую надо закрасить. И сама "додумывает", что там должно быть. Если хочется потыкать — можно скачать само приложение или попробовать бесплатное демо от Nvidia.
#стартапы
Нейросеть вместо хромакея
Большинство современных блокбастеров используют хромакей — зелёный экран. Во время производства фильма его заменяют на нужный фон. Благодаря этому мы можем видеть, как Тони Старк дерётся с Таносом на несуществующей в реальной жизни планете.
Почему экран зелёный? Чтобы его можно было легко отделить от людей, глядя только на цвет.
Бывают ситуации, когда надо отделить людей от фона, а зелёного фона нет. Например, если мы хотим поменять фон в Zoom. Либо же какой-нибудь блогер на YouTube хочет изменить фон, а хромакей некуда ставить.
На помощь приходит новая работа от китайских учёных. Они придумали нейросетку, которая с хорошим качеством удаляет фон на изображении.
Работает правда круто: вот тут можно залить своё фото и получить результат.
Как это можно использовать?
- Заменять фон в Zoom, Google Meet или других программах для видео-звонков
- Добавить функцию/плагин в редактор видео: блогеры смогут менять фон своих видео
- Портретный режим — выделять людей и размывать фон с помощью телефона
Статья | GitHub | Colab | Демо
#модели
Большинство современных блокбастеров используют хромакей — зелёный экран. Во время производства фильма его заменяют на нужный фон. Благодаря этому мы можем видеть, как Тони Старк дерётся с Таносом на несуществующей в реальной жизни планете.
Почему экран зелёный? Чтобы его можно было легко отделить от людей, глядя только на цвет.
Бывают ситуации, когда надо отделить людей от фона, а зелёного фона нет. Например, если мы хотим поменять фон в Zoom. Либо же какой-нибудь блогер на YouTube хочет изменить фон, а хромакей некуда ставить.
На помощь приходит новая работа от китайских учёных. Они придумали нейросетку, которая с хорошим качеством удаляет фон на изображении.
Работает правда круто: вот тут можно залить своё фото и получить результат.
Как это можно использовать?
- Заменять фон в Zoom, Google Meet или других программах для видео-звонков
- Добавить функцию/плагин в редактор видео: блогеры смогут менять фон своих видео
- Портретный режим — выделять людей и размывать фон с помощью телефона
Статья | GitHub | Colab | Демо
#модели
Трейлер фильма
Глядя на трейлер фильма вы решаете, пойдёте вы в кино или нет. Трейлер — визитная карточка фильма.
Тяжело ли сделать трейлер фильма? Понятия не имею, т.к. никогда этим не занимался. Кажется, что да — нужно найти именно те моменты в фильме, которые вызовут больше всего эмоций. При этом трейлер не должен содержать спойлеров. А ещё он должен быть динамичным. А ещё смешным. Короче, та ещё морока.
Если вы занимаетесь созданием трейлеров, то можете выдохнуть. Скоро не нужно будет так страдать. Вас заменят нейросети.
В прошлом году вышла статья, где авторы придумали алгоритм для поиска самых важных фрагментов фильма. Для каждого кадра они предсказывают, насколько он подходит в качестве кадра трейлера.
Применять такое можно не только к фильмам. Модель может выявлять важные моменты в любых видео. Главное подобрать правильный датасет. Может через пару лет появится расширение для браузера, чтобы просматривать важные фрагменты любого видео.
#модели
Глядя на трейлер фильма вы решаете, пойдёте вы в кино или нет. Трейлер — визитная карточка фильма.
Тяжело ли сделать трейлер фильма? Понятия не имею, т.к. никогда этим не занимался. Кажется, что да — нужно найти именно те моменты в фильме, которые вызовут больше всего эмоций. При этом трейлер не должен содержать спойлеров. А ещё он должен быть динамичным. А ещё смешным. Короче, та ещё морока.
Если вы занимаетесь созданием трейлеров, то можете выдохнуть. Скоро не нужно будет так страдать. Вас заменят нейросети.
В прошлом году вышла статья, где авторы придумали алгоритм для поиска самых важных фрагментов фильма. Для каждого кадра они предсказывают, насколько он подходит в качестве кадра трейлера.
Применять такое можно не только к фильмам. Модель может выявлять важные моменты в любых видео. Главное подобрать правильный датасет. Может через пару лет появится расширение для браузера, чтобы просматривать важные фрагменты любого видео.
#модели
Блогер-нейросеть
Представьте, что вы читаете статью про детокс-смузи. С большой вероятностью её написал копирайтер, а не доктор медицинских наук. Этот человек ещё вчера писал про устройство ракет. Сегодня про смузи. Завтра он напишет статью про психологические проблемы детей в семьях без отца.
Ещё копирайтер придумывает тексты для маркетинговых целей. Захотели вы запустить рекламу в Яндексе — нужно для этого придумать текст объявления. Причём текст должен быть продающим.
Стартап CopySmith решил копирайтеров заменить. Поставил в землю флаг и сказал: "с этого дня наша нейросеть будет писать посты для блогов и маркетинговые тексты". А по чему бы и нет, ведь модель GPT3 умеет генерировать очень осмысленный текст.
Чтобы всё заработало, надо CopySmith дать вводные. Для поста на блог это аудитория, тематика и пример текста, чтобы нейронка скопировала ваш стиль. Нейросеть всё это анализирует и выдаёт вам пост.
У стартапа широкая линейка тарифов. Для маркетинга своей компании и ведения блога хватит 59 долларов в месяц. А если у вас своё копирайтинговое агенство, то будте любезны заплатить 500 за почти безлимитное использование.
Выгода от стартапа очень легко считается. Средний копирайтер в Америке получает 50к долларов в год. Самый дорогой тариф обойдётся вам в 6к долларов в год. Нейросеть получается выгоднее в 8 раз. К тому же она не болеет, не залипает на работе в твиттере и не требует уплаты налогов.
#стартапы
Представьте, что вы читаете статью про детокс-смузи. С большой вероятностью её написал копирайтер, а не доктор медицинских наук. Этот человек ещё вчера писал про устройство ракет. Сегодня про смузи. Завтра он напишет статью про психологические проблемы детей в семьях без отца.
Ещё копирайтер придумывает тексты для маркетинговых целей. Захотели вы запустить рекламу в Яндексе — нужно для этого придумать текст объявления. Причём текст должен быть продающим.
Стартап CopySmith решил копирайтеров заменить. Поставил в землю флаг и сказал: "с этого дня наша нейросеть будет писать посты для блогов и маркетинговые тексты". А по чему бы и нет, ведь модель GPT3 умеет генерировать очень осмысленный текст.
Чтобы всё заработало, надо CopySmith дать вводные. Для поста на блог это аудитория, тематика и пример текста, чтобы нейронка скопировала ваш стиль. Нейросеть всё это анализирует и выдаёт вам пост.
У стартапа широкая линейка тарифов. Для маркетинга своей компании и ведения блога хватит 59 долларов в месяц. А если у вас своё копирайтинговое агенство, то будте любезны заплатить 500 за почти безлимитное использование.
Выгода от стартапа очень легко считается. Средний копирайтер в Америке получает 50к долларов в год. Самый дорогой тариф обойдётся вам в 6к долларов в год. Нейросеть получается выгоднее в 8 раз. К тому же она не болеет, не залипает на работе в твиттере и не требует уплаты налогов.
#стартапы
Нейросеть-стабилизатор
Видео стабилизатор нужен для того, чтобы избавить записываемое видео от тряски. Вы вставляете телефон в специальную штуку и записываете видео, например, во время ходьбы. Непроизвольно ваши руки трясутся. Но вот на видео этой тряски будет сильно меньше.
Самый дорогой стабилизатор на яндекс-маркете стоит 120 тысяч рублей. Дорого? С вами согласны авторы нейросети, которая призвана заменить стабилизатор.
Челлендж стабилизации заключается в том, что надо как можно меньше обрезать кадры. Представьте, что вы идёте с камерой в руках. И трясёте камеру вверх-вниз так сильно, что рука перемещается аж на 10 см. Представляете, что вы наснимаете? Чем больше трясётся рука, тем больше приходится обрезать кадры. И тут нейронка хороша тем, что позволяет оставить большую часть кадра.
Увы, моделька не работает в реал-тайме. Процессинг одного кадра на GPU занимает почти 10 секунд. Поэтому до замены реального стабилизатора дело не дошло. Но всё равно это важный шаг в замене дорогой штуки на нейросеть.
Статья | Код | Примеры работы
#модели
Видео стабилизатор нужен для того, чтобы избавить записываемое видео от тряски. Вы вставляете телефон в специальную штуку и записываете видео, например, во время ходьбы. Непроизвольно ваши руки трясутся. Но вот на видео этой тряски будет сильно меньше.
Самый дорогой стабилизатор на яндекс-маркете стоит 120 тысяч рублей. Дорого? С вами согласны авторы нейросети, которая призвана заменить стабилизатор.
Челлендж стабилизации заключается в том, что надо как можно меньше обрезать кадры. Представьте, что вы идёте с камерой в руках. И трясёте камеру вверх-вниз так сильно, что рука перемещается аж на 10 см. Представляете, что вы наснимаете? Чем больше трясётся рука, тем больше приходится обрезать кадры. И тут нейронка хороша тем, что позволяет оставить большую часть кадра.
Увы, моделька не работает в реал-тайме. Процессинг одного кадра на GPU занимает почти 10 секунд. Поэтому до замены реального стабилизатора дело не дошло. Но всё равно это важный шаг в замене дорогой штуки на нейросеть.
Статья | Код | Примеры работы
#модели
Контрол Ц, Контрол В
Копировать. Вставить. Ctrl+C и Ctrl+V. Когда вы печатаете текст, то наверняка часто используете эти сочетания клавиш. В крайнем случае в ход идёт правая кнопка мыши и долгий поиск слов "копировать" и "вставить". Набирая текст, постоянно приходится это делать.
А теперь подумайте, какого художникам и дизайнерам? Вот захотели они скопировать объект из одного фото и перенести на другое. Это надо объект руками отделять от фона, кропотливо обрабатывать каждый миллиметр фото. А если из реальной жизни объект — как его на перенести на рисунок? Та ещё задачка.
Стартап ClipDrop решил прийти дизайнерам на помощь. Он позволяет копировать объекты из реального мира и добавлять их, например, в фотошоп.
На примере расскажу, как это работает. Я сижу за столом, рядом со мной лежат наушники. Я делаю одну фотографию в телефоне, жду пару секунд и получаю фото наушников. Без стола, без других предметов, без фона, только наушники. Дальше объект можно отправить в другое приложение. Например, можно сразу с телефона отправить его в фотошоп на компе.
С точки зрения ИИ стартап решает 2 задачи. В начале ему нужно определить, какой конкретно объект надо скопировать. Предположу, что для этого используется какой-то object detection. Затем нужно отделить этот объект от фона. Я уже писал про похожую задачу отделения людей от фона. Но тут всё сложнее — объект может быть любым.
ClipDrop — крутой пример того, как можно технологию превратить в полезный продукт. И ключ тут — это не сама технология, а именно концепция "скопировать-вставить".
#стартапы
Копировать. Вставить. Ctrl+C и Ctrl+V. Когда вы печатаете текст, то наверняка часто используете эти сочетания клавиш. В крайнем случае в ход идёт правая кнопка мыши и долгий поиск слов "копировать" и "вставить". Набирая текст, постоянно приходится это делать.
А теперь подумайте, какого художникам и дизайнерам? Вот захотели они скопировать объект из одного фото и перенести на другое. Это надо объект руками отделять от фона, кропотливо обрабатывать каждый миллиметр фото. А если из реальной жизни объект — как его на перенести на рисунок? Та ещё задачка.
Стартап ClipDrop решил прийти дизайнерам на помощь. Он позволяет копировать объекты из реального мира и добавлять их, например, в фотошоп.
На примере расскажу, как это работает. Я сижу за столом, рядом со мной лежат наушники. Я делаю одну фотографию в телефоне, жду пару секунд и получаю фото наушников. Без стола, без других предметов, без фона, только наушники. Дальше объект можно отправить в другое приложение. Например, можно сразу с телефона отправить его в фотошоп на компе.
С точки зрения ИИ стартап решает 2 задачи. В начале ему нужно определить, какой конкретно объект надо скопировать. Предположу, что для этого используется какой-то object detection. Затем нужно отделить этот объект от фона. Я уже писал про похожую задачу отделения людей от фона. Но тут всё сложнее — объект может быть любым.
ClipDrop — крутой пример того, как можно технологию превратить в полезный продукт. И ключ тут — это не сама технология, а именно концепция "скопировать-вставить".
#стартапы
👍1
Нейро-MARVEL
Кинокомиксы — явление, которое стало особенно популярно десять лет назад. Последние Мстители собрали в кинотеатрах больше двух миллиардов долларов. Всё это стало возможным благодаря наличию огромного количества комиксов. Ведь из них можно брать интересные сюжеты про супер героев и экранизировать.
Работает ли это в обратную сторону? Создают ли люди комиксы на основе фильмов? Оказывается, что да. Например, существуют комиксы по Терминатору, Пятница 13-е и Назад в будущее.
Как вы могли догадаться, сегодня речь пойдёт про нейросеть, которая создаёт комиксы на основе фильма. На вход – фильм с субтитрами, на выход — готовый комикс: изображения + текст.
Работает это следующим образом. Из фильма каждые пол секунды берётся кадр. Дальше кадры делятся на две части: с субтитрами и без. Каждому кадру предсказывается его "важность" для комикса. Чтобы предсказать важность, используется нейросеть для суммаризации текста — выделения самых важных фраз.
В комикс оставляются только кадры с самой большой важностью. Каждый кадр стиллизуется под комикс. На кадры добавляется текст из субтитров. Причём то, как выглядит текст, определяется на основе эмоций в диалогах — за это отвечает аудио-нейросеть. В итоге всё компануется в один комикс.
Кода, увы, у этой статьи нет. Возможно, авторы сразу планируют коммерческое использование. И пожалуйста, за то мы знаем, как заменить нейросетями ещё одну творческую профессию.
#модели
Кинокомиксы — явление, которое стало особенно популярно десять лет назад. Последние Мстители собрали в кинотеатрах больше двух миллиардов долларов. Всё это стало возможным благодаря наличию огромного количества комиксов. Ведь из них можно брать интересные сюжеты про супер героев и экранизировать.
Работает ли это в обратную сторону? Создают ли люди комиксы на основе фильмов? Оказывается, что да. Например, существуют комиксы по Терминатору, Пятница 13-е и Назад в будущее.
Как вы могли догадаться, сегодня речь пойдёт про нейросеть, которая создаёт комиксы на основе фильма. На вход – фильм с субтитрами, на выход — готовый комикс: изображения + текст.
Работает это следующим образом. Из фильма каждые пол секунды берётся кадр. Дальше кадры делятся на две части: с субтитрами и без. Каждому кадру предсказывается его "важность" для комикса. Чтобы предсказать важность, используется нейросеть для суммаризации текста — выделения самых важных фраз.
В комикс оставляются только кадры с самой большой важностью. Каждый кадр стиллизуется под комикс. На кадры добавляется текст из субтитров. Причём то, как выглядит текст, определяется на основе эмоций в диалогах — за это отвечает аудио-нейросеть. В итоге всё компануется в один комикс.
Кода, увы, у этой статьи нет. Возможно, авторы сразу планируют коммерческое использование. И пожалуйста, за то мы знаем, как заменить нейросетями ещё одну творческую профессию.
#модели
Цветные хроники первой мировой войны
Властелин колец — замечательный фильм. Помимо фильмов о средиземье Питер Джексон снял фильм “Они никогда не станут старше”. Это фильм о первой мировой войне. Интересен он тем, что в нём использовались кадры, снятые в 1910-е годы. 100 часов чёрно-белой съёмки.
Но как так получилось, что фильм цветной? Сто лет назад звук то не умели записывать вместе с видео, не то что цветные фильмы снимать. Со звуком сделали так: специалисты по губам определяли, что говорят солдаты, а после актёры фильм озвучивали. А что с видео?
Современные нейросети могут реставрировать чёрно-бело видео и делать его цветным. В открытом доступе есть некоторые модели для этого. Вот и вот.
Естественно, при наличии решения найдутся стартаперы, которые обернут технологию в удобный сервис. Так решил сделать стартап neural.love. Кроме добавления цвета на чёрно-белые видео они умеют:
— Увеличивать в 4 раза разрешение видео
— Делать slow-mo, то есть добавлять новые кадры между существующими
— Улучшать качество лица на видео
Информацию об инвестициях я не находил. Но уверен, что клиентов для таких решений найти всегда можно. Пересмотреть старый любимый фильм в хорошем качестве захотят многие. Тот же Властелин колец сейчас идёт в кинотеатрах в качестве 4К. Правда, что-то зрители недовольны работой нейросетей. Но это уже другая история…
#стартапы
Властелин колец — замечательный фильм. Помимо фильмов о средиземье Питер Джексон снял фильм “Они никогда не станут старше”. Это фильм о первой мировой войне. Интересен он тем, что в нём использовались кадры, снятые в 1910-е годы. 100 часов чёрно-белой съёмки.
Но как так получилось, что фильм цветной? Сто лет назад звук то не умели записывать вместе с видео, не то что цветные фильмы снимать. Со звуком сделали так: специалисты по губам определяли, что говорят солдаты, а после актёры фильм озвучивали. А что с видео?
Современные нейросети могут реставрировать чёрно-бело видео и делать его цветным. В открытом доступе есть некоторые модели для этого. Вот и вот.
Естественно, при наличии решения найдутся стартаперы, которые обернут технологию в удобный сервис. Так решил сделать стартап neural.love. Кроме добавления цвета на чёрно-белые видео они умеют:
— Увеличивать в 4 раза разрешение видео
— Делать slow-mo, то есть добавлять новые кадры между существующими
— Улучшать качество лица на видео
Информацию об инвестициях я не находил. Но уверен, что клиентов для таких решений найти всегда можно. Пересмотреть старый любимый фильм в хорошем качестве захотят многие. Тот же Властелин колец сейчас идёт в кинотеатрах в качестве 4К. Правда, что-то зрители недовольны работой нейросетей. Но это уже другая история…
#стартапы
🤔1
Что мы обсуждали в прошлый раз
Во время ковида сильно выросло количество звонков по работе. Каждая такая встреча — намерение обсудить что-то важное. Но наружу выплывают все минусы удалённых встреч. Один в это время гуляет с ребёнком, второй залипает в инстаграм. Такое вполне можно позволить, просто выключив камеру и микрофон. В таких условиях можно пропустить что-то важное.
Самое простое решение — надо, чтобы кто-то во время встречи записывал, что вы обсуждаете. А потом поделился со всеми. Но слушать, анализировать и записывать — то ещё занятие. Наш мозг может параллелить фоновые процессы. Но тут совсем не фоновые.
Стартап otter.ai берёт заметки со встреч на себя. Вы просто созваниваетесь как обычно. А Otter слушает и записывает всё, что слышит. После встречи у вас получается страничка, которую легко можно отредактировать: выделить важные мысли, добавить картинки и удалить оффтоп обсуждения. А после скинуть ссылку всем, кто был на встрече.
Интересно, что внутри стартапа доступная технология перевода речи в текст. Вот, например, гайд по распознаванию речи для Python. Добавьте к этому правильную обёртку и позиционирование — получится стартап otter.ai.
В месяц можно бесплатно анализировать 600 минут созвонов. Для компаний безлимитный тариф обойдётся в 20 долларов в месяц на пользователя. Общие инвестиции в стартап — $63M.
#стартапы
Во время ковида сильно выросло количество звонков по работе. Каждая такая встреча — намерение обсудить что-то важное. Но наружу выплывают все минусы удалённых встреч. Один в это время гуляет с ребёнком, второй залипает в инстаграм. Такое вполне можно позволить, просто выключив камеру и микрофон. В таких условиях можно пропустить что-то важное.
Самое простое решение — надо, чтобы кто-то во время встречи записывал, что вы обсуждаете. А потом поделился со всеми. Но слушать, анализировать и записывать — то ещё занятие. Наш мозг может параллелить фоновые процессы. Но тут совсем не фоновые.
Стартап otter.ai берёт заметки со встреч на себя. Вы просто созваниваетесь как обычно. А Otter слушает и записывает всё, что слышит. После встречи у вас получается страничка, которую легко можно отредактировать: выделить важные мысли, добавить картинки и удалить оффтоп обсуждения. А после скинуть ссылку всем, кто был на встрече.
Интересно, что внутри стартапа доступная технология перевода речи в текст. Вот, например, гайд по распознаванию речи для Python. Добавьте к этому правильную обёртку и позиционирование — получится стартап otter.ai.
В месяц можно бесплатно анализировать 600 минут созвонов. Для компаний безлимитный тариф обойдётся в 20 долларов в месяц на пользователя. Общие инвестиции в стартап — $63M.
#стартапы
AI команда из Google работает на вас
Google представил новую нейронку MoveNet для оценки позы человека по фото. Главные особенности — работает быстро и хорошо. Можно использовать на телефоне или в браузере.
Интересно, что их модель не сильно отличается от существующих. Самое важное в этой задаче — хороший датасет. Они набрали из YouTube видео с фитнесом, йогой, и танцами. С каждого видео брали по три кадра, чтобы было разнообразнее. Руками их разметили, и на этом уже обучали.
Почему это важно? Pose Estimation используется в многих фитнес-приложениях. Если вы знаете, где на фото какой сустав, можно оценивать правильность позы. Так, например, делает Zenia — AI йога-инструктор.
Невольно напрашивается сравнение с BlazePose, обновление которой так же недавно представила Google. BlazePose оценивает больше точек (33 против 17 в MoveNet), и может ещё оценить глубину каждой точки. Но MoveNet работает лучше.
Сделать приложение для фитнеса с помощью AI никогда не было так легко, как сейчас. Как минимум две команды в Гугле делают вам модельки, постоянно улучшают их и может даже соревнуются друг с другом.
#модели
Google представил новую нейронку MoveNet для оценки позы человека по фото. Главные особенности — работает быстро и хорошо. Можно использовать на телефоне или в браузере.
Интересно, что их модель не сильно отличается от существующих. Самое важное в этой задаче — хороший датасет. Они набрали из YouTube видео с фитнесом, йогой, и танцами. С каждого видео брали по три кадра, чтобы было разнообразнее. Руками их разметили, и на этом уже обучали.
Почему это важно? Pose Estimation используется в многих фитнес-приложениях. Если вы знаете, где на фото какой сустав, можно оценивать правильность позы. Так, например, делает Zenia — AI йога-инструктор.
Невольно напрашивается сравнение с BlazePose, обновление которой так же недавно представила Google. BlazePose оценивает больше точек (33 против 17 в MoveNet), и может ещё оценить глубину каждой точки. Но MoveNet работает лучше.
Сделать приложение для фитнеса с помощью AI никогда не было так легко, как сейчас. Как минимум две команды в Гугле делают вам модельки, постоянно улучшают их и может даже соревнуются друг с другом.
#модели
Нужно больше TikTok видосов
Монтировать видео — задача долгая и муторная. Среди всего видео нужно найти места, которые стоит вырезать — неудачные дубли, молчание и тд. Кропотливая работа тут состоит в том, чтобы просматривать всё видео очень внимательно, чтобы такие моменты находить.
Стартап Kamua решил снять эту боль. Он автоматом разбивает видео на осмысленные куски, чтобы их потом руками обрезать. Задача чем-то похожа на создание трейлеров в фильмах, о которой я писал тут.
Кроме этого, Kamua предлагает автоматические субтитры для вашего видео. Вам нужно лишь выбрать шрифт и где их разместить. Для этого звук переводится текст — довольно хорошо решённая задача сейчас.
Но и это ещё не всё. Они автоматически понимают, где в кадре человек. После этого обрезает видео под формат телефона. Это позволяет автоматические из YouTube видео делать ТикТок. Думаю, что технически тут самая сложная задача — найти в кадре человека. Для этого можно использовать любой bounding box детектор, например, Yolo5.
Работает всё в браузере. За 2 доллара в месяц вы получите возможность обработать 1 час сырого видео. Суммарные инвестиции — $475K.
#стартапы
Монтировать видео — задача долгая и муторная. Среди всего видео нужно найти места, которые стоит вырезать — неудачные дубли, молчание и тд. Кропотливая работа тут состоит в том, чтобы просматривать всё видео очень внимательно, чтобы такие моменты находить.
Стартап Kamua решил снять эту боль. Он автоматом разбивает видео на осмысленные куски, чтобы их потом руками обрезать. Задача чем-то похожа на создание трейлеров в фильмах, о которой я писал тут.
Кроме этого, Kamua предлагает автоматические субтитры для вашего видео. Вам нужно лишь выбрать шрифт и где их разместить. Для этого звук переводится текст — довольно хорошо решённая задача сейчас.
Но и это ещё не всё. Они автоматически понимают, где в кадре человек. После этого обрезает видео под формат телефона. Это позволяет автоматические из YouTube видео делать ТикТок. Думаю, что технически тут самая сложная задача — найти в кадре человека. Для этого можно использовать любой bounding box детектор, например, Yolo5.
Работает всё в браузере. За 2 доллара в месяц вы получите возможность обработать 1 час сырого видео. Суммарные инвестиции — $475K.
#стартапы
Как глубоко мы зашли
Self-driving машинам и роботам нужно уметь оценивать расстояния до объектов. По-другому это называют оценкой глубины. Если человек или машина на дороге близко, алгоритм может это не понять и не успеет затормозить.
Оценивать расстояние можно несколькими способами. Способ “в лоб” — использовать Lidar, который строит пространство вокруг себя в виде облака точек. Его главный минус — он стоит несколько тысяч долларов. Недавно Tesla заявила, что отказывается от Лидаров в пользу обычных камер.
Альтернативный способ — использовать нейросеть, чтобы оценить глубину по фото. Глядя на любую фотографию, наш мозг сразу понимает, какие объекты на ней располагаются дальше, а какие ближе. Почему бы не обучить этому нейронку.
Совсем недавно учёные представили новую модель для оценки глубины. На вход — фото. На выход — относительно расстояние от камеры до объектов. Мы не получим расстояние в метрах, но сможем понять, какой объект ближе, а какой дальше. Главное достоинство модели: работа с высоким разрешением (> 1000x1000).
У этой модели лицензия некоммерческая. Если хотите что-то подобное применять в своём бизнесе, то можно посмотреть на эту альтернативу.
Статья | Код
#модели
Self-driving машинам и роботам нужно уметь оценивать расстояния до объектов. По-другому это называют оценкой глубины. Если человек или машина на дороге близко, алгоритм может это не понять и не успеет затормозить.
Оценивать расстояние можно несколькими способами. Способ “в лоб” — использовать Lidar, который строит пространство вокруг себя в виде облака точек. Его главный минус — он стоит несколько тысяч долларов. Недавно Tesla заявила, что отказывается от Лидаров в пользу обычных камер.
Альтернативный способ — использовать нейросеть, чтобы оценить глубину по фото. Глядя на любую фотографию, наш мозг сразу понимает, какие объекты на ней располагаются дальше, а какие ближе. Почему бы не обучить этому нейронку.
Совсем недавно учёные представили новую модель для оценки глубины. На вход — фото. На выход — относительно расстояние от камеры до объектов. Мы не получим расстояние в метрах, но сможем понять, какой объект ближе, а какой дальше. Главное достоинство модели: работа с высоким разрешением (> 1000x1000).
У этой модели лицензия некоммерческая. Если хотите что-то подобное применять в своём бизнесе, то можно посмотреть на эту альтернативу.
Статья | Код
#модели
Куда мне поставить эту кнопку
Стоимость создания приложений и веб сайтов сейчас самая низкая в истории. И всё благодаря no-code инструментам. Больше не нужно уметь программировать, чтобы сделать что-то простое. Захотели сделать сайт — есть Tilda, Unicorn Platform. Захотели приложение на телефон — есть FlutterFlow, Adalo, Glide.
При работе с no-code инструментами вы выбираете элементы (кнопки, текст, картинки), добавляете взаимодействия и располагаете их в нужном месте. Выбрать хорошее расположение — важная задача. Сдвинули кнопку на другое место — повысили конверсию. Добавили больше изображений — понизили.
Встаёт вопрос: можем ли мы автоматически выбирать расположение объектов на нашем сайте? Пока нет, но движение в этом направлении есть. Недавно Гугл предложили нейросеть для генерации расположения объектов. Она может генерировать layout документов, UI, комнат. Внутри вариационный автокодировщик и трансформеры.
Главный минус — нейросети нельзя подать на вход объекты. То есть она просто генерирует layout, который похож на обучающее множество. Значит пока что её не получится напрямую для no-code нужд использовать. Кроме этого нейронка не учитывает влияние сгенерированного расположения на пользователя — конверсию и тд.
Тем не менее эта работа — ещё один шаг в сторону упрощения создания приложений, сайтов и документов. Скоро будет так: “Алиса, создай мне стартап, который решает проблему, которую ты сама сгенерируешь”. Ушли готовить пельмешки. Поели. Вернулись — exit.
#модели
Стоимость создания приложений и веб сайтов сейчас самая низкая в истории. И всё благодаря no-code инструментам. Больше не нужно уметь программировать, чтобы сделать что-то простое. Захотели сделать сайт — есть Tilda, Unicorn Platform. Захотели приложение на телефон — есть FlutterFlow, Adalo, Glide.
При работе с no-code инструментами вы выбираете элементы (кнопки, текст, картинки), добавляете взаимодействия и располагаете их в нужном месте. Выбрать хорошее расположение — важная задача. Сдвинули кнопку на другое место — повысили конверсию. Добавили больше изображений — понизили.
Встаёт вопрос: можем ли мы автоматически выбирать расположение объектов на нашем сайте? Пока нет, но движение в этом направлении есть. Недавно Гугл предложили нейросеть для генерации расположения объектов. Она может генерировать layout документов, UI, комнат. Внутри вариационный автокодировщик и трансформеры.
Главный минус — нейросети нельзя подать на вход объекты. То есть она просто генерирует layout, который похож на обучающее множество. Значит пока что её не получится напрямую для no-code нужд использовать. Кроме этого нейронка не учитывает влияние сгенерированного расположения на пользователя — конверсию и тд.
Тем не менее эта работа — ещё один шаг в сторону упрощения создания приложений, сайтов и документов. Скоро будет так: “Алиса, создай мне стартап, который решает проблему, которую ты сама сгенерируешь”. Ушли готовить пельмешки. Поели. Вернулись — exit.
#модели
👍1