В новом цвете
Если вы начнёте смотреть старый чёрно-белый фильм, то вам может стать скучно. Наш мозг привык к бОльшей плотности информации. Мы смотрим цветные видео, а иногда ускоряем их в два раза на YouTube.
Фильмы, которые были сняты в первой половине двадцатого века, могут быть интересны современному зрителю, если сами станут современнее. Для этого их хорошо бы превратить в цветные.
Недавно Google выкатила модельку, которая как раз это и делает. На вход чёрно-белое фото, на выходе — цветное. Внутри опять механизм внимания: без этого уже мало что обходится в современных нейросетях.
Интересно, что модель может добавлять разные цвета на одни и те же объекты. Если машина чёрно-белая, то можно сделать из неё как зелёную, так и красную. Это открывает новое применение — перекрашивание объектов на существующих цветных фото. Для этого надо лишь убрать цвет и заново раскрасить с помощью этой модельки.
Как это можно использовать?
- Делать сервисы для добавления цвета на старые фото.
- Превращать старые фильмы и мультики в цветные. И пускать в кинотеатрах.
- Перекрашивать существующие фото: менять цвет одежды, домов или машин.
Статья | Код
#модели
Если вы начнёте смотреть старый чёрно-белый фильм, то вам может стать скучно. Наш мозг привык к бОльшей плотности информации. Мы смотрим цветные видео, а иногда ускоряем их в два раза на YouTube.
Фильмы, которые были сняты в первой половине двадцатого века, могут быть интересны современному зрителю, если сами станут современнее. Для этого их хорошо бы превратить в цветные.
Недавно Google выкатила модельку, которая как раз это и делает. На вход чёрно-белое фото, на выходе — цветное. Внутри опять механизм внимания: без этого уже мало что обходится в современных нейросетях.
Интересно, что модель может добавлять разные цвета на одни и те же объекты. Если машина чёрно-белая, то можно сделать из неё как зелёную, так и красную. Это открывает новое применение — перекрашивание объектов на существующих цветных фото. Для этого надо лишь убрать цвет и заново раскрасить с помощью этой модельки.
Как это можно использовать?
- Делать сервисы для добавления цвета на старые фото.
- Превращать старые фильмы и мультики в цветные. И пускать в кинотеатрах.
- Перекрашивать существующие фото: менять цвет одежды, домов или машин.
Статья | Код
#модели
Отойди, не загораживай
Глядя на красивый закат на набережной, вы решили его сфоткать. Достали телефон, пока нет людей. Щёлк. Блин, велосипедист в кадр влез. Ещё раз. Теперь дети в углу снимка бегают.
Знакомая проблема? Решать её решили основатели стартапа Invisi. Скачиваете приложение, загружаете фото, выделяете область, которую надо удалить и закрасить — вуаля.
Работает это лучше всего при однообразном фоне. Небо, море, песок, снег подходят лучше всего. Если фон сложный, с разными другими объектами, то закрашивание будет не очень.
Внутри технология inpainting — закраски неизвестных частей фото. Нейросеть принимает изображение и область, которую надо закрасить. И сама "додумывает", что там должно быть. Если хочется потыкать — можно скачать само приложение или попробовать бесплатное демо от Nvidia.
#стартапы
Глядя на красивый закат на набережной, вы решили его сфоткать. Достали телефон, пока нет людей. Щёлк. Блин, велосипедист в кадр влез. Ещё раз. Теперь дети в углу снимка бегают.
Знакомая проблема? Решать её решили основатели стартапа Invisi. Скачиваете приложение, загружаете фото, выделяете область, которую надо удалить и закрасить — вуаля.
Работает это лучше всего при однообразном фоне. Небо, море, песок, снег подходят лучше всего. Если фон сложный, с разными другими объектами, то закрашивание будет не очень.
Внутри технология inpainting — закраски неизвестных частей фото. Нейросеть принимает изображение и область, которую надо закрасить. И сама "додумывает", что там должно быть. Если хочется потыкать — можно скачать само приложение или попробовать бесплатное демо от Nvidia.
#стартапы
Нейросеть вместо хромакея
Большинство современных блокбастеров используют хромакей — зелёный экран. Во время производства фильма его заменяют на нужный фон. Благодаря этому мы можем видеть, как Тони Старк дерётся с Таносом на несуществующей в реальной жизни планете.
Почему экран зелёный? Чтобы его можно было легко отделить от людей, глядя только на цвет.
Бывают ситуации, когда надо отделить людей от фона, а зелёного фона нет. Например, если мы хотим поменять фон в Zoom. Либо же какой-нибудь блогер на YouTube хочет изменить фон, а хромакей некуда ставить.
На помощь приходит новая работа от китайских учёных. Они придумали нейросетку, которая с хорошим качеством удаляет фон на изображении.
Работает правда круто: вот тут можно залить своё фото и получить результат.
Как это можно использовать?
- Заменять фон в Zoom, Google Meet или других программах для видео-звонков
- Добавить функцию/плагин в редактор видео: блогеры смогут менять фон своих видео
- Портретный режим — выделять людей и размывать фон с помощью телефона
Статья | GitHub | Colab | Демо
#модели
Большинство современных блокбастеров используют хромакей — зелёный экран. Во время производства фильма его заменяют на нужный фон. Благодаря этому мы можем видеть, как Тони Старк дерётся с Таносом на несуществующей в реальной жизни планете.
Почему экран зелёный? Чтобы его можно было легко отделить от людей, глядя только на цвет.
Бывают ситуации, когда надо отделить людей от фона, а зелёного фона нет. Например, если мы хотим поменять фон в Zoom. Либо же какой-нибудь блогер на YouTube хочет изменить фон, а хромакей некуда ставить.
На помощь приходит новая работа от китайских учёных. Они придумали нейросетку, которая с хорошим качеством удаляет фон на изображении.
Работает правда круто: вот тут можно залить своё фото и получить результат.
Как это можно использовать?
- Заменять фон в Zoom, Google Meet или других программах для видео-звонков
- Добавить функцию/плагин в редактор видео: блогеры смогут менять фон своих видео
- Портретный режим — выделять людей и размывать фон с помощью телефона
Статья | GitHub | Colab | Демо
#модели
Трейлер фильма
Глядя на трейлер фильма вы решаете, пойдёте вы в кино или нет. Трейлер — визитная карточка фильма.
Тяжело ли сделать трейлер фильма? Понятия не имею, т.к. никогда этим не занимался. Кажется, что да — нужно найти именно те моменты в фильме, которые вызовут больше всего эмоций. При этом трейлер не должен содержать спойлеров. А ещё он должен быть динамичным. А ещё смешным. Короче, та ещё морока.
Если вы занимаетесь созданием трейлеров, то можете выдохнуть. Скоро не нужно будет так страдать. Вас заменят нейросети.
В прошлом году вышла статья, где авторы придумали алгоритм для поиска самых важных фрагментов фильма. Для каждого кадра они предсказывают, насколько он подходит в качестве кадра трейлера.
Применять такое можно не только к фильмам. Модель может выявлять важные моменты в любых видео. Главное подобрать правильный датасет. Может через пару лет появится расширение для браузера, чтобы просматривать важные фрагменты любого видео.
#модели
Глядя на трейлер фильма вы решаете, пойдёте вы в кино или нет. Трейлер — визитная карточка фильма.
Тяжело ли сделать трейлер фильма? Понятия не имею, т.к. никогда этим не занимался. Кажется, что да — нужно найти именно те моменты в фильме, которые вызовут больше всего эмоций. При этом трейлер не должен содержать спойлеров. А ещё он должен быть динамичным. А ещё смешным. Короче, та ещё морока.
Если вы занимаетесь созданием трейлеров, то можете выдохнуть. Скоро не нужно будет так страдать. Вас заменят нейросети.
В прошлом году вышла статья, где авторы придумали алгоритм для поиска самых важных фрагментов фильма. Для каждого кадра они предсказывают, насколько он подходит в качестве кадра трейлера.
Применять такое можно не только к фильмам. Модель может выявлять важные моменты в любых видео. Главное подобрать правильный датасет. Может через пару лет появится расширение для браузера, чтобы просматривать важные фрагменты любого видео.
#модели
Блогер-нейросеть
Представьте, что вы читаете статью про детокс-смузи. С большой вероятностью её написал копирайтер, а не доктор медицинских наук. Этот человек ещё вчера писал про устройство ракет. Сегодня про смузи. Завтра он напишет статью про психологические проблемы детей в семьях без отца.
Ещё копирайтер придумывает тексты для маркетинговых целей. Захотели вы запустить рекламу в Яндексе — нужно для этого придумать текст объявления. Причём текст должен быть продающим.
Стартап CopySmith решил копирайтеров заменить. Поставил в землю флаг и сказал: "с этого дня наша нейросеть будет писать посты для блогов и маркетинговые тексты". А по чему бы и нет, ведь модель GPT3 умеет генерировать очень осмысленный текст.
Чтобы всё заработало, надо CopySmith дать вводные. Для поста на блог это аудитория, тематика и пример текста, чтобы нейронка скопировала ваш стиль. Нейросеть всё это анализирует и выдаёт вам пост.
У стартапа широкая линейка тарифов. Для маркетинга своей компании и ведения блога хватит 59 долларов в месяц. А если у вас своё копирайтинговое агенство, то будте любезны заплатить 500 за почти безлимитное использование.
Выгода от стартапа очень легко считается. Средний копирайтер в Америке получает 50к долларов в год. Самый дорогой тариф обойдётся вам в 6к долларов в год. Нейросеть получается выгоднее в 8 раз. К тому же она не болеет, не залипает на работе в твиттере и не требует уплаты налогов.
#стартапы
Представьте, что вы читаете статью про детокс-смузи. С большой вероятностью её написал копирайтер, а не доктор медицинских наук. Этот человек ещё вчера писал про устройство ракет. Сегодня про смузи. Завтра он напишет статью про психологические проблемы детей в семьях без отца.
Ещё копирайтер придумывает тексты для маркетинговых целей. Захотели вы запустить рекламу в Яндексе — нужно для этого придумать текст объявления. Причём текст должен быть продающим.
Стартап CopySmith решил копирайтеров заменить. Поставил в землю флаг и сказал: "с этого дня наша нейросеть будет писать посты для блогов и маркетинговые тексты". А по чему бы и нет, ведь модель GPT3 умеет генерировать очень осмысленный текст.
Чтобы всё заработало, надо CopySmith дать вводные. Для поста на блог это аудитория, тематика и пример текста, чтобы нейронка скопировала ваш стиль. Нейросеть всё это анализирует и выдаёт вам пост.
У стартапа широкая линейка тарифов. Для маркетинга своей компании и ведения блога хватит 59 долларов в месяц. А если у вас своё копирайтинговое агенство, то будте любезны заплатить 500 за почти безлимитное использование.
Выгода от стартапа очень легко считается. Средний копирайтер в Америке получает 50к долларов в год. Самый дорогой тариф обойдётся вам в 6к долларов в год. Нейросеть получается выгоднее в 8 раз. К тому же она не болеет, не залипает на работе в твиттере и не требует уплаты налогов.
#стартапы
Нейросеть-стабилизатор
Видео стабилизатор нужен для того, чтобы избавить записываемое видео от тряски. Вы вставляете телефон в специальную штуку и записываете видео, например, во время ходьбы. Непроизвольно ваши руки трясутся. Но вот на видео этой тряски будет сильно меньше.
Самый дорогой стабилизатор на яндекс-маркете стоит 120 тысяч рублей. Дорого? С вами согласны авторы нейросети, которая призвана заменить стабилизатор.
Челлендж стабилизации заключается в том, что надо как можно меньше обрезать кадры. Представьте, что вы идёте с камерой в руках. И трясёте камеру вверх-вниз так сильно, что рука перемещается аж на 10 см. Представляете, что вы наснимаете? Чем больше трясётся рука, тем больше приходится обрезать кадры. И тут нейронка хороша тем, что позволяет оставить большую часть кадра.
Увы, моделька не работает в реал-тайме. Процессинг одного кадра на GPU занимает почти 10 секунд. Поэтому до замены реального стабилизатора дело не дошло. Но всё равно это важный шаг в замене дорогой штуки на нейросеть.
Статья | Код | Примеры работы
#модели
Видео стабилизатор нужен для того, чтобы избавить записываемое видео от тряски. Вы вставляете телефон в специальную штуку и записываете видео, например, во время ходьбы. Непроизвольно ваши руки трясутся. Но вот на видео этой тряски будет сильно меньше.
Самый дорогой стабилизатор на яндекс-маркете стоит 120 тысяч рублей. Дорого? С вами согласны авторы нейросети, которая призвана заменить стабилизатор.
Челлендж стабилизации заключается в том, что надо как можно меньше обрезать кадры. Представьте, что вы идёте с камерой в руках. И трясёте камеру вверх-вниз так сильно, что рука перемещается аж на 10 см. Представляете, что вы наснимаете? Чем больше трясётся рука, тем больше приходится обрезать кадры. И тут нейронка хороша тем, что позволяет оставить большую часть кадра.
Увы, моделька не работает в реал-тайме. Процессинг одного кадра на GPU занимает почти 10 секунд. Поэтому до замены реального стабилизатора дело не дошло. Но всё равно это важный шаг в замене дорогой штуки на нейросеть.
Статья | Код | Примеры работы
#модели
Контрол Ц, Контрол В
Копировать. Вставить. Ctrl+C и Ctrl+V. Когда вы печатаете текст, то наверняка часто используете эти сочетания клавиш. В крайнем случае в ход идёт правая кнопка мыши и долгий поиск слов "копировать" и "вставить". Набирая текст, постоянно приходится это делать.
А теперь подумайте, какого художникам и дизайнерам? Вот захотели они скопировать объект из одного фото и перенести на другое. Это надо объект руками отделять от фона, кропотливо обрабатывать каждый миллиметр фото. А если из реальной жизни объект — как его на перенести на рисунок? Та ещё задачка.
Стартап ClipDrop решил прийти дизайнерам на помощь. Он позволяет копировать объекты из реального мира и добавлять их, например, в фотошоп.
На примере расскажу, как это работает. Я сижу за столом, рядом со мной лежат наушники. Я делаю одну фотографию в телефоне, жду пару секунд и получаю фото наушников. Без стола, без других предметов, без фона, только наушники. Дальше объект можно отправить в другое приложение. Например, можно сразу с телефона отправить его в фотошоп на компе.
С точки зрения ИИ стартап решает 2 задачи. В начале ему нужно определить, какой конкретно объект надо скопировать. Предположу, что для этого используется какой-то object detection. Затем нужно отделить этот объект от фона. Я уже писал про похожую задачу отделения людей от фона. Но тут всё сложнее — объект может быть любым.
ClipDrop — крутой пример того, как можно технологию превратить в полезный продукт. И ключ тут — это не сама технология, а именно концепция "скопировать-вставить".
#стартапы
Копировать. Вставить. Ctrl+C и Ctrl+V. Когда вы печатаете текст, то наверняка часто используете эти сочетания клавиш. В крайнем случае в ход идёт правая кнопка мыши и долгий поиск слов "копировать" и "вставить". Набирая текст, постоянно приходится это делать.
А теперь подумайте, какого художникам и дизайнерам? Вот захотели они скопировать объект из одного фото и перенести на другое. Это надо объект руками отделять от фона, кропотливо обрабатывать каждый миллиметр фото. А если из реальной жизни объект — как его на перенести на рисунок? Та ещё задачка.
Стартап ClipDrop решил прийти дизайнерам на помощь. Он позволяет копировать объекты из реального мира и добавлять их, например, в фотошоп.
На примере расскажу, как это работает. Я сижу за столом, рядом со мной лежат наушники. Я делаю одну фотографию в телефоне, жду пару секунд и получаю фото наушников. Без стола, без других предметов, без фона, только наушники. Дальше объект можно отправить в другое приложение. Например, можно сразу с телефона отправить его в фотошоп на компе.
С точки зрения ИИ стартап решает 2 задачи. В начале ему нужно определить, какой конкретно объект надо скопировать. Предположу, что для этого используется какой-то object detection. Затем нужно отделить этот объект от фона. Я уже писал про похожую задачу отделения людей от фона. Но тут всё сложнее — объект может быть любым.
ClipDrop — крутой пример того, как можно технологию превратить в полезный продукт. И ключ тут — это не сама технология, а именно концепция "скопировать-вставить".
#стартапы
👍1
Нейро-MARVEL
Кинокомиксы — явление, которое стало особенно популярно десять лет назад. Последние Мстители собрали в кинотеатрах больше двух миллиардов долларов. Всё это стало возможным благодаря наличию огромного количества комиксов. Ведь из них можно брать интересные сюжеты про супер героев и экранизировать.
Работает ли это в обратную сторону? Создают ли люди комиксы на основе фильмов? Оказывается, что да. Например, существуют комиксы по Терминатору, Пятница 13-е и Назад в будущее.
Как вы могли догадаться, сегодня речь пойдёт про нейросеть, которая создаёт комиксы на основе фильма. На вход – фильм с субтитрами, на выход — готовый комикс: изображения + текст.
Работает это следующим образом. Из фильма каждые пол секунды берётся кадр. Дальше кадры делятся на две части: с субтитрами и без. Каждому кадру предсказывается его "важность" для комикса. Чтобы предсказать важность, используется нейросеть для суммаризации текста — выделения самых важных фраз.
В комикс оставляются только кадры с самой большой важностью. Каждый кадр стиллизуется под комикс. На кадры добавляется текст из субтитров. Причём то, как выглядит текст, определяется на основе эмоций в диалогах — за это отвечает аудио-нейросеть. В итоге всё компануется в один комикс.
Кода, увы, у этой статьи нет. Возможно, авторы сразу планируют коммерческое использование. И пожалуйста, за то мы знаем, как заменить нейросетями ещё одну творческую профессию.
#модели
Кинокомиксы — явление, которое стало особенно популярно десять лет назад. Последние Мстители собрали в кинотеатрах больше двух миллиардов долларов. Всё это стало возможным благодаря наличию огромного количества комиксов. Ведь из них можно брать интересные сюжеты про супер героев и экранизировать.
Работает ли это в обратную сторону? Создают ли люди комиксы на основе фильмов? Оказывается, что да. Например, существуют комиксы по Терминатору, Пятница 13-е и Назад в будущее.
Как вы могли догадаться, сегодня речь пойдёт про нейросеть, которая создаёт комиксы на основе фильма. На вход – фильм с субтитрами, на выход — готовый комикс: изображения + текст.
Работает это следующим образом. Из фильма каждые пол секунды берётся кадр. Дальше кадры делятся на две части: с субтитрами и без. Каждому кадру предсказывается его "важность" для комикса. Чтобы предсказать важность, используется нейросеть для суммаризации текста — выделения самых важных фраз.
В комикс оставляются только кадры с самой большой важностью. Каждый кадр стиллизуется под комикс. На кадры добавляется текст из субтитров. Причём то, как выглядит текст, определяется на основе эмоций в диалогах — за это отвечает аудио-нейросеть. В итоге всё компануется в один комикс.
Кода, увы, у этой статьи нет. Возможно, авторы сразу планируют коммерческое использование. И пожалуйста, за то мы знаем, как заменить нейросетями ещё одну творческую профессию.
#модели
Цветные хроники первой мировой войны
Властелин колец — замечательный фильм. Помимо фильмов о средиземье Питер Джексон снял фильм “Они никогда не станут старше”. Это фильм о первой мировой войне. Интересен он тем, что в нём использовались кадры, снятые в 1910-е годы. 100 часов чёрно-белой съёмки.
Но как так получилось, что фильм цветной? Сто лет назад звук то не умели записывать вместе с видео, не то что цветные фильмы снимать. Со звуком сделали так: специалисты по губам определяли, что говорят солдаты, а после актёры фильм озвучивали. А что с видео?
Современные нейросети могут реставрировать чёрно-бело видео и делать его цветным. В открытом доступе есть некоторые модели для этого. Вот и вот.
Естественно, при наличии решения найдутся стартаперы, которые обернут технологию в удобный сервис. Так решил сделать стартап neural.love. Кроме добавления цвета на чёрно-белые видео они умеют:
— Увеличивать в 4 раза разрешение видео
— Делать slow-mo, то есть добавлять новые кадры между существующими
— Улучшать качество лица на видео
Информацию об инвестициях я не находил. Но уверен, что клиентов для таких решений найти всегда можно. Пересмотреть старый любимый фильм в хорошем качестве захотят многие. Тот же Властелин колец сейчас идёт в кинотеатрах в качестве 4К. Правда, что-то зрители недовольны работой нейросетей. Но это уже другая история…
#стартапы
Властелин колец — замечательный фильм. Помимо фильмов о средиземье Питер Джексон снял фильм “Они никогда не станут старше”. Это фильм о первой мировой войне. Интересен он тем, что в нём использовались кадры, снятые в 1910-е годы. 100 часов чёрно-белой съёмки.
Но как так получилось, что фильм цветной? Сто лет назад звук то не умели записывать вместе с видео, не то что цветные фильмы снимать. Со звуком сделали так: специалисты по губам определяли, что говорят солдаты, а после актёры фильм озвучивали. А что с видео?
Современные нейросети могут реставрировать чёрно-бело видео и делать его цветным. В открытом доступе есть некоторые модели для этого. Вот и вот.
Естественно, при наличии решения найдутся стартаперы, которые обернут технологию в удобный сервис. Так решил сделать стартап neural.love. Кроме добавления цвета на чёрно-белые видео они умеют:
— Увеличивать в 4 раза разрешение видео
— Делать slow-mo, то есть добавлять новые кадры между существующими
— Улучшать качество лица на видео
Информацию об инвестициях я не находил. Но уверен, что клиентов для таких решений найти всегда можно. Пересмотреть старый любимый фильм в хорошем качестве захотят многие. Тот же Властелин колец сейчас идёт в кинотеатрах в качестве 4К. Правда, что-то зрители недовольны работой нейросетей. Но это уже другая история…
#стартапы
🤔1
Что мы обсуждали в прошлый раз
Во время ковида сильно выросло количество звонков по работе. Каждая такая встреча — намерение обсудить что-то важное. Но наружу выплывают все минусы удалённых встреч. Один в это время гуляет с ребёнком, второй залипает в инстаграм. Такое вполне можно позволить, просто выключив камеру и микрофон. В таких условиях можно пропустить что-то важное.
Самое простое решение — надо, чтобы кто-то во время встречи записывал, что вы обсуждаете. А потом поделился со всеми. Но слушать, анализировать и записывать — то ещё занятие. Наш мозг может параллелить фоновые процессы. Но тут совсем не фоновые.
Стартап otter.ai берёт заметки со встреч на себя. Вы просто созваниваетесь как обычно. А Otter слушает и записывает всё, что слышит. После встречи у вас получается страничка, которую легко можно отредактировать: выделить важные мысли, добавить картинки и удалить оффтоп обсуждения. А после скинуть ссылку всем, кто был на встрече.
Интересно, что внутри стартапа доступная технология перевода речи в текст. Вот, например, гайд по распознаванию речи для Python. Добавьте к этому правильную обёртку и позиционирование — получится стартап otter.ai.
В месяц можно бесплатно анализировать 600 минут созвонов. Для компаний безлимитный тариф обойдётся в 20 долларов в месяц на пользователя. Общие инвестиции в стартап — $63M.
#стартапы
Во время ковида сильно выросло количество звонков по работе. Каждая такая встреча — намерение обсудить что-то важное. Но наружу выплывают все минусы удалённых встреч. Один в это время гуляет с ребёнком, второй залипает в инстаграм. Такое вполне можно позволить, просто выключив камеру и микрофон. В таких условиях можно пропустить что-то важное.
Самое простое решение — надо, чтобы кто-то во время встречи записывал, что вы обсуждаете. А потом поделился со всеми. Но слушать, анализировать и записывать — то ещё занятие. Наш мозг может параллелить фоновые процессы. Но тут совсем не фоновые.
Стартап otter.ai берёт заметки со встреч на себя. Вы просто созваниваетесь как обычно. А Otter слушает и записывает всё, что слышит. После встречи у вас получается страничка, которую легко можно отредактировать: выделить важные мысли, добавить картинки и удалить оффтоп обсуждения. А после скинуть ссылку всем, кто был на встрече.
Интересно, что внутри стартапа доступная технология перевода речи в текст. Вот, например, гайд по распознаванию речи для Python. Добавьте к этому правильную обёртку и позиционирование — получится стартап otter.ai.
В месяц можно бесплатно анализировать 600 минут созвонов. Для компаний безлимитный тариф обойдётся в 20 долларов в месяц на пользователя. Общие инвестиции в стартап — $63M.
#стартапы
AI команда из Google работает на вас
Google представил новую нейронку MoveNet для оценки позы человека по фото. Главные особенности — работает быстро и хорошо. Можно использовать на телефоне или в браузере.
Интересно, что их модель не сильно отличается от существующих. Самое важное в этой задаче — хороший датасет. Они набрали из YouTube видео с фитнесом, йогой, и танцами. С каждого видео брали по три кадра, чтобы было разнообразнее. Руками их разметили, и на этом уже обучали.
Почему это важно? Pose Estimation используется в многих фитнес-приложениях. Если вы знаете, где на фото какой сустав, можно оценивать правильность позы. Так, например, делает Zenia — AI йога-инструктор.
Невольно напрашивается сравнение с BlazePose, обновление которой так же недавно представила Google. BlazePose оценивает больше точек (33 против 17 в MoveNet), и может ещё оценить глубину каждой точки. Но MoveNet работает лучше.
Сделать приложение для фитнеса с помощью AI никогда не было так легко, как сейчас. Как минимум две команды в Гугле делают вам модельки, постоянно улучшают их и может даже соревнуются друг с другом.
#модели
Google представил новую нейронку MoveNet для оценки позы человека по фото. Главные особенности — работает быстро и хорошо. Можно использовать на телефоне или в браузере.
Интересно, что их модель не сильно отличается от существующих. Самое важное в этой задаче — хороший датасет. Они набрали из YouTube видео с фитнесом, йогой, и танцами. С каждого видео брали по три кадра, чтобы было разнообразнее. Руками их разметили, и на этом уже обучали.
Почему это важно? Pose Estimation используется в многих фитнес-приложениях. Если вы знаете, где на фото какой сустав, можно оценивать правильность позы. Так, например, делает Zenia — AI йога-инструктор.
Невольно напрашивается сравнение с BlazePose, обновление которой так же недавно представила Google. BlazePose оценивает больше точек (33 против 17 в MoveNet), и может ещё оценить глубину каждой точки. Но MoveNet работает лучше.
Сделать приложение для фитнеса с помощью AI никогда не было так легко, как сейчас. Как минимум две команды в Гугле делают вам модельки, постоянно улучшают их и может даже соревнуются друг с другом.
#модели
Нужно больше TikTok видосов
Монтировать видео — задача долгая и муторная. Среди всего видео нужно найти места, которые стоит вырезать — неудачные дубли, молчание и тд. Кропотливая работа тут состоит в том, чтобы просматривать всё видео очень внимательно, чтобы такие моменты находить.
Стартап Kamua решил снять эту боль. Он автоматом разбивает видео на осмысленные куски, чтобы их потом руками обрезать. Задача чем-то похожа на создание трейлеров в фильмах, о которой я писал тут.
Кроме этого, Kamua предлагает автоматические субтитры для вашего видео. Вам нужно лишь выбрать шрифт и где их разместить. Для этого звук переводится текст — довольно хорошо решённая задача сейчас.
Но и это ещё не всё. Они автоматически понимают, где в кадре человек. После этого обрезает видео под формат телефона. Это позволяет автоматические из YouTube видео делать ТикТок. Думаю, что технически тут самая сложная задача — найти в кадре человека. Для этого можно использовать любой bounding box детектор, например, Yolo5.
Работает всё в браузере. За 2 доллара в месяц вы получите возможность обработать 1 час сырого видео. Суммарные инвестиции — $475K.
#стартапы
Монтировать видео — задача долгая и муторная. Среди всего видео нужно найти места, которые стоит вырезать — неудачные дубли, молчание и тд. Кропотливая работа тут состоит в том, чтобы просматривать всё видео очень внимательно, чтобы такие моменты находить.
Стартап Kamua решил снять эту боль. Он автоматом разбивает видео на осмысленные куски, чтобы их потом руками обрезать. Задача чем-то похожа на создание трейлеров в фильмах, о которой я писал тут.
Кроме этого, Kamua предлагает автоматические субтитры для вашего видео. Вам нужно лишь выбрать шрифт и где их разместить. Для этого звук переводится текст — довольно хорошо решённая задача сейчас.
Но и это ещё не всё. Они автоматически понимают, где в кадре человек. После этого обрезает видео под формат телефона. Это позволяет автоматические из YouTube видео делать ТикТок. Думаю, что технически тут самая сложная задача — найти в кадре человека. Для этого можно использовать любой bounding box детектор, например, Yolo5.
Работает всё в браузере. За 2 доллара в месяц вы получите возможность обработать 1 час сырого видео. Суммарные инвестиции — $475K.
#стартапы
Как глубоко мы зашли
Self-driving машинам и роботам нужно уметь оценивать расстояния до объектов. По-другому это называют оценкой глубины. Если человек или машина на дороге близко, алгоритм может это не понять и не успеет затормозить.
Оценивать расстояние можно несколькими способами. Способ “в лоб” — использовать Lidar, который строит пространство вокруг себя в виде облака точек. Его главный минус — он стоит несколько тысяч долларов. Недавно Tesla заявила, что отказывается от Лидаров в пользу обычных камер.
Альтернативный способ — использовать нейросеть, чтобы оценить глубину по фото. Глядя на любую фотографию, наш мозг сразу понимает, какие объекты на ней располагаются дальше, а какие ближе. Почему бы не обучить этому нейронку.
Совсем недавно учёные представили новую модель для оценки глубины. На вход — фото. На выход — относительно расстояние от камеры до объектов. Мы не получим расстояние в метрах, но сможем понять, какой объект ближе, а какой дальше. Главное достоинство модели: работа с высоким разрешением (> 1000x1000).
У этой модели лицензия некоммерческая. Если хотите что-то подобное применять в своём бизнесе, то можно посмотреть на эту альтернативу.
Статья | Код
#модели
Self-driving машинам и роботам нужно уметь оценивать расстояния до объектов. По-другому это называют оценкой глубины. Если человек или машина на дороге близко, алгоритм может это не понять и не успеет затормозить.
Оценивать расстояние можно несколькими способами. Способ “в лоб” — использовать Lidar, который строит пространство вокруг себя в виде облака точек. Его главный минус — он стоит несколько тысяч долларов. Недавно Tesla заявила, что отказывается от Лидаров в пользу обычных камер.
Альтернативный способ — использовать нейросеть, чтобы оценить глубину по фото. Глядя на любую фотографию, наш мозг сразу понимает, какие объекты на ней располагаются дальше, а какие ближе. Почему бы не обучить этому нейронку.
Совсем недавно учёные представили новую модель для оценки глубины. На вход — фото. На выход — относительно расстояние от камеры до объектов. Мы не получим расстояние в метрах, но сможем понять, какой объект ближе, а какой дальше. Главное достоинство модели: работа с высоким разрешением (> 1000x1000).
У этой модели лицензия некоммерческая. Если хотите что-то подобное применять в своём бизнесе, то можно посмотреть на эту альтернативу.
Статья | Код
#модели
Куда мне поставить эту кнопку
Стоимость создания приложений и веб сайтов сейчас самая низкая в истории. И всё благодаря no-code инструментам. Больше не нужно уметь программировать, чтобы сделать что-то простое. Захотели сделать сайт — есть Tilda, Unicorn Platform. Захотели приложение на телефон — есть FlutterFlow, Adalo, Glide.
При работе с no-code инструментами вы выбираете элементы (кнопки, текст, картинки), добавляете взаимодействия и располагаете их в нужном месте. Выбрать хорошее расположение — важная задача. Сдвинули кнопку на другое место — повысили конверсию. Добавили больше изображений — понизили.
Встаёт вопрос: можем ли мы автоматически выбирать расположение объектов на нашем сайте? Пока нет, но движение в этом направлении есть. Недавно Гугл предложили нейросеть для генерации расположения объектов. Она может генерировать layout документов, UI, комнат. Внутри вариационный автокодировщик и трансформеры.
Главный минус — нейросети нельзя подать на вход объекты. То есть она просто генерирует layout, который похож на обучающее множество. Значит пока что её не получится напрямую для no-code нужд использовать. Кроме этого нейронка не учитывает влияние сгенерированного расположения на пользователя — конверсию и тд.
Тем не менее эта работа — ещё один шаг в сторону упрощения создания приложений, сайтов и документов. Скоро будет так: “Алиса, создай мне стартап, который решает проблему, которую ты сама сгенерируешь”. Ушли готовить пельмешки. Поели. Вернулись — exit.
#модели
Стоимость создания приложений и веб сайтов сейчас самая низкая в истории. И всё благодаря no-code инструментам. Больше не нужно уметь программировать, чтобы сделать что-то простое. Захотели сделать сайт — есть Tilda, Unicorn Platform. Захотели приложение на телефон — есть FlutterFlow, Adalo, Glide.
При работе с no-code инструментами вы выбираете элементы (кнопки, текст, картинки), добавляете взаимодействия и располагаете их в нужном месте. Выбрать хорошее расположение — важная задача. Сдвинули кнопку на другое место — повысили конверсию. Добавили больше изображений — понизили.
Встаёт вопрос: можем ли мы автоматически выбирать расположение объектов на нашем сайте? Пока нет, но движение в этом направлении есть. Недавно Гугл предложили нейросеть для генерации расположения объектов. Она может генерировать layout документов, UI, комнат. Внутри вариационный автокодировщик и трансформеры.
Главный минус — нейросети нельзя подать на вход объекты. То есть она просто генерирует layout, который похож на обучающее множество. Значит пока что её не получится напрямую для no-code нужд использовать. Кроме этого нейронка не учитывает влияние сгенерированного расположения на пользователя — конверсию и тд.
Тем не менее эта работа — ещё один шаг в сторону упрощения создания приложений, сайтов и документов. Скоро будет так: “Алиса, создай мне стартап, который решает проблему, которую ты сама сгенерируешь”. Ушли готовить пельмешки. Поели. Вернулись — exit.
#модели
👍1
Пора увольнять программистов?
Год назад я писал об интересном применении модели GPT-3: генерация кода из комментариев. Но тогда это был лишь идея, готовых сервисов для этого не было.
С тех пор я пользовался tabnine.com — это хороший плагин, который использует ИИ для автодополнения кода. Но автодополнение — это не то же самое, что программировать за программиста.
На днях увидел сервис от GitHub — Copilot. Работает так: вы объявляете функцию, пишите к ней комментарий, а нейронка сама генерирует весь код функции.
Профит от такого приложения понятный. Много времени программист тратит на простые функции. Если это автоматизировать, то производительность увеличится. И можно половину программистов уволить.
Мне пока не дали доступ на тестирование. Если это работает, как в примерах — просто вау.
#сервисы
Год назад я писал об интересном применении модели GPT-3: генерация кода из комментариев. Но тогда это был лишь идея, готовых сервисов для этого не было.
С тех пор я пользовался tabnine.com — это хороший плагин, который использует ИИ для автодополнения кода. Но автодополнение — это не то же самое, что программировать за программиста.
На днях увидел сервис от GitHub — Copilot. Работает так: вы объявляете функцию, пишите к ней комментарий, а нейронка сама генерирует весь код функции.
Профит от такого приложения понятный. Много времени программист тратит на простые функции. Если это автоматизировать, то производительность увеличится. И можно половину программистов уволить.
Мне пока не дали доступ на тестирование. Если это работает, как в примерах — просто вау.
#сервисы
Как можно было написать такой код
Привет! Продолжаю вещать про ИИ, стартапы и всё, что с этим связано.
В последнем посте (как же давно это было) я рассказывал про генерацию кода с помощью ИИ. Чтобы такое сделать, нужно собрать огромную выборку с кодом и комментариями, и научить нейросеть генерировать код, принимая на вход этот комментарий. Задача очень сложная. Но судя по всему уже неплохо решаемая.
А что если перевернуть картинку, и генерировать комментарий по коду? Для этого ведь нужен тот же самый датасет, и может подойти похожая нейросеть. Так сделал стартап Denigma. Они для программных функций с помощь ИИ генерируют описание.
А ведь понятная и (теперь) очевидная боль: вникать в чужой код бывает сложно. Особенно, если к нему нет документации, а писали его быстрей-быстрей к дедлайну. Стартап работает с большинством современных языков программирования. Альтернативное применение этой же технологии — это написание комментариев на основе того, что генерирует нейросеть.
Есть расширение для Visual Studio. Подписка стоит восемь долларов в месяц.
Привет! Продолжаю вещать про ИИ, стартапы и всё, что с этим связано.
В последнем посте (как же давно это было) я рассказывал про генерацию кода с помощью ИИ. Чтобы такое сделать, нужно собрать огромную выборку с кодом и комментариями, и научить нейросеть генерировать код, принимая на вход этот комментарий. Задача очень сложная. Но судя по всему уже неплохо решаемая.
А что если перевернуть картинку, и генерировать комментарий по коду? Для этого ведь нужен тот же самый датасет, и может подойти похожая нейросеть. Так сделал стартап Denigma. Они для программных функций с помощь ИИ генерируют описание.
А ведь понятная и (теперь) очевидная боль: вникать в чужой код бывает сложно. Особенно, если к нему нет документации, а писали его быстрей-быстрей к дедлайну. Стартап работает с большинством современных языков программирования. Альтернативное применение этой же технологии — это написание комментариев на основе того, что генерирует нейросеть.
Есть расширение для Visual Studio. Подписка стоит восемь долларов в месяц.
👍5
Нет войне
Моя бабушка всегда повторяла: лишь бы не было войны. Она родилась в 1933 году. Она пережила очень тяжёлые времена. Сейчас её уже нет в живых. И я не могу представить, как бы она ужаснулась, увидев, какое безумие происходит. Нет войне.
Я долго думал, чем я могу быть полезен в это трудное время. Решил, что стоит рассказать вам о стартапах с Украинскими корнями. Некоторые из этих стартапов известны на весь мир. Некоторыми вы пользуетесь каждый день.
Сегодня речь пойдёт о знаменитом Grammarly. Стартап встраивается почти в любое текстовое поле и исправляет английский текст. Причём сейчас он может не только исправлять артикли, орфографию, но и пунктуацию, стиль текста и его сложность.
У Grammarly есть расширение для браузера. Можно использовать его в офисных программах, Slack, почте или как обычные текстовый редактор, в который встроен весь функционал исправления ошибок.
Сервис незаменим как для не носителей языка, так и для носителей (лично видел, как они его используют). Есть бесплатная версия, которая уже приносит пользу. Платную подписку продают от 12$ в месяц. В прошлом году стартап оценивался в 13 миллиардов долларов.
Моя бабушка всегда повторяла: лишь бы не было войны. Она родилась в 1933 году. Она пережила очень тяжёлые времена. Сейчас её уже нет в живых. И я не могу представить, как бы она ужаснулась, увидев, какое безумие происходит. Нет войне.
Я долго думал, чем я могу быть полезен в это трудное время. Решил, что стоит рассказать вам о стартапах с Украинскими корнями. Некоторые из этих стартапов известны на весь мир. Некоторыми вы пользуетесь каждый день.
Сегодня речь пойдёт о знаменитом Grammarly. Стартап встраивается почти в любое текстовое поле и исправляет английский текст. Причём сейчас он может не только исправлять артикли, орфографию, но и пунктуацию, стиль текста и его сложность.
У Grammarly есть расширение для браузера. Можно использовать его в офисных программах, Slack, почте или как обычные текстовый редактор, в который встроен весь функционал исправления ошибок.
Сервис незаменим как для не носителей языка, так и для носителей (лично видел, как они его используют). Есть бесплатная версия, которая уже приносит пользу. Платную подписку продают от 12$ в месяц. В прошлом году стартап оценивался в 13 миллиардов долларов.
❤19👍6💩1
Это платье меня полнит
Продолжаю рассказывать вам про стартапы с основателями из Украины. 3DLOOK — стартап, который делает виртуальную примерку одежды. Как мне видится, задача стартапа — убить классическую примерку. Сидя дома, вы должны видеть, как на вас одежда будет сидеть и знать, подойдёт ли она вам по размеру.
Технически задача очень сложная. Представьте, что человек сфоткался в штанах, и хочет виртуально померить шорты. Для этого нужна сначала удалить штаны. Потом, нужно дорисовать человеку ноги ниже шорт. Так как штаны обычно шире ноги, нужно ещё и закрасить каким-то образом фон за штанами. Шорты нужно поставить в нужное место, а ещё и деформировать их так, чтобы подошёл размер. В идеале нужно учитывать физику ткани.
Стартап утверждает, что виртуальная примерка сокращает возвраты на 40 процентов, увеличивает конверсию в 4 раза и на 20 процентов увеличивает среднюю стоимость заказа.
У 3DLOOK свои разработки в ИИ части, которые основаны на 3D модели тела человека. В научном сообществе очень много статей, которые делают виртуальную примерку. Но как правило всё ограничено каким-то узким датасетом и черрипикнутыми картинками. На реальных данных же это всё не работает.
Виртуальная примерка сейчас — это hot topic. Ещё есть стартапы Easy Try, Astrafit, Drapr, Zeekit.
Продолжаю рассказывать вам про стартапы с основателями из Украины. 3DLOOK — стартап, который делает виртуальную примерку одежды. Как мне видится, задача стартапа — убить классическую примерку. Сидя дома, вы должны видеть, как на вас одежда будет сидеть и знать, подойдёт ли она вам по размеру.
Технически задача очень сложная. Представьте, что человек сфоткался в штанах, и хочет виртуально померить шорты. Для этого нужна сначала удалить штаны. Потом, нужно дорисовать человеку ноги ниже шорт. Так как штаны обычно шире ноги, нужно ещё и закрасить каким-то образом фон за штанами. Шорты нужно поставить в нужное место, а ещё и деформировать их так, чтобы подошёл размер. В идеале нужно учитывать физику ткани.
Стартап утверждает, что виртуальная примерка сокращает возвраты на 40 процентов, увеличивает конверсию в 4 раза и на 20 процентов увеличивает среднюю стоимость заказа.
У 3DLOOK свои разработки в ИИ части, которые основаны на 3D модели тела человека. В научном сообществе очень много статей, которые делают виртуальную примерку. Но как правило всё ограничено каким-то узким датасетом и черрипикнутыми картинками. На реальных данных же это всё не работает.
Виртуальная примерка сейчас — это hot topic. Ещё есть стартапы Easy Try, Astrafit, Drapr, Zeekit.
❤9👍1💩1
В трёх соснах заблудился
Бывало у вас такое: устроились в новый офис, и долго ищите нужный кабинет. Или пришли в ТЦ, а найти нужный магазин сложнее, чем иголку в стоге сена.
Стартап с украинскими корнями Augmented Pixels разработал приложение, которое строит навигацию в дополненной реальности для помещений. Сначала вы проходитесь по помещению и сканируете его с помощью телефона. После этого на полученной 3D карте отмечаете точки интереса: важные комнаты, кулер с печеньками или нужную полку на складе. Навигация готова: телефон в дополненной реальности покажет путь до печенек.
Другой продукт стартапа, GlobalMap, позволяет делать 3D сканы объектов по всему миру. Ставку сделали на краудсорсинг.
Стартап поднял 6.1M инвестиций. В январе 2022 их купил Qualcomm, сумма сделки не разглашалась.
Бывало у вас такое: устроились в новый офис, и долго ищите нужный кабинет. Или пришли в ТЦ, а найти нужный магазин сложнее, чем иголку в стоге сена.
Стартап с украинскими корнями Augmented Pixels разработал приложение, которое строит навигацию в дополненной реальности для помещений. Сначала вы проходитесь по помещению и сканируете его с помощью телефона. После этого на полученной 3D карте отмечаете точки интереса: важные комнаты, кулер с печеньками или нужную полку на складе. Навигация готова: телефон в дополненной реальности покажет путь до печенек.
Другой продукт стартапа, GlobalMap, позволяет делать 3D сканы объектов по всему миру. Ставку сделали на краудсорсинг.
Стартап поднял 6.1M инвестиций. В январе 2022 их купил Qualcomm, сумма сделки не разглашалась.
YouTube
CorpMap.AI—A facility management-ready positioning solution
CorpMap.AI is an enterprise multi-platform indoor navigation solution developed by Augmented Pixels. It’s optimizing facility management operations and improving indoor logistics by AR navigation, AI analytics, maintenance ticket tracking system with shared…
❤6👍3
Можно ли прочитать мысли человека?
В конце прошлого года учёные представили метод генеративного ИИ, который может что-то подобное.
Человеку показывают какое-то изображение. В этот момент ему делают функциональную магнитно-резонансную томографию (ФМРТ). Дальше модель из результатов исследования может сгенерировать изображение, которое видел человек. Получается такой нейроинтерфейс на основе ФМРТ и нейронной сети.
Внутри для генерации изображений используется диффузионная модель (по типу тех, что находятся внутри Stable Diffusion, Midjourney, DALLE 2). Увы, для каждого человека нужна своя нейросеть, так как у разных людей мозг по-разному реагирует на изображения.
https://mind-vis.github.io/
В конце прошлого года учёные представили метод генеративного ИИ, который может что-то подобное.
Человеку показывают какое-то изображение. В этот момент ему делают функциональную магнитно-резонансную томографию (ФМРТ). Дальше модель из результатов исследования может сгенерировать изображение, которое видел человек. Получается такой нейроинтерфейс на основе ФМРТ и нейронной сети.
Внутри для генерации изображений используется диффузионная модель (по типу тех, что находятся внутри Stable Diffusion, Midjourney, DALLE 2). Увы, для каждого человека нужна своя нейросеть, так как у разных людей мозг по-разному реагирует на изображения.
https://mind-vis.github.io/
👍12🔥3