Transformer
1.46K subscribers
19 photos
7 videos
3 files
50 links
Про ИИ и стартапы.

Денис Волхонский @den_vol. Рекламу не продаю
Download Telegram
Можно ли прочитать мысли человека?

В конце прошлого года учёные представили метод генеративного ИИ, который может что-то подобное.

Человеку показывают какое-то изображение. В этот момент ему делают функциональную магнитно-резонансную томографию (ФМРТ). Дальше модель из результатов исследования может сгенерировать изображение, которое видел человек. Получается такой нейроинтерфейс на основе ФМРТ и нейронной сети.

Внутри для генерации изображений используется диффузионная модель (по типу тех, что находятся внутри Stable Diffusion, Midjourney, DALLE 2). Увы, для каждого человека нужна своя нейросеть, так как у разных людей мозг по-разному реагирует на изображения.

https://mind-vis.github.io/
👍12🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Live photo from two photos

На камере айфона есть функция Live photo. Вместо статического фото она сохраняет “живое” фото. Технически это видео длиной в 3 секунды, которое позволяет чуть лучше воспроизвести момент на снимке.

Учёные из гугла в прошлом году придумали метод FILM, который может создавать “живое” фото из двух фотографий. Между двумя фотографиями модель делает интерполяцию. То есть создаёт кадры между двумя фото, чтобы из них получилось видео. Метод работает на картинках большого разрешения.

Зачем это нужно?
⁃ Получать live photo из уже сделанных фотографий
⁃ Увеличивать частоту кадров в видео и делать slow-motion (я писал об этом тут)

Сайт проекта: https://film-net.github.io/
Поиграть с демо: https://huggingface.co/spaces/johngoad/frame-interpolation
👍8🔥2
Github Copilot

Какое-то время назад я писал про Github Copilot. Это сервис от GitHub и Microsoft, который автоматически пишет код. Тогда он был в формате закрытого тестирования. Сейчас доступ может получить кто угодно. Я уже довольно много пользуюсь им, и хочу поделиться своим опытом.

Подсказки Copilot нативно встраиваются в среду разработки. Достаточно нажать Tab, чтобы код написался сам. Для персонального использования сервис стоит 10 баксов в месяц. Заменит ли он программиста за такие то деньги? Однозначно — нет. Но он точно упрощает и ускоряет написание кода. Вот мои сценарии использования:

1. Если мне нужно написать простую функцию, я часто гуглю это. Часто ответ содержится в первой же ссылке в гугле. Например, нужно прочитать JSON файл. Или мне нужна функция, которая находит файл в папке, у которого в названии максимальное число.

Сейчас же я просто начинаю писать “def maximum_file_number(“. Когда открывается скобка, copilot сразу предлагает аргументы функции и саму функцию целиком.

2. Если мне нужно написать функцию средней сложности, которая вызывает другие мои функции. Например, загрузить видео из памяти, и для каждого кадра запустить какую-нибудь ML модель и вернуть результат в виде массива. С таким Copilot справится почти всегда хорошо. Иногда для этого нужно написать комментарий для функции, на основе которого он сгенерирует функцию.

Кажется, что Copilot полезен в тех случаях, когда код хорошо структурирован и разбит по функциям. Несложные функции он щёлкает как орешки, а в сложных будет подсказывать по одной строчке. Архитектуру программы придётся разрабатывать самому (или спрашивать у ChatGPT). Но работать всё равно придётся 😉.

Ссылка в описании, а по промокоду NE_PRODAYU_REKLAMU вы сможете купить одну подписку по цене двух.
🔥83👍1
Несколько примеров работы. Серый код — то, что предлагает Copilot.
👍9🔥2
В декабре OpenAI представила ChatGPT — чат-бота, который умнее, чем твоя бывшая большинство современных языковых моделей. Он может вести диалоги на сложные темы, писать тексты и даже кодить.

Несколько примеров того, что может эта зверюга:
⁃ Написать сочинение или пост на выбранную тему
⁃ Сгенерировать идеи для вашего нового стартапа, а потом ещё и к любой идее написать бизнес план и стратегию создания MVP
⁃ Написать код, изменять его в соответствии с вашими запросами
⁃ Рассказать вам что-то по вашему запросу. Этакий персональный гугл
⁃ Притвориться, что он — терминал Linux, и исполнять команды

На моё удивление ChatGPT умеет говорить на русском языке. Инструкция для получения доступа к нему из России легко гуглится.

ChatGPT довольно умён. Но не стоит забывать, что он легко вас обманет и выдаст ложные факты за истину. Кроме этого, он немного староват. События 2022 года он не знает. Следующая версия чат-бота обещает обрести тревожность и уметь отвечать на вопрос “Где вы были 8 лет?”.

Ощущение, что мы проживаем революцию в реальном времени. В следующем посте расскажу про разные возможности ChatGPT с примерами запросов.
🔥11😁1
🔥9👎1
​​Глаза мои этого бы не видели

Одна из возможностей ChatGPT — суммаризация контента. Чат-бота можно попросить “Summarise the following text in 100 words” и скинуть текст, а в ответ получить краткое содержание. В эпоху бесконечного количества контента краткое содержание — этой новый тренд.

Чтобы добавить в свой сервис суммаризацию, можно использовать языковую модель GPT-3 от OpenAI, доступную по API. Уже появляются приложения, которые используют суммаризацию в качестве основной фичи.

Вчера мне написал автор расширения для Chrome, которое создаёт саммари YouTube ролика. Работает просто и гениально. Под роликом появляется кнопка. Кликаешь, ждёшь несколько секунд и читаешь краткое содержание всего ролика в виде тезисов. Напротив каждого тезиса — время в видео, к которому относится тезис.

Само расширение, на мой взгляд, пример идеального MVP. Сделано за два дня, выполняет ровно одну функцию. Выполняет хорошо. Каждые семь дней доступно три бесплатных саммари. Дополнительное саммари стоит 30-50 центов.

Если понравился проект, то можно апвоутнуть его на Product Hunt. Он сегодня там запускается.
🔥14👍51
У ChatGPT оказалось невероятное количество применений. Я использую его в своей работе практически каждый день. Вот лишь некоторые примеры запросов, которые будут полезны разработчикам.

1. Write a function in Python, that will iterate over video file frames and detect every object in the frame with YOLO Object detection.
2. Generate comment for the following Python function:
<Your function>
3. I want you to create a card in Angular using Angular-Material Library. Add buttons "Open" and "Share" to the bottom of the card.

Главная фишка ChatGPT по сравнению с уже существовавшей GPT-3 — это понимание контекста. Если вы попросили его написать функцию, и вас что-то не устроило, просто попросите это исправить или улучшить, как в третьем примере.
🔥11👍1
Написал пост с 12 идеями стартапов, которые можно сделать на основе ChatGPT.

Это моя новая email рассылка на английском про ИИ и стартапы. Внизу страницы есть форма, чтобы подписаться. Каждый четверг буду присылать что-то новое и полезное, так что подписывайтесь.

https://syntha.beehiiv.com/p/12-startup-ideas-one-can-implement-with-chatgpt
🔥3
​​Большинство современных приложений и сервисов для хранения данных используют базы данных. Чтобы доставать из них данные, был придуман специальный язык — SQL. Типичный запрос, переведённый мной на русский язык, будет выглядеть примерно так:

Выбери пользователей из таблицы ПОЛЬЗОВАТЕЛЬ, у которых год рождения больше 1990 и пол мужской, соедини с таблицей РАБОТОДАТЕЛЬ по столбцу работа, отфильтруй тех, у кого опыт работы больше 5 лет, отсортируй по зарплате.

Для опытного инженера это не сложно, но всё равно требует времени, чтобы его написать. Но часто такие запросы нужно писать аналитикам, менеджерам и людям, далёким от SQL. Тогда это может оказаться сущим адом.

Стартап AI2SQL решил использовать GPT-3, чтобы упростить программистам жизнь. Всё, что вам нужно — ввести запрос на английском языке. На выходе получаете готовый SQL запрос.

Стоит сервис $7-17 долларов в месяц в зависимости от тарифа. На данный момент стартап зарабатывает $1000 в месяц.
👍7🔥1
Как распознать текст, сгенерированный ИИ

Open AI выпустила модель, которая может идентифицировать текст, сгенерированный искусственным интеллектом. Он использует дообученную версию GPT, которая предсказывает одну из пяти меток: "very unlikely", "unlikely", "unclear if it is", "possibly", или "likely” AI-generated. Думаю, что что-то подобное уже встроено в поисковик гугла, чтобы не пускать в топы выдачи сгенерированный контент.

По сути — это классификатор. А любой классификатор можно обмануть. Существует такая область исследований ИИ как Adversarial Attacks. Она очень распространена на картинках.

Представьте, у вас есть очень хороший классификатор, который отличает разные породы животных. Суть атаки не него заключается в том, что вы изменяете картинку так, чтобы он ошибся. Причём делаете вы это незаметно человеческому глазу.

Разберём на примере. У нас есть фото кошки. Мы хотим, чтобы классификатор принял кошку за собаку. При этом внешне она должна остаться кошкой на фото. Обычно в таких случаях можно взять числа на выходе из другой нейросети для собаки(!), и прибавить эти числа к значениям пикселей на фото кошки. Если всё правильно сделать, то атакуемая нейросеть начнёт выдавать класс “собака” для фото кошки.

Я бы ожидал, что подобные атаки появятся для текстовых классификаторов. Возможно, в виде сервисов “сгенерируй текст, который даже гугл не отличит от настоящего”. Что приведёт к развитию методов обнаружения таких атак. ИИ против ИИ. Раунд.
🔥12👍7🤔2
Картинки, иллюстрирующие принцип адверсариал атаки
👍131
Написал статью про новые методы редактирования изображений с помощью генеративных сеток: Prompt-to-Prompt и InstructPix2Pix.

https://syntha.beehiiv.com/p/new-generative-ai-open-source-models-for-image-editing
👍61🔥1
​​Сколько стоит создать иконку для приложения? На фриланс бирже Fiver за такое просят 5-10 долларов за иконку. Заказ обещают выполнить за 24 часа.

На днях наткнулся на сервис IconifyAI, который заменяет фрилансеров нейросетью. Сервис решает ровно одну функцию — генерацию иконки для вашего приложения.

Вы выбираете объект, которых хотите видеть на иконке, стиль, цвет и форму. Спустя пару минут получаете целый набор иконок. Пятнадцать штук обойдутся в десять долларов.

Предположу, что под капотом работает либо Stable Diffusion, либо DALLE 2. Обе нейронки позволяют генерировать изображения из текстового описания (это называется prompt). Чтобы получить от нейросети иконки, нужно лишь правильным образом составить prompt. Например, “app icon with a realistic dog sitting on a chair, round shape, blue and yellow colors”. Задача IconifyAI — правильно сформировать prompt и отправить API запрос на сервер.

Интересно, что основателю проекта пятнадцать лет, что не может не восхищать.

Думаю, стоит обновить логотип этого канала на сгенерированный нейросетью (я использовал Midjourney). 👇
🔥10👍5😁1