Интересное что-то
529 subscribers
2.75K photos
253 videos
140 files
4.54K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.iss.one/asisakov_channel
Чат: https://t.iss.one/youknowds_chat
Download Telegram
💛 Кто хочет заработать миллион долларов? Ловите идеи ИИ стартапов

Пообщался с Клодом на тему идей для ИИ-сервисов. В промпте попросил изучить опыт Y Combinator и Product Hunt, и при описании идей помнить про product market fit (соответствие продукта рынку, далее - PMF)

Ответы:

Самый быстрорастущий сегмент - инструменты для улучшения существующих AI-систем компаний
Рекомендую сфокусироваться на создании инструментов, которые усиливают существующие AI-системы, а не конкурируют с ними напрямую. Это главный тренд Y Combinator W25.


Основываясь на анализе успешных кейсов из Product Hunt и Y Combinator, вот 15 идей продуктов, усиливающих существующие AI-системы с доказанным product-market fit:

AI Output Validator
Проблема: Компании используют ChatGPT/Claude для генерации контента, но 30% выходных данных содержат фактические ошибки или галлюцинации
Решение: API-сервис, который проверяет AI-генерированный контент на факты, консистентность и соответствие бренду
Модель: $49/месяц для стартапов, $299/месяц enterprise
PMF: Browser Use получил 28,000 загрузок за неделю, показывая спрос на инструменты контроля AI

Prompt Performance Analytics
Проблема: Компании тратят тысячи долларов на API OpenAI/Anthropic, не понимая какие промпты работают
Решение: Дашборд отслеживающий эффективность промптов, A/B тестирование, оптимизация затрат
Модель: 2% от сэкономленных API-затрат
PMF: 25% YC стартапов используют AI для 95% кода - им критически нужна оптимизация

AI Agent Memory Layer
Проблема: AI-агенты "забывают" контекст между сессиями, компании теряют историю взаимодействий
Решение: Универсальная память для любых AI-агентов с векторным поиском и контекстным извлечением
Модель: $0.001 за сохраненное взаимодействие
PMF: Abundant из YC W25 показал спрос на улучшение AI-агентов

Multi-AI Orchestrator
Проблема: Компании используют 5-10 разных AI-инструментов (ChatGPT для текста, Midjourney для изображений, ElevenLabs для голоса)
Решение: Единый API orchestrating между всеми AI-сервисами с оптимизацией маршрутизации
Модель: $99/месяц + 10% markup на API-вызовы
PMF: Melies (из анализа Product Hunt) интегрирует множество AI для создания фильмов

AI Cost Guard
Проблема: Неконтролируемые AI-агенты могут сжечь $10,000+ за ночь на API-вызовах
Решение: Real-time мониторинг и автоматические лимиты для всех AI API с алертами
Модель: Freemium с $29/месяц Pro для неограниченных endpoints
PMF: С ростом "vibe coding" критически важен контроль затрат

Compliance Filter for AI
Проблема: AI генерирует контент нарушающий GDPR, HIPAA или корпоративные политики
Решение: Middleware фильтрующий input/output AI на соответствие регуляциям
Модель: $199/месяц для healthcare, $499/месяц для финансов
PMF: YC W25 показал рост AI в традиционных индустриях требующих compliance

AI Training Data Marketplace
Проблема: Компании хотят fine-tune модели, но не имеют качественных датасетов
Решение: Маркетплейс проверенных, лицензированных данных для обучения по индустриям
Модель: 20% комиссия с транзакций
PMF: FLUX успех показал спрос на специализированные модели

Prompt Templates Store
Проблема: Каждая компания изобретает велосипед с промптами для типовых задач
Решение: Магазин проверенных, оптимизированных промптов с метриками эффективности
Модель: $4.99 за промпт или $49/месяц безлимит
PMF: Flowdrafter показал что простые, focused решения побеждают

AI Output Humanizer
Проблема: AI-контент легко детектируется и выглядит "роботизированным"
Решение: Сервис добавляющий человеческие нюансы в AI-генерированный контент
Модель: $0.02 за 100 слов
PMF: С ростом AI-детекторов критически важна "гуманизация"

Cross-AI Context Bridge
Проблема: Переключение между ChatGPT, Claude, Gemini требует копирования всего контекста
Решение: Браузерное расширение синхронизирующее контекст между всеми AI-чатами
Модель: $9.99/месяц

PMF: Пользователи Product Hunt активно используют множество AI одновременно
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Performance Benchmarker
Проблема: Непонятно какая модель лучше для конкретной бизнес-задачи
Решение: Автоматическое тестирование задачи на 10+ моделях с отчетом
Модель: $19 за бенчмарк
PMF: Artificial Analysis популярность показывает спрос на сравнения

Smart AI Router
Проблема: GPT-4o избыточен для простых задач, но GPT-3.5 недостаточен для сложных
Решение: Автоматический роутинг запросов к оптимальной модели по цене/качеству
Модель: Экономим 40% затрат, берем 50% от экономии
PMF: При $10-30/месяц за AI критична оптимизация

AI Hallucination Insurance
Проблема: Бизнес боится использовать AI для критичных задач из-за риска ошибок
Решение: Страховка покрывающая убытки от AI-галлюцинаций с проверкой выходных данных
Модель: 2% от объема обрабатываемых AI транзакций
PMF: Новая ниша с огромным потенциалом для B2B

Collaborative AI Workspace
Проблема: Команды не могут эффективно работать с AI вместе, дублируют промпты
Решение: Shared workspace для командной работы с AI, история, шаблоны, права доступа
Модель: $15/пользователь/месяц
PMF: YC тренд на AI-first команды требует коллаборации

AI Output Version Control
Проблема: Компании теряют track изменений в AI-генерированном контенте
Решение: Git для AI outputs с diff, merge, rollback функциональностью
Модель: $29/месяц для команд до 10 человек
PMF: С 95% AI-генерированным кодом критичен контроль версий


Сохрани - миллионером станешь! ну или хотябы тысячанером😄


Если есть желание инвестировать в ИИ-проекты - просьба написать мне @KottAlex
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему в AI много демок и мало внедрений

Существует целый класс задач, в которых очень просто сделать демо, но невероятно сложно сделать настоящий продукт. (Андрей Карпатый)


Я думаю, весь AI это ровно про это.

Как вы думаете, когда начали ездить первые self driving cars? В 90-х годах двадцатого века. Они ездили по настоящей дороге, могли поворачивать. Бибикали. Иногда даже успешно.
Можете посмотреть на список прогнозов Илона Маска, когда уже появится автономный транспорт. Пока мы ждем.

Почему так

AI вероятностная штука. Модели просто выучить самые частотные закономерности в данных, она будет идеально работать на простых кейсах. Эти простые кейсы проще всего и показать в демке: взял два примера, показал, что работает, поднял раунд, пошел масштабироваться. Это еще называется cherry picking: выбираем для демок только самые сладкие вишенки.

В реальном продукте есть длиннющий хвост сложных примеров. Адский ливень, безумное движение соседних машин, стадо коров на дороге... На таких аномальных примерах поведение системы может резко ломаться. Такие примеры не показывают на демках, но они регулярно появляются у пользователей, которые потом начинают отписываться от вашего продукта.

Как демку превратить в продукт

Серия шагов:

1) Научиться замерять качество.

В разных сценариях, в метель, в дождь и песчаную бурю. Чтобы вы точно знали, с какой вероятностью ваша система развалится.

2) Оценить риски.

Сколько будет стоить каждый тип ошибки. Для чат бота ошибиться в вопросе, как пройти в библиотек, не тоже самое, что случайно списать ваши деньги. Зная вероятность ошибки - считай риск.

3) Если не принял риск - подключай человека.

В автономном транспорте есть 6 уровней автоматизации. При чем реально автономны только последние 2 уровня.

Для AI-приложений можно делать также. Отлично работает паттерн “human in the loop”, о котором мы говорим в постах по LLM System Design.

Обязательная литература

-
Обзорная статья, как бороться с ненадежностью LLM

-
Пост про правильный UI для повышения надежности агентов

Любые вопросы обязательно пишите в комментарии.

Если нужно обсудить конкретно ваш случай - пишите вопрос в личные сообщения.
Реддитор поделился промтом для ChatGPT, который заметно повышает качество ответов:
Прежде чем ответить, оцени неопределённость своего ответа. Если она больше 0.1, задай мне уточняющие вопросы, пока она не станет 0.1 или ниже.


Когда чат-бот чего-то не знает, то обычно начинает угадывать — и это может серьёзно всё испортить.

Данный промт активирует у ChatGPT внутренний механизм проверки — он начинает оценивать риск ошибки и искать недостающую информацию, что резко повышает точность и осмысленность ответа.

Сохраняйте и пробуйте
r/#ChatGPTPromptGenius
Forwarded from Никита и его пшд (Nikita Durasov)
Ну и раз я вчера упомянул, что пока еще разбираюсь с последними проектами в универе, то вот один из них — у нас взяли статью на ICML в Ванкувере про новый Test-Time Training (если вкратце, то главная идея в том, что во время инференса мы апдейтим веса модели, оптимизируя какой-нибудь self-supervised лосс — это помогает модели быть более generalizable).

На самом деле, сама идея очень интересная и, как мне кажется, набирает обороты. Я сам пытаюсь её как-нибудь раскачивать (например, через эту torch-ttt либу, чекайте), о чём тоже хочу написать пару постов. Из более модного: я знаю, что TTT сейчас начали активно применять для увеличения длины контекстов у LLM-ок — об этом тоже как-нибудь напишу. Из моего опыта, TTT довольно часто может значительно улучшать перформанс модели на corrupted или out-of-distribution данных, а применять его довольно просто — это мы подробно обсудили в статье.

А вот тут будет призыв к действию: для нашей статьи я подготовил кучу материалов, включая видос ниже, где постарался в целом покрыть всю идею TTT. Я потратил слишком много времени в Manim-е, всё это верстая, поэтому просмотры / лайки будут highly appreciated. Ссылки на страницу статьи, посты, код и всё вот это — оставлю ниже.

Кому будет интересно, можете попробовать идею в этом ноутбуке.

📄 Paper: https://arxiv.org/abs/2410.04201
🧠 Project page: https://www.norange.io/projects/ittt/
💻 Code: https://github.com/nikitadurasov/ittt
🎬 Video: https://www.youtube.com/watch?v=eKGKpN8fFRM
🧩 torch-ttt class: https://torch-ttt.github.io/_autosummary/torch_ttt.engine.it3_engine.IT3Engine.html
🔬 Notebook: https://colab.research.google.com/github/nikitadurasov/ittt/blob/main/exps/mnist/it3_torch_ttt.ipynb
[Статья, EN] 7 Ecommerce A/B Testing Case Studies to Learn From

Это разбор реальных экспериментов от брендов: Clarks, Swiss Gear, SmartWool и других, которые проводили A/B-тесты с целью улучшения пользовательского опыта и увеличения конверсии в e-commerce. Ниже будет приведен краткий разбор кейсов (картинки в посте) 🔽


🟣Clear Within

Гипотеза: Переместим кнопку "Add to Cart" выше, чтобы повысить конверсии - пользователи увидят её сразу, без прокрутки.

🎯 Результат: +80% к добавлениям в корзину

📌Выводы:

1. Размещение ключевых элементов, таких как кнопка "Добавить в корзину", должно быть сразу видно без прокрутки

2. Даже небольшие изменения в дизайне могут значительно повлиять на конверсию

3. Важно оптимизировать конверсию до масштабирования рекламных кампаний


🟡Clarks

Гипотеза: Акцент на бесплатную доставку повысит доверие и склонит к покупке

🎯 Результат: +2.6% CR, +£2.8 млн выручки

📌Выводы:

1. Яркое выделение бонусов, таких как бесплатная доставка, влияет на решение о покупке

2. Дизайн и пользовательский опыт имеют значение

3. Незначительные изменения в оформлении информации могут привести к значительному росту выручки

🔵Beckett Simonon — +5% CR от сторителлинга

Гипотеза: Добавим сторителлинг о ценностях бренда - повысим вовлечённость и доверие

🎯 Результат: +5% к конверсии, ROI +237% годовых

📌Выводы:

1. Клиенты положительно реагируют на честное, ценностное позиционирование

2. Истории, визуалы и смысловое наполнение сайта могут существенно повлиять на поведение пользователей

3. Соответствие ценностей бренда ожиданиям покупателей увеличивает доверие и лояльность


🟢SmartWool

Гипотеза: Улучшение дизайна PDP повысит доход на посетителя

🎯 Результат: +17.1% к среднему доходу на посетителя (ARPU)

📌Выводы:

1. Следование лучшим практикам в дизайне улучшает пользовательский опыт и увеличивает продажи

2. Единый стиль отображения товаров и чёткая подача информации влияют на решение о покупке

3. Инвестиции в дизайн страниц окупаются за счёт роста выручки и удовлетворённости клиентов


🟣Metals4U

Гипотеза: Покажем сроки доставки и добавим лого платёжных систем → снизим тревожность

🎯 Результат: +4.8% CR, через 12 месяцев: +34% общая конверсия → +£2.2 млн выручки

📌Выводы:

1. Прозрачная информация о доставке уменьшает неуверенность и снижает фрикции

2. Простые элементы — логотипы платёжных систем и сообщения о безопасности — значительно уменьшают количество отказов от покупки

3. Улучшение через итерации и эксперименты позволяет устойчиво масштабироваться


🟡T.M. Lewin

Гипотеза: Уберём барьеры — чётко опишем политику возврата, покажем бандлы сразу

🎯 Результат: +7% продаж, +50% CR от возвратного блока

📌Выводы:

1. Прозрачность условий возврата снижает сомнения и увеличивает готовность к покупке

2. Выгоды и скидки (например, мульти-покупка) должны быть чётко видны и легко доступны

3. Приоритизация по данным помогает находить точки наибольшего трения в пользовательском пути


🔵Swiss Gear

Гипотеза: Оптимизируем дизайн карточек, упростим восприятие информации - пользователи будут покупать чаще

🎯 Результат: +52% CR в обычные дни, +137% CR в пиковые (Holiday season)

📌Выводы:

1. Простота дизайна и акценты на ключевой информации помогают пользователям быстрее принять решение

2. Визуальная иерархия (цвета, шрифты) помогает выделить важное

3. Тестирование и подготовка страниц перед пиковыми периодами даёт экспоненциальный эффект


Общие выводы по всем кейсам:

1. UX и структура страниц напрямую влияют на метрики: от кнопок до визуальной иерархии

2. Прозрачность и доверие (доставка, возвраты, логотипы) критичны для покупки

3. Ценностное позиционирование и сторителлинг усиливают восприятие бренда

4. Даже мелкие UI-изменения могут сильно повлиять на метрики

5. Итерации и эксперименты = устойчивый рост без кардинальных переделок

6. Чистота дизайна снижает фрустрацию и помогает принять решение

Понравился формат поста / хотите подобного рода посты? Ставьте реакции 🔥, пишите комментарии (лучший фидбек от вас)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Кейс про reasoning, в котором автор признается в использовании векторов и в архитектурной ошибке

Задача кейса - ускорить работу c документами compliance офицеров, час работы которых стоит 160-400 EUR и выше.

Я про это уже писал тут:
- Эпизод I
- Эпизод II
- Эпизод III
- Reasoning кирпичик для Stargate
- Эпизод IV

Архитектура и подходы - не коммерческая тайна. Это просто повторение успешных паттернов, которые я уже видел в других проектах.

Система состоит из трех частей.

Первая часть - data parsing с VLM под капотом. Регуляторные документы обычно распространяются в хитровыверченных PDF разных форматов. Нам нужно не просто их распарсить в текст, но и сохранить семантическую структуру (граф).

Когда я показал один такой документ Илье, он сказал про “криптонит всех парсеров” и “коварно” 😁

На эту часть я потратил в сумме три месяца. Под капотом - PyMuPDF, Paddleocr/PaddleX, Gemini Pro 2.5/OpenAI и пара интерактивных интерфейсов для реализации REPL/Human In The Loop. Конечно же SO CoT.

Вторая часть - анализатор документов c LLM под капотом. Это workflow, который сопоставляет набор регуляторных документов и набор внутренних документов, выделяет список применимых требований и аргументированно выдает список проблем во внутренних документах, которые надо бы проверить.

На эту часть я потратил тоже месяца три в сумме.

(1) загружаем все релевантные графы документов
(2) проходимся по графам, анализируем узлы, проецируем все в мини-графы. Каждый мини-граф - это конкретная статья со всеми подпунктами и релевантным контекстом
(3) анализируем каждый мини-граф - содержит ли он в себе конкретные требования, которые нужно выполнять? А применимы ли эти требования к рассматриваемым документам?
(4) анализируем найденные требования - критичность? какая информация должна быть во внутренних документах, которые будут эти требования выполнять?

Везде тут используются SO CoT. В схемах прописаны checklists, которые содержат промежуточные пункты, чтобы направлять мышление системы, да и просто отлаживать весь процесс.

(5) ищем релевантные мини-графы во внутренней документации. В текущей версии использую embedding openai-text-large + LLM review, который делается просто и из коробки работает хорошо. Если соберется достаточно размеченных данных, которые показывают на ошибки, заменю на поиск по графу и онтологиям.

(6) собираем пакет документации (мини-графы требований и найденный evidence) и прогоняем еще через один SO CoT для финального анализа. Выписываем результаты в audit report, сортируем по срочности.

Третья часть - это интерфейс, который дает экспертам поработать с этим отчетом. Там есть дашборд с метриками и список найденных проблем. Эксперты могут загрузить в workbench каждую проблему, чтобы посмотреть результаты анализа, найденный evidence, пройтись по цепочке размышлений или просто по графу регуляторного документа. Есть возможность сделать review, пометить evidence, чтобы эти правки можно было отправить дальше в работу. Ну и заодно тут мы собираем feedback для калибрации системы в будущем.

Третья часть написана на next.js/React/Tailwind/TS + NixOS/Caddy deployment. Я на нее потратил в сумме часов 18 и пару недель. 100% кода написано AI+Coding.

Концепцию UX помог сформировать Gemini Pro 2.5 (пригодился его инженерный склад ума и активный контекст в 500k). Красивый интерфейс набросал Claude Opus 4

OpenAI Codex встроил этот интерфейс в чистый next.js шаблон и вел разработку дальше (вот тут и была моя архитектурная ошибка - next.js был очень неудачным выбором для AI+Coding - мало документации и слишком часто его меняют).

От меня агентам шел поток задач и отзывов. Они - ваяли. Использовали AICODE- память для посланий друг другу. В сложных случаях использовал implementation plan. Всегда запускал 2-4 версии задач, выбирал самый симпатичный вариант, остальные выкидывал. ~60% задач были отправлены с телефона)

В итоге получился очень интересный опыт. Надо теперь брать отпуск и систематизировать все возможности в голове)

Ваш, @llm_under_hood 🤗
Forwarded from DeepSchool
Как LLM научились видеть?

Когда-то LLMs работали только с текстом и не обрабатывали входные данные других модальностей: изображения, видео и аудио. Но благодаря прогрессу архитектур и подходов к обучению сегодня они превратились в полноценные мультимодальные системы.

В новой статье рассказываем, какие подходы научили LLM понимать изображения и 3D-сцены.

Читайте новую статью по ссылке!