Идеальный стартап
376 subscribers
80 photos
5 videos
1 file
50 links
Стартапы, нейронки и прочее.

По всем вопросам: @monsetrum
Download Telegram
Я вообще не об этом хотел написать, но как-то получилось. Изначально хотел скинуть новость, что мы с коллегами выехали в бывший монастырь, который принадлежит университету.

3 дня пили нетворкали и обсуждали наши исследования, обмениваясь опытом и шутками. Было весело!

В какой-то момент все бары в Германии закрылись, и мы пошли в Австрию, чтобы купить пива.
7😍3🔥2
Как живет Balabol?

Помните, когда-то этот канал начинался как диалог о Balabol — боте для изучения английского языка? Так вот, сегодня он умер. Точнее, умер он уже давно, потому что времени на его развитие не было, но сегодня я решил, что это его последний месяц жизни. Из интересного:

-CAC = 2500 руб.
-LTV = 1200 руб.
-Количество подписчиков = 6
-Количество юзеров = 400
-Самая долгая подписка = 8 месяцев

Да! Были люди, которые подписывались на это почти год — шок. Но, по остальным цифрам, вы сами можете наблюдать, почему подобному сервису сложно взлететь. Конечно, можно сидеть и оптимизировать лендинг, таргет и всё остальное, но это, кажется, особого смысла не имеет.

Жалею ли я о потраченном времени? Нисколько! Я столькому научился, что это сложно передать словами. Теперь, когда я читаю какой-то материал про стартапы, кастдевы, метрики, я реально понимаю, зачем это нужно. У тебя появляется не только теоретическое представление "Да, звучит логично", но и осознание того, как это влияет на целостную картину продукта.

Вот несколько открытий и ошибок, которые я сделал для себя:

1️⃣ Пивот по модели роста

Когда сталкиваешься с тем, что CAC значительно больше, чем LTV, и рост за счёт платной рекламы не работает, стоит попробовать другие модели. Например, создать виральную модель роста с помощью контента в TikTok или реферальной программы. Но здесь нужно ответить на вопросы:

-Зачем пользователю делиться продуктом с другими пользователями?
-Какие user-user фичи позволят продукту стать вирусным?

Если бы Clubhouse не был о разговорах между людьми, зачем хосту привлекать своих друзей?

2️⃣ Не все продукты стоят автономности

Это касается целостности пользовательского пути. В английском, например, люди готовы отдавать большие деньги за курс, если их за руку проведут через все сложности и помогут с заданиями. Очень мало людей готовы остаться один на один с ошибками и без преподавателя, и ещё меньше готовы за это платить.

Из самых успешных проектов-ботов есть Speak. Год назад они привлекли инвестиции от самого OpenAI. Легко повторить, подумал я, но не учёл основного момента. Их бот — не основной продукт, это просто маркетинговый ход для их онлайн-курсов.

Так что подобный бот был бы крутым маркетинговым ходом: вот у нас есть ИИ, с которым ты можешь потренироваться и всё такое. Они переходят на бота, пробуют его, а затем идут на основной продукт, где им помогут заговорить. А бот — просто тренажёр для самых ответственных.


3️⃣ Встраиваем в уже имеющиеся привычки, а не создаём новые

Знать о своих ошибках в речи — очень полезная фича, но стоит ли она того, чтобы перестраивать свои привычки? Нет. Большинство людей и так не готовы тратить энергию на кликание слов в Duolingo, а когда ты предлагаешь им формировать предложения и поддерживать реальный диалог, это становится почти невозможным. Проект не на массовую аудиторию — даже близко.

Можно было подумать над тем, как добавить подобную технологию в уже существующие занятия с преподавателем — это имеет больше шансов на успех.
7
o1 рассуждения

TLDR;
- Новая модель OpenAI мне понравилась, но не для повседневных задач.
- С квантовой физикой не справилась.
- Для такой модели критически важна среда, чтобы у нее была возможность закрыть цикл: эксперимент - результаты - анализ


Недавно у OpenAI вышла модель, которая способна очень круто рассуждать. Мне стало интересно, насколько она действительно лучше 4o. Провел два теста:

1. План тренировок
2. Доделать формулу из моей последней статьи по квантовой физики

Из плюсов, новую модель вообще не нужно промптить - она за тебя лучше знает, как ей думать и действовать. Вопрос теперь не в том, каким образом ты промптишь модель, а какие данные ты ей даешь. Никогда такого не было, и вот опять: данные - нефть 21 века.

План

Я тут после годового перерыва решил вернуться в зал (после тренировки понял, что это то, чего мне очень не хватало) и попросил составить новую версию gpt план по моему восстановлению. Постарался описать все как можно более подробнее, чтобы получился максимально эффективный и персонализированный план.

Я планирую начать ходить в зал, у меня был большой перерыв - целый год, до этого постоянно занимался месяцев 6. Из физических активностей сейчас только бегаю. Напиши мне план упражнений в зале для восстановления формы на все тело. Хочу заниматься примерно час на занятие и 3 раза в неделю.


💡o1

Мне не понравилось, что она с самого начала предложила план по группам мышц. Когда не занимался больше года, то тактика это не особо эффективная: стоит делать core тренировки на все тело месяц-два, а затем уже переходить на отдельные мышцы. После того, как я ей это сказал, то она быстро все поняла и составила план, который я изначально и хотел делать. Все понравилось, но со второй попытки.

Чат

🤨 4o

Закинул такой же промпт, и она почему-то решила мне ответить на английском, ну ладно. Но зато подобрала такой же сет на все тело с первого раза.

Чат

Вывод: Ризонинг и установка у o1 "пиши как можно детальнее" может мешать в последневных задачах. Ну да, модель то не для этого вообще делалась. Перейдем к реальной проверке.


Квантовая физика

Чат

Основная идея моей статьи в том, что квантовые случайные блуждания в симметричных фигурах можно симулировать на фигурах меньших размерностей. Например, куб можно симулировать на линии и потом восстановить однозначно вероятности блужданий на кубе. Проблема была в том, что я так и не нашел общей формулы для этой свертки - обнаружил какие-то частные случаи для решетки, куба и гиперциклов, нашел какие-то паттерны, но красивую формулу для всего так и не вывел.

Если коротко, то он не справился 🙂. В o1 нельзя кидать файлы, поэтому попросил 4o сделать выжимку статьи и отправил это в o1. Он очень много писал, нашел какую-то общую формулу - я это все прочитал, звучит логично, но не работает. Искать ошибку в логике было лень, поэтому я попросил рассчитать по его формуле свертки для некоторых фигур... Симметрию, может, он определил верно, но проблема в том, что на этих фигурах потом не восстановишь однозначно вероятности оригинального графа.

Чего не хватило

- Знаний?

Область, конечно, довольно специфичная. Не знаю, насколько эта модель хороша в хренении знаний и есть ли там внутрениий RAG, но как будто, если отправить вместе со своим запросом еще пару книжек и статей по квантовой физике, то выйдет лучше.

- Агентности?

Очень хочется посмотреть на эту модель в среде, где она могла бы самостоятельно писать код и запускать его. Формула не та? Это сложно проверить, пока не провести эксперимент. Я не пробовал, но очень интересно, что будет, если закинуть результаты и данные по ответам, которые модель дает. Так или иначе, людям тоже сложно сделать что-то с первой попытки. Особенно в разработке: пишешь код - тестируешь - переписываешь. Это циклический процесс.
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥4👍2
Почему o1 такая дорогая?

15$\1mil - на вход и 60$\1mil - на выход. Это в 6 раз дороже 4o. Я накидал свое видение ситуации и на истину не претендую. От самого вероятного к менее:

👍 Отсутствие конкурентов

Сейчас у модели нет конкурентов в навыке рассуждений. Она намного лучше всех остальных моделей для комплексных задач. Отсутствие конкуренции - всегда отличный предлог для повышения цен. Если вспомнить, то OpenAI очень долго не понижали цены: пока не вышел Claude Sonnet, который был дешевле и на одном уровне с их топ моделью.

Ждем, пока Антропики релизнут свою модель для рассуждений, которую им придется сделать дешевле, чем у OpenAI.

🦙 Выделение нового сегмента

o1 на самом деле работает для более узкого сегмента, чем 4o. Задачи, где нужно глубокое рассуждение встречаются куда реже, но и ценятся выше. То есть тут работает простое правило "Вещь стоит столько, сколько за нее готовы заплатить". Если люди готовы платить больше для решения своих сложных задач, то почему не повысить цену и дать новой прослойке пользователей наслаждаться новыми сценариями пользования. Все равно остальные варианты в виде наемного рабочего куда дороже.

😥 Дефицит видеокарт

Возможно, модель потребляет больше ресурсов, чем их 4o. С учетом того, что сейчас идет просто война за свободные карты, у них может просто не быть ресурсов для поддержания высокого спроса модели. Высокий ценник - порог для входа и благодаря нему можно сохранить относительно низкий спрос на модель, которую не чем пока поддерживать.

📈 Окупаемость новой модели

Детали тренировки модели, конечно, неизвестны, но раз она работает на Ph.D уровне, то и разметка требуется соответствующая. Уже не получится просто нанять разметчиков из Африканских стран за 5$\час, как они делали для своих первых моделей. Короче, стоимость даже не тренировки (хотя это тоже возможно), а просто данных выросла в несколько раз. OpenAI хоть и "не нацелена на извлечение прибыли", благотворительной организацией пока все же не является. Поэтому выросшие косты по разработке просто переложила на конечного потребителя.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1🤯1
Forwarded from epsilon correct
Сколько на самом деле стоит инференс GPT-4o?

Почему-то многие думают, что провайдеры больших языковых моделей продают API чуть ли не себе в убыток. Я бы хотел поделиться прикидками о том, почему это совсем не так, и заодно помечтать о том, сколько параметров мы можем себе позволить тратить на модель, которая сможет заменить человека в работе.

Все расчёты можно воспроизвести в колабе, меняя цифры, как вам захочется. Выводы остаются неизменны.

Для расчётов нам нужно сделать несколько допущений:
1. Количество активированных параметров в модели. Для GPT 4 Turbo широко ходили слухи про 200 миллиардов параметров, так что 4o должна быть меньше. По данным Artificial Analysis, пропускная способность GPT-4o – 95 tok/s, что находится между LLama 3.1 7b (182 tok/s) и 70b (80 tok/s). Для наших целей предположим, что в 4o 100 миллиардов активированных параметров, делая скидку на то, что в OpenAI инференсом занимаются крайне толковые люди. Кстати, Gemini Flash 1.5 с последним обновлением выдаёт 330 tok/s.
2. Амортизированная стоимость сервера с 8 H100. Чтобы не сильно расстраиваться, возьмём оценку сверху как цену такого сервера на AWS – на сегодняшний день $39.33 в час. На рынке цены могут быть минимум в пять раз меньше.
3. MFU – какой процент вычислений используется эффективно. Стандартом является 30-50%, для наших прикидок возьмём 30%.

При таких допущениях (а с другими вы можете поиграть в колабе), стоимость инференса миллиона токенов получается $0.23. Сравним это с официальной ценой в $2.5 за input и $10 за output и получим наценку API в ~50 раз. И это – оценка сверху со всеми допущениями в сторону удорожания. С другой стороны, кому-то же надо скидываться Саме на Koenigsegg. 😮‍💨

Заодно мы можем посчитать, насколько дешевле модели в сравнении с кожаными мешками. Взяв минимальную зарплату в Нью-Йорке ($16) и производительность в 100 токенов в минуту (среднее у людей примерно 50 слов в минуту), получим стоимость миллиона токенов в $2666.67. Даже o1 со своими $60 / Mtok тут рядом не стоит. Есть, куда расти!
Please open Telegram to view this post
VIEW IN TELEGRAM
5🤝4
Вряд ли инференс o1 стоит намного дороже. Рыночек порешал, получается
4🤔3
ИИ сервис за выходные

Сейчас вышло столько разных инструментов для ИИ разработки, что уже можно автоматизировать и ставить на поток разработку продукта. Только представьте: через пару лет вы будете голосом говорить ChatGPT6, какие фичи вам нужны и вот - через 5 минут они будут готовы и релизнуты в продукт. Пока такого не настало, конечно, но как далеко мы продвинулись?

Мне на выходных было нечем заняться, поэтому я поставил себе челлендж: сделать какой-нибудь веб сервис за выходные, не написав ни одной строчки кода. Опыта в веб разработке у меня только лишь из универа, поэтому на себя надеяться в любом случае не приходится.

Стек:
Разработка: Cursor + Claude Sonnet 3.5 + o1-preview
Дизайн: Galileo AI + Claude Sonnet 3.5 + мои хотелки

И так, встречайте: LanguageCards! (Пожалуйста, не уроните сервер, он еле дышит...)

Всегда хотели сами генерировать себе упражнения по иностранному языку? Хотите расширить лексику, но привычный Quizlet с этим не справляется? Вы преподаватель и хотели подготовить дз к уроку в один клик? Звучит сложно, но мне просто было интересно, с чем АИ справится, а с чем нет.

Мои ощущения и выводы:
-ИИ решил писать на чистом html+css+js - по хардкору, поэтому там в коде такая каша, что поддерживать и тем более масштабировать будет очень сложно. Еще модель любит дублировать код - у всех кнопок были разные классы и они по-разному определялись, лул.
-Несколько раз мне хотелось разбить компьютер, потому что ИИ-шка переодически не может решать простейшие задачи (а-ля сделать padding нормальный) с 10 раза.
-Осознал всю мощь o1 в кодинге: Claude Sonnet 3.5 - хорош, спору нет, но механику карточек для слов на чистом js он осилить не смог. Тогда пришел o1 и справился за 2-3 промпта. Но o1 частенько меняет вообще весь код, когда скидываешь ему html+css - из-за этого едет вся верстка.
-У Claude Sonnet 3.5 лучше чувство стиля и есть хоть какой-то вкус, в отличии от o1. Можно делать лендинги за 10 минут.
-Я так и не понял, как привязать dns-target в рег сервисе доменов
-Если бы я начал такой эксперимент еще раз, то попросил бы o1 составить архитектуру проекта, стек, общий стиль классов и затем с помощью sonnet уже детализировал бы.
-Совсем уж без навыков программирования это будет очень сложно. Можно не уметь писать код, но нужно хотя бы в общих чертах понимать, как он работает, чтобы знать, что модель должна исправить и где.

Вообще, данная связка может хорошо работать для лендингов - они одностраничные, кода там немного и нет сложной логики. Осталось только ux ассистента подтянуть.
7🔥2👍1
Я тут решил изучить инструменты для генерации UX/UI дизайна. Мой проект можно было сделать еще быстрее, нужен был всего лишь простой советский... Читайте в источнике.

Если поставите лайк на хабре, обещаю сделать следующий пост про свое исследование в универе.

https://habr.com/ru/articles/850300/
5🔥2👍1
Явные и неявные рассуждения

В Универе я сейчас занимаюсь двумя вещами: долгосрочной памятью и рассуждениями LLM. Про первое мы уже много говорили: существует миллионы подходов RAG - один из видов реализации памяти. А что насчет рассуждений? Сейчас мы работаем, по-моему мнению, над безумно классной статьей по ним, но давайте сначала посмотрим, что за виды рассуждения существуют.

Высокоуровнево, помимо общих дедуктивных, индуктивных и остальных ивных типов, рассуждения в LLM делятся на два типа: явные и неявные.

Явные

Ярким представителем этого типа является Chain-of-Though - когда мы моделе говорим: думай по шагам, напиши рассуждения по пунктам и т.п. То есть в качестве ответа, модель перед ответом выдает еще и логику, по которой она этот ответ получила. Таким образом сейчас работает o1 - перед ответом она долго рассуждает, чтобы получить ответ.

Если модель получает задачу «2 + 2 = ?», она может явно рассуждать следующим образом:

1. Первое число — это 2.
2. Второе число — это 2.
3. 2 плюс 2 равно 4.


К плюсам можно отнести:

Объяснимость - легко проверить логику модели при решении этой задачи и найти ошибки, так как все написано на человеческом языке. Вопрос, правда, а действительно ли она этой логике следовала остается открытым.

Контроль - в каком-то плане, благодаря объяснимости, намного легче становится найти, где модель ошибается и что-то не понимает, и изменить контекст в соответствии с этим: включить больше примеров или изменить логику решения задачи.

Дольше думаем = лучше результат - эмперически показали, что это новое измерение для скейлинга результатов - можно не увеличивать количество слоев сетки, а дать ей больше времени "на рассуждения". Ограничение здесь только в контексте модели.

Неявные

Как можно было понять из названия, эти рассуждения действительно неявные... То подаешь модели на вход задачу, и она где-то там в своих скрытых слоях, перемножая матрицы и доставая знания из FFN, решает, что 2+2 действительно 4. Естественно, что такой подход намного сложнее объяснять, контролировать и тем более скейлить. Если хочешь "более умную" модель, то нужно увеличивать количество слоев (предпологая, что с данными мы сделали уже все, что возможно). Один кошмар, в общем - зачем копать в эту область?

В целом, неявные рассуждения в каком-то смысле проще: если посмотреть на то, как решают эти задачи, то это довольно часто сложная 3-4 этапная схема, с 5 подпроцессами, которая требует кучу вычислений. К плюсам неявных систем можно отнести простоту: данные на вход, данные на выход и все, остальное - вера в бога и что ллм все же поймет, что делать. Естественно, есть кое-что еще.

Если вы помните недавнюю статью про рассуждения трансформеров, там упоминался феномен гроккинга. Это когда модель сначала переобучается на тренировочной выборке с 0% точности на тестовой, потом очень долго тренируется, и в конце находит какой-то супер эффективный алгоритм решения задачи и достигает 100% точности на тестовой выборке. Звучит круто, но как вы можете помнить из статьи, гроккинг пока на реальных задачах не применяется, только на "лабораторных" простых датасетах. Жаль, конечно - подумал я и предложил коллегам как эту проблему можно исправить.

Короче, мы применили гроккинг к реальным наборам данным и задачам рассуждения и, так же, как и на игрушечных примерах, достигли около 100%. Детали расскажу чуть позже - когда опубликуем бумагу на архиве, но полученные результаты мне очень нравятся.
8👏4🥰2
Учимся говорить в профессиональной среде
😁9🤣32
Чат гпт уже в музеях нового времени…
4👍2🔥2🥰2🤣1
AI safety

Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.

Верхнеуровнево, они определяют 4 уровня угрозы модели:

ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат

ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек

ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек

ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ

Критерии угрозы:

1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований

Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.

Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:

Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.

Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.

Интервью, кстати, советую.

AI safety Antrhopic
5🔥4🤯3👍1
Что общего между гиппокампом и долгосрочной памятью в LLM?

Новая модель Hippo-RAG вдохновлена человеческой памятью и теорией индексацией памяти гиппокампом. На бенчмарках с multi-hop qa опережает другие модели. Интересно, какое место занимает некортекст, гиппокамп, парагиппокампальные области и какие можно сделать аналоги для LLM?

Тогда залетайте на хабр!

https://habr.com/ru/articles/860426/
❤‍🔥42🔥2