LLM консилиум
Андрей Карпаты на выходных завайбкодил веб апп с LLM консилиумом. Это веб приложение которое выглядит как условный ChatGPT, только каждый ваш запрос/вопрос одновременно разбирают сразу несколько топовых моделей вроде GPT 5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4.
Сначала все модели отвечают по отдельности, потом видят анонимные ответы друг друга, оценивают и ранжируют их, а финальный ответ собирает председатель LLM с учетом всей этой мини дискуссии.
Карпаты рассказывает, что модели в консилиуме часто честно признают, что ответ другой модели лучше их собственного, и это делает формат полезным для оценки качества моделей. Когда Карпаты читал книгу и обсуждал главы этой книги с консилиумом, все модели стабильно ставили GPT 5.1 на первое место как самую глубокую и содержательную, а Claude почти всегда на последнее. Gemini и Grok оказывались между ними. При этом сам Карпаты не полностью согласен с таким рейтингом. По его ощущениям GPT 5.1 слишком многословный, Gemini в своих ответах более компактный и структурированный, а Claude в этих задачах чересчур краткий.
Код уже лежит на GitHub, можно развернуть у себя и посмотреть как модели спорят за право дать лучший ответ.
Андрей Карпаты на выходных завайбкодил веб апп с LLM консилиумом. Это веб приложение которое выглядит как условный ChatGPT, только каждый ваш запрос/вопрос одновременно разбирают сразу несколько топовых моделей вроде GPT 5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4.
Сначала все модели отвечают по отдельности, потом видят анонимные ответы друг друга, оценивают и ранжируют их, а финальный ответ собирает председатель LLM с учетом всей этой мини дискуссии.
Карпаты рассказывает, что модели в консилиуме часто честно признают, что ответ другой модели лучше их собственного, и это делает формат полезным для оценки качества моделей. Когда Карпаты читал книгу и обсуждал главы этой книги с консилиумом, все модели стабильно ставили GPT 5.1 на первое место как самую глубокую и содержательную, а Claude почти всегда на последнее. Gemini и Grok оказывались между ними. При этом сам Карпаты не полностью согласен с таким рейтингом. По его ощущениям GPT 5.1 слишком многословный, Gemini в своих ответах более компактный и структурированный, а Claude в этих задачах чересчур краткий.
Код уже лежит на GitHub, можно развернуть у себя и посмотреть как модели спорят за право дать лучший ответ.
🔥30❤1
Поговаривают, Claude Opus 4.5 выпустят уже сегодня (мб завтра)
Как думаете, обойдут Gemini 3 Pro?
Как думаете, обойдут Gemini 3 Pro?
🔥10🤣1
Чтож! Opus 4.5 король?!
Сегодня ночью, а где-то за океаном днем, Anthropic выпустила, как мы и ожидали, Opus 4.5: дешевле, мощнее, умнее (по крайней мере надеюсь что так в реальных задачах).
Что нового:
- Opus 4.5 новая SOTA! Это первая модель на рынке, которая смогла получить аж 80%+ SWE bench Verified, обогнав и GPT-5.1 Codex Max и Gemini 3 Pro. Похвально, но нужно тестить, смотреть, сравнивать.
- Стоимость за 1 млн токенов рухнула в 3 раза. За 1 млн токенов на входе $5 и на выходе $25 (ранее было $15/$75, было очень дорого).
- Добавили параметр effort, по сути reasoning budget как у OpenAI, с режимами low, medium и high. Для простых задач low (быстрее, меньше думает) и high для самых сложных задач, дольше = лучше.
- Пишут, что прокачали режим планинга в Claude Code с моделью Opus 4.5: задает больше уточняющих вопросов, формирует итоговый план в md файл перед исполнением. Надо потестить и сравнить или вы уже заметили разницу в режиме плана?
- В Claude теперь нельзя упереться в лимит в истории общения. Модель сама будет подрезать, суммаризировать, ужимать, чтобы вы могли без проблем продолжать закидывать её своими вопросами.
- Но самое то главное для нас что? Лимиты в Claude и Claude Code на Opus 4.5. Его больше нет! Точнее не так, нет специфичного лимита конкретно на эту модель, теперь это общий лимит тарифа. А для Max и Teams тарифов еще и расширили общие лимиты, чтобы Opus можно было использовать по объемам как раньше Sonnet. Подарок? Еще какой!
Все детали в блоге Anthropic https://www.anthropic.com/news/claude-opus-4-5
Сегодня ночью, а где-то за океаном днем, Anthropic выпустила, как мы и ожидали, Opus 4.5: дешевле, мощнее, умнее (по крайней мере надеюсь что так в реальных задачах).
Что нового:
- Opus 4.5 новая SOTA! Это первая модель на рынке, которая смогла получить аж 80%+ SWE bench Verified, обогнав и GPT-5.1 Codex Max и Gemini 3 Pro. Похвально, но нужно тестить, смотреть, сравнивать.
- Стоимость за 1 млн токенов рухнула в 3 раза. За 1 млн токенов на входе $5 и на выходе $25 (ранее было $15/$75, было очень дорого).
- Добавили параметр effort, по сути reasoning budget как у OpenAI, с режимами low, medium и high. Для простых задач low (быстрее, меньше думает) и high для самых сложных задач, дольше = лучше.
- Пишут, что прокачали режим планинга в Claude Code с моделью Opus 4.5: задает больше уточняющих вопросов, формирует итоговый план в md файл перед исполнением. Надо потестить и сравнить или вы уже заметили разницу в режиме плана?
- В Claude теперь нельзя упереться в лимит в истории общения. Модель сама будет подрезать, суммаризировать, ужимать, чтобы вы могли без проблем продолжать закидывать её своими вопросами.
- Но самое то главное для нас что? Лимиты в Claude и Claude Code на Opus 4.5. Его больше нет! Точнее не так, нет специфичного лимита конкретно на эту модель, теперь это общий лимит тарифа. А для Max и Teams тарифов еще и расширили общие лимиты, чтобы Opus можно было использовать по объемам как раньше Sonnet. Подарок? Еще какой!
Все детали в блоге Anthropic https://www.anthropic.com/news/claude-opus-4-5
🔥16❤5🤣1
🤖 Как на самом деле собирают AI-стартап: дневник с передовой
Если хочется понимать не только «что запустили», но и как именно это делается каждый день — без глянца и с настоящими решениями, у вас появился удобный шорткат😎
Техновеликие истории часто выглядят стерильно: пресс-релизы, идеальные графики, ни одной «грязной» детали. В такой картинке не видно главного —логики фаундера: как он выбирает между скоростью и качеством, где режет фичи, как держит команду и бюджет, что делает в момент факапа.
Канал Димы Беседы — живой дневник действующего предпринимателя. Сейчас фокус — международный стартап Spiry: AI-продюсер коротких видео для Instagram/TikTok/YouTube.
Команда — 18 человек, Дима сам финансирует проект и фултайм в операционке.
До этого — выход LF.Group → Xsolla, со-основание Overgear, проект по скинам CS (NDA) с 5+ млн MAU; суммарно потрачено $15M на интеграции у блогеров — рынок он знает изнутри.
Посты — коротко, по делу и без утаивания «неудобных» деталей.
Чтобы быстро понять «температуру» канала — начните с 3–5 материалов:
1️⃣ Как не похоронить стартап процессами и выжать максимум из минут команды?
2️⃣ Когда продукт действительно готов к первому запуску?
3️⃣ Почему «выручка на человека» — плохая метрика для живого бизнеса?
4️⃣ Разница управленческого мышления СНГ vs США (и почему из-за неё рвутся команды).
5️⃣ Главный фактор сильной команды
6️⃣ Даже вакансия в канале есть
Если вам интересно, как ИИ встроен в реальный бизнес — подпишитесь и посмотрите, как строится международный AI-продукт в реальном времени: @dimabeseda.
Это читабельно, практично и с тем самым уровнем откровенности, которого обычно не хватает😉
#промо_пост
Если хочется понимать не только «что запустили», но и как именно это делается каждый день — без глянца и с настоящими решениями, у вас появился удобный шорткат
Техновеликие истории часто выглядят стерильно: пресс-релизы, идеальные графики, ни одной «грязной» детали. В такой картинке не видно главного —
Канал Димы Беседы — живой дневник действующего предпринимателя. Сейчас фокус — международный стартап Spiry: AI-продюсер коротких видео для Instagram/TikTok/YouTube.
Команда — 18 человек, Дима сам финансирует проект и фултайм в операционке.
До этого — выход LF.Group → Xsolla, со-основание Overgear, проект по скинам CS (NDA) с 5+ млн MAU; суммарно потрачено $15M на интеграции у блогеров — рынок он знает изнутри.
Посты — коротко, по делу и без утаивания «неудобных» деталей.
Чтобы быстро понять «температуру» канала — начните с 3–5 материалов:
1️⃣ Как не похоронить стартап процессами и выжать максимум из минут команды?
2️⃣ Когда продукт действительно готов к первому запуску?
3️⃣ Почему «выручка на человека» — плохая метрика для живого бизнеса?
4️⃣ Разница управленческого мышления СНГ vs США (и почему из-за неё рвутся команды).
5️⃣ Главный фактор сильной команды
6️⃣ Даже вакансия в канале есть
Если вам интересно, как ИИ встроен в реальный бизнес — подпишитесь и посмотрите, как строится международный AI-продукт в реальном времени: @dimabeseda.
Это читабельно, практично и с тем самым уровнем откровенности, которого обычно не хватает😉
#промо_пост
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔1