ИИволюция 👾

LLM консилиум

Андрей Карпаты на выходных завайбкодил веб апп с LLM консилиумом. Это веб приложение которое выглядит как условный ChatGPT, только каждый ваш запрос/вопрос одновременно разбирают сразу несколько топовых моделей вроде GPT 5.1, Gemini 3 Pro, Claude Sonnet 4.5 и Grok 4.

Сначала все модели отвечают по отдельности, потом видят анонимные ответы друг друга, оценивают и ранжируют их, а финальный ответ собирает председатель LLM с учетом всей этой мини дискуссии.

Карпаты рассказывает, что модели в консилиуме часто честно признают, что ответ другой модели лучше их собственного, и это делает формат полезным для оценки качества моделей. Когда Карпаты читал книгу и обсуждал главы этой книги с консилиумом, все модели стабильно ставили GPT 5.1 на первое место как самую глубокую и содержательную, а Claude почти всегда на последнее. Gemini и Grok оказывались между ними. При этом сам Карпаты не полностью согласен с таким рейтингом. По его ощущениям GPT 5.1 слишком многословный, Gemini в своих ответах более компактный и структурированный, а Claude в этих задачах чересчур краткий.

Код уже лежит на GitHub, можно развернуть у себя и посмотреть как модели спорят за право дать лучший ответ.

🔥30❤1

2.28K viewsСергей Пахандрин, edited 06:22

ИИволюция 👾

Поговаривают, Claude Opus 4.5 выпустят уже сегодня (мб завтра)

Как думаете, обойдут Gemini 3 Pro?

🔥10🤣1

1.94K viewsСергей Пахандрин, 13:09

ИИволюция 👾

Чтож! Opus 4.5 король?!

Сегодня ночью, а где-то за океаном днем, Anthropic выпустила, как мы и ожидали, Opus 4.5: дешевле, мощнее, умнее (по крайней мере надеюсь что так в реальных задачах).

Что нового:

- Opus 4.5 новая SOTA! Это первая модель на рынке, которая смогла получить аж 80%+ SWE bench Verified, обогнав и GPT-5.1 Codex Max и Gemini 3 Pro. Похвально, но нужно тестить, смотреть, сравнивать.
- Стоимость за 1 млн токенов рухнула в 3 раза. За 1 млн токенов на входе $5 и на выходе $25 (ранее было $15/$75, было очень дорого).
- Добавили параметр effort, по сути reasoning budget как у OpenAI, с режимами low, medium и high. Для простых задач low (быстрее, меньше думает) и high для самых сложных задач, дольше = лучше.
- Пишут, что прокачали режим планинга в Claude Code с моделью Opus 4.5: задает больше уточняющих вопросов, формирует итоговый план в md файл перед исполнением. Надо потестить и сравнить или вы уже заметили разницу в режиме плана?
- В Claude теперь нельзя упереться в лимит в истории общения. Модель сама будет подрезать, суммаризировать, ужимать, чтобы вы могли без проблем продолжать закидывать её своими вопросами.
- Но самое то главное для нас что? Лимиты в Claude и Claude Code на Opus 4.5. Его больше нет! Точнее не так, нет специфичного лимита конкретно на эту модель, теперь это общий лимит тарифа. А для Max и Teams тарифов еще и расширили общие лимиты, чтобы Opus можно было использовать по объемам как раньше Sonnet. Подарок? Еще какой!

Все детали в блоге Anthropic https://www.anthropic.com/news/claude-opus-4-5

🔥16❤5🤣1

1.55K viewsСергей Пахандрин, 06:19

ИИволюция 👾

🤖 Как на самом деле собирают AI-стартап: дневник с передовой

Если хочется понимать не только «что запустили», но и как именно это делается каждый день — без глянца и с настоящими решениями, у вас появился удобный шорткат 😎

Техновеликие истории часто выглядят стерильно: пресс-релизы, идеальные графики, ни одной «грязной» детали. В такой картинке не видно главного — логики фаундера: как он выбирает между скоростью и качеством, где режет фичи, как держит команду и бюджет, что делает в момент факапа.

Канал Димы Беседы — живой дневник действующего предпринимателя. Сейчас фокус — международный стартап Spiry: AI-продюсер коротких видео для Instagram/TikTok/YouTube.

Команда — 18 человек, Дима сам финансирует проект и фултайм в операционке.

До этого — выход LF.Group → Xsolla, со-основание Overgear, проект по скинам CS (NDA) с 5+ млн MAU; суммарно потрачено $15M на интеграции у блогеров — рынок он знает изнутри.

Посты — коротко, по делу и без утаивания «неудобных» деталей.
Чтобы быстро понять «температуру» канала — начните с 3–5 материалов:

1️⃣ Как не похоронить стартап процессами и выжать максимум из минут команды?

2️⃣ Когда продукт действительно готов к первому запуску?

3️⃣ Почему «выручка на человека» — плохая метрика для живого бизнеса?

4️⃣ Разница управленческого мышления СНГ vs США (и почему из-за неё рвутся команды).

5️⃣ Главный фактор сильной команды

6️⃣ Даже вакансия в канале есть

Если вам интересно, как ИИ встроен в реальный бизнес — подпишитесь и посмотрите, как строится международный AI-продукт в реальном времени: @dimabeseda.

Это читабельно, практично и с тем самым уровнем откровенности, которого обычно не хватает😉

#промо_пост

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🤔1

883 viewsСергей Пахандрин, 11:00

About

Blog

Apps

Platform