самые мощные LLM-агенты часто не справляются даже с простыми рабочими задачами, если действуют полностью самостоятельно.
Но стоит подключить эксперта-человека - и успешность выполнения растёт до +70%.
🔍 Что выяснили
- Upwork провёл 300 реальных оплачиваемых проектов (до $500) в областях: написание текстов, дата-сайенс, веб-разработка, инженерия, продажи, перевод.
- Задачи были специально упрощены, чтобы дать агентам шанс.
- Даже так - агенты, работающие в одиночку, часто проваливались.
- Но когда опытный фрилансер давал короткий отзыв (в среднем 20 минут), качество резко росло с каждой итерацией.
📊 Конкретные цифры
- Claude Sonnet 4 (данные): 64% → 93%
- Gemini 2.5 Pro (маркетинг/продажи): 17% → 31%
- GPT-5 (инжиниринг): 30% → 50%
Эффект особенно заметен в задачах, требующих вкуса, контекста и оценочных решений: письмо, маркетинг, перевод.
Там один цикл обратной связи повышает результат на до +17 пунктов.
Бенчмарки мало отражают реальную работу.
В исследовании использовали строгий pass/fail на финальном результате, плюс внешнюю независимую проверку.
Паттерн очевиден:
- детерминированные задачи (код, преобразование данных) — агенты справляются лучше
- творческие и «открытые» задачи — агенты ошибаются чаще
💰 Экономика
Связка «агент + эксперт» дешевле и быстрее, чем «человек в одиночку».
AI-расходы на Upwork выросли на 53% YoY в Q3-25.
Еще Upwork строит Uma оркестратора, который направляет задачи между людьми и моделями, проверяет результаты и замыкает улучшение по циклу.
*Upwork - это крупная международная онлайн-биржа фриланса
Полный отчёт: upwork.com/static/webflow/assets/webflow-human-agent-productivity-index/upbench_paper.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Главное из нового интервью Ильи Суцквера (25 ноября 2025, Dwarkesh Podcast)
Самые интересные цитаты:
1. Масштабирование кончилось
> «Current scaling approaches will go some distance and then peter out»
2. Суперинтеллект уже на горизонте
> «Superintelligence in 5 to 20 years. You know what’s crazy? That all of this is real»
3. Главная проблема генерализация
> «A teenager learns to drive in 10 hours. Our best models still can’t after billions of examples»
4. RL стал самым дорогим и самым бесполезным этапом
> «Reinforcement learning already takes more compute than pre-training and gives almost nothing in return»
5. Дальше только исследования
> «We are squarely in the age of research, but this time with powerful computers»
6. У ИИ пока нет настоящих «эмоций»
> «Value functions are basically emotions. Without them alignment will stay fragile»
7. Цитата, которую уже растащили все сми
> «The gap between benchmark scores and real-world performance is getting embarrassing»
8. Про свою компанию SSI
> «We have no products, no distractions. Just safe superintelligence»
Главный вопрос он ставит так:
Какой супер-интеллект мы создадим -
Полное интервью: https://www.youtube.com/watch?v=aR20FWCCjAs
Самые интересные цитаты:
1. Масштабирование кончилось
> «Current scaling approaches will go some distance and then peter out»
2. Суперинтеллект уже на горизонте
> «Superintelligence in 5 to 20 years. You know what’s crazy? That all of this is real»
3. Главная проблема генерализация
> «A teenager learns to drive in 10 hours. Our best models still can’t after billions of examples»
4. RL стал самым дорогим и самым бесполезным этапом
> «Reinforcement learning already takes more compute than pre-training and gives almost nothing in return»
5. Дальше только исследования
> «We are squarely in the age of research, but this time with powerful computers»
6. У ИИ пока нет настоящих «эмоций»
> «Value functions are basically emotions. Without them alignment will stay fragile»
7. Цитата, которую уже растащили все сми
> «The gap between benchmark scores and real-world performance is getting embarrassing»
8. Про свою компанию SSI
> «We have no products, no distractions. Just safe superintelligence»
Главный вопрос он ставит так:
Какой супер-интеллект мы создадим -
«15-летнего гениального подростка, который жадно учится или «что-то уже полностью готовое и законченное. »
Полное интервью: https://www.youtube.com/watch?v=aR20FWCCjAs
❤2👍2🔥1