Анализ данных (Data analysis)

✔️

Upwork* опубликовал исследование с громким выводом:
самые мощные LLM-агенты часто не справляются даже с простыми рабочими задачами, если действуют полностью самостоятельно.

Но стоит подключить эксперта-человека - и успешность выполнения растёт до +70%.

🔍 Что выяснили
- Upwork провёл 300 реальных оплачиваемых проектов (до $500) в областях: написание текстов, дата-сайенс, веб-разработка, инженерия, продажи, перевод.
- Задачи были специально упрощены, чтобы дать агентам шанс.
- Даже так - агенты, работающие в одиночку, часто проваливались.
- Но когда опытный фрилансер давал короткий отзыв (в среднем 20 минут), качество резко росло с каждой итерацией.

📊 Конкретные цифры
- Claude Sonnet 4 (данные): 64% → 93%
- Gemini 2.5 Pro (маркетинг/продажи): 17% → 31%
- GPT-5 (инжиниринг): 30% → 50%

Эффект особенно заметен в задачах, требующих вкуса, контекста и оценочных решений: письмо, маркетинг, перевод.
Там один цикл обратной связи повышает результат на до +17 пунктов.

Бенчмарки мало отражают реальную работу.
В исследовании использовали строгий pass/fail на финальном результате, плюс внешнюю независимую проверку.

Паттерн очевиден:
- детерминированные задачи (код, преобразование данных) — агенты справляются лучше
- творческие и «открытые» задачи — агенты ошибаются чаще

💰 Экономика
Связка «агент + эксперт» дешевле и быстрее, чем «человек в одиночку».
AI-расходы на Upwork выросли на 53% YoY в Q3-25.

Еще Upwork строит Uma оркестратора, который направляет задачи между людьми и моделями, проверяет результаты и замыкает улучшение по циклу.

*Upwork - это крупная международная онлайн-биржа фриланса

Полный отчёт: upwork.com/static/webflow/assets/webflow-human-agent-productivity-index/upbench_paper.pdf

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥1👌1

2.27K views18:02

Анализ данных (Data analysis)

1:44

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Главное из нового интервью Ильи Суцквера (25 ноября 2025, Dwarkesh Podcast)

Самые интересные цитаты:

1. Масштабирование кончилось
> «Current scaling approaches will go some distance and then peter out»

2. Суперинтеллект уже на горизонте
> «Superintelligence in 5 to 20 years. You know what’s crazy? That all of this is real»

3. Главная проблема генерализация
> «A teenager learns to drive in 10 hours. Our best models still can’t after billions of examples»

4. RL стал самым дорогим и самым бесполезным этапом
> «Reinforcement learning already takes more compute than pre-training and gives almost nothing in return»

5. Дальше только исследования
> «We are squarely in the age of research, but this time with powerful computers»

6. У ИИ пока нет настоящих «эмоций»
> «Value functions are basically emotions. Without them alignment will stay fragile»

7. Цитата, которую уже растащили все сми
> «The gap between benchmark scores and real-world performance is getting embarrassing»

8. Про свою компанию SSI
> «We have no products, no distractions. Just safe superintelligence»

Главный вопрос он ставит так:
Какой супер-интеллект мы создадим -

«15-летнего гениального подростка, который жадно учится или «что-то уже полностью готовое и законченное. »

Полное интервью: https://www.youtube.com/watch?v=aR20FWCCjAs

❤2👍2🔥1

1.03K views04:39

About

Blog

Apps

Platform