Технозаметки Малышева
5.59K subscribers
2.8K photos
937 videos
38 files
3.08K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
📊 Новые данные от METR о скорости развития ИИ заставляют экспертов корректировать прогнозы

Claude 3.5 вышел на уровень среднего человека-исследователя, показав прирост в 0.2 пункта за 4 месяца. Звучит скромно, но для этой метрики это существенный рост.

Интересные детали из исследования:

- ИИ генерирует и тестирует решения в 10 раз быстрее людей
- В одной из задач o1-preview смог оптимизировать CUDA-ядро лучше, чем лучший человек-эксперт (0.64 мс против 0.67 мс)
- При этом медианный результат ИИ всё еще слабый – модели часто "спотыкаются" на необычных задачах

Эли Лифланд пересмотрел свои ожидания: вероятность появления автономного ИИ-исследователя к концу 2027 повысилась с 20% до 30%.

Даниэль Кокотайло отметил, что o1 и Claude уже способны автономно работать над сложными ML-задачами больше часа – такой результат ожидался только к 2026 году.

Похоже, прогресс в этой области ускоряется быстрее, чем предполагали совсем недавно.
Закон возврата технологий работает.

#METR #AGI
———
@tsingular
👌10👍5
Исследование METR: Время решения задач AI-моделями удваивается каждые 7 месяцев

Исследователи из Model Evaluation & Threat Research (METR) выпустили 19 марта интересную работу, показывающую, что временной горизонт задач, которые могут решать AI-агенты, растёт экспоненциально.

Что измеряли и как
Команда из 24 исследователей разработала метрику "50% time horizon" — это продолжительность задач (в человеко-часах), которые AI может решить с 50% вероятностью успеха. Простыми словами: "Насколько долгую человеческую работу может заменить AI?"

Они провели 800+ базовых измерений с реальными людьми-экспертами для калибровки сложности 170 задач (от простых как "какой файл содержит пароль?" до сложных вроде "оптимизируй CUDA-ядро для бэктестинга") и протестировали на них 13 моделей от GPT-2 (2019) до Claude 3.7 Sonnet (2025).

Основные результаты
1. Claude 3.7 Sonnet сейчас может решать задачи, занимающие у опытного человека около 59 минут.
2. Скорость роста: временной горизонт стабильно удваивается каждые ~7 месяцев последние 6 лет.
3. Разница между 50% и 80% надёжностью: Для Claude 3.7 Sonnet горизонт падает с 59 минут до 15 минут при требовании более высокой надёжности.
4. Основные улучшения моделей: более надёжное выполнение, адаптация к ошибкам, улучшенное логическое мышление и использование инструментов.

Прогнозы на будущее
Если тренд сохранится, то к концу 2029 года мы получим модели, способные самостоятельно выполнять месячные проекты. Это потенциально может автоматизировать значительную часть работы программистов и исследователей.

Практические соображения
1. Стоимость: Успешный запуск AI-агента стоит <10% от зарплаты человека-эксперта для той же задачи — экономически очень выгодно.
2. Контекст важен: Разработчики репозитория решают те же задачи в 5-18 раз быстрее контрактников (наёмные аутсорсеры) без контекста. AI пока ближе к контрактникам по эффективности.
3. "Грязные" задачи: AI хуже справляется с неструктурированными задачами, где нет чёткой обратной связи или требуется проактивный поиск информации.

Интересное сравнение в плане выбора - кого нанять - субподрядчика контрактника человека или ИИ.
И те и те должны "въезжать" в чужеродную для них задачу без контекста.
И умнее "контрактники" не становятся, а вот ИИ умнеет быстрее закона Мура. х2 каждые 7 месяцев

Исследование

#metr #research #futurology
———
@tsingular
🔥74