Пока академические круги увлечены алгоритмами Шора и Гровера, финансовые гиганты уже вовсю тестируют квантовые алгоритмы для решения практических задач
Квантовый приближённый алгоритм оптимизации (QAOA) стал первым рабочим инструментом для комбинаторной оптимизации — той самой области, где финансы зарабатывают миллиарды, но где классические компьютеры часто сдаются
Суть QAOA: когда перебор невозможен
Большинство финансовых задач — это оптимизационные кошмары
Нужно выбрать лучшую комбинацию из тысяч активов, учесть сотни ограничений, минимизировать риски и максимизировать прибыль
Классически это NP-сложные задачи: время решения растёт экспоненциально с размером портфеля
Алгоритм QAOA работает по гибридной схеме: квантовый процессор готовит суперпозицию всех возможных решений, а классический оптимизатор корректирует параметры, стремясь увеличить вероятность найти оптимальное решение
Алгоритм итеративно чередует два типа унитарных операций:
1. Оператор задачи, кодирующий функцию стоимости
2. Оператор смешивания, исследующий пространство решений
Математически QAOA минимизирует гамильтониан вида H = ∑ᵢⱼ Jᵢⱼσᵢσⱼ + ∑ᵢ hᵢσᵢ, где коэффициенты кодируют веса рёбер в графе оптимизации
Goldman Sachs: оптимизация портфелей
Компания Goldman Sachs с 2019 года экспериментирует с QAOA для задач управления активами
Их квантовая команда под руководством Stefan Woerner разработала алгоритмы для:
Выбора портфеля: классическая задача Марковица — найти оптимальное соотношение активов при заданном уровне риска — превращается в задачу квадратичной оптимизации
QAOA на 20 кубитах IBM показал результаты, сопоставимые с классическими решателями для портфелей из 100+ активов
Арбитража пар: поиск статистических арбитражных возможностей между коррелированными активами
Квантовый алгоритм выявляет скрытые паттерны в исторических данных, которые пропускают традиционные методы
Управление рисками: алгоритм QAOA помогает оптимизировать параметр VaR (Value at Risk) и стресс-тестирование портфелей в режиме реального времени
J. P. Morgan: производные инструменты и кредитование
Крупнейший американский банк инвестирует в квантовые технологии через собственную лабораторию JPMorgan Chase Institute
Их достижения:
Ценообразование опционов: команда Marco Pistoia адаптировала QAOA для расчёта цен сложных деривативов методом Монте-Карло
Квантовая версия показала квадратичное ускорение по сравнению с классическими симуляциями
Кредитный риск:
QAOA оптимизирует кредитные портфели, балансируя доходность и вероятность дефолта
Алгоритм учитывает корреляции между заёмщиками и макроэкономические факторы
Высокочастотная торговля: экспериментальные алгоритмы для оптимизации исполнения крупных ордеров с минимизацией воздействия рынка
D-Wave: квантовый отжиг в действии
Канадская D-Wave Systems пошла альтернативным путём — вместо универсальных квантовых компьютеров они создают специализированные машины для квантового отжига (quantum annealing)
Их процессоры с тысячами кубитов уже решают реальные оптимизационные задачи:
Volkswagen Financial Services: используют D-Wave для оптимизации лизинговых портфелей и управления рисками автокредитования
Система анализирует миллионы сценариев и находит оптимальные стратегии ценообразования
Recruit Holdings (Япония): применяют квантовый отжиг для персонализации финансовых продуктов и кредитного скоринга
Алгоритм обрабатывает поведенческие данные клиентов и оптимизирует предложения в реальном времени
Денверский аэропорт и Lockheed Martin: хотя и не финансовые компании, но их кейсы показательны
D-Wave оптимизирует логистику и планирование ресурсов — задачи, аналогичные финансовому риск-менеджменту
Квантовый приближённый алгоритм оптимизации (QAOA) стал первым рабочим инструментом для комбинаторной оптимизации — той самой области, где финансы зарабатывают миллиарды, но где классические компьютеры часто сдаются
Суть QAOA: когда перебор невозможен
Большинство финансовых задач — это оптимизационные кошмары
Нужно выбрать лучшую комбинацию из тысяч активов, учесть сотни ограничений, минимизировать риски и максимизировать прибыль
Классически это NP-сложные задачи: время решения растёт экспоненциально с размером портфеля
Алгоритм QAOA работает по гибридной схеме: квантовый процессор готовит суперпозицию всех возможных решений, а классический оптимизатор корректирует параметры, стремясь увеличить вероятность найти оптимальное решение
Алгоритм итеративно чередует два типа унитарных операций:
1. Оператор задачи, кодирующий функцию стоимости
2. Оператор смешивания, исследующий пространство решений
Математически QAOA минимизирует гамильтониан вида H = ∑ᵢⱼ Jᵢⱼσᵢσⱼ + ∑ᵢ hᵢσᵢ, где коэффициенты кодируют веса рёбер в графе оптимизации
Goldman Sachs: оптимизация портфелей
Компания Goldman Sachs с 2019 года экспериментирует с QAOA для задач управления активами
Их квантовая команда под руководством Stefan Woerner разработала алгоритмы для:
Выбора портфеля: классическая задача Марковица — найти оптимальное соотношение активов при заданном уровне риска — превращается в задачу квадратичной оптимизации
QAOA на 20 кубитах IBM показал результаты, сопоставимые с классическими решателями для портфелей из 100+ активов
Арбитража пар: поиск статистических арбитражных возможностей между коррелированными активами
Квантовый алгоритм выявляет скрытые паттерны в исторических данных, которые пропускают традиционные методы
Управление рисками: алгоритм QAOA помогает оптимизировать параметр VaR (Value at Risk) и стресс-тестирование портфелей в режиме реального времени
J. P. Morgan: производные инструменты и кредитование
Крупнейший американский банк инвестирует в квантовые технологии через собственную лабораторию JPMorgan Chase Institute
Их достижения:
Ценообразование опционов: команда Marco Pistoia адаптировала QAOA для расчёта цен сложных деривативов методом Монте-Карло
Квантовая версия показала квадратичное ускорение по сравнению с классическими симуляциями
Кредитный риск:
QAOA оптимизирует кредитные портфели, балансируя доходность и вероятность дефолта
Алгоритм учитывает корреляции между заёмщиками и макроэкономические факторы
Высокочастотная торговля: экспериментальные алгоритмы для оптимизации исполнения крупных ордеров с минимизацией воздействия рынка
D-Wave: квантовый отжиг в действии
Канадская D-Wave Systems пошла альтернативным путём — вместо универсальных квантовых компьютеров они создают специализированные машины для квантового отжига (quantum annealing)
Их процессоры с тысячами кубитов уже решают реальные оптимизационные задачи:
Volkswagen Financial Services: используют D-Wave для оптимизации лизинговых портфелей и управления рисками автокредитования
Система анализирует миллионы сценариев и находит оптимальные стратегии ценообразования
Recruit Holdings (Япония): применяют квантовый отжиг для персонализации финансовых продуктов и кредитного скоринга
Алгоритм обрабатывает поведенческие данные клиентов и оптимизирует предложения в реальном времени
Денверский аэропорт и Lockheed Martin: хотя и не финансовые компании, но их кейсы показательны
D-Wave оптимизирует логистику и планирование ресурсов — задачи, аналогичные финансовому риск-менеджменту
Джулиан Шритвизер, который был соавтором AlphaGo, AlphaZero и MuZero, а теперь — исследователь в Anthropic, написал в своем блоге анализ того, что происходит в Ml
Люди замечают, что хотя Ml теперь может писать программы, разрабатывать веб-сайты и тд, он все еще часто совершает ошибки, а затем почему-то делают вывод, что Ml никогда не сможет выполнять эти задачи на человеческом уровне или окажет лишь незначительное влияние
Хотя всего несколько лет назад сама возможность Ml делать эти вещи была полной научной фантастикой
Данные показывают устойчивый рост:
1. В программировании: модели уже могут автономно работать над задачами 2+ часа
2. В разных профессиях: новейшие модели почти достигли уровня экспертов-людей с 14-летним опытом
Конкретные прогнозы на ближайшие годы:
• К середине 2026 года Ml сможет автономно работать полный рабочий день 8 часов
• К концу 2026 года хотя бы одна модель достигнет уровня экспертов во многих профессиях
• К концу 2027 - Ml начнет регулярно превосходить экспертов
Люди замечают, что хотя Ml теперь может писать программы, разрабатывать веб-сайты и тд, он все еще часто совершает ошибки, а затем почему-то делают вывод, что Ml никогда не сможет выполнять эти задачи на человеческом уровне или окажет лишь незначительное влияние
Хотя всего несколько лет назад сама возможность Ml делать эти вещи была полной научной фантастикой
Данные показывают устойчивый рост:
1. В программировании: модели уже могут автономно работать над задачами 2+ часа
2. В разных профессиях: новейшие модели почти достигли уровня экспертов-людей с 14-летним опытом
Конкретные прогнозы на ближайшие годы:
• К середине 2026 года Ml сможет автономно работать полный рабочий день 8 часов
• К концу 2026 года хотя бы одна модель достигнет уровня экспертов во многих профессиях
• К концу 2027 - Ml начнет регулярно превосходить экспертов
www.julian.ac
Failing to Understand the Exponential, Again
Posts and writings by Julian Schrittwieser
Музей английской сельской жизни выложил архивное фото овец на мосту и подписал: "Мы тоже задействуем LLMs!"
Игра слов работает идеально, LLMs в мире технологий это Large Language Models, а на фото буквально Large Lamb-bridge Models
Музей из Рединга известен подобными каламбурами
Прославились они благодаря соцсетям, где постят архивные фото с забавными подписями
К слову, в комментариях пользователи тоже отличились
Предложили:
• Large-scale Lamb Movement
• log-bridge lamb modalities
• Leg of Lamb and Mint Sauce
Игра слов работает идеально, LLMs в мире технологий это Large Language Models, а на фото буквально Large Lamb-bridge Models
Музей из Рединга известен подобными каламбурами
Прославились они благодаря соцсетям, где постят архивные фото с забавными подписями
К слову, в комментариях пользователи тоже отличились
Предложили:
• Large-scale Lamb Movement
• log-bridge lamb modalities
• Leg of Lamb and Mint Sauce
Проект «Vesuvius Challenge»
Представьте себе библиотеку в древнеримской вилле в Геркулануме
В 79 году н.э. извержение Везувия накрыло раскаленным пеплом и лавой Помпеи и Геркуланум
Все виллы, хижины крестьян, дворцы, храмы и конечно же библиотеки были полностью уничтожены
Но под слоем пепла и лавы сотни свитков папируса из этих библиотек не сгорели, а обуглились
Они превратились в хрупкие, спрессованные «угольные брикеты», которые невозможно развернуть, не уничтожив
С 2023 года идет проект «Vesuvius Challenge»
Исследователи использовали передовой метод — синхротронная рентгеновская томография
Свитки просвечивают, получая 3D-модель с невероятной детализацией
1. Чернила в этих свитках — это углерод (сажа)
Папирус после обугливания — тоже углерод
Рентген «не видит» разницы
Но Ml обучен находить мельчайшие изменения в текстуре и структуре папируса в тех местах, где было нанесено чернило
Он буквально учится читать по «шрамам», оставленным пером
2. Разворачивает свиток виртуально
Физически развернуть свиток нельзя — он рассыплется
Ml анализирует 3D-модель и цифровыми методами «разворачивает» ее в плоский лист
Это как развернуть скомканный лист бумаги, не прикасаясь к нему
3. Даже после виртуального разворачивания текст представляет собой набор едва заметных трещин и неровностей
Специально обученные нейросети, похожие на те, что распознают рукописный текст, ищут знакомые паттерны — очертания древнегреческих букв
В начале 2024 года команда участников «Vesuvius Challenge» с помощью своего Ml-алгоритма первой полностью расшифровала более 2.000 слов из одного из свитков (около 5 % текста)
Это оказался неизвестный ранее философский текст о музыке, еде и жизни удовольствий!
Автор (вероятно, эпикурейский философ Филодем) рассуждает, являются ли удовольствия из разных источников (еда, музыка) ограниченными по своей природе
Получаем прямой доступ к мыслям людей, живших 2.000 лет назад, минуя всех переписчиков и интерпретаторов
Ученые надеются прочесть сотни таких свитков, что может перевернуть наше представление об античной философии, литературе и науке
Это великолепный пример симбиоза гуманитарных наук и передовых технологий
Ml становится машиной времени, позволяющей заглянуть в прошлое, которое мы уже считали навсегда потерянным
Историческую правду мы будем узнавать не от людей
Представьте себе библиотеку в древнеримской вилле в Геркулануме
В 79 году н.э. извержение Везувия накрыло раскаленным пеплом и лавой Помпеи и Геркуланум
Все виллы, хижины крестьян, дворцы, храмы и конечно же библиотеки были полностью уничтожены
Но под слоем пепла и лавы сотни свитков папируса из этих библиотек не сгорели, а обуглились
Они превратились в хрупкие, спрессованные «угольные брикеты», которые невозможно развернуть, не уничтожив
С 2023 года идет проект «Vesuvius Challenge»
Исследователи использовали передовой метод — синхротронная рентгеновская томография
Свитки просвечивают, получая 3D-модель с невероятной детализацией
1. Чернила в этих свитках — это углерод (сажа)
Папирус после обугливания — тоже углерод
Рентген «не видит» разницы
Но Ml обучен находить мельчайшие изменения в текстуре и структуре папируса в тех местах, где было нанесено чернило
Он буквально учится читать по «шрамам», оставленным пером
2. Разворачивает свиток виртуально
Физически развернуть свиток нельзя — он рассыплется
Ml анализирует 3D-модель и цифровыми методами «разворачивает» ее в плоский лист
Это как развернуть скомканный лист бумаги, не прикасаясь к нему
3. Даже после виртуального разворачивания текст представляет собой набор едва заметных трещин и неровностей
Специально обученные нейросети, похожие на те, что распознают рукописный текст, ищут знакомые паттерны — очертания древнегреческих букв
В начале 2024 года команда участников «Vesuvius Challenge» с помощью своего Ml-алгоритма первой полностью расшифровала более 2.000 слов из одного из свитков (около 5 % текста)
Это оказался неизвестный ранее философский текст о музыке, еде и жизни удовольствий!
Автор (вероятно, эпикурейский философ Филодем) рассуждает, являются ли удовольствия из разных источников (еда, музыка) ограниченными по своей природе
Получаем прямой доступ к мыслям людей, живших 2.000 лет назад, минуя всех переписчиков и интерпретаторов
Ученые надеются прочесть сотни таких свитков, что может перевернуть наше представление об античной философии, литературе и науке
Это великолепный пример симбиоза гуманитарных наук и передовых технологий
Ml становится машиной времени, позволяющей заглянуть в прошлое, которое мы уже считали навсегда потерянным
Историческую правду мы будем узнавать не от людей
GPT-5 впервые прошёл «тест Гёделя» и сумел доказать три крупных гипотезы в области комбинаторной оптимизации, — констатируют исследователи из Университета Хайфы и компании Cisco
В одном случае модель не просто справилась с задачей, но предложила неожиданное решение, опровергнувшее исходную гипотезу
«На решение подобных задач у лучших аспирантов обычно уходит несколько дней
Впервые эксперимент был построен так, чтобы искусственный интеллект столкнулся не с задачами уровня олимпиад, а с открытыми математическими гипотезами»
«Этот результат можно назвать историческим: впервые искусственный интеллект сделал шаг от «обучения математике» к реальному «созданию математики»
Это начало глубокого преобразования научной парадигмы, которое может определять ход исследований уже в 2030-е годы»
Ml становится научным агентом («учёным»), способным делать научные открытия, меняющие мир
В одном случае модель не просто справилась с задачей, но предложила неожиданное решение, опровергнувшее исходную гипотезу
«На решение подобных задач у лучших аспирантов обычно уходит несколько дней
Впервые эксперимент был построен так, чтобы искусственный интеллект столкнулся не с задачами уровня олимпиад, а с открытыми математическими гипотезами»
«Этот результат можно назвать историческим: впервые искусственный интеллект сделал шаг от «обучения математике» к реальному «созданию математики»
Это начало глубокого преобразования научной парадигмы, которое может определять ход исследований уже в 2030-е годы»
Ml становится научным агентом («учёным»), способным делать научные открытия, меняющие мир
❤1
Несколько лет назад директор Института машинного интеллекта Люк Мюэльхаузер попытался подсчитать, насколько изменила благосостояние человечества промышленная революция
Он выделил 6 критериев, по которым можно судить о благосостоянии (и по которым есть данные): ожидаемая продолжительность жизни при рождении, ВВП на душу населения, доля живущих в крайней бедности, количество потребляемых килокалорий человеком в день, технологический уровень и уровень политической свободы
Как он все это подсчитал и где взял данные, описано в его посте
А вывод получился вполне ожидаемым: перемены последних двух столетий в благополучии людей совершенно не сопоставимы по масштабу ни с чем в предыдущей истории
Эти перемены настолько велики, что любые колебания в прошлом человечества для нас малозаметны – с точки зрения человека, живущего на современном уровне благополучия, до промышленной революции человечество пребывало на самом дне по любым показателям уровня жизни
И это мало зависело от исторического периода, все всегда было очень плохо и очень стабильно
Все лучшие события в мировой истории случилось с человечеством за последние пару сотен лет, - и даже мировые войны не затормозили прогресс (вместе с «испанкой» они убили 7 % населения планеты, - бывало, кстати, и похуже, Черная смерть или Чингисхан выкашивали по 10 %)
Самые существенные изменения в образе жизни, благополучии и даже в политических свободах человечеству приносит развитие технологий, а не войны, реформы или революции
Так происходит и сейчас: в 20-е годы повседневную жизнь человечества больше всего меняют нейросети, в десятые – смартфоны, в нулевые – интернет, в 90-е персональные компьютеры, и т.д.
Он выделил 6 критериев, по которым можно судить о благосостоянии (и по которым есть данные): ожидаемая продолжительность жизни при рождении, ВВП на душу населения, доля живущих в крайней бедности, количество потребляемых килокалорий человеком в день, технологический уровень и уровень политической свободы
Как он все это подсчитал и где взял данные, описано в его посте
А вывод получился вполне ожидаемым: перемены последних двух столетий в благополучии людей совершенно не сопоставимы по масштабу ни с чем в предыдущей истории
Эти перемены настолько велики, что любые колебания в прошлом человечества для нас малозаметны – с точки зрения человека, живущего на современном уровне благополучия, до промышленной революции человечество пребывало на самом дне по любым показателям уровня жизни
И это мало зависело от исторического периода, все всегда было очень плохо и очень стабильно
Все лучшие события в мировой истории случилось с человечеством за последние пару сотен лет, - и даже мировые войны не затормозили прогресс (вместе с «испанкой» они убили 7 % населения планеты, - бывало, кстати, и похуже, Черная смерть или Чингисхан выкашивали по 10 %)
Самые существенные изменения в образе жизни, благополучии и даже в политических свободах человечеству приносит развитие технологий, а не войны, реформы или революции
Так происходит и сейчас: в 20-е годы повседневную жизнь человечества больше всего меняют нейросети, в десятые – смартфоны, в нулевые – интернет, в 90-е персональные компьютеры, и т.д.
«По словам французского нейрофизиолога Жан-Пьера Шанжё:
Однако, если математика – тот же язык, как объяснить, что, хотя дети легко учатся родному языку, математика дается многим с таким трудом?
Марджори Флеминг (1803–1811), шотландская девочка-вундеркинд, не дожившая до 9 лет, оставила дневник – более девяти тысяч слов прозы и около пятисот стихотворных строк – где, помимо всего прочего, очаровательно описывает, с какими сложностями сталкиваются дети при изучении математики
В одном месте Марджори жалуется:
«С моей точки зрения, аксиоматический метод (применяющийся, например, в евклидовой геометрии) – выражение способностей головного мозга, связанное с его использованием
Ведь основная характеристика языка – это именно его генеративный характер (Changeux and Connes 1995)»
Однако, если математика – тот же язык, как объяснить, что, хотя дети легко учатся родному языку, математика дается многим с таким трудом?
Марджори Флеминг (1803–1811), шотландская девочка-вундеркинд, не дожившая до 9 лет, оставила дневник – более девяти тысяч слов прозы и около пятисот стихотворных строк – где, помимо всего прочего, очаровательно описывает, с какими сложностями сталкиваются дети при изучении математики
В одном месте Марджори жалуется:
«А теперь я хочу рассказать тебе, дорогой дневник, как страшно и ужасно мучает меня таблица умножения, ты себе и представить не можешь!
Самое кошмарное – это восемь на восемь и семь на семь, это противно самой природе!»
Исследователи из 18 ведущих университетов мира запустили новую открытую платформу aiXiv, предназначенную для размещения научных работ, созданных при участии искусственного интеллекта
Сегодняшний академический ландшафт сталкивается с противоречием: с одной стороны, Ml уже способен генерировать статьи определенного качества, с другой — отсутствует подходящая площадка для их систематической публикации
Tрaдиционные журналы пока принципиально исключают AI-авторство, а arXiv не обеспечивает должного контроля качества
В итоге перспективные идеи и тексты, созданные Ml, часто остаются «невидимыми» для научного сообщества
Как устроен aiXiv
Рецензирование
Внутри платформы работает замкнутый цикл оценки качества
На первом этапе статьи анализируются агентом с RAG-моделями на основе Semantic Scholar API, который подбирает релевантные источники для замечаний
Затем система распределяет работу по подтемам и формирует команды из 3–5 специализированных «рецензентов-агентов»
Итоговое заключение выносится агрегирующим редактором
В тестировании на материалах ICLR 2024/25 aiXiv продемонстрировал точность отбора лучших статей до 81 %, что выше предыдущих решений вроде DeepReview
Доработка статей
Авторы, как и в традиционной публикационной модели, получают замечания, могут исправлять текст, загружать обновленные версии и при необходимости добавлять «response letter»
Это повышает вероятность принятия работы
Финальное решение
Вопрос о публикации ставится на голосование пяти ведущих LLM
Для выхода статьи в открытый доступ требуется минимум три положительных голоса
Принятые материалы получают DOI и становятся доступны для широкой дискуссии
Особенность платформы в том, что публиковаться на ней могут не только Ml, но и люди
Препринт с подробным описанием проекта доступен тут
Сегодняшний академический ландшафт сталкивается с противоречием: с одной стороны, Ml уже способен генерировать статьи определенного качества, с другой — отсутствует подходящая площадка для их систематической публикации
Tрaдиционные журналы пока принципиально исключают AI-авторство, а arXiv не обеспечивает должного контроля качества
В итоге перспективные идеи и тексты, созданные Ml, часто остаются «невидимыми» для научного сообщества
Как устроен aiXiv
Рецензирование
Внутри платформы работает замкнутый цикл оценки качества
На первом этапе статьи анализируются агентом с RAG-моделями на основе Semantic Scholar API, который подбирает релевантные источники для замечаний
Затем система распределяет работу по подтемам и формирует команды из 3–5 специализированных «рецензентов-агентов»
Итоговое заключение выносится агрегирующим редактором
В тестировании на материалах ICLR 2024/25 aiXiv продемонстрировал точность отбора лучших статей до 81 %, что выше предыдущих решений вроде DeepReview
Доработка статей
Авторы, как и в традиционной публикационной модели, получают замечания, могут исправлять текст, загружать обновленные версии и при необходимости добавлять «response letter»
Это повышает вероятность принятия работы
Финальное решение
Вопрос о публикации ставится на голосование пяти ведущих LLM
Для выхода статьи в открытый доступ требуется минимум три положительных голоса
Принятые материалы получают DOI и становятся доступны для широкой дискуссии
Особенность платформы в том, что публиковаться на ней могут не только Ml, но и люди
Препринт с подробным описанием проекта доступен тут
arXiv.org
aiXiv: A Next-Generation Open Access Ecosystem for Scientific...
Recent advances in large language models (LLMs) have enabled AI agents to autonomously generate scientific proposals, conduct experiments, author papers, and perform peer reviews. Yet this flood...
👍1
Anthropic выпустили инструкцию как правильно управлять вниманием и памятью Ml-агентов, чтобы они работали умнее и надёжнее на сложных задачах
Telegram
All about AI, Web 3.0, BCI
New from Anthropic: context engineering for AI agents
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Кожаным мешкам приготовиться: Ml приблизились по качеству работы к отраслевым экспертам
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
Openai
Measuring the performance of our models on real-world tasks
We’re introducing GDPval, a new evaluation that measures model performance on economically valuable, real-world tasks across 44 occupations.
🔥1