Anthropic выпустили инструкцию как правильно управлять вниманием и памятью Ml-агентов, чтобы они работали умнее и надёжнее на сложных задачах
Telegram
All about AI, Web 3.0, BCI
New from Anthropic: context engineering for AI agents
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Кожаным мешкам приготовиться: Ml приблизились по качеству работы к отраслевым экспертам
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
Openai
Measuring the performance of our models on real-world tasks
We’re introducing GDPval, a new evaluation that measures model performance on economically valuable, real-world tasks across 44 occupations.
🔥1
Про Ml
Лоран Лафорг
(перевод с французского)
"Один человек из аудитории спросил меня, являются ли математики скорее «изобретателями» — то есть творцами нового мира, созданного их воображением,— или же «первооткрывателями» предсуществующей реальности
Я ответил, что, как и почти все математики, я скорее склоняюсь к платонизму и воспринимаю математику как реальность, независимую от нас, которая существовала в нас, но была сокрыта, укрыта покровом, и наша задача — обнажить её
Однако, поразмыслив, я прихожу к выводу, что для характеристики деятельности математика (или, в более широком смысле, учёного, ищущего истину) существует слово более точное и куда более глубокое, чем «изобретатель» или «первооткрыватель», слово также полностью библейское, которое появляется в конце длинного отрывка из Гротендика, процитированного мною: математик — это слуга
Слуга — это тот, кто заботится о чём-то ином, а не о себе: так же и математик, который в моменты погружения в математику теряет даже сознание собственного «я»
Слуга не решает: математик никогда не решает, что является истинным, но постоянно натыкается на сопротивление истины
Он прилагает усилия к истине, но не может её исказить, кроме как немедленно введя себя в заблуждение; он может лишь прилепиться к ней, повиноваться
Слуга — это один из многих, и более того, он, по слову Христа, «раб неключимый»: то, что он делает, другой мог бы сделать на его месте
Точно так же математик чувствует себя крошечным перед лицом огромной традиции математики, лишь ничтожную часть которой он знает и которую ему было бы не под силу выстроить самостоятельно
Лучшее, на что он может надеяться, — это продвинуть её чуть-чуть вперёд, в то же время осознавая, что его работа будет быстро превзойдена, что многие другие способны сделать то же самое не хуже него и что они неизбежно сделают это однажды, если он сам не приложит к этому руку
Он также знает, что даже самые сложные проблемы покажутся лёгкими и перестанут впечатлять, как только будут решены в первый раз, так что любой прогресс, которого он добивается, растворяет, стирает и заставляет забыть о трудности, которую пришлось преодолеть
Слуга не говорит, он слушает
Математик должен замолкнуть внутренне и прислушаться, напрячь своё существо, чтобы услышать столь тонкий и деликатный голос вещей, каковы они есть, и позволить руке бежать под их диктовку
Как это ни странно, но именно становясь слугой математических реальностей и их голосом, их переводчиком, математик реализует себя
Величайшие математические тексты одновременно и самые безличные — в том смысле, что каждый, читая их, испытывает глубокую эмоцию, видя, как из тумана невысказанного, строка за строкой, появляется нечто, что он всегда в себе носил, что жаждало быть высказанным и до сих пор не могло обрести выражения, — и самые личные — в том смысле, что сразу узнаёшь почерк их автора"
Лоран Лафорг
(перевод с французского)
Себ Крие из DeepMind о том, как Ml-агенты могут изменить общество и государство
Эту статью Себ Крие написал от собственного имени, а не Google, где он работает над разработкой политики
Себ предлагает концепцию, что Ml-агенты могут радикально снизить "транзакционные издержки": затраты на поиск, переговоры и исполнение договорённостей, которые мешают людям напрямую договариваться друг с другом, вместо того, чтобы полагаться на государственное регулирование
Как это работает на практике? Представьте себе умного цифрового помощника, который:
• знает все ваши предпочтения в мельчайших деталях
• может мгновенно вести переговоры с миллионами других агентов
• находит решения, выгодные для всех сторон
Ключевые преимущества системы:
Подотчётность:
Все сделки прозрачны и зафиксированы
Коллективная сила:
Тысячи людей могут мгновенно объединиться через своих агентов для переговоров
Гибкость:
Правила адаптируются в реальном времени, а не ждут решения чиновников
Государство не исчезает, но меняет роль: вместо "центрального планировщика" оно становится "гарантом правил" — обеспечивает права собственности, исполнение контрактов и защиту от насилия
Себ предлагает модель "матрёшки":
Внешний слой: Закон
Средний слой: Рыночная конкуренция между провайдерами агентов
Внутренний слой: Личная лояльность агента к пользователю
Эту статью Себ Крие написал от собственного имени, а не Google, где он работает над разработкой политики
Себ предлагает концепцию, что Ml-агенты могут радикально снизить "транзакционные издержки": затраты на поиск, переговоры и исполнение договорённостей, которые мешают людям напрямую договариваться друг с другом, вместо того, чтобы полагаться на государственное регулирование
Как это работает на практике? Представьте себе умного цифрового помощника, который:
• знает все ваши предпочтения в мельчайших деталях
• может мгновенно вести переговоры с миллионами других агентов
• находит решения, выгодные для всех сторон
Ключевые преимущества системы:
Подотчётность:
Все сделки прозрачны и зафиксированы
Коллективная сила:
Тысячи людей могут мгновенно объединиться через своих агентов для переговоров
Гибкость:
Правила адаптируются в реальном времени, а не ждут решения чиновников
Государство не исчезает, но меняет роль: вместо "центрального планировщика" оно становится "гарантом правил" — обеспечивает права собственности, исполнение контрактов и защиту от насилия
Себ предлагает модель "матрёшки":
Внешний слой: Закон
Средний слой: Рыночная конкуренция между провайдерами агентов
Внутренний слой: Личная лояльность агента к пользователю
blog.cosmos-institute.org
Coasean Bargaining at Scale
Decentralization, coordination, and co-existence with AGI
9 октября в МЦНМО на семинаре учителей математики А. Заславский, В. Конышев, С. Кузнецов, Ю. Нагуманов будут рассказывать про новые методы в олимпиадной геометрии
(как всегда трансляции не будет)
mccme.ru/nir/seminar/
«В последнее время в олимпиадной геометрии наряду с традиционными стали широко использоваться такие инструменты, как движение точек, кубические кривые, теорема Дезарга об инволюциях и др.
В докладе будет рассказано об этих методах и разобран ряд сложных задач, предлагаемых на недавних олимпиадах»
(как всегда трансляции не будет)
mccme.ru/nir/seminar/
Теорема о бесконечных обезьянах нравится нематематикам — если бесконечно долго колотить по клавиатуре, то когда-нибудь в бесконечности, можно напечатать и "Евгений Онегин"
Сложнее нематематикам объяснить другое…
Пока он ждут, что обезъяна напечатает "Евгения Онегина" целиком без ошибок, она сначала миллионы раз напечатает его с ошибкой всего в одном знаке, и квинтиллионы раз — с двумя неправильно написанными знаками
Сложнее нематематикам объяснить другое…
Пока он ждут, что обезъяна напечатает "Евгения Онегина" целиком без ошибок, она сначала миллионы раз напечатает его с ошибкой всего в одном знаке, и квинтиллионы раз — с двумя неправильно написанными знаками
Доминирование в принятии решений зависит от скорости выполнения цикла понимания, визуализации, руководства и оценки
При этом сегодня недостатка информации нет, есть ее избыток и это проблема
Поиск и проверка этой информации вручную отнимают драгоценное время
Доминирование в принятии решений — способность понимать, принимать решения и действовать быстрее
Ml обладает потенциалом трансформации
Ml даёт преимущество: обрабатывая огромные объёмы данных, выдавая рекомендации и проверяя предположения, визуализация может быть достигнута быстрее и с большей чёткостью, ускоряя планирование и обеспечивая превосходство в принятии решений
Режиссура — это процесс, где понимание превращается в действие
Речь идёт о решительном принятии решений, адаптации к давлению и превращении возможностей в результаты
Визуализация помогает определить варианты, а режиссура превращает понимание в результаты
И тут Ml может оказать серьезную помощь
Сегодня меняется не важность цикла, а скорость, с которой он должен быть выполнен
Противники уже используют Ml и цифровые сети для ускорения собственных процессов принятия решений, сжимая сроки и повышая ставки
https://smallwarsjournal.com/2025/10/03/agentic-ai-decision-dominance/
При этом сегодня недостатка информации нет, есть ее избыток и это проблема
Поиск и проверка этой информации вручную отнимают драгоценное время
Доминирование в принятии решений — способность понимать, принимать решения и действовать быстрее
Ml обладает потенциалом трансформации
Ml даёт преимущество: обрабатывая огромные объёмы данных, выдавая рекомендации и проверяя предположения, визуализация может быть достигнута быстрее и с большей чёткостью, ускоряя планирование и обеспечивая превосходство в принятии решений
Режиссура — это процесс, где понимание превращается в действие
Речь идёт о решительном принятии решений, адаптации к давлению и превращении возможностей в результаты
Визуализация помогает определить варианты, а режиссура превращает понимание в результаты
И тут Ml может оказать серьезную помощь
Сегодня меняется не важность цикла, а скорость, с которой он должен быть выполнен
Противники уже используют Ml и цифровые сети для ускорения собственных процессов принятия решений, сжимая сроки и повышая ставки
https://smallwarsjournal.com/2025/10/03/agentic-ai-decision-dominance/
Small Wars Journal by Arizona State University
Decision Dominance in the Age of Agentic AI | Small Wars Journal by Arizona State University
Agentic AI transforms decision dominance, enabling commanders to outpace adversaries with faster, clearer decisions.