Проект «Vesuvius Challenge»
Представьте себе библиотеку в древнеримской вилле в Геркулануме
В 79 году н.э. извержение Везувия накрыло раскаленным пеплом и лавой Помпеи и Геркуланум
Все виллы, хижины крестьян, дворцы, храмы и конечно же библиотеки были полностью уничтожены
Но под слоем пепла и лавы сотни свитков папируса из этих библиотек не сгорели, а обуглились
Они превратились в хрупкие, спрессованные «угольные брикеты», которые невозможно развернуть, не уничтожив
С 2023 года идет проект «Vesuvius Challenge»
Исследователи использовали передовой метод — синхротронная рентгеновская томография
Свитки просвечивают, получая 3D-модель с невероятной детализацией
1. Чернила в этих свитках — это углерод (сажа)
Папирус после обугливания — тоже углерод
Рентген «не видит» разницы
Но Ml обучен находить мельчайшие изменения в текстуре и структуре папируса в тех местах, где было нанесено чернило
Он буквально учится читать по «шрамам», оставленным пером
2. Разворачивает свиток виртуально
Физически развернуть свиток нельзя — он рассыплется
Ml анализирует 3D-модель и цифровыми методами «разворачивает» ее в плоский лист
Это как развернуть скомканный лист бумаги, не прикасаясь к нему
3. Даже после виртуального разворачивания текст представляет собой набор едва заметных трещин и неровностей
Специально обученные нейросети, похожие на те, что распознают рукописный текст, ищут знакомые паттерны — очертания древнегреческих букв
В начале 2024 года команда участников «Vesuvius Challenge» с помощью своего Ml-алгоритма первой полностью расшифровала более 2.000 слов из одного из свитков (около 5 % текста)
Это оказался неизвестный ранее философский текст о музыке, еде и жизни удовольствий!
Автор (вероятно, эпикурейский философ Филодем) рассуждает, являются ли удовольствия из разных источников (еда, музыка) ограниченными по своей природе
Получаем прямой доступ к мыслям людей, живших 2.000 лет назад, минуя всех переписчиков и интерпретаторов
Ученые надеются прочесть сотни таких свитков, что может перевернуть наше представление об античной философии, литературе и науке
Это великолепный пример симбиоза гуманитарных наук и передовых технологий
Ml становится машиной времени, позволяющей заглянуть в прошлое, которое мы уже считали навсегда потерянным
Историческую правду мы будем узнавать не от людей
Представьте себе библиотеку в древнеримской вилле в Геркулануме
В 79 году н.э. извержение Везувия накрыло раскаленным пеплом и лавой Помпеи и Геркуланум
Все виллы, хижины крестьян, дворцы, храмы и конечно же библиотеки были полностью уничтожены
Но под слоем пепла и лавы сотни свитков папируса из этих библиотек не сгорели, а обуглились
Они превратились в хрупкие, спрессованные «угольные брикеты», которые невозможно развернуть, не уничтожив
С 2023 года идет проект «Vesuvius Challenge»
Исследователи использовали передовой метод — синхротронная рентгеновская томография
Свитки просвечивают, получая 3D-модель с невероятной детализацией
1. Чернила в этих свитках — это углерод (сажа)
Папирус после обугливания — тоже углерод
Рентген «не видит» разницы
Но Ml обучен находить мельчайшие изменения в текстуре и структуре папируса в тех местах, где было нанесено чернило
Он буквально учится читать по «шрамам», оставленным пером
2. Разворачивает свиток виртуально
Физически развернуть свиток нельзя — он рассыплется
Ml анализирует 3D-модель и цифровыми методами «разворачивает» ее в плоский лист
Это как развернуть скомканный лист бумаги, не прикасаясь к нему
3. Даже после виртуального разворачивания текст представляет собой набор едва заметных трещин и неровностей
Специально обученные нейросети, похожие на те, что распознают рукописный текст, ищут знакомые паттерны — очертания древнегреческих букв
В начале 2024 года команда участников «Vesuvius Challenge» с помощью своего Ml-алгоритма первой полностью расшифровала более 2.000 слов из одного из свитков (около 5 % текста)
Это оказался неизвестный ранее философский текст о музыке, еде и жизни удовольствий!
Автор (вероятно, эпикурейский философ Филодем) рассуждает, являются ли удовольствия из разных источников (еда, музыка) ограниченными по своей природе
Получаем прямой доступ к мыслям людей, живших 2.000 лет назад, минуя всех переписчиков и интерпретаторов
Ученые надеются прочесть сотни таких свитков, что может перевернуть наше представление об античной философии, литературе и науке
Это великолепный пример симбиоза гуманитарных наук и передовых технологий
Ml становится машиной времени, позволяющей заглянуть в прошлое, которое мы уже считали навсегда потерянным
Историческую правду мы будем узнавать не от людей
GPT-5 впервые прошёл «тест Гёделя» и сумел доказать три крупных гипотезы в области комбинаторной оптимизации, — констатируют исследователи из Университета Хайфы и компании Cisco
В одном случае модель не просто справилась с задачей, но предложила неожиданное решение, опровергнувшее исходную гипотезу
«На решение подобных задач у лучших аспирантов обычно уходит несколько дней
Впервые эксперимент был построен так, чтобы искусственный интеллект столкнулся не с задачами уровня олимпиад, а с открытыми математическими гипотезами»
«Этот результат можно назвать историческим: впервые искусственный интеллект сделал шаг от «обучения математике» к реальному «созданию математики»
Это начало глубокого преобразования научной парадигмы, которое может определять ход исследований уже в 2030-е годы»
Ml становится научным агентом («учёным»), способным делать научные открытия, меняющие мир
В одном случае модель не просто справилась с задачей, но предложила неожиданное решение, опровергнувшее исходную гипотезу
«На решение подобных задач у лучших аспирантов обычно уходит несколько дней
Впервые эксперимент был построен так, чтобы искусственный интеллект столкнулся не с задачами уровня олимпиад, а с открытыми математическими гипотезами»
«Этот результат можно назвать историческим: впервые искусственный интеллект сделал шаг от «обучения математике» к реальному «созданию математики»
Это начало глубокого преобразования научной парадигмы, которое может определять ход исследований уже в 2030-е годы»
Ml становится научным агентом («учёным»), способным делать научные открытия, меняющие мир
❤1
Несколько лет назад директор Института машинного интеллекта Люк Мюэльхаузер попытался подсчитать, насколько изменила благосостояние человечества промышленная революция
Он выделил 6 критериев, по которым можно судить о благосостоянии (и по которым есть данные): ожидаемая продолжительность жизни при рождении, ВВП на душу населения, доля живущих в крайней бедности, количество потребляемых килокалорий человеком в день, технологический уровень и уровень политической свободы
Как он все это подсчитал и где взял данные, описано в его посте
А вывод получился вполне ожидаемым: перемены последних двух столетий в благополучии людей совершенно не сопоставимы по масштабу ни с чем в предыдущей истории
Эти перемены настолько велики, что любые колебания в прошлом человечества для нас малозаметны – с точки зрения человека, живущего на современном уровне благополучия, до промышленной революции человечество пребывало на самом дне по любым показателям уровня жизни
И это мало зависело от исторического периода, все всегда было очень плохо и очень стабильно
Все лучшие события в мировой истории случилось с человечеством за последние пару сотен лет, - и даже мировые войны не затормозили прогресс (вместе с «испанкой» они убили 7 % населения планеты, - бывало, кстати, и похуже, Черная смерть или Чингисхан выкашивали по 10 %)
Самые существенные изменения в образе жизни, благополучии и даже в политических свободах человечеству приносит развитие технологий, а не войны, реформы или революции
Так происходит и сейчас: в 20-е годы повседневную жизнь человечества больше всего меняют нейросети, в десятые – смартфоны, в нулевые – интернет, в 90-е персональные компьютеры, и т.д.
Он выделил 6 критериев, по которым можно судить о благосостоянии (и по которым есть данные): ожидаемая продолжительность жизни при рождении, ВВП на душу населения, доля живущих в крайней бедности, количество потребляемых килокалорий человеком в день, технологический уровень и уровень политической свободы
Как он все это подсчитал и где взял данные, описано в его посте
А вывод получился вполне ожидаемым: перемены последних двух столетий в благополучии людей совершенно не сопоставимы по масштабу ни с чем в предыдущей истории
Эти перемены настолько велики, что любые колебания в прошлом человечества для нас малозаметны – с точки зрения человека, живущего на современном уровне благополучия, до промышленной революции человечество пребывало на самом дне по любым показателям уровня жизни
И это мало зависело от исторического периода, все всегда было очень плохо и очень стабильно
Все лучшие события в мировой истории случилось с человечеством за последние пару сотен лет, - и даже мировые войны не затормозили прогресс (вместе с «испанкой» они убили 7 % населения планеты, - бывало, кстати, и похуже, Черная смерть или Чингисхан выкашивали по 10 %)
Самые существенные изменения в образе жизни, благополучии и даже в политических свободах человечеству приносит развитие технологий, а не войны, реформы или революции
Так происходит и сейчас: в 20-е годы повседневную жизнь человечества больше всего меняют нейросети, в десятые – смартфоны, в нулевые – интернет, в 90-е персональные компьютеры, и т.д.
«По словам французского нейрофизиолога Жан-Пьера Шанжё:
Однако, если математика – тот же язык, как объяснить, что, хотя дети легко учатся родному языку, математика дается многим с таким трудом?
Марджори Флеминг (1803–1811), шотландская девочка-вундеркинд, не дожившая до 9 лет, оставила дневник – более девяти тысяч слов прозы и около пятисот стихотворных строк – где, помимо всего прочего, очаровательно описывает, с какими сложностями сталкиваются дети при изучении математики
В одном месте Марджори жалуется:
«С моей точки зрения, аксиоматический метод (применяющийся, например, в евклидовой геометрии) – выражение способностей головного мозга, связанное с его использованием
Ведь основная характеристика языка – это именно его генеративный характер (Changeux and Connes 1995)»
Однако, если математика – тот же язык, как объяснить, что, хотя дети легко учатся родному языку, математика дается многим с таким трудом?
Марджори Флеминг (1803–1811), шотландская девочка-вундеркинд, не дожившая до 9 лет, оставила дневник – более девяти тысяч слов прозы и около пятисот стихотворных строк – где, помимо всего прочего, очаровательно описывает, с какими сложностями сталкиваются дети при изучении математики
В одном месте Марджори жалуется:
«А теперь я хочу рассказать тебе, дорогой дневник, как страшно и ужасно мучает меня таблица умножения, ты себе и представить не можешь!
Самое кошмарное – это восемь на восемь и семь на семь, это противно самой природе!»
Исследователи из 18 ведущих университетов мира запустили новую открытую платформу aiXiv, предназначенную для размещения научных работ, созданных при участии искусственного интеллекта
Сегодняшний академический ландшафт сталкивается с противоречием: с одной стороны, Ml уже способен генерировать статьи определенного качества, с другой — отсутствует подходящая площадка для их систематической публикации
Tрaдиционные журналы пока принципиально исключают AI-авторство, а arXiv не обеспечивает должного контроля качества
В итоге перспективные идеи и тексты, созданные Ml, часто остаются «невидимыми» для научного сообщества
Как устроен aiXiv
Рецензирование
Внутри платформы работает замкнутый цикл оценки качества
На первом этапе статьи анализируются агентом с RAG-моделями на основе Semantic Scholar API, который подбирает релевантные источники для замечаний
Затем система распределяет работу по подтемам и формирует команды из 3–5 специализированных «рецензентов-агентов»
Итоговое заключение выносится агрегирующим редактором
В тестировании на материалах ICLR 2024/25 aiXiv продемонстрировал точность отбора лучших статей до 81 %, что выше предыдущих решений вроде DeepReview
Доработка статей
Авторы, как и в традиционной публикационной модели, получают замечания, могут исправлять текст, загружать обновленные версии и при необходимости добавлять «response letter»
Это повышает вероятность принятия работы
Финальное решение
Вопрос о публикации ставится на голосование пяти ведущих LLM
Для выхода статьи в открытый доступ требуется минимум три положительных голоса
Принятые материалы получают DOI и становятся доступны для широкой дискуссии
Особенность платформы в том, что публиковаться на ней могут не только Ml, но и люди
Препринт с подробным описанием проекта доступен тут
Сегодняшний академический ландшафт сталкивается с противоречием: с одной стороны, Ml уже способен генерировать статьи определенного качества, с другой — отсутствует подходящая площадка для их систематической публикации
Tрaдиционные журналы пока принципиально исключают AI-авторство, а arXiv не обеспечивает должного контроля качества
В итоге перспективные идеи и тексты, созданные Ml, часто остаются «невидимыми» для научного сообщества
Как устроен aiXiv
Рецензирование
Внутри платформы работает замкнутый цикл оценки качества
На первом этапе статьи анализируются агентом с RAG-моделями на основе Semantic Scholar API, который подбирает релевантные источники для замечаний
Затем система распределяет работу по подтемам и формирует команды из 3–5 специализированных «рецензентов-агентов»
Итоговое заключение выносится агрегирующим редактором
В тестировании на материалах ICLR 2024/25 aiXiv продемонстрировал точность отбора лучших статей до 81 %, что выше предыдущих решений вроде DeepReview
Доработка статей
Авторы, как и в традиционной публикационной модели, получают замечания, могут исправлять текст, загружать обновленные версии и при необходимости добавлять «response letter»
Это повышает вероятность принятия работы
Финальное решение
Вопрос о публикации ставится на голосование пяти ведущих LLM
Для выхода статьи в открытый доступ требуется минимум три положительных голоса
Принятые материалы получают DOI и становятся доступны для широкой дискуссии
Особенность платформы в том, что публиковаться на ней могут не только Ml, но и люди
Препринт с подробным описанием проекта доступен тут
arXiv.org
aiXiv: A Next-Generation Open Access Ecosystem for Scientific...
Recent advances in large language models (LLMs) have enabled AI agents to autonomously generate scientific proposals, conduct experiments, author papers, and perform peer reviews. Yet this flood...
👍1
Anthropic выпустили инструкцию как правильно управлять вниманием и памятью Ml-агентов, чтобы они работали умнее и надёжнее на сложных задачах
Telegram
All about AI, Web 3.0, BCI
New from Anthropic: context engineering for AI agents
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Кожаным мешкам приготовиться: Ml приблизились по качеству работы к отраслевым экспертам
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
Openai
Measuring the performance of our models on real-world tasks
We’re introducing GDPval, a new evaluation that measures model performance on economically valuable, real-world tasks across 44 occupations.
🔥1