Google представил Gemini Robotics 1.5 — первую модель мышления для воплощенного рассуждения, делающую роботов умнее и автономнее
Что умеет:
- Анализировать сложные ситуации
- Планировать многоэтапные задачи
- Использовать поисковик и цифровые инструменты Google
- Естественно взаимодействовать с людьми
- Адаптироваться к изменениям
Она имеет двухуровневую архитектуру:
1. Gemini Robotics-ER 1.5 ("мозг"): координирует, планирует, взаимодействует
2. Gemini Robotics 1.5 ("исполнитель"): выполняет точные действия
Модель уникальна тем, что:
- "Думает" перед действием, создавая план на естественном языке
- Работает с разными роботами без специализации
- Доступна через Gemini API
Самые продвинутые конкуренты, такие как Physical Intelligence, Figure, 1X, Boston Dynamics, Tesla, NVIDIA отстают так как:
- Нет интеграции с веб-поиском
- Нет продвинутого планирования и рассуждений
- Фокус на промышленности, ловкости или массовом производстве
Что умеет:
- Анализировать сложные ситуации
- Планировать многоэтапные задачи
- Использовать поисковик и цифровые инструменты Google
- Естественно взаимодействовать с людьми
- Адаптироваться к изменениям
Она имеет двухуровневую архитектуру:
1. Gemini Robotics-ER 1.5 ("мозг"): координирует, планирует, взаимодействует
2. Gemini Robotics 1.5 ("исполнитель"): выполняет точные действия
Модель уникальна тем, что:
- "Думает" перед действием, создавая план на естественном языке
- Работает с разными роботами без специализации
- Доступна через Gemini API
Самые продвинутые конкуренты, такие как Physical Intelligence, Figure, 1X, Boston Dynamics, Tesla, NVIDIA отстают так как:
- Нет интеграции с веб-поиском
- Нет продвинутого планирования и рассуждений
- Фокус на промышленности, ловкости или массовом производстве
Google DeepMind
Gemini Robotics 1.5 brings AI agents into the physical world
We’re powering an era of physical agents — enabling robots to perceive, plan, think, use tools and act to better solve complex multi-step tasks.
Стартап с лицензией FDA говорит, что человеческий опыт теперь можно программировать.
Mindstate Design Labs создали ИИ-платформу Osmanthus, которая:
- Анализирует паттерны активности нейромедиаторов для каждого ментального состояния
- Использует данные более чем 70.000 психоделических опытов
- Применяет машинное обучение, статистику и семантические модели
- Создает карту модульной системы воздействия различных психоделиков
Mindstate Design Labs объявил о завершении 1-ого испытания на 52 здоровых добровольцах их нейротехнологической платформы для программирования ментальных состояний на молекулярном уровне
Компания получила разрешение FDA и европейского регулятора на клинические испытания препарата MSD-001, который создает эмоцию, усиливающую эстетическое восприятие без галлюцинаций
По сути, это
модифицированная версия психоделика 5-MeO-MiPT
Основная идея - использовать это вещество как "базу", к которой можно добавлять другие компоненты для получения специфических эффектов
Интересный проект, но команда недооценивает реальные ограничения:
1. Сложность мозга
2. Риски комбинаций
Вещества, безопасные по отдельности, могут давать непредсказуемые эффекты при сочетании
3. Люди очень по-разному реагируют на психоактивные вещества
Универсальных "эмоций в бутылке" может и не получиться
Mindstate Design Labs создали ИИ-платформу Osmanthus, которая:
- Анализирует паттерны активности нейромедиаторов для каждого ментального состояния
- Использует данные более чем 70.000 психоделических опытов
- Применяет машинное обучение, статистику и семантические модели
- Создает карту модульной системы воздействия различных психоделиков
Mindstate Design Labs объявил о завершении 1-ого испытания на 52 здоровых добровольцах их нейротехнологической платформы для программирования ментальных состояний на молекулярном уровне
Компания получила разрешение FDA и европейского регулятора на клинические испытания препарата MSD-001, который создает эмоцию, усиливающую эстетическое восприятие без галлюцинаций
По сути, это
модифицированная версия психоделика 5-MeO-MiPT
Основная идея - использовать это вещество как "базу", к которой можно добавлять другие компоненты для получения специфических эффектов
Интересный проект, но команда недооценивает реальные ограничения:
1. Сложность мозга
2. Риски комбинаций
Вещества, безопасные по отдельности, могут давать непредсказуемые эффекты при сочетании
3. Люди очень по-разному реагируют на психоактивные вещества
Универсальных "эмоций в бутылке" может и не получиться
WIRED
A Startup Used AI to Make a Psychedelic Without the Trip
Mindstate Design Labs, backed by Silicon Valley power players, has created what its CEO calls “the least psychedelic psychedelic that’s psychoactive.”
🔥1
OpenAI запускает функцию автоматических сводок ChatGPT Pulse, которая создает персонализированные отчеты для пользователей в автоматическом режиме
Сервис генерирует от 5 до 10 брифингов и призван побудить пользователей проверять ChatGPT с утра вместо соцсетей или новостных приложений
Pulse стала частью изменения стратегии потребительских продуктов OpenAI
Компания переходит от реактивных систем к проактивным решениям, работающим без прямых запросов пользователя
Похожий подход используют ChatGPT Agent и Codex, превращая ChatGPT из чат-бота в полноценного ассистента
https://mltimes.ai/openai-zapuskaet-funkcziyu-avtomaticheskih-svodok-chatgpt-pulse/
Сервис генерирует от 5 до 10 брифингов и призван побудить пользователей проверять ChatGPT с утра вместо соцсетей или новостных приложений
Pulse стала частью изменения стратегии потребительских продуктов OpenAI
Компания переходит от реактивных систем к проактивным решениям, работающим без прямых запросов пользователя
Похожий подход используют ChatGPT Agent и Codex, превращая ChatGPT из чат-бота в полноценного ассистента
https://mltimes.ai/openai-zapuskaet-funkcziyu-avtomaticheskih-svodok-chatgpt-pulse/
MLTimes
OpenAI запускает функцию автоматических сводок ChatGPT Pulse - MLTimes
С днём глобальной квадратуры ума!
Иногда календарь подкидывает совпадения, от которых мурашки бегут по коже у свидетелей плоской земли и корня «РА»
27 сентября — именно такой день
Почему?
Если записать дату в Американском формате (09/27/2025), получится число 9.272.025
Это точный квадрат:
3045 × 3045 = 9.272.025
А если записать её по-европейски (27/09/2025), мы получаем 27.092.025
И это тоже квадрат:
5205 × 5205 = 27 092 025
По другим чертогам записывать не станем, что б не отрыть ворота в преисподнюю
Такое совпадение называется «глобальная квадратная дата» — и за весь XXI век оно случается всего 8 раз на дню
Для сравнения: «голубая луна» бывает раз в 2–3 года, а солнечное затмение где-то на Земле — каждые полгода
Следующая глобальная квадратная дата — только 1 января 2036 года, но там обе записи дают одно и то же число
Поэтому 27 сентября 2025-го считается самой красивой датой всех времен и народов!
И да, не забывайте, сам 2025 год — тоже квадратный:
2025 = 45 × 45
А ещё это сумма кубов всех цифр от 0 до 9
Так что сегодня отмечаем, 27 сентября 2025-го мы будем жить в чистой математической гармонии, Во истину, Аминь!
Иногда календарь подкидывает совпадения, от которых мурашки бегут по коже у свидетелей плоской земли и корня «РА»
27 сентября — именно такой день
Почему?
Если записать дату в Американском формате (09/27/2025), получится число 9.272.025
Это точный квадрат:
3045 × 3045 = 9.272.025
А если записать её по-европейски (27/09/2025), мы получаем 27.092.025
И это тоже квадрат:
5205 × 5205 = 27 092 025
По другим чертогам записывать не станем, что б не отрыть ворота в преисподнюю
Такое совпадение называется «глобальная квадратная дата» — и за весь XXI век оно случается всего 8 раз на дню
Для сравнения: «голубая луна» бывает раз в 2–3 года, а солнечное затмение где-то на Земле — каждые полгода
Следующая глобальная квадратная дата — только 1 января 2036 года, но там обе записи дают одно и то же число
Поэтому 27 сентября 2025-го считается самой красивой датой всех времен и народов!
И да, не забывайте, сам 2025 год — тоже квадратный:
2025 = 45 × 45
А ещё это сумма кубов всех цифр от 0 до 9
Так что сегодня отмечаем, 27 сентября 2025-го мы будем жить в чистой математической гармонии, Во истину, Аминь!
Among Us раскрыл характеры Ml-моделей
• Kimi K2 — легко поддается давлению
• Qwen 3 — ленится на рутинных задачах
• Gemini 2.5 Pro — защищает даже сомнительные идеи
• GPT-5 — врет убедительнее всех
• Claude Sonnet 4 — остается честным, даже играя за предателя
• Kimi K2 — легко поддается давлению
• Qwen 3 — ленится на рутинных задачах
• Gemini 2.5 Pro — защищает даже сомнительные идеи
• GPT-5 — врет убедительнее всех
• Claude Sonnet 4 — остается честным, даже играя за предателя
Пока академические круги увлечены алгоритмами Шора и Гровера, финансовые гиганты уже вовсю тестируют квантовые алгоритмы для решения практических задач
Квантовый приближённый алгоритм оптимизации (QAOA) стал первым рабочим инструментом для комбинаторной оптимизации — той самой области, где финансы зарабатывают миллиарды, но где классические компьютеры часто сдаются
Суть QAOA: когда перебор невозможен
Большинство финансовых задач — это оптимизационные кошмары
Нужно выбрать лучшую комбинацию из тысяч активов, учесть сотни ограничений, минимизировать риски и максимизировать прибыль
Классически это NP-сложные задачи: время решения растёт экспоненциально с размером портфеля
Алгоритм QAOA работает по гибридной схеме: квантовый процессор готовит суперпозицию всех возможных решений, а классический оптимизатор корректирует параметры, стремясь увеличить вероятность найти оптимальное решение
Алгоритм итеративно чередует два типа унитарных операций:
1. Оператор задачи, кодирующий функцию стоимости
2. Оператор смешивания, исследующий пространство решений
Математически QAOA минимизирует гамильтониан вида H = ∑ᵢⱼ Jᵢⱼσᵢσⱼ + ∑ᵢ hᵢσᵢ, где коэффициенты кодируют веса рёбер в графе оптимизации
Goldman Sachs: оптимизация портфелей
Компания Goldman Sachs с 2019 года экспериментирует с QAOA для задач управления активами
Их квантовая команда под руководством Stefan Woerner разработала алгоритмы для:
Выбора портфеля: классическая задача Марковица — найти оптимальное соотношение активов при заданном уровне риска — превращается в задачу квадратичной оптимизации
QAOA на 20 кубитах IBM показал результаты, сопоставимые с классическими решателями для портфелей из 100+ активов
Арбитража пар: поиск статистических арбитражных возможностей между коррелированными активами
Квантовый алгоритм выявляет скрытые паттерны в исторических данных, которые пропускают традиционные методы
Управление рисками: алгоритм QAOA помогает оптимизировать параметр VaR (Value at Risk) и стресс-тестирование портфелей в режиме реального времени
J. P. Morgan: производные инструменты и кредитование
Крупнейший американский банк инвестирует в квантовые технологии через собственную лабораторию JPMorgan Chase Institute
Их достижения:
Ценообразование опционов: команда Marco Pistoia адаптировала QAOA для расчёта цен сложных деривативов методом Монте-Карло
Квантовая версия показала квадратичное ускорение по сравнению с классическими симуляциями
Кредитный риск:
QAOA оптимизирует кредитные портфели, балансируя доходность и вероятность дефолта
Алгоритм учитывает корреляции между заёмщиками и макроэкономические факторы
Высокочастотная торговля: экспериментальные алгоритмы для оптимизации исполнения крупных ордеров с минимизацией воздействия рынка
D-Wave: квантовый отжиг в действии
Канадская D-Wave Systems пошла альтернативным путём — вместо универсальных квантовых компьютеров они создают специализированные машины для квантового отжига (quantum annealing)
Их процессоры с тысячами кубитов уже решают реальные оптимизационные задачи:
Volkswagen Financial Services: используют D-Wave для оптимизации лизинговых портфелей и управления рисками автокредитования
Система анализирует миллионы сценариев и находит оптимальные стратегии ценообразования
Recruit Holdings (Япония): применяют квантовый отжиг для персонализации финансовых продуктов и кредитного скоринга
Алгоритм обрабатывает поведенческие данные клиентов и оптимизирует предложения в реальном времени
Денверский аэропорт и Lockheed Martin: хотя и не финансовые компании, но их кейсы показательны
D-Wave оптимизирует логистику и планирование ресурсов — задачи, аналогичные финансовому риск-менеджменту
Квантовый приближённый алгоритм оптимизации (QAOA) стал первым рабочим инструментом для комбинаторной оптимизации — той самой области, где финансы зарабатывают миллиарды, но где классические компьютеры часто сдаются
Суть QAOA: когда перебор невозможен
Большинство финансовых задач — это оптимизационные кошмары
Нужно выбрать лучшую комбинацию из тысяч активов, учесть сотни ограничений, минимизировать риски и максимизировать прибыль
Классически это NP-сложные задачи: время решения растёт экспоненциально с размером портфеля
Алгоритм QAOA работает по гибридной схеме: квантовый процессор готовит суперпозицию всех возможных решений, а классический оптимизатор корректирует параметры, стремясь увеличить вероятность найти оптимальное решение
Алгоритм итеративно чередует два типа унитарных операций:
1. Оператор задачи, кодирующий функцию стоимости
2. Оператор смешивания, исследующий пространство решений
Математически QAOA минимизирует гамильтониан вида H = ∑ᵢⱼ Jᵢⱼσᵢσⱼ + ∑ᵢ hᵢσᵢ, где коэффициенты кодируют веса рёбер в графе оптимизации
Goldman Sachs: оптимизация портфелей
Компания Goldman Sachs с 2019 года экспериментирует с QAOA для задач управления активами
Их квантовая команда под руководством Stefan Woerner разработала алгоритмы для:
Выбора портфеля: классическая задача Марковица — найти оптимальное соотношение активов при заданном уровне риска — превращается в задачу квадратичной оптимизации
QAOA на 20 кубитах IBM показал результаты, сопоставимые с классическими решателями для портфелей из 100+ активов
Арбитража пар: поиск статистических арбитражных возможностей между коррелированными активами
Квантовый алгоритм выявляет скрытые паттерны в исторических данных, которые пропускают традиционные методы
Управление рисками: алгоритм QAOA помогает оптимизировать параметр VaR (Value at Risk) и стресс-тестирование портфелей в режиме реального времени
J. P. Morgan: производные инструменты и кредитование
Крупнейший американский банк инвестирует в квантовые технологии через собственную лабораторию JPMorgan Chase Institute
Их достижения:
Ценообразование опционов: команда Marco Pistoia адаптировала QAOA для расчёта цен сложных деривативов методом Монте-Карло
Квантовая версия показала квадратичное ускорение по сравнению с классическими симуляциями
Кредитный риск:
QAOA оптимизирует кредитные портфели, балансируя доходность и вероятность дефолта
Алгоритм учитывает корреляции между заёмщиками и макроэкономические факторы
Высокочастотная торговля: экспериментальные алгоритмы для оптимизации исполнения крупных ордеров с минимизацией воздействия рынка
D-Wave: квантовый отжиг в действии
Канадская D-Wave Systems пошла альтернативным путём — вместо универсальных квантовых компьютеров они создают специализированные машины для квантового отжига (quantum annealing)
Их процессоры с тысячами кубитов уже решают реальные оптимизационные задачи:
Volkswagen Financial Services: используют D-Wave для оптимизации лизинговых портфелей и управления рисками автокредитования
Система анализирует миллионы сценариев и находит оптимальные стратегии ценообразования
Recruit Holdings (Япония): применяют квантовый отжиг для персонализации финансовых продуктов и кредитного скоринга
Алгоритм обрабатывает поведенческие данные клиентов и оптимизирует предложения в реальном времени
Денверский аэропорт и Lockheed Martin: хотя и не финансовые компании, но их кейсы показательны
D-Wave оптимизирует логистику и планирование ресурсов — задачи, аналогичные финансовому риск-менеджменту
Джулиан Шритвизер, который был соавтором AlphaGo, AlphaZero и MuZero, а теперь — исследователь в Anthropic, написал в своем блоге анализ того, что происходит в Ml
Люди замечают, что хотя Ml теперь может писать программы, разрабатывать веб-сайты и тд, он все еще часто совершает ошибки, а затем почему-то делают вывод, что Ml никогда не сможет выполнять эти задачи на человеческом уровне или окажет лишь незначительное влияние
Хотя всего несколько лет назад сама возможность Ml делать эти вещи была полной научной фантастикой
Данные показывают устойчивый рост:
1. В программировании: модели уже могут автономно работать над задачами 2+ часа
2. В разных профессиях: новейшие модели почти достигли уровня экспертов-людей с 14-летним опытом
Конкретные прогнозы на ближайшие годы:
• К середине 2026 года Ml сможет автономно работать полный рабочий день 8 часов
• К концу 2026 года хотя бы одна модель достигнет уровня экспертов во многих профессиях
• К концу 2027 - Ml начнет регулярно превосходить экспертов
Люди замечают, что хотя Ml теперь может писать программы, разрабатывать веб-сайты и тд, он все еще часто совершает ошибки, а затем почему-то делают вывод, что Ml никогда не сможет выполнять эти задачи на человеческом уровне или окажет лишь незначительное влияние
Хотя всего несколько лет назад сама возможность Ml делать эти вещи была полной научной фантастикой
Данные показывают устойчивый рост:
1. В программировании: модели уже могут автономно работать над задачами 2+ часа
2. В разных профессиях: новейшие модели почти достигли уровня экспертов-людей с 14-летним опытом
Конкретные прогнозы на ближайшие годы:
• К середине 2026 года Ml сможет автономно работать полный рабочий день 8 часов
• К концу 2026 года хотя бы одна модель достигнет уровня экспертов во многих профессиях
• К концу 2027 - Ml начнет регулярно превосходить экспертов
www.julian.ac
Failing to Understand the Exponential, Again
Posts and writings by Julian Schrittwieser
Музей английской сельской жизни выложил архивное фото овец на мосту и подписал: "Мы тоже задействуем LLMs!"
Игра слов работает идеально, LLMs в мире технологий это Large Language Models, а на фото буквально Large Lamb-bridge Models
Музей из Рединга известен подобными каламбурами
Прославились они благодаря соцсетям, где постят архивные фото с забавными подписями
К слову, в комментариях пользователи тоже отличились
Предложили:
• Large-scale Lamb Movement
• log-bridge lamb modalities
• Leg of Lamb and Mint Sauce
Игра слов работает идеально, LLMs в мире технологий это Large Language Models, а на фото буквально Large Lamb-bridge Models
Музей из Рединга известен подобными каламбурами
Прославились они благодаря соцсетям, где постят архивные фото с забавными подписями
К слову, в комментариях пользователи тоже отличились
Предложили:
• Large-scale Lamb Movement
• log-bridge lamb modalities
• Leg of Lamb and Mint Sauce
Проект «Vesuvius Challenge»
Представьте себе библиотеку в древнеримской вилле в Геркулануме
В 79 году н.э. извержение Везувия накрыло раскаленным пеплом и лавой Помпеи и Геркуланум
Все виллы, хижины крестьян, дворцы, храмы и конечно же библиотеки были полностью уничтожены
Но под слоем пепла и лавы сотни свитков папируса из этих библиотек не сгорели, а обуглились
Они превратились в хрупкие, спрессованные «угольные брикеты», которые невозможно развернуть, не уничтожив
С 2023 года идет проект «Vesuvius Challenge»
Исследователи использовали передовой метод — синхротронная рентгеновская томография
Свитки просвечивают, получая 3D-модель с невероятной детализацией
1. Чернила в этих свитках — это углерод (сажа)
Папирус после обугливания — тоже углерод
Рентген «не видит» разницы
Но Ml обучен находить мельчайшие изменения в текстуре и структуре папируса в тех местах, где было нанесено чернило
Он буквально учится читать по «шрамам», оставленным пером
2. Разворачивает свиток виртуально
Физически развернуть свиток нельзя — он рассыплется
Ml анализирует 3D-модель и цифровыми методами «разворачивает» ее в плоский лист
Это как развернуть скомканный лист бумаги, не прикасаясь к нему
3. Даже после виртуального разворачивания текст представляет собой набор едва заметных трещин и неровностей
Специально обученные нейросети, похожие на те, что распознают рукописный текст, ищут знакомые паттерны — очертания древнегреческих букв
В начале 2024 года команда участников «Vesuvius Challenge» с помощью своего Ml-алгоритма первой полностью расшифровала более 2.000 слов из одного из свитков (около 5 % текста)
Это оказался неизвестный ранее философский текст о музыке, еде и жизни удовольствий!
Автор (вероятно, эпикурейский философ Филодем) рассуждает, являются ли удовольствия из разных источников (еда, музыка) ограниченными по своей природе
Получаем прямой доступ к мыслям людей, живших 2.000 лет назад, минуя всех переписчиков и интерпретаторов
Ученые надеются прочесть сотни таких свитков, что может перевернуть наше представление об античной философии, литературе и науке
Это великолепный пример симбиоза гуманитарных наук и передовых технологий
Ml становится машиной времени, позволяющей заглянуть в прошлое, которое мы уже считали навсегда потерянным
Историческую правду мы будем узнавать не от людей
Представьте себе библиотеку в древнеримской вилле в Геркулануме
В 79 году н.э. извержение Везувия накрыло раскаленным пеплом и лавой Помпеи и Геркуланум
Все виллы, хижины крестьян, дворцы, храмы и конечно же библиотеки были полностью уничтожены
Но под слоем пепла и лавы сотни свитков папируса из этих библиотек не сгорели, а обуглились
Они превратились в хрупкие, спрессованные «угольные брикеты», которые невозможно развернуть, не уничтожив
С 2023 года идет проект «Vesuvius Challenge»
Исследователи использовали передовой метод — синхротронная рентгеновская томография
Свитки просвечивают, получая 3D-модель с невероятной детализацией
1. Чернила в этих свитках — это углерод (сажа)
Папирус после обугливания — тоже углерод
Рентген «не видит» разницы
Но Ml обучен находить мельчайшие изменения в текстуре и структуре папируса в тех местах, где было нанесено чернило
Он буквально учится читать по «шрамам», оставленным пером
2. Разворачивает свиток виртуально
Физически развернуть свиток нельзя — он рассыплется
Ml анализирует 3D-модель и цифровыми методами «разворачивает» ее в плоский лист
Это как развернуть скомканный лист бумаги, не прикасаясь к нему
3. Даже после виртуального разворачивания текст представляет собой набор едва заметных трещин и неровностей
Специально обученные нейросети, похожие на те, что распознают рукописный текст, ищут знакомые паттерны — очертания древнегреческих букв
В начале 2024 года команда участников «Vesuvius Challenge» с помощью своего Ml-алгоритма первой полностью расшифровала более 2.000 слов из одного из свитков (около 5 % текста)
Это оказался неизвестный ранее философский текст о музыке, еде и жизни удовольствий!
Автор (вероятно, эпикурейский философ Филодем) рассуждает, являются ли удовольствия из разных источников (еда, музыка) ограниченными по своей природе
Получаем прямой доступ к мыслям людей, живших 2.000 лет назад, минуя всех переписчиков и интерпретаторов
Ученые надеются прочесть сотни таких свитков, что может перевернуть наше представление об античной философии, литературе и науке
Это великолепный пример симбиоза гуманитарных наук и передовых технологий
Ml становится машиной времени, позволяющей заглянуть в прошлое, которое мы уже считали навсегда потерянным
Историческую правду мы будем узнавать не от людей
GPT-5 впервые прошёл «тест Гёделя» и сумел доказать три крупных гипотезы в области комбинаторной оптимизации, — констатируют исследователи из Университета Хайфы и компании Cisco
В одном случае модель не просто справилась с задачей, но предложила неожиданное решение, опровергнувшее исходную гипотезу
«На решение подобных задач у лучших аспирантов обычно уходит несколько дней
Впервые эксперимент был построен так, чтобы искусственный интеллект столкнулся не с задачами уровня олимпиад, а с открытыми математическими гипотезами»
«Этот результат можно назвать историческим: впервые искусственный интеллект сделал шаг от «обучения математике» к реальному «созданию математики»
Это начало глубокого преобразования научной парадигмы, которое может определять ход исследований уже в 2030-е годы»
Ml становится научным агентом («учёным»), способным делать научные открытия, меняющие мир
В одном случае модель не просто справилась с задачей, но предложила неожиданное решение, опровергнувшее исходную гипотезу
«На решение подобных задач у лучших аспирантов обычно уходит несколько дней
Впервые эксперимент был построен так, чтобы искусственный интеллект столкнулся не с задачами уровня олимпиад, а с открытыми математическими гипотезами»
«Этот результат можно назвать историческим: впервые искусственный интеллект сделал шаг от «обучения математике» к реальному «созданию математики»
Это начало глубокого преобразования научной парадигмы, которое может определять ход исследований уже в 2030-е годы»
Ml становится научным агентом («учёным»), способным делать научные открытия, меняющие мир
❤1
Несколько лет назад директор Института машинного интеллекта Люк Мюэльхаузер попытался подсчитать, насколько изменила благосостояние человечества промышленная революция
Он выделил 6 критериев, по которым можно судить о благосостоянии (и по которым есть данные): ожидаемая продолжительность жизни при рождении, ВВП на душу населения, доля живущих в крайней бедности, количество потребляемых килокалорий человеком в день, технологический уровень и уровень политической свободы
Как он все это подсчитал и где взял данные, описано в его посте
А вывод получился вполне ожидаемым: перемены последних двух столетий в благополучии людей совершенно не сопоставимы по масштабу ни с чем в предыдущей истории
Эти перемены настолько велики, что любые колебания в прошлом человечества для нас малозаметны – с точки зрения человека, живущего на современном уровне благополучия, до промышленной революции человечество пребывало на самом дне по любым показателям уровня жизни
И это мало зависело от исторического периода, все всегда было очень плохо и очень стабильно
Все лучшие события в мировой истории случилось с человечеством за последние пару сотен лет, - и даже мировые войны не затормозили прогресс (вместе с «испанкой» они убили 7 % населения планеты, - бывало, кстати, и похуже, Черная смерть или Чингисхан выкашивали по 10 %)
Самые существенные изменения в образе жизни, благополучии и даже в политических свободах человечеству приносит развитие технологий, а не войны, реформы или революции
Так происходит и сейчас: в 20-е годы повседневную жизнь человечества больше всего меняют нейросети, в десятые – смартфоны, в нулевые – интернет, в 90-е персональные компьютеры, и т.д.
Он выделил 6 критериев, по которым можно судить о благосостоянии (и по которым есть данные): ожидаемая продолжительность жизни при рождении, ВВП на душу населения, доля живущих в крайней бедности, количество потребляемых килокалорий человеком в день, технологический уровень и уровень политической свободы
Как он все это подсчитал и где взял данные, описано в его посте
А вывод получился вполне ожидаемым: перемены последних двух столетий в благополучии людей совершенно не сопоставимы по масштабу ни с чем в предыдущей истории
Эти перемены настолько велики, что любые колебания в прошлом человечества для нас малозаметны – с точки зрения человека, живущего на современном уровне благополучия, до промышленной революции человечество пребывало на самом дне по любым показателям уровня жизни
И это мало зависело от исторического периода, все всегда было очень плохо и очень стабильно
Все лучшие события в мировой истории случилось с человечеством за последние пару сотен лет, - и даже мировые войны не затормозили прогресс (вместе с «испанкой» они убили 7 % населения планеты, - бывало, кстати, и похуже, Черная смерть или Чингисхан выкашивали по 10 %)
Самые существенные изменения в образе жизни, благополучии и даже в политических свободах человечеству приносит развитие технологий, а не войны, реформы или революции
Так происходит и сейчас: в 20-е годы повседневную жизнь человечества больше всего меняют нейросети, в десятые – смартфоны, в нулевые – интернет, в 90-е персональные компьютеры, и т.д.
«По словам французского нейрофизиолога Жан-Пьера Шанжё:
Однако, если математика – тот же язык, как объяснить, что, хотя дети легко учатся родному языку, математика дается многим с таким трудом?
Марджори Флеминг (1803–1811), шотландская девочка-вундеркинд, не дожившая до 9 лет, оставила дневник – более девяти тысяч слов прозы и около пятисот стихотворных строк – где, помимо всего прочего, очаровательно описывает, с какими сложностями сталкиваются дети при изучении математики
В одном месте Марджори жалуется:
«С моей точки зрения, аксиоматический метод (применяющийся, например, в евклидовой геометрии) – выражение способностей головного мозга, связанное с его использованием
Ведь основная характеристика языка – это именно его генеративный характер (Changeux and Connes 1995)»
Однако, если математика – тот же язык, как объяснить, что, хотя дети легко учатся родному языку, математика дается многим с таким трудом?
Марджори Флеминг (1803–1811), шотландская девочка-вундеркинд, не дожившая до 9 лет, оставила дневник – более девяти тысяч слов прозы и около пятисот стихотворных строк – где, помимо всего прочего, очаровательно описывает, с какими сложностями сталкиваются дети при изучении математики
В одном месте Марджори жалуется:
«А теперь я хочу рассказать тебе, дорогой дневник, как страшно и ужасно мучает меня таблица умножения, ты себе и представить не можешь!
Самое кошмарное – это восемь на восемь и семь на семь, это противно самой природе!»
Исследователи из 18 ведущих университетов мира запустили новую открытую платформу aiXiv, предназначенную для размещения научных работ, созданных при участии искусственного интеллекта
Сегодняшний академический ландшафт сталкивается с противоречием: с одной стороны, Ml уже способен генерировать статьи определенного качества, с другой — отсутствует подходящая площадка для их систематической публикации
Tрaдиционные журналы пока принципиально исключают AI-авторство, а arXiv не обеспечивает должного контроля качества
В итоге перспективные идеи и тексты, созданные Ml, часто остаются «невидимыми» для научного сообщества
Как устроен aiXiv
Рецензирование
Внутри платформы работает замкнутый цикл оценки качества
На первом этапе статьи анализируются агентом с RAG-моделями на основе Semantic Scholar API, который подбирает релевантные источники для замечаний
Затем система распределяет работу по подтемам и формирует команды из 3–5 специализированных «рецензентов-агентов»
Итоговое заключение выносится агрегирующим редактором
В тестировании на материалах ICLR 2024/25 aiXiv продемонстрировал точность отбора лучших статей до 81 %, что выше предыдущих решений вроде DeepReview
Доработка статей
Авторы, как и в традиционной публикационной модели, получают замечания, могут исправлять текст, загружать обновленные версии и при необходимости добавлять «response letter»
Это повышает вероятность принятия работы
Финальное решение
Вопрос о публикации ставится на голосование пяти ведущих LLM
Для выхода статьи в открытый доступ требуется минимум три положительных голоса
Принятые материалы получают DOI и становятся доступны для широкой дискуссии
Особенность платформы в том, что публиковаться на ней могут не только Ml, но и люди
Препринт с подробным описанием проекта доступен тут
Сегодняшний академический ландшафт сталкивается с противоречием: с одной стороны, Ml уже способен генерировать статьи определенного качества, с другой — отсутствует подходящая площадка для их систематической публикации
Tрaдиционные журналы пока принципиально исключают AI-авторство, а arXiv не обеспечивает должного контроля качества
В итоге перспективные идеи и тексты, созданные Ml, часто остаются «невидимыми» для научного сообщества
Как устроен aiXiv
Рецензирование
Внутри платформы работает замкнутый цикл оценки качества
На первом этапе статьи анализируются агентом с RAG-моделями на основе Semantic Scholar API, который подбирает релевантные источники для замечаний
Затем система распределяет работу по подтемам и формирует команды из 3–5 специализированных «рецензентов-агентов»
Итоговое заключение выносится агрегирующим редактором
В тестировании на материалах ICLR 2024/25 aiXiv продемонстрировал точность отбора лучших статей до 81 %, что выше предыдущих решений вроде DeepReview
Доработка статей
Авторы, как и в традиционной публикационной модели, получают замечания, могут исправлять текст, загружать обновленные версии и при необходимости добавлять «response letter»
Это повышает вероятность принятия работы
Финальное решение
Вопрос о публикации ставится на голосование пяти ведущих LLM
Для выхода статьи в открытый доступ требуется минимум три положительных голоса
Принятые материалы получают DOI и становятся доступны для широкой дискуссии
Особенность платформы в том, что публиковаться на ней могут не только Ml, но и люди
Препринт с подробным описанием проекта доступен тут
arXiv.org
aiXiv: A Next-Generation Open Access Ecosystem for Scientific...
Recent advances in large language models (LLMs) have enabled AI agents to autonomously generate scientific proposals, conduct experiments, author papers, and perform peer reviews. Yet this flood...
👍1
Anthropic выпустили инструкцию как правильно управлять вниманием и памятью Ml-агентов, чтобы они работали умнее и надёжнее на сложных задачах
Telegram
All about AI, Web 3.0, BCI
New from Anthropic: context engineering for AI agents
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Anthropic recently published a technical overview of context engineering - managing what information gets fed to language models during execution. This shifts focus from pure prompt design to thinking…
Кожаным мешкам приготовиться: Ml приблизились по качеству работы к отраслевым экспертам
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
При этом Ml могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики
Он измеряет эффективность модели при выполнении 1.230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов, вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет
Результат:
1) Ml работают уже почти на уровне экспертов – людей
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы
Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47.6 % по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38.8 % и o3 high с 34.1 %
2) Ml несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты»
Самое важное.
Это всего лишь сегодняшние модели
Через год новые модели будут сильно умней и умелей экспертов людей
И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
Openai
Measuring the performance of our models on real-world tasks
We’re introducing GDPval, a new evaluation that measures model performance on economically valuable, real-world tasks across 44 occupations.
🔥1
Про Ml
Лоран Лафорг
(перевод с французского)
"Один человек из аудитории спросил меня, являются ли математики скорее «изобретателями» — то есть творцами нового мира, созданного их воображением,— или же «первооткрывателями» предсуществующей реальности
Я ответил, что, как и почти все математики, я скорее склоняюсь к платонизму и воспринимаю математику как реальность, независимую от нас, которая существовала в нас, но была сокрыта, укрыта покровом, и наша задача — обнажить её
Однако, поразмыслив, я прихожу к выводу, что для характеристики деятельности математика (или, в более широком смысле, учёного, ищущего истину) существует слово более точное и куда более глубокое, чем «изобретатель» или «первооткрыватель», слово также полностью библейское, которое появляется в конце длинного отрывка из Гротендика, процитированного мною: математик — это слуга
Слуга — это тот, кто заботится о чём-то ином, а не о себе: так же и математик, который в моменты погружения в математику теряет даже сознание собственного «я»
Слуга не решает: математик никогда не решает, что является истинным, но постоянно натыкается на сопротивление истины
Он прилагает усилия к истине, но не может её исказить, кроме как немедленно введя себя в заблуждение; он может лишь прилепиться к ней, повиноваться
Слуга — это один из многих, и более того, он, по слову Христа, «раб неключимый»: то, что он делает, другой мог бы сделать на его месте
Точно так же математик чувствует себя крошечным перед лицом огромной традиции математики, лишь ничтожную часть которой он знает и которую ему было бы не под силу выстроить самостоятельно
Лучшее, на что он может надеяться, — это продвинуть её чуть-чуть вперёд, в то же время осознавая, что его работа будет быстро превзойдена, что многие другие способны сделать то же самое не хуже него и что они неизбежно сделают это однажды, если он сам не приложит к этому руку
Он также знает, что даже самые сложные проблемы покажутся лёгкими и перестанут впечатлять, как только будут решены в первый раз, так что любой прогресс, которого он добивается, растворяет, стирает и заставляет забыть о трудности, которую пришлось преодолеть
Слуга не говорит, он слушает
Математик должен замолкнуть внутренне и прислушаться, напрячь своё существо, чтобы услышать столь тонкий и деликатный голос вещей, каковы они есть, и позволить руке бежать под их диктовку
Как это ни странно, но именно становясь слугой математических реальностей и их голосом, их переводчиком, математик реализует себя
Величайшие математические тексты одновременно и самые безличные — в том смысле, что каждый, читая их, испытывает глубокую эмоцию, видя, как из тумана невысказанного, строка за строкой, появляется нечто, что он всегда в себе носил, что жаждало быть высказанным и до сих пор не могло обрести выражения, — и самые личные — в том смысле, что сразу узнаёшь почерк их автора"
Лоран Лафорг
(перевод с французского)