🧠 MIT: новый подход к созданию AI-агентов для социальных задач
Учёные из MIT предложили метод, который позволяет агентам не просто подстраиваться под одну задачу, а обобщать поведение на новые ситуации.
🔑 Как это работает:
Вместо обычного fine-tuning или промптинга на одном датасете — используют поведенческую теорию как основу подсказок.
Эти подсказки потом проверяют на других, но близких по смыслу задачах.
Такой «двойной шаг» заставляет агентов сохранять только те описания процесса принятия решений, которые реально предсказывают поведение даже при изменении среды.
📊 Результаты:
3,41x выше вероятность правильного ответа по сравнению с базовыми моделями (на 1 490 играх).
53–73% меньше ошибок на новых вариантах игр.
2,44x лучше, чем классические равновесия Харсани–Зельтена.
👉 Идея проста: если описывать процесс решений на человеческом языке и фильтровать его через теорию + проверку в других условиях, агент начинает вести себя более «по-человечески» и лучше справляется с неожиданными ситуациями.
🟠 Статья
Учёные из MIT предложили метод, который позволяет агентам не просто подстраиваться под одну задачу, а обобщать поведение на новые ситуации.
🔑 Как это работает:
Вместо обычного fine-tuning или промптинга на одном датасете — используют поведенческую теорию как основу подсказок.
Эти подсказки потом проверяют на других, но близких по смыслу задачах.
Такой «двойной шаг» заставляет агентов сохранять только те описания процесса принятия решений, которые реально предсказывают поведение даже при изменении среды.
📊 Результаты:
3,41x выше вероятность правильного ответа по сравнению с базовыми моделями (на 1 490 играх).
53–73% меньше ошибок на новых вариантах игр.
2,44x лучше, чем классические равновесия Харсани–Зельтена.
👉 Идея проста: если описывать процесс решений на человеческом языке и фильтровать его через теорию + проверку в других условиях, агент начинает вести себя более «по-человечески» и лучше справляется с неожиданными ситуациями.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🎮 LLM-бенчмарк в стиле Among Us
Новый тест проверяет модели не на код и задачи, а на социальные навыки: доверие, обман, убеждение и координацию. Для этого их заставляют играть в Among Us в мультиагентной среде.
📊 Результаты:
- GPT-5 реже всего ошибочно исключает игроков в роли члена экипажа.
- Как импостор, модель крайне убедительна и эффективна в обмане.
- GPT-5 гибко адаптируется к роли: минимизирует вред в команде и максимизирует его как предатель.
Такой бенчмарк показывает, как ИИ справляется с социальными динамиками, недоступными для стандартных тестов.
https://www.4wallai.com/amongais
Новый тест проверяет модели не на код и задачи, а на социальные навыки: доверие, обман, убеждение и координацию. Для этого их заставляют играть в Among Us в мультиагентной среде.
📊 Результаты:
- GPT-5 реже всего ошибочно исключает игроков в роли члена экипажа.
- Как импостор, модель крайне убедительна и эффективна в обмане.
- GPT-5 гибко адаптируется к роли: минимизирует вред в команде и максимизирует его как предатель.
Такой бенчмарк показывает, как ИИ справляется с социальными динамиками, недоступными для стандартных тестов.
https://www.4wallai.com/amongais
❤2👍1
Positive Technologies приглашает на онлайн-презентацию нового продукта — PT Data Security*
Решение помогает защитить критически важные данные компании, снижает риски утечек и обеспечивает соответствие требованиям регуляторов.
На онлайн-трансляции вы первыми узнаете:
— Какие задачи и риски сегодня определяют настоящее и будущее рынка защиты данных.
— Какие вызовы стоят перед компаниями на рынке защиты данных.
— О новом подходе Positive Technologies к защите данных.
📅 8 октября, 15:00 мск
📍 Онлайн
👉 Регистрация
*Защита данных
Решение помогает защитить критически важные данные компании, снижает риски утечек и обеспечивает соответствие требованиям регуляторов.
На онлайн-трансляции вы первыми узнаете:
— Какие задачи и риски сегодня определяют настоящее и будущее рынка защиты данных.
— Какие вызовы стоят перед компаниями на рынке защиты данных.
— О новом подходе Positive Technologies к защите данных.
📅 8 октября, 15:00 мск
📍 Онлайн
👉 Регистрация
*Защита данных
❤2✍1👍1🔥1
🚀 Вышел Jupyter Agent Dataset!
📊 Обучение на этом датасете значительно улучшает навыки моделей в выполнении кода и анализе данных.
🔍 Из чего он собран:
- 7 ТБ реальных Kaggle-датасетов
- 20k Jupyter-ноутбуков
- Трассы реального исполнения кода, сгенерированные с помощью Qwen3-Coder и E2B
👉 Датасет доступен здесь: https://huggingface.co/datasets/data-agents/jupyter-agent-dataset
📊 Обучение на этом датасете значительно улучшает навыки моделей в выполнении кода и анализе данных.
🔍 Из чего он собран:
- 7 ТБ реальных Kaggle-датасетов
- 20k Jupyter-ноутбуков
- Трассы реального исполнения кода, сгенерированные с помощью Qwen3-Coder и E2B
👉 Датасет доступен здесь: https://huggingface.co/datasets/data-agents/jupyter-agent-dataset
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Sam Altman x David Deutsch о GPT-8 и AGI
В беседе с одним из самых ярких физиков современности Сэм спрашивает:
👉 Если GPT-8 решит задачу квантовой гравитации, будет ли это доказательством AGI?
🔹 Дойч считает, что Turing Test - несостоятельный критерий.
🔹 LLM, даже «GPT-5», не обладают настоящим творческим вдохновением.
🔹 AGI нельзя измерить фиксированными тестами.
⚡ Но если GPT-8 реально решит квантовую гравитацию — для Дойча это и будет AGI.
Источник: *Deutsch Explains* (YouTube)
В беседе с одним из самых ярких физиков современности Сэм спрашивает:
👉 Если GPT-8 решит задачу квантовой гравитации, будет ли это доказательством AGI?
🔹 Дойч считает, что Turing Test - несостоятельный критерий.
🔹 LLM, даже «GPT-5», не обладают настоящим творческим вдохновением.
🔹 AGI нельзя измерить фиксированными тестами.
⚡ Но если GPT-8 реально решит квантовую гравитацию — для Дойча это и будет AGI.
Источник: *Deutsch Explains* (YouTube)
💩5😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Илья Суцкевер о сходстве ИИ и человеческого мозга
Он приводит примеры:
- Дети, у которых удалили половину мозга, всё равно продолжают нормально функционировать.
- Сенсорные входы могут «переподключаться» к другим областям мозга.
Это показывает, что корковые структуры универсальны и повторно используются — как ДНК и белки.
👉 Вывод: интеллект основан на общей архитектуре, и ИИ может отражать биологические системы.
Источник: *No Priors* (YouTube)
Он приводит примеры:
- Дети, у которых удалили половину мозга, всё равно продолжают нормально функционировать.
- Сенсорные входы могут «переподключаться» к другим областям мозга.
Это показывает, что корковые структуры универсальны и повторно используются — как ДНК и белки.
👉 Вывод: интеллект основан на общей архитектуре, и ИИ может отражать биологические системы.
Источник: *No Priors* (YouTube)
❤4🔥4👍1😁1