HCAI // Регулирование ИИ

👍

International AI Safety Report

На саммите по безопасности ИИ в Блетчли (Bletchley AI Safety Summit) 3️⃣0️⃣ стран договорились о необходимости создания Международного доклада по безопасности ИИ (International AI Safety Report) — всестороннего обзора существующей научной литературы о рисках и возможностях передовых систем ИИ.

Доклад подготовлен под руководством лауреата премии Тьюринга, компьютерного ученого Йошуа Бенжио, и является результатом работы около 1️⃣

0️⃣

0️⃣ экспертов в области ИИ.

🎯 Цель отчета - предоставить научную информацию, которая поможет в разработке обоснованной политики. В нем не содержится указание на конкретные регуляторные подходы. Отчет призван способствовать конструктивному и основанному на фактических данных обсуждению вопросов, связанных с ИИ общего назначения.

Доклад посвящен трем ключевым вопросам:
1️⃣ Какие возможности есть у ИИ общего назначения?
2️⃣ Какие риски связаны с этим типом ИИ?
3️⃣ Какие существуют методы минимизации этих рисков?

Что касается рисков, то доклад выделяет 3️⃣ основные категории:
🟦 злонамеренное использование (дезинформация, кибератаки, создание химического или биологического оружия)
🟦 ошибки и сбои (предвзятость модели, потеря контроля над ней)
🟦 системные риски (риски для рынка труда, экологии, конфиденциальности, нарушение авторских прав)

В докладе также представлены рекомендации по снижению рисков, связанных с ИИ общего назначения. Вот некоторые из них:
🟥 Разработать международные стандарты и рамки для оценки рисков ИИ.
🟥 Внедрить многоуровневый подход к управлению рисками ИИ.
🟥 Разработать этические рамки для разработки и применения ИИ.
🟥 Внедрить механизмы отслеживания происхождения и аутентификации контента, созданного ИИ.
🟥 Внедрить практики ответственного раскрытия информации о возможностях ИИ.
🟥 Разработать методы оценки долгосрочных воздействий ИИ на общество.

🇫🇷 Доклад представлен в преддверии саммита AI Action Summit, который пройдет в Париже 10-11 февраля.

#AI #Safety

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8⚡7🔥5❤3🌚2🥰1

503 viewsedited 10:37

HCAI // Регулирование ИИ

📱

OpenAI поделилась их подходом к созданию безопасного AGI

«Миссия OpenAI — обеспечить, чтобы общий искусственный интеллект (AGI) приносил пользу всему человечеству».

По мнению компании реализация потенциала AGI требует работы по снижению возможных рисков в соответствии с человеческими ценностями и под человеческим контролем.

На основе существующих ИИ-систем OpenAI видит три основных риска развития AGI:
🔸 злоупотребление со стороны людей (нарушение законов, политическая цензура, мошенничество…)
🔸 «несогласованность ИИ» (чем мощнее ИИ, тем больше масштаб возможных неожиданных негативных последствий)
🔸 социальные потрясения (неравный доступ к AGI может вызвать рост напряженности в обществе)

OpenAI ищет баланс между развитием инноваций и безопасностью моделей в рамках их Preparedness Framework, поэтому предлагает следующие методы смягчения рисков:
1️⃣мониторинг и оценка рисков как до, так и после выпуска моделей
2️⃣тестирование моделей в безопасных средах перед их развертыванием
3️⃣поэтапный выпуск, который даёт возможность обществу адаптироваться к возможностям ИИ
4️⃣внешний ред-тиминг
5️⃣публикация исследований и методик по безопасности ИИ
6️⃣сотрудничество с государственными институтами и регуляторами

❗️Ранее OpenAI представляла развитие AGI как дискретный момент, когда ИИ-системы перейдут от решения простых задач к изменению мира. Сейчас компания рассматривает первый AGI как один из этапов в серии всё более полезных систем и придерживается принципа итеративного развертывания моделей.

#AI #Safety #AGI #OpenAI

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥5👏3❤1🌚1

435 views11:56

HCAI // Регулирование ИИ

📱

OpenAI обновила Preparedness Framework

15 апреля OpenAI опубликовала новую версию Preparedness Framework – внутренней системы оценки и управления рисками, связанными с «передовыми» ИИ-моделями. Обновление отражает подготовку к запуску систем нового уровня, которые уже возможно будут способны причинить какой-либо вред — от массовых кибератак до ускоренного биоинжиниринга.

1️⃣

Появилась новая категория рисков.
AI self-improvement - теперь OpenAI отслеживает, может ли модель ускорить собственное развитие или R&D-процессы.

2️⃣

Приведены четкие критерии приоритизации и оценки рисков.
Приоритетными для отслеживания считаются риски, которые являются возможными, измеримыми, серьёзными, новыми по характеру и мгновенными или необратимыми.

3️⃣

Обновлены категории способностей моделей в соответствии с новой приоритизацией рисков.

👀

Отслеживаемые категории — уже зрелые направления, по которым существуют системы оценки и меры защиты: биологические и химические угрозы, кибербезопасность.

🔬

Исследовательские категории — потенциально опасные направления, пока не достигшие уровня отслеживаемых. Среди них полная автономия и ядерная угроза.

4️⃣

Разработка автоматических тестов.
Хотя ручное тестирование не отменено полностью, компания развивает «набор автоматических оценок», которые позволяют сохранить высокую скорость релизов.

5️⃣

Реакция на изменения в ландшафте ИИ.
Если другая лаборатория выпустит высокорисковую модель без достаточных мер защиты, OpenAI может скорректировать свои требования к безопасности. Но при этом:
✔️Должно быть подтверждено изменение ландшафта рисков;
✔️Изменение будет публично признано;
✔️Будет подтверждено, что оно не увеличивает общий риск;
✔️Уровень защиты останется выше базового.

📎 С полным документом можете ознакомиться по ссылке.

#AI #Safety #OpenAI

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍6🔥4🙏1

355 views12:14

HCAI // Регулирование ИИ

💻

ChatGPT Agent: что умеет, чем рискует и как защищён

👋 OpenAI представила ChatGPT-агента, который способен самостоятельно выполнять сложные задачи пользователя от начала и до конца: анализировать документы, писать код, работать с файлами, собирать данные в интернете и запускать действия от вашего имени.

🔭

Что умеет ChatGPT Agent?
🔵Подготавливать бриф по вашим встречам
🔵Заказывать ингредиенты для ужина
🔵Делать конкурентный анализ
🔵Редактировать таблицы и составлять финансовые модели
🔵Читать, систематизировать и визуализировать большие объёмы данных
🔵Интегрироваться с Gmail, Google Drive, GitHub и другими сервисами

📇 В основе ChatGPT Agent лежит единая агентная система, сочетающая три ключевые технологии:
1️⃣Возможности Operator по взаимодействию с веб-интерфейсами;
2️⃣Возможности Deep Research по глубокому анализу и синтезу информации;
3️⃣Интеллект и гибкость общения самого ChatGPT.

🔐

Риски и меры защиты
С расширением возможностей увеличиваются и риски. Вот как OpenAI их оценивает и снижает.

🧨

Prompt injection — вредоносные команды в веб-контенте
Агент может наткнуться на скрытые инструкции в коде сайта. OpenAI обучила его:
✔️Игнорировать такие попытки (точность >95%).
✔️Требовать подтверждение от пользователя перед важными действиями (например, перед покупками в Интернете);
✔️При необходимости — автоматически ставить задачу на паузу в режиме наблюдения («Watch mode»).

🧬 Биориски — приоритетная зона контроля
Агент классифицирован как High Biological Capability, даже при отсутствии прямых доказательств вреда.
Это активирует самый жёсткий стек защиты, включая привлечение биоэкспертов и внешних лабораторий.

💳

Финансовые и этические ограничения
ChatGPT Agent отказывается:
❌От помощи в переводе денег или азартных играх.
❌От решений, связанных с кредитами, жильём, работой на основе чувствительных данных.
❌От нарушения конфиденциальности, даже если информация открыта.

🚀

OpenAI обещает постепенные улучшения
🔵Регулярное тестирование агента с участием Red Team и экспертов из разных сфер.
🔵Повышение автономности без потери контроля.
🔵 Более качественное создание слайдов и документов.
🔵Расширение инструментов и интеграций.

▶️ ChatGPT Agent доступен в тарифах Pro, Plus и Team и запускается через специальный режим Agent Mode.

#OpenAI #ChatGPT #Agent #Safety #SystemCard

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5⚡3🔥1

298 views11:39

About

Blog

Apps

Platform