A2AS: вариант фреймворка по безопасности агентных ИИ
Группа разработчиков предложила A2AS — фреймворк для сертификации поведения агентов и защиты во время исполнения.
Идея как с HTTPS: агенты получают сертификаты поведения, которые ограничивают их действия заявленными возможностями.
Фреймворк:
- разделяет системные инструкции от внешних входных данных
- привязывает промпты к корпоративным идентификаторам для контроля доступа
- встраивает политики как код для соблюдения бизнес-правил
- логирует все действия агентов
PDF
#A2AS #Aгенты #cybersecurity
------
@tsingular
Группа разработчиков предложила A2AS — фреймворк для сертификации поведения агентов и защиты во время исполнения.
Идея как с HTTPS: агенты получают сертификаты поведения, которые ограничивают их действия заявленными возможностями.
Фреймворк:
- разделяет системные инструкции от внешних входных данных
- привязывает промпты к корпоративным идентификаторам для контроля доступа
- встраивает политики как код для соблюдения бизнес-правил
- логирует все действия агентов
#A2AS #Aгенты #cybersecurity
------
@tsingular
🔥4
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
СОЗДАВАЙТЕ ВИДЕО ПРЯМО В TELEGRAM 💃
Вы просили — мы сделали! GigaChat теперь генерирует видео и оживляет ваши фотографии с помощью модели Kandinsky
Превращаем текст в видео
Делаем видео из картинки
По желанию вы можете выбрать движение камеры: приближение, отдаление, вращение вокруг объекта и другое
Нажмите «Создать» и подождите, пока ваше видео появится в мини-аппе🏆
Всем пользователям доступно 10 генераций — собирайте контент для соцсетей, промо, креативных и учебных проектов
🎁 Как получить больше генераций
Пробуйте и делитесь результатами в комментариях👇
Вы просили — мы сделали! GigaChat теперь генерирует видео и оживляет ваши фотографии с помощью модели Kandinsky
Как начать: откройте GigaChat в Telegram → Меню → «Создать видео»
Превращаем текст в видео
1️⃣ Укажите формат (горизонтальное или вертикальное, квадрат)2️⃣ Напишите запрос, например: «Мальчик едет по полю на велосипеде»
Делаем видео из картинки
1️⃣ Загрузите своё изображение2️⃣ Опишите действие объекта, например, если на фото человек: «Улыбается и открывает ноутбук»
По желанию вы можете выбрать движение камеры: приближение, отдаление, вращение вокруг объекта и другое
Нажмите «Создать» и подождите, пока ваше видео появится в мини-аппе
Всем пользователям доступно 10 генераций — собирайте контент для соцсетей, промо, креативных и учебных проектов
🔘 +10 в день за вход по Сбер ID🔘 +10 за каждого приглашённого друга🔘 Максимум — 40 видео в день
Пробуйте и делитесь результатами в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4⚡1
Искусственный Интеллект,- это по сути линия технологического горизонта.
Как только очередная умная технология реализована, мы перестаём называть её ИИ, а она превращается в обыденное ML приложение.
И мы под ИИ начинаем подразумевать нечто новое на пути прогресса, так же недостижимое как и горизонт.
Что интересно,- эти линии для всех разные. Отсюда и конфликты в которых одни некую технологию все еще называют ИИ, а для других это уже обыденное приложение и с их точки зрения ИИ ещё далеко.
Будет AGI - найдём причины сказать, что это еще не ИИ, вот будет ASI,- тогда даа.. :)
#мысли #горизонт
------
@tsingular
Как только очередная умная технология реализована, мы перестаём называть её ИИ, а она превращается в обыденное ML приложение.
И мы под ИИ начинаем подразумевать нечто новое на пути прогресса, так же недостижимое как и горизонт.
Что интересно,- эти линии для всех разные. Отсюда и конфликты в которых одни некую технологию все еще называют ИИ, а для других это уже обыденное приложение и с их точки зрения ИИ ещё далеко.
Будет AGI - найдём причины сказать, что это еще не ИИ, вот будет ASI,- тогда даа.. :)
#мысли #горизонт
------
@tsingular
💯9✍4❤2👍1
Страшновато такое вживую видеть. :)
Сначала подумал это манекены рекламируют очки.
#VR #gitex
------
@tsingular
Сначала подумал это манекены рекламируют очки.
#VR #gitex
------
@tsingular
🤣17👀10🔥3😭2❤1🍓1
Надо сказать Музей Будущего после Gitex не выглядит как будущее 😀
Красивое настоящее,- да.
#Museum #Future #Dubai
------
@tsingular
Красивое настоящее,- да.
#Museum #Future #Dubai
------
@tsingular
😁6💯6⚡2😍2✍1👏1🤩1
Forwarded from Neural Kovalskii
SGR Deep Research топ 3 в open-source!
Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей
Хочу с вами поделится очень крутыми новостями!
Бенчмарк и новые фичи!
Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM
3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description
4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)
5) Я разнес тул вэб поиска на /search и /extract
5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента
Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)
Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!
Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок
Тестовый прогон на SimpleQA Verified
Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).
Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o
Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.
Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705
Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо
С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.
Оценка SGR Deep Research на SimpleQA
В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)
Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861
Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)
Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий
Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами
Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!
Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!
Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract
Полный тест такого бенчмарка обошелся в $170
Далее мы планируем оценить работу агента уже на локальных LLM
Репо: https://github.com/vamplabAI/sgr-deep-research
P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)
Пока кипит работа по финализированнию наших тестов и выявлению лучшей архитектуры агента для небольших и недорогих моделей
Хочу с вами поделится очень крутыми новостями!
Бенчмарк и новые фичи!
Что было сделано:
1) Был добавлен MCP как клиент (теперь вы можете подключить любой набор тулов внутрь агента)
2) Проработаны и оптимизированы промпты для читаемости и понимания LLM
<MAIN_TASK_GUIDELINES>
<DATE_GUIDELINES>
<CORE_PRINCIPLES>
<REASONING_GUIDELINES>
3) Проработаны докстринги у каждого тула
Осмысленные и протестированы description
4) Использован гибридный подход: агент строится на концепции SGR и подходах ReAct+PlanAct, также был применён чистый Function Calling (со схемой решения можно ознакомиться в комментариях под постом)
5) Я разнес тул вэб поиска на /search и /extract
5) Я лично провел огромное кол-во экспериментов по созданию разных tool_kit для проверки агента
Самое важное этот агент sgr_tools_agent.py мой личный фаворит для использования моделей по типу
gpt-4o-mini
gpt-4.1-mini
И схожих им по размеру (как говорит интернет это что-то в районе 40-80b)
Сначала мы занялись поиском бенчмарка, на котором можно протестировать SGR Deep Research
Выбирали из: BESPOKE, FRAMES, MS MARCO, SimpleQA, SealQA
Остановились на SimpleQA так как хотелось проверить возможности агента на поиск фактов!
Нашим ориентиром стал лидерборд из репозитория фреймворка ROMA, в нем приведено сравнение точности различных LLM на SimpleQA, встроенных в поисковый движок
Тестовый прогон на SimpleQA Verified
Перед запуском на SimpleQA (4326 вопросов/ответов)
решили провести тестирование на урезанной версии SimpleQA Verified (1000 вопросов/ответов).
Для оценки правильности ответов мы использовали подход LLM-as-a-judge, где в качестве судьи выбрали gpt-4o
Для старта в качестве агента для SGR Deep Research взяли sgr_auto_tool_calling_agent.py,
Точность оценивали у двух LLM: gpt-4.1-mini и gpt-4o-mini.
Результат на SimpleQA Verified получили следующий:
gpt-4.1-mini → Accuracy: 0.792
gpt-4o-mini → Accuracy: 0.705
Вывод: gpt-4.1-mini оказался точнее
А режим auto мешал агенту и превращал его в чатбота, такое нам не надо
С ним идем на полный SimpleQA но убираем режим auto у тулов и переключаемся в required sgr_tools_agent.py.
Оценка SGR Deep Research на SimpleQA
В качестве LLM выбрали gpt-4.1-mini, а в качестве агента - sgr_tool_calling_agent.
Произвели все изменения что я описал выше учитывая незначительные дополнительные правила и указания
(фититься под бенчмарк не хотелось бы как ROMA)
Результат бенчмарка получили следующий:
gpt-4.1-mini → Accuracy: 0.861
Таким образом, опираясь на лидерборд из ROMA, мы смогли занять 7 место среди общего списка, а также 3 МЕСТО среди open-source решений на недорогой модели и самом базовом поиске от Tavily!
Если быть честными на gpt-4.1-mini это первое место так как был использован Tavily Basic (с ограничением на экстракт в 33к символов, что сильно экономит токены)
Более подробное описание параметров запуска, а также результатов тестирования мы выложили репозиторий
Тут есть все
Коды запуска
Коды от Зиона =)
LLM-as-a-judge
Таблица с ответами
Кстати мы не поленились и собрали полный лог каждого прогона можно посмотреть тут
Так что теперь можете не только брать данное решение как лишенное готовых агентных фреймворков,
так и доказать перед командой точность результатами бенчмарка!
Отдельное спасибо нашей open-source команде которая смогла реализовать это:
Ревью кода - Артём
Координирование - я
Подготовка данных и реализация логики тестирования: Максим
Паша наш MCP гуру
Ринат собирает кейсы, и распространяет проект на EN уровне!
Цифры:
232 млн токенов
8к запросов на /search
1200 запросов на /extract
Полный тест такого бенчмарка обошелся в $170
Далее мы планируем оценить работу агента уже на локальных LLM
Репо: https://github.com/vamplabAI/sgr-deep-research
P.S замену tool calling не нужно делать!
Но если очень хочется можно
Мы всех слышим и умеем читать пейперы =)
12👍6🔥6❤1
Media is too big
VIEW IN TELEGRAM
Это генерация, но вот вопрос, -
Сколько, по вашему, времени пройдет, прежде чем такие кадры станут реальностью?
1 год? 3 ?
Ну ведь вряд ли 5 даже, согласитесь.
Т.е. это уже не смотрится как фильм о далёком будущем, скорее как промо ролик к буквально следующей версии, которая может выйти уже на Рождество.
#роботы #Tesla
———
@tsingular
Сколько, по вашему, времени пройдет, прежде чем такие кадры станут реальностью?
1 год? 3 ?
Ну ведь вряд ли 5 даже, согласитесь.
Т.е. это уже не смотрится как фильм о далёком будущем, скорее как промо ролик к буквально следующей версии, которая может выйти уже на Рождество.
#роботы #Tesla
———
@tsingular
💯23🔥13🆒3❤2😢2👾2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Только вот руку за $5.5 смотрели, а вот уже проект Tetherai.ai за $314 похожую предлагает.
Она, правда, без актуаторов в суставах, на веревочках, но зато оупенсорс и, похоже, вполне печатается на принтере.
18кг поднимает. см. комменты.
Всегда найдётся китаец, который все сделает лучше и дешевле.
Исходники
😀
#tetherai #роботы #руки
------
@tsingular
Она, правда, без актуаторов в суставах, на веревочках, но зато оупенсорс и, похоже, вполне печатается на принтере.
18кг поднимает. см. комменты.
Всегда найдётся китаец, который все сделает лучше и дешевле.
Исходники
😀
#tetherai #роботы #руки
------
@tsingular
⚡14👍11👌4🤔3✍2❤1💯1🆒1
Forwarded from RoboFuture
На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.
Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.
Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.
Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.
Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский
Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.
Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.
Как запускать и то и другое описал в ридми.
Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.
Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.
Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.
Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский
Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.
Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.
Как запускать и то и другое описал в ридми.
Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
👍15❤12🔥9✍1🙏1🤣1
Media is too big
VIEW IN TELEGRAM
SharpaWave - новая рука из Сингапура от Sharp Robotics.
Выглядит невероятно.
Шестеренки эти особенно.
Это же как наручные часы, в принципе. Намного сложнее, чем связки или только актуаторы.
Космос, в общем. Вероятно как и цена.
В коммент кину еще видео со стенда.
#Sharp #SharpaWave
------
@tsingular
Выглядит невероятно.
Шестеренки эти особенно.
Это же как наручные часы, в принципе. Намного сложнее, чем связки или только актуаторы.
Космос, в общем. Вероятно как и цена.
В коммент кину еще видео со стенда.
#Sharp #SharpaWave
------
@tsingular
🔥44👀14👍10❤3⚡2🏆1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Will Smith в Veo 3.1
Мне кажется, это уже AGI...
Тут и звук, и макаронина.
Сколько Виллов Смитов дадим?
@cgevent
Мне кажется, это уже AGI...
Тут и звук, и макаронина.
Сколько Виллов Смитов дадим?
@cgevent
🔥15👍12⚡2👾1
После поездки собралось около 500 фоток разных.
Причем все в перемешку.
И виды на город и слайды с конференции.
Написал сортировщик, который с помощью локальной модели на ноутбуке их распознает и раскидывает по разным папкам с моделью gemma3:27b и в базе делает описание каждой.
очень удобный этот ваш ИИ.
как отработает, посмотрю результат и может выложу на гите через пару дней.
обработка 1 фотки - 18 секунд
#dev
———
@tsingular
Причем все в перемешку.
И виды на город и слайды с конференции.
Написал сортировщик, который с помощью локальной модели на ноутбуке их распознает и раскидывает по разным папкам с моделью gemma3:27b и в базе делает описание каждой.
очень удобный этот ваш ИИ.
как отработает, посмотрю результат и может выложу на гите через пару дней.
обработка 1 фотки - 18 секунд
#dev
———
@tsingular
🔥22✍8❤3
В последнее время много споров на эту тему, а тем временем IBM в своей инструкции 1979 года уже все обозначили.
ну и теперь обновили рекомендации.
Кратко: держите человека "под рукой" если решения ответственные, но часть низкорисковых все-таки можно доверить ИИ.
source
#IBM #риски #документация
———
@tsingular
«Компьютер никогда не может быть привлечен к ответственности, поэтому компьютер никогда не должен принимать управленческие решения».
– IBM Training Manual, 1979
ну и теперь обновили рекомендации.
Кратко: держите человека "под рукой" если решения ответственные, но часть низкорисковых все-таки можно доверить ИИ.
source
#IBM #риски #документация
———
@tsingular
✍13👍5😁3⚡2❤1