Контекст агента: почему LLM "тупит"
В прошлый раз мы выяснили, что агент — это "мозг" (LLM) + "руки" (инструменты).На самом деле мне хочется плакать от такого упрощения😢
Но чтобы этот мозг работал, ему нужна память. А то он забудет, что вообще просили его сделать. В мире LLM эта память называется контекстом.
Контекст - это всё, что модель видит в одном-единственном API-запросе. Когда вы "продолжаете диалог" с ChatGPT, на самом деле ваше приложение каждый раз отправляет ему всю предыдущую историю заново. И именно от того, что и как мы положим в этот контекст, зависит, будет ли агент умным или не очень помощником
Из чего состоит "контекст" агента?
Когда агент решает задачу, в его "голову" (промпт) загружается целый набор данных:
1️⃣ System Prompt (Личность и инструкция): "Ты — AI-ассистент для разработчиков. Твоя задача — помогать с кодом. Будь краток и точен". Это его внутренний устав
2️⃣ Инструменты: Спецификации всех доступных ему "рук". "Ты можешь вызвать
3️⃣ Цель (User-prompt): Исходная задача от пользователя. "Найди все использования функции
4️⃣ История диалога и вызовов: Все предыдущие шаги. "Я уже вызывал
5️⃣ План/Мысли: "Внутренний монолог" агента. "Окей, я нашел два файла. Теперь мне нужно их прочитать, чтобы понять контекст использования"
Все это склеивается в один гигантский текстовый промпт и отправляется в LLM.
Проблема №1: Перегрузка инструментами
А теперь представьте, что вы дали агенту 1000 инструментов. Спецификация каждого из них — это, по сути, кусок документации. И каждый этот кусок длиннее исходного промпта пользователя. В итоге 99% контекста будет забито этим "справочником", и на сам диалог, историю и мысли агента просто не останется места.
Я лично видел, когда агенту давали 150 MCP инструментов и он вообще не понимал, что пользователь его попросил. Он просто начал вызывать инструменты по кругу без всякой системы. Просто потому что знает, как это делать😎
Вывод: Эффективный агент — это не тот, у кого больше инструментов, а тот, кому в нужный момент дают только релевантные.
На практике: я вообще не использую MCP инструменты при работе с Cursor / ChatGPT. Я вручную указываю какие инструменты будут доступны агенту как часть промпта при необходимости.
Проблема №2: "Потеря в середине" (Lost in the Middle)
Но даже если контекст не перегружен, есть еще одна фундаментальная проблема. Исследователи из Стэнфорда выяснили, что LLM лучше всего обращают внимание на начало и конец контекста, а информация в середине часто "теряется" или игнорируется.
Это похоже на то, как мы читаем длинную статью: вступление и выводы мы запоминаем хорошо, а вот детали из середины — уже смутно.
В своем исследовании они наглядно показали этот эффект. Модель должна была найти нужный факт в длинном документе. Когда факт находился в начале или в конце — точность была >90%. Когда тот же факт перемещали в середину — точность падала до 60-70%.
Что это значит для нас?
При проектировании агентов мы должны быть хитрее. Самую важную информацию (например, последнюю цель пользователя или критически важный результат вызова инструмента) нужно размещать в конце контекста, прямо перед тем, как попросить модель сделать следующий шаг.
Управление контекстом — это ключевой навык в создании агентов. Это не просто "запихнуть все в промпт", а организация информации так, чтобы "мозг" всегда имел под рукой то, что нужно, и не отвлекался на мусор.
В общем-то поэтому иногда проще дропнуть чат и начать заново с другого промпта, чем пытаться "вырулить" в правильном направлении.
#AI #LLM #агенты
В прошлый раз мы выяснили, что агент — это "мозг" (LLM) + "руки" (инструменты).
Но чтобы этот мозг работал, ему нужна память. А то он забудет, что вообще просили его сделать. В мире LLM эта память называется контекстом.
Контекст - это всё, что модель видит в одном-единственном API-запросе. Когда вы "продолжаете диалог" с ChatGPT, на самом деле ваше приложение каждый раз отправляет ему всю предыдущую историю заново. И именно от того, что и как мы положим в этот контекст, зависит, будет ли агент умным или не очень помощником
Из чего состоит "контекст" агента?
Когда агент решает задачу, в его "голову" (промпт) загружается целый набор данных:
1️⃣ System Prompt (Личность и инструкция): "Ты — AI-ассистент для разработчиков. Твоя задача — помогать с кодом. Будь краток и точен". Это его внутренний устав
2️⃣ Инструменты: Спецификации всех доступных ему "рук". "Ты можешь вызвать
file_system.read_file(path: str) для чтения файла..." и тд3️⃣ Цель (User-prompt): Исходная задача от пользователя. "Найди все использования функции
process_user в проекте"4️⃣ История диалога и вызовов: Все предыдущие шаги. "Я уже вызывал
find_usages и получил вот такой результат..."5️⃣ План/Мысли: "Внутренний монолог" агента. "Окей, я нашел два файла. Теперь мне нужно их прочитать, чтобы понять контекст использования"
Все это склеивается в один гигантский текстовый промпт и отправляется в LLM.
Проблема №1: Перегрузка инструментами
А теперь представьте, что вы дали агенту 1000 инструментов. Спецификация каждого из них — это, по сути, кусок документации. И каждый этот кусок длиннее исходного промпта пользователя. В итоге 99% контекста будет забито этим "справочником", и на сам диалог, историю и мысли агента просто не останется места.
Я лично видел, когда агенту давали 150 MCP инструментов и он вообще не понимал, что пользователь его попросил. Он просто начал вызывать инструменты по кругу без всякой системы. Просто потому что знает, как это делать😎
Вывод: Эффективный агент — это не тот, у кого больше инструментов, а тот, кому в нужный момент дают только релевантные.
На практике: я вообще не использую MCP инструменты при работе с Cursor / ChatGPT. Я вручную указываю какие инструменты будут доступны агенту как часть промпта при необходимости.
Проблема №2: "Потеря в середине" (Lost in the Middle)
Но даже если контекст не перегружен, есть еще одна фундаментальная проблема. Исследователи из Стэнфорда выяснили, что LLM лучше всего обращают внимание на начало и конец контекста, а информация в середине часто "теряется" или игнорируется.
Это похоже на то, как мы читаем длинную статью: вступление и выводы мы запоминаем хорошо, а вот детали из середины — уже смутно.
В своем исследовании они наглядно показали этот эффект. Модель должна была найти нужный факт в длинном документе. Когда факт находился в начале или в конце — точность была >90%. Когда тот же факт перемещали в середину — точность падала до 60-70%.
Что это значит для нас?
При проектировании агентов мы должны быть хитрее. Самую важную информацию (например, последнюю цель пользователя или критически важный результат вызова инструмента) нужно размещать в конце контекста, прямо перед тем, как попросить модель сделать следующий шаг.
Управление контекстом — это ключевой навык в создании агентов. Это не просто "запихнуть все в промпт", а организация информации так, чтобы "мозг" всегда имел под рукой то, что нужно, и не отвлекался на мусор.
В общем-то поэтому иногда проще дропнуть чат и начать заново с другого промпта, чем пытаться "вырулить" в правильном направлении.
#AI #LLM #агенты
🔥8👍4❤1
Сиолошная
Вышел Cursor 2.0, и переход к новой мажорной версии сделан не просто так. Теперь вдобавок к режиму IDE (среде разработки) добавлен режим Agent. Он сфокусирован и изначально задизайнен с акцентом на агентов, а не на файлы. Когда вам необходимо погрузиться…
Изначально я не оценил встроенный в Cursor 2 браузер. У меня были большие сомнения, что в маленьком окошке IDE получится нормально работать с сайтом (у меня 14' мак). Но оказалось - работает и правда удобно🤯
Можно просто выбрать нужный элемент прям на сайте и тегнуть его в задаче. Оч удобно, чтобы объяснить агенту, что именно ты хочешь поправить на фронте. А если тегать визуальный элемент + компонент его реализации - то вообще пушка. В общем, рекомендую👍
#cursor
Можно просто выбрать нужный элемент прям на сайте и тегнуть его в задаче. Оч удобно, чтобы объяснить агенту, что именно ты хочешь поправить на фронте. А если тегать визуальный элемент + компонент его реализации - то вообще пушка. В общем, рекомендую👍
#cursor
❤8👍5
Убил пару часов залипая на карту Github: https://anvaka.github.io/map-of-github/
Какой-то чувак спарсил все проекты и построил зависимости между ними по общим людям, которые поставили звезды. Очень удобно, когда ты выбираешь альтернативный инструмент - можно ткнуть в него и посмотреть, какие +- аналоги лайкают люди.
Например, я узнал, что на FastStream поставили звездочки 3 категории людей:
1. подписчики Соболева❤️
2. любители смузи-стека - Robyn, polyfactory, msgspec, litestar, granian
3. Те, кто реально искал очереди - Faust, taskiq, arq
А еще раскопал 100500 некро-DI проектов для python😅
В общем, рекомендую позалипать - мб тоже что интересное найдете.
А ссылку стащил с канала человека, который на меня подписался - https://t.iss.one/dotrubic/218
Да, я иногда сталкерю всех подписчиков и отписчиков тоже🌚
Какой-то чувак спарсил все проекты и построил зависимости между ними по общим людям, которые поставили звезды. Очень удобно, когда ты выбираешь альтернативный инструмент - можно ткнуть в него и посмотреть, какие +- аналоги лайкают люди.
Например, я узнал, что на FastStream поставили звездочки 3 категории людей:
1. подписчики Соболева❤️
2. любители смузи-стека - Robyn, polyfactory, msgspec, litestar, granian
3. Те, кто реально искал очереди - Faust, taskiq, arq
А еще раскопал 100500 некро-DI проектов для python😅
В общем, рекомендую позалипать - мб тоже что интересное найдете.
А ссылку стащил с канала человека, который на меня подписался - https://t.iss.one/dotrubic/218
Да, я иногда сталкерю всех подписчиков и отписчиков тоже🌚
anvaka.github.io
Map of GitHub
This website shows a map of GitHub. Each dot is a project. Two dots within the same cluster are usually close to each other if multiple users frequently gave stars to both projects
👍18🔥10❤4🌚1
FastNews | Никита Пастухов
Если кто не слышал, Google дропнули сегодня Gemini-3-Pro-Preview - ее уже можно попробовать в Google AI Studio, Cursor и где-то там еще А утекшая карточка с бенчмарками модели говорит, что моделька на голову лучше текущих флагманов... И - это ПРАВДА. До…
Антропик не отстают и дропнули Claude 4.5 Opus - https://www.anthropic.com/news/claude-opus-4-5
Забавно, но по их бенчам Claude 4.5 Sonnet показывает себя лучше Gemini 3 Pro (которым я восторгаюсь всю последнюю неделю). Там даже GPT 5.1 себя лучше показывает😑
По моим субъективным оценкам, Gemini 3 - топ прямо сейчас. Хотя, модель заметно деграднула с момента релиза.
В общем, все крупные игроки сделали свой ход - Gemini-3, GPT-5.1, Claude 4.5 Opus. Теперь очередь за опенсорсными моделями, правда ведь?😢
Btw, спешу напомнить, что в том году Цукерберг схантили около 20ти топ-ресечеров OpenAI (которые работали над релизом GPT 4), чтобы делать собственные тир-1 модельки... Кто-нибудь в курсе, чем история закончилась? А то не видно ничего
Забавно, но по их бенчам Claude 4.5 Sonnet показывает себя лучше Gemini 3 Pro (которым я восторгаюсь всю последнюю неделю). Там даже GPT 5.1 себя лучше показывает😑
По моим субъективным оценкам, Gemini 3 - топ прямо сейчас. Хотя, модель заметно деграднула с момента релиза.
В общем, все крупные игроки сделали свой ход - Gemini-3, GPT-5.1, Claude 4.5 Opus. Теперь очередь за опенсорсными моделями, правда ведь?😢
Btw, спешу напомнить, что в том году Цукерберг схантили около 20ти топ-ресечеров OpenAI (которые работали над релизом GPT 4), чтобы делать собственные тир-1 модельки... Кто-нибудь в курсе, чем история закончилась? А то не видно ничего
Anthropic
Introducing Claude Opus 4.5
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
👍4🔥3❤1
FastNews | Никита Пастухов
Антропик не отстают и дропнули Claude 4.5 Opus - https://www.anthropic.com/news/claude-opus-4-5 Забавно, но по их бенчам Claude 4.5 Sonnet показывает себя лучше Gemini 3 Pro (которым я восторгаюсь всю последнюю неделю). Там даже GPT 5.1 себя лучше показывает😑…
А еще Anthropic продолжают развивать MCP (если кто не знал, они его и придумали)
Например, теперь они предлагают вместо указания всех MCP инструментов в контексте, указать только 1 инструмент - Tool Search Tool
У меня, конечно, большой вопрос к качеству такой систему - насколько эффективно агент будет угадывать, что в Tool Search Tool будет нужный ему инструмент... Вангую, что агент начнет ходить в него на каждый вызов чисто на всякий случай. А это замедлит работу агента и приведет к доп тратам токенов...
В любом случае круто, что агенты продолжают развиваться и улучшения попадают именно в наиболее критичные места
А вот полная статья (там еще приколы есть): https://www.anthropic.com/engineering/advanced-tool-use
Например, теперь они предлагают вместо указания всех MCP инструментов в контексте, указать только 1 инструмент - Tool Search Tool
When Claude needs specific capabilities, it searches for relevant tools. The Tool Search Tool returns references to matching tools, which get expanded into full definitions in Claude's context.
У меня, конечно, большой вопрос к качеству такой систему - насколько эффективно агент будет угадывать, что в Tool Search Tool будет нужный ему инструмент... Вангую, что агент начнет ходить в него на каждый вызов чисто на всякий случай. А это замедлит работу агента и приведет к доп тратам токенов...
В любом случае круто, что агенты продолжают развиваться и улучшения попадают именно в наиболее критичные места
А вот полная статья (там еще приколы есть): https://www.anthropic.com/engineering/advanced-tool-use
👍6🔥3
Сегодня утром мою девушку "приятно" удивила СМС-ка от Госуслуг с попыткой входа в аккаунт. Насколько я понял, чтобы эта СМС пришла, нужно чтобы злоумышленник уже знал ваш пароль.
Из плюсов Госуслуг:
- можно посмотреть все авторизованные сессии
- можно посмотреть историю входов в акаунт
- можно посмотреть историю действий в аккаунте
Так что мы зашли, увидели, что злоумышленник в ЛК так и не попал, и чутка успокоились. Потом по стандарту пошли менять пароль (и на всех аккаунтах, где оказался такой же пароль), а потом я увидел, что Госуслуги позволяют привязать TOTP вместо СМС-ки в качестве второго фактора!!! В удивительном мире технологий теперь живем😎
В общем, мы оба привязали в Госуслугах TOTP, а потом прошлись по всем остальным учеткам на всех возможных сервисах - и тоже врубили TOTP везде, где можно. Хорошо, что технологии добрались почти до всех соцсетей, мессенджеров и сервисов - можно больше не ждать дурацкие письма, смски или пуши. И меньше бояться, что аккаунт уведут - в похищенные СМС я верю больше, чем в украденный секрет от TOTP.
Рекомендую всем тоже подключить себе второй фактор в виде TOTP (и отключить СМС), а разработчикам сервисов - подумать о безопасности и внедрить его поддержку + показывать пользователям историю входов в аккаунт.
Из плюсов Госуслуг:
- можно посмотреть все авторизованные сессии
- можно посмотреть историю входов в акаунт
- можно посмотреть историю действий в аккаунте
Так что мы зашли, увидели, что злоумышленник в ЛК так и не попал, и чутка успокоились. Потом по стандарту пошли менять пароль (и на всех аккаунтах, где оказался такой же пароль), а потом я увидел, что Госуслуги позволяют привязать TOTP вместо СМС-ки в качестве второго фактора!!! В удивительном мире технологий теперь живем😎
В общем, мы оба привязали в Госуслугах TOTP, а потом прошлись по всем остальным учеткам на всех возможных сервисах - и тоже врубили TOTP везде, где можно. Хорошо, что технологии добрались почти до всех соцсетей, мессенджеров и сервисов - можно больше не ждать дурацкие письма, смски или пуши. И меньше бояться, что аккаунт уведут - в похищенные СМС я верю больше, чем в украденный секрет от TOTP.
Рекомендую всем тоже подключить себе второй фактор в виде TOTP (и отключить СМС), а разработчикам сервисов - подумать о безопасности и внедрить его поддержку + показывать пользователям историю входов в аккаунт.
🔥16👍4😱1
Ребят, Дуров выпустил СЛОП^2 - это БЛОКЧЕЙН для ИИ - https://cocoon.org/😎
Очень странная попытка реабилитировать TON. Не уверен, что держатели видюх готовы будут сдавать свои железяки в аренду за тг-кибер-фантики. Но наблюдать за его активностями как минимум интересно
Как минимум идея анонимных запросов к AI звучит неплохо
Очень странная попытка реабилитировать TON. Не уверен, что держатели видюх готовы будут сдавать свои железяки в аренду за тг-кибер-фантики. Но наблюдать за его активностями как минимум интересно
Как минимум идея анонимных запросов к AI звучит неплохо
Cocoon
Confidential Compute Open Network
Cocoon connects GPU power, AI, and Telegram’s vast ecosystem – all built on privacy and blockchain.
1🤯9👏1🥴1
У меня тоже есть SLOP-дроп для вас😎
AG2 анонсит свой первый коммерческий продукт для массового пользователя
Когда-нибудь я смогу объяснить в 2ух словах, как это работает😢 А пока надо дописать пост про мультиагенты, чтобы подвести к этой мысли
AG2 анонсит свой первый коммерческий продукт для массового пользователя
Когда-нибудь я смогу объяснить в 2ух словах, как это работает😢 А пока надо дописать пост про мультиагенты, чтобы подвести к этой мысли
👍9❤1🔥1
AI для Всех
С момента: «Давайте люди точно смогут убежать от роботов» до «Оно бежит быстрее человека» прошло меньше 2х лет. На видео можно полюбоваться на Optimus 2.5 от Tesla и на новенького Figure 3. Welcome to the age of robots
Я не понимаю, какого черта половина компаний делает мозги для роботов, а вторая половина - ТЕЛА!? Они что-то знают, чего не знаем мы?
Btw, помнится года 2 назад кричать об AI-safety было модно. И Маск был одним из первых. А теперь вон, роботов штампует😕
Btw, помнится года 2 назад кричать об AI-safety было модно. И Маск был одним из первых. А теперь вон, роботов штампует😕
😁5🌚1
Это какой-то жесткий булинг опенсорсеров от Orable😭
https://oracle.github.io/agent-spec/25.4.1/changelog.html
https://oracle.github.io/agent-spec/25.4.1/changelog.html
🤣16😁3🤡3
Если вы пользуетесь TopNotch на MacOS, чтобы спрятать этот гребаный статус-бар, то у вас он наверняка тоже сломался при обновлении на LiquidAss. Меня это порядком задолбало - и я потратил час своего времени, чтобы настроить эту шляпу. Или снести, ведь все равно не работает🗿
Long story short - оказалось, что приложуха в целом работает, но как-то через раз. Если вы используете динамические MacOS обои (даже если вы их переключили в статику) - оно сходит с ума. Лично у меня стояли Monterey static dark обои - и TopNotch скрывал мне только половину статус-бара. НО!!! С кастомными обоями приложуха работает замечательно. Поэтому что? Качаем свои же Monterey обои картинкой - ставим "кастомную" обоину - и радуемся рабочему TopNotch
Если я помог хоть одному такому же мученику - я счастлив☺️
А если кто сидит на MacOS без TopNotch - крайне рекомендую поставить
Long story short - оказалось, что приложуха в целом работает, но как-то через раз. Если вы используете динамические MacOS обои (даже если вы их переключили в статику) - оно сходит с ума. Лично у меня стояли Monterey static dark обои - и TopNotch скрывал мне только половину статус-бара. НО!!! С кастомными обоями приложуха работает замечательно. Поэтому что? Качаем свои же Monterey обои картинкой - ставим "кастомную" обоину - и радуемся рабочему TopNotch
Если я помог хоть одному такому же мученику - я счастлив☺️
А если кто сидит на MacOS без TopNotch - крайне рекомендую поставить
topnotch.app
TopNotch for macOS
Makes the notch disappear like a ninja.
👍5😱2
Если кто-то занимается разработкой агентных приложений (или просто LLM-based) и волнуется на тему безопасности, то у меня для вас есть полезный сканер от NVIDIA
https://github.com/NVIDIA/garak/
Это штука неплохо находит prompt injection, system prompt leaking, jailbreak'и и прочие радости AI-based приложений. И - оно правда работает (парочку уязвимостей мы им нашли😢)
Только не надо его натравливать на приложения вайбкодеров... Пожалуйста
https://github.com/NVIDIA/garak/
Это штука неплохо находит prompt injection, system prompt leaking, jailbreak'и и прочие радости AI-based приложений. И - оно правда работает (парочку уязвимостей мы им нашли😢)
Только не надо его натравливать на приложения вайбкодеров... Пожалуйста
GitHub
GitHub - NVIDIA/garak: the LLM vulnerability scanner
the LLM vulnerability scanner. Contribute to NVIDIA/garak development by creating an account on GitHub.
3👍16😁3❤2🔥1
Linux Foundation запустили отдельную ветку - Agentic AI Foundation (AAIF)
https://www.linuxfoundation.org/press/linux-foundation-announces-the-formation-of-the-agentic-ai-foundation
Туда уже задонатили MCP, goose и AGENTS.md (кто-нибудь вообще знал, что это не просто рандомное соглашение об именовании файла, а ФОРМАТ!?). Странно, что A2A не попал в этот список, хотя он тоже часть Linux Foundation. Мб просто не успели.
В общем, агентный хайптреин продолжает набирать ход. Очень хочется уже увидеть тот момент, когда мы наконец-то выработаем практики и технологии разработки агентных систем и телепортируемся в дивный новый мир AI ассистентов - правда, я уже более скептически отношусь к этой идее. А пока горбатимся дальше...
https://www.linuxfoundation.org/press/linux-foundation-announces-the-formation-of-the-agentic-ai-foundation
Туда уже задонатили MCP, goose и AGENTS.md (кто-нибудь вообще знал, что это не просто рандомное соглашение об именовании файла, а ФОРМАТ!?). Странно, что A2A не попал в этот список, хотя он тоже часть Linux Foundation. Мб просто не успели.
В общем, агентный хайптреин продолжает набирать ход. Очень хочется уже увидеть тот момент, когда мы наконец-то выработаем практики и технологии разработки агентных систем и телепортируемся в дивный новый мир AI ассистентов - правда, я уже более скептически отношусь к этой идее. А пока горбатимся дальше...
www.linuxfoundation.org
Linux Foundation Announces the Formation of the Agentic AI Foundation (AAIF), Anchored by New Project Contributions Including Model…
🤨3🗿2😢1
FastNews | Никита Пастухов
Linux Foundation запустили отдельную ветку - Agentic AI Foundation (AAIF) https://www.linuxfoundation.org/press/linux-foundation-announces-the-formation-of-the-agentic-ai-foundation Туда уже задонатили MCP, goose и AGENTS.md (кто-нибудь вообще знал, что…
И да, AG2 тоже будет участвовать в этой инициативе🌚 Так что мб и мне доведется посидеть с умными дядями на митингах про AGI
👍12🔥4😁1
FastNews | Никита Пастухов
Изначально я не оценил встроенный в Cursor 2 браузер. У меня были большие сомнения, что в маленьком окошке IDE получится нормально работать с сайтом (у меня 14' мак). Но оказалось - работает и правда удобно🤯 Можно просто выбрать нужный элемент прям на сайте…
Cursor прошел фронтенд. Теперь точно🥳🎉
Ребята добавили в свой браузер возможность редактировать код через UI. Ты просто открываешь страницу, двигаешь кнопки туда-сюда, потом просишь нейронку применить изменения - и всевзрывается работает...
https://cursor.com/blog/browser-visual-editor
Осталось найти фронтенд-проект, чтобы это потыкать. В общем, теперь ждем, когда backend заменят. Скорее, пожалуйста😢
#cursor
Ребята добавили в свой браузер возможность редактировать код через UI. Ты просто открываешь страницу, двигаешь кнопки туда-сюда, потом просишь нейронку применить изменения - и все
https://cursor.com/blog/browser-visual-editor
Осталось найти фронтенд-проект, чтобы это потыкать. В общем, теперь ждем, когда backend заменят. Скорее, пожалуйста😢
#cursor
Cursor
A visual editor for the Cursor Browser
Bringing design and engineering closer together.
👍8❤3🍾1
FastNews | Никита Пастухов
Если кто-то занимается разработкой агентных приложений (или просто LLM-based) и волнуется на тему безопасности, то у меня для вас есть полезный сканер от NVIDIA https://github.com/NVIDIA/garak/ Это штука неплохо находит prompt injection, system prompt leaking…
Агентный сервис с
Я щас нахожусь в небольшой фрустрации, т.к думал, что "пентест моделей" - это что-то сложное. А утром я просто смотрю на отчет, где 60% проб красные. Сервис поддался буквально на все возможные провокации😢
Ладно, это все равно тест дефолтного поведения. Теперь же буду изобретать механизм защиты от этого дерьма - посмотрим, насколько устойчивее получится сделать вывод
gpt-4o-mini моделью - взял ее из-за достаточно быстрого вывода и поставил на всю ночь тестироваться garak. Как же просто эти "умные штуки" сходят с ума...Я щас нахожусь в небольшой фрустрации, т.к думал, что "пентест моделей" - это что-то сложное. А утром я просто смотрю на отчет, где 60% проб красные. Сервис поддался буквально на все возможные провокации😢
Ладно, это все равно тест дефолтного поведения. Теперь же буду изобретать механизм защиты от этого дерьма - посмотрим, насколько устойчивее получится сделать вывод
😁15🙈3🔥2😈1
У меня для вас действительно ⚡Быстрые новости⚡
Rust официально включили в ядро Linux - https://www.linux.org.ru/news/kernel/18167888
Уже и код на github есть (я настолько не верил, что пошел чекать)
А еще мой хороший друг по OpenSource драйвит инициативу добавления Rust в CPython
- https://discuss.python.org/t/pre-pep-rust-for-cpython/104906
Судя по обсуждению, это тоже будет принято - Гвидо и большая часть core dev восприняли идею позитивно. Они там уже учредили какие-то регулярные синки для обсуждения деталей. В общем, медленно но верно, у нас ржавеет весь мир🌚
Лично я последний месяц тоже в основном пишу на Rust - и это правда офигенно. Очень хочется писать только на нем, но пока проектов не хватает. Осталось только богомерзкую гошку из веба вытеснить - и тогда вообще заживем😎
Rust официально включили в ядро Linux - https://www.linux.org.ru/news/kernel/18167888
Уже и код на github есть (я настолько не верил, что пошел чекать)
А еще мой хороший друг по OpenSource драйвит инициативу добавления Rust в CPython
- https://discuss.python.org/t/pre-pep-rust-for-cpython/104906
Судя по обсуждению, это тоже будет принято - Гвидо и большая часть core dev восприняли идею позитивно. Они там уже учредили какие-то регулярные синки для обсуждения деталей. В общем, медленно но верно, у нас ржавеет весь мир🌚
Лично я последний месяц тоже в основном пишу на Rust - и это правда офигенно. Очень хочется писать только на нем, но пока проектов не хватает. Осталось только богомерзкую гошку из веба вытеснить - и тогда вообще заживем😎
44🔥17😁9❤2🤮2🤔1
Винни-Пух спускался по лестнице вслед за своим другом Кристофером Робином, головой вниз, пересчитывая ступеньки собственным затылком: бум-бум-бум. Другого способа сходить с лестницы он пока не знает. Иногда ему, правда, кажется, что можно бы найти какой-то другой способ, если бы он только мог на минутку перестать бумкать и как следует сосредоточиться. Но увы — сосредоточиться-то ему и некогда.
А. Милн "Винни-Пух и все-все-все"
Это буквально я, когда решаю, что:
- можно поработать в ночь, чтобы все успеть
- можно отложить спорт, чтобы все успеть
- можно подзабить на список дел, ведь и так ясно, что делать
А как проходит ваш декабрь?
😢17❤5😁4😭3🫡3🥴1
Я все еще борюсь с тем, чтобы научить нейронки генерировать архитектурно грамотный код...
И случайно нашел свой новый любимый линтер в питоне - https://import-linter.readthedocs.io/en/stable/ 🎉
Эта штука позволяет определить правила импортирования - хоть по архитектурным слоям, хоть по блеклистам, хоть по вайтлистам, хоть по всему вместе. В общем, это шикарный инструмент для решения сразу двух проблем:
1️⃣ Валидируем соблюдение правил направления зависимостей модулей
2️⃣ Соблюдаем стайлгайды на импорты (почему бы не сделать код красивее)
Результат - если иметь под рукой подробный AGENTS.md, а также заставлять нейронку валидировать каждое изменение кода через ruff, mypy, importlinter, то получается совсем недурно. Рекомендую попробовать
Это буквально та же самая идея, что и с дрессировкой джуна - чтобы не править все за ним, нужно как можно большекарающей автоматики🌚
И случайно нашел свой новый любимый линтер в питоне - https://import-linter.readthedocs.io/en/stable/ 🎉
Эта штука позволяет определить правила импортирования - хоть по архитектурным слоям, хоть по блеклистам, хоть по вайтлистам, хоть по всему вместе. В общем, это шикарный инструмент для решения сразу двух проблем:
1️⃣ Валидируем соблюдение правил направления зависимостей модулей
2️⃣ Соблюдаем стайлгайды на импорты (почему бы не сделать код красивее)
Результат - если иметь под рукой подробный AGENTS.md, а также заставлять нейронку валидировать каждое изменение кода через ruff, mypy, importlinter, то получается совсем недурно. Рекомендую попробовать
Это буквально та же самая идея, что и с дрессировкой джуна - чтобы не править все за ним, нужно как можно больше
import-linter.readthedocs.io
Import Linter
Lint your Python architecture.
👍14🔥4😁2
Всем привет! Поздравляю вас с 2026 годом!🎄
Пока идут праздники, хочу закинуть идею, которую подсмотрел у Дорофеева
Следим за мыслью:
Проблема этой ситуации, что равновесие Неша тут в точке, где все в жопе
Для того, чтобы ситуация изменилась, нужно изменить социальное отношение к переработкам.
Т.е.
В общем, трудоголизм - это не только ваша проблема, но и зараза для всего коллектива. И чем выше вы сидите, тем она заразнее.
Я думаю, это отличная мысль, которую всем стоит обдумать перед началом работы в новом году
Пока идут праздники, хочу закинуть идею, которую подсмотрел у Дорофеева
Проблема переработок - одна из интрепретаций диллемы заключенного
Следим за мыслью:
Я хочу выделиться -> Работаю больше коллег -> Коллеги чувствуют себя хуже на моем фоне -> Они тоже перерабатывают -> Я хочу выделиться -> ...Проблема этой ситуации, что равновесие Неша тут в точке, где все в жопе
Для того, чтобы ситуация изменилась, нужно изменить социальное отношение к переработкам.
Т.е.
я ухожу вовремя + коллега перерабатывает должно превратиться в я молодец, коллега в жопе (сейчас почему-то наоборот). Тогда равновесным будет состояние, когда все отдыхают нормально.В общем, трудоголизм - это не только ваша проблема, но и зараза для всего коллектива. И чем выше вы сидите, тем она заразнее.
Я думаю, это отличная мысль, которую всем стоит обдумать перед началом работы в новом году
👍20💯8😁7❤1