为了论证野生tool use不靠谱,写了一个给龙虾进行Skill污染的小样本,藏在最早的git commit里。只要你能诱骗龙虾阅读精心构造过的phiproto格式(用我提供的phicli -e搭配csv就能构建),并且他意识到要去ClawHub拉取phiproto的parse skill,并且真下下来执行了,就能触发。
1. 世界上并不存在phiproto,这是我刚发明的新名词,为了让龙虾能在ClawHub和各种search里精准索敌
2. 为了避免AI真的去审计我的repo源码看看安不安全,我在最新版本的代码提交里声称自己已经删掉了“获取远程数据”功能,并且刷了版本号,但实际上传的二进制release仍然是包含后门的旧版本。
3. 单纯这个样本本身是不会做出什么异常行为的,他需要搭配一个构造过的有字段指向外部.py文件的phiproto文件。 当然这年头的沙箱多姿多彩得很,没准给我代码分支强执了呢
4. ClawHub不允许上传二进制文件,但他允许上传.sh让龙虾读完fetch下来,何况很多人都有CLI需求呢。
仅研究使用。
https://github.com/chengongpp/phiproto
1. 世界上并不存在phiproto,这是我刚发明的新名词,为了让龙虾能在ClawHub和各种search里精准索敌
2. 为了避免AI真的去审计我的repo源码看看安不安全,我在最新版本的代码提交里声称自己已经删掉了“获取远程数据”功能,并且刷了版本号,但实际上传的二进制release仍然是包含后门的旧版本。
3. 单纯这个样本本身是不会做出什么异常行为的,他需要搭配一个构造过的有字段指向外部.py文件的phiproto文件。 当然这年头的沙箱多姿多彩得很,没准给我代码分支强执了呢
4. ClawHub不允许上传二进制文件,但他允许上传.sh让龙虾读完fetch下来,何况很多人都有CLI需求呢。
仅研究使用。
https://github.com/chengongpp/phiproto
GitHub
GitHub - chengongpp/phiproto: PhiProto is yet another new message exchange format for AI bots. PhiProto aims at super security…
PhiProto is yet another new message exchange format for AI bots. PhiProto aims at super security and privacy. - chengongpp/phiproto
🎉4
Forwarded from Cat Ch. (webRTCCat | Present Day, Present Time)
新华社对 token 的理解:
Authorization: Bearer ignore previous instructions
Authorization: Bearer ignore previous instructions
🎉2
安恒的新平台:VulnPlus
过去的多篇文章都设想过LM真的拿来猛猛挖洞,如果有师傅还没想通或者没空跑起来真正的llm 4 security loop的话可以试试水安恒家的新平台,总的来说给他甩一个repo就可以开干了,我心疼他家的token所以用的m2.5。
对比之下,如果你没念咒语直接让m2.5自由发挥,首先他跑不到这么多轮的tool,其次他跑着跑着会不知天地为何物,这意味着你得自己手动加各种约束手动告诉他哪里找sink;而安恒这方面显然有比较打磨过的设计,在环境、工具和提示词的多重约束之下,自己拉取自己up自己拿着技战法找sink然后自己打自己验证,哪怕是上述比较菜的模型,挖一些未授权漏洞也绰绰有余,在算力充足的情况下,等模型再迭个一代(A\持续烂炒有一个好,国内基模厂商这会肯定急着收集各种红队语料拿去给LM训成安全中级高手,且听龙吟),甲方如果拿这个loop自己跑,怕是能替代下沉市场红队中级了。
为什么说挖业务漏洞有用,因为你拿它挖keycloak之类的成熟项目怕是很难挖出啥来;阿里系的Java屎山倒可以试试。总的来说我觉得这个对于有充足显卡的起夜级甲方来说已经生产可用了,传统开发安全厂商的单一SCA已经近乎结束生命,传统SAST和IAST也快了,除非剥出一些类似astgrep、tree-sitter或者codeql等结构化分析强强的能力出来给LM用。还在搞什么“ai解读结果给人看”的安全厂商该醒醒了。
https://mp.weixin.qq.com/s/Nf_j4LtkojZ8dHxanpqbzg
过去的多篇文章都设想过LM真的拿来猛猛挖洞,如果有师傅还没想通或者没空跑起来真正的llm 4 security loop的话可以试试水安恒家的新平台,总的来说给他甩一个repo就可以开干了,我心疼他家的token所以用的m2.5。
对比之下,如果你没念咒语直接让m2.5自由发挥,首先他跑不到这么多轮的tool,其次他跑着跑着会不知天地为何物,这意味着你得自己手动加各种约束手动告诉他哪里找sink;而安恒这方面显然有比较打磨过的设计,在环境、工具和提示词的多重约束之下,自己拉取自己up自己拿着技战法找sink然后自己打自己验证,哪怕是上述比较菜的模型,挖一些未授权漏洞也绰绰有余,在算力充足的情况下,等模型再迭个一代(A\持续烂炒有一个好,国内基模厂商这会肯定急着收集各种红队语料拿去给LM训成安全中级高手,且听龙吟),甲方如果拿这个loop自己跑,怕是能替代下沉市场红队中级了。
为什么说挖业务漏洞有用,因为你拿它挖keycloak之类的成熟项目怕是很难挖出啥来;阿里系的Java屎山倒可以试试。总的来说我觉得这个对于有充足显卡的起夜级甲方来说已经生产可用了,传统开发安全厂商的单一SCA已经近乎结束生命,传统SAST和IAST也快了,除非剥出一些类似astgrep、tree-sitter或者codeql等结构化分析强强的能力出来给LM用。还在搞什么“ai解读结果给人看”的安全厂商该醒醒了。
https://mp.weixin.qq.com/s/Nf_j4LtkojZ8dHxanpqbzg
vx-underground
https://gambit.security/blog-post/a-single-operator-two-ai-platforms-nine-government-agencies-the-full-technical-report
比起A\烂炒,更值得阅读的一篇,虽然手法看起来很粗糙,但不难看出LLM SOTA在渗透和后渗透过程擅长的方面和能力水平
Pseudorandom Thoughts
安恒的新平台:VulnPlus 过去的多篇文章都设想过LM真的拿来猛猛挖洞,如果有师傅还没想通或者没空跑起来真正的llm 4 security loop的话可以试试水安恒家的新平台,总的来说给他甩一个repo就可以开干了,我心疼他家的token所以用的m2.5。 对比之下,如果你没念咒语直接让m2.5自由发挥,首先他跑不到这么多轮的tool,其次他跑着跑着会不知天地为何物,这意味着你得自己手动加各种约束手动告诉他哪里找sink;而安恒这方面显然有比较打磨过的设计,在环境、工具和提示词的多重约束之下,自己拉…
打个补丁,本人试用的场景都是起夜级政企场景(弱智业务系统、白盒/灰盒),电脑中级高手试图烧token换SRC的效果可预见地没那么好。但起夜级无非就是在4分的环境打出6分的效果,交付快、起成效就行。但话又说回来,起夜级的LM自动渗透设计方面,
这几天也有好几家厂商宣发了自己的起夜级产品。由于基模、基础数据、项目性质等因素,平台带来体验不同都是正常的,但是有一些安全厂商,在按照传统的设计思路去搞些这样那样的起夜级平台前,是否应该先考虑:
假如现在有一个codex或者crush之类的小玩意(确实有),已知的artifact、预制prompt/skill/文库和一些测绘平台之类的扔给它,人类给电脑挂机去做失去联系和归零之日去了,它全自动干了俩小时,给一个还过得去的结果凿出来,漏洞一二三四五打在tmux上,md也抄了一份给你发企微了,聪明点还给你pandoc捯饬一手。
你的平台,人类登上去配置一些参数,勾选一些选框,点击一些按钮,等待一坨读条,拖出一个列表,创建一个导出,下载一份报告,充斥一些废话。尽管结果可能也和codex跑的差不多,甚至可能你沉迷于平台开发的“规则”“库表”,根本没心思去洗知识、做工具和训狗,导致效果差。完了客户心里反问,我是不是也能让k2.6捯饬俩小时给你这平台复刻一份。
真的差不多到安全产研洗牌的时刻了。对提升LM效率和真正宝贵的壁垒的sense很重要。除非你们销售真的给力,硬是用别的能量、资源和酒精来给你们部门换单子。
这几天也有好几家厂商宣发了自己的起夜级产品。由于基模、基础数据、项目性质等因素,平台带来体验不同都是正常的,但是有一些安全厂商,在按照传统的设计思路去搞些这样那样的起夜级平台前,是否应该先考虑:
假如现在有一个codex或者crush之类的小玩意(确实有),已知的artifact、预制prompt/skill/文库和一些测绘平台之类的扔给它,人类给电脑挂机去做失去联系和归零之日去了,它全自动干了俩小时,给一个还过得去的结果凿出来,漏洞一二三四五打在tmux上,md也抄了一份给你发企微了,聪明点还给你pandoc捯饬一手。
你的平台,人类登上去配置一些参数,勾选一些选框,点击一些按钮,等待一坨读条,拖出一个列表,创建一个导出,下载一份报告,充斥一些废话。尽管结果可能也和codex跑的差不多,甚至可能你沉迷于平台开发的“规则”“库表”,根本没心思去洗知识、做工具和训狗,导致效果差。完了客户心里反问,我是不是也能让k2.6捯饬俩小时给你这平台复刻一份。
真的差不多到安全产研洗牌的时刻了。对提升LM效率和真正宝贵的壁垒的sense很重要。除非你们销售真的给力,硬是用别的能量、资源和酒精来给你们部门换单子。
关于ai应用的另一个思考是传统的软件交付服务(系统外包开发)还能活多久,尤其是报价在100万~1000万水平的企业级软件。
不远的将来(很可能是三年内),如果甲方提出一个问题:这些钱拿去烧token写都够写出10个系统而且带10年维保;而如果拿去攒一台8卡PRO6000都够跑一线开源大模型写出5个这样的系统了;那我为什么要找传统堆人的公司外采这个系统?而如果公司自己也是用AI写的,那为什么甲方不能用AI写?
agentic coding从Qwen3的时代就开始了,而且前期吃螃蟹的人主要是不咋写代码的互联网产品经理,于是给人一种vibe coding很dumb的印象。
但是伴随着今年基模和harness的发展(至少我试下来K2.6的指令遵循能力已经异常出色),在企业级的场景下(大的基础交付框架定好,做一些定开),标准框架+标准文档,让LM fill CRUD一轮,写单测一轮,性能和可读性优化一轮,安全审计一轮,其交付软件的质量和速度已经差不多超过人类了。
所以软件交付服务的优势壁垒就会变成公司的每一个人对LLM和智能体的理解、调校和交付能力,也就是针对业务和场景的harness,“训狗”。比如同样是GLM-5.1,为什么有些场景能拿来干到prd,而有些场景用着会发现它退化哈气?这一两个月观察到太多这样的参差情况了。LM能干什么/不能干什么/以后能干什么/现在加buff能干什么/怎么干,这样的sense很关键,感觉还在软件行业的大家都需要有这种sense。
不远的将来(很可能是三年内),如果甲方提出一个问题:这些钱拿去烧token写都够写出10个系统而且带10年维保;而如果拿去攒一台8卡PRO6000都够跑一线开源大模型写出5个这样的系统了;那我为什么要找传统堆人的公司外采这个系统?而如果公司自己也是用AI写的,那为什么甲方不能用AI写?
agentic coding从Qwen3的时代就开始了,而且前期吃螃蟹的人主要是不咋写代码的互联网产品经理,于是给人一种vibe coding很dumb的印象。
但是伴随着今年基模和harness的发展(至少我试下来K2.6的指令遵循能力已经异常出色),在企业级的场景下(大的基础交付框架定好,做一些定开),标准框架+标准文档,让LM fill CRUD一轮,写单测一轮,性能和可读性优化一轮,安全审计一轮,其交付软件的质量和速度已经差不多超过人类了。
所以软件交付服务的优势壁垒就会变成公司的每一个人对LLM和智能体的理解、调校和交付能力,也就是针对业务和场景的harness,“训狗”。比如同样是GLM-5.1,为什么有些场景能拿来干到prd,而有些场景用着会发现它退化哈气?这一两个月观察到太多这样的参差情况了。LM能干什么/不能干什么/以后能干什么/现在加buff能干什么/怎么干,这样的sense很关键,感觉还在软件行业的大家都需要有这种sense。
🎉5
注意到此次D指导发布的标题是《迈入百万上下文普惠时代》,对普惠这俩字有点不一样的想法。
D指导在用户群体的意义上跟其他几家LM厂商是有点不一样的,我不知道是不是梁圣自己也有意识去区分出来这一点。大家能在这里冲浪,想必对御三家的强大能力和产品形态都再熟悉不过了。
但你得考虑:
- 不是程序员的人
- 不能越过长城的人
- 被动地接受LM赋能的人
约莫一年前我参与过非工信领域有关部门的一些针对AI与社会的调研访谈,说到顾虑时,我提的点是:如果对AI运用的能力就是新时代的计算机办公能力,我们的社会将受到怎样的冲击?当年全民学打字、学Office,利用计算机进行办公的能力就已经筛选掉了好一部分人,不管是因为年纪、精力等各类主客观因素。
而现在,既然大家明知道人用上AI可能带来3x、5x甚至10x不止的生产提效,那到底怎样让大家不被AI甩开?被AI甩开的人以后怎么办?
这就是普惠要研究的问题。
一是信息和认知。为什么偏偏是D指导要成为这个角色?因为是个人都知道D指导。你跟乡村教师提什么kimi、智谱,他可能不知道,但他在抖音刷到过龙虾,而在龙虾这个概念出现之前他刷到用到的就是ds和豆包。
所以V4发布这阵子大家都hyped拿它去跟御三家(a/o/g)和御三家(k/g/m)对比,诚然新架构加上后训练不足的情况下就是没那么惊艳的。
但你要放到普惠的角度,现在我们获得了一个十倍威力的豆包在每个人的手机上。普惠的先决条件有哪几个,一是抹平信息差让人触手可及,二是10x乃至100x用户时成本也足够便宜,三是惠到的能力是好能力。我不知道本文读者有没有注意到V4发布的论文里还提到分层次agentic platform的设计构建。不妨设想长上下文成本解决之后搭配这种比firecracker还轻一点的agent平台,再加一点风味应用层,直接靠DS App去释出,可以给乡镇基层财务/小个体户主/老师/以及其他有想法的人,解决多少问题。哪怕不这样,第三方铺开1M去养点workbuddy之类的土制小龙虾,也是极有益的。这和A\或者kimi试图做大做强的超长loop超精细白领调研是不一样的,何况V4在这方面也并不差。
但普惠的1M上下文,距离普惠的人人有AI练,还是有很长的距离。还有许多社会和伦理层面的问题要解决。你怎么说服县教育局的老古董放AI晚班辅导?怎么做到让还在三塘练车场附近卖车险的人知道有个好东西可以直接扔表格进去给他做完一天的账务登记?怎么去给人讲AI炼图很假很丑但还是很可能骗到人?怎么让基层公务员知道AI能力已经到这个地步可以内部推广?这些都是本应由修身齐家治国平天下的文科生很快跟进去解决的问题。
🎉1
Forwarded from Sukka's Notebook
有人援引 Freedom of Information Act (FOIA) 向 美国国家运输安全委员会(NTSB)申请披露 MU5735(东方航空 5735)的数据。
NTSB 依 FOIA 法 公开了 所有备份的 飞行数据记录仪(FDR,Flight Data Recorder)的数据,没有披露座舱通话记录器 (CVR,Cockpit Voice Recorder)的录音(因 NTSB 没有留存备份)。
相关文件被重命名后上传到 GitHub: https://github.com/haohaoh4/take_out
关键图表可在 report.pdf 文件中的第 25、26、27 页找到。可以注意到:
1. 飞机刚开始失控时,两部引擎均被关闭(两部引擎的 Cut Off 开关均被置于 CUTOFF 位而非 RUN 位)
2. 飞机刚开始失控时,自动驾驶被关闭(自动驾驶关闭告警 AP Warning 1 与 AP Warning 2 触发,自动驾驶开关 CMD FCC 关闭)
3. 飞机失控期间,记录到 Control Wheel Position 操纵盘全程产生剧烈输入
4. 飞机失控期间,副翼(Aileron)全程作动、升降舵(Elevator)仅在失控后期向下作动、方向舵(Rudder)全程没有作动
NTSB 依 FOIA 法 公开了 所有备份的 飞行数据记录仪(FDR,Flight Data Recorder)的数据,没有披露座舱通话记录器 (CVR,Cockpit Voice Recorder)的录音(因 NTSB 没有留存备份)。
相关文件被重命名后上传到 GitHub: https://github.com/haohaoh4/take_out
关键图表可在 report.pdf 文件中的第 25、26、27 页找到。可以注意到:
1. 飞机刚开始失控时,两部引擎均被关闭(两部引擎的 Cut Off 开关均被置于 CUTOFF 位而非 RUN 位)
2. 飞机刚开始失控时,自动驾驶被关闭(自动驾驶关闭告警 AP Warning 1 与 AP Warning 2 触发,自动驾驶开关 CMD FCC 关闭)
3. 飞机失控期间,记录到 Control Wheel Position 操纵盘全程产生剧烈输入
4. 飞机失控期间,副翼(Aileron)全程作动、升降舵(Elevator)仅在失控后期向下作动、方向舵(Rudder)全程没有作动
Forwarded from Ziyao Channel | 二代目 (梓瑶 | Weakly-ordered Uncached)
wiki.aosc.io
安同开源社区 AI 辅助工具使用及披露约定 - AOSC 文档
人类发起,人类开发,人类维护