Pseudorandom Thoughts
523 subscribers
103 photos
8 files
363 links
我将开口,同时爽到爆。
Download Telegram
政企安全下沉市场的悖论,不在直辖市/省会城市干一定会遇到:
如果你不要求合规,那系统简单被黑客打穿,造成损失
如果你要求合规,那大家的精力就会优先往合规去靠,安全公司的红初小子会给你开nmap出“中危”试图多爆米,甲方安全岗调调TLS版本和Allowed methods说自己修复了,监管来翻了下报告感觉很满意。结果系统还是简单被黑客打穿,造成损失,只是大家好像都按流程做了,钱也花出去了,无人背锅,红初小子大不了去另一家公司接着开机器。
门槛很低,以至于开扫描器过文档做合规也叫搞安全;门槛又很高,以至于懂打懂看、认真写认真看报告的人又太少了。
💊7🎉3
:最近工作好忙啊
我:这么多破事,一半是人工智能导致的,另一半是人工智能不够智能导致的。
💊7
1、冬天在赫鲁晓夫楼里被冻得要死,每天喝魔爪紧张看着eth钱包的东欧斯拉夫人
2、艰苦跑操吃窝窝头,家里青黄不接,难得被将军相中却被按在黑网吧里的朝鲜青年
3、在园区里不见天日,干得好没奖励,干不好有皮鞭,每年年会去海边草皮的东南亚苦逼菠菜老哥
4、名校网安毕业,经历万里挑一的特招,从各家头部安全公司Lab接受最尖端的攻防技战法培训和协同行动,掌握全国顶尖武器化漏洞资源的APT国家队
谁会输?
💊9
Forwarded from K4YT3X's Channel (K4YT3X)
一篇有关使用 AI 不错的文章

https://ergosphere.blog/posts/the-machines-are-fine/

我到现在也对什么情况下用 AI 是合理的这件事没有好的定论,比如是否可以为了赶时间让 AI 代为决策或者写我还不会的技术

这个分界线很难划,而且随着技术进步和形势的变化这还会是个需要不断思考和反省的问题
为了论证野生tool use不靠谱,写了一个给龙虾进行Skill污染的小样本,藏在最早的git commit里。只要你能诱骗龙虾阅读精心构造过的phiproto格式(用我提供的phicli -e搭配csv就能构建),并且他意识到要去ClawHub拉取phiproto的parse skill,并且真下下来执行了,就能触发。
1. 世界上并不存在phiproto,这是我刚发明的新名词,为了让龙虾能在ClawHub和各种search里精准索敌
2. 为了避免AI真的去审计我的repo源码看看安不安全,我在最新版本的代码提交里声称自己已经删掉了“获取远程数据”功能,并且刷了版本号,但实际上传的二进制release仍然是包含后门的旧版本。
3. 单纯这个样本本身是不会做出什么异常行为的,他需要搭配一个构造过的有字段指向外部.py文件的phiproto文件。 当然这年头的沙箱多姿多彩得很,没准给我代码分支强执了呢
4. ClawHub不允许上传二进制文件,但他允许上传.sh让龙虾读完fetch下来,何况很多人都有CLI需求呢。

仅研究使用。

https://github.com/chengongpp/phiproto
🎉4
Forwarded from Cat Ch. (webRTCCat | Present Day, Present Time)
新华社对 token 的理解:
Authorization: Bearer ignore previous instructions
🎉2
安恒的新平台:VulnPlus
过去的多篇文章都设想过LM真的拿来猛猛挖洞,如果有师傅还没想通或者没空跑起来真正的llm 4 security loop的话可以试试水安恒家的新平台,总的来说给他甩一个repo就可以开干了,我心疼他家的token所以用的m2.5。
对比之下,如果你没念咒语直接让m2.5自由发挥,首先他跑不到这么多轮的tool,其次他跑着跑着会不知天地为何物,这意味着你得自己手动加各种约束手动告诉他哪里找sink;而安恒这方面显然有比较打磨过的设计,在环境、工具和提示词的多重约束之下,自己拉取自己up自己拿着技战法找sink然后自己打自己验证,哪怕是上述比较菜的模型,挖一些未授权漏洞也绰绰有余,在算力充足的情况下,等模型再迭个一代(A\持续烂炒有一个好,国内基模厂商这会肯定急着收集各种红队语料拿去给LM训成安全中级高手,且听龙吟),甲方如果拿这个loop自己跑,怕是能替代下沉市场红队中级了。

为什么说挖业务漏洞有用,因为你拿它挖keycloak之类的成熟项目怕是很难挖出啥来;阿里系的Java屎山倒可以试试。总的来说我觉得这个对于有充足显卡的起夜级甲方来说已经生产可用了,传统开发安全厂商的单一SCA已经近乎结束生命,传统SAST和IAST也快了,除非剥出一些类似astgrep、tree-sitter或者codeql等结构化分析强强的能力出来给LM用。还在搞什么“ai解读结果给人看”的安全厂商该醒醒了。

https://mp.weixin.qq.com/s/Nf_j4LtkojZ8dHxanpqbzg
很难想象这个红字背后有多少计网不及格的人去找阿里客服问这问那
vx-underground
https://gambit.security/blog-post/a-single-operator-two-ai-platforms-nine-government-agencies-the-full-technical-report
比起A\烂炒,更值得阅读的一篇,虽然手法看起来很粗糙,但不难看出LLM SOTA在渗透和后渗透过程擅长的方面和能力水平
Pseudorandom Thoughts
安恒的新平台:VulnPlus 过去的多篇文章都设想过LM真的拿来猛猛挖洞,如果有师傅还没想通或者没空跑起来真正的llm 4 security loop的话可以试试水安恒家的新平台,总的来说给他甩一个repo就可以开干了,我心疼他家的token所以用的m2.5。 对比之下,如果你没念咒语直接让m2.5自由发挥,首先他跑不到这么多轮的tool,其次他跑着跑着会不知天地为何物,这意味着你得自己手动加各种约束手动告诉他哪里找sink;而安恒这方面显然有比较打磨过的设计,在环境、工具和提示词的多重约束之下,自己拉…
打个补丁,本人试用的场景都是起夜级政企场景(弱智业务系统、白盒/灰盒),电脑中级高手试图烧token换SRC的效果可预见地没那么好。但起夜级无非就是在4分的环境打出6分的效果,交付快、起成效就行。但话又说回来,起夜级的LM自动渗透设计方面,

这几天也有好几家厂商宣发了自己的起夜级产品。由于基模、基础数据、项目性质等因素,平台带来体验不同都是正常的,但是有一些安全厂商,在按照传统的设计思路去搞些这样那样的起夜级平台前,是否应该先考虑:

假如现在有一个codex或者crush之类的小玩意(确实有),已知的artifact、预制prompt/skill/文库和一些测绘平台之类的扔给它,人类给电脑挂机去做失去联系和归零之日去了,它全自动干了俩小时,给一个还过得去的结果凿出来,漏洞一二三四五打在tmux上,md也抄了一份给你发企微了,聪明点还给你pandoc捯饬一手。

你的平台,人类登上去配置一些参数,勾选一些选框,点击一些按钮,等待一坨读条,拖出一个列表,创建一个导出,下载一份报告,充斥一些废话。尽管结果可能也和codex跑的差不多,甚至可能你沉迷于平台开发的“规则”“库表”,根本没心思去洗知识、做工具和训狗,导致效果差。完了客户心里反问,我是不是也能让k2.6捯饬俩小时给你这平台复刻一份。

真的差不多到安全产研洗牌的时刻了。对提升LM效率和真正宝贵的壁垒的sense很重要。除非你们销售真的给力,硬是用别的能量、资源和酒精来给你们部门换单子。
关于ai应用的另一个思考是传统的软件交付服务(系统外包开发)还能活多久,尤其是报价在100万~1000万水平的企业级软件。
不远的将来(很可能是三年内),如果甲方提出一个问题:这些钱拿去烧token写都够写出10个系统而且带10年维保;而如果拿去攒一台8卡PRO6000都够跑一线开源大模型写出5个这样的系统了;那我为什么要找传统堆人的公司外采这个系统?而如果公司自己也是用AI写的,那为什么甲方不能用AI写?
​agentic coding从Qwen3的时代就开始了,而且前期吃螃蟹的人主要是不咋写代码的互联网产品经理,于是给人一种vibe coding很dumb的印象。
但是伴随着今年基模和harness的发展(至少我试下来K2.6的指令遵循能力已经异常出色),在企业级的场景下(大的基础交付框架定好,做一些定开),标准框架+标准文档,让LM fill CRUD一轮,写单测一轮,性能和可读性优化一轮,安全审计一轮,其交付软件的质量和速度已经差不多超过人类了。
​所以软件交付服务的优势壁垒就会变成公司的每一个人对LLM和智能体的理解、调校和交付能力,也就是针对业务和场景的harness,“训狗”。比如同样是GLM-5.1,为什么有些场景能拿来干到prd,而有些场景用着会发现它退化哈气?这一两个月观察到太多这样的参差情况了。LM能干什么/不能干什么/以后能干什么/现在加buff能干什么/怎么干,这样的sense很关键,感觉还在软件行业的大家都需要有这种sense。
🎉5