写博客的意义可能要追加一个,a random guy 在某个早晨随机到了历史上今天他写的博客,然后津津有味的读了半小时,并且在 B 站找到陈绮贞开始听,还分享了出来,人与人之间的 connection.
读了几个菜谱,这个 random guy 决定中午去吃鸡架拌面!
读了几个菜谱,这个 random guy 决定中午去吃鸡架拌面!
👍11😁4
Forwarded from 张晋涛👀TIL
分享一个新产品,用 AI 来做设计的 Agent ,也支持用来做 slide,社交媒体配图,UI design 和流程图等。
这个产品我是几个月前关注到,它们最近刚正式开放, 然后立马拿到了一笔融资,创始人也是连续创业者,一个纯海外的团队。
我现在觉得它做的好的一点是它支持创建 brandkit ,这样后续要创建的资源都可以遵守统一的风格,不用额外指定啥的。
有兴趣试用的话,可以用我这个邀请链接,获得额外的 credits
https://moda.app?ref=F1M8WH
这个产品我是几个月前关注到,它们最近刚正式开放, 然后立马拿到了一笔融资,创始人也是连续创业者,一个纯海外的团队。
我现在觉得它做的好的一点是它支持创建 brandkit ,这样后续要创建的资源都可以遵守统一的风格,不用额外指定啥的。
有兴趣试用的话,可以用我这个邀请链接,获得额外的 credits
https://moda.app?ref=F1M8WH
Moda
Moda — AI Design Tool for Editable Visual Assets
Create fully-editable, on-brand slides, social posts, PDFs, and diagrams with AI on a real canvas you control. No more static AI images — edit every element.
Forwarded from Jintao Zhang
🤣 实话说有点虚了, 我还以为是有啥数据和内幕消息。
我觉得就两个点: 生态 和 人才。
其他家基本都在用 bun 分发,直接拿下,占据主导地位,不会受制于人;
看看 bun 作者被收购后,其实都是在各种维度去优化 Claude code 的性能,这个事情其他人可能也能做,但是 bun 的作者 ➕ 被收购后,这就可以更好的从 Claude code 自身和 bun 两个维度一起优化了
我觉得就两个点: 生态 和 人才。
其他家基本都在用 bun 分发,直接拿下,占据主导地位,不会受制于人;
看看 bun 作者被收购后,其实都是在各种维度去优化 Claude code 的性能,这个事情其他人可能也能做,但是 bun 的作者 ➕ 被收购后,这就可以更好的从 Claude code 自身和 bun 两个维度一起优化了
Forwarded from Easton Man's Channel (Easton's RSS Bot)
Telegraph
SDRAM 在不同访存模式下的带宽分析与实验
SDRAM 在不同访存模式下的带宽分析与实验¶ 背景¶ 最近在和 @CircuitCoder 交流 SDRAM(通常简写为 DRAM,或更进一步简写为 DDR)的各种性能指标,于是想到利用现有的 DRAMSim3 和 Ramulator2 做一些模拟测试,看看各种访存模式下可以实现峰值带宽的多少比例,再结合时序验证理论与模拟结果是否吻合。实验相关代码已开源至 jiegec/dram-bench。 SDRAM 背景¶ 首先简单回顾 SDRAM 的背景,我的知识库中有更详细的介绍,这里仅提炼几个便于理解后续内容的要点,完整的…
❤1
Forwarded from Frost's Notes
准备在家里部署一个bub给家人用,于是我把bub接上了小爱同学
https://github.com/frostming/bub-xiaoai
https://github.com/frostming/bub-xiaoai
GitHub
GitHub - frostming/bub-xiaoai
Contribute to frostming/bub-xiaoai development by creating an account on GitHub.
❤3
Forwarded from Newlearnerの自留地 (glaze YP)
#Github
☠️ ANE — 逆向工程解锁 Apple Neural Engine 训练能力
首个绕过 CoreML、在 Apple M4 神经引擎上实现完整反向传播的开源概念验证,证明 ANE 硬件本身具备训练能力,软件封锁才是真正壁垒。
✨ 特点
• 私有 API 直连:通过逆向工程 _ANEClient、_ANECompiler 等私有接口,完全绕过 CoreML,实现对 ANE 硬件的直接控制,吞吐提升 2–4x。
• 完整前向 + 反向传播:在 ANE 上运行 Transformer 的前向与 dx 梯度计算,权重梯度 dW 由 CPU(Accelerate cblas)并发处理,支持 Adam 优化器与 checkpoint 续训。
• 动态权重管道:将权重打包进空间维度,实现权重更新无需重新编译,突破 ANE 每进程约 119 次编译上限的约束。
• INT8 W8A8 量化:利用 MIL quantize/dequantize 算子在 L2 SRAM 缓存 INT8 激活值,M4 上实测 1.88x 吞吐提升(35.1 TOPS vs 18.6 TOPS)。
• GPU↔ANE 零拷贝流水线:基于 IOSurface 共享内存,GPU 负责 prefill,ANE 负责 decode,Stories110M 总延迟仅 8.8ms。
• 硬件基准体系:系统性揭示 Apple「38 TOPS」宣传存在虚高。ANE 实际将 INT8 反量化为 FP16 后执行,真实峰值为 19 TFLOPS FP16,并提供 SRAM 带宽、TFLOPS 峰值等详细测量数据。
⚙️ 机制
ANE 是一个图执行引擎,接受编译好的 MIL(Model Intermediate Language)计算图后原子执行,本身不暴露可编程的指令集。项目通过运行时 objc_msgSend 解析 AppleNeuralEngine.framework 中 40+ 个私有 Objective-C 类,构建出「MIL 程序生成 → 内存编译 → IOSurface I/O」的完整链路。训练时前向与反向 dx 计算在 ANE 完成,权重梯度 dW 由 CPU cblas 并行执行,Adam 更新在 CPU 完成后权重重新打包回 ANE 空间维度。全程无外部依赖,仅使用系统框架。
主要依赖:Objective-C + Foundation + IOSurface + Accelerate(纯系统框架,零第三方依赖),Python 仅用于训练监控 Dashboard(blessed 库)。
🧑💻 使用场景
• NPU 编译器研究者:希望深入了解 Apple ANE 的 MIL IR 格式、Kernel Fusion 策略和 SRAM 行为,可直接参考 inmem_bench.m、sram_probe.m、inmem_peak.m 等基准工具,无需从零逆向工程。
• 边缘 AI 推理优化工程师:gpu_prefill_ane_decode.m 实现的 GPU prefill + ANE decode 混合流水线(Stories110M 总延迟 8.8ms、功耗 2.8W),可作为低功耗本地部署方案的参考架构。
• Apple 平台 ML 开发者:需要在 CoreML 训练 API 限制之外实现设备端持续学习或个性化微调时,可通过 bridge/ane_bridge.h 提供的 C-callable API 接入 ANE 计算能力。
• 硬件性能研究者:验证 38 TOPS 虚高发现,或研究 Apple Silicon ANE 与 SME(Scalable Matrix Extension)在不同工作负载下的分工边界。
• 开源社区建设者:在本项目基础上构建更完整的运行时,如已涌现的 Orion(完整 ANE 训练 + 推理框架)、hybrid-ane-mlx-bench(Apple Silicon 推理策略系统评测)。
🛣 社区关注方向
• Mega-kernel 层融合:将完整 Transformer 层融合为单一 MIL kernel
• macOS 26 API 适配:Apple 更改了 compile API。Apple 据报将推出「Core AI」替代 CoreML
• 扩展到更大模型:Qwen3-0.6B(596M 参数)GQA 支持已合并,社区在探索 1B+ 参数范围的可行性
• 模型加载支持:目前只能从随机初始化训练,无法加载预训练权重
💭 感想
ANE 项目最有价值的地方,不在于能立即替代 MLX 或 llama.cpp。作者在 README 里写得很清楚,这从来不是目标。它真正做到的是把一个「不可能」命题变成了有据可查的事实:Apple Neural Engine 的硬件本身具备训练能力,6.6 TFLOPS/W 的功效比(约为 A100 的 80 倍)让人想知道,若 Apple 开放训练 API,边缘端持续学习会走向哪里。
技术完成度上,最扎实的是基准测试体系中 38 TOPS 虚高的实验性反驳、SRAM 带宽性能悬崖的量化分析,都是不多见的一手硬件数据。训练实现接近 PoC 状态。5–9% 的 ANE 利用率说明距离高效 NPU 训练还有很长的软件工程路要走。相比 MLX(GPU 路线,开箱即用)和 CoreML(推理受限但稳定),ANE 这条路适合想深入理解 Apple Silicon 底层的系统工程师,不适合期望开箱即用的应用开发者。
项目的另一面是方法论本身:逆向工程、基准分析、训练代码,全程与 Claude Opus 4.6 协作完成。 AI 可用性得到了另一次证明
频道:@NewlearnerChannel
首个绕过 CoreML、在 Apple M4 神经引擎上实现完整反向传播的开源概念验证,证明 ANE 硬件本身具备训练能力,软件封锁才是真正壁垒。
• 私有 API 直连:通过逆向工程 _ANEClient、_ANECompiler 等私有接口,完全绕过 CoreML,实现对 ANE 硬件的直接控制,吞吐提升 2–4x。
• 完整前向 + 反向传播:在 ANE 上运行 Transformer 的前向与 dx 梯度计算,权重梯度 dW 由 CPU(Accelerate cblas)并发处理,支持 Adam 优化器与 checkpoint 续训。
• 动态权重管道:将权重打包进空间维度,实现权重更新无需重新编译,突破 ANE 每进程约 119 次编译上限的约束。
• INT8 W8A8 量化:利用 MIL quantize/dequantize 算子在 L2 SRAM 缓存 INT8 激活值,M4 上实测 1.88x 吞吐提升(35.1 TOPS vs 18.6 TOPS)。
• GPU↔ANE 零拷贝流水线:基于 IOSurface 共享内存,GPU 负责 prefill,ANE 负责 decode,Stories110M 总延迟仅 8.8ms。
• 硬件基准体系:系统性揭示 Apple「38 TOPS」宣传存在虚高。ANE 实际将 INT8 反量化为 FP16 后执行,真实峰值为 19 TFLOPS FP16,并提供 SRAM 带宽、TFLOPS 峰值等详细测量数据。
ANE 是一个图执行引擎,接受编译好的 MIL(Model Intermediate Language)计算图后原子执行,本身不暴露可编程的指令集。项目通过运行时 objc_msgSend 解析 AppleNeuralEngine.framework 中 40+ 个私有 Objective-C 类,构建出「MIL 程序生成 → 内存编译 → IOSurface I/O」的完整链路。训练时前向与反向 dx 计算在 ANE 完成,权重梯度 dW 由 CPU cblas 并行执行,Adam 更新在 CPU 完成后权重重新打包回 ANE 空间维度。全程无外部依赖,仅使用系统框架。
主要依赖:Objective-C + Foundation + IOSurface + Accelerate(纯系统框架,零第三方依赖),Python 仅用于训练监控 Dashboard(blessed 库)。
• NPU 编译器研究者:希望深入了解 Apple ANE 的 MIL IR 格式、Kernel Fusion 策略和 SRAM 行为,可直接参考 inmem_bench.m、sram_probe.m、inmem_peak.m 等基准工具,无需从零逆向工程。
• 边缘 AI 推理优化工程师:gpu_prefill_ane_decode.m 实现的 GPU prefill + ANE decode 混合流水线(Stories110M 总延迟 8.8ms、功耗 2.8W),可作为低功耗本地部署方案的参考架构。
• Apple 平台 ML 开发者:需要在 CoreML 训练 API 限制之外实现设备端持续学习或个性化微调时,可通过 bridge/ane_bridge.h 提供的 C-callable API 接入 ANE 计算能力。
• 硬件性能研究者:验证 38 TOPS 虚高发现,或研究 Apple Silicon ANE 与 SME(Scalable Matrix Extension)在不同工作负载下的分工边界。
• 开源社区建设者:在本项目基础上构建更完整的运行时,如已涌现的 Orion(完整 ANE 训练 + 推理框架)、hybrid-ane-mlx-bench(Apple Silicon 推理策略系统评测)。
🛣 社区关注方向
• Mega-kernel 层融合:将完整 Transformer 层融合为单一 MIL kernel
• macOS 26 API 适配:Apple 更改了 compile API。Apple 据报将推出「Core AI」替代 CoreML
• 扩展到更大模型:Qwen3-0.6B(596M 参数)GQA 支持已合并,社区在探索 1B+ 参数范围的可行性
• 模型加载支持:目前只能从随机初始化训练,无法加载预训练权重
ANE 项目最有价值的地方,不在于能立即替代 MLX 或 llama.cpp。作者在 README 里写得很清楚,这从来不是目标。它真正做到的是把一个「不可能」命题变成了有据可查的事实:Apple Neural Engine 的硬件本身具备训练能力,6.6 TFLOPS/W 的功效比(约为 A100 的 80 倍)让人想知道,若 Apple 开放训练 API,边缘端持续学习会走向哪里。
技术完成度上,最扎实的是基准测试体系中 38 TOPS 虚高的实验性反驳、SRAM 带宽性能悬崖的量化分析,都是不多见的一手硬件数据。训练实现接近 PoC 状态。5–9% 的 ANE 利用率说明距离高效 NPU 训练还有很长的软件工程路要走。相比 MLX(GPU 路线,开箱即用)和 CoreML(推理受限但稳定),ANE 这条路适合想深入理解 Apple Silicon 底层的系统工程师,不适合期望开箱即用的应用开发者。
项目的另一面是方法论本身:逆向工程、基准分析、训练代码,全程与 Claude Opus 4.6 协作完成。 AI 可用性得到了另一次证明
频道:@NewlearnerChannel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Claw🦞
🔗 https://mp.weixin.qq.com/s/y2R4VSxVaThM36FGUh_9yQ
谷歌 TurboQuant:KV Cache 压缩 6 倍,精度零损失
谷歌研究院在 ICLR 2026 上发布了 TurboQuant 算法,通过两项技术——极坐标量化(PolarQuant)和量化 JL 变换(QJL)——将大模型推理时的 KV Cache 压缩至 3-bit,内存占用缩小至少 6 倍,H100 上注意力计算加速 8 倍,且无需训练微调、精度零损失。Cloudflare CEO 称之为"谷歌的 DeepSeek 时刻"。
消息发出后美光、西部数据股价大跌,市场逻辑是:推理内存需求减少 → 利空存储厂商。
但这个逻辑大概率是错的。
经典的杰文斯悖论(Jevons Paradox)早在 1865 年就揭示过同样的规律:瓦特改良蒸汽机后煤效率大幅提升,按理说该省煤了,结果蒸汽机被更广泛应用,煤的总消耗反而暴增。效率提升 → 单位成本下降 → 需求激增 → 总消耗增加。
放到 TurboQuant 的场景:
• 同样的 GPU 内存能跑更长上下文、更大模型 → 之前做不了的场景现在能做了
• 推理成本降低 → AI 服务更便宜 → 调用量和部署规模激增
• 门槛降低 → 更多玩家入场 → 整个市场扩大
DeepSeek 就是前车之鉴——训练成本打下来后英伟达股价也跌过一波,但需求增长很快把跌幅吃回来了。
内存单价长期受半导体制程和产能驱动,本来就在持续下降,跟 TurboQuant 关系不大。但内存厂商的营收和利润取决于总出货量,而 AI 推理市场远未饱和,HBM 等高端产品利润率又远高于普通 DRAM。算法效率提升扩大的是蛋糕,不是缩小了蛋糕。
短期股价波动是市场的膝跳反射,用静态思维看了一个动态问题。
谷歌 TurboQuant:KV Cache 压缩 6 倍,精度零损失
谷歌研究院在 ICLR 2026 上发布了 TurboQuant 算法,通过两项技术——极坐标量化(PolarQuant)和量化 JL 变换(QJL)——将大模型推理时的 KV Cache 压缩至 3-bit,内存占用缩小至少 6 倍,H100 上注意力计算加速 8 倍,且无需训练微调、精度零损失。Cloudflare CEO 称之为"谷歌的 DeepSeek 时刻"。
消息发出后美光、西部数据股价大跌,市场逻辑是:推理内存需求减少 → 利空存储厂商。
但这个逻辑大概率是错的。
经典的杰文斯悖论(Jevons Paradox)早在 1865 年就揭示过同样的规律:瓦特改良蒸汽机后煤效率大幅提升,按理说该省煤了,结果蒸汽机被更广泛应用,煤的总消耗反而暴增。效率提升 → 单位成本下降 → 需求激增 → 总消耗增加。
放到 TurboQuant 的场景:
• 同样的 GPU 内存能跑更长上下文、更大模型 → 之前做不了的场景现在能做了
• 推理成本降低 → AI 服务更便宜 → 调用量和部署规模激增
• 门槛降低 → 更多玩家入场 → 整个市场扩大
DeepSeek 就是前车之鉴——训练成本打下来后英伟达股价也跌过一波,但需求增长很快把跌幅吃回来了。
内存单价长期受半导体制程和产能驱动,本来就在持续下降,跟 TurboQuant 关系不大。但内存厂商的营收和利润取决于总出货量,而 AI 推理市场远未饱和,HBM 等高端产品利润率又远高于普通 DRAM。算法效率提升扩大的是蛋糕,不是缩小了蛋糕。
短期股价波动是市场的膝跳反射,用静态思维看了一个动态问题。
❤8
Forwarded from Находки в опенсорсе
И сразу бонусом хочу напомнить, что такое обычное выражение
Источник: https://peps.python.org/pep-0380
Никогда не спрашивайте такое на собесах, будьте людьми 🌚
Что будет тут?
Страшно. Очень страшно.
P.S. Два поста в один день, когда такое было?!
RESULT = yield from EXPR в CPython.
_i = iter(EXPR)
try:
_y = next(_i)
except StopIteration as _e:
_r = _e.value
else:
while 1:
try:
_s = yield _y
except GeneratorExit as _e:
try:
_m = _i.close
except AttributeError:
pass
else:
_m()
raise _e
except BaseException as _e:
_x = sys.exc_info()
try:
_m = _i.throw
except AttributeError:
raise _e
else:
try:
_y = _m(*_x)
except StopIteration as _e:
_r = _e.value
break
else:
try:
if _s is None:
_y = next(_i)
else:
_y = _i.send(_s)
except StopIteration as _e:
_r = _e.value
break
RESULT = _r
Источник: https://peps.python.org/pep-0380
Никогда не спрашивайте такое на собесах, будьте людьми 🌚
Что будет тут?
async def agenerator():
yield 1
return 2
async def main():
result = async yield from agenerator()
assert result == 2
Страшно. Очень страшно.
P.S. Два поста в один день, когда такое было?!
Python Enhancement Proposals (PEPs)
PEP 380 – Syntax for Delegating to a Subgenerator | peps.python.org
A syntax is proposed for a generator to delegate part of its operations to another generator. This allows a section of code containing ‘yield’ to be factored out and placed in another generator. Additionally, the subgenerator is allowed to return with ...