🚀 斯坦福和华盛顿大学研究人员用阿里模型训练出s1模型
#斯坦福 #华盛顿大学 #人工智能 #推理模型 #云计算 #训练 #阿里 #Qwen #数学 #编码 #H100GPU #算法 #模型较量
据 PANews 报道,斯坦福大学和华盛顿大学研究人员以不到50美元的云计算费用训练了名为s1的人工智能推理模型。
该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。
然而,s1模型被指“并非从零开始训练”,其基座模型为“阿里通义千问(Qwen)模型”。
阿里云确认,研究人员以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块H100GPU上监督微调26分钟,训练出新模型s1-32B。
s1-32B在竞赛数学问题上的表现比o1-preview高出27%。
#斯坦福 #华盛顿大学 #人工智能 #推理模型 #云计算 #训练 #阿里 #Qwen #数学 #编码 #H100GPU #算法 #模型较量