加州大学伯克利分校 Sky Computing 实验室的研究团队 NovaSky 发布了一款名为 Sky-T1-32B-Preview 的推理模型。并表示在多项推理和编码基准测试中,该模型性能与 o1-preview 相当。
“值得注意的是,Sky-T1-32B-Preview 的训练成本不到 450 美元,这表明可以经济高效地复制高级推理能力”。
目前,该模型的所有细节(即数据、代码、模型权重)均已开源,用户可以从零开始复现该模型。

根据介绍,Sky-T1 的初始训练数据是通过阿里巴巴的 QwQ-32B-Preview 生成。然后整理 data mixture,以涵盖需要推理的不同领域,并使用拒绝采样程序来提高数据质量。之后利用 OpenAI 的 GPT-4o-mini 将数据重构为更易用的格式。训练这款拥有 320 亿参数的 Sky-T1 模型耗时约 19 小时,使用了 8 台 Nvidia H100 GPU。

NovaSky 团队表示,Sky-T1-32B-Preview 仅标志着其开发具有高级推理能力的开源模型的征程开始。“展望未来,我们将专注于开发更高效的模型,保持强大的推理性能,并探索进一步提高模型在测试时的效率和准确性的先进技术。”
Copyrights:AICAT Posted on 2025-01-14 9:50:42。
Please specify source if reproduced开源推理 AI 模型 Sky-T1,训练成本不到450美元 | AI工具导航
Please specify source if reproduced开源推理 AI 模型 Sky-T1,训练成本不到450美元 | AI工具导航
No comments...