
在最近的软件评测中心对六大主流平台的API版本进行的《DeepSeek-R1服务性能评测报告》中,对各个平台的性能差异进行了深入探究。评测采用人工智能部自研的大模型服务性能工具,经过多时段多轮次的测试,系统性地评估了各平台的表现。
本次评测以标准化代码题作为测试用例,在不同的典型时段进行了重复性验证。主要评估体系包括两大方面:核心性能指标和综合稳定性指标。
关于核心性能指标:
1. 首Token延迟时间:大多数平台在这一指标上表现稳定,首Token延迟时间均低于2秒。但硅基流动平台在特定时段,如14:00,出现了明显的波动,峰值时间远超过其他平台。
2. 推理过程耗时和全流程总处理时长:像百度智能云、火山引擎、腾讯云和讯飞开放平台等,在这些时间指标上表现差异不大。而硅基流动平台则显示出较高的耗时,与领先平台存在明显差距。阿里云百炼平台在下午时段的整体耗时出现了一定程度的波动。
3. 推理速度:这是衡量大模型处理效率的重要指标。火山引擎平台凭借出色的推理速度,均值达到29tokens/s,显著领先于其他平台。相比之下,讯飞开放平台的推理速度较慢。
4. 回复速度:衡量模型响应用户请求的效率。火山引擎平台再次展现了其优势,回复速度均值达到32tokens/s。而硅基流动平台的回复速度数据则呈现出明显的波动特征。
5. 总平均速度:综合考量各平台的平均反应速度,火山引擎表现最佳,其他如百度智能云、阿里云、腾讯云等平台表现相近,而讯飞平台可能因为算力问题表现较差。
至于综合稳定性指标:
在综合评估中,采用了熵权法确定各指标的权重。火山引擎平台凭借其在核心性能维度的卓越表现,展现了全面的行业领先地位。硅基流动平台则在多时段测试中显示出较高的性能指标波动。
最终的多平台API大模型评测结果显示,火山引擎平台凭借其在深度推理效率与系统稳定性方面的显著优势,成为本次评测中综合性能最均衡的选择。百度智能云、腾讯云和讯飞开放平台等平台在一般性场景中能满足需求。而硅基流动平台可能因为用户量大导致算力不足,表现出稳定性欠佳的情况。
本报告为软件评测中心发表,为企业和开发者提供了对各平台性能的客观参考,有助于用户根据实际选择最适合的平台,提高行业竞争力并提升用户体验。文章来源:光明网。
