百科知识

智能交通技术出来能干什么

智能交通技术出来能干什么

随着大模型的快速发展,混合专家模型因其独特的架构优势成为了扩展模型能力的重要方向。在训练超大AI模型时,华为面临一个挑战:专家们有一半的时间在“等待”。

MoE模型就像公司里的一群专业顾问,每次只选择最擅长的几个人来完成任务。但在训练过程中存在以下问题:

1. 数据传输完成才能开始工作:由于专家分散在不同地点,文件传输速度较慢,导致部分专家闲置。

2. 工作分配不均衡:热门专家被频繁选中,而冷门专家则无事可做。加务难度不同,导致进度不一,互相等待。

这个问题就像早高峰的交通状况,行人和车辆抢道,红绿灯的僵化导致车道繁忙不均。

针对这些问题,华为采取了三种解决方案,并成功提速70%。

第一招:使用“数字沙盘”进行预演

华为建立了一个名为AutoDeploy的仿真平台,可以在1小时内模拟百万种训练方案,并自动选择最佳方案。在训练7180亿参数的盘古MoE模型时,该平台精准匹配了最佳分工,包括8卡协作处理注意力计算、16阶段流水线和32份专家并行,从而省去了手动试错的浪费。

第二招:为数据开通“专用通道”

华为将通信分为两步:所有机器收集文件碎片;然后,每台机器内部通过高速通道传输文件,速度比传统方法提高一倍。他们让计算和传输并行进行,前一步工作时,后一步已经开始传输数据,从而消除了98%的等待时间,几乎保证了专家无需停工。

第三招:动态调整专家任务

针对“忙闲不均”的问题,华为开发了一套EDPB智能调度系统。该系统能预测专家的工作量,像天气预报一样提前知道哪些专家会忙碌,哪些专家较空闲。系统还能跨设备调度专家,使用“贪心算法”减少调动成本,并对任务进行重新排队,避免有人完成任务后长时间等待。这进一步提高了效率25%。

结果:训练速度大幅提升

在盘古MoE模型的实测中,华为的方案使整体训练吞吐量提升了72.6%。原来需要1天的任务现在只需7小时即可完成。节省的电费、算力和时间将推动更大规模的AI研发。

现在训练AI大模型就像指挥智能交通:数据通过专用通道快速传输,专家按需流动,无空闲。华为的这种“无等待”设计可能是AI在下一阶段的关键引擎。


智能交通技术出来能干什么

你可能也会喜欢...