试验均采(cǎi )用200G的(de )RDMA网卡和GPU训练卡,使用All Reduce算(suàn )子(zǐ )。在不同的(de )智算场景下,将本方案与传统ECMP方(fāng )案进行(háng )对比。试验结果显示,当QP会话数固定时,从32卡到128卡,随着(zhe )算力规(guī )模(mó )的增加,传统的ECMP方案因(yīn )哈(hā )希(xī )不均导致拥塞概(gài )率和性能劣化加剧,而基于分布式解耦的网络能力增强技术方案因采用信元交(jiāo )换机(jī )制避免了拥塞的产生,带(dài )宽利用率相(xiàng )对稳定,约(yuē )为95%,更(gèng )适用于大规(guī )模(mó )的(de )AI训(xùn )练;当算力规模固定,QP会话较少(shǎo )时,基于分布式解耦(ǒu )的网络能力增强技(jì )术方案的优势比(bǐ )较明显,负载均衡的效果更优,可较好(hǎo )地适用于(yú )商(shāng )用场景。
Copyright © 2008-2018 国产A精彩视频精品视频下载|久久中文字幕人妻熟女22页|成人午夜免费无码视频在线观看|97香蕉超级碰碰碰久久兔费|免费观看欧美成人AA片爱我多深|极光剧场