算力調(diào)度加速平臺
- 支持高效部署百個節(jié)點以上的集群管理,具備網(wǎng)絡管理,計算及存儲網(wǎng)絡分離,及時發(fā)現(xiàn)并定位集群故障。
- 先進的故障檢測功能,實時監(jiān)測并識別GPU、網(wǎng)絡接口卡和存儲設備的故障。
- 多租戶支持,細粒度權(quán)限管理,租戶隔離機制,靈活的租戶計費規(guī)則。
-
幫助集群快速規(guī)劃及性能評估。
-
提高集群算力利用率。
-
降低運維成本。
-
可視化管理,設備入網(wǎng)過程及問題可視。
-
智能調(diào)優(yōu),實時分析。
服務保障