异构算力新格局:从英伟达 Rubin CPX 与昇腾 950PR 看互联趋势
DeepSeek 通过多项工程与算法创新——包括 MOE(多专家并行)、多 pipeline 流水线掩盖,以及 MLA(Multi-head Latent Attention)低秩压缩以降低 KVcache 数据量——有效缓解了大规模推理的瓶颈
DeepSeek 通过多项工程与算法创新——包括 MOE(多专家并行)、多 pipeline 流水线掩盖,以及 MLA(Multi-head Latent Attention)低秩压缩以降低 KVcache 数据量——有效缓解了大规模推理的瓶颈