腾讯一念LLM新版本发布:硬刚核心调度,满血版DeepSeek吞吐提升48%
在业务数据的测试集(总共512条,平均输入1812 tokens,输出978 tokens)上,我们经过理论推算,如果两台H20(16卡)部署fp8满血版Deepseek,吞吐的保守上限是18000+ tokens/s。在2月底,开源vllm/sglang的吞吐1400 tokens/s和2200 tokens/s,存在巨大的优化空间。经过4个月的快速迭代后,vllm/sglang最新版都上升到6100 tokens/s左右。
欢马劈雪