Рет қаралды 5,664
arkohut
在 ollama 支持了并发之后其性能有了一定的提升,但是和目前模型推理最佳实践之一的 vllm 相比差距几何呢?这里是用一块 4090 对两个模型的性能进行对比。