推理服务器是指专门用于部署深度学习模型并提供推理服务的软件或硬件系统,具备模型加载、请求调度、资源管理等功能,能够高效处理大规模的推理请求,常见的有 TensorRT Inference Server、TorchServe 等。