English | 简体中文
在线推理作为企业或个人线上部署模型的最后一环,是工业界必不可少的环节,其中最重要的就是服务化推理框架。FastDeploy 目前提供两种服务化部署方式:simple_serving和fastdeploy_serving
- simple_serving:适用于只需要通过http等调用AI推理任务,没有高并发需求的场景。simple_serving基于Flask框架具有简单高效的特点,可以快速验证线上部署模型的可行性
- fastdeploy_serving:适用于高并发、高吞吐量请求的场景。基于Triton Inference Server框架,是一套可用于实际生产的完备且性能卓越的服务化部署框架
注意:支持PaddleSeg高于2.6版本的Segmentation模型
目前FastDeploy支持如下模型的部署
注意 如部署的为PP-Matting、PP-HumanMatting以及ModNet请参考Matting模型部署
PaddleSeg模型导出,请参考其文档说明模型导出
注意
- PaddleSeg导出的模型包含
model.pdmodel
、model.pdiparams
和deploy.yaml
三个文件,FastDeploy会从yaml文件中获取模型在推理时需要的预处理信息
为了方便开发者的测试,下面提供了PaddleSeg导出的部分模型
- without-argmax导出方式为:不指定
--input_shape
,指定--output_op none
- with-argmax导出方式为:不指定
--input_shape
,指定--output_op argmax
开发者可直接下载使用。