Skip to content
目录

在线推理

模型管理中导入成功的模型版本均可用于模型部署,部署成功后,可提供模型的在线体验和API服务。服务列表支持通过运行状态、标签、服务名称、服务ID筛选过滤。

创建服务

点击“创建服务”按钮,进入创建服务的页面,填写服务信息与模型资源后点击“确定”即可部署模型服务,包括以下内容:

**服务信息:**包括服务名称、服务描述、标签、自动停止、服务限流设置

descript

开启自动停止后服务运行时长到达设定时间后即会自动停止当前服务,服务限流开启后可以限制当前服务设定时间内的请求次数。

模型资源:

模型资源则需用户选择需要部署的模型和部署服务所需的资源。

  • 来源于训练任务

模型来源于训练任务则选择微调任务生成的模型,选择版本后设置实例数点击“确定”即可完成模型的部署。

descript

  • 来源于自定义镜像

模型来源于自定义镜像选择模型以及版本后需选择资源规格,填写实例数,若有环境变量可以填写环境变量,再点击“确定”提交自定义镜像来源的模型服务部署操作。

descript

查看与管理服务

模型部署操作提交后会在模型部署的服务列表中会新增一条服务数据,运行状态为部署中,部署成功后运行状态会变更为运行中,服务列表包含服务名称、服务ID、模型、服务状态、标签、创建人、创建时间、更新时间等信息。在我的服务管理列表操作栏可以查看服务详情、更新服务、回滚服务、启停、删除等操作。

descript

详情

点击操作栏“详情”查看当前模型服务的详情,服务详情中展示当前模型服务的服务详情、模型资源、服务指标和日志。

descript

服务详情:展示服务名称、服务描述、创建时间、服务状态、累计费用、服务API地址以及curl示例

模型资源:展示模型来源、模型名称、模型版本、资源规格、计算节点、环境变量

服务指标:CPU、GPU、内存使用率,调用失败、成功次数

日志:模型服务部署、推理过程中产生的日志

更新

已部署服务点击其操作栏“更新”可进入更新设置的页面,更新服务时可设置服务信息、模型资源。

descript

回滚

已部署的模型服务点击其操作栏“回滚”可进入回滚设置的页面,回滚时可设置具体需要回滚的服务版本,服务中会记录最近更新的5个最近版本,每个版本会记录其对于的模型、模型版本、资源等信息。

descript

启动/停止

服务处于停止时可点击操作栏”启动“,确认后即可启动该服务。

descript

服务处于运行中时可点击操作栏”停止“,确认后即可停止该服务。

删除

点击服务列表操作栏中的“删除”操作,二次确认后删除模型部署中的该服务。