深色模式
集中管理平台中训练、导入的模型。您可以在模型管理中对模型进行增删、版本管理、部署为在线服务等操作。模型管理列表展示登录平台后当前用户所有的模型资源,每个模型可以创建多个版本。当首次创建模型时,会自动创建一个模型版本;当删除最后一个模型版本时,模型也会随之删除。微调成功的任务会自动在模型管理中创建一个新的模型。模型的每个版本均可以从训练任务中导入或者自定义镜像导入。
我的模型
点击“新建模型”按钮,进入创建模型的页面,填写模型的基础信息与模型配置,包括以下内容:
**基础信息:**基础信息包括模型名称、模型版本、模型描述等内容
**模型配置:**模型配置包括模型来源、任务类型、模型类型等信息,来源不同,需要填写的信息则不同。
- 来源于训练任务:
任务类型目前仅支持大模型微调,基础模型为创建增量预训练任务和微调任务时支持选择的基础模型,训练任务根据基础模型过滤,仅支持选择微调任务生成的模型。
- 来源于自定义镜像:
来源于自定义镜像的模型需选择模型镜像、模型类型,并上传模型等说明文件。
查看与管理模型
模型列表展示每个模型的最新版本,展示信息包括模型名称、模型ID、版本数量、模型类型、模型来源、基础模型、创建时间等信息,操作栏支持查看详情、删除操作,并支持基于模型名称、模型类型、模型来源筛选检索模型。
详情
点击操作栏“详情”查看当前模型的所有版本,模型版本信息展示版本号、模型版本ID、状态、模型大小、描述、创建时间。操作栏支持查看版本详情、部署模型、删除模型,删除需二次确认。支持基于模型版本ID、导入状态过滤筛选模型版本。
- 版本详情
点击操作栏“详情”跳转至模型版本详情页,在详情页中展示当前模型的基础信息以及模型的说明。
基础信息包括模型名称、模型版本ID、模型版本、模型来源、模型类型、基础模型、状态、创建时间以及版本描述。模型说明包括模型的请求说明与相应说明,可结合调用说明调用模型服务的API接口。
- 部署
点击模型版本列表中的操作栏“部署”按钮跳转至模型部署页面,并自动带入当前版本模型信息。
- 零部署体验
对于LoRA微调模型,支持在模型部署前体验模型效果。点击模型版本列表中的操作栏“体验”按钮跳转至对话体验页面,并自动加载LoRA微调模型。
- 删除版本
点击模型版本列表中的操作栏中“删除”操作,弹框二次确认即可删除当前版本的模型。
删除
点击模型列表操作栏中的“删除”操作,二次确认后删除当前模型的所有版本。
模型压缩
模型压缩模块提供均衡模型性能与精度的能力。在尽量减少精度损失的前提下,通过量化、稀疏化等方式降低模型对资源的占用,提高模型推理速度。
注:目前模型压缩任务仅针对全量微调得到的语言大模型。
创建任务
在模型压缩任务管理页面,点击“新建任务”按钮,填写压缩任务名称、选择压缩源模型和压缩策略即可创建模型压缩任务。
查看与管理模型压缩任务
在模型压缩任务管理页面,点击操作栏查看任务详情和删除模型压缩任务。任务详情中可跳转查看压缩源模型和压缩后模型详情。删除任务需要二次确认。
调整排队中任务优先级
排队中任务的优先级有“高”、“中”、“低”三个等级。在资源紧张的情况下,优先级较高的任务会优先被分配资源。用户可根据需要调整排队中任务的优先级。点击优先级栏的上箭头,任务优先级上调一级;点击下箭头则下调一级。
模型评估
模型评估是通过评估数据集相对客观的评价模型的效果。评估数据集通常是在与训练数据集相似的情况下收集的,因此可以在一定程度上代表真实世界的样本数据。通过对评估数据集的评测,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。
人工评测
人工评测是综合专家的主观判断,从不同评价维度对模型响应结果进行打分,按照不同维度或综合评价模型的效果。
新建评测任务
点击“新建任务”按钮,进入创建评测任务的页面,填写基础信息、模型数据,设置评分规则后点击“确认”即可创建评测任务。
**基础信息:**包括评测任务名称、模型服务类型、评测任务描述
**模型数据:**包括评测类型、评测数据、模型服务,对比评测时需选择多个模型服务,最多支持选择5个。
**评分规则:**评分规则为人工评测所选择的维度,可选择整体满意度、计算、逻辑能力、代码、生成与创作、语义理解、知识与百科、角色扮演、长文本、工具与使用、安全性等维度,一次最多选择5个维度,默认选择整体满意度。
自定义评分维度:用户可以根据评估任务的需要自定义评分维度,新建评分维度仅对当前任务有效。
查看与管理评测任务
评测任务列表展示已创建的评测任务,列表展示信息包括任务名称、评测类型、模型类型、评测模型、评测状态、创建时间等信息,操作栏支持查看详情、重跑、评测、查看评测结果、删除操作,并支持基于评测任务类型、任务名称筛选检索评测任务列表。
详情
点击操作栏“详情”查看当前评测任务的详情,评测任务详情展示任务信息、评测结果、评测明细。若当前任务处于评测中,或评测失败则不支持查看评测结果和评测明细。
- 任务详情
任务详情展示当前任务基本信息、模型数据、评分规则。
基本信息为任务ID、任务名称、模型服务类型、任务描述。
模型数据为所选择的评测类型、评测数据集以及模型服务。
评分规则为选定的评测维度信息。
- 评测结果
评测结果是评测任务完成后基于人工打分汇总输出得到的评估报告,包括综合评价、指标得分与整体评价。
综合评价以雷达图和列表的形式展示展示模型服务在每一个评测维度的得分情况。
指标详情展示所选择不同维度较差、一般、较好得分比例。
模型整体评价为提交评测任务时填写的模型的综合评价信息。
- 评测明细
评测明细是评测任务中每条数据的输入、输出参考、模型输出以及打分情况。
重跑
提交评测任务后,模型批量推理过程中有部分失败的情况下可重跑当前评测任务,重跑时仅针对失败的条目进行重跑。
评测
处于评测中的任务,点击操作栏“评测”进入评测页面,评测页面中展示全部、未评测、已评测的菜单,对评测数据进行归类管理。数据评测后会自动进入已评测的类目中,支持翻页、跳过、保存等操作。
当前待评测数据评测完成后可点击“提交”按钮,提交当前评测任务,提交时可填写对模型的整体评价,至少需完成一条数据的评测。
结果
点击“结果”跳转至结果页,即模型详情中的评测结果页。
删除
点击评测任务列表操作栏中的“删除”操作,二次确认后删除当前评测任务。
自动化评测
自动化评测通过自动计算推理结果在通用指标上的得分,按照不同指标或综合评价模型的效果
新建评测任务
点击“新建任务”按钮,进入创建评测任务的页面,填写基础信息、模型数据,设置评分规则后点击“确认”即可创建评测任务。
**基础信息:**包括评测任务名称、模型服务类型、评测任务描述
**模型数据:**包括评测类型、评测数据、模型服务,对比评测时需选择多个模型服务,最多支持选择5个。
**评分规则:**评分规则为自动化评测所选择的指标,目前默认计算BLEU-4、ROUGE-1、ROUGE-2、ROUGE-L、F1。
查看与管理评测任务
评测任务列表展示已创建的评测任务,列表展示信息包括任务名称、评测类型、模型类型、评测模型、评测状态、创建时间等信息,操作栏支持查看详情、重跑、查看评测结果、删除操作,并支持基于评测任务类型、任务名称筛选检索评测任务列表。
详情
点击操作栏“详情”查看当前评测任务的详情,评测任务详情展示任务信息、评测结果、评测明细。若当前任务处于评测中,或评测失败则不支持查看评测结果和评测明细。
- 任务详情
任务详情展示当前任务基本信息、模型数据、评分规则。
基本信息为任务ID、任务名称、模型服务类型、任务描述。
模型数据为所选择的评测类型、评测数据集以及模型服务。
评分规则为选定的评测指标信息。
- 评测结果
评测结果是评测任务完成后基于自动化指标计算汇总输出得到的评估报告,包括综合评价。
- 综合评价以雷达图和列表的形式展示模型服务在每一个评测指标的得分情况。
- 评测明细
评测明细是评测任务中每条数据的输入、输出参考、每个对比模型的输出。
重跑
提交评测任务后,模型批量推理过程中有部分失败的情况下可重跑当前评测任务,重跑时仅针对失败的条目进行重跑。
结果
点击“结果”跳转至结果页,即模型详情中的评测结果页。
删除
点击评测任务列表操作栏中的“删除”操作,二次确认后删除当前评测任务。