Skip to content
目录

评测任务

评测任务是连接评测对象、评测集和评估维度的核心环节,通过灵活的配置,您可以实现从批量生成、独立评估到全链路评测的多种自动化测试需求。

1. 任务创建

在“评测任务”管理页面,点击右上角的【新建任务】按钮,即可开始创建。平台提供了三种核心任务模式,以满足不同场景下的评测需求。

评测任务介绍

任务模式介绍

在您开始创建前,可以了解三种任务模式的区别,以便选择最符合您当前目标的模式。

模式目的适用人群典型使用场景企业场景示例
批量生成结果只执行评测对象,不进行打分。用于批量获取模型或应用的原始输出结果,以进行后续的人工分析或数据归档。开发者、数据科学家数据收集、生成结果存档批量处理一批历史客户问题,生成标准回答,供人工复查以优化话术。
分析已有数据不执行评测对象,只使用评估维度对已有的数据(通常包含inputactual_output)进行打分。QA/分析师、项目经理离线评估、合规审计、版本对比使用一套新的安全评估维度,对上个月已存档的客服对话记录进行打分,以进行回溯性的合规风险分析。
全链路应用评测既执行评测对象,也进行自动打分。一站式完成从输入到输出再到评分的全过程,获得即时反馈。开发、测试、产品及运维人员上线前回归测试、A/B实验、持续集成/持续部署(CI/CD)每次Agent模型版本更新后,自动运行核心评测集并进行性能评估,只有通过所有测试用例后方可部署到生产环境。

提示:若您的评测集或评测维度为空,系统将提供引导卡片帮助您先行创建。在任务创建过程中,您也可以随时点击页面上的 图标查看以上模式说明。

任务创建步骤 (以“全链路应用评测”为例)

第1步:基础信息
  • 名称 (必填):为您的评测任务输入一个清晰、易于识别的名称。
  • 描述 (选填):简要描述本次任务的目标或背景。

评测任务创建1

第2步:评测集

选择用于本次评测的数据集。

  1. 选择评测集与版本:首先选择一个评测集,然后从该评测集的版本列表中选择一个具体版本。
  2. 查看详情:选择版本后,右侧将自动加载并展示该版本的详细信息,包括:样本量、版本描述以及字段信息(列名、数据类型等)。您也可以点击跳转按钮,在新标签页中打开评测集详情页面。

评测任务创建2

第3步:评测对象

选择您希望评测的具体目标。

  • 类型:选择 Agent工作流

    注意:评测任务将默认使用评测集中的 input 字段作为评测对象的输入,此处无需进行字段匹配。

  • 当类型为 Agent/工作流 时

    1. 选择对象:从下拉列表中选择您要评测的Agent/工作流。
    2. 选择字段映射:勾选评测集字段到评测对象字段的映射,用于评测对象准确获取输入。
      • input:作为输入投递给评测对象 。
      • reference_output:预期理想输出,可作为评估时的参考标准。

评测任务3

第4步:评测维度

选择用于评估结果的评分标准。

  1. 添加维度:点击【添加评测维度】,从弹窗中选择一个或多个已创建的评估维度(最多5个)。

  2. 匹配变量:为每个维度中定义的变量匹配数据来源。数据来源可以是评测集中的某个字段,也可以是评测对象输出的某个字段(如actual_output)。

    校验:系统将检查您所匹配的字段数据类型是否与维度定义时要求的一致。

评测任务创建4

其他任务模式的配置差异
  • 批量生成结果:配置流程不包含 第4步:评测维度
  • 分析已有数据:配置流程不包含 第3步:评测对象。在该模式下,进行变量匹配时,数据来源仅能选择评测集中的字段。

2. 任务管理

任务列表

任务列表页展示了所有已创建的评测任务,是您管理和追踪所有评测活动的主界面。

  • 列表信息

    • 核心字段:任务名称、评测对象、状态、描述、创建人、创建时间、结束时间等。
  • 功能栏

    • 常规功能:支持按任务名称搜索、按状态筛选和新建任务。
    • 批量选择:点击后,列表进入多选模式,支持批量删除任务。
  • 列表操作

    • 查看:进入任务详情页,查看评测报告和数据明细。
    • 导出:当任务状态为“成功”时,允许您将评测结果数据导出为 .xlsx /.csv格式文件。
    • 删除:删除该评测任务。

评测任务列表

3. 任务查看

点击任务列表中的“查看”链接,即可进入任务详情页面,该页面包含数据明细和评测报告两个核心标签页。

数据明细

此页面以列表形式展示了评测集中每一条数据的详细运行结果和评分情况。

  • 列表信息

    • 默认展示列:序号、状态、Input (Agent输入内容)、reference_output (评测参考答案)、actual_output (Agent实际输出)等评测集字段。

    • 不同模式下的列差异

      • 批量生成结果:仅展示序号、状态、inputreference_outputactual_output
    • 得分展示:将鼠标悬停在具体得分上,会显示详细的得分原因。

  • 人工评分

    • 您可以直接在新增的单元格内输入分数和评分理由,点击外部区域即可自动保存,输入的分数必须在维度设定的分数范围内。

评测数据明细

评测报告

此页面通过图表和统计数据,对评测结果进行可视化分析和总结。

  1. 基础信息:展示任务的基本配置,如评测对象、评测集、评测维度等。

  2. 评测得分

    • 提供维度和打分方式(模型/人工)的多选筛选器。
    • 支持为不同维度设置权重,以计算加权总分。
    • 通过柱状图直观对比模型自动评分与人工评分的结果。

评测报告