Skip to content
目录

评估维度管理

评估维度是执行评测任务的核心,它定义了评分的模型、标准和逻辑。通过自定义评估维度,您可以构建贴合业务需求的自动化评测体系。

1. 创建评估维度

在“评估维度”管理页面,点击右上角的【新建维度】按钮,系统将跳转至评估器配置界面。平台目前支持基于大语言模型(LLM)进行评估。

评测维度界面

2. LLM评估配置

通过配置大语言模型评估器,您可以定义一个“AI裁判”,它将根据您设定的标准,对评测任务的输出结果进行自动打分。配置主要包括基础信息、评分模型和评分要求三部分。

(1) 基础信息

  • 维度名称:输入一个易于识别且唯一的维度名称。系统将校验确保名称不重复。
  • 维度描述 (选填):简要描述该维度的评估目的或核心标准,方便团队成员理解和复用。

(2) 评分模型

在此处选择一个大语言模型作为执行打分任务的“裁判”。

  • 模型选择:从模型列表中选择合适的模型。列表中已排除部分无法关闭内部思考过程的模型(如Deepseek R1),以确保评分结果的稳定和纯粹。
  • 参数配置:您可以像配置Agent一样,对所选模型的参数进行精细化调整,以控制评分的随机性与创造性。

评测维度创建1

(3) 评分要求

评分要求即您为“AI裁判”设定的评分指令(Prompt),其中包含了评分标准、变量和分数定义。

  • AI优化

    • 点击【AI优化】按钮,系统将根据您已输入的内容,自动优化和完善评分要求文本。在优化过程中,按钮将处于加载状态,文本框不可编辑。
  • 参考模板

    • 为了方便您快速上手,平台预置了多种常用的评估维度模板。这些模板被归类为四个页签,您可以直接点击选用,并在其基础上进行修改。
  • 评分要求文本框

    • 您可以在此编写或修改具体的评分指令。支持通过 的格式设置输入变量。在后续的评测任务中,这些变量可以与评测集中的字段(如input)或被评应用的输出字段进行关联,从而实现动态、精准的评估。

    评测维度创建2

  • 分数范围与描述

    • 范围设置:您可以自定义评分的边界,最小为1,最大为10。系统默认范围为 1-3分

      提示:建议使用1-3分制,这有助于模型更稳定、一致地输出评分。

    • 分数描述:您需要为每个分数级别提供清晰的文字描述。默认展示三行(对应1-3分),您可以直接编辑预置的示例内容,定义每个分数的具体含义。

    • 输出格式:评估器将严格按照 “分数-原因” 的格式输出结果,便于您快速了解每个样本的得分和具体理由。

    评测维度创建3

3. 评估器调试

在保存维度前,您可以通过调试功能,模拟一次评估过程,以验证评估器的配置是否符合预期。

  • 评测配置

    • 调试区的配置项(评分模型、评分要求等)与主编辑界面完全同步。您在此处所做的任何修改,都会被实时应用到主界面的配置中,无需二次保存。
  • 调试运行

    • 模拟输入:根据您在“评分要求”中定义的自定义变量,此处会自动生成对应的输入框。您可以在这些输入框中填入模拟的评测数据。
    • 开始运行:点击【运行】按钮,模型将根据您的配置和模拟输入,执行一次评分。
    • 测试结果:运行结束后,右侧将清晰地展示本次调试的输出 分数得分原因

    评测维度创建测试

4. 创建与版本管理

  • 创建维度

    • 完成所有配置和调试后,点击页面底部的【创建】按钮,系统将保存该评估维度,并返回评估维度列表页。
  • 版本管理

    • 评估维度不设版本管理。每次修改都是在当前维度上直接生效。
    • 因此,在创建评测任务选择评估维度时,您只需选择维度名称,无需选择特定版本。

5. 评估维度管理

创建完成后,您可以在“评估维度”列表页对所有已创建的维度进行统一查看和管理。

(1) 评估维度列表

评估维度列表页集中展示了您创建的所有评估器。

  • 列表信息

    • 名称:维度的唯一标识。
    • 描述:维度的简要说明。
    • 更新时间:该维度最近一次被修改并保存的时间。
  • 功能栏

    • 搜索名称:在输入框中输入关键词,快速筛选和定位特定的评估维度。
    • 刷新:点击以重新加载列表,获取最新的维度信息。
    • 新建维度:点击跳转至创建页面,开始配置一个新的评估维度。
  • 列表操作

    • 查看:点击后,将进入该维度的详情与编辑页面。
    • 删除:从列表中移除不再需要的评估维度。

评测维度管理

(2) 查看与编辑维度详情

点击任意评估维度后的【查看】按钮,即可进入其详情页面。

  • 此页面与“创建评估维度”的界面完全相同,您可以查看该维度的所有详细配置信息,包括基础信息、评分模型、评分要求等。

  • 页面内的所有配置项均支持修改。完成修改后,点击底部的【保存】按钮即可更新该维度。

    注意:修改维度名称时,系统仍会进行唯一性校验,不允许与其他已有维度重名。

评测维度查看

(3) 删除评测维度

当某个评估维度不再需要时,您可以将其删除。

  • 在评估维度列表中,找到目标维度,点击其对应的【删除】操作按钮。
  • 系统会弹出二次确认提示,以防误操作。确认后,该评估维度将被永久删除。