深色模式
数据集
数据管理模块包含数据集管理和评测集管理模块,数据集管理用于后续的数据处理、模型调优等操作,同时支持用户自建或使用预置数据集以及管理数据的不同版本,确保模型训练的可用性。评测集管理用于后续的模型评估,支持用户自建或使用预置评测集进行对应模型的评估
数据集管理-创建
根据所需要用到的数据集类型进行对应数据集名称的设置,数据类型的选择,数据用途的选择,以及导入符合格式要求的文件完成数据集的创建。
数据集管理-列表与展示
展示用户所创建的数据集,包括显示当前数据集的版本、导入与发布状态、数据类型、数据用途、数据量、更新时间等信息,同时支持用户对当前数据集进行查看详情、删除、导出和发布等操作。切换预置数据集展示内容为官方公开的数据集,可直接开始模型训练任务。
数据集管理-查看详情
进入数据集管理详情页面可查看当前数据集所包含的版本情况,可新建版本,也可对已导入数据的版本进行操作,如查看详情,删除,导出与发布
【详情】可查看数据集包含数据内容,可在线预览;
【导入】可将数据文件导入至空版本中;
【删除】点击后会提示二次确认是否继续删除;
【发布】发布后的数据将变成可用于后续模型调优使用;
评测集管理-创建
根据所需要用到的评测集数据进行评测集的创建,注意目前仅支持文本类型数据。
评测集管理-列表与展示
展示用户所创建的评测集,包括显示当前评测集的名称、ID、导入状态、数据类型、数据量、更新时间等信息,同时支持用户对当前评测集进行查看详情、删除、导出和评估等操作。
●【详情】可查看评测集包含数据内容,可在线预览;
●【导出】可将数据文件导出至本地;
●【删除】点击后会提示二次确认是否继续删除;
●【评估】发布后的数据将变成可用于后续模型调优使用;
切换预置评测集为官方开源公开评测集,可直接开始模型评估任务。
数据处理
数据处理包含数据清洗和数据增强两个模块内容,用户可对自建数据集进行清洗,去掉无用和错误数据,同时也可使数据量进行扩充,此系列步骤旨在提升模型调优效果,为得到更优质的调优后模型。
数据清洗
通过运用去重、脱敏等多种操作手段,对数据进行清洗处理,确保数据达到使用标准。
创建清洗任务
点击【创建清洗任务】按钮开始新建清洗任务
基础信息
包含任务名称(系统随机生成,也可手动更名),选择数据来源处理后的数据集会在此数据集中新增一位版本。
算子信息
包含清洗任务所需算子类型,根据用户实际数据情况按需选择和设置,确认后即可开始清洗任务
查看与管理
在列表中可查看清洗任务相关信息,包括名称、处理方式、处理状态、数据类型、数据用途、数据来源、数据流向、创建时间以及查看详情和删除任务相关操作
任务详情
进入到任务详情中可查看完整的基础信息、参数配置以及数据详情(包含具体处理前后的数据内容以及处理方式)。
数据增强
基于种子数据,自动生成更多相关数据,适用于数据数量不足场景。
创建增强任务
点击【创建增强任务】按钮开始新建增强任务
参数配置
支持选择需要生成的样本数范围1-2000。
查看与管理
在列表中可查看增强任务相关信息,包括任务名称、数据类型、数据用途、数据来源、数据流向、创建时间以及查看详情和删除任务相关操作
任务详情
进入到任务详情中可查看完整的基础信息、参数配置。
数据回流
支持用户将服务推理过程中产生的数据便捷地下载至本地环境,或将其重新整合保存至原有数据集中。通过对这些数据进行深入分析与处理,用户可以进一步挖掘数据价值,为后续的模型优化和训练提供有力的数据支持,从而提升模型的性能和准确性。
任务详情
点击详情可查看当前任务下的回流数据信息,包括模型指令、用户指令、模型响应、请求时间、相关评价同时可再点击详情查看当前对话下的全部多轮对话内容。支持按时间维度和评价维度共同筛选数据,同时支持保存此任务数据至新的数据集中或下载到本地。
数据标注使用概述
紫东太初大模型训推平台提供标准的数据标注工具,在标注平台上传标注集后,基于不同的标注类角色,共同完成数据标注任务,标注后的文本数据集可用于预训练或微调大语言模型。
标注角色类型
训推平台的管理员、高级用户、资深用户对应标注平台的总监角色;总监(管理员、资深用户、高级用户)、运营、验收账号请跳转前往运营管理平台进行操作;供应商、标注、质检账号请前往数据生产平台进行操作。
具体角色介绍见下表:
角色类型 | 登录跳转平台 | 角色简介 | 备注 |
---|---|---|---|
总监 | 运营管理平台 | 管理平台内所有类型的账号;管理项目、任务 | 甲方角色,训推平台管理员、高级用户、资深用户对应标注平台的总监角色 |
运营 | 运营管理平台 | 推进数据标注的整个工作流程 | 甲方角色 |
供应商 | 数据生产平台 | 承接标注任务,管理标注和质检人员 | 乙方角色 |
标注员 | 数据生产平台 | 供应商侧生产人员,标注数据 | 乙方角色,标注员和质检员本质上是等同的,如001用户可当标注或质检,002同理。具体分为“标注”或”质检“取决于运营或供应商的角色分配 |
质检员 | 数据生产平台 | 供应商侧生产人员,质检被标注的数据 | 乙方角色,标注员和质检员本质上是等同的,如001用户可当标注或质检,002同理。具体分为“标注”或”质检“取决于运营或供应商的角色分配 |
验收员 | 运营管理平台 | 对供应商交付的数据,进行最后一步验收 | 甲方角色 |
数据标注流程图
操作流程
第一步:创建账号
总监需要在运营管理平台中创建以下几种类型的账号:
第一,供应商账号。供应商账号主要负责管理供应商的标注团队,承接标注任务。供应商账号在数据生产平台登录。
第二,供应商团队成员账号。供应商团队成员账号主要负责具体的数据标注和质检工作,因此一般也称为标注员账号和质检员账号。标注员账号和质检员账号在数据生产平台登录。标注员和质检员的账号也可由对应的供应商账号创建,但该权限需要总监账号赋予。创建方法有单个创建和批量创建(用户名前缀+用户个数)
第三,运营账号。运营账号主要负责上传待标注的数据集、创建数据标注项目和任务、推进标注任务的完成。运营账号在运营管理平台登录。
第四,验收员账号。验收员账号负责对标注好的数据进行最后一步的验收工作。验收员账号在运营管理平台登录。
第二步:分配供应商
总监账号需要为运营账号分配可用的供应商。支持一键为运营账号分配所有供应商,也可以选择性地分配部分供应商。
第三步:上传数据集
创建标注任务前,运营账号需要上传待标注的数据集。用户可以将上传的数据保存为新的数据集,也可以选择现有数据集,为该数据集添加新数据。平台为每一种数据集的上传提供样例数据,避免因上传格式问题造成麻烦。
第四步:创建项目和标注任务
数据标注任务需要挂载在某个项目下。运营账号需要先新建项目,基础信息包括项目名称和项目编号。
在创建数据标注任务时,需要先选择标注任务所属的项目,然后填写任务的基础信息,包括任务名称、任务类型、标注模版、截止时间等。用户需要在系统提供的基础模版上,添加标注的绘制方式、整体属性、标注属性等配置。
完成标注模版的配置后,用户可以设置超时时间、质检比例和任务合格率,从而保证标注完成的质量。对于有特殊任务要求的标注任务,用户可以上传任务要求文件告知标注人员。最后选择需要被标注的数据集,完成标注任务创建操作。
第五步:发布任务并分发给供应商团队
在确认标注任务无误后,运营账号需要发布任务。发布任务后,运营账号可以将标注任务分发给一个或多个供应商团队完成。分配完成后,运营账号可以随时进入进度详情页面查看各供应商团队的标注进度。
第六步:分配标注员和质检员
指定任务交付的供应商后,还需要指定供应商团队内的具体成员进行标注或质检任务。这一步可以由运营账号或者供应商账号完成。
第七步:分配验收员
标注任务完成分发后,需要指定该标注任务的验收员。若任务由多个供应商共同完成,可以对每一个供应商分配一个指定的验收员。这一步可以由总监账号或者运营账号完成。
第八步:数据标注、质检和交付
然后标注员对数据进行标注。以普通的动物图片分类任务为例,标注时框选分类物的位置(框选的时候点击一下屏幕然后松开!移动鼠标即可看到框图),填写标注属性,最后提交即可。
同时质检员对已被标注的数据进行质检,对于标注有问题的样本,质检员可以将其判定为“不合格”,返回去让标注员重新标注。标注员完成修改后,质检员重新对其进行质检,直至样本被判定为“合格”。
完成所有标注和质检任务后,被标注的数据需要交付给验收员。这一步操作可以在供应商账号或者运营账号上完成。
第九步:数据验收
验收员需要对被交付的数据逐一进行验收,判定标注是否合格。对于判定为“不合格”的样本,可以打回给标注员重新标注,但无需再经过质检流程。验收员需要对数据再次进行验收。验收员可以要求返修样本,被返修的样本打回到标注员并且重新经历“标注—质检—交付—验收”流程。验收员的验收过程出现问题时,也可晴空验收结果重新验收。
确认交付的数据达到合格标准后,验收员完成验收工作,至此整个数据标注流程完成。