2 个回答
分4个步骤,分别是:
1、创建数据集:创建通用数据集建议以(Prompt+Response或Prompt+多Response的格式)创建,并且对于推理数据集以(prompt+response+completion的格式)创建。(通用数据集用于模型推理和微调、推理数据集用于模型评估)
2、数据标注数据标注以(Prompt+Response或Prompt+多Response的格式)的形式实现。
3、数据处理
1、创建数据集:创建通用数据集建议以(Prompt+Response或Prompt+多Response的格式)创建,并且对于推理数据集以(prompt+response+completion的格式)创建。(通用数据集用于模型推理和微调、推理数据集用于模型评估)
2、数据标注数据标注以(Prompt+Response或Prompt+多Response的格式)的形式实现。
3、数据处理
异常清洗,文档内修改/去除问题字符串,比如替换中部分异常文本,删除多余空格等。
数据过滤,根据一些规则或模型指标,从语料库中删除整个文档,比如删除太短的、字符重复太多的文档。
数据去重,去除相似文档,减少算力浪费,降低过拟合风险。
数据脱敏,匿名化,去除账号、密码、电话号码等敏感信息。
4、数据管理对制作好的数据集进行版本、权限、归档等管理。发布于:1个月前 (02-14) IP属地:四川省
需注意:吸取大数据发展经历过的经验教训,在一开始,就对数据集和知识库做好如质量、血缘、元数据等管理,建立完整的行业内企业级的模型评估标准、数据集打分标准、大模型应用评分标准、数据集管理标准等。
发布于:1个月前 (02-14) IP属地:四川省
我来回答
您需要 登录 后回答此问题!