建设垂直领域大模型需要怎样的预训练数据?

提问者:Rae 问题分类:人工智能
建设垂直领域大模型需要怎样的预训练数据?
1 个回答
我是小样i
我是小样i
考虑以下3点:
1、高质量高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,减少训练时长,信源权威可靠、内容价值观对齐,专业领域知识达到标准。
2、大规模《Scaling Laws for Neural Language Models》中提出LLM模型所遵循的“伸缩法则"(scalinglaw),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。
3、多样性数据丰富性能够提高模型泛化能力,过于单的数据会非常容易让模型过于拟合训练数据
预训练数据集需具备以下特性:
1、相关性:回答是否和问题相关,避免答非所问。
2、准确性:是否准确,事实性回答要求完全一致,开放性问答要求语义相近。
3、完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。
4、连贯性:是否表达流畅、有条理、有逻辑性安全性:是否包含粗鲁、侮性等词汇。
5、专业性:不口水话,不啰嗦,书面用语,专业表达。
6、敏感性:是否涉及到政治领域、黄反、敏感上事件等负面信息。
发布于:1个月前 (02-14) IP属地:四川省
我来回答