技术揭秘:360Zhinao2-7B开源,能力全面提升!
一. 基础模型训练
在minhash文档去重基础上增加语义向量去重,进一步提升网页数据的信息密度和均衡性。
将网页数据拆分成42类,适当降采占比过高数据,增加数据的多样性。
对网页进行改写,大幅提升网页内容组织形式丰富度,网页质量也有显著提升。
合成数据多样性:为了解决合成数据重复性的问题,我们借助了真实分布的数据作为合成的上下文,或者利用真实数据生成主题和子主题,极大的提升了合成数据的多样性。
合成数据难度:为了解决合成数据过于简单的问题,我们采用迭代合成的方法,逐渐加大合成数据的难度。
合成数据质量:为了提升合成数据的质量,我们使用大模型对数据进行多维度打分,过滤掉低质量的数据。
表1:基础模型benchmark效果
二. 模型对齐训练
数据多样性:据360自有标签体系进行领域,意图,难度,长度的分层采样,确保指令多样性
数据质量:用开源数据以及自有的偏序数据训练了360zhinao-pro-rm(reward bench得分92.59),使用该模型进行样本筛选,过滤低质数据。reward model对sft数据打分在类别统计上样本得分符合正态分布,删除规则采用:去除样本分数小于本类别均值和标准差之差的数据。
复杂指令进化:用进化方式做复杂指令优化,优化指令跟随能力。指令进化过程中采用self-instruction、wizard和基于CFbench多类型约束的auto-evol方法。
表2:微调模型benchmark效果
表3:长文本benchmark效果
-
本文分类: 行业资讯
-
本文标签:
-
浏览次数: 220 次浏览
-
发布日期: 2024-12-27 10:35:44