技术揭秘:360Zhinao2-7B开源,能力全面提升!
一. 基础模型训练
在minhash文档去重基础上增加语义向量去重,进一步提升网页数据的信息密度和均衡性。
将网页数据拆分成42类,适当降采占比过高数据,增加数据的多样性。
对网页进行改写,大幅提升网页内容组织形式丰富度,网页质量也有显著提升。
图1:中英文网页真实分布占比情况
合成数据多样性:为了解决合成数据重复性的问题,我们借助了真实分布的数据作为合成的上下文,或者利用真实数据生成主题和子主题,极大的提升了合成数据的多样性。
合成数据难度:为了解决合成数据过于简单的问题,我们采用迭代合成的方法,逐渐加大合成数据的难度。
合成数据质量:为了提升合成数据的质量,我们使用大模型对数据进行多维度打分,过滤掉低质量的数据。

表1:基础模型benchmark效果
二. 模型对齐训练
数据多样性:据360自有标签体系进行领域,意图,难度,长度的分层采样,确保指令多样性
数据质量:用开源数据以及自有的偏序数据训练了360zhinao-pro-rm(reward bench得分92.59),使用该模型进行样本筛选,过滤低质数据。reward model对sft数据打分在类别统计上样本得分符合正态分布,删除规则采用:去除样本分数小于本类别均值和标准差之差的数据。
复杂指令进化:用进化方式做复杂指令优化,优化指令跟随能力。指令进化过程中采用self-instruction、wizard和基于CFbench多类型约束的auto-evol方法。



图5:后训练全流程图。我们在SFT后进行了PPO和DPO,并将优势技能不同的模型合并和插值。
表2:微调模型benchmark效果
图6:长文本微调流程图
表3:长文本benchmark效果
-
本文分类: 行业资讯
-
本文标签:
-
浏览次数: 1598 次浏览
-
发布日期: 2024-12-27 10:35:44


京公网安备 11000002002063号
电话咨询