首页 / 行业资讯 / 技术揭秘：360Zhinao2-7B开源，能力全面提升！

技术揭秘：360Zhinao2-7B开源，能力全面提升！

近日，360自研AI大模型360智脑7B参数升级版（360Zhinao2-7B）正式开源，现已上线Github开源社区可免费商用。该模型是继今年4月 360Zhinao1-7B 开源后的重要更新，模型各项能力得到全面提升，不仅大幅提升了中英文通用能力，还显著增强了模型的数学逻辑推理能力。模型在中文考试CEval、复杂数学推理math、中文阅读理解C3、中文摘要lcsts等评测集上展现超强竞争力，在10B以下开源模型上排名第一。模型在 IFEval、MT-bench、CF-Bench三个评测上具备竞争力，比如在 IFEval (prompt strict) 上，在开源7B尺寸上得分最高。

优异的模型效果，主要得益于360Zhinao2-7B在基础模型训练和模型对齐训练两个方面，均取得了重大进展，下面详细介绍下一些技术细节。

一. 基础模型训练

1.1 模型结构

与360Zhinao1-7B一样，模型主要是基于Transformer的dense模型结构，最大不同是采用GQA替代MHA，模型推理吞吐效率大幅提升。

1.2 预训练数据

基础模型效果上优异表现，主要得益于预训练数据质量得到了大幅的提升。在360Zhinao1-7B技术报告中的大量数据工作外，在网页数据处理和数据合成方面，做了大量的工作。

网页数据多样性和质量大幅提升

在minhash文档去重基础上增加语义向量去重，进一步提升网页数据的信息密度和均衡性。
将网页数据拆分成42类，适当降采占比过高数据，增加数据的多样性。
对网页进行改写，大幅提升网页内容组织形式丰富度，网页质量也有显著提升。

图1：中英文网页真实分布占比情况

大规模数据合成弥补真实数据不足

图2：数据合成流程示意图

我们加大了数学、代码、指令数据的占比。现实中该类数据比较匮乏或质量不高，如：数学经常是只有题目没有解题过程及答案；代码数据只有代码而缺乏代码功能说明文字；开源的指令数据量少且难度不足。为了解决这些问题，我们在合成数据上做了大量的工作：

合成数据多样性：为了解决合成数据重复性的问题，我们借助了真实分布的数据作为合成的上下文，或者利用真实数据生成主题和子主题，极大的提升了合成数据的多样性。
合成数据难度：为了解决合成数据过于简单的问题，我们采用迭代合成的方法，逐渐加大合成数据的难度。
合成数据质量：为了提升合成数据的质量，我们使用大模型对数据进行多维度打分，过滤掉低质量的数据。

调整数据配比，增加数学、代码和指令数据占比

相比360Zhinao1-7B，我们大幅降低了网页数据的占比，增加了数学、代码、指令三种类型的数据占比，模型的推理能力和指令遵循能力有了显著的提升。

图3：预训练数据配比

1.3 预训练方法

不同于360Zhinao1的一阶段训练方式，我们采用当前主流的两阶段训练方法。第一阶段总共训练10T token，采用cosine学习率，最大学习率3e-4，为了确保退火阶段LR具有较大斜率，我们适当加大了第一阶段的最小学习率；第二阶段退火训练，我们加大了高质量数据的占比，训练了100B高质量token，学习率LR直接decay到0。360Zhinao2-7B总共训练数据量达10.1T token。

1.4 基础模型效果

我们使用了开源工具OpenCompass对模型进行评估，对比了近半年国内外开源的10B以下模型，360Zhinao2-7B具备较强的竞争力。360Zhinao2-7B在CEval（中文考试）、C3（中文阅读理解）、lcsts（中文短文本摘要）等中文benchmark上表现不俗，中文benchmark均分排名第一。在挑战性的竞赛数学数据集math上，同样排名第一。360Zhinao2-7B模型在中文处理能力、复杂数学推理能力两个方面，具备优势。

表1：基础模型benchmark效果

二. 模型对齐训练

采用iterative DPO，off-policy DPO以及PPO三种进化方式分别对齐，再采用先内插再外插的方法，极致提升模型的天花板。结合高质量人工标注的微调数据以及可验证的复杂指令遵循数据，大幅增强了模型在实际应用场景中的指令遵循能力。

2.1 后训练数据

360自有通用微调数据50w，该数据综合考虑技能多样性及360垂直业务数据，生成方法如下：

数据多样性：据360自有标签体系进行领域，意图，难度，长度的分层采样，确保指令多样性
数据质量：用开源数据以及自有的偏序数据训练了360zhinao-pro-rm（reward bench得分92.59），使用该模型进行样本筛选，过滤低质数据。reward model对sft数据打分在类别统计上样本得分符合正态分布，删除规则采用：去除样本分数小于本类别均值和标准差之差的数据。
复杂指令进化：用进化方式做复杂指令优化，优化指令跟随能力。指令进化过程中采用self-instruction、wizard和基于CFbench多类型约束的auto-evol方法。

图4：后训练数据分布情况

2.2 训练方法

1、全参数微调：基于50w通用后训练数据，进行全参数微调。微调中使用packing方式（packing训练速度快、且因与pre-train形式保持一致，性能不弱于不packing方案），最大packing长度选择8192，lr、batch_size、weight decay分别设置为:1e-5、 128、 0.1，epoch数为6。综合考虑榜单和自有评测集合得分，选最优checkpoint作为sft-base。

2、PPO：在近两年的时间中，我们增量地收集了百万级pair偏好数据，训练了360zhinao-pro-rm（reward bench得分92.59），基于该RM做PPO训练，具体算法使用ReMax或GRPO。

3、Iterative on-policy DPO：使用sft-base模型在训练prompt上采样多个答案，用360zhinao-pro-rm打分，取最高最低分组pair进行DPO训练。我们迭代地使用这种on-policy 全参DPO提升模型效果。

4、LoRA off-policy DPO：基于人类标注好的偏好对，中英文各1万条，采用QLoRA技术实现高效训练。训练参数一般设置为：LoRA rank为256，LoRA alpha为512，LoRA dropout为0.05，最大序列长度为2048。训练完成后，将多个LoRA adapter合并至原始模型。

5、模型合并：在内部评测集合v4.0上，针对上述若干个模型做自动评测，发现不同模型各有其优势技能，考虑模型合并方案。基于sft模型为base，融合PPO和DPO后的模型做内插得到模型v1，然后仍以sft模型为base和v1模型进行外插，外插系数0.2 最终得到360Zhinao2-7B-Chat-4k。

图5：后训练全流程图。我们在SFT后进行了PPO和DPO，并将优势技能不同的模型合并和插值。

2.3 模型效果

我们在IFEval、MT-bench、CF-Bench三个流行的评测上对360Zhinao2-7B-4K模型进行了评测比较，模型具备竞争力。在IFEval (prompt strict) 仅次于glm4-9b，在7B尺寸上得分最高:

表2：微调模型benchmark效果

2.4 长文本微调

图6：长文本微调流程图

与360Zhinao1开源时的做法基本一致，我们将RoPE base依次扩大为1,000,000和50,000,000，混合长短文本的SFT数据依次拼接至32k和360k，将gradient checkpointing、ZeRO3 offload和序列并行等技术结合，依次微调得到32k和360k长文本模型。在各个32k benchmark上位列第一梯队。

表3：长文本benchmark效果

本文分类：行业资讯
本文标签：
360Zhinao2 7B AI大模型人工智能
浏览次数： 2292 次浏览
发布日期： 2024-12-27 10:35:44
本文链接： https://aiplus.360.cn/hyzx/8929.html

上一篇 > 周鸿祎谈AI应用落地：最大挑战在于如何用AI解决传统行业问题

下一篇 > 木马“卷王”再度升级传播手段，360全方位遏制银狐变种

AI 企业知识库

产品能力

多模态文档解析

AI大模型问答

知识广场

MCP工具

知识员工

知识精准解答

知识提炼归纳

智能体广场

知识权限管控

知识管理协作

AI智能搜索

AI文件助手

AI会议纪要

AI翻译

AI脑图

AI超长文本解读

激活知识价值

查看详情

AI 文件协同管理平台

产品能力

防灾备份管理

共享协作平台

安全管控机制

多人协同编辑

历史版本管理

多端实时同步

大文件极速传输

海外全球加速

多文件一键收集

文件在线审阅

安全防泄漏

文件跨网摆渡

文件安全外发

多重加密传输

云查毒隔离

水印预览

回收站多重备份

离职一键交接

日志溯源审计

工作流管理

票据智能识别

企业文件模板库

API 开放接口服务

多系统集成方案

企业个性化定制

AI能力

以图搜图

以文搜图

AI 智能搜索

AI 智能问答

AI 知识员工

AI PPT

AI DOC

AI EXCEL

AI 云文档

AI 沉浸翻译

AI 总结 / 摘要

AI 润色 / 续写

AI 大模型问答

AI 拒答

AI 文本识别对比

AI 脑图

团队协作与安全管控

查看详情

AI 企业云盘

产品能力

备份与管理

共享与协作

安全与管控

在线协同编辑

文件秒速收集

文件在线审阅

Office文档

AI云文档

知识沉淀与管理

AI能力

AI大模型问答

AI搜图