辽宁股票配资公司得益于采集标注了大量中文 app 截屏数据
vivo AI Lab 发布 AI 多模态新模型了,专门面向端侧设计,紧凑高效~
能够直接理解 GUI 页面的那种:
模型 BlueLM-2.5-3B,融合文本和图文的理解和推理能力,支持长短思考模式自由切换,并引入思考预算控制机制。
与同尺寸模型相比,BlueLM-2.5-3B 在多个文本与多模态评测任务中表现出色。
BlueLM-2.5-3B 支持思考预算控制(thinking token budget),有效平衡思考深度和推理成本:
兼具多模态推理和文本的推理能力,思考范围扩展:
另外值得一提的是,作者对模型结构与训练策略进行了深度优化,显著降低了训练和推理成本。通过优质数据筛选、自动配比策略以及大规模推理合成数据,模型的数据利用效率大幅提升。
同时,模型训练全过程由自建的高性能训练平台与框架高效支撑,确保了训练效率和训练稳定性。
以下是更多细节。
在 20 余项评测任务中表现出色
BlueLM-2.5-3B 在 20 余项评测任务中展现出如下核心优势:
1、文本任务表现出色,缓解能力遗忘难题
BlueLM-2.5-3B 在 thinking、non-thinking 不同模式下,在文本任务上与同规模文本模型 Qwen3-4B 效果相近,领先于同规模以及更大规模的多模态模型。
这主要得益于数据策略以及训练策略较好地缓解了困扰多模态模型训练的文本能力遗忘难题。
thinking 模式下,与 4B 以下同规模具有思考模式的文本模型 Qwen3-4B-thinking 相比,BlueLM-2.5-3B 除代码类任务外其他大部分文本任务效果相近;与同规模多模态模型如 Qwen2.5-VL-3B 相比指标全面领先;与更大规模的具有思考模式的多模态模型 Kimi-VL-A3B-16B-thinking 相比,文本效果全面领先。
thinking 模式下推理类任务(如 Math-500、GSM8K、AIME)效果也显著优于更大规模的没有 thinking 模式的模型如 Qwen2.5-VL-72B。
non-thinking 模式下,与同规模文本模型 Qwen3-4B-non-thinking 相比,文本效果相当。
明显优于同规模多模态模型 Qwen2.5-VL-3B、Gemma3-4B,其中推理类任务如 Math-500、BBH、AMIE24、AIME25 优势更为明显。
与更大规模多模态模型 Kimi-VL-A3B-16B-non-thinking 相比全部指标均更优,尤其是推理类任务的优势更明显。
2、多模态理解能力领先同规模模型
BlueLM-2.5-3B 在 thinking、non-thinking 不同模式下,在多模态任务上领先于同规模多模态模型,与更大规模的多模态模型效果相近。
thinking 模式下,与更大规模模型 Kimi-VL-A3B-16B-thinking 相比,大多数评测任务的差距在 5% 以内;在推理相关任务如 MathVista 和 MathVision 的效果优于没有 thinking 模式的 Qwen2.5-VL-72B。
non-thinking 模式下,与同规模模型 Qwen2.5-VL-3B 相比,指标全面领先,其中推理类任务 Mathvista、Mathvision 优势明显;与 Gemma-3-4B 相比效果更优;与更大规模模型 Kimi-VL-A3B-16B-non-thinking 相比,超过半数指标领先,其余指标差距在 5% 以内;与行业领先模型相比,一半左右评测集差距在 5% 以内。
3、同时支持文本和多模态的长短思考以及思考预算控制
上述评测结果显示,BlueLM-2.5-3B 同时具备了文本与多模态的 thinking 模式。长思考模式显著提升复杂推理任务上的模型效果。
例如,在 AIME25 任务中 thinking 模式较之 non-thinking 模式提高达 40 分,在 MathVision 任务中提高达 19.2 分。
4、GUI 理解能力领先同规模模型
与同规模模型相比,BlueLM-2.5-3B 在 GUI grounding 指标上全面领先,例如 ScreenSpot、ScreenSpot V2、ScreenSpot Pro 的得分均超过了 Qwen2.5-VL-3B 和 UI-TARS-2B。
与更大规模模型如 Qwen2.5-VL-7B、UI-TARS 7B 相比存在一定差距。得益于采集标注了大量中文 app 截屏数据,在中文评测集 ScreenSpot vivo 得分高于其他模型。
精巧模型结构与高效训练
为支撑模型上述效果,BlueLM-2.5-3B 设计了精巧紧凑的模型结构和高效的训练策略。
模型结构
BlueLM-2.5-3B 面向端侧部署,参数量仅 2.9B,比同规模的模型如 Qwen2.5-VL-3B 小 22% 以上,具有训练和推理的成本优势。
BlueLM-2.5-3B 模型由 ViT、Adapter、LLM 组成。如图所示:
ViT 采用 400M 参数量的 SigLIP2(so400m-patch14-384)。 采用 AnyRes 方案支持动态分辨率,最大图像输入 1512 × 1512。切完子图后,固定长度 token 便于端侧部署,且子图并行推理,推理耗随输入 token 数量线性增长。此外,小尺寸 ViT 也有助于进一步降低功耗。
图像 token 经 Adapter 投影后接入 LLM Decoder。
下图展示了 BlueLM-2.5-3B 优秀的 ViT 推理性能:
预训练策略
文本和多模态的预训练共分为 4 个阶段:
1、文本数据预训练策略(Pure-Text Pre-training Stage)
LLM Decoder 参数采用文本模型初始化。文本模型采用了"大模型裁剪 + 蒸馏"的三阶段训练策略,包括普通预训练(General Pre-training)、快速衰减(Fast-Decay, FD)和微调(SFT)。
首先训练 7B 教师模型并裁剪得到 3B 文本模型,再继续用 3T tokens 蒸馏预训练以及 300B tokens FD 蒸馏训练。
相比从零训练的同尺寸模型,性能提升超 4%。
2、文本和图文数据联合预训练 (Joint Pre-training Stage)
先冻结 ViT 和 LLM 参数,利用 2.5M 条图文对数据训练 Adapter;再解冻全参数进行全量训练。
通过设置 64M 的大 batch size、统一 12T tokens 全局学习率衰减调度及对 ViT 的分层学习率控制,有效提升了训练效率与稳定性。
这一阶段,作者实现了训练流程简化,省略了一般方案中 ViT+Adapter 的单独训练阶段,直接全量训练。
3、推理增强数据的继续训练(Reasoning-Enhanced Stage)
作者在文本数据中提升 STEM、编程、逻辑推理以及高质量合成数据的占比。
合成数据覆盖了短 COT 和长 COT 数据。在多模态数据中引入大量高质量的推理相关的图文问答对。这一阶段共使用 2.5T tokens 数据。
将文本任务的推理增强训练后置到多模态阶段,有效避免了文本推理能力遗忘,提升了训练效率。
4、快速衰减与长文联合训练(Joint Fast-decay and Long-context Activation Stage)
快速衰减阶段同时进行长文训练。位置编码从 Rope 调整为 Yarn。
这一阶段使用 1.3T tokens,序列长度从 4K 扩展到 32K。通过逐步将原生长文和高质量长推理数据占比增至 80% 以上、减小 Global Batch Size,有效提升模型的长思考能力。
后训练策略
BlueLM-2.5-3B 的后训练分为 2 个阶段:
1、SFT 训练
SFT 阶段将文本与多模态任务联合微调,引入特殊 token [ |BlueThink| ] 控制思考模式是否触发。这一阶段序列长度保持为 32K。根据学习难度差异,作者将常规 COT 数据训练 3 epoch,长 COT 数据训练 9 epoch。
2、RL 训练
RL 阶段混合使用了基于人类偏好反馈的强化学习(RLHF)方法和基于可验证奖励的强化学习(RLVR)方法,使用 GRPO 算法进行优化。
开放问答类任务,使用 RLHF 方法。对文本写作、总结等任务,使用生成式奖励模型从相关性、准确性、有用性、冗余性维度进行打分优化;而模型安全能力的提升,则使用判别式奖励模型进行优化。
对有明确答案或评测标准的任务,如数学、代码等推理相关任务,使用 RLVR 方法。作者使用规则结合 verify 模型进行正确性打分,最终奖励分数综合考虑答案正确性、格式正确性和重复情况和长度,其中为了优化模型"过度思考"的问题,作者引入" Group Overlong "的长度惩罚机制。
高质量训练数据
模型性能背后离不开高质量训练数据的支持。BlueLM-2.5-3B 的训练数据有如下特点:
1)相较于同规模模型如 Qwen2.5-VL-3B,预训练数据总量减少了约 23%,这主要得益于对文本模型训练数据的有效压缩。文本模型训练数据仅为 Qwen3-4B 的 25%、Qwen2.5 的 48%。
2)BlueLM-2.5-3B 的多模态预训练数据显著多于其他模型,主要因为文本推理能力训练后置合并到多模态训练阶段。累计引入 3.3T tokens 推理增强数据,为小模型具备较强推理能力奠定了坚实的数据基础。
文本预训练数据
文本模型预训练阶段共计使用 9.3T tokens,其中 6T tokens 用于教师模型训练,3.3T tokens 用于学生模型的蒸馏训练。
多模态预训练数据
多模态模型的预训练数据为 4T tokens,涵盖 Image Caption、OCR、GUI、纯文本以及其他类型数据。其中纯文本 1.6T,图文对 2.4T。通过将文本数据占比提升至 40%,有效缓解了多模态预训练阶段文本能力遗忘问题。
另外,从预训练阶段开始就引入 GUI 等业务相关数据,有效提升基模在业务场景的能力上限。
推理训练数据
作者构建两阶段的数据合成 pipeline 生产大规模推理数据,第一阶段通过多种途径获取原始问题并改写扩充规模。第二阶段通过多次采样同一问题获得不同的推理路径,结合规则检查、拒绝采样以及投票技术筛选高质量答案。
长文本数据
作者引入了由长文本与图文混合构成的长上下文训练数据。在原生长文本数据的基础上,引入高质量的长距离推理数据,有效提升了模型在多模态场景下的上下文理解深度与推理稳定性。
SFT 数据
作者构造了高质量 SFT 数据集。从社区和内部业务广泛收集问题及图片,经过标注分类和指令去重后,围绕能力维度重建了多样化的新指令集。然后用多个强模型生成候选答案,结合规则过滤、模型打分、多数投票、人工校验等方法,筛选高质量数据。
数据集在语言与模态方面保持良好平衡,确保满足任务多样性、答案质量、场景平衡。其中,长推理方面构建了包含 300K 条样本、覆盖 STEM 领域的高质量 SFT 数据集。
RL 数据
作者构建了多种任务类型的强化学习数据集,覆盖数学、代码、STEM、指令跟随以及端侧业务等。数据来源于开源数据集以及业务场景,经过去重、质量过滤,总计 145K 条。
Data Pipeline
作者构建了一套覆盖数据处理全生命周期的自动化 data pipeline,涵盖数据采集、合成、格式转换、质量过滤、去重、分类、筛选、配比、样本构建等关键模块,支持多源异构数据统一接入,具备高度模块化与自动化能力,显著提升了预处理效率与训练数据质量。
高性能训练平台与框架
为支撑模型的高效训练,作者构建了高性能训练平台和训练框架。
训练集群
作者自建了大规模高性能训练集群,在千卡级训练场景实现了超过 95% 的近线性加速比。依托自研的轩辕分布式存储并通过多级缓存优化 IO 瓶颈。同时建设了集群稳定性保障体系,训练有效时长超过 99%。
多样本拼接平衡计算负载、提高 GPU 利用率:
长上下文训练:
vivoLM 训练框架
作者基于 Megatron-LM,自研了 vivoLM 训练框架,支持文本和多模态大模型训练,围绕以下四大维度进行了优化:
1)训练性能上,优化图文对拼接策略以均衡每张卡计算的 token 数量,提升算力利用率。 通过 Context Parallelism + CP 组内 ViT 数据并行支持 32K 长文训练,训练效率是社区方案的 1.66 倍。全局 Batch Size 扩至 16K,千卡集群加速比达 96.8%。
2)架构扩展上,模块化解耦 ViT、Adapter 与 LLM,组件及数据处理策略可即插即用。兼容 Megatron-LM、DeepSpeed 等主流训练框架。
3)稳定性上,完善框架异常处理机制并与训练平台联动,部分故障场景任务可自动恢复。万亿级 token 数据、千卡级预训练任务 100+ 小时零中断。
4)可观察性上,实现了训练过程的细粒度监控,包括参数、梯度的 L2 范数、AdamW 优化器内部状态等。同时支持了在线评测,实时跟踪模型效果。
RL 训练框架
作者基于 veRL 进行了定制开发,适配蓝心大模型训练并做了性能优化。
在性能上借鉴 verl-pipeline 方案实现了 One-Step Asyn RL,并将 Ray 通信切换为 NCCL 通信,降低参数更新的通信开销;重写 vLLM 异步 ChatScheduler,动态调度消除 bubble time 以最大化推理吞吐。整体训练性能提升了 60%。
为了保障训练稳定性,针对 RM 服务作者自动化部署多实例,并将实例注册到名字服务(VNS),支持训练框架按标识自动发现并调用服务。同时服务可基于 QPS 动态弹性伸缩,避免流量变大后请求延迟变高影响 RL 训练性能。
技术报告: https://arxiv.org/abs/2507.05934
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
配资知名炒股配资门户,配资炒股平台找加杠网,西安股票配资平台提示:文章来自网络,不代表本站观点。
- 上一篇:怎么才能让配资公司破产曹叡则说:“孙权的军队擅长水战
- 下一篇:没有了