移动端


当前位置:兴旺宝>资讯首页> 企业动态

高质量数据集典型案例 | 中国移动研发大模型高质量数据集

2025-10-18 14:14:05来源:国家数据局 阅读量:16129 评论

分享:

  【代码数据质量和动态利用方式,已成为大模型推理能力的“暗物质”,是推理基础设施的核心燃料,在软件工程等领域具有重要应用价值。针对当前代码数据来源广、质量参差不齐、评估手段专业化不足等问题,本案例构建了“数据采集-数据处理-数据质量评估”的高质量数据处理引擎,形成了一套高质量研发大模型数据集,并基于此数据集训练形成了具备代码补全、单元测试等能力的研发大模型,可支撑研发全流程赋能需求。
 
  方案和成效
 
  一是构建海量异构数据采集引擎,实现多源数据融合。针对开源代码数据分散、内容多样化、噪声多等问题,从异构内容自动提取、低熵噪声自动去除等层面,提升数据采集的准确性与完整性,实现代码数据高效、实时汇聚,形成超PB级别原始数据。
 
  二是打造高质量数据处理流水线,提升自动化处理效率。针对代码数据质量不足、研发场景数据缺失等问题,打造文本数据处理流水线和多模态数据合成流水线,支持多样化数据预处理、数据合成、数据探索分析等,整体自动化率达90%,沉淀超50+核心数据处理算子,支持1500万文档/小时。
 
  三是设计高质量数据评估体系,全方位评估数据质量。针对代码数据质量评估手段专业化不足的问题,结合行业标准和数据特性,设计一套支持多粒度代码评估、多维度代码评估的高质量综合评估体系,覆盖12个核心维度,支持100+研发领域数据标签,实现研发大模型数据的全方位质量评估。
 
  创新点
 
  一是技术创新牵引数据质量升级。基于多元化规则体系及大小模型协同技术,实现对代码数据的去重、敏感数据的脱敏以及场景化标签的标注,将原始代码数据转换为可应用于大模型预训练微调及研发全流程场景需求的高质量研发大模型数据集。
 
  二是流程闭环加速数据质量跃升。打造专门面向代码数据的采集、处理、训练等全流程闭环质量优化体系,综合考虑代码数据的技术专业性和复杂性,以规则阈值融合大模型测评等方式,实现模型加数据飞轮良性循环。
 
  三是机制完善推进数据循环共享。构建数据安全合规审查体系和数据资产共建共享办法,并形成产业生态闭环,为数据全生命周期注入安全与合规基因,确保其高效流动与价值最大化。
 
版权与免责声明:1.凡本网注明“来源:兴旺宝装备总站”的所有作品,均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:兴旺宝装备总站”。违反上述声明者,本网将追究其相关法律责任。 2.本网转载并注明自其它来源(非兴旺宝装备总站)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。 3.如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
我来评论

昵称 验证码

文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关

    相关新闻