阅读排行更多

企业直播更多

推荐展会更多

高质量数据集典型案例 | 多语种大模型数据集建设

2025-10-17 14:01:31来源：国家数据局阅读量：14992 评论

　　2023年以来，全球范围内兴起了一股通用人工智能的新热潮，国内外大模型发展迅速，并在不同领域得到了广泛应用。数据(高质量数据)、算法(核心算法)、算力(基础软硬件)是支撑大模型创新发展的“三大支柱”。其中，高质量多语种数据是制约国产大模型多语种能力提升的关键瓶颈，这也促使以欧美为主导的大模型生态体系加速向全球拓展。本项目旨在构建覆盖200余种语言、总量超4000B Token的多语种无监督数据集，以及1500万条以上的高质量有监督数据集，为多语种大模型训练提供坚实支撑，推动国产大模型在多语种能力上实现对国际顶尖产品的追赶与超越。

　　方案和成效

　　一是开展技术攻关，突破多语种数据瓶颈。针对多语种数据稀缺、处理复杂等问题，聚焦三大技术方向攻关：研发高效分布式多语种网络数据获取平台，实现互联网数据“应采尽采”，并构建分布式存算管平台，支撑大规模数据高效处理与存储；创新基于文图解析的多源异构多语种数据处理技术，通过数据清洗与质量提纯模型，实现复杂结构数据的结构化解析与精清洗；开发基于多语种对抗样本学习的安全隐私判别器，结合人机质检，确保多语种数据合规性。

　　二是推进平台与基地建设，构建完善的数据生产体系。搭建“三平台一基地”的基础架构，包括分布式数据获取平台、多语种众智协作平台、分布式集群存算管一体化平台以及数据生产基地；创新人机协同标注模式，引入大模型机器预标注，实现机器性能快速迭代、数据自动分级分发与渐进式辅助标注，构建基于激励模型的自动质量评估算法，加强多语种数据质量把控。

　　三是推动数据应用落地，展现国际竞争力。基于本项目构建的多语种数据集，成功训练出多语言星火大模型。该模型在8个核心语种(阿拉伯语、西班牙语、俄语、葡萄牙语、法语、日语、德语、韩语)上，实现十余个国际权威多语种榜单的平均值超越GPT-4o等国际最优竞品。2025年4月，该技术作为中国唯一大模型展项亮相大阪世博会中国馆，向世界递出中国AI的“创新名片”。

　　创新点

　　一是注重多语种数据资源的广度拓展与深度挖掘。成功构建了涵盖200余种语言、总量达4143B Tokens的多语种预训练数据集，以及1677万条高质量的后训练数据，实现从“量”到“质”的双重突破，填补了高质量多语种数据集的空白。

　　二是依托技术创新攻克多语种数据处理难关。通过跨语言跨模态知识对齐技术，实现多语言语义空间精准对齐，解决不同语种、不同模态信息关联性差的问题；基于自主研发的多语言语义对齐技术，模型在语料稀缺的小语种场景下仍能实现高度的语义理解及文本生成能力。

　　三是助力中国AI技术“出海”突破。通过提升国产大模型多语种能力，打破国际巨头在多语种AI领域的垄断，实现多语种大模型能力在数学、综合考试、翻译、语言理解4个重点方向上赶超GPT-4o为代表的国际顶尖竞品，进一步推动智能汽车、智能家电等产品出海。

上一篇：2025年度十大类纺织创新产品名单揭晓！魏桥创业集团3款产品入选，4家单位获评“持续创新单位”

下一篇：华为：光网络迈向AI-ON，助力构建AI时代三大战略基础设施

版权与免责声明：1.凡本网注明“来源：兴旺宝装备总站”的所有作品，均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：兴旺宝装备总站”。违反上述声明者，本网将追究其相关法律责任。 2.本网转载并注明自其它来源（非兴旺宝装备总站）的作品，目的在于传递更多信息，并不代表本网赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品第一来源，并自负版权等法律责任。 3.如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。

我来评论

昵称验证码匿名

文明上网，理性发言。（您还可以输入200个字符)

表情

所有评论仅代表网友意见，与本站立场无关