移动端


当前位置:兴旺宝>资讯首页> 技术前沿

阿里联手中科院研发“听音识人”技术被CVPR收录

2021-03-25 15:47:12来源:TechWeb 阅读量:232 评论

分享:

  近日,中科院和阿里安全的研究者让AI掌握通过声音找到“主人”的任务。经验证,相较于人类67%的正确率,AI的准确率接近90%。在“1对N”的匹配实验中,AI还能对声音归属人脸的“可能性”进行排序。
 
  该技术是一种自适应的学习框架,用来挖掘和学习人脸与声音的潜在联系,该论文研究成果随即也被CVPR 2021接收。
 
  现有研究表明,人脸和声音受到年龄、性别、生理结构、语言习惯等共同因素的影响,两者的联系强烈而复杂多样。该研究*作者、中科院计算所博士研究生温佩松介绍,中科院和阿里安全的研究团队将公开数据集中两种类型的数据在共享空间中表示,从而达到跨模态匹配的目的,在学习策略上利用了数据集的局部和全局信息,提高了模型的学习效率和效果。
 
  通俗来看,即声音可能是音频格式,人脸是图片格式,两类信息以不同的格式存储,难以比较,所以研究者将声音和人脸“翻译”成了同一种格式的信息,让AI模型可以对两种信息之间的关联自行学习。AI学会了两种信息的关联性之后,就能帮声音找到人脸,或者帮人脸找到声音。因此,AI的这项技能不仅可以“听音识人”,还能“见人知声”。
 
  温佩松介绍,该研究进行了三类实验,*种,给定一段声音和仅含有一张正确人脸的若干张人脸图片,AI匹配声音和人脸的正确率*可达87.2%;第二种,给定一段声音和一张人脸,询问AI这是否属于同一个人,准确率*可达87.2%;第三种,给定一段声音和含有若干张正确人脸的图片,要求AI把所有人脸排序,使得正确的人脸尽可能靠前,AI也能准确完成任务。该实验在公开测试集上一共测试了20076张人脸和21850段音频,AI的表现都令人惊喜。
 
  在相同的任务上,如果待鉴别对象不限制性别,人类判断的准确率达81.3%,在限制性别的情况下,准确率仅为57.1%,性别因素对AI的影响却非常小,准确率依然如上述结果,高于人类。
 
  据阿里安全图灵实验室*算法专家华棠介绍,该技术后续将在内容安全和账户安全领域探索应用,对抗伪造类视频攻击,保护用户财产和信息安全。“有些人利用伪造视频试图骗过认证系统,AI的这项技能将进一步验证声音与相应真人是否匹配,防范欺诈,守护安全。”华棠说,这也是让AI在提升安全水位上有更多用武之地。
 
  原标题:阿里联手中科院研发“听音识人”技术被CVPR收录
 
版权与免责声明:1.凡本网注明“来源:兴旺宝装备总站”的所有作品,均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:兴旺宝装备总站”。违反上述声明者,本网将追究其相关法律责任。 2.本网转载并注明自其它来源(非兴旺宝装备总站)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。 3.如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
我来评论

昵称 验证码

文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关

    相关新闻
    • 安踏集团大讲坛开讲 携手智元机器人和小鹭智能共创AI 行业新范式

      近日,安踏集团面向全体员工举办大讲坛活动,邀请行业代表共同探讨人工智能最新趋势与应用,安踏集团IT副总裁王宏星也分享了AI战略及阶段性进展。AI不仅是前沿技术工具,更是推动体育产业变革的核心引擎。
      2025-10-25 10:23:14    16752
      AI技术AI 行业新范式
    • 人工智能赋能高质量发展学术报告会在南昌举行

      近日,“人工智能赋能高质量发展学术报告会”在南昌举行,本次会议以“智领未来,AI引领高质量发展”为主题,发布了中国人工智能学会“人工智能领域创新资源图谱”项目研究成果
      2025-09-29 08:31:54    19219
      人工智能AI技术
    • 广电总局:我国正大步迈向“超高清时代” 97%省台已用AI

      国家广电总局已将2025年定为“超高清发展年”,超高清是继视频数字化、高清化之后的新一轮重大技术革新,将带动大视听全产业链更新换代。
      2025-09-27 08:49:33    16853
      人工智能AI技术