中国公关新闻网

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz

科大讯飞源头技术创新再接力,14篇论文被国际语音顶会INTERSPEECH 2020收录

2020-10-21 15:29| 发布者: 六六| 查看: 5117| 评论: 0


2020年10月25日-30日,备受全球关注的第21届INTERSPEECH2020 国际会议将在上海举办,科大讯飞作为本届顶会的独家Founding赞助商,全程支持顶会在华顺利落地。

据了解,INTERSPEECH 是国际语音通讯协会(International Speech Communication Association,ISCA)主办的顶级国际会议,也是全世界公认的语音领域两大顶会之一。

此次会议共接收有效论文投稿总数2140篇,录取1022篇,覆盖语音、信号处理、口语语言处理等多个方面。其中,科大讯飞研究院联合中国科学技术大学语音实验室共发表收录14篇论文,覆盖语音识别、语音合成、语音增强、语音情感识别、声音事件检测、说话人识别等多个技术方向的创新,这些论文将受邀在线上展示,“让机器更好倾听”再次展现科大讯飞源头技术创新力,产学研用深度融合孕育撬动未来的力量。

在语音识别方向,科大讯飞重点针对说话人自适应技术进行研究。这是语音识别中的关键技术,目的是让算法模型根据每个说话人不同的发音特性,进行快速自适应,从而达到更好的识别效果。

在《Speaker Adaptive Training for Speech Recognition Based on Attention-over-Attention Mechanism》论文中,针对这一技术难题,研发团队提出了一种是基于层叠注意力(Attention-over-Attention)机制的方法,以提升句子级别的说话人表达的准确性与稳定性。该方法在SWB英文数据集和AISHELL-2中文数据集上相对说话人无关模型提升了8%以上,相对传统的基于句子级别的d-vector自适应方案提升幅度超过6%,而相对基于帧级别注意力机制的自适应方案提升了4%。

在语音合成方向,非平行性语音转换任务是学界研究的热点和难点问题。语音转换的目标是对输入的源语音进行一定处理,使输出听起来像目标人的语音,并在这个过程中保持语义信息不变。它在个性化语音合成、娱乐应用、声音匿名化处理等方面有广泛的应用场景。

研发团队在《Recognition-Synthesis Based Non-Parallel Voice Conversion with Adversarial Learning》中,提出了一种结合对抗学习的识别-合成非平行语音转换模型。通过联合优化识别合成模型,并引入对抗学习目标,使得语义特征和说话人音色特征更加解耦,从而提升语音转换的相似度。

在语音增强方向,研发团队将深度学习技术和传统麦克风阵列算法进行结合,在CHiME-6(CHiME,国际多通道语音分离和识别大赛)鸡尾酒会场景的语音分离和识别效果上取得了显著的提升。 《A Space-and-Speaker-Aware Iterative Mask Estimation Approach to Multi-channel Speech Recognition in the CHIME-6 Challenge》论文中,研发人员提出一种基于空间-说话人同步感知的掩蔽信号迭代估计(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME)的方法,对语音分离性能有显著提升,并且在该任务所有提交系统中实现最低的词错误率。

在说话人识别方向,如何获取准确的说话人标签一直是说话人识别的难点。研发团队提出了结合说话人确认和说话人分类的方法,减少了算法模型对于精准标注数据的依赖,提升说话人识别的准确度。

这些源头技术创新将进一步增强科大讯飞的智能语音能力,不但能够赋能讯飞翻译机、讯飞听见、讯飞学习机等产品,使其不断优化迭代,为用户带来更便捷、更优质的服务;还能赋能医疗、金融、司法、教育等行业领域,推动A.I.+行业的创新应用。


鲜花

握手

雷人

路过

鸡蛋

手机版|Archiver|中国公关新闻网

GMT+8, 2025-5-1 23:49 , Processed in 0.951075 second(s), 57 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc. UED:goguan.cn

返回顶部