肥宅钓鱼网
当前位置: 首页 钓鱼百科

科大语音引擎(辅助车载人工智能发展)

时间:2023-06-28 作者: 小编 阅读量: 1 栏目名: 钓鱼百科

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。

【嘉勤点评】科大讯飞发明的车内含噪语音数据生成方案,只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

集微网消息,随着人工智能的兴起,车载、教育、医疗都渗透了人工智能技术。其中,智能语音作为人机交互的重要手段被广泛应用于各个领域。

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。

其中,车内含噪语音数据集的构造往往需要实车在不同场地、环境条件下进行反复、多次实地采录。这种条件的制作要求相对较高,也导致整体成本也较高。此外,目前现有的车内含噪语音数据的制作方式通常只适用于单次目标效果的评估,也就是说经过反复多次在某一个场景中采集车内含噪语音数据完毕后,该数据集很难在更多的场景中重复使用。

因此,如果期望采录的车内含噪语音数据能够覆盖全场景,则必然要耗费大量的时间和人力从海量车内含噪语音数据中进行甄别、挑选、归类等繁琐工作。为了达到具有上述优良效果的语音数据集,科大讯飞在2021年6月22日申请了一项名为“车内含噪语音数据生成方法、装置以及设备”的发明专利(申请号:202110694011.4),申请人为科大讯飞股份有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。

如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。首先,开发人员在系统中预先内置创建好的语音素材库,该素材库主要包含两类音频数据,分别为:纯人声音频数据和实车纯噪音音频数据。这是由于车内交互的含噪语音数据主要是由主说话人声源、环境噪声、干扰源构成。

主说话人声源就是指语音处理的对象,主要用于识别、唤醒、意图分析、指令操控等操作环节。而环境噪声主要是指行驶时的风噪及胎噪、车外噪音、空调噪、车载播放器输出声音以及其他杂音等。

其次,接收并解析用户输入的数据需求。例如,主说话人声源为男性、中文普通话以及50db,假设主说话人声源能量与车噪能量比例5:3。基于这样具体且明确的数据需求,可以直接执行后续步骤。

最后,根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据。并将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

如上图,为该专利中发明的语音数据扩方法的流程示意图,首先,从匹配出的纯人声音频数据中提取当前人声的语音基元。再利用语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据。最后,将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。

因此,可以发现,该专利主要的目的在于预先采集纯实景车噪和纯人声声源以构造出车用语音素材库。该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的纯人声声源以及纯实景车噪。然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。

最后,如上图,为这种含噪语音数据生成系统的硬件装置模块,该系统中主要包括有:语音素材库创建模块1、数据需求获取模块2、需求匹配模块3以及目标数据生成模块4。

语音素材库创建模块可以预先创建语音素材库;数据需求获取模块用于接收并解析用户输入的数据需求;需求匹配模块用于根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;最后,目标数据生成模块用于将匹配到的纯人和实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

以上就是科大讯飞发明的车内含噪语音数据生成方案,该方案只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

    推荐阅读
  • 秋季育儿知识(秋季育儿知识有哪些)

    秋季育儿知识衣:由于温差较大,幼儿早晚应比白天多加一件衣服。对于好动、易出汗的幼儿,在其玩耍时可在其背后垫一块毛巾或玩后及时给他更换衣服。同时幼儿的鞋子应以轻便的运动鞋为主,少穿皮鞋。秋季也是吃蟹的季节,蟹属寒性,幼儿的脾胃嫩,不可以多吃。另外,是药三分毒,不要把服药作为预防幼儿生病的途径。

  • 这些家具只是摆设根本没必要买(多半会成为摆设的12种家具)

    后来,就见到身边很多人家里都装,着实火了一阵,但,这两年又逐渐没有了,究其原因,就是实用性太差,跟我们的生活方式完全背离。刚装上新鲜劲儿十足,没事儿就想坐上去摇两下,但一个月后,它就是家里最“实用”的衣物收纳架。

  • 世界十大广告创意(最具创意的这五大品牌)

    画面中有一个微胖的男子拿着奖杯从远处缓缓跑来,然后旁白模仿耐克的文案讲诉着“年度最佳小代理商”的各种“待遇”。当他在英国各地宣传“不达成脱欧协议”的好处时,这场户外运动便邀请人们把他们用过的口香糖贴在他的海报上。2017年,据相关工作人员声称该市议会花了约6000万英镑清理口香糖乱扔的问题。

  • 粉色阔腿裤搭配什么上衣(粉色裤子配什么颜色上衣好看)

    LOOK12粉色阔腿裤黑色针织短款上衣白色老爹鞋这条粉色阔腿裤子长度略长,有点拖地裤的感觉,但上身还不错还挺显高的。LOOK14粉色西装裤白色背心白色西装白色中高跟单鞋白色搭配粉色:非常清爽又夏天的一天,搭配了白色的上装和粉色的裤子,温柔又清爽。

  • 山东11选5加奖介绍(喜讯山东11选5十一运夺金)

    惊喜总在不经意~眼看年关又要到了,体育总局的福利也开始接踵而至。小伙伴们打起精神,准备迎接一大波好消息的来袭吧!而今天,要告诉大伙的是,山东11选5将在本月(11月)中旬将进行巨额加奖。由于没有官方公告,活动的具体细节还不得而知,有些遗憾。为弥这种遗憾,就先贴上去年年底的活动详情给大家臆想臆想吧。或许本月的加奖活动会更劲爆哦。

  • 手机恢复出厂设置后数据还能恢复吗(手机恢复出厂设置能不能恢复数据)

    手机恢复出厂设置后数据还能恢复吗,以苹果手机为例,手机恢复出厂设置后数据还能恢复,其方法如下:1、首先打开手机设置,找到账户并点击进入,选择云空间,点击云备份。2、然后选择备份记录,点击下方的恢复,在弹出的选项点击恢复,等待恢复完成就可以了。

  • ppp项目有哪些特点(PPP项目模式的背景和理解)

    PPP项目模式的背景和理解,我来为大家讲解一下关于ppp项目有哪些特点?近期推动PPP模式,源于2013年年底的财政部工作会议,会议期间,财政部组织召开PPP专题会议,从体制机制创新的角度对发展PP模式作出了全面、系统的安排。随后我国的PPP模式从混合所有制经济发展的角度提出了更高的要求。

  • 睡觉打呼噜能不能治好(睡觉打呼噜需要治疗吗)

    打呼噜ZZZ疫情来临后小王出门减少,能吃能睡,人胖了不少。治疗上可以减肥,侧卧睡眠,耳鼻喉科就诊,必要时手术治疗鼻咽部疾病,睡眠时使用无创气道正压通气呼吸机等方法。小王了解了打呼噜竟然有这么大的危害,立即去医院做了睡眠监测,果真是重度睡眠呼吸暂停低通气综合征。在医生的建议下,小王睡觉戴起了呼吸机,精神头又恢复了从前的样子,而且开始了积极的减肥运动,争取早日脱离呼吸机,恢复健康的身体。

  • gv300与摩枭500怎么选(外观区别)

    gv300与摩枭500怎么选?gv300与摩枭500怎么选摩枭500和轻骑大韩GV300s是两款车型完全不同的摩托车,所以它们之间没有直接的竞争关系,而它们之间的选择一看预算,二看性能,但因为GV300s还没有公布最终的售价,所以比价格就有点不靠谱,那么只能对比两款车型的性能表现。外观方面它们是两款车型定位完全不同的摩托车,所以外在的表现特点非常鲜明,gv300因为是复古车的定位,就显得比较粗狂有力。

  • 另谋高就的意思(另谋高就的解释)

    我们一起去了解并探讨一下这个问题吧!另谋高就的意思另谋高就,汉语成语,拼音为lìngmóugāojiù,意思是指另找一份职业,意即辞去原职。他在此处无法发挥所长,只好另谋高就。