肥宅钓鱼网
当前位置: 首页 钓鱼百科

科大语音引擎(辅助车载人工智能发展)

时间:2023-06-28 作者: 小编 阅读量: 2 栏目名: 钓鱼百科

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。

【嘉勤点评】科大讯飞发明的车内含噪语音数据生成方案,只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

集微网消息,随着人工智能的兴起,车载、教育、医疗都渗透了人工智能技术。其中,智能语音作为人机交互的重要手段被广泛应用于各个领域。

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。

其中,车内含噪语音数据集的构造往往需要实车在不同场地、环境条件下进行反复、多次实地采录。这种条件的制作要求相对较高,也导致整体成本也较高。此外,目前现有的车内含噪语音数据的制作方式通常只适用于单次目标效果的评估,也就是说经过反复多次在某一个场景中采集车内含噪语音数据完毕后,该数据集很难在更多的场景中重复使用。

因此,如果期望采录的车内含噪语音数据能够覆盖全场景,则必然要耗费大量的时间和人力从海量车内含噪语音数据中进行甄别、挑选、归类等繁琐工作。为了达到具有上述优良效果的语音数据集,科大讯飞在2021年6月22日申请了一项名为“车内含噪语音数据生成方法、装置以及设备”的发明专利(申请号:202110694011.4),申请人为科大讯飞股份有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。

如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。首先,开发人员在系统中预先内置创建好的语音素材库,该素材库主要包含两类音频数据,分别为:纯人声音频数据和实车纯噪音音频数据。这是由于车内交互的含噪语音数据主要是由主说话人声源、环境噪声、干扰源构成。

主说话人声源就是指语音处理的对象,主要用于识别、唤醒、意图分析、指令操控等操作环节。而环境噪声主要是指行驶时的风噪及胎噪、车外噪音、空调噪、车载播放器输出声音以及其他杂音等。

其次,接收并解析用户输入的数据需求。例如,主说话人声源为男性、中文普通话以及50db,假设主说话人声源能量与车噪能量比例5:3。基于这样具体且明确的数据需求,可以直接执行后续步骤。

最后,根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据。并将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

如上图,为该专利中发明的语音数据扩方法的流程示意图,首先,从匹配出的纯人声音频数据中提取当前人声的语音基元。再利用语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据。最后,将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。

因此,可以发现,该专利主要的目的在于预先采集纯实景车噪和纯人声声源以构造出车用语音素材库。该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的纯人声声源以及纯实景车噪。然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。

最后,如上图,为这种含噪语音数据生成系统的硬件装置模块,该系统中主要包括有:语音素材库创建模块1、数据需求获取模块2、需求匹配模块3以及目标数据生成模块4。

语音素材库创建模块可以预先创建语音素材库;数据需求获取模块用于接收并解析用户输入的数据需求;需求匹配模块用于根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;最后,目标数据生成模块用于将匹配到的纯人和实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

以上就是科大讯飞发明的车内含噪语音数据生成方案,该方案只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

    推荐阅读
  • 面试迟到了怎么办(如何应对面试迟到)

    面试迟到了怎么办联系对方,如果已经意识到自己肯定会迟到,那就需要先联系面试的HR助理,告诉对方自己因为一些意外情况,可能会晚一些到,询问对方是否可以将自己的面试时间后延。保持镇静,面试迟到了千万不要慌张,一定要镇静。因此,一定要在面试官面前,充分的表达自己歉意,解释清楚迟到的原因,并表示自己已经尽了最大的努力去弥补这个过错,但是还是迟到了。

  • 手机16g存储还剩多少(16G手机的存储空间才10G)

    制造商在做U盘或者手机的时候采用的是十进制。宝宝们不能怪系统哈,目前人类的智桑只能造出二进制的系统,未来能不能造出三进制,四进制,甚至十进制的系统还不知道,至少十年内不可能。但是规矩这么多年已经定下来了,所以很难改了。别桑心哈,泉哥给大家支几招!如果可以的话,应用最好都装在外置的内存卡里,很多手机系统软件都有应用搬家的功能。

  • 锦衣之下谭松韵换造型(锦衣之下谭松韵领衔)

    参加簪花大会的袁今夏她是万人迷体质,蛊惑人心,引人入胜。2019年,谭松韵入选了当年福布斯中国30岁以下精英榜。2020年,也算是谭松韵的幸运年,作品接二连三的上线,成绩不菲。叶青饰演上官曦88年出生的叶青,毕业于北京电影学院;现为北京大隐光时文化传媒旗下艺人。习雪饰演林菱87年的习雪,毕业于北京师范大学表演系,现为欢瑞旗下艺人。

  • 女人的余生好好爱自己(致女人往后余生)

    女人一定要学会爱自己,如果你自己都不爱自己,那又指望谁能来爱你?婚姻里有很多女人,爱老公爱孩子爱家庭,往往却忽略了自己,但是,人只有先学会了爱自己,才有能力好好地爱别人。人这一辈子不长,不能老为别人活,为自己好好活一次,好好地爱自己,让每一天都过得开心快乐。往后余生,请拿命爱自己!

  • 手动档转向灯位置(转向灯在方向盘左手下方)

    手动档转向灯位置转向灯在方向盘左手下方,前推右转灯亮下拉左转灯亮。超车先打左转向再打右转向,按规定必须从左侧超车,所以需要先打左转向灯,等超车之后,要返回原车道时,再打右转向灯。进入高速时打左灯,驶离高速时打右灯。变更车道时需要打转向灯,养成良好的习惯,每次变更车道时都需要打转向灯,向左变更车道打左转向灯,向右变更车道打右转向灯,以提醒周围车辆注意,避免因疏忽而造成意外。

  • 猫咪拉肚子要不要给它水喝(猫咪拉稀喝点酸奶就好)

    猫咪拉稀喝点酸奶就好【贫民窟养猫少女喵】独家原创禁止一切搬运、抄袭、洗稿等行为我是你们的杨小喵呀~哈喽,小喵迷们,大家好啊今天有位猫友和我聊天说:我家猫咪拉肚子,给他喝点酸奶就好了,真方便等等等等,为什么要给猫喝酸奶?酸。

  • 不是造句子一年级(怎么用不是造句)

    世间最不幸的婚姻,不是不相爱的结合,而是兰因絮果的悲剧。在鱼缸里,尽管它不是最漂亮的,却是最大的,也是长得最快的。这个动物不是驴,而是马。这列火车不是烧火的,而是用电力机车牵引的。这不是势均力敌的两军作战,而是兵力十分悬殊的交锋。他的笑不是真诚的,而是虚伪的。但他知道,这种平心静气不是天生的,是需要修炼的。有的单位不是实事求是,而是虚报产量,骗取荣誉,这种唱筹量沙的做法,造成了不良的影响。

  • 黑碧玺和黑曜石哪个好一点(黑曜石PK黑碧玺一个消灾化煞)

    而黑碧玺的功效则更倾向与改善人体的磁场,它含有很多人体不可或缺的元素,可以有效地解除压力、疲劳和浊气,有助于调节血液循环、增进睡眠,对人体的健康有着积极的作用。黑碧玺这类对人体有正能量作用的首饰,一般都是戴在左手,而黑曜石是少数几种要戴在右手的饰品,这也与它强大的功效有关。另外,把黑曜石放在煞气较重的地方,效果绝佳。

  • 十五个吊桶打水歇后语(十五个吊桶打水歇后语答案)

    以下内容希望对你有帮助!十五个吊桶打水歇后语十五个吊桶打水歇后语答案是:七上八下。歇后语是汉语语汇里为群众在生活实践中所创造的一种特殊语言形式,是一种短小、风趣、形象的语句。歇后语由前后两部分组成:前一部分起“引子”作用,像谜面,后一部分起“后衬”的作用,像谜底,十分自然贴切。

  • 电子交通违章多久可以查出来(电子眼违章几天可以查到)

    交通管理局违章查询为你提供违法车辆及驾驶人违法查询功能,在本系统中用户可通过车辆的车牌号、驾驶人的档案号、驾驶人的驾驶证号等信息进行违法查询,在输入查询后,系统会以列表的形式列出用户查询的车辆或驾驶人的所有未处理违法纪录。公安局交通管理局电子警察系统是用先进的科学技术强化交通管理的一种手段,以期达到减少事故的发生、提高通行效率、优化交通环境的目的。