肥宅钓鱼网
当前位置: 首页 钓鱼百科

科大语音引擎(辅助车载人工智能发展)

时间:2023-06-28 作者: 小编 阅读量: 2 栏目名: 钓鱼百科

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。

【嘉勤点评】科大讯飞发明的车内含噪语音数据生成方案,只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

集微网消息,随着人工智能的兴起,车载、教育、医疗都渗透了人工智能技术。其中,智能语音作为人机交互的重要手段被广泛应用于各个领域。

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。

其中,车内含噪语音数据集的构造往往需要实车在不同场地、环境条件下进行反复、多次实地采录。这种条件的制作要求相对较高,也导致整体成本也较高。此外,目前现有的车内含噪语音数据的制作方式通常只适用于单次目标效果的评估,也就是说经过反复多次在某一个场景中采集车内含噪语音数据完毕后,该数据集很难在更多的场景中重复使用。

因此,如果期望采录的车内含噪语音数据能够覆盖全场景,则必然要耗费大量的时间和人力从海量车内含噪语音数据中进行甄别、挑选、归类等繁琐工作。为了达到具有上述优良效果的语音数据集,科大讯飞在2021年6月22日申请了一项名为“车内含噪语音数据生成方法、装置以及设备”的发明专利(申请号:202110694011.4),申请人为科大讯飞股份有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。

如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。首先,开发人员在系统中预先内置创建好的语音素材库,该素材库主要包含两类音频数据,分别为:纯人声音频数据和实车纯噪音音频数据。这是由于车内交互的含噪语音数据主要是由主说话人声源、环境噪声、干扰源构成。

主说话人声源就是指语音处理的对象,主要用于识别、唤醒、意图分析、指令操控等操作环节。而环境噪声主要是指行驶时的风噪及胎噪、车外噪音、空调噪、车载播放器输出声音以及其他杂音等。

其次,接收并解析用户输入的数据需求。例如,主说话人声源为男性、中文普通话以及50db,假设主说话人声源能量与车噪能量比例5:3。基于这样具体且明确的数据需求,可以直接执行后续步骤。

最后,根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据。并将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

如上图,为该专利中发明的语音数据扩方法的流程示意图,首先,从匹配出的纯人声音频数据中提取当前人声的语音基元。再利用语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据。最后,将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。

因此,可以发现,该专利主要的目的在于预先采集纯实景车噪和纯人声声源以构造出车用语音素材库。该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的纯人声声源以及纯实景车噪。然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。

最后,如上图,为这种含噪语音数据生成系统的硬件装置模块,该系统中主要包括有:语音素材库创建模块1、数据需求获取模块2、需求匹配模块3以及目标数据生成模块4。

语音素材库创建模块可以预先创建语音素材库;数据需求获取模块用于接收并解析用户输入的数据需求;需求匹配模块用于根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;最后,目标数据生成模块用于将匹配到的纯人和实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

以上就是科大讯飞发明的车内含噪语音数据生成方案,该方案只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

    推荐阅读
  • 和平精英步枪威力哪个最大(和平精英突击步枪哪个最厉害)

    AKM使用的是7.62子弹,初始子弹数为30发,扩容后可达40发。该武器伤害高但后坐力大,拥有单发和全自动两种模式,单发伤害高是它最大的优势,适合近中距离战斗。在官方几次隐隐的增强后,有一种想要超过AKM的趋势。狗杂伤害48、射速69、稳定性22、射程60。他的单发伤害不比AKM差,但是射速比M762还要高。在正面突击中,狗杂的爆发伤害比AKM和M762都要大的多。

  • 天秤座和什么星座在爱情中最配(与天秤座最配的星座有哪些)

    与天秤座最配的星座有哪些一、双子座双子和天秤属于风象星座,他们对新鲜的事物比较好奇,双方也往往一见钟情,一拍即合,两人也会很快的就坠入爱河在相处的过程中,双方因为不同的人生观,也会导致出现一些磕磕碰碰但是两人天生的配对,算是。

  • 苦丁茶喝了可以减肥吗 苦丁茶减肥有效果吗?

    苦丁茶是极少数同时具有双向调节机体代谢和增强人体免疫两大功能的茶类。经常饮用苦丁茶,有利于人体的循环、消化及内分泌系统运作,起到缓解生成脂肪的作用,有一定的减肥功效。苦丁茶怎么喝减肥1、准备好洁净的茶具,如没有专用茶具,普通玻璃杯或其它杯也行。杯最好准备两个,一个用来泡制苦丁茶,一个用来盛泡制好的茶汤。茶汤饮用完毕后,再次重复第四步、第五步即可。

  • 鲜蕨菜怎么去除苦味 鲜蕨菜怎么去除苦味儿

    辅料:清水1000克。摘回家的蕨菜要及时处理,不然的话就会老掉了。去年花瓣,底部老的一部分,摘段。新鲜的蕨菜用清水反复冲洗几遍,洗去浮土和表面的绒毛。在滚水中烫2~3分钟。煮至蕨菜用手捏捏,感觉软软的就行。浸泡好的蕨菜清炒,凉拌均可。

  • 魔兽最稀有的装备(当年的魔兽玩家有多拼)

    魔兽中地位最高的猫非它莫属在60年代的团本中,“克总”克尔苏加德和他的爱猫“比格沃斯先生”可以说是最著名的谣言了。谣言的内容大概是这样的:如果你在打克总之前手贱把“比格沃斯先生”弄死了,那在最终的boss战里,克总不仅会陷入暴怒状态,而且装备掉率也会降低!当然了后来经过证实,“一只猫可以左右boss”战纯属胡扯:克总既不会狂暴,也不会抠门不给你好装备。

  • 炼辣椒油的正确方法(辣椒油做法步骤)

    炼辣椒油的正确方法干辣椒和干花椒将买来的花椒干和辣椒干混合在一起,用清水清洗干净并控干,然后打碎它们,再放到盆子里面。烧锅然后烧锅,等锅烧开之后,倒入适量的油,可以是橄榄油或花生油都可以,把油也烧开。倒入辣椒和花椒等热油之后,将花椒干和辣椒干一起放进去搅拌下,也可以将热油倒在干辣椒和干花椒上面,再搅拌均匀即可。佐料如果加上一些佐料,比如八角、香叶等清香的干料的话,会使辣椒油变得更加清香美味。

  • 什么样的蜂蜜是好蜂蜜 什么样的蜂蜜是最好的蜂蜜

    蜂蜜结晶细腻的是好蜜,颗粒感强的可能是白糖沉淀。

  • 温馨是什么意思(温馨的解释)

    温馨是一个汉语词汇,拼音是wēnxīn,意思是温暖,馨香,客气,体贴出自唐·韩愈《芍药歌》,下面我们就来聊聊关于温馨是什么意思?接下来我们就一起去了解一下吧!出自唐·韩愈《芍药歌》。指亲切体贴的氛围:温馨之家|他虽然得了顽症,但是亲友温馨的关怀使他重新振作起来。

  • 月季花作文600字仿照(月季花作文600字仿照广玉兰课文)

    月季花作文600字仿照?月季花作文600字仿照水仙花,在一阵芬芳中,我从沉思里苏醒,轻轻地走向它——芬芳的源泉——水仙公主。我想无论什么样的能工巧匠都无法造就你。绿的令人心醉,那柄柄长剑,是不是那个等了一个冬天的王子,在期待公主的降临,然后用身躯去保护她不受伤害。就是这样一个来自上苍的尤物,居然终日以水为主,只靠那一杯清水而已,是多么高洁,多么清廉啊!在当今社会,有多少人向往水仙的纯洁、清廉,但是……

  • dnf春节套时装汇总(2.10新春福利第2弹)

    不渝之咏商店不渝之咏商店限时新增了极品道具,第一轮加入的是“2本10增幅券,2000个不渝之咏兑换”,相信大部分勇士和秀儿一样,已经成功兑换了。接下来,“2.10-3.10”期间,不渝之咏商店将上架第二轮道具:白金徽章。甜蜜传讯、为爱充电“2.10–2.24”期间,每天上线游戏,给电池充电,其实就是签到,可以领取“每日奖励”和“累积奖励”。