肥宅钓鱼网
当前位置: 首页 钓鱼百科

科大语音引擎(辅助车载人工智能发展)

时间:2023-06-28 作者: 小编 阅读量: 2 栏目名: 钓鱼百科

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。

【嘉勤点评】科大讯飞发明的车内含噪语音数据生成方案,只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

集微网消息,随着人工智能的兴起,车载、教育、医疗都渗透了人工智能技术。其中,智能语音作为人机交互的重要手段被广泛应用于各个领域。

在车载场景下,由于其不同于家居、医疗、客服等场景,该环境中的噪音更具多样性、不稳定性等特点,且车载场景涉及人身安全因素,对语音识别等效果要求较高。因而在优化语音识别等语音处理效果时,需要大量含噪声及不含噪声的测试语音音频数据作为支撑。

其中,车内含噪语音数据集的构造往往需要实车在不同场地、环境条件下进行反复、多次实地采录。这种条件的制作要求相对较高,也导致整体成本也较高。此外,目前现有的车内含噪语音数据的制作方式通常只适用于单次目标效果的评估,也就是说经过反复多次在某一个场景中采集车内含噪语音数据完毕后,该数据集很难在更多的场景中重复使用。

因此,如果期望采录的车内含噪语音数据能够覆盖全场景,则必然要耗费大量的时间和人力从海量车内含噪语音数据中进行甄别、挑选、归类等繁琐工作。为了达到具有上述优良效果的语音数据集,科大讯飞在2021年6月22日申请了一项名为“车内含噪语音数据生成方法、装置以及设备”的发明专利(申请号:202110694011.4),申请人为科大讯飞股份有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。

如上图,为该专利中发明的车内含噪语音数据生成方法的流程示意图,这些含噪语音数据可以帮助开发人员实现更加优秀的用户语音识别算法及模块。首先,开发人员在系统中预先内置创建好的语音素材库,该素材库主要包含两类音频数据,分别为:纯人声音频数据和实车纯噪音音频数据。这是由于车内交互的含噪语音数据主要是由主说话人声源、环境噪声、干扰源构成。

主说话人声源就是指语音处理的对象,主要用于识别、唤醒、意图分析、指令操控等操作环节。而环境噪声主要是指行驶时的风噪及胎噪、车外噪音、空调噪、车载播放器输出声音以及其他杂音等。

其次,接收并解析用户输入的数据需求。例如,主说话人声源为男性、中文普通话以及50db,假设主说话人声源能量与车噪能量比例5:3。基于这样具体且明确的数据需求,可以直接执行后续步骤。

最后,根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据。并将匹配到的纯人声音频数据以及实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

如上图,为该专利中发明的语音数据扩方法的流程示意图,首先,从匹配出的纯人声音频数据中提取当前人声的语音基元。再利用语音基元以及预设的若干个车用交互文本,合成出批量的纯人声音频数据。最后,将合成的纯人声音频数据逐一与匹配出的实车纯噪音音频数据进行混音处理,得到批量的车内含噪语音数据。

因此,可以发现,该专利主要的目的在于预先采集纯实景车噪和纯人声声源以构造出车用语音素材库。该车用语音素材库中的音频资源用于与用户所提需求结合,分别得到符合用户期望的车内含噪语音数据的纯人声声源以及纯实景车噪。然后将匹配出的纯人声声源以及纯实景车噪进行通道融合,生成用户所需的目标车内含噪语音数据。

最后,如上图,为这种含噪语音数据生成系统的硬件装置模块,该系统中主要包括有:语音素材库创建模块1、数据需求获取模块2、需求匹配模块3以及目标数据生成模块4。

语音素材库创建模块可以预先创建语音素材库;数据需求获取模块用于接收并解析用户输入的数据需求;需求匹配模块用于根据解析后的数据需求,从语音素材库中分别匹配出与用户需求对应的纯人声音频数据以及实车纯噪音音频数据;最后,目标数据生成模块用于将匹配到的纯人和实车纯噪音音频数据进行混音处理,生成车内含噪语音数据。

以上就是科大讯飞发明的车内含噪语音数据生成方案,该方案只需结合成熟的语音合成技术就可以实现人声素材资源的拓展,无需如现有技术重新反复进行实地录制数据,实现了对预先创建的语音素材资源的复用。解决了当前实车实景人工录制方式费时、费力、高成本等弊端,并有效提升了车用交互语音数据样本的制作效率。

    推荐阅读
  • 苹果6sp能升级ios12吗 6s可以升级ios12吗

    苹果6sp是能升级ios12的。iPhone6sPlus是苹果公司在2015年推出的一款手机。北京时间2015年9月10日发布iPhone6sPlus。是苹果公司研发的操作系统,新增防上瘾功能,睡前免打扰、家长控制功能。北京时间2018年6月5日,在美国圣何塞举办的2018苹果全球开发者大会上,苹果发布了系统。Beta版及GM版可在AppleBeta版软件计划内下载。

  • 快递会存在丢件的问题吗(上海重启后)

    一旁物业相关负责人表示,老人如果有需要,保安也会协助送货上门。据小区业主群接龙统计,6月1日至19日,27户居民共计丢件52件,涉及快递和外卖,涵盖了各家快递公司,物品价值从几十元到700元不等。27户居民共计丢件52件报警后,民警调查发现,一名马路上的行人半夜路过时顺手牵羊,偷走了快递,于是提议将货架移进小区。申通快递有限公司上海相关负责人表示,已经要求网点对这个情况进行整改,让快递员做到派前电联,送货上门。

  • 女人太强势老公要离婚该如何挽回婚姻

    因此男人无论对自己的妻子多么好,在她看来都是理所当然的事。她不会感恩老公为他付出的一切,而且还会计较自己的付出。但妻子也需要展示自己的温柔,感激老公为这个家庭付出的一切,并鼓励老公继续努力,这样的夫妻关系才能更加巩固。事实上,一个平等的婚姻关系更能提高婚姻的质量。

  • 什么是空头支票(什么是空头支票)

    空头支票的概念单位签发的支票票面金额,超过其在银行存款的余额或透支限额而不能生效的支票。对签发空头支票骗取财物的,要依法追究刑事责任。如果签发空头支票骗取财物的行为情节轻微,不构成犯罪,票据法规定要依照国家有关规定给予行政处罚。但是空头支票案件仍居高不下,且有愈演愈烈之势。

  • 华为nova系列如何更新鸿蒙系统(华为nova7)

    以下内容希望对你有帮助!华为nova系列如何更新鸿蒙系统IT之家12月4日消息,华为nova7Pro5G手机现已推送鸿蒙HarmonyOS2.0.0.216版本更新,优化了部分使用体验,并合入了安全补丁。

  • 晚上吃黄桃会不会长胖(晚上吃黄桃愿意胖吗)

    我们一起去了解并探讨一下这个问题吧!每100克黄桃中只含有54大卡的热量。适当的吃了黄桃一般是不会长胖的,主要是因为黄桃中的脂肪含量也比较低。但是当大量摄入黄桃之后,有可能会导致黄桃中的果糖在体内堆积,从而引起肥胖,所以不建议吃的特别多。一般建议每天不要超过一个黄桃,这样不但可以吸收其中的营养价值,又可以降低肥胖发生的概率。

  • 造梦西游3沙僧学什么技能好(造梦西游3沙僧最强配招)

    《造梦西游》是2011年,造梦工厂打造的一款过关游戏。不过悟空的核心技能,却并不是嗜血,而是悟空的七十二斩。除了孙悟空外,八戒同样是不少双人玩家的宠儿。虽然在西游原著中,八戒贪吃没有多强的战力,可是在造梦西游中,八戒却是所有角色中最肉的,同时打怪伤害非常高。而沙僧是造梦西游中,唯一可以使用两种不同形态武器的角色,但同时沙僧也是操作难度最高的。

  • type-c接口可以充苹果吗 苹果type-c接口充电

    演示机型:Iphone13系统版本:iOS15.2type-c接口不可以充苹果,但可以使用转接口。苹果手机都是采用Lighting充电接口,和type-c接口结构完全不一样。因此可以使用type-c转Lightning接口的数据线充苹果手机设备,无法直接使用双头Type-C数据线。

  • 征服世界的(击沉一切征服世界)

    《WarPacific》是一款战争策略战舰题材手机游戏,是真正实现战争与策略完美结合的新一代手机网游的经典之作。在《WarPacific》的世界中,你可以亲身感受的经典海战的震撼与残酷;也能化身捍卫者守卫资源、抵御敌人的强势入侵。运筹帷幄感受钢铁巨兽的咆哮《WarPacific》采用战舰集群式战斗,真正让你体验震人心弦的钢铁巨炮间的咆哮嘶吼。一展雄才伟略,打响恢弘海战,一切尽在《WarPacific》,心动不如行动,马上加入“击沉一切,征服世界”的行列吧!

  • 擦亮双眼看看5g究竟有没有用(这些5G谣言别相信)

    擦亮双眼看看5g究竟有没有用三年前的11月1日,三大电信运营商的5G套餐正式上线,5G在中国正式开始商用。同时,5G基础设施建设正在逐步完善中,相关资费也会随之降低。初步预估,5G资费最低或达到0.1元/GB。打开手机的5G开关,合理使用手机,享受更智能的便捷生活吧。