肥宅钓鱼网
当前位置: 首页 钓鱼百科

亚马逊直播补光灯怎么用(亚马逊Echo新品技术解读)

时间:2023-08-03 作者: 小编 阅读量: 1 栏目名: 钓鱼百科

国内双麦技术提供商主要是科大讯飞和声智科技。而声智科技的双麦方案主要应用在汽车等行业,其在消费电子领域的成熟应用方案则是单麦克风方案。

雷锋网按:本文作者为声智科技创始人兼CEO陈孝良,中科院声学所博士。

美国时间9月27日,亚马逊再次引领了远场语音交互的潮流,一口气发布了5款Echo新品,包括第二代Echo和Echo Plus,2.5寸屏幕的Echo Spot,以及Echo Connect和Echo buttons。其中,最为引人关注的是Echo Spot,这个被称为是Echo Show闹钟版的新品带有一个2.5英寸的圆形屏幕,用户可以用它来显示图像、歌词、视频聊天等,售价仅有129.99美元。

Echo Spot不同于新版Echo和Echo plus,并没有采用环形6 1麦克风阵列,而是缩减了麦克风阵列的配置,选用了环形4麦的麦克风阵列技术。为什么Echo Spot会选择更换不同的麦克风阵列技术呢?

最新亚马逊客厅产品家族:Echo和FireTV系列

全球量产麦克风阵列的阵型技术盘点

1、Amazon Echo

不管第一代还是第二代,Echo都采用典型的6 1麦克风阵列结构,即环形6个麦克风搭配中间1个麦克风,如下图左所示。而且,Amazon一直非常喜欢采用TI的AD芯片TLV320ADC。目前,这种阵型国外主要是Amazon Echo使用,国内也只有联想和科大讯飞曾经模仿过这种阵型,其中,1代联想智能音箱采用的是环形6个麦克风 中间2个麦克风的结构。如下图右所示。

这里再说一下科大讯飞,其叮咚音箱系列产品都是模仿的这种结构,讯飞增加了1个麦克风,形成了环形7 1麦克风阵列的结构,如下图所示。叮咚1代和2代的差别主要是1代采用的是驻极体麦克风,而2代换成了模拟的MEMS麦克风。相比Amazon来说,科大讯飞更喜欢科胜讯的芯片,1、2代叮咚产品全部采用科胜讯的AD芯片CX20810,另外,科大讯飞的双麦算法也是采用的科胜讯CX20921芯片。

2、Echo Show

Echo Show则采用了椭圆形麦克风阵列,国内一般也称为跑道形,其实就是双线形,如下图左所示。这个阵型因为Echo Show的厚度问题所做了折衷处理,也是典型的技术妥协于产品设计的案例。目前,国内只有声智科技供应类似阵型,即L型6麦阵列,见如下图右所示。

3、Echo Spot

进一步缩减了麦克风阵列的配置,采用了环形4麦的技术,如下图左所示,这个阵型既降低了成本但也保证了一定的效果,这是比较典型的根据场景选择合适技术的案例。目前,国内的声智科技也供应这种阵型的麦克风阵列产品,即兼容4麦和4 1麦的麦克风阵列及开发板,如下图右所示。

相比6麦阵型来说,减少了2个麦克风之后,这个阵型仅是损失了一些4米以外的远场语音交互性能。但是根据国外产品公司对用户使用习惯的统计分析数据显示,在1-3米的范围是用户最习惯的远场交互距离,所以4麦也适合大多数用户使用场景,尤其是酒店等行业的应用。

4、Apple HomePod

采用的是环形6麦方案,环形6麦的优点就是给产品ID设计更大的自由性,同时也兼顾了成本和远场语音交互性能。国内小米AI音箱采用声智科技的前端方案,其中的阵型就是环形6麦,同时为继续降低成本,麦克风也全部采用数字麦克风,这样就省掉了模拟麦克风必须搭配的AD芯片。国内采用这个阵型的还有天猫精灵、小雅音箱,然而,不同于小米AI音箱,天猫精灵为照顾算法因素,依然采用了模拟麦克风 TI ADC的方案。

5、Google Home

Google Home则独具一格,采用了双麦克风的方案,国内出门问问的智能音箱也沿用了这个方案。国内双麦技术提供商主要是科大讯飞和声智科技。而声智科技的双麦方案主要应用在汽车等行业,其在消费电子领域的成熟应用方案则是单麦克风方案。

6、除此之外,还有一些特殊阵型。

科大讯飞曾经发布过双层的麦克风阵列,以及4麦线形阵列。除了科大讯飞,声智科技也推出了量产版的4麦线形阵列、3麦三角阵列以及分布式阵列。但是由于这些特殊阵列的产品目前销量还较小,在市场上的影响还很小。

为何不同产品的麦克风阵列差异如此大?

从上面的盘点可以看出,Amazon几乎每个新产品系列都会采用新的麦克风阵列技术,国内知名产品的麦克风阵型也多种多样,即便相同的阵型,其阵元间距也会不同,为何会产生这个现象?

1、麦克风阵列技术

首先从麦克风阵列技术本身来看,麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、双L、平面、螺旋、球形等。

至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。由于成本限制,消费级麦克风阵列的阵元数量一般不超过8个,所以市面上最常见的就是6麦和4麦的阵型。

2、麦克风的质量、数量及布局

除了算法,决定麦克风阵列性能的主要就是阵元麦克风的质量、数量及布局。这些基本都是硬件架构所决定,特别是麦克风的质量和数量,又与每个厂商的供应链紧密相关,这就非常容易造成每款产品的差异。比如叮咚1代为保证性能,选择了性能指标更高的指向型驻极体麦克风,而Echo则为了保证量产质量,则选用了性能指标较低的MEMS麦克风。由于算法的持续提升,对于麦克风的要求不再严格,因此MEMS麦克风是当前主流的应用。

3、远场语音交互的场景

其次从远场语音交互的场景来看,比如智能音箱、智能中控和智能汽车的场景肯定不一样,其需求自然也不同。智能音箱一般都是放置桌面,需要360度响应指令,所以环形阵列比较适合,而智能中控一般贴墙固定,仅照顾180度范围即可,这时候线形阵列就能满足。

当然这里也有特殊,比如手机和平板,一般也是3麦或4麦的矩形,这种阵型恰当利用屏幕导向而只是重点满足某个扇形角度的性能。智能汽车又分了两种情况,一种情况是仅满足驾驶员的语音交互需求,则单麦/双麦基本就能满足,另外一种情况则是满足所有乘员,而且重点照顾后排,则需要采用分布式阵列。

4、产品设计美观和约束

再次从产品设计美观和约束来看,刚才提到了阵型,这就约束了产品的ID设计,但是产品若有差异就必然需要不同的ID,那么自然就需要形态各异的麦克风阵列。不同的阵元间距和分布会对麦克风阵列性能产生重大影响,所以这个设计过程中是技术和艺术互相妥协的过程。同时麦克风阵列对于遮挡也有一定的要求,当前的麦克风阵列主要是放在顶部,就是为了避免这个问题,当然这个约束也会随着算法技术的不断提高而弱化。

5、产品成本及生产工艺

最后从产品成本及生产工艺来看,比如麦克风的选型问题,驻极体麦克风的性能指标更好,但是由于生产需要大量人工介入导致成本较高,因此当前主要采用MEMS麦克风。MEMS麦克风又分为模拟和数字两种,模拟麦克风 专业ADC的性能指标也更好,但是同时也让成本上升。数字麦克风的难点就是采集的信号相对最差,需要算法处理更多以达到与其他方案同样的效果。

为什么Google Home要选择双麦方案?

偶尔会听到行业人士做的一个类比,人类有两只耳朵,所以两个麦克风就能达到同样性能。这实际上是一个误解,以现在技术来看,即便用100个麦克风,也未必能达到人耳的效果。人耳是极其复杂的一个结构,至今为止实际上科学也没搞清楚所有原理,更谈不上用简单的麦克风进行模拟了。现在的麦克风,实际上都是标量麦克风,所获取的仅仅是声压变化转成的电信号,而且还没有耳廓,更无法根据场景变化随动调整。

那么为什么Google Home要采用双麦方案呢?这和麦克风阵列有何差异?事实上,这要从各家不同的技术架构来探讨,当前市面上主要存在三种远场语音交互技术架构。

1、以Google为代表的纯云端技术架构

首先就是以Google为代表的纯云端技术架构,Google并非不想采用麦克风阵列,因为阵列相比双麦方案具有了波束形成的功能,自然就拥有了更好的噪声和去混响能力,当距离较远或者环境复杂的时候依然能够保证远场识别率。但是由于麦克风阵列涉及了前端硬件,这并非Google所擅长,因此Google就希望能通过云端机器学习的方式来达到类似功能。

但是麦克风阵列的阵元较多,产生的数据容量太大,而当前的网络上传带宽严重不足,所以只能权衡选择更少的麦克风。实际上若采用前端方案,大部分场景下单麦克风方案也能达到双麦方案的性能。当然多一路麦克风信号对于云端算法来说也是很重要的。

2、以科胜讯为代表的纯前端技术架构

其次就是以科胜讯为代表的纯前端技术架构,双麦降噪实际上是非常成熟的方案,在智能手机和蓝牙耳机上已经广泛应用,但是直接应用到语音交互则需要大量适配工作。纯前端方案的优点就是容易集成到芯片上,缺点就是很难升级以及扩展,这恰好与人工智能不断迭代的趋势不太兼容,也是当前这种方案无法流行的主要原因。

3、以Amazon为代表的前端 云端方案

最后就是以Amazon为代表的前端 云端方案,这种方案是把算法分别放置到前端和云端,根据具体场景可以调配优化,更容易优化性能并扩展功能。这种方案考虑了麦克风阵列与唤醒和识别技术一体化的问题,由于唤醒和识别严重依赖麦克风阵列的算法处理效果,实际上这三种技术是无法完全分割的,特别是麦克风阵列和唤醒技术更是浑然一体。

所以国内厂商开发的Amazon Alexa产品,若选用Sensory等提供的唤醒词,总是会比Echo差不少,有意思的是,Alexa与Echo两个团队之间的互相较量,以致于产生了产品接入Alexa平台却要接受更差性能的尴尬。

如何正确选择麦克风阵列阵型和技术?

从上面的分析来看,远场语音交互产品确实比较复杂,仅仅选用麦克风阵列就有如此多的问题。那么应当如何选择合适的麦克风阵列和技术呢?

1、从产品实际角度出发,先定前端方案再定后端技术

首先还是应该从产品实际角度出发,先定前端方案再定后端技术,前端技术包含了麦克风阵列、唤醒和识别技术,后端技术则包含了自然语言理解和内容服务。

前端主要解决了产品是否听得准的问题,这其中有五个核心指标:远场语音唤醒率、复杂环境 误唤醒率、远场语音识别率、总体延迟时间和总体稳定性。这五个核心指标决定了用户的第一体验。

由于用户无法忍受前端技术出现任何问题,所以前端技术的稳定性也是至关重要,这个指标需要大规模量产的验证。后端技术主要解决了产品是否听得懂的问题,但是仅有自然语言理解还不够,必须和内容服务串联成反馈才能达到用户满意的目的,事实上,产品的智能主要就体现在后端,而且涉及内容服务,当前也仅有BAT等巨头做的比较完善。

目前来看,全球经过量产验证的前端技术主要掌握在Amazon、Apple、科大讯飞、声智科技等厂商手中,而后端技术特别是内容及服务则主要被Google、Microsoft、Apple、Amazon、百度、腾讯、阿里等巨头所掌控,思必驰和云知声等语音识别厂商也相继转型发布了平台战略。

2、根据应用场景选取合适的阵型

其次应该是根据应用场景选取合适的阵型,比如产品定位的场景是否需要360度拾音?产品的用户群体大概都是什么年龄?产品的主要交互距离又是多少?产品的ID采用什么形状?产品是否考虑低功耗问题?

根据这些指标,可以由专业的技术方案商提供具体方案,比较复杂的场景可能还需要定制开发,但是以当前技术进展来看,比如声智科技已经不再约束阵型的尺寸和结构。

3、在满足效果的前提下再考虑降低成本

最后应该是在满足效果的前提下再考虑降低成本,这和具体场景还是有密切关系的,比如儿童故事机,由于儿童与机器之间的距离约束,成本实际上是第一考虑要素,那事实上用单麦克风方案就可以解决。对于技术实力比较雄厚的厂商,则可以兼顾成本与性能,向技术方案上定制专用麦克风阵列和优化技术。

对于大部分产品厂商来说,产品研发速度和稳定是第一考虑要素,那可以优先选择阵列的模组方案,这样更容易集成,成本也容易控制。这样可以让厂商腾出更多精力专注后端智能方面的开发,当前端技术稳定可靠后,真正体现产品差异的一定是后端技术。

从Amazon来看产品与平台厂商的博弈

亚马逊做完Echo家族的产品发布会,其电商网站似乎只卖Echo产品了,而且价格几乎腰斩,这是一个很有意思的事情。因为Amazon同时还在鼓励Alexa的生态,力求把Alexa打造成一个AI平台。但是从当前的窘境来看,Alexa的平台进展似乎一直不太如意,Amazon似乎只对推广自家产品更有兴趣,何况Alexa还故意给产品开发厂商制造了很多困难。

这也很容易理解,平台的开放和封闭本来就是难以兼容的关系,平台的天性就是开放,而产品的天性容易封闭,这是两类生态的竞争,还没有一家公司能够兼容并包。比如Apple依赖iPhone系列构建了封闭的平台体系,而Google则依赖Android建立了开放的平台体系。

以Amazon当前的表现来看,其走向Apple的可能性更大一些,这样实际开放的只是内容和服务,更像Apple的Apple Store。这也很容易理解,因为平台需要积累大量客户,肯定倾向于能够带来大量客户的生态伙伴,若这个生态伙伴恰好还是自家的,没有理由不扶持自家产品。

所以Echo持续降价,销量不断攀升,这个结果导致其他生态伙伴无法生存,但是从Amazon来看也不重要,因为不管用户从哪来,其核心诉求实际上达到了。当Amazon的用户积累到一定规模,自然也就形成了平台优势,反而会给后端开发的用户带来盈利的空间,这样也能形成正向的逻辑。

从正向的逻辑出发,Amazon的野心就很清晰了,这绝对是要挑战其他巨头的意思,因为一旦语音流形成,不管是搜索还是社交,Amazon绝对是有兴趣染指一把的,当然电商本来就是Amazon的优势。所以,Amazon和Google最近在Youtube较劲也就见多不怪了,相信这个事情还会发生很多。

这对于我们国内远场语音交互生态有什么启示?

这可能会影响三类厂商:产品厂商、前端技术提供商和后端技术提供商,后端技术提供商实际上就是平台。其中这对前端技术方案商没有太大影响,毕竟麦克风阵列、唤醒和识别都是一种管道型技术,同时服务于产品和平台两大厂商,其核心诉求更多是赚钱,并没有太多其他变现的价值,也就是说这部分用互联网思维来做也没有什么落脚点。

但是产品厂商和平台厂商就比较纠结,产品和平台厂商都需要用户,当用户量足够大的时候,产品和平台的后端变现价值就会凸显。但是实现这个目标都是实力的硬硬对坑,是走向开放模式还是封闭模式?开放模式必然意味着要放弃自家产品鼓励生态,带动生态伙伴一起发展。封闭模式则需要重金投入同时打造产品和平台,搞不好两败俱伤。这是一个难题,也是一家公司的战略决策,很难说哪种模式未来能够绝对制胜,但是摇摆于两种模式之间的厂商必然没有发展空间。所以,很多时候,战略判断和决策才是一家公司的核心能力。

    推荐阅读
  • 液态玻璃有毒吗(液态玻璃有没有毒)

    液态玻璃有毒吗液态玻璃是无毒无害的。在现代的液体玻璃不仅具备防水、防尘、防菌、透气、耐热、耐酸和抗紫外线等多种功能,而且易于使用,不会产生任何环境后遗症。只需在溶液中添加少量水或酒精,便可将其直接喷涂在任何物体的表面。它将迅速形成一层透明薄膜,其厚度不过是头发丝的百分之一。如果您将它喷洒在物体表面,那么清洗起来就更加容易了,此外用液态玻璃加上热水来清洗其它的物体表面,绝对不比漂白剂逊色。

  • 教师人事代理能转正吗(在编教师和人事代理教师有什么区别?)

    教师人事代理能转正吗教师招聘人事代理制是现在教师招聘队伍的趋势,实行人事代理制的教师可以通过参加教师招考或当地规定的形式获得编制,所以人事代理制教师还是有很大转正机会的。无编制的教师往往属于临聘人员,无法晋升,无法调动,往往也无职称,更无职称工资。退休后按照与当初所在单位签订的合同处理。教师的编制属于全额拨款事业单位编制,享受事业单位工作待遇。人事代理教师属于企业员工,不纳入国家编制,工作不稳定。

  • 致自己心静的句子唯美(致自己心静的唯美短语有哪些)

    致自己心静的句子唯美画之境是心之境的反映,所有方法服务向同一个目标,凝固心境所反映的瞬间通过绘画。过多的幻想过高的期望,就像鸟儿不知飞向何方。生如夏花之绚烂,死如秋叶之静美。不要因为难过,就忘了散发芳香。人生最美是淡然,轻描淡写无重彩,若有若无,遐想无限。最重要的是心境。不要去践踏自己的尊严。人就是在不停地释然之中,忘掉了自己的初衷,淡化了自己的美梦。

  • 夏初成鱼的养殖管理技术要点

    开春后,随着气温回升,鱼类逐渐开始活动觅食。广大养殖户应抓住这个有利时机培肥池塘水质,让鱼类尽早开食,促使鱼类尽快恢复生长。早春给鱼类投饵应抓住一个“早”字。清明节以后,水温逐渐回升,但鱼类的消化力还不强,投饵量只能逐渐增加。饲料最好投在固定的食场,以便减少饲料浪费和观察鱼类吃食情况。早春气温较低,有机物分解慢,肥力保持时间长,施肥时应掌握量少次多的原则,使池水保持肥、活、嫩、爽。

  • 仙剑奇侠传7 画面(仙剑奇侠传七官方发布主角精美动态壁纸)

    国产仙侠动作RPG《仙剑奇侠传七》已于10月15日在方块平台发售,玩家普遍反应非常喜欢本作塑造的角色,官方在收录到反馈后,给玩家分享了精美的高清动态壁纸。《仙剑奇侠传七》将在10月22日登陆Steam和WeGame平台,本作的玩法将围绕即时动作系统展开,四名主角即时切换操作,非常有深度;在剧情上,本作中故事以“人、神、魔”三个种族展开,主角月清疏将与作为神的修吾一同进行冒险,发现危机事件背后的真相。

  • 青春期喉结是不是会变大(总是觉得自己丁丁小)

    丁丁的尺寸一向是不少男人最关心的问题,话说哪个男的不在意自己的大小长短呢?其实任何生理范围都需要一个值,就像身高体重一样,而丁丁长短在一定范围内就可以了。其实未必,太长的丁丁可能会给女性带来疼痛,而女性的主要快感区在阴道的外1/3,所以一般的丁丁就足够用了。其实,绝大多数男性的丁丁长度都是在正常范围之内的。男子只要丁丁发育无畸形,长度不小于正常范围低限,均可以满足女子性要求,无须自虑,更不必听信谬传。

  • 宇叶智慧工地软硬件研发工厂(立林科技经营范围新增建筑智能化系统设计等)

    我们一起去了解并探讨一下这个问题吧!宇叶智慧工地软硬件研发工厂乐居财经讯吴文婷6月23日,厦门立林科技有限公司经营范围发生变更,新增建设工程施工;建筑智能化系统设计;互联网信息服务等。据乐居财经了解,立林科技成立于2002年11月29日,注册资本7000万元,法人代表为陈毅辉,经营范围包括:工程和技术研究和试验发展;电子元器件制造;电子专用设备制造等。目前,其大股东为厦门立林集团有限公司,持股50%。

  • 金翰主演的电视剧(金翰主演的电视剧盘点)

    我们一起去了解并探讨一下这个问题吧!金翰主演的电视剧截止到2018年年底,金瀚出演过的电视剧有。《城市恋人》、《超级教师》、《校园篮球风云》、《伊川大魔王》、《锦绣未央》、《楚乔传》、《你和我的倾城时光》。金瀚出生于青海省西宁市的一个军人世家,隶属第二炮兵。2010年,金瀚以优异的成绩考入北京现代音乐学院表演系本科,同时他还在北京电影学院表演班进修。

  • 吃鸡蛋有什么好处(多吃鸡蛋对身体的好处)

    研究表明,叶黄素和玉米黄素的摄入量与视网膜的健康水平成正比,同时也可能降低患白内障的风险。蛋黄中的脂肪,还可以促进叶黄素和玉米黄素的吸收利用率。降低心脏病风险:发表在《美国营养学院学报》上的一项研究称,每天吃一个鸡蛋可以将中风的风险降低12%。健康的成年人常吃鸡蛋可以显著降低患心脏病的风险。而补充铁元素的直接变化就是可以改善反甲症状、改善人体皮肤的干燥状况。

  • 好麦多五谷杂粮(关注营养膳食多元化消费需求)

    例如孕妈妈在孕期需要及时补充α-亚麻酸。多谷新语为孕妈妈亚麻酸补充研发“51亚麻籽混合杂粮”,每100g含1.5gα-亚麻酸,可满足孕妈妈每日所需,帮助孕妈调节血糖血脂,增强免疫力,平衡羊水,营养补充的同时,促进胎儿大脑发育,视觉发育,机能发育,形体发育,全面补充孕期营养。生产资质符合国家标准,厂内检验室可以独立完成水份、微生物、二氧化硫等各项检测。已于2022年05月申请并通过“ISO22000食品安全管理体系认证”。