肥宅钓鱼网
当前位置: 首页 钓鱼百科

亚马逊直播补光灯怎么用(亚马逊Echo新品技术解读)

时间:2023-08-03 作者: 小编 阅读量: 2 栏目名: 钓鱼百科

国内双麦技术提供商主要是科大讯飞和声智科技。而声智科技的双麦方案主要应用在汽车等行业,其在消费电子领域的成熟应用方案则是单麦克风方案。

雷锋网按:本文作者为声智科技创始人兼CEO陈孝良,中科院声学所博士。

美国时间9月27日,亚马逊再次引领了远场语音交互的潮流,一口气发布了5款Echo新品,包括第二代Echo和Echo Plus,2.5寸屏幕的Echo Spot,以及Echo Connect和Echo buttons。其中,最为引人关注的是Echo Spot,这个被称为是Echo Show闹钟版的新品带有一个2.5英寸的圆形屏幕,用户可以用它来显示图像、歌词、视频聊天等,售价仅有129.99美元。

Echo Spot不同于新版Echo和Echo plus,并没有采用环形6 1麦克风阵列,而是缩减了麦克风阵列的配置,选用了环形4麦的麦克风阵列技术。为什么Echo Spot会选择更换不同的麦克风阵列技术呢?

最新亚马逊客厅产品家族:Echo和FireTV系列

全球量产麦克风阵列的阵型技术盘点

1、Amazon Echo

不管第一代还是第二代,Echo都采用典型的6 1麦克风阵列结构,即环形6个麦克风搭配中间1个麦克风,如下图左所示。而且,Amazon一直非常喜欢采用TI的AD芯片TLV320ADC。目前,这种阵型国外主要是Amazon Echo使用,国内也只有联想和科大讯飞曾经模仿过这种阵型,其中,1代联想智能音箱采用的是环形6个麦克风 中间2个麦克风的结构。如下图右所示。

这里再说一下科大讯飞,其叮咚音箱系列产品都是模仿的这种结构,讯飞增加了1个麦克风,形成了环形7 1麦克风阵列的结构,如下图所示。叮咚1代和2代的差别主要是1代采用的是驻极体麦克风,而2代换成了模拟的MEMS麦克风。相比Amazon来说,科大讯飞更喜欢科胜讯的芯片,1、2代叮咚产品全部采用科胜讯的AD芯片CX20810,另外,科大讯飞的双麦算法也是采用的科胜讯CX20921芯片。

2、Echo Show

Echo Show则采用了椭圆形麦克风阵列,国内一般也称为跑道形,其实就是双线形,如下图左所示。这个阵型因为Echo Show的厚度问题所做了折衷处理,也是典型的技术妥协于产品设计的案例。目前,国内只有声智科技供应类似阵型,即L型6麦阵列,见如下图右所示。

3、Echo Spot

进一步缩减了麦克风阵列的配置,采用了环形4麦的技术,如下图左所示,这个阵型既降低了成本但也保证了一定的效果,这是比较典型的根据场景选择合适技术的案例。目前,国内的声智科技也供应这种阵型的麦克风阵列产品,即兼容4麦和4 1麦的麦克风阵列及开发板,如下图右所示。

相比6麦阵型来说,减少了2个麦克风之后,这个阵型仅是损失了一些4米以外的远场语音交互性能。但是根据国外产品公司对用户使用习惯的统计分析数据显示,在1-3米的范围是用户最习惯的远场交互距离,所以4麦也适合大多数用户使用场景,尤其是酒店等行业的应用。

4、Apple HomePod

采用的是环形6麦方案,环形6麦的优点就是给产品ID设计更大的自由性,同时也兼顾了成本和远场语音交互性能。国内小米AI音箱采用声智科技的前端方案,其中的阵型就是环形6麦,同时为继续降低成本,麦克风也全部采用数字麦克风,这样就省掉了模拟麦克风必须搭配的AD芯片。国内采用这个阵型的还有天猫精灵、小雅音箱,然而,不同于小米AI音箱,天猫精灵为照顾算法因素,依然采用了模拟麦克风 TI ADC的方案。

5、Google Home

Google Home则独具一格,采用了双麦克风的方案,国内出门问问的智能音箱也沿用了这个方案。国内双麦技术提供商主要是科大讯飞和声智科技。而声智科技的双麦方案主要应用在汽车等行业,其在消费电子领域的成熟应用方案则是单麦克风方案。

6、除此之外,还有一些特殊阵型。

科大讯飞曾经发布过双层的麦克风阵列,以及4麦线形阵列。除了科大讯飞,声智科技也推出了量产版的4麦线形阵列、3麦三角阵列以及分布式阵列。但是由于这些特殊阵列的产品目前销量还较小,在市场上的影响还很小。

为何不同产品的麦克风阵列差异如此大?

从上面的盘点可以看出,Amazon几乎每个新产品系列都会采用新的麦克风阵列技术,国内知名产品的麦克风阵型也多种多样,即便相同的阵型,其阵元间距也会不同,为何会产生这个现象?

1、麦克风阵列技术

首先从麦克风阵列技术本身来看,麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、双L、平面、螺旋、球形等。

至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。由于成本限制,消费级麦克风阵列的阵元数量一般不超过8个,所以市面上最常见的就是6麦和4麦的阵型。

2、麦克风的质量、数量及布局

除了算法,决定麦克风阵列性能的主要就是阵元麦克风的质量、数量及布局。这些基本都是硬件架构所决定,特别是麦克风的质量和数量,又与每个厂商的供应链紧密相关,这就非常容易造成每款产品的差异。比如叮咚1代为保证性能,选择了性能指标更高的指向型驻极体麦克风,而Echo则为了保证量产质量,则选用了性能指标较低的MEMS麦克风。由于算法的持续提升,对于麦克风的要求不再严格,因此MEMS麦克风是当前主流的应用。

3、远场语音交互的场景

其次从远场语音交互的场景来看,比如智能音箱、智能中控和智能汽车的场景肯定不一样,其需求自然也不同。智能音箱一般都是放置桌面,需要360度响应指令,所以环形阵列比较适合,而智能中控一般贴墙固定,仅照顾180度范围即可,这时候线形阵列就能满足。

当然这里也有特殊,比如手机和平板,一般也是3麦或4麦的矩形,这种阵型恰当利用屏幕导向而只是重点满足某个扇形角度的性能。智能汽车又分了两种情况,一种情况是仅满足驾驶员的语音交互需求,则单麦/双麦基本就能满足,另外一种情况则是满足所有乘员,而且重点照顾后排,则需要采用分布式阵列。

4、产品设计美观和约束

再次从产品设计美观和约束来看,刚才提到了阵型,这就约束了产品的ID设计,但是产品若有差异就必然需要不同的ID,那么自然就需要形态各异的麦克风阵列。不同的阵元间距和分布会对麦克风阵列性能产生重大影响,所以这个设计过程中是技术和艺术互相妥协的过程。同时麦克风阵列对于遮挡也有一定的要求,当前的麦克风阵列主要是放在顶部,就是为了避免这个问题,当然这个约束也会随着算法技术的不断提高而弱化。

5、产品成本及生产工艺

最后从产品成本及生产工艺来看,比如麦克风的选型问题,驻极体麦克风的性能指标更好,但是由于生产需要大量人工介入导致成本较高,因此当前主要采用MEMS麦克风。MEMS麦克风又分为模拟和数字两种,模拟麦克风 专业ADC的性能指标也更好,但是同时也让成本上升。数字麦克风的难点就是采集的信号相对最差,需要算法处理更多以达到与其他方案同样的效果。

为什么Google Home要选择双麦方案?

偶尔会听到行业人士做的一个类比,人类有两只耳朵,所以两个麦克风就能达到同样性能。这实际上是一个误解,以现在技术来看,即便用100个麦克风,也未必能达到人耳的效果。人耳是极其复杂的一个结构,至今为止实际上科学也没搞清楚所有原理,更谈不上用简单的麦克风进行模拟了。现在的麦克风,实际上都是标量麦克风,所获取的仅仅是声压变化转成的电信号,而且还没有耳廓,更无法根据场景变化随动调整。

那么为什么Google Home要采用双麦方案呢?这和麦克风阵列有何差异?事实上,这要从各家不同的技术架构来探讨,当前市面上主要存在三种远场语音交互技术架构。

1、以Google为代表的纯云端技术架构

首先就是以Google为代表的纯云端技术架构,Google并非不想采用麦克风阵列,因为阵列相比双麦方案具有了波束形成的功能,自然就拥有了更好的噪声和去混响能力,当距离较远或者环境复杂的时候依然能够保证远场识别率。但是由于麦克风阵列涉及了前端硬件,这并非Google所擅长,因此Google就希望能通过云端机器学习的方式来达到类似功能。

但是麦克风阵列的阵元较多,产生的数据容量太大,而当前的网络上传带宽严重不足,所以只能权衡选择更少的麦克风。实际上若采用前端方案,大部分场景下单麦克风方案也能达到双麦方案的性能。当然多一路麦克风信号对于云端算法来说也是很重要的。

2、以科胜讯为代表的纯前端技术架构

其次就是以科胜讯为代表的纯前端技术架构,双麦降噪实际上是非常成熟的方案,在智能手机和蓝牙耳机上已经广泛应用,但是直接应用到语音交互则需要大量适配工作。纯前端方案的优点就是容易集成到芯片上,缺点就是很难升级以及扩展,这恰好与人工智能不断迭代的趋势不太兼容,也是当前这种方案无法流行的主要原因。

3、以Amazon为代表的前端 云端方案

最后就是以Amazon为代表的前端 云端方案,这种方案是把算法分别放置到前端和云端,根据具体场景可以调配优化,更容易优化性能并扩展功能。这种方案考虑了麦克风阵列与唤醒和识别技术一体化的问题,由于唤醒和识别严重依赖麦克风阵列的算法处理效果,实际上这三种技术是无法完全分割的,特别是麦克风阵列和唤醒技术更是浑然一体。

所以国内厂商开发的Amazon Alexa产品,若选用Sensory等提供的唤醒词,总是会比Echo差不少,有意思的是,Alexa与Echo两个团队之间的互相较量,以致于产生了产品接入Alexa平台却要接受更差性能的尴尬。

如何正确选择麦克风阵列阵型和技术?

从上面的分析来看,远场语音交互产品确实比较复杂,仅仅选用麦克风阵列就有如此多的问题。那么应当如何选择合适的麦克风阵列和技术呢?

1、从产品实际角度出发,先定前端方案再定后端技术

首先还是应该从产品实际角度出发,先定前端方案再定后端技术,前端技术包含了麦克风阵列、唤醒和识别技术,后端技术则包含了自然语言理解和内容服务。

前端主要解决了产品是否听得准的问题,这其中有五个核心指标:远场语音唤醒率、复杂环境 误唤醒率、远场语音识别率、总体延迟时间和总体稳定性。这五个核心指标决定了用户的第一体验。

由于用户无法忍受前端技术出现任何问题,所以前端技术的稳定性也是至关重要,这个指标需要大规模量产的验证。后端技术主要解决了产品是否听得懂的问题,但是仅有自然语言理解还不够,必须和内容服务串联成反馈才能达到用户满意的目的,事实上,产品的智能主要就体现在后端,而且涉及内容服务,当前也仅有BAT等巨头做的比较完善。

目前来看,全球经过量产验证的前端技术主要掌握在Amazon、Apple、科大讯飞、声智科技等厂商手中,而后端技术特别是内容及服务则主要被Google、Microsoft、Apple、Amazon、百度、腾讯、阿里等巨头所掌控,思必驰和云知声等语音识别厂商也相继转型发布了平台战略。

2、根据应用场景选取合适的阵型

其次应该是根据应用场景选取合适的阵型,比如产品定位的场景是否需要360度拾音?产品的用户群体大概都是什么年龄?产品的主要交互距离又是多少?产品的ID采用什么形状?产品是否考虑低功耗问题?

根据这些指标,可以由专业的技术方案商提供具体方案,比较复杂的场景可能还需要定制开发,但是以当前技术进展来看,比如声智科技已经不再约束阵型的尺寸和结构。

3、在满足效果的前提下再考虑降低成本

最后应该是在满足效果的前提下再考虑降低成本,这和具体场景还是有密切关系的,比如儿童故事机,由于儿童与机器之间的距离约束,成本实际上是第一考虑要素,那事实上用单麦克风方案就可以解决。对于技术实力比较雄厚的厂商,则可以兼顾成本与性能,向技术方案上定制专用麦克风阵列和优化技术。

对于大部分产品厂商来说,产品研发速度和稳定是第一考虑要素,那可以优先选择阵列的模组方案,这样更容易集成,成本也容易控制。这样可以让厂商腾出更多精力专注后端智能方面的开发,当前端技术稳定可靠后,真正体现产品差异的一定是后端技术。

从Amazon来看产品与平台厂商的博弈

亚马逊做完Echo家族的产品发布会,其电商网站似乎只卖Echo产品了,而且价格几乎腰斩,这是一个很有意思的事情。因为Amazon同时还在鼓励Alexa的生态,力求把Alexa打造成一个AI平台。但是从当前的窘境来看,Alexa的平台进展似乎一直不太如意,Amazon似乎只对推广自家产品更有兴趣,何况Alexa还故意给产品开发厂商制造了很多困难。

这也很容易理解,平台的开放和封闭本来就是难以兼容的关系,平台的天性就是开放,而产品的天性容易封闭,这是两类生态的竞争,还没有一家公司能够兼容并包。比如Apple依赖iPhone系列构建了封闭的平台体系,而Google则依赖Android建立了开放的平台体系。

以Amazon当前的表现来看,其走向Apple的可能性更大一些,这样实际开放的只是内容和服务,更像Apple的Apple Store。这也很容易理解,因为平台需要积累大量客户,肯定倾向于能够带来大量客户的生态伙伴,若这个生态伙伴恰好还是自家的,没有理由不扶持自家产品。

所以Echo持续降价,销量不断攀升,这个结果导致其他生态伙伴无法生存,但是从Amazon来看也不重要,因为不管用户从哪来,其核心诉求实际上达到了。当Amazon的用户积累到一定规模,自然也就形成了平台优势,反而会给后端开发的用户带来盈利的空间,这样也能形成正向的逻辑。

从正向的逻辑出发,Amazon的野心就很清晰了,这绝对是要挑战其他巨头的意思,因为一旦语音流形成,不管是搜索还是社交,Amazon绝对是有兴趣染指一把的,当然电商本来就是Amazon的优势。所以,Amazon和Google最近在Youtube较劲也就见多不怪了,相信这个事情还会发生很多。

这对于我们国内远场语音交互生态有什么启示?

这可能会影响三类厂商:产品厂商、前端技术提供商和后端技术提供商,后端技术提供商实际上就是平台。其中这对前端技术方案商没有太大影响,毕竟麦克风阵列、唤醒和识别都是一种管道型技术,同时服务于产品和平台两大厂商,其核心诉求更多是赚钱,并没有太多其他变现的价值,也就是说这部分用互联网思维来做也没有什么落脚点。

但是产品厂商和平台厂商就比较纠结,产品和平台厂商都需要用户,当用户量足够大的时候,产品和平台的后端变现价值就会凸显。但是实现这个目标都是实力的硬硬对坑,是走向开放模式还是封闭模式?开放模式必然意味着要放弃自家产品鼓励生态,带动生态伙伴一起发展。封闭模式则需要重金投入同时打造产品和平台,搞不好两败俱伤。这是一个难题,也是一家公司的战略决策,很难说哪种模式未来能够绝对制胜,但是摇摆于两种模式之间的厂商必然没有发展空间。所以,很多时候,战略判断和决策才是一家公司的核心能力。

    推荐阅读
  • 乌龟动物英语儿童启蒙(和儿子一起学英语动物篇)

    小朋友知道袋鼠吗?Joey说实话我从来没有注意过袋鼠幼崽用英语怎么说,自从和孩子一起学起英语,才发现原来我有很多东西都不会,不是还给了老实,就是我压根就没学过,现在的孩子学的东西,确实比我们那会要广泛的很多,所以和孩子一起学习,是件很有趣的事,接下来我们就来聊聊关于乌龟动物英语儿童启蒙?以下内容大家不妨参考一二希望能帮到您!

  • 山中漫步3(西城漫步3)

    估计您不知道,即便您是石河子本地人,我不说,您能意识到吗?此时此刻,八一棉纺厂正在睡觉。石河子首先是一座纺织城,其次才是别的社会标签,因为它是纺织城,所以它才荣膺美女城,美女如云,秀色可餐,这是石河子的一道人文景观。

  • 2023湖北专升本报名条件要求(2023湖北专升本报名条件要求是什么)

    专项计划考生应是符合普通考生报考条件,且经乡村振兴部门确认的原建档立卡贫困家庭学生和防返贫动态监测家庭学生。考生只能选择“普通考生”“专项计划考生”“退役大学生士兵”中的一种考生类型报考。符合报名资格条件的普通考生及专项计划考生于规定时间报名平台进行网络报名。考生对其提供的信息和资料真实性、准确性和完整性负责,并承担相应责任。

  • 高冷的英文网名(嚣张高傲的女生网名)

    高冷的英文网名?Instinct.初衷远行者,Let’sgo,今天小编就来聊一聊关于高冷的英文网名?接下来我们就一起去研究一下吧!高冷的英文网名Instinct.初衷远行者,Let’sgoSweety丶小任性╮Absurd[荒谬]Pride傲骨倾城Initia﹣迷失[lost]Smile凉城丶心疤Heart~Misaya(救世主)Sam|绝情△sund泪痕℡Cry↘︶寂寞

  • 李世民是怎样评价李治的(李世民心爱的三个女人)

    李渊册封李氏为同安公主,同安公主作为天子唯一的亲妹妹,在大唐朝具有崇高的地位。隋唐时期,五姓女地位尊崇,达官贵人纷纷以娶五姓女为荣。王氏五姓女的身份,为李治争夺太子之位增添了不少砝码。李治善待太子妃,主要是为了获得三个人的支持。李世民心爱的三个女人,联手把李治推上皇帝宝座。本人已经和维权公司签约,委托维权公司代理维权。

  • 生石灰的主要成分(生石灰介绍)

    以下内容大家不妨参考一二希望能帮到您!生石灰的主要成分生石灰主要成分:氧化钙。生石灰,又称烧石灰,主要成分为氧化钙,通常制法为将主要成分为碳酸钙的天然岩石,在高温下煅烧,即可分解生成二氧化碳以及氧化钙。在沿海地区有用贝壳作原料,经烧制成壳灰,作生石灰用。

  • 首创奥特莱斯济南有哪些品牌(被指一线大牌有点少)

    位于济南东部的首创奥特莱斯近日正式亮相,开业前3天,消费者对这家新开张的奥特莱斯热情颇高。在传统奥特莱斯中,集聚国际一线大牌是其核心竞争力。济南首创奥特莱斯18日开业当天,当王女士驱车十几公里赶到时,停车场已经爆满,“找停车位找了一个多小时。”在奥特莱斯内聚集了大量消费者,客流如织,圆形中央广场南侧,名为CO的店铺门口大排长队,已经限制客流。其目前释放的信息是,即将试营业。

  • 自考本科的学历有人认可吗(自考学历到底有没有用)

    一直以来,自考学历受到来自社会各界的质疑,很多人对自考不了解,甚至存在一些误解。不论哪种成人提升学历的方式,都是国家承认的教育形式,拿到的毕业证受到国家认可,学信网终身可查,依法享有与统招全日制学生相同的待遇。自考学历学信网截图三、自考有用吗?01考公考编一般来说,报考公务员需要有国家承认的大专及以上的高等教育学历。而评定条件中明确说明,符合评定条件的包括通过成人教育等形式取得的学历。

  • 古代人们尊称对方的女儿是什么(古代对方的女儿怎么称呼)

    古代人们尊称对方的女儿是什么古代人们尊称对方的女儿令爱或者令媛。令爱是一个汉语词语,也作令嫒,是敬辞,敬称他人的女儿,多用于称呼对方的女儿。出自《京本通俗小说碾玉观音》:“虞侯道:‘无甚事,闲问则个。适来叫出来看郡王轿子的人,令爱么?’待诏道:正是拙女,止有三口。”令嫒是指别人的女儿,源于唐代,也作“令爱”讲,古时代官宦之间对对方女性晚辈的一种友好的称呼,后惯用于对同事、朋友女儿的敬称。

  • 网络上最干净的女主播(全球首位虚拟女主播)

    图片来源:AIChannel官方除了突然官宣自己要退圈外,绊爱还表示自己将在2022年2月26日开启个人演唱会,随后在2月底正式停止活动。