肥宅钓鱼网
当前位置: 首页 钓鱼百科

一个简单的预测模型(小模型大趋势Google提出两个模型)

时间:2023-07-08 作者: 小编 阅读量: 1 栏目名: 钓鱼百科

渐进式训练已用于图像分类、GANs和语言模型,并取得了不错的效果。受这一观察结果的启发,研究人员进一步将研究范围扩展到卷积神经网络之外,以期找到更快、更准确的视觉模型。尺寸随着每个阶段继续减小。与之前ViT中的Transformer块不同,这里使用阶段之间的池化,类似于FunnelTransformer。最后,我们分类头来生成类别预测概率。CoAtNet模型在许多数据集中始终优于ViT模型及其变体。研究人员还在大规模JFT数据集上评估了CoAtNets。

一个简单的预测模型?来源:Google AI编辑:LRS,下面我们就来聊聊关于一个简单的预测模型?接下来我们就一起去了解一下吧!

一个简单的预测模型

来源:Google AI

编辑:LRS

【新智元导读】模型在更小、更快和更准之间矛盾吗?能同时达到这几个效果吗?Google Research提出两个模型EfficientNetV2和CoAtNet,竟然同时做到了这三点,模型下降7倍,训练速度提升10倍,还能拿到sota!

随着神经网络模型和训练数据规模的增长,训练效率正成为深度学习的一个重要焦点。

GPT-3 在小样本学习中表现出卓越的能力,但它需要使用数千个 GPU 进行数周的训练,因此很难重新训练或改进。

相反,如果可以设计出更小、更快、但更准确的神经网络会怎样?

Google 就提出了两类通过神经架构和基于模型容量和泛化性的原则性设计方法(principled design methodology)得到的神经网络模型用来图像识别。

第一个是ICML 2021上提出的EfficientNetV2,主要由卷积神经网络组成,旨在为相对较小的数据集(如ImageNet1k,有128万张图像)提供更快的训练速度。

EfficientNet V2基于以前的EfficientNet架构,为了改进原有的方法,Google 研究团队系统地研究了现代模型TPU/GPU上的训练速度瓶颈,有几个发现:

1、使用非常大的图像进行训练会导致更高的内存使用率,从而导致TPU/GPU上的训练速度通常较慢;

2、广泛使用的深度卷积在TPU/GPU上效率低下,因为它们的硬件利用率较低;

3、常用的uniform compound scaling将卷积网络的每个阶段平均放大,但这并不是最优方法。

为了解决这些问题,研究人员提出了一种面向训练感知的神经架构搜索(train-aware NAS),其中训练速度也包含在优化目标中,并且使用一种以非均匀方式在不同阶段进行缩放,模型代码也已开源。

文章的第一作者是Mingxing Tan,

训练感知 NAS 的架构基于之前的平台感知 platform-aware NAS,但与原方法主要关注推理速度不同,训练感知 NAS 同时优化模型精度、模型大小和训练速度。

模型还扩展了原始搜索空间以包含更多对加速器有利的操作,例如 FusedMBConv 通过删除不必要的操作(例如 平均池化和最大池化)来简化搜索空间。

由此产生的 EfficientNetV2 网络在所有以前的模型上都实现了更高的准确性,同时速度更快,体积缩小了 6.8 倍。

为了进一步加快训练过程,研究人员还提出了一种增强的渐进学习方法(progressive learning),该方法在训练过程中逐渐改变图像大小和正则化幅度。

渐进式训练已用于图像分类、GANs和语言模型,并取得了不错的效果。该方法侧重于图像分类,但与以前的方法不同的是,之前的方法通常以精度换取更高的训练速度,它可以略微提高精度,同时显著减少训练时间。

改进方法的关键思想是根据图像大小自适应地改变正则化强度,如dropout 的概率或数据增强程度。对于相同的网络,较小的图像大小导致网络容量较低,因此需要弱正则化;反之亦然,较大的图像大小需要更强的正则化来防止过度拟合。

在 ImageNet 和一些迁移学习数据集上,例如 CIFAR-10/100、Flowers 和 Cars 来评估 EfficientNetV2 模型。在 ImageNet 上,EfficientNetV2 显着优于以前的模型,训练速度提高了约 5-11 倍,模型尺寸缩小了 6.8 倍,准确率没有任何下降。

第二类是CoAtNet,一种结合了卷积和自注意的混合模型,其目标是在大规模数据集上实现更高的精度,如ImageNet21(有1300万张图像)和JFT(有数十亿张图像)。

虽然EfficientNetV2仍然是一个典型的卷积神经网络,但最近对视觉Transformer(visual Transformer, ViT)的研究表明,基于注意的Transfomer 模型在JFT-300M等大规模数据集上的性能优于卷积神经网络。

受这一观察结果的启发,研究人员进一步将研究范围扩展到卷积神经网络之外,以期找到更快、更准确的视觉模型。

研究者系统地研究如何结合卷积和自注意力来开发用于大规模图像识别的快速准确的神经网络。工作结果基于一个观察结论,即卷积由于其归纳偏差(inductive bias)通常具有更好的泛化能力(即训练和评估之间的性能差距),而自注意力Transformer由于其对全局建模的能力更强,所以往往具有更强大的概括能力(即适应大规模训练的能力) 。

通过结合卷积和自注意力,得到的混合模型可以实现更好的泛化和更大的容量。

深度卷积和自注意力可以通过简单的相对注意力自然地统一起来,并且垂直堆叠卷积层和注意力层,可以同时考虑到每个阶段所需的容量和计算能力,从而提高泛化性、容量和效率。

在 CoAtNet 架构中,给定大小为 HxW 的输入图像,首先在第一个stem阶段 (S0) 应用卷积并将大小减小到 H/2 x W/2。尺寸随着每个阶段继续减小。Ln 是指层数。前两个阶段(S1和S2)主要采用深度卷积组成的MBConv构建块。后两个阶段(S3和S4)主要采用具有relative self-attention的Transformer块。与之前 ViT 中的 Transformer 块不同,这里使用阶段之间的池化,类似于 Funnel Transformer。最后,我们分类头来生成类别预测概率。

CoAtNet 模型在许多数据集(例如 ImageNet1K、ImageNet21K 和 JFT)中始终优于 ViT 模型及其变体。与卷积网络相比,CoAtNet 在小规模数据集 (ImageNet1K) 上表现出相当的性能,并且随着数据大小的增加(例如在 ImageNet21K 和 JFT 上)取得了可观的收益。

研究人员还在大规模 JFT 数据集上评估了 CoAtNets。为了达到类似的准确度目标,CoAtNet 的训练速度比以前的 ViT 模型快 4 倍,更重要的是,在 ImageNet 上达到了 90.88% 的新的最先进的 top-1 准确度。

与以前的结果相比,新提出的模型速度快了4-10倍,同时在完善的ImageNet数据集上实现了最先进的90.88%top-1精度。

参考资料:

http://ai.googleblog.com/2021/09/toward-fast-and-accurate-neural.html?m=1

    推荐阅读
  • 怎么泡普洱茶(泡普洱茶的方法)

    泡普洱茶先需要将准备好的茶具放进热水中烫一下,然后拿出来备用,现在小编就来说说关于怎么泡普洱茶?下面内容希望能帮助到你,我们来一起看看吧!接着取适量的普洱茶放入茶壶中并倒入开水。将茶叶泡开后把水倒掉。然后按照1:30的比例加入新的热水。焖泡几秒钟后就可以直接过滤饮用。

  • 醋泡姜晚上能吃吗(醋泡姜晚上能吃吗为什么)

    在日常生活中,醋泡姜是很常见的一种养生食品,它含有多种营养物质,具有很好的保健功效,深受人们的喜欢。醋泡姜晚上吃会上火,对身体不好,因此不宜晚上食用醋泡姜。早上空腹吃醋泡姜的保健养生效果是最好的,生姜本性属热食物,有散寒暖胃和促进血液循环的功效。早上吃醋泡姜,能够加速血液循环,使人头脑清醒,精神振奋。

  • 放在冰箱里隔夜的米饭还能吃吗 放在冰箱里隔夜的米饭还能吃吗为什么

    因为隔夜米饭放冰箱里也可能会滋生细菌,人食用后,可能会出现腹痛、腹泻、呕吐等症状,对身体健康不利。

  • 什么网红沙发最舒服(网红沙发排行榜第一)

    大家好,我是家具推荐官李白,今天给大家介绍一下大名鼎鼎baxter的云朵沙发2022年初开始一跃成为最火网红款沙发。国内高端的云朵沙发基本采用磨砂皮制作,市场价格2-3万左右。我个人建议购买磨砂布料制作的云朵沙发,有磨砂绒质感,而且价格是普通大众能够接受的。可惜价格就是太贵了,幸好今年国内流行开来,佛山这边也有很多工厂打版销售了。考虑到每个家庭的尺寸的限制,坐感的软硬度、颜色搭配选择。

  • 米其林轮胎与餐厅有关系吗(米其林餐厅和米其林轮胎到底啥关系)

    米其林餐厅,就是被收录在《米其林指南》里的餐馆。1926年,《米其林指南》开始用星号来标记餐厅的优良,三星为最高。米其林星级餐厅据说,一个餐厅的评级,都是由多个“美食密探”品鉴和一年12次的造访和米其林总部评审才能敲定的。米其林餐厅也讲究色香味形和用餐环境据网上的资料,这个米其林餐厅的星级评定标准,根本不适合中国。其评审机构是法国米其林轮胎制造商米其林公司。这个评判标准最初出自《米其林指南》。

  • 花瓣面膜粉使用方法(花瓣面膜粉使用方法是怎样的)

    花瓣面膜粉使用方法一个花瓣面膜是1000g的,每次的用量大约是30g到60g,如果只是脸部使用,30g左右的玫瑰粉就可以了,如果脖子也做冰膜的话就需要大约60g左右。在使用的时候可以从脖子到脸部完全包围过来,避开眼周的位置。但是一定不能用自来水调膜,自来水中可能会有伤害肌肤的物质,影响冰膜的使用效果。如果肌肤比较干燥可以用温水调膜,打开肌肤毛孔,更好的清洁肌肤。

  • 东边雾炮洒水车变消防车(它叫雾炮洒水车)

    增强员工个人防护意识,坚决遏制疫情蔓延势头。作为疫情防控的第一线,南都物业将积极筑牢安全防线。首批应急物资包括口罩10000只,医用手套15000双,高浓度酒精1500斤以及消毒液1000斤等,助力母校做好疫情防控工作。发放疫情预防问答“小贴士”及疫情相关政策,上门逐户进行进行疫情知识和防范宣传。

  • nba官方集锦魔术(出道即巅峰的魔术师如何稳步成为首席乔吹的)

    本章主人公是同期的另一位天皇巨星,魔术师约翰逊。1959年8月14日,埃尔文约翰逊出生于美国密歇根州兰辛,家里有9个兄弟姐妹。有正经工作的父母,要想养育好9个小孩,实属不易。家庭出身极为重要,伯德因为家里极其贫困又来自乡下,被称为乡巴佬。可惜最终被肯塔基州冠军淘汰,止步八强。战胜大鸟伯德带领的小球队印第安州立大学,为球队带来第一个NCAA总冠军。这是绝代双骄第一次正面对抗,尽管魔术师捧杯,最佳球员却是拉里伯德。

  • 修改微信号的办法(我可能永远都不会修改微信号)

    今天微信可以改微信号竟然上了热搜,可见大家年轻气盛犯下的错误。这要追溯到我是什么时候开始用的微信。当时我就觉得原来工作了需要用微信,那我就先下载一个吧。我看网上很多人表示:“我终于要把前男友的名字踢出我的微信号了!”“终于可以让男朋友把微信号加上我的名字了”人类的悲欢并不相通,除了曾经想改却不能改的微信号。每一个想改微信号的时刻,都有一份最初的激情创作等待重来。

  • 蚬壳胃散的功效与用法 蚬壳胃散的功效与用法,成分

    蚬壳胃散是生活中的胃肠常用药,它是中成药的一种,这种药物的主要成分是乌贼骨和陶土以及石竹香和大黄,它具有出色的止血作用,对人类的胃痛、头痛以及腹痛等多种常见病都有良好治疗作用。