小浣熊下载站:值得大家信赖的下载站!
发布时间:2024-03-14 04:18:02来源:小浣熊下载站作者:
ImageNet排行榜又双叒叕被刷新啦!这回,谷歌和Meta AI携手打破记录,并没有祭出全新的模型,而是巧妙地运用了“模型汤”这一概念,仅通过微调预训练模型的超参数配置并取权重平均,便一举夺魁。尽管论文满篇尽是实验分析,却引发了网友们对“全靠土豪砸资源”的争议。
1. 谷歌与Meta AI这次合作实属罕见,他们提出的“模型汤”法则是,在大型预训练模型上尝试不同超参数配置进行微调,然后将各个模型的权重进行平均整合。
2. 实验证明,这种方法能够普遍提高模型的准确率和稳定性,堪称化繁为简的典范。
3. 传统上,追求最优模型通常需要经历两步走策略:首先利用不同超参数训练多个模型,再挑选在验证集表现最佳的那一个。然而这种方式容易陷入局部最优且带有较大的随机性,无法确保全局最优效果。
1. 面对局部最优问题,模型集成成为常用对策,即结合多个模型的输出以提升性能。但集成模型本质上仍是多模型组合,导致推理时需多次计算,大大增加推理成本及内存需求。
2. 模型汤另辟蹊径,通过权重平均得到单一模型,无需额外推理或内存开销即可实现性能提升,可谓是“低成本高回报”的典范。
3. 论文中的“模型汤”虽方法简单,Google却凭借雄厚的计算资源,大量实验数据证明了其有效性,最终打造出的新模型在ImageNet 1K上的准确率达到90.94%,刷新纪录。
4. “模型汤”名称灵感来源于“斐波那契例汤”,如同将昨日各色汤底加热混合,诞生出今日最新鲜的SOTA模型。
1. 当前CV领域的常见开发模式是由大公司预训练基础模型,其他研究人员在此基础上针对特定任务进行微调。而模型汤则把权重平均化的思想应用到微调场景中,进一步拓宽了其有效范围。
2. 权重平均化的具体策略包括均匀汤、贪婪汤和学习汤三种方式。均匀汤直接求取模型权重平均;贪婪汤则选择验证集表现优秀的模型逐步加入汤中;学习汤更进一步,赋予每个模型在汤中的权重以可学习属性。
1. 尽管模型汤的概念简洁明了,但论文的核心部分其实是扎实的实验探索。研究团队在多种模型如CLIP、ALIGN等上应用模型汤技术进行微调,并在多样化的下游任务和自然分布偏移数据集上进行了测试评估。
2. 结果表明,无论是在ImageNet还是分布外测试集上,贪婪汤均能以较少的模型数量达到与保留验证集上最佳单个模型相当甚至更高的精度,且不增加推理成本。
3. 即使扩展到NLP任务上,虽然改进不如图像分类明显,但在不少情况下,贪婪汤依然可以优于最好的单个模型。
1. 对于许多AI领域研究者来说,这篇论文可能引发“不过如此”的感慨,认为其主要依赖资源堆砌,缺乏深度理论分析。
2. 然而在知乎等社交媒体平台上,讨论热度居高不下。有网友调侃谷歌此举不过是“有钱任性”,也有网友肯定其实验充足、思路清晰、解释到位,且模型汤更为环保,体现了对已有资源的有效利用。
3. 不少人认为,尽管看似简单的模型汤背后并无复杂新奇的算法设计,但其实验结论颇具启发性,毕竟在实践中,“简单有效就是王道”。
参考资料:
https://arxiv.org/abs/2203.05482
https://www.zhihu.com/question/521497951
翻转
休闲益智
怪兽power
动作格斗
荧的惩罚游戏
角色扮演
冠军来了
休闲益智
挖掘机逆袭记
休闲益智
披萨塔正式版
休闲益智
方程式赛车手
休闲益智
米加世界迷你小镇
模拟经营
幸运硬币
休闲益智