谷歌开源 BiT:探索计算机视觉的大规模预培训
对于计算机视觉研究人员来说,普遍的看法是,现代的深度神经网络总是渴望获得更多的标签数据-当前需要对最新的 CNN 进行训练,例如 OpenImages 或 Places 等数据集,其中包含超过 1M 的标签图像。但是,对于许多应用程序而言,收集如此数量的标记数据可能对普通从业人员不利。减轻计算机视觉任务缺少标记数据的一种常见方法是使用已在通用数据上预先训练的模型(例如 ImageNet)。谷歌研究人员设计了一种方法,该方法使用图像数据集对实际特征进行有效的预训练,其规模超出了事实上的标准。特别是,研究人员强调了随着预训练数据量的增加,适当选择规范化层并缩放体系结构容量的重要性。方法展现出了前所未有的性能,可适应各种新的视觉任务,包括少拍识别设置和最近推出的「真实世界」ObjectNet 基准测试。我研究人员开源了经过预训练的最佳 BiT 模型,以及 TF2,Jax 和 PyTorch 中的代码,这将使任何人都能在自己感兴趣的任务上达到最先进的性能。