在空间的复杂度上,ViT 搜索空间(如,GLiT 空间的量级约 10^30)在数量上远远超过 CNN 搜索空间(如,DARTS 空间的量级约 10^18);
ViT 模型通常需要更多的训练周期(如300 epochs)才能知道其对应的效果。
论文地址:https://arxiv.org/pdf/2203.12217.pdf
项目地址:https://github.com/decemberzhou/TF_TAS
测量在初始化状态下衡量突触的显著性用于 CNN 模型的剪枝;
由于 Transformer 中不同模块在初始化阶段也有不同程度的冗余,因而可以通过对不同大小的 Transformer 进行剪枝。