最新论文:克服多模型遗忘
在论文《Overcoming Multi-Model Forgetting》中,研究者确定了一种现象,称之为「多模型遗忘」。这种现象发生在顺序地训练具有部分共享参数的多个深度网络时:由于共享参数的覆盖,先前训练的模型的性能随着优化后续模型而降低。为了克服这个问题,研究者引入了统计学上合理的权重可塑性损失,根据共享参数对先前模型的重要性来规范学习模型的共享参数,并证明其在按顺序训练两个模型和进行神经结构搜索时的有效性。在神经结构搜索中增加权重可塑性可以在搜索结束时保留最佳模型,并在自然语言处理和计算机视觉任务中产生改进的结果。