论文题目:Do Generated Data Always Help Contrastive Learning? 论文地址:https://arxiv.org/abs/2403.12448 代码地址:https://github.com/PKU-ML/adainf
真实数据和生成数据的比例。从人的角度来看,生成数据似乎以假乱真,但对于模型训练而言并非如此。他们发现,真实数据与生成数据的混合比例在 10:1 附近时达到最优,也就是说,1 个真实数据的「训练价值」约等于 10 个生成数据。这侧面说明了二者的差异。 训练策略的设计。他们发现,在使用生成数据进行训练时,如果维持原有的训练参数,则模型几乎没有提升。相反,如果随着数据集的扩充,而相应降低模型训练所使用的数据增广的强度,则可以获得显著提升。
![图片](https://image.jiqizhixin.com/uploads/editor/112dd602-a360-47da-b3c2-6b96d2158d37/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/df5a0eda-b675-444e-8a58-b12547c96bc5/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/7e716c27-03e3-4a65-8ea7-dadf60275716/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/f6f260c5-b153-4f38-8de1-789f7da370fb/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/013703cf-c92c-4d06-8165-69b9a41a0787/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/69875169-65e6-4a43-8e4a-7f75a8c10e50/640.png)
数据扩充:不会改变标签错误 ,但可以提升图的连通性(
增大)(下图 5 (a))。
数据增广:数据增广强度增加,会使得 labeling error 增大(图 5 (b)),但同时使不同样本之间的交叠部分增加,即增广图的连通性增强(
增大)(图 5 (c))。
![图片](https://image.jiqizhixin.com/uploads/editor/74c0b9a4-4736-47d2-8353-f492b1466a40/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/336ff89a-659f-4fb5-876f-c5cefc81d60d/640.png)