超越谷歌BERT!依图推出预训练语言理解模型ConvBERT,入选NeurIPS 2020
今年 5 月,Open AI 发布了非常擅长「炮制出类似人类的文本」的 GPT-3,拥有破天荒的 1750 亿参数,一时被业界视为最强大的人工智能语言模型。可是,训练成本极高,难以普及,也成了 GPT-3 成功背后的不足。相对于通用的计算机视觉模型,语言模型复杂得多、训练成本也更高,像 GPT-3 这种规模的模型只能是工业界才玩得起。深度学习「教父」LeCun 也说:「试图通过扩大语言模型的规模来建造智能应用,就像建造一架飞往月球的飞机。你可能会打破高度记录,但是登上月球其实需要一种完全不同的方法。」本土独角兽依图科技最近在人工智能界顶会 NeurIPS 上提出了一个小而美的方案——ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。相比费钱的 GPT-3,这项成果可让更多学者用更少时间去探索语言模型的训练,也降低了模型在预测时的计算成本。