行业内参

AI Daily

AI Daily 快讯 · 2020/09/01

深2.5至4倍，参数和计算量却更少，DeLighT Transformer是怎么做到的？

Google 团队提出的 NLP 经典之作 Transformer 由 Ashish Vaswani 等人在 2017 年发表的论文《Attention Is All You Need》中提出。但由于模型参数量过大，该模型训练困难、部署不方便，研究人员一直在探究如何优化 Transformer。近日，来自华盛顿大学和 FAIR 的 Sachin Mehta 等人提出了一个网络结构较深但轻量级的 Transformer——DeLighT。

PM 2:44mp.weixin.qq.com

登录后评论

暂无评论~

登录

文章库