夕小瑶的卖萌屋

这篇文章主要介绍了YouTube深度学习系统论文中的十个工程问题，为了方便进行问题定位，我们还是简单介绍一下背景知识，简单回顾一下YouTube的深度推荐系统论文Deep Neural Networks for YouTube Recommendations中介绍的YouTube深度学习推荐系统的框架。

重点说明：本文主要为整理总结，大部分参考文末资料，感谢分享。

实验不仅证明了learned optimizer的普适性，更是发现了这种优化器的一些惊人特性。比如，它甚至可以根据训练过程中的validation loss，隐性地做到正则化规约。最令人惊叹的是，该优化器甚至可以用来从头训练一个新的general-pupose优化器——也就是说，这是一个可以自己优化自己的优化器！

最近，我们预训练并开源了以词为单位的中文BERT模型，称之为WoBERT（Word-based BERT，我的BERT！）。实验显示，基于词的WoBERT在不少任务上有它独特的优势，比如速度明显的提升，同时效果基本不降甚至也有提升。在此对我们的工作做一个总结。

现在校招开始的越来越早，今年的实习生招聘还是异常火爆，简历一堆，而且是越来越没有区分度，以前面个xgboost的论文细节，就能区分很多人，现在大部分人都能讲的不错，哎，面试越来越难。

今天分享一下 Facebook 发表在 KDD2020 的一篇关于社交网络搜索中的 embedding 检索问题的工作，干货很多，推荐一读。

以 BERT 为代表作的预训练模型的研究热度一直很高，到 0202 年了，预训练的研究依旧层出不穷，而且 ACL 2020 Best Paper 荣誉提名也选择了这一主题的研究。但是，只要我们不停止预训练，其表现就一定会提升吗？预训练模型可以完全支持 NLP 的所有下游任务吗？在 ACL 2020 已发表的论文中，我们整理并归纳出了目前学术界对预训练模型的不同看法。

本文将带来一次全端到端的“篇章 → 答案 + 问题”实践，包括模型介绍以及基于bert4keras[2]的实现代码，欢迎读者尝试。

集成开发环境（IDE，Integrated Development Environment ）是用于提供程序开发环境的应用程序，不管是Java、C还是Python，使用IDE编程可以帮你检查语法、自动补全、后台编译等，写代码就变得容易许多。另外，如果经常在服务器上工作的小伙伴一定知道Vim在进行文本编辑的时候是多么的方便。那么当vim的高效编辑性和IDE辅助编程性相融合，岂不是天下无敌？

在实际场景下，考虑到设备的运算速度和内存大小，往往会对模型进行压缩，比如通过蒸馏（distillation）小模型、剪枝（pruning）、量化（quantization）和低轶近似／权重共享等方法。但模型压缩还是会带来一定的精度损失。因此我们思考，是不是可以参考双塔模型的结构，提前进行一些计算，从而提升模型的推理速度？

最近笔者发现，重计算的技巧在tensorflow也有实现。事实上从tensorflow1.8开始，tensorflow就已经自带了该功能了，当时被列入了tf.contrib这个子库中，而从tensorflow1.15开始，它就被内置为tensorflow的主函数之一，那就是tf.recompute_grad。找到 tf.recompute_grad 之后，笔者就琢磨了一下它的用法，经过一番折腾，最终居然真的成功地用起来了，居然成功地让 batch_size 从48增加到了144！然而，在继续整理测试的过程中，发现这玩意居然在tensorflow 2.x是失效的...于是再折腾了两天，查找了各种资料并反复调试，最终算是成功地补充了这一缺陷。

老板老板，听说BERT是个瞎子

老板，咱们就一台Titan Xp，训不动BERT呀？我听说混合精度训练可以从算法上缓解这个问题。

虽然懂点DL框架层知识，懂点CUDA和底层，但是我是做算法的哎，平时debug很少会遇到深度学习框架层的bug（上一次还是三年前被pytorch坑），更从没遇到过CUDA层甚至硬件层的bug。直到有一天....

遥想当年面试的时候，由于没有学过数据结构，在面试官出算法题之前就老实交待家底：“我的算法和数据结构不太行，树呀图呀都不太会(✿◡‿◡)"。但是经过两年断断续续的学习，发现其实树是一个套路非常明显的一类算法题，而遍历树是解决绝大多数树问题的基础（很多题目都是在树的遍历上扩展），下面小鹿就以树的遍历为例，解剖树里面深深的套路吧o(*￣▽￣*)o。

本文的正文干货转载并少量修改自大佬覃含章（知乎id同名，知乎必关的数值优化大佬啊啊）的一篇知乎回答，链接 https://www.zhihu.com/question/53381093/answer/562235053

文章库 PRO通讯会员 SOTA！模型 AI Shortlist

AI 好好用