如何用深度学习框架PaddlePaddle实现智能春联

不知不觉春节假期马上到来,在今年的春节话题中,不难发现,除了七大姑八大姨亲切问候这些常规话题,人工智能的踪迹也是随处可见。AI在以全新的面貌向我们展示值得期待的未来,比如今天,我们可以用PaddlePaddle来尝试写副智能春联。过年贴春联已经成为一个传统习俗,而商场里可选的内容不多,很多人想亲自出马,可惜又不大懂平仄对仗。能不能用人工智能帮我们写春联呢?今年春节,百度、网易和央视网推出了“智能春联H5”,只要给出2-4个汉字,它就能据此“写”出一副非常具有观赏性的藏头春联。

是什么让机器拥有对春联这项技能?通过智能春联H5,“刷脸”对春联只需几秒就能实现,而这背后是一系列“不可描述”的高深技术。视觉方面,主要应用了人脸检测、属性分析、人脸融合等技术,可对图片中的人脸进行检测,分析人脸对应的年龄、性别、颜值、微笑指数、是否佩戴眼镜等信息,并通过一个词语概括人脸的特性;进而将图片中的人脸,与指定模板图中的人脸进行融合,得到新的图片。这些技术的难度在于,需要对各种角度的人脸进行检测,并且能够提取人脸的五官特征,以便能够生成与原始人脸相似,但也和模板人脸神似,且毫无违和感的新图片。

其次是自然语言处理(NLP)方面,基于百度深度学习框架PaddlePaddle先进的神经网络机器翻译技术,可以将春联创作转化为“翻译”的过程,所不同的是,翻译是在两种语言之间建立联系,而春联是在同一种语言中建立联系。当然,有些人可能会中招“彩蛋”,这些不是AI写的春联。比如你刷脸得出“戏精”这个关键词,就会获得一副“流量体质天生有戏,主角光环盖不住你”,横批“过足戏瘾”的春联,这么霸气十足可是由人工专门为你埋的梗哦!这样的春联出现在朋友圈里,毫无疑问,点赞人数会疯狂UpUpUp……

让我们尝试体验一下吧!PaddlePaddle作为深度学习框架,不仅支持深度学习算法的开发和调研,而且官方发布的模型库(https://github.com/PaddlePaddle/models)里面汇集了各种领先的图像分类自然语言处理算法。通过这些算法,我们可以很方便地实现各种好玩有趣的功能,比如:智能春联。

智能春联有各种玩法,可以根据用户输入的关键词,生成一副对联,实现定制化的专属春联,比如:用户输入“好运”,百度人工智能春联生成程序就会创作出上下联为“一年好运满园锦绣,万众同心遍地辉煌”、横批为“春光满园”的春联;用户输入自己的名字,智能春联生成程序可以把自己的名字藏在生成的春联中,形成个性化非常强的春联,用来发送给自己的朋友;甚至用户不需要输入关键词,只需要拍一张照片,然后就可以根据这张照片生成图文并茂的春联。那这些功能都是怎么做到的呢?这里我们给大家介绍一下如何用PaddlePaddle开发一套专属的智能春联生成系统。

一、我们的系统需要先做到能理解图像的内容,比如:用户输入的到底是什么?

这是一个典型图像分类的问题,图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉中重要的基础问题,是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层视觉任务的基础,在许多领域都有着广泛的应用。在深度学习时代,图像分类准确率大幅度提升,PaddlePaddle在经典的数据集ImageNet上,开放了常用的模型,包括AlexNet、VGGGoogLeNet、ResNet、Inception-v4、MobileNet、DPN(Dual Path Network)、SE-ResNeXt模型,同时也开源了训练的模型方便用户下载使用。基于这些图像分类算法,可以知道用户输入的类别,用类似的技术,还可以知道一些更具体的属性,比如:对于一张人脸的照片,可以知道性别、年龄这些属性。有了图片的这些特征和属性之后,我们可以进行关键词扩展。比如:对于年轻的女性可以联想出一些关键词“风华绝代”、“秀丽”、“端庄”等等,对于小孩可以联想出关键词“活泼可爱”、“机智”、“勇敢”等等。

图1. 智能春联系统结构图

二、拿到这些关键词之后,接下来的任务是什么?

根据一个关键词,自动生成一副相关的春联。春联的生成过程可以分成2个步骤,第一个步骤是从关键词生成一副上联。然后再根据上联生成一副下联。那么如何实现这2个生成步骤呢?我们发现这个任务跟机器翻译很相似,可以用类似的技术来实现。机器翻译(Machine Translation, MT)是用计算机来实现不同语言之间翻译的技术。被翻译的语言通常称为源语言(Source Language),翻译成的结果语言称为目标语言(Target Language)。机器翻译即实现从源语言到目标语言转换的过程,是自然语言处理的重要研究领域之一。PaddlePaddle的模型库(PaddlePaddle/models)里面,提供了两个机器翻译算法的实现,一个是经典的基于LSTM的Seq2Seq模型,另一个是最新的基于Attention的Transformer模型。 类比于机器翻译任务,可以把智能春联输入的关键词看作是机器翻译里的源语言句子,然后把根据关键词生成的上联,看作是机器翻译里的目标语言译文。相较于此前 Seq2Seq 模型中广泛使用的循环神经网络(Recurrent Neural Network, RNN),使用(Self)Attention 进行输入序列到输出序列的变换主要具有以下优势:计算复杂度更小、计算并发度更高、更容易学到长距离的依赖关系。我们推荐使用翻译效果更好的Transformer模型,通常Transfomer可以得到比Seq2Seq更好的翻译效果。

图2. Transformer模型核心组件Multi-Head Attention

    def  scaled_dot_product_attention(q, k, v, attn_bias, d_key, dropout_rate):

         """

        Scaled  Dot-Product Attention

         """

        scaled_q  = layers.scale(x=q, scale=d_key**-0.5)

        product =  layers.matmul(x=scaled_q, y=k, transpose_y=True)

        if  attn_bias:

             product += attn_bias

        weights =  layers.softmax(product)

        if  dropout_rate:

             weights = layers.dropout(

                 weights,

                 dropout_prob=dropout_rate,

                 seed=ModelHyperParams.dropout_seed,

                 is_test=False)

        out =  layers.matmul(weights, v)

        return  out

图3. Scaled Dot-Product Attention的PaddlePaddle代码实现

三、选定了使用的生成算法之后,如何让机器能够学会写春联呢?

接下来就需要给系统准备训练数据了,所谓“熟读唐诗三百首”,对于机器来说,需要见到大量的春联,才能够学会春联里用词和用字的规律。我们可以去互联网上找到大量的春联数据,比如:“爆竹传吉语”“腊梅报新春”等等,然后把它们作为训练数据,通常需要几万条。有了这些数据后,我们从上联里抽取出关键词,“爆竹”-> “爆竹传吉语”,训练一个从关键词到上联的生成模型;然后我们再用“爆竹传吉语”“腊梅报新春”训练一个从上联到下联的生成模型

准备好训练数据后,就可以启动Transformer模型的训练了,可以参考PaddlePaddle/models/neural_machine_translation/transformer里的命令。这个是英德翻译的例子,在做关键词到上联的生成时,需要把训练数据替换成“关键词”到对应“春联上联”的数据;在做上联到下联生成时,需要把训练数据替换成“春联上联”到对应“春联下联”的数据。

python -u train.py \

   --src_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

   --trg_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

  --special_token  '<s>''<e>''<unk>' \

   --train_file_pattern  gen_data/wmt16_ende_data_bpe/train.tok.clean.bpe.32000.en-de \

   --token_delimiter ' ' \

   --use_token_batch True \

  --batch_size  4096 \

  --sort_type  pool \

  --pool_size  200000

训练完成后就可以得到一个关键词到上联的生成模型,还有一个从上联到下联的生成模型。注意生成过程,需要执行2次Transformer的预测过程,先输入一个关键词,生成上联;然后输入生成的上联,再生成一个下联。具体生成参考以下命令。

python -u infer.py \

   --src_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

   --trg_vocab_fpath gen_data/wmt16_ende_data_bpe/vocab_all.bpe.32000 \

  --special_token  '<s>''<e>''<unk>' \

   --test_file_pattern  gen_data/wmt16_ende_data_bpe/newstest2016.tok.bpe.32000.en-de \

   --token_delimiter ' ' \

  --batch_size 32  \

  model_path  trained_models/iter_100000.infer.model \

  beam_size 4 \

  max_out_len 255

根据以上PaddlePaddle官方模型库提供的一些技术,就可以实现一个好玩的智能春联系统了。当然还可以做很多有意思的扩展,比如,可以增加一些古诗词作为训练语料,使得生成的春联内容更为丰富;藏头春联,把关键词按字分开,通过Grid Beam Search的技术,保证生成的关键词会在春联特定的位置出现。

感兴趣的朋友,可以收集好春联训练语料,便可尝试实现一个好玩的智能春联系统了。

Github地址:

https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleNLP/neural_machine_translation/transformer/README_cn.md

PaddlePaddle
PaddlePaddle

PaddlePaddle是百度独立研发的深度学习平台,易用,高效,灵活可伸缩,可支持海量图像识别分类、机器翻译和自动驾驶等多个领域业务需求,现已全面开源。

工程智能春联深度学习框架PaddlePaddle
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

GoogLeNet技术

同样在2014年,谷歌提出了 GoogLeNet(或Inception-v1)。该网络共有22层,且包含了非常高效的Inception模块,它同样没有如同VGG-Net那样大量使用全连接网络,因此参数量非常小。GoogLeNet最大的特点就是使用了Inception模块,它的目的是设计一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。

MobileNets技术

MobileNet是专用于移动和嵌入式视觉应用的卷积神经网络,是基于一个流线型的架构,它使用深度可分离的卷积来构建轻量级的深层神经网络。通过引入两个简单的全局超参数,MobileNet在延迟度和准确度之间有效地进行平衡。MobileNets在广泛的应用场景中有效,包括物体检测、细粒度分类、人脸属性和大规模地理定位。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
推荐文章
暂无评论
暂无评论~