Paco Nathan作者和中华、林亦霖校对王菁编辑笪洁琼翻译

快速掌握spacy在python中进行自然语言处理(附代码&链接)

本文简要介绍了如何使用spaCy和Python中的相关库进行自然语言处理(有时称为“文本分析”)。以及一些目前最新的相关应用。

介绍

本文与配套的Domino项目,简要介绍了如何使用spaCy和相关库在Python中处理自然语言(有时称为“文本分析”)。业界的数据科学团队时常处理大量文本数据,这也是机器学习中使用的四大数据类别之一,通常是人为生成的文本,但也不全是这样。

想想看:商业世界的“操作系统”是如何运行的? 通常,有合同(销售合同、工作协议、合作关系),发票,保险单,规章制度和其他法律条文等等。所有这些都被表示为文本。

你可能会遇到一些缩写词:自然语言处理(NLP),自然语言理解(NLU),自然语言生成(NLG),简单地说,分别是“阅读文本”、“理解意义”、“输出文本”。这些任务越来越多地重叠,而且很难分类。

spaCy框架——以及越来越多的插件和其他集成(包)——为各种各样的自然语言任务提供了支持。它已经成为Python中最广泛使用的工业级自然语言库之一,并且拥有相当大的社区,因此,随着该领域的快速发展,它为科研进展进展的商业化提供了足够地支持。

开始

我们已经在Domino中配置了默认的软件环境,以包含本教程所需的所有包、库、模型和数据。请查看Domino项目以运行代码。

如果您对Domino的计算环境如何工作感兴趣,请查看说明页面。

说明页面
https://support.dominodatalab.com/hc/en-us/articles/115000392643-Environment-management

现在让我们加载spaCy并运行一些代码:

import spacy
nlp = spacy.load("en_core_web_sm")

该nlp变量现在是您通向所有spaCy的入口,并装载了en_core_web_sm英文模型。接下来,让我们通过自然语言解析器来运行一个小“文档”:

text = "The rain in Spain falls mainly on the plain."
doc = nlp(text)

for token in doc:    
    print(token.text, token.lemma_, token.pos_, token.is_stop)
The the DET Truerain 
rain NOUN Falsein 
in ADP TrueSpain 
Spain PROPN False
falls fall VERB Falsemainly 
mainly ADV False
on on ADP True
the the DET Trueplain 
plain NOUN False
. . PUNCT False

首先,我们从文本创建一个doc(注:spaCy中的一种数据结构)文档,它是一个容器,存放了文档以及文档对应的标注。然后我们遍历文档,看看spaCy解析了什么。

由于信息有点多,读起来有点困难。让我们将这个句子的用spaCy解析结果重新格式化为pandas库的 dataframe:

import pandas as pd

cols = ("text", "lemma", "POS", "explain", "stopword")
rows = []

for t in doc:    
    row = [t.text, t.lemma_, t.pos_, spacy.explain(t.pos_), t.is_stop]    
    rows.append(row)

df = pd.DataFrame(rows, columns=cols)

df

在这个简单的例子中,整个文档仅仅是一个简短的句子。对于这个句子中的每个单词,spaCy都创建了一个token,我们访问每个token中的字段来显示:

  • 原始文本
  • 词形(lemma)引理——这个词的词根形式
  • 词性(part-of-speech)
  • 是否是停用词的标志,比如一个可能会被过滤的常用词

接下来让我们使用displaCy库来可视化这个句子的解析树:

from spacy import displacy

displacy.render(doc, style="dep")

这会让你回想起小学时候的语文课吗? 坦率地说,对于我们这些来自计算语言学背景的人来说,这个图表会让我们感到开心。

我们先回顾一下,你是如何处理多个句子的?

比如,句边界检测(SBD)的功能,也称为句子分割,下例基于内置/默认的语句分析器:

text = "We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit. I fell in. Everyone screamed and Tommy jumped in after me, forgetting that he had blueberries in his front pocket. The gorillas just went wild."

doc = nlp(text)

for sent in doc.sents:    
    print(">", sent)
We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit.
I fell in.
Everyone screamed and Tommy jumped in after me, forgetting that he had blueberries in his front pocket.
The gorillas just went wild.

当spaCy创建一个文档时,它使用了非破坏性标记原则,这意味着tokens、句子等只是长数组中的索引。换句话说,他们没有将文本切分成小段。因此,每个句子都是一个span(也是spaCy中的一种数据结构)单独,包含了它在文档数组中的开始和结束索引:

for sent in doc.sents:    
    print(">", sent.start, sent.end)

> 0 25

> 25 29

> 29 48

> 48 54

我们可以在文档数组上切片,取出一个句子的tokens:

doc[48:54]
The gorillas just went wild.

或者只是找一个特定的token,例如最后一句话中的动词“went”:

token = doc[51]
print(token.text, token.lemma_, token.pos_)
went go VERB

此时,我们可以解析一个文档,将该文档分割成句子,然后查看每个句子中token的注释。这是一个好的开始。

获取文本 

既然我们可以解析文本,那么我们从哪里获得文本呢?一个便利的方法是利用互联网。当然,当我们下载网页时,我们会得到HTML文件,然后需要从文件中提取文本。这方面,Beautiful Soup是一个很流行的包。

首先将警告过滤掉:

import sysimport 
warningswarnings.filter
warnings("ignore")

在下面的函数get_text()中,我们将解析HTML以找到所有的<p/>标记,然后提取这些标记的文本:

from bs4 import BeautifulSoup
import requests
import traceback

def get_text (url):     
    buf = []

    try:        
        soup = BeautifulSoup(requests.get(url).text, "html.parser")

        for p in soup.find_all("p"):             
            buf.append(p.get_text())

        return "\n".join(buf)    
    except:         
        print(traceback.format_exc())        
        sys.exit(-1)

现在让我们从网上获取一些文本。我们可以对比开源倡议上开源许可的情况。

开源倡议:
https://opensource.org/licenses/

lic = {}
lic["mit"] = nlp(get_text("https://opensource.org/licenses/MIT"))
lic["asl"] = nlp(get_text("https://opensource.org/licenses/Apache-2.0"))
lic["bsd"] = nlp(get_text("https://opensource.org/licenses/BSD-3-Clause"))for sent in lic["bsd"].sents:    print(">", sent)
> SPDX short identifier: BSD-3-Clause
> Note: This license has also been called the "New BSD License" or  "Modified BSD License"
> See also the 2-clause BSD License.

自然语言工作的一个常见用例是对比文本。

例如,有了这些开源许可,我们可以下载它们的文本,进行解析,然后比较它们之间的相似度:(https://spacy.io/api/doc#similarity)

pairs = [    
    ["mit", "asl"],     
    ["asl", "bsd"],     
    ["bsd", "mit"]
]

for a, b in pairs:
print(a, b, lic[a].similarity(lic[b]))
mit asl 0.9482039305669306
asl bsd 0.9391555350757145
bsd mit 0.9895838089575453

这很有趣,因为BSD(https://opensource.org/licenses/BSD-3-Clause)和MIT(https://opensource.org/licenses/MIT)许可似乎是最相似的文档。

事实上,它们是密切相关的。

无可否认,由于OSI的免责声明,每个文档中都包含了一些额外的文本——但是这为比较许可证提供了一个合理的近似值。

自然语言理解 

现在让我们深入了解一下spaCy中的NLU特性。假设我们要解析有一个文档,从纯语法的角度来看,我们可以提取名词块(https://spacy.io/usage/linguistic-features#noun-chunks),即每个名词短语:

text = "Steve Jobs and Steve Wozniak incorporated Apple Computer on January 3, 1977, in Cupertino, California."
doc = nlp(text)

for chunk in doc.noun_chunks:    
    print(chunk.text)
Steve Jobs
Steve Wozniak
Apple Computer
January
Cupertino
California

句子中的名词短语通常提供更多的信息内容——作为一个简单的过滤器,可以将长文档简化为更“精练”的表达。

我们可以进一步采用这种方法,并在文本中标识命名实体(https://spacy.io/usage/linguistic-features#named-entities),即专有名词:

for ent in doc.ents:   
print(ent.text, ent.label_)
displacy.render(doc, style="ent")

如果你正在使用知识图谱(https://www.akbc.ws/2019/)的应用程序和其他关联数据(http://linkeddata.org/),那么构建文档中的命名实体和其他相关信息的联系就是一种挑战,即文本链接

(http://nlpprogress.com/english/entity_linking.html)。

识别文档中的命名实体是这类型AI工作的第一步。例如,根据上面的文本,可以将“Steve Wozniak”这个命名实体链接到DBpedia中的查找链接(http://dbpedia.org/page/Steve_Wozniak)。

一般来说,人们还可以将词形与描述其含义的资源联系起来。例如,在前面的章节中,我们分析了“the gorillas just went wild”这个句子,并展示“went”这个词的词形是动词go。

此时,我们可以使用一个历史悠久的项目WordNet (https://wordnet.princeton.edu/),它为英语提供了一个词汇数据库——换句话说,它是一个可计算的近义词典。

有一个针对WordNet的spaCy集成,名为spaCy - WordNet(https://github.com/recognai/spacy-wordnet),作者是Daniel Vila Suero(https://twitter.com/dvilasuero),他是自然语言和知识图谱研究的专家。

然后我们将通过NLTK加载WordNet数据:

import nltk
nltk.download("wordnet")
[nltk_data] Downloading package wordnet to /home/ceteri/nltk_data...
[nltk_data] Package wordnet is already up-to-date!True

请注意,spaCy像“管道(pipeline)”一样运行,并允许使用自定义的管道组件。这对于在数据科学中支持工作流是非常好的。在这里,我们将添加来自spacy-wordnet项目的Wordnet注释(器):

from spacy_wordnet.wordnet_annotator import WordnetAnnotator
print("before", nlp.pipe_names)
if "WordnetAnnotator" not in nlp.pipe_names:    nlp.add_pipe(WordnetAnnotator(nlp.lang), after="tagger")
print("after", nlp.pipe_names)before ['tagger', 'parser', 'ner']after ['tagger', 'WordnetAnnotator', 'parser', 'ner']

在英语中,有些词因为有多重含义而臭名昭著。

例如,在WordNet(http://wordnetweb.princeton.edu/perl/webwn?s=star&sub=Search+WordNet&o2&o0=1&o8=1&o1= 1&o1=1&o7&o5&o9&o6&o3&o4&h)搜索与单词withdraw相关的词义。

现在让我们使用spaCy执行自动查找:

token = nlp("withdraw")[0]
token._.wordnet.synsets()
[Synset('withdraw.v.01'),
Synset('retire.v.02'),
Synset('disengage.v.01'),
Synset('recall.v.07'),
Synset('swallow.v.05'),
Synset('seclude.v.01'),
Synset('adjourn.v.02'),
Synset('bow_out.v.02'),
Synset('withdraw.v.09'),
Synset('retire.v.08'),
Synset('retreat.v.04'),
Synset('remove.v.01')]
token._.wordnet.lemmas()
[Lemma('withdraw.v.01.withdraw'),
Lemma('withdraw.v.01.retreat'),
Lemma('withdraw.v.01.pull_away'), 
Lemma('withdraw.v.01.draw_back'), 
Lemma('withdraw.v.01.recede'),
Lemma('withdraw.v.01.pull_back'), 
Lemma('withdraw.v.01.retire'),
…
token._.wordnet.wordnet_domains()
['astronomy',
'school',
'telegraphy',
'industry',
'psychology',
'ethnology',
'ethnology',
'administration',
'school',
'finance',
'economy',
'exchange',
'banking',
'commerce',
'medicine',
'ethnology', 
'university',
…

同样,如果你使用的是知识图谱,那么可以将来自WordNet的那些“词义”链接与图算法一起使用,以帮助识别特定单词的含义。还可以通过一种称为“摘要”的技术来为较大的文本段生成摘要。这些内容超出了本教程的范围,但它是目前工业中一个有趣的自然语言应用。

反过来说,如果你预先知道某个文档是关于某个特定领域或主题集的,则可以约束WordNet返回的含义。在下面的例子中,我们来考虑金融和银行领域数据的NLU结果:

domains = ["finance", "banking"]
sentence = nlp("I want to withdraw 5,000 euros.")


enriched_sent = []


for token in sentence:
    # get synsets within the desired domains
    synsets = token._.wordnet.wordnet_synsets_for_domain(domains)


    if synsets:
       lemmas_for_synset = []


       for s in synsets:
           # get synset variants and add to the enriched sentence
           lemmas_for_synset.extend(s.lemma_names())
           enriched_sent.append("({})".format("|".join(set(lemmas_for_synset))))
    else:
        enriched_sent.append(token.text)


print(" ".join(enriched_sent))

I (require|want|need) to (draw_off|withdraw|draw|take_out) 5,000 euros .

这个例子看起来很简单,但是,如果你修改domains列表,你会发现在没有合理约束的情况下,结果会产生组合爆炸。想象一下,有一个包含数百万元素的知识图谱:您希望在可能的地方限制搜索,以避免计算每个查询需要几天、几周、几个月、几年的时间。

有时在试图理解文本时遇到的问题—或者在试图理解语料库(包含许多相关文本的数据集)时遇到的问题—会变得非常复杂,您需要首先将其可视化。这有是一个用于理解文本的交互式可视化工具:scattertext(https://spacy.io/universe/project/scattertext),由Jason Kessler主导设计。

Jason Kessler

 https://twitter.com/jasonkessler

让我们来分析一下2012年美国总统大选期间政党大会的文本数据。注意:这个部分可能需要几分钟来运行,但是所有这些数据处理的结果值得等待。

import scattertext as st 
if "merge_entities" not in nlp.pipe_names:    
nlp.add_pipe(nlp.create_pipe("merge_entities")) 
if "merge_noun_chunks" not in nlp.pipe_names:    
nlp.add_pipe(nlp.create_pipe("merge_noun_chunks")) 
convention_df = st.SampleCorpora.ConventionData2012.get_data()
corpus = st.CorpusFromPandas(convention_df, 
category_col="party",                            
text_col="text",                            
nlp=nlp).build()

一旦语料库准备好了,就可以生成一个交互式可视化的HTML:

html = st.produce_scattertext_explorer(
    corpus,
    category="democrat",
    category_name="Democratic",
    not_category_name="Republican",
    width_in_pixels=1000,
    metadata=convention_df["speaker"]
)

from IPython.display import IFrame 

file_name = "foo.html" 
with open(file_name, "wb") as f:
     f.write(html.encode("utf-8")) 
     IFrame(src=file_name, width = 1200, height=700)

现在我们将渲染html:一到两分钟进行加载;

想象一下,如果你的组织中有过去三年客户支持某个特定产品的文本。假设您的团队需要了解客户是如何谈论该产品的? 这个scattertext库可能会非常方便! 您可以将(k=2)聚类在NPS得分(客户评估指标)上,然后用聚类中的前两个分类替换民主党/共和党维度。

总结

五年前,如果你询问用Python中的自然语言的开源库,许多数据科学工作者的默认答案是NLTK(https://www.nltk.org/)。这个项目几乎包括了所有的东西,除了一些细微的设置,还有一些相对学术的部分。

另一个流行的自然语言项目是来自斯坦福的CoreNLP (https://stanfordnlp.github)。尽管CoreNLP功能强大,但它也非常学术化,不过要将它与其他软件集成以供生产使用是很有挑战性的。

几年前,自然语言的一切都开始发生了变化。spaCy的两位主要作者——马修•洪尼巴尔(Matthew Honnibal, https://twitter.com/honnibal)和伊内斯•蒙塔尼(Ines Montani, https://twitter.com/_inesmontani)于2015年启动了该项目,该项目很快被业界采用。他们采用的是一种专注的方法(做需要做的,把它做好,不多也不少),这种方法能简单、快速地集成到Python中的数据科学工作集合中,并且比其他方法执行更快、准确性更好。

基于这些,spaCy成为了NLTK的对立面。自2015年以来,spaCy一直致力于成为一个开源项目(即,取决于其社区的方向,集成等)和商业级软件(而非学术研究)。也就是说,spaCy迅速地将机器学习方面的最前沿进展纳入中,有效地成为了将学术研究推广到工业领域的渠道。

值得注意的是,随着谷歌开始赢得国际语言翻译比赛,用于自然语言的的机器学习自2000年中期得到了很大的发展。2017年至2018年期间,随着深度学习的诸多成功,这些方法开始超越以前的机器学习模型,出现了另一个重大变化。

例如,经Allen AI研究提出的看到ELMo 语言嵌入模型, 随后是谷歌的BERT,(https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html),以及最近由

百度推出的ERNIE

(https://medium.com/syncedreview/baidus-ernie-tops-google-s-bert-in-chinese-nlp-tasks-d6a42b49223d)——换句话说,搜索引擎巨头为我们献上了一份基于深度学习的嵌入语言模型开源大礼的世界,目前是业界最先进的。

说到这里,为了紧随自然语言的SOTA,可以关注NLP-Progress(http://nlpprogress.com/)和Papers with Cod(https://paperswithcode.com/sota)。

在过去的两年里,随着深度学习技术的兴起,自然语言的用例发生了巨大的变化。大约在2014年,使用Python的自然语言教程可能还在教单词统计、关键字搜索或情感检测,而且目标用例相对显得平淡无奇。而在2019年,我们谈论的是在一个产业供应链的优化中分析成千上万的供应商合同文件,或者是为保险公司分析的投保人数亿份文件,又或者是大量关于财务数据披露的文件。更现代的自然语言工作倾向于在NLU,通常支持知识图谱的构建,在NLG领域,大量类似的文档可以被大规模地总结。

广阔的宇宙(https://spacy.io/universe)很不错,可以查找特定用例的深度,并查看这个领域是如何发展的。这个“宇宙”的一些选择包括:

blackstone(https://spacy.io/universe/project/blackstone)-解析非结构化法律信息文本

kindred(https://spacy.io/universe/project/kindred) -从生物医学文本(如Pharma)中提取实体

mordecai(https://spacy.io/universe/project/mordecai)-解析地理信息

Prodigy(https://spacy.io/universe/project/prodigy)-人机回圈的标签数据集注释spacy-raspberry (https://spacy.io/universe/project/spacy-raspberry) - 树莓派(Raspberry PI)图像,用于在边界设备上运行。

Rasa NLU(https://spacy.io/universe/project/rasa)聊天应用的集合

另外还有一些非常新的项目需要关注:

spacy-pytorch-transformers (https://explosion.ai/blog/spacy-pytorch-transformers)可以用来与BERT, GPT-2, XLNet,等等进行调整。

spaCy IRL 2019(https://irl.spacy.io/2019/)会议-宽大的IRL 2019(https://irl.spacy.io/2019/)会议-查看演讲视频!对于spaCy,我们可以做的还有很多——希望本教程能够提供介绍。我们祝愿你在自然语言学习方面一切顺利。

对于spaCy,我们可以做的还有很多——希望本教程能够提供介绍。我们祝愿你在自然语言学习方面一切顺利。

原文地址:

https://www.kdnuggets.com/2019/09/natural-language-python-using-spacy-introduction.html

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

工程自然语言处理Pythonspacy
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

解析树技术

解析树是一个内部结构,由编译器或解释器在解析一些语言结构时创建,解析也被称为“语法分析”。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

暂无评论
暂无评论~