斯坦福自然语言工具CoreNLP更新,下载3.7.0版本

著名的斯坦福自然语言工具 CoreNLP 有了最新的更新,此次更新的 CoreNLP 下载包大小为 536MB,包括 CoreNLP code jar、CoreNLP  model jar、运行 CoreNLP 所需的库、该项目的文档/源代码。

项目地址:http://stanfordnlp.github.io/CoreNLP/

斯坦福 CoreNLP 提供一系列自然语言分析工具。它能给出单词的基础形式,单词在语言中的成分,单词是否是公司、人的名字,规范化日期、时间、数量词等,根据短语和单词的依存关系组成语句结构,表明哪些名词短语指代同一实体,指明情感成分,提取这些内容之间的开放性关系,等等一系列用途。

如果你有以下需求,就可以使用斯坦福 CoreNLP:

需要一个有宽泛范围语法分析工具的融合型工具包;
   对任意文本进行快速、可靠的分析;
   总体而言最高质量的文本分析;
   支持一系列主要的(人类)语言;
   可与多种主要的编程语言对接;
   可作为简单的网页服务来运行;

斯坦福 CoreNLP 是一个融合框架。其目标是能最简单的将语言学分析工具应用到文本中。一个 CoreNLP 工具管道通过两行代码就能在一些简单文本上运行。其设计高度灵活、可延展。你可以改变其中无效的工具,加入有效的工具。斯坦福 CoreNLP 融合了斯坦福多种 NLP 工具,包括 part-of-speech(POS)tagger、命名实体识别器(NER)、解析器、conference resolution 系统、情感分析、bootstrapped 模式学习和开放信息提取工具。它的分析能为高层次的、特定领域的文本理解应用提供基础构造。

blob.png

blob.png

此次更新的 CoreNLP 下载包大小为 536MB,包括 CoreNLP code jar、CoreNLP model jar、运行 CoreNLP 所需的库、该项目的文档/源代码。此外该项目还提供了早期版本的下载。下图是 3.7.0(beta)支持下载的语言:

LANGUAGEMODEL JARVERSION
Arabicdownload3.7.0 (beta)
Chinesedownload3.7.0 (beta)
Englishdownload3.7.0 (beta)
Frenchdownload3.7.0 (beta)
Germandownload3.7.0 (beta)
Spanishdownload3.7.0 (beta)

工具包的基础分布能为较好剪辑英语的分析提供模型文件夹,但该引擎能兼容其他语言模型。我们提供了阿拉伯语、汉语、法语、德语、西班牙语的打包模型。我们也提供了一个包含斯坦福所有英语模型的 jar,它包含各种变体模型,尤其是有一个处理非常规英语(例如,大部分或全部单词都是大写或小写的形式)的优化模型。该工具包也支持其他语言的第三方。

在编程语言上,斯坦福 CoreNLP 使用 Java 编写。从命令行使用斯坦福 CoreNLP 的方式有很多,通过 Java 编程 API、大部分编程语言的第三方 API 或者通过 CoreNLP Server。它能在 Linux、OS X 和 Windows 上运行。

入门开源斯坦福大学NLP工程
1