Stanford CoreNLP提供一套用Java编写的自然语言分析工具。它可以采用原始人类语言文本输入并给出单词的基本形式、词性、是否是公司名称、人名等,规范化和解释日期、时间和数字数量,标记句子结构在短语或单词依存关系方面,并指出哪些名词短语指代相同的实体。它最初是为英语开发的,但现在也为(现代标准)阿拉伯语、(大陆)中文、法语、德语、匈牙利语、意大利语和西班牙语提供不同级别的支持。Stanford CoreNLP 是一个集成框架,可以非常轻松地将一堆语言分析工具应用于一段文本。从纯文本开始,只需两行代码即可运行所有工具。它的分析为更高级别和特定领域的文本理解应用程序提供了基础构建块。Stanford CoreNLP 是一套稳定且经过良好测试的自然语言处理工具,被学术界、工业界和政府的各个团体广泛使用。这些工具以不同的方式使用基于规则的概率机器学习和深度学习组件。
Stanford CoreNLP 代码是用 Java 编写的,并根据 GNU 通用公共许可证(v2 或更高版本)获得许可。请注意,这是完整的 GPL,它允许许多免费使用,但不允许在您分发给他人的专有软件中使用。
一年中我们会多次分发软件的新版本,这对应于稳定的提交。
在两次发布之间,您始终可以使用我们代码的最新开发版本。
以下是使用最新代码的一些有用说明:
有时我们会在此处提供更新的 jar,其中包含最新版本的代码。
目前,当前发布的代码版本是我们最新发布的 jar,尽管您始终可以自己从 GitHub HEAD 构建最新版本。
[hidecontent type="logged" desc="隐藏内容:登录后可查看"]
cd CoreNLP ; ant
cd CoreNLP/classes ; jar -cf ../stanford-corenlp.jar edu
mvn package
,它应该运行测试并构建此 jar 文件:CoreNLP/target/stanford-corenlp-4.5.1.jar
stanford-corenlp-models-current.jar
,您需要设置-Dclassifier=models
. 以下是西班牙语的示例命令:mvn install:install-file -Dfile=/location/of/stanford-spanish-corenlp-models-current.jar -DgroupId=edu.stanford.nlp -DartifactId=stanford-corenlp -Dversion=4.5.1 -Dclassifier=models-spanish -Dpackaging=jar
最新代码对应的models jar可以在下表中找到。
一些较大的(英语)模型——比如 shift-reduce 解析器和 WikiDict——没有随我们的默认模型 jar 一起分发。这些需要下载英文 (extra) 和英文 (kbp) jar。其他语言的资源需要使用相应的模型 jar。
获取模型的最佳方法是使用 git-lfs 并从 Hugging Face Hub 克隆它们。
例如,要获取法国模型,请运行以下命令:
# Make sure you have git-lfs installed
# (https://git-lfs.github.com/)
git lfs install
git clone https://huggingface.co/stanfordnlp/corenlp-french
这些 jar 可以直接从 Hugging Face Hub 页面下载。
如果你不了解 Gradle 本身,请查看官网:https ://gradle.org
根据Maven Central在你的 build.gradle 中写入以下内容:
dependencies {
implementation 'edu.stanford.nlp:stanford-corenlp:4.5.1'
}
如果要分析英文,添加以下内容:
implementation "edu.stanford.nlp:stanford-corenlp:4.5.1:models"
implementation "edu.stanford.nlp:stanford-corenlp:4.5.1:models-english"
implementation "edu.stanford.nlp:stanford-corenlp:4.5.1:models-english-kbp"
如果您使用其他版本,请将“4.5.1”替换为您使用的版本。
您可以在Maven Central上找到 Stanford CoreNLP 的版本。
您可以在 Stanford CoreNLP 主页上找到更多解释和文档。
有关为 Stanford CoreNLP 做出贡献的信息,请参阅文件CONTRIBUTING.md。
关于 CoreNLP 的问题可以使用标签stanford-nlp发布在 StackOverflow 上,也可以发布在邮件列表上。
[/hidecontent]