号称世界最快句法分析器,Python高级自然语言处
spaCy的特征:
• 世界上最快的句法分析器
• 实体命名识别
• 非破坏性标记
• 支持20多种语言
• 预先训练的统计模型和单词向量
• 易于深度学习模型的整合
• 一部分语音标记
• 标签依赖分析
• 语法驱动的句子分割
• 可视化构建语法和NER
• 字符串到哈希映射更便捷
• 导出numpy数据数组
• 有效的二进制序列化
• 易于模型打包和部署
• 最快的速度
• 强烈严格的评估准确性
安装spaCy
pip
使用pip,spaCy版本目前仅作为源包提供。
• pip install spacy
在使用pip时,通常建议在虚拟环境中安装软件包以避免修改系统状态:
• venv .envsource .env/bin/activate
• pip install spacy
conda
通过社区开发者的努力,终于重新添加了conda支持。现在可以通过conda-forge安装spaCy:
• conda config –add channels conda-forge
• conda install spacy
更新spaCy
spaCy的一些更新可能需要下载新的统计模型,如果正在运行spaCy v2.0或更高版本,则可以使用validate命令来检查安装的模型是否兼容,如果不兼容,请打印有关如何更新的详细信息:
• pip install -U spacy
• spacy validate
如果已经训练了自己的模型,请记住,训练和运行时的输入必须匹配。在更新spaCy之后,建议用新版本重新训练模型。
下载模型
从v1.7.0开始,spaCy的模型可以作为Python包安装。这意味着它们是应用程序的组件,就像任何其他模块一样。 可以使用spaCy的下载命令来安装模型,也可以通过将pip指向路径或URL来手动安装模型。
加载和使用模型
要加载模型,请在模型的快捷链接中使用spacy.load():
如果已经通过pip安装了一个模型,也可以直接导入它,然后调用它的load()方法:
支持旧版本
如果使用的是旧版本(v1.6.0或更低版本),则仍然可以使用python -m spacy.en.download all或python -m spacy.de.download all从spaCy下载并安装旧模型。.tar.gz存档也附加到v1.6.0版本,要手动下载并安装模型,请解压存档,将包含的目录放入spacy / data,并通过spacy.load(’en’)或spacy.load(’de’)加载模型。
从源代码编译
另一种安装spaCy的方法是克隆它的GitHub仓库,并从源代码构建它。 如果要更改代码库,常见方法是需要确保你有一个由包含头文件,编译器,pip,virtualenv和git的Python发行版组成的开发环境。编译器部分是最棘手的。,如何做到这一点取决于你的系统。有关详细信息,请参阅Ubuntu,OS X和Windows上的说明。
与通过pip进行常规安装相比,requirements.txt会额外安装Cython等开发人员依赖项。 有关更多详细信息和说明,请参阅有关从源代码编译spaCy和快速启动小部件的文档,以获取适用于您平台和Python版本的正确命令,而不是上面的详细命令,你也可以使用下面的结构命令,所有命令都假定虚拟环境位于一个目录.env中。如果使用的是其他目录,则可以通过环境变量VENV_DIR进行更改,例如VENV_DIR =“。custom-env”fab clean make。
Ubuntu
通过apt-get安装系统级依赖关系:
• sudo apt-get install build-essential python-dev git
macOS / OS X
安装最新版本的XCode,包括所谓的“命令行工具”。 macOS和OS X预装了Python和git。
Windows
安装与用于编译Python解释器的版本相匹配的Visual Studio Express或更高版本。官方发行版是VS 2008(Python 2.7),VS 2010(Python 3.4)和VS 2015(Python 3.5)。
运行测试
spaCy带有一个广泛的测试套件。 首先,找出spaCy的安装位置:
• python -c “import os; import spacy; print(os.path.dirname(spacy.__file__))”
然后在该目录下运行。The flags–vectors,–slow 和–model是可选的,并启用额外的测试:
• #make sure you are using recent pytest version
• python -m pip install -U pytest
• python -m pytest <
时间:2018-10-09 22:42 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [数据挖掘]底层I/O性能大PK:Python/Java被碾压,Rust有望取代
- [数据挖掘]大数据分析的技术有哪些?
- [数据挖掘]大数据分析会遇到哪些难题?
- [数据挖掘]RedMonk语言排行:Python力压Java,Ruby持续下滑
- [数据挖掘]不得了!Python 又爆出重大 Bug~
- [数据挖掘]TIOBE 1 月榜单:Python年度语言四连冠,C 语言再次
- [数据挖掘]TIOBE12月榜单:Java重回第二,Python有望四连冠年度
- [数据挖掘]这个可能打败Python的编程语言,正在征服科学界
- [数据挖掘]2021年编程语言趋势预测:Python和JavaScript仍火热,
- [数据挖掘]Spark 3.0重磅发布!开发近两年,流、Python、SQL重
相关推荐:
网友评论: