自然语言处理(NLP)-spacy简介以及安装指南(语言库zh_core_web_sm)

news/2025/1/8 7:36:40/
  • spacy 简介

spacy 是 Python 自然语言处理软件包,可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画,以及词嵌入向量的计算和可视化等。

1.安装 spacy

使用 “pip install spacy" 报错, 或者安装完 spacy,无法正常调用,可以通过以下链接将 whl 文件下载到本地,然后 cd 到文件路径下,通过 pip 安装。

pip install spacy

下载链接:

Archived: Python Extension Packages for Windows - Christoph Gohlke (uci.edu)

选择对应的版本:

在这里插入图片描述

2. 语言库安装

2.1 zh_core_web_sm

2.1:英文 = python -m spacy download en_core_web_sm
2.2:中文 = python -m spacy download zh_core_web_sm
可以手动下载包再安装
下载地址 = https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.7.0/zh_core_web_sm-3.7.0-py3-none-any.whl
下载好之后执行命令:pip install zh_core_web_sm-3.7.0-py3-none-any.whl

通过下方链接下载 whl 文件到本地:

zh_core_web_sm · Releases · explosion/spacy-models (github.com)

选择对应的版本:

在这里插入图片描述
在这里插入图片描述

下载好对应版本的 zh_core_web_sm.whl 文件,cd 文件保存目录,然后通过 pip 安装。

pip install spacy
python -m spacy download zh_core_web_sm

安装成功提示:

2.2 安装 en_core_web_sm

通过下方链接下载 whl 文件到本地:

en_core_web_sm · Releases · explosion/spacy-models (github.com)

选择对应的版本:

在这里插入图片描述

在这里插入图片描述

下载好对应版本的 zh_core_web_sm.whl 文件,cd 文件保存目录,然后通过 pip 安装。

3.效果测试

3.1 英文测试

# 导入英文类
from spacy.lang.en import English 
# 实例化一个nlp类对象,包含管道pipeline
nlp = English()
# print(nlp)
doc = nlp("December is excited!")
# 迭代tokens
for token in doc:print(token.text)token = doc[1]
print(token.text)

输出结果:

December
is
excited
!
is

3.2 中文测试

# 处理文本
nlp = spacy.load('zh_core_web_sm')
doc = nlp("英伟达准备用20亿美金买下这家法国的创业公司。")# 遍历识别出的实体
for ent in doc.ents:# 打印实体文本及其标注print(ent.text, ent.label_)

输出结果:

英伟达 ORG
20亿美金 MONEY
法国 NORP

http://www.ppmy.cn/news/1217887.html

相关文章

@RestController 注解网页返回 [] ,出现的bug

RestController 注解网页返回 [] ,出现的bug RestController RequestMapping("emp") public class EmployeeController {Autowiredprivate EmployeeService employeeService;GetMapping("find")public List<Employee> find(){List<Employee> …

在线预览编辑PDF::RAD PDF for ASP.NET

RAD PDF for ASP.NET作为功​​能最齐全的基于 HTML 的 PDF 查看器、编辑器和 ASP.NET 表单填充器&#xff0c;RAD PDF 为传统 PDF 解决方案提供了灵活而强大的替代方案。与 Adob​​e Acrobat Reader 不同&#xff0c;RAD PDF 几乎可以在任何现代网络浏览器中运行&#xff0c;…

机器视觉系统中工业光源选型避坑指南

光源的作用&#xff1a; 照亮目标&#xff0c;提高目标亮度 形成有利于图像处理的效果&#xff0c;提升对比度 克服环境光干扰&#xff0c;保证图像的稳定性 光源的选型思路&#xff1a; ①颜色 ②外形  ③打光方式  ④亮度 选颜色 通过选择合适颜色的光源&#xff0c;…

GORM学习笔记

GORM学习笔记 官方文档&#xff1a;https://gorm.io/zh_CN/docs/ 1、数据准备 create table student (id int auto_incrementprimary key,sn varchar(20) null,name varchar(20) null,email varchar(20) null,class_id int null,monitor…

fileread任意文件读取学习笔记

任意文件读取概述 一些网站的需求&#xff0c;可能会提供文件查看与下载的功能。如果对用户查看或下载的文件没有限制或者限制绕过&#xff0c;就可以查看或下载任意文件。这些文件可以是源代码文件&#xff0c;配置文件&#xff0c;敏感文件等等。 任意文件读取会造成&#x…

台式电脑的IP地址在哪里?解密台式电脑网络连接的秘密!

​ 如今智能手机和便携式笔记本电脑盛行的时代&#xff0c;台式电脑似乎逐渐被人们所忽视。然而&#xff0c;对于需要高性能和大容量存储的用户来说&#xff0c;台式电脑依然是最好的选择。而作为一款能够连接网络的设备&#xff0c;台式电脑也有自己独特的IP地址。下面虎观代理…

ubuntu小技巧30--23.10桌面版安装钉钉启动报错undefined symbol: FT_Get_Color_Glyph_Layer

ubuntu小技巧30-- 23.10桌面版安装钉钉启动报错undefined symbol: FT_Get_Color_Glyph_Layer 介绍解決方法说明 介绍 近期在电脑上安装了 ubuntu 23.10桌面版本, 安装最新版钉钉后无法正常打开软件&#xff0c;报错 undefined symbol: FT_Get_Color_Glyph_Layer &#xff0c;具…

突破职场竞争,引领未来发展:考取《研发效能(DevOps)工程师职业技术认证》

就业形势堪忧&#xff0c;什么最有保障&#xff1f;考个“国家级”证书傍身吧&#xff01; 工信部教考中心作为中国领先的行业技能认证机构&#xff0c;其颁发的认证证书不仅代表了个人在信息技术领域的专业能力&#xff0c;更可以录入工业和信息化技术技能人才数据库&#xf…