三、IK分词器

news/2024/10/22 18:29:49/

目录

1、IK分词器下载

2、下载完毕后解压,放入到elasticsearch的plugins下即可

 3、重启elasticsearch,可以看到ik分词器被加载了

 4、也可以通过elasticsearch-plugin这个命令来查看加载进来的插件

 5、使用kibana测试ik分词器

6、扩展配置ik分词器词典

6.1、进入到ik分词器的配置文件夹config下

6.2、在当前目录下新建一个词典,my.dic(以.dic结尾,命名自己定义)

6.3、打开IKAnalyzer.cfg.xml文件(ik分词器的配置文件)

6.4、重启elasticsearch即可把自定义的词典加载进来

6.5、重新使用kibana进行测试


IK分词器是elasticsearch的一个插件

        分词的主要用于把一段中文或者英文的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词,比如"我爱技术"会被分为"我","爱","技","术",这显然不符合要求,所以我们需要安装中文分词器IK来解决这个问题

IK提供了两个分词算法:ik_smartik_max_word

ik_smart为最少切分,添加了歧义识别功能,推荐

ik_max_word为最细粒度切分,能切的都会被切掉

1、IK分词器下载

下载地址:https://github.com/medcl/elasticsearch-analysis-ik 

注意要下载release版本,具体版本最好与elasticsearch的版本对应

如果下载了源码则需要自己手动打包

2、下载完毕后解压,放入到elasticsearch的plugins下即可

在elasticsearch的plugins下,可以新建一个文件夹管理ik分词器解压后的文件

 3、重启elasticsearch,可以看到ik分词器被加载了

 4、也可以通过elasticsearch-plugin这个命令来查看加载进来的插件

在elasticsearch-7.6.1\bin下cmd打开一个新的命令行窗口

输入elasticsearch-plugin list

 5、使用kibana测试ik分词器

 

         可以看到选择不同的ik分词器的分词算法,相同的切分内容会有不同的分词结果,具体根据自己的需求选择。如果不指定“analyzer”的分词算法,则会使用默认的分词器,默认的分词算法会把切分的内容中的每个字当成一个词进行切分,如上述“现在测试分词器”会被切分出“现”、“在”、“测”、“试”、“分”、“词”、“器”七个词

6、扩展配置ik分词器词典

分词器分词规则是根据字典来进行拆分的,同样,我们可以添加自定义字典

有些词在逻辑上不是一个整体,但是自己又想当成一个词来用,这就需要把这个词加到分词器的字典中,例如上面的内容“现在测试分词器”,我想把“现在测试”当成一个词来用

6.1、进入到ik分词器的配置文件夹config下

6.2、在当前目录下新建一个词典,my.dic(以.dic结尾,命名自己定义)

在里面输入我们的需要定义成一个词的内容,如我想把“现在测试”当成一个词,那就输入“现在测试”然后保存

 需要配置多个不同的词以换行区分,参照ik分词器自带的dic词典的内容格式即可(随便打开一个.dic词典参照)

6.3、打开IKAnalyzer.cfg.xml文件(ik分词器的配置文件)

添加扩展配置自己的词典,保存

 6.4、重启elasticsearch即可把自定义的词典加载进来

启动时可以看到my.dic被elasticsearch被加载的日志

 6.5、重新使用kibana进行测试

可以看到我们配置的分词字典生效了,“现在测试”被当成一个词解析了出来

        综上,以后需要自己配置分词规则,只需要在自己定义的分词词典(my.dic)中添加需要的词即可(换行区分),ik分词器则会根据词典和分词算法对内容进行切分


http://www.ppmy.cn/news/469969.html

相关文章

关于手机相机拍摄强光时出现绿色鬼影的问题

1.鬼影(ghost)是如何出现的: 参考此文档:https://zhuanlan.zhihu.com/p/55559389。这篇文档中关于鬼影讲的较为详细。 鬼影主要是因为手机镜头和外层玻璃之间来回反射形成的。 2.如何在高通或MTK调试软件中消除鬼影? …

基于深度相机的三维重建技术

/******************************************************************************************************************* 本文转载自http://www.bugevr.com/zblog/?id14,原创作者bugeadmin, 转载至我的博客,主要是为了备份&#xff0c…

SONY的CMOS 图像传感器技术发展路线

SONY的CMOS 图像传感器技术发展路线 zouxy09qq.com http://blog.csdn.net/zouxy09 图像质量的关键: 高灵敏度和低噪声,所以SONY的技术改进也一直围绕在这两个方面。 技术的发展路线: 高灵敏度、高速、高信噪比、低噪声、低照度、高动态范围…

三维重建(9)之相机标定【相机矩阵求解】基本概念汇总

1 数学知识 1.1 单应矩阵 Homography: 单应矩阵H,描述物体在世界坐标系和像素坐标系之间的位置映射关系,包含放缩因子、相机内参、相机外参。 1.1.1 参考1 单应性矩阵的理解及求解3: 单应性矩阵的理解及求解3_lyhbkz的博客-CSDN博客_单应性…

相机图像质量概述

前言: 对很多刚入行做camera tuning的小伙伴来说,可能对图像质量还不是很了解,包括我自己刚开始接触这一行的时候也是一样,不清楚ISP是什么,为什么要调它,影响画质的因素又有哪些,哪些是ISP能调…

Photoneo 3D相机常见问题汇总

显扬科技为大家罗列了一些Photoneo 3D相机使用过程中的常见问题,希望能给用户带来帮助。 1. 如何保存点云? 若要保存当前点云,请使用顶部面板中的“保存点云”按钮。该文件将以选定的文件格式存储。若要选择将在文件中存储的数据&…

手机影像二十载,AI多摄会是终极答案吗?

上世纪20年代,拉兹洛莫霍利纳吉曾说,“不懂得摄影的人,便是将来的文盲”。如今大规模普及的手机摄影,正好说明了这句话惊人的预见性。自拍、合影、短视频……按下手机拍照键记录生活,几乎成了人的本能。 《2020中国人工…

增值税高企业发展受限怎么办?采用此方法可化险为夷!

增值税高企业发展受限怎么办?采用此方法可化险为夷! 《税筹顾问》专注于园区招商,您的贴身节税小能手,合理合规节税 企业的发展,一方面需要依靠自身的生产经营,那么另一方面就需要在一些支出上尽可能的开源…