es match 可查 而 term 查不到 问题分析

devtools/2025/2/10 18:50:51/

版本信息

elasticsearch-8.13.0

es 匹配逻辑

根本:es 的匹配是基于token 的。检索的query和目标字段在token 层级上有交集才能检索成功。对同样的文本,使用不同的分词器,所得token 不同。es 默认的analyzer(分词器)是standard模式,即按字切分。

基本上,如果query 使用match 可以查到结果,而term 查不到,就是query 本身没有作为一个token在es 中存在

实例分析

# 设置mapping,可指定每个字段的type、analyzer,如果不设置,es 会自动创建typedoc = {'mappings': {'properties': {'name': {'type': 'text',"analyzer": "whitespace"},'age': {'type': 'integer'}}}}# 创建索引,同时指定mappinges.indices.create(index='tt', body=doc)# 录入数据
# 小 明明,对应的token [小, 明明]xiaoming = {"name": "小 明明","age": 10}
# 李 东东,对应的token [李, 东东]dongdong = {"name": "李 东东","age": 9}es.index(index='tt', id='1', document=xiaoming)es.index(index='tt', id='2', document=dongdong)# 使用 “李 明明” 作为query 检索ts = {"query": {"term": {"name": "李 明明"}}}ts2 = {"query": {"match": {"name": {"query": "李 明明","analyzer": "whitespace"}}}}ts3 = {"query": {"match": {"name": {"query": "李 明明"}}}}res = es.search(index='tt', body=ts)  # 结果为空res2 = es.search(index='tt', body=ts2)  # 小 明明 和 李 东东都能检索出来res3 = es.search(index='tt', body=ts3)  # 李 东东能检索出来

上例中,对于ts, 采用term 方式检索,term是不分词的,相当于采用keyword 分词器,因此token=[李 明明],显然,对于索引 tt,不存在这样的token,因此无法检索到信息。

对于ts2,采用match 方式检索,分词器为whitespace,token=[李,明明],因此和[小, 明明]存在交集【明明】;和[李 东东]存在交集【李】。所以两条数据都能检索出来。

对于ts3,采用match 方式检索,没有指定分词器,默认为standard,token=[李,明,明],和[李, 东东]存在交集【李】。所以李 东东能检索出来。


http://www.ppmy.cn/devtools/157704.html

相关文章

《qt easy3d中添加孔洞填充》

《qt easy3d中添加孔洞填充》 效果展示一、创建流程二、核心代码效果展示 参考链接Easy3D开发——点云孔洞填充 一、创建流程 创建动作,并转到槽函数,并将动作放置菜单栏,可以参考前文 其中,槽函数on_actionHoleFill_triggered实现如下:

QUIC 与 UDP 关系

QUIC协议是建立在UDP之上的,这意味着QUIC的数据包实际上是通过UDP传输的。QUIC的设计使其能够利用UDP的特性,同时在其上实现更复杂的功能。以下是QUIC如何体现出其基于UDP的特性,以及QUIC头部字段的详细介绍。 QUIC与UDP的关系 UDP封装:QUIC数据包被封装在UDP数据包中进行…

微信小程序如何使用decimal计算金额

第三方库地址:GitHub - MikeMcl/decimal.js: An arbitrary-precision Decimal type for JavaScript 之前都是api接口走后端计算,偶尔发现这个库也不错,计算简单,目前发现比较准确 上代码 导入js import Decimal from ../../uti…

Linux性能优化实战,网络丢包问题分析

在当今数字化时代,无论是搭建服务器、开发网络应用,还是进行云计算部署,Linux 系统都扮演着举足轻重的角色。作为一名运维人员或开发者,你肯定希望自己的 Linux 系统能够高效稳定地运行。但当网络丢包问题出现时,一切都…

2025清华:DeepSeek从入门到精通.pdf(附下载)

本文是一份关于如何深入理解和使用DeepSeek技术的全面指南,由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队编撰。DeepSeek是一家中国科技公司,专注于通用人工智能(AGI)的研发,其开源推…

如何将 Jupyter Notebook (.ipynb) 文件转换为 Python (.py) 文件

概要:编写python代码运行将.ipynb转化为.py import jsondef convert_ipynb_to_py(ipynb_file, py_file):with open(ipynb_file, r,encodingutf-8) as f:notebook json.load(f)with open(py_file, w,encodingutf-8) as f:for cell in notebook[cells]:if cell[cell…

爬虫学习笔记之requests库的使用

安装 pip3 install requests实例引入 urllib库中的urlopen方法实际上是以GET方法请求网页,requests库中相应的方法就是get方法。 示例1 import requestsr requests.get(https://www.baidu.com/) print(type(r)) print(r.status_code) print(type(r.text)) print(…

【图像处理】- 基本图像操作

基本图像操作详解 基本图像操作是图像处理的基础,涵盖了对图像进行简单但重要的变换。以下是几种常见的基本图像操作及其详细说明: 1. 裁剪 (Cropping) 描述:从原始图像中提取一个矩形区域。 实现方法: 使用图像的坐标系指定…