大数据-174 Elasticsearch Query DSL - 全文检索 full-text query 匹配、短语、多字段 详细操作

devtools/2024/10/17 16:22:46/

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(正在更新…)

章节内容

上节我们完成了如下的内容:

  • 索引操作
  • 增删改查
  • 详细 JSON 操作 记录

在这里插入图片描述

官方地址

https://www.elastic.co/guide/en/elasticsearch/reference/7.3/query-dsl.html

Elasticsearch提供了基于JSON的完整查询DSL(Domain Specific Language 特定域语言)来定义查询,将查询 DSL 视为查询AST(抽象语法树),它由两种子句组成:

  • 叶子查询句 叶子查询子句 在特定域中寻找特定的值,如 match、term、range 查询
  • 复合查询子句 复合查询子句包装其他叶子查询或复合查询,并用于以逻辑方式组合多个查询(例如 bool或dis_max查询),或更改其行为(如 constant_score 查询)
    我们在使用Elasticsearch的时候,避免不使用DSL语句去查询,就像使用关系型数据库的时候要学会使用SQL一样。

查询所有

示例

# 查询所有数据
POST /wzkicu-index/_search
{"query":{"match_all": {}}
}
  • query 代表查询的对象
  • match_all 代表查询所有

执行后,结果如下:
在这里插入图片描述
结果中:

  • took 查询花费时间,单位是毫秒
  • time_out 是否超时
  • _shards 分片信息
  • hits 搜索结果总览对象
  • total 搜索到的总数
  • max_score 所有结果中文档得分的最高分
  • _index 索引库
  • _type 文档类型
  • _id 文档id
  • _score 文档得分
  • _source 文档的数据源

全文检索(full-text query)

全文搜索能够搜索已分析的文本字段,如电子邮件正文、商品描述,使用索引期间应用于字段的同一分词处理查询字符串,全文搜索的分类很多,有如下的这么几种。

匹配搜索(match query)

全文查询的标准查询,查询条件比较宽松:

  • 需要指定字段名
  • 输入文本会进行分词,比如hello world,会拆分成 hello 和 world,然后进行匹配,如果字段内容中包含hello或者world,name就会被查询出来。也就是说match是一个部分匹配的模糊查询。

match queries 接收 text/numerics/dates,对它们进行分词分析,再组织成一个boolean查询,可通过operator指定bool组合操作(or、and、默认是or)。

假设一个案例,目前索引库中,有两部手机,一台电视:
先新增索引库:

# 创建索引
PUT /wzk-property
{"settings": {},"mappings": {"properties": {"title": {"type": "text","analyzer": "ik_max_word"},"images": {"type": "keyword"},"price": {"type": "float"}}}
}

执行的结果如下图所示:
在这里插入图片描述
接着我们写入一些数据进去:

# 添加数据1
POST /wzk-property/_doc/
{"title": "小米电视4A","images": "https://profile-avatar.csdnimg.cn/755ff10be62f4e7081bc36028fa9eafe_w776341482.jpg!1","price": 4288
}# 添加数据2
POST /wzk-property/_doc/
{"title": "小米手机","images": "https://profile-avatar.csdnimg.cn/755ff10be62f4e7081bc36028fa9eafe_w776341482.jpg!1","price": 2699
}# 添加数据3
POST /wzk-property/_doc/
{"title": "华为手机","images": "https://profile-avatar.csdnimg.cn/755ff10be62f4e7081bc36028fa9eafe_w776341482.jpg!1","price": 5699
}

执行结果如下图所示:
在这里插入图片描述
我们进行or关系的match搜索,会把查询条件进行分词,然后进行查询,多个词条之间是or的关系:

# match 分词匹配
POST /wzk-property/_search
{"query":{"match":{"title":"小米电视4A"}}
}

执行结果如下图所示:
在这里插入图片描述
我们可以看到,不仅查到了小米电视、还查询到了小米手机。这不是我们要的结果。此时我们需要使用 and 的方式来进行精确的查找:

# match 分词匹配 title字段 同时 分词后的每个词 都要匹配到才可以(and)
POST /wzk-property/_search
{"query":{"match": {"title":{"query": "小米电视4A","operator": "and"}}}
}

执行结果如下,可以看到已经精准匹配到了:
在这里插入图片描述

短语搜索(match phrase query)

match_query是分词的,text也是分词的,match_phrase的分词结果必须在text字段中都包含,而且顺序必须相同,而且必须是连续的:

# 分词匹配但考虑顺序
# match是不考虑分词出现的顺序
# match_phrase 将遵循分词的出现顺序才进行匹配
POST /wzk-property/_search
{"query": {"match_phrase": {"title": "小米电视"}}
}

执行结果如下图所示:
在这里插入图片描述

# match_phrase 分伺后:1电视 2小米
# 因为条目中 小米电视的出现不是 1、2,所以没有匹配到
POST /wzk-property/_search
{"query": {"match_phrase": {"title": "电视小米"}}
}

执行结果如下图所示:
在这里插入图片描述

# match_phrase 分词 1是小米 2是4A
# 但是由于 原:小米电视4A,对比中没有严格按照1、2的顺序
# 所以没有结果
POST /wzk-property/_search
{"query": {"match_phrase": {"title": "小米4A"}}
}

执行结果如下图所示:
在这里插入图片描述
但是对于刚才的结果,可能我们希望使用 小米4A,可以按照 match_phrase 的顺序来查找到 小米电视4A,而不用严格遵守顺序,可以跳过几个词:

# 通过 slop 可以跳过一个词 来让 match_phrase 匹配到顺序的结果
POST /wzk-property/_search
{"query": {"match_phrase": {"title": {"query": "小米4A","slop": 1}}}
}

query_string 查询

该查询与match类似,但是match需要指定字段名,query_string是在所有字段中搜索,范围更广泛。
Query String Query提供了无需指定某字段而对文档全文进行匹配查询的一个高级查询,同时可以指定在哪些字段上进行匹配。

# 广泛查询 所有字段中查找 2699
POST /wzk-property/_search
{"query": {"query_string": {"query": "2699"}}
}

执行结果如下图所示:
在这里插入图片描述

# 广泛查找 但是你希望从这个default_field字段中查找
POST /wzk-property/_search
{"query": {"query_string": {"query": "2699","default_field": "title"}}
}

执行结果如下图所示:
在这里插入图片描述

# 逻辑查询 使用 OR 或者 AND
POST /wzk-property/_search
{"query": {"query_string": {"query": "手机 OR 小米","default_field": "title"}}
}

执行结果下图所示:
在这里插入图片描述

# 逻辑查询 使用 OR 或者 AND
POST /wzk-property/_search
{"query": {"query_string": {"query": "手机 AND 小米","default_field": "title"}}
}

执行结果如下图所示:
在这里插入图片描述

# 模糊查询,表示 小米 这个词可以有1个词变动
# 比如:小明、米小 都是可以查询出来的
POST /wzk-property/_search
{"query": {"query_string": {"query": "小米~1","default_field": "title"}}
}

执行结果如下图所示:
在这里插入图片描述

# 模糊查询,表示 小米 这个词可以有1个词变动
# 比如:小明、米小 都是可以查询出来的
# 以此类推,如果是 小米~2 那就两个词都可以变动...
POST /wzk-property/_search
{"query": {"query_string": {"query": "米小~1","default_field": "title"}}
}

执行结果如下图所示:
在这里插入图片描述

# 多字段支持
POST /lagou-property/_search
{"query": {"query_string" : {"query":"2699","fields": [ "title","price"]}}
}

执行结果如下图所示:
在这里插入图片描述

多字段匹配查询(multi match query)

如果你需要在多个字段上进行文本搜索,可用multi_match,multi_match在match的基础上支持对多个字段进行文本查询。

# multi_match 是 match查询的一种扩展方式,用于在多个字段上进行查询
POST /wzk-property/_search
{"query": {"multi_match" : {"query":"小米4A","fields": [ "title","images"]}}
}

执行结果如下图所示:
在这里插入图片描述


http://www.ppmy.cn/devtools/126504.html

相关文章

简单认识redis - 7redis实现分布式

1.为什么要实现分布式 一、提升性能 资源利用最大化 在单台机器上,硬件资源(如 CPU、内存、磁盘 I/O 等)是有限的。随着业务的增长,单个服务器可能无法满足大量并发请求的处理需求。通过分布式系统,可以将负载分散到多…

RelationGraph实现工单进度图——js技能提升

直接上图: 从上图中可以看到整个工单的进度是从【开始】指向【PCB判责】【完善客诉】【PCBA列表】,同时【完善客诉】又可以同时指向【PCB判责】【PCBA列表】,后续各自指向自己的进度。 直接上代码: 1.安装 1.1 Npm 方式 npm …

MySQL-08.DDL-表结构操作-创建-案例

一.MySQL创建表的方式 1.首先根据需求文档定义出原型字段,即从需求文档中可以直接设计出来的字段 2.再在原型字段的基础上加上一些基础字段,构成整个表结构的设计 我们采用基于图形化界面的方式来创建表结构 二.案例 原型字段 各字段设计如下&…

Python基础07_推导式函数

目录 一、推导式 1、列表推导式 2、字典推导式 3、集合推导式 4、元组推导式 二、函数 1、定义函数 1.1 def语句 1.2 函数的调用 1.3 return语句 2、函数参数 3、返回值 4、匿名函数 5、变量作用域 6、函数的内存分配 7、函数自调用(递归&#xff0…

【C++贪心】2086. 喂食仓鼠的最小食物桶数|1622

本文涉及知识点 C贪心 LeetCode2086. 喂食仓鼠的最小食物桶数 给你一个下标从 0 开始的字符串 hamsters ,其中 hamsters[i] 要么是: ‘H’ 表示有一个仓鼠在下标 i ,或者’.’ 表示下标 i 是空的。 你将要在空的位置上添加一定数量的食物桶…

基于Spring Boot的大创项目高效管理系统

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理大创管理系统的相关信息成为必然。开发合适…

性能工具之JMeter 通过Java API生成 BeanShell PreProcessor 脚本

文章目录 一、前言二、实现代码三、代码示例四、最后 一、前言 对于上一篇文章(性能工具之 HAR 格式化转换JMeter JMX 脚本文件)还是有点问题。大家在使用的情况需要注意。 如果多个接口相同 path 路径且不同参数进行查询如: 上面接口如果…

【linux009】文件操作命令篇 - touch 命令

文章目录 touch 命令1、基本用法2、常见选项3、举例4、注意事项 touch 命令 touch 是 Linux 系统中的一个常用命令,用于创建空文件或更新已有文件的时间戳。它既可以用来快速生成新文件,也可以用来修改文件的访问时间(access time, atime&am…