【Elasticsearch】 Intervals Query

devtools/2025/2/4 6:50:58/

Elasticsearch Intervals Query

返回基于匹配术语的顺序和接近度的文档。

intervals 查询使用 匹配规则,这些规则由一小组定义构建而成。这些规则然后应用于指定 field 中的术语。

这些定义生成覆盖文本中术语的最小间隔序列。这些间隔可以进一步由父源组合和过滤。

以下 intervals 查询返回包含 my favorite food(没有任何间隔),后跟 hot watercold porridge 的文档。查询应用于 my_text 字段。

这个查询将匹配 my_text 值为 my favorite food is cold porridge,但不匹配 when it's cold my favorite food is porridge

JSON复制

POST _search
{"query": {"intervals" : {"my_text" : {"all_of" : {"ordered" : true,"intervals" : [{"match" : {"query" : "my favorite food","max_gaps" : 0,"ordered" : true}},{"any_of" : {"intervals" : [{ "match" : { "query" : "hot water" } },{ "match" : { "query" : "cold porridge" } }]}}]}}}}
}

Intervals 查询的顶级参数

<field>

(必需,规则对象)您希望搜索的字段。

此参数的值是一个规则对象,用于基于匹配术语、顺序和接近度匹配文档。

有效的规则包括:

  • match

  • prefix

  • wildcard

  • regexp

  • fuzzy

  • range

  • all_of

  • any_of

match 规则参数

match 规则匹配分析过的文本。

  • query

    • (必需,字符串)您希望在提供的 <field> 中找到的文本。

  • max_gaps

    • (可选,整数)匹配术语之间的最大位置数。超过此距离的术语不被视为匹配。默认值为 -1

    • 如果未指定或设置为 -1,则匹配没有宽度限制。如果设置为 0,术语必须相邻。

  • ordered

    • (可选,布尔值)如果为 true,匹配术语必须按指定顺序出现。默认值为 false

  • analyzer

    • (可选,字符串)用于分析 query 中术语的分析器。默认值为顶级 <field> 的分析器。

  • filter

    • (可选,间隔过滤规则对象)可选的间隔过滤器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>。术语使用此字段的搜索分析器进行分析。这允许您跨多个字段进行搜索,就像它们是同一个字段一样;例如,您可以将相同的文本索引到词干和非词干字段中,并搜索词干标记附近的非词干标记。

prefix 规则参数

prefix 规则匹配以指定字符集开头的术语。此前缀可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果前缀匹配更多术语,Elasticsearch 将返回错误。您可以在字段映射中使用 index-prefixes 选项来避免此限制。

  • prefix

    • (必需,字符串)您希望在顶级 <field> 中找到的术语的起始字符。

  • analyzer

    • (可选,字符串)用于规范化 prefix 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

wildcard 规则参数

wildcard 规则使用通配符模式匹配术语。此模式可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果模式匹配更多术语,Elasticsearch 将返回错误。

  • pattern

    • (必需,字符串)用于查找匹配术语的通配符模式。

    • 此参数支持两个通配符操作符:

      • ?,匹配任何单个字符

      • *,匹配零个或多个字符,包括空字符

  • analyzer

    • (可选,字符串)用于规范化 pattern 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

regexp 规则参数

regexp 规则使用正则表达式模式匹配术语。此模式可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果模式匹配更多术语,Elasticsearch 将返回错误。

  • pattern

    • (必需,字符串)用于查找匹配术语的正则表达式模式。

    • 避免使用通配符模式,如 .*.*?+。这可能会增加找到匹配术语所需的迭代次数,并降低搜索性能。

  • analyzer

    • (可选,字符串)用于规范化 pattern 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

fuzzy 规则参数

fuzzy 规则匹配与提供的术语相似的术语,编辑距离由 Fuzziness 定义。如果模糊扩展匹配的术语超过 indices.query.bool.max_clause_count 搜索设置术语,Elasticsearch 将返回错误。

  • term

    • (必需,字符串)要匹配的术语。

  • prefix_length

    • (可选,整数)创建扩展时保持不变的起始字符数。默认值为 0

  • transpositions

    • (可选,布尔值)指示编辑是否包括两个相邻字符的换位(ab → ba)。默认值为 true

  • fuzziness

    • (可选,字符串)允许匹配的最大编辑距离。参见 Fuzziness 以获取有效值和更多信息。默认值为 auto

  • analyzer

    • (可选,字符串)用于规范化 term 的分析器。默认值为顶级 <field> 的分析器。

  • use_field

    • (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级 <field>

range 规则参数

range 规则匹配包含在提供范围内的术语。此范围可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果范围匹配更多术语,Elasticsearch 将返回错误。

  • gt

    • (可选,字符串)大于:匹配大于提供术语的术语。

  • gte

    • (可选,字符串)大于或等于:匹配大于或等于提供术语的术语。

  • lt

    • (可选,字符串)小于:匹配小于提供术语的术语。

  • lte

    • (可选,字符串)小于或等于:匹配小于或等于提供术语的术语。

all_of 规则参数

all_of 规则返回跨多个其他规则组合的匹配项。

  • intervals

    • (必需,规则对象数组)要组合的规则数组。所有规则必须在文档中生成匹配项,整体源才能匹配。

  • max_gaps

    • (可选,整数)匹配术语之间的最大位置数。规则生成的间隔超过此距离的不被视为匹配。默认值为 -1

  • ordered

    • (可选,布尔值)如果为 true,规则生成的间隔应按指定顺序出现。默认值为 false

  • filter

    • (可选,间隔过滤规则对象)用于过滤返回间隔的规则。

any_of 规则参数

any_of 规则返回其子规则生成的任何间隔。

  • intervals

    • (必需,规则对象数组)要匹配的规则数组。

  • filter

    • (可选,间隔过滤规则对象)用于过滤返回间隔的规则。

filter 规则参数

filter 规则基于查询返回间隔。有关示例,请参见过滤器示例。

  • after

    • (可选,查询对象)返回跟随 filter 规则间隔的间隔的查询。

  • before

    • (可选,查询对象)返回在 filter 规则间隔之前发生的间隔的查询。

  • contained_by

    • (可选,查询对象)返回被 filter 规则间隔包含的间隔的查询。

  • containing

    • (可选,查询对象)返回包含 filter 规则间隔的间隔的查询。

  • not_contained_by

    • (可选,查询对象)返回不被 filter 规则间隔包含的间隔的查询。

  • not_containing

    • (可选,查询对象)返回不包含 filter 规则间隔的间隔的查询。

  • not_overlapping

    • (可选,查询对象)返回不与 filter 规则间隔重叠的间隔的查询。

  • overlapping

    • (可选,查询对象)返回与 filter 规则间隔重叠的间隔的查询。

  • script

    • (可选,脚本对象)返回匹配文档的脚本。此脚本必须返回布尔值 truefalse

示例

以下查询包含一个 filter 规则。它返回包含 hotporridge 且两者之间不超过 10 个位置的文档,且两者之间没有 salty

JSON复制

POST _search
{"query": {"intervals" : {"my_text" : {"match" : {"query" : "hot porridge","max_gaps" : 10,"filter" : {"not_containing" : {"match" : {"query" : "salty"}}}}}}}
}

脚本过滤器

您可以使用脚本根据间隔的起始位置、结束位置和内部间隔数过滤间隔。以下 filter 脚本使用 interval 变量及其 startendgaps 方法:

JSON复制

POST _search
{"query": {"intervals" : {"my_text" : {"match" : {"query" : "hot porridge","filter" : {"script" : {"source" : "interval.start > 10 && interval.end < 20 && interval.gaps == 0"}}}}}}
}

注意事项

  • 最小化间隔

    • intervals 查询始终最小化间隔,以确保查询可以在线性时间内运行。这有时会导致意外结果,特别是在使用 max_gaps 限制或过滤器时。例如,考虑以下查询,搜索 hot porridge 中包含的 salty

    JSON复制

    POST _search
    {"query": {"intervals" : {"my_text" : {"match" : {"query" : "salty","filter" : {"contained_by" : {"match" : {"query" : "hot porridge"}}}}}}}
    }
    • 此查询不会匹配包含 hot porridge is salty porridge 的文档,因为 hot porridge 的匹配查询返回的间隔仅覆盖此文档中的前两个术语,这些术语不与覆盖 salty 的间隔重叠。


http://www.ppmy.cn/devtools/155935.html

相关文章

DeepSeek对通达信编写的股票指标深度理解

今天试着把自己的一个“1(3)X模式”的通达信炒股指标喂给DeepSeek看它是否能理解这个指标模式的意图。 市值约束:= FINANCE(40)/100000000>20 AND FINANCE(40)/100000000<500;去ST:=NAMELIKE(ST)=0 AND NAMELIKE(*ST)=0 AND NAMELIKE(SST)=0; 去停牌:=DYNAINFO(8)>0; …

(二)QT——按钮小程序

目录 前言 按钮小程序 1、步骤 2、代码示例 3、多个按钮 ①信号与槽的一对一 ②多对一&#xff08;多个信号连接到同一个槽&#xff09; ③一对多&#xff08;一个信号连接到多个槽&#xff09; 结论 前言 按钮小程序 Qt 按钮程序通常包含 三个核心文件&#xff1a; m…

ICANN 关闭 WHOIS Port 43

2025年1月28日&#xff0c;ICANN&#xff08;互联网名称与数字地址分配机构&#xff09;将正式终止WHOIS Port 43服务。这一决定标志着网络安全行业、域名注册机构以及依赖域名数据进行运营或调查的所有人迎来重要变革。那么&#xff0c;这一变化意味着什么&#xff1f;它将如何…

解锁豆瓣高清海报(一) 深度爬虫与requests进阶之路

前瞻 PosterBandit 这个脚本能够根据用户指定的日期&#xff0c;爬取你看过的影视最高清的海报&#xff0c;然后使用 PixelWeaver.py 自动拼接成指定大小的长图。 你是否发现直接从豆瓣爬取下来的海报清晰度很低&#xff1f; 使用 .pic .nbg img CSS 选择器&#xff0c;在 我…

[EAI-023] FAST,机器人动作专用的Tokenizer,提高VLA模型的能力和训练效率

Paper Card 论文标题&#xff1a;FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者&#xff1a;Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接&…

C语言教学第三课:运算符与表达式

一、课程导入 同学们&#xff0c;上节课我们学习了变量和数据类型&#xff0c;这些是C语言的基础。今天&#xff0c;我们将继续深入学习C语言中的运算符与表达式。运算符是C语言中用于执行各种操作的符号&#xff0c;而表达式则是由变量、常量和运算符组成的有意义的组合。通过…

本地部署DeepSeek开源多模态大模型Janus-Pro-7B实操

本地部署DeepSeek开源多模态大模型Janus-Pro-7B实操 Janus-Pro-7B介绍 Janus-Pro-7B 是由 DeepSeek 开发的多模态 AI 模型&#xff0c;它在理解和生成方面取得了显著的进步。这意味着它不仅可以处理文本&#xff0c;还可以处理图像等其他模态的信息。 模型主要特点:Permalink…

【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】2.6 广播机制核心算法:维度扩展的数学建模

2.6 广播机制核心算法&#xff1a;维度扩展的数学建模 目录/提纲 #mermaid-svg-IfELXmhcsdH1tW69 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-IfELXmhcsdH1tW69 .error-icon{fill:#552222;}#mermaid-svg-IfELXm…