ES from size聚合查询10000聚合查询,是每个分片先聚合,再统计。还是所有节点查询1万条后,再聚合

news/2025/3/4 12:45:04/

在 Elasticsearch 中,聚合查询 的执行过程是 分布式 的,Elasticsearch 会先在每个分片(shard)上执行本地聚合,然后再在协调节点(coordinating node)上对所有分片的聚合结果进行 全局汇总。具体过程如下:


1. 聚合查询的执行过程

1.1 分片级别的本地聚合

  • 查询分发:当你在 Elasticsearch 中执行一个聚合查询时,协调节点会将查询分发到索引的每个分片(shard)上。

  • 本地聚合:每个分片会在本地对匹配的文档执行聚合操作(例如求和、平均值、分组等)。每个分片只会处理自己分片内的数据。

  • 返回中间结果:每个分片将本地的聚合结果返回给协调节点。

1.2 协调节点的全局汇总

  • 结果收集:协调节点会从所有分片中收集聚合结果。

  • 全局汇总:协调节点会对所有分片的聚合结果进行全局汇总。例如:

    • 如果是 求和(sum),协调节点会将所有分片的求和结果相加。

    • 如果是 平均值(avg),协调节点会计算所有分片的平均值。

    • 如果是 分组(terms),协调节点会合并所有分片的分组结果,并重新排序。

  • 返回最终结果:协调节点将最终的聚合结果返回给客户端。


2. 具体示例

假设你执行以下聚合查询:

json

复制

POST /your_index/_search
{"size": 0,"aggs": {"total_sales": {"sum": {"field": "sales"}}}
}

执行步骤

  1. 查询分发

    • 假设索引有3个分片(shard1, shard2, shard3)。

    • 协调节点将查询分发到 shard1、shard2 和 shard3。

  2. 本地聚合

    • shard1 计算本地的 sales 字段总和,假设结果为 1000。

    • shard2 计算本地的 sales 字段总和,假设结果为 1500。

    • shard3 计算本地的 sales 字段总和,假设结果为 2000。

  3. 全局汇总

    • 协调节点收集所有分片的聚合结果:1000(shard1) + 1500(shard2) + 2000(shard3)。

    • 协调节点计算全局总和:1000 + 1500 + 2000 = 4500。

  4. 返回结果

    • 协调节点将最终结果 4500 返回给客户端。


3. 关于 from 和 size 的影响

在聚合查询中,from 和 size 参数通常用于控制返回的 文档数量,而不是聚合结果的数量。例如:

json

复制

POST /your_index/_search
{"from": 0,"size": 10000,"aggs": {"total_sales": {"sum": {"field": "sales"}}}
}
  • from 和 size 的作用

    • from=0, size=10000 表示返回前10,000条文档。

    • 聚合操作是基于这10,000条文档进行的。

  • 执行过程

    • 每个分片会先根据 from 和 size 参数返回匹配的文档(最多10,000条)。

    • 然后在这些文档上执行本地聚合。

    • 协调节点会汇总所有分片的聚合结果。


4. 分片聚合 vs 全局聚合

  • 分片聚合:每个分片只处理自己分片内的数据,返回中间结果。

  • 全局聚合:协调节点对所有分片的中间结果进行汇总,返回最终结果。

注意事项

  1. 数据分布:聚合结果的准确性依赖于数据在分片中的分布。如果数据分布不均匀,可能会导致聚合结果不准确。

  2. 性能问题:如果聚合查询涉及大量数据,可能会导致协调节点的内存和 CPU 资源消耗过高。

  3. size 参数:在聚合查询中,size 参数通常用于控制返回的文档数量,而不是聚合结果的数量。如果需要控制聚合结果的数量,可以使用 terms 聚合的 size 参数。


5. 总结

  • 聚合查询的执行过程

    • 每个分片先执行本地聚合。

    • 协调节点对所有分片的聚合结果进行全局汇总。

  • from 和 size 的作用

    • 控制返回的文档数量,而不是聚合结果的数量。

  • 性能优化

    • 避免在聚合查询中使用过大的 from 和 size 参数。

    • 使用 composite 聚合或 bucket_sort 聚合对聚合结果进行分页。

通过理解 Elasticsearch 的分布式聚合机制,可以更好地优化查询性能,避免资源浪费。


http://www.ppmy.cn/news/1576546.html

相关文章

5G网络切片技术浅显易懂分析

5G网络是要面向多连接和多样化业务的,需要能够像积木一样灵活部署,方便地进行新业务快速上线/下线,满足人们日益增长的数据业务需求。即:要有分类管理,要能灵活部署,于是网络切片这一概念应运而生。 网络切…

jenkins集成docker发布java项目

1、创建pipeline流水线任务 2、进入配置选项 选择参数化构建 3、添加2个字符参数,用于传递变量 4、编写pipeline脚本 //所有脚本命令都放在pipeline中 pipeline{//指定任务再哪个集群节点中执行agent any//声明全局变量,方便后面使用environment {harbor…

CF 886A.ACM ICPC(Java实现)

题目分析 输入6个值,判断某三个值的和能够等于另外三个值的和 思路分析 首先判断总和是不是一个偶数,如果不是就“NO”。由于小何同学算法不好,只能使用三层for循环强行判断某三个值是否能等于总和的一半,可以就“YES”。 代码 …

LeetCode hot 100—矩阵置零

题目 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出:[[1,0,1],[0,0,0],[1,0,1]]示例 2&#xff1…

Spring 源码硬核解析系列专题(十):Spring Data JPA 的 ORM 源码解析

在前几期中,我们从 Spring 核心到 Spring Boot、Spring Cloud、Spring Security 和 Spring Batch,逐步揭示了 Spring 生态的多样性。在企业级开发中,数据访问是不可或缺的部分,而 Spring Data JPA 通过简化 JPA(Java Persistence API)操作,成为主流的 ORM 框架。本篇将深…

一周一个Unity小游戏2D反弹球游戏 - 球的死区及球重生

前言 本文将实现当球弹到球板下方的死亡区域后,球会被重置到球板上发射点,并且重置物理状态的逻辑。 创建球的死亡区 之前创建的在屏幕下方的空气墙碰撞体可以将其Is Trigger勾选上,让其成为一个触发器,用来检测球是否进入该区域,如下。 创建一个脚本名为Deadzone…

SpringBoot接口自动化测试实战:从OpenAPI到压力测试全解析

引言:接口测试的必要性 在微服务架构盛行的今天,SpringBoot项目的接口质量直接影响着系统稳定性。本文将分享如何通过自动化工具链实现接口的功能验证与性能压测,使用OpenAPI规范打通测试全流程,让您的接口质量保障体系更加完备。…

Aria Gen 2来了!AI感知、机器人、可穿戴计算的新突破

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…