ES from size聚合查询10000聚合查询，是每个分片先聚合，再统计。还是所有节点查询1万条后，再聚合

ES from size聚合查询10000聚合查询，是每个分片先聚合，再统计。还是所有节点查询1万条后，再聚合

news/2025/3/4 12:45:04/

在 Elasticsearch 中，聚合查询 的执行过程是 分布式 的，Elasticsearch 会先在每个分片（shard）上执行本地聚合，然后再在协调节点（coordinating node）上对所有分片的聚合结果进行 全局汇总。具体过程如下：

1. 聚合查询的执行过程

1.1 分片级别的本地聚合

查询分发：当你在 Elasticsearch 中执行一个聚合查询时，协调节点会将查询分发到索引的每个分片（shard）上。
本地聚合：每个分片会在本地对匹配的文档执行聚合操作（例如求和、平均值、分组等）。每个分片只会处理自己分片内的数据。
返回中间结果：每个分片将本地的聚合结果返回给协调节点。

1.2 协调节点的全局汇总

结果收集：协调节点会从所有分片中收集聚合结果。
全局汇总：协调节点会对所有分片的聚合结果进行全局汇总。例如：
- 如果是 求和（sum），协调节点会将所有分片的求和结果相加。
- 如果是 平均值（avg），协调节点会计算所有分片的平均值。
- 如果是 分组（terms），协调节点会合并所有分片的分组结果，并重新排序。
返回最终结果：协调节点将最终的聚合结果返回给客户端。

2. 具体示例

假设你执行以下聚合查询：

json

复制

POST /your_index/_search
{"size": 0,"aggs": {"total_sales": {"sum": {"field": "sales"}}}
}

执行步骤

查询分发：
- 假设索引有3个分片（shard1, shard2, shard3）。
- 协调节点将查询分发到 shard1、shard2 和 shard3。
本地聚合：
- shard1 计算本地的 sales 字段总和，假设结果为 1000。
- shard2 计算本地的 sales 字段总和，假设结果为 1500。
- shard3 计算本地的 sales 字段总和，假设结果为 2000。
全局汇总：
- 协调节点收集所有分片的聚合结果：1000（shard1） + 1500（shard2） + 2000（shard3）。
- 协调节点计算全局总和：1000 + 1500 + 2000 = 4500。
返回结果：
- 协调节点将最终结果 4500 返回给客户端。

3. 关于 `from` 和 `size` 的影响

在聚合查询中，from 和 size 参数通常用于控制返回的 文档数量，而不是聚合结果的数量。例如：

json

复制

POST /your_index/_search
{"from": 0,"size": 10000,"aggs": {"total_sales": {"sum": {"field": "sales"}}}
}

from 和 size 的作用：
- from=0, size=10000 表示返回前10,000条文档。
- 聚合操作是基于这10,000条文档进行的。
执行过程：
- 每个分片会先根据 from 和 size 参数返回匹配的文档（最多10,000条）。
- 然后在这些文档上执行本地聚合。
- 协调节点会汇总所有分片的聚合结果。

4. 分片聚合 vs 全局聚合

分片聚合：每个分片只处理自己分片内的数据，返回中间结果。
全局聚合：协调节点对所有分片的中间结果进行汇总，返回最终结果。

注意事项

数据分布：聚合结果的准确性依赖于数据在分片中的分布。如果数据分布不均匀，可能会导致聚合结果不准确。
性能问题：如果聚合查询涉及大量数据，可能会导致协调节点的内存和 CPU 资源消耗过高。
size 参数：在聚合查询中，size 参数通常用于控制返回的文档数量，而不是聚合结果的数量。如果需要控制聚合结果的数量，可以使用 terms 聚合的 size 参数。

5. 总结

聚合查询的执行过程：
- 每个分片先执行本地聚合。
- 协调节点对所有分片的聚合结果进行全局汇总。
from 和 size 的作用：
- 控制返回的文档数量，而不是聚合结果的数量。
性能优化：
- 避免在聚合查询中使用过大的 from 和 size 参数。
- 使用 composite 聚合或 bucket_sort 聚合对聚合结果进行分页。

通过理解 Elasticsearch 的分布式聚合机制，可以更好地优化查询性能，避免资源浪费。

http://www.ppmy.cn/news/1576546.html

相关文章

5G网络切片技术浅显易懂分析

5G网络切片技术浅显易懂分析

5G网络是要面向多连接和多样化业务的，需要能够像积木一样灵活部署，方便地进行新业务快速上线/下线，满足人们日益增长的数据业务需求。即：要有分类管理，要能灵活部署，于是网络切片这一概念应运而生。网络切…

阅读更多...

jenkins集成docker发布java项目

jenkins集成docker发布java项目

1、创建pipeline流水线任务 2、进入配置选项选择参数化构建 3、添加2个字符参数，用于传递变量 4、编写pipeline脚本 //所有脚本命令都放在pipeline中 pipeline{//指定任务再哪个集群节点中执行agent any//声明全局变量，方便后面使用environment {harbor…

阅读更多...

CF 886A.ACM ICPC(Java实现)

CF 886A.ACM ICPC(Java实现)

题目分析输入6个值，判断某三个值的和能够等于另外三个值的和思路分析首先判断总和是不是一个偶数，如果不是就“NO”。由于小何同学算法不好，只能使用三层for循环强行判断某三个值是否能等于总和的一半，可以就“YES”。代码 …

阅读更多...

$LeetCode hot 100—矩阵置零$

LeetCode hot 100—矩阵置零

题目给定一个 m x n 的矩阵，如果一个元素为 0 ，则将其所在行和列的所有元素都设为 0 。请使用原地算法。示例示例 1： 输入：matrix [[1,1,1],[1,0,1],[1,1,1]] 输出：[[1,0,1],[0,0,0],[1,0,1]]示例 2&#xff1…

阅读更多...

Spring 源码硬核解析系列专题（十）：Spring Data JPA 的 ORM 源码解析

Spring 源码硬核解析系列专题（十）：Spring Data JPA 的 ORM 源码解析

在前几期中，我们从 Spring 核心到 Spring Boot、Spring Cloud、Spring Security 和 Spring Batch，逐步揭示了 Spring 生态的多样性。在企业级开发中，数据访问是不可或缺的部分，而 Spring Data JPA 通过简化 JPA（Java Persistence API）操作，成为主流的 ORM 框架。本篇将深…

阅读更多...

一周一个Unity小游戏2D反弹球游戏 - 球的死区及球重生

一周一个Unity小游戏2D反弹球游戏 - 球的死区及球重生

前言本文将实现当球弹到球板下方的死亡区域后，球会被重置到球板上发射点，并且重置物理状态的逻辑。创建球的死亡区之前创建的在屏幕下方的空气墙碰撞体可以将其Is Trigger勾选上，让其成为一个触发器，用来检测球是否进入该区域，如下。创建一个脚本名为Deadzone…

阅读更多...

SpringBoot接口自动化测试实战：从OpenAPI到压力测试全解析

SpringBoot接口自动化测试实战：从OpenAPI到压力测试全解析

引言：接口测试的必要性在微服务架构盛行的今天，SpringBoot项目的接口质量直接影响着系统稳定性。本文将分享如何通过自动化工具链实现接口的功能验证与性能压测，使用OpenAPI规范打通测试全流程，让您的接口质量保障体系更加完备。…

阅读更多...

Aria Gen 2来了！AI感知、机器人、可穿戴计算的新突破

Aria Gen 2来了！AI感知、机器人、可穿戴计算的新突破

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…

阅读更多...

最新文章