ElasticSearch - Bucket Script 使用指南

文章目录

官方文档
Bucket Script 官文
1. 什么是 ElasticSearch 中的 Bucket Script？
2. 适用场景
3. Bucket Script 的基本结构
4. 关键参数详解
5. 示例
- 官方示例：计算每月 T 恤销售额占总销售额的比率百分比
- 示例计算：点击率 (CTR)
6. 注意事项与限制
7. 最佳实践

在这里插入图片描述

官方文档

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html

在这里插入图片描述

Bucket Script 官文

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-pipeline-bucket-script-aggregation.html

在这里插入图片描述

介绍 Bucket Script 的概念和作用
展示基本使用场景，帮助理解其核心原理
通过实例展示如何实现 Bucket Script
总结关键要点与最佳实践

1. 什么是 ElasticSearch 中的 Bucket Script？

Bucket Script 是 ElasticSearch 中一种强大的管道聚合（pipeline aggregation），允许你基于已有的聚合结果执行数学计算。它用于对多个 桶（buckets） 内的数据进行后处理，适合在聚合结果上进行进一步计算，比如计算比率、加权平均等。

2. 适用场景

计算字段的 百分比（如收入增长率）
生成两个字段之间的比值（如点击率 CTR）
在聚合结果中求得更复杂的 数学表达式
处理基于时间序列的数据分析，例如 同比、环比 增长计算

3. Bucket Script 的基本结构

Bucket Script 聚合的基本结构如下：

{"aggs": {"sales_per_month": {"date_histogram": {"field": "order_date","calendar_interval": "month"},"aggs": {"total_sales": {"sum": {"field": "sales"}},"total_units": {"sum": {"field": "units_sold"}},"sales_per_unit": {"bucket_script": {"buckets_path": {"sales": "total_sales","units": "total_units"},"script": "params.sales / params.units"}}}}}
}

sales_per_month：使用 date_histogram 按月份进行分桶。
total_sales 和 total_units：分别计算总销售额和总售出单位数。
sales_per_unit：使用 bucket_script 在每个桶内计算销售额与售出单位的比值。

4. 关键参数详解

buckets_path：指定需要参与计算的聚合结果路径，路径指向的聚合必须出现在当前或上层的桶中。
script：定义计算逻辑，使用 Painless 脚本语言编写。

5. 示例

官方示例：计算每月 T 恤销售额占总销售额的比率百分比

PUT /sales
{"mappings": {"properties": {"type": {"type": "keyword"},"price": {"type": "float"},"date": {"type": "date"}}}
}POST /sales/_bulk
{ "index": { "_index": "sales" } }
{ "type": "t-shirt", "price": 19.99, "date": "2024-01-05" }
{ "index": { "_index": "sales" } }
{ "type": "t-shirt", "price": 25.50, "date": "2024-01-15" }
{ "index": { "_index": "sales" } }
{ "type": "jeans", "price": 49.99, "date": "2024-01-20" }
{ "index": { "_index": "sales" } }
{ "type": "t-shirt", "price": 15.99, "date": "2024-02-01" }
{ "index": { "_index": "sales" } }
{ "type": "shoes", "price": 75.00, "date": "2024-02-10" }
{ "index": { "_index": "sales" } }
{ "type": "t-shirt", "price": 29.99, "date": "2024-02-15" }POST sales/_searchPOST /sales/_search
{"size": 0,"aggs": {"sales_per_month": {"date_histogram": {"field": "date","calendar_interval": "month"},"aggs": {"total_sales": {"sum": {"field": "price"}},"t-shirts": {"filter": {"term": {"type": "t-shirt"}},"aggs": {"sales": {"sum": {"field": "price"}}}},"t-shirt-percentage": {"bucket_script": {"buckets_path": {"tShirtSales": "t-shirts>sales","totalSales": "total_sales"},"script": "params.tShirtSales / params.totalSales * 100"}}}}}
}

此查询的目的是：

统计每个月的总销售额。
计算“T-shirt”类型商品的销售额。
计算“T-shirt”销售额占总销售额的百分比。

“size”: 0
- 表示这次查询不返回任何文档，仅返回聚合结果。
聚合：sales_per_month
- 使用 date_histogram 来按月对销售数据进行分桶：
```
"date_histogram": {"field": "date","calendar_interval": "month"
}
```
- 字段 date 决定销售的日期。calendar_interval 设置为 "month"，意味着每个月作为一个桶。
聚合：total_sales
- 计算每个月的总销售额：
```
"total_sales": {"sum": {"field": "price"}
}
```
- 字段 price 表示商品价格，通过 sum 聚合计算总和。
过滤聚合：t-shirts
- 使用 filter 过滤出类型为 t-shirt 的销售：
```
"filter": {"term": {"type": "t-shirt"}
}
```
- 嵌套的sum聚合 计算T-shirt类型商品的销售额：
```
"sales": {"sum": {"field": "price"}
}
```
桶脚本聚合：t-shirt-percentage
- 计算T-shirt销售额占总销售额的百分比：
```
"bucket_script": {"buckets_path": {"tShirtSales": "t-shirts>sales","totalSales": "total_sales"},"script": "params.tShirtSales / params.totalSales * 100"
}
```
- buckets_path 用于从其他聚合中引用路径：
  - "tShirtSales" 引用的是 t-shirts>sales 聚合。
  - "totalSales" 引用的是 total_sales 聚合。
- script 执行的逻辑是：T-shirt销售额 / 总销售额 * 100，计算百分比。

查询结果格式

{"took" : 6,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 6,"relation" : "eq"},"max_score" : null,"hits" : [ ]},"aggregations" : {"sales_per_month" : {"buckets" : [{"key_as_string" : "2024-01-01T00:00:00.000Z","key" : 1704067200000,"doc_count" : 3,"total_sales" : {"value" : 95.48000144958496},"t-shirts" : {"doc_count" : 2,"sales" : {"value" : 45.489999771118164}},"t-shirt-percentage" : {"value" : 47.64348458366713}},{"key_as_string" : "2024-02-01T00:00:00.000Z","key" : 1706745600000,"doc_count" : 3,"total_sales" : {"value" : 120.97999954223633},"t-shirts" : {"doc_count" : 2,"sales" : {"value" : 45.97999954223633}},"t-shirt-percentage" : {"value" : 38.00628179551602}}]}}
}

这个结果表示：

2024年1月的总销售额为 ** 95.48**。
其中 45.48 元来自于 T-shirt。
T-shirt 的销售占比为 ** 47.6%**。

示例计算：点击率 (CTR)

假设有个广告展示量和点击量的聚合，想计算每个广告的点击率：

{"aggs": {"ads": {"terms": {"field": "ad_id"},"aggs": {"impressions": {"sum": {"field": "impression_count"}},"clicks": {"sum": {"field": "click_count"}},"ctr": {"bucket_script": {"buckets_path": {"clicks": "clicks","impressions": "impressions"},"script": "params.clicks / params.impressions"}}}}}
}