Elasticsearch索引数据的路由规则与自定义路由分发

devtools/2024/11/14 3:05:22/

Elasticsearch通过路由规则将数据高效地分布到各个分片中,实现数据均衡、查询优化及故障恢复。本文将深入探讨索引数据路由的原理,并通过示例展示如何使用自定义路由策略分发数据。

索引数据路由原理

默认路由规则

默认情况下,Elasticsearch使用以下公式计算文档应被写入的分片编号:

shard_num = hash(_routing) % num_primary_shards

其中:

  • _routing:默认为文档的_id,也可以通过请求参数或映射设置指定。
  • num_primary_shards:索引的主分片数。

通过哈希函数和模运算,确保数据在分片间均匀分布,有利于数据均衡、容错和扩展。

分区路由

虽然可以手动指定路由值以减少查询涉及的分片数,但这可能导致大量数据集中到少数分片,造成分片大小不均。为此,Elasticsearch提供索引分区配置,允许使用同一路由值的数据分发到多个分片。在索引设置中启用此功能:

"index.routing_partition_size": N

此时,路由计算公式变为:

shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards

通过引入_id哈希值和routing_partition_size参数,使得具有相同路由值的文档更均匀地分布到多个分片。

使用自定义路由分发数据

在某些场景下,可能需要根据特定字段(如用户ID、租户ID等)进行数据路由,以实现数据隔离、优化查询性能或简化备份恢复。下面展示如何使用自定义路由策略分发数据。

创建索引并设置自定义路由

首先,创建一个名为person的索引,设置3个主分片和1个副本分片,并要求在写入文档时必须提供路由值:

PUT person
{"settings": {"number_of_shards": "3","number_of_replicas": "1"},"mappings": {"_routing": {"required": true}}
}

新增数据

向索引中写入一条带有自定义路由值(如“zhangsan”)的文档,并立即刷新索引以确保数据可查:

POST person/_doc/1?routing=zhangsan&refresh=true
{"id": "1","name": "zhangsan","subject": "语文","score": 100
}

查询数据

由于数据写入时使用了自定义路由值,查询时也必须提供相同的路由值,否则会导致查询失败:

GET person/_doc/1?routing=zhangsan

更新数据

更新文档时同样需要指定路由值,以确保操作作用于正确的分片:

POST person/_update/1?routing=zhangsan&refresh=true
{"doc": {"score": 120}
}

路由优化查询

在检索数据时,提供路由值可以跳过无关分片,减少资源消耗并加速查询:

GET person/_search?routing=zhangsan
{"query": {"match_all": {}}
}

查看路由对应分片

若需确定某个路由值对应的分片信息,可以使用_search_shards REST端点:

GET person/_search_shards?routing=zhangsan

删除数据

删除文档时同样需要指定路由值:

DELETE person/_doc/1?routing=zhangsan

总结而言,Elasticsearch通过路由规则有效地管理和分发索引数据,支持自定义路由策略以满足特定应用场景的需求。理解和熟练运用数据路由机制,有助于优化Elasticsearch集群的性能和稳定性。


http://www.ppmy.cn/devtools/16743.html

相关文章

区块链技术与应用学习笔记(12-13节)——北大肖臻课程

目录 12.BTC-匿名性 一、什么是匿名? 1,有可能破坏比特币匿名性的两个方面 2,如何提高匿名性 一个比特币用户能采用什么样的方法尽量提高个人的匿名性? 分解: 1、网络层怎么提高匿名性? 2、应用层怎么提高匿名性? 零知…

致力于为企业提升媒体宣传的一种新策略-软文发稿和投放

随着新媒体时代的快速发展,媒体宣发的方式也在不断迭代,其中,“软文发稿”成为了许多企业非常看重的一种媒体宣发方式。那么,什么是“软文发稿”呢?这是一种通过撰写有新闻属性的广告文章,将企业的品牌、产…

SpringCloud使用Nginx代理、Gateway网关以后如何获取用户的真实ip

前言 本文转载自: www.microblog.store,且已获得授权. 一、需求背景 微服务架构使用了Nginx代理转发、并且使用了SpringCloud的Gateway统一控制所有请求,现在有个需求: 做一个日子记录切面,需要记录用户请求的ip地址。 在上述双重背景下…

K8S Service 常见问题

Service 问题排查 为了演示需要部署以下服务。 apiVersion: apps/v1 kind: Deployment metadata:name: busyboxnamespace: appslabels:app: busybox spec:replicas: 1selector:matchLabels:app: busyboxtemplate:metadata:labels:app: busyboxspec:containers:- name: busybo…

网络安全之弱口令与命令爆破(上篇)(技术进阶)

目录 一,什么是弱口令? 二,为什么会产生弱口令呢? 三,字典的生成 四,使用Burpsuite工具弱口令爆破 总结 一,什么是弱口令? 弱口令就是容易被人们所能猜到的密码呗,…

先进制造aps专题三 为什么java语言不适合作为aps算法的开发语言

为什么java语言不适合作为aps算法的开发语言 主要两个原因 1 java的list在特定位置插入,其实是重新生成一个新list,而不像c就是指针操作 2 数据量大,运行时间长,会跑崩 所以商业aps产品,都是清一色的用c写aps算法 先进制造…

centos7.9下安装SVN服务

一、安装subversion yum install -y subversion #安装svn mkdir -p /data/svnrepos/java #自定义svn仓库位置/data/svnrepos,自定义一个项目叫svn(这里新建目录) svnadmin create /data/svnrepos/java #创建一…

jenkins自动化举例

使用 Jenkins 可以显著提高工作效率: 1. **自动化构建**: - 假设您是一个开发人员,需要频繁地编译和测试代码。手动执行这些任务可能会非常耗时。使用 Jenkins,您可以设置自动化构建流程,每当您提交新代码时&#…