Elasticsearch索引数据的路由规则与自定义路由分发

embedded/2024/10/11 6:23:50/

Elasticsearch通过路由规则将数据高效地分布到各个分片中,实现数据均衡、查询优化及故障恢复。本文将深入探讨索引数据路由的原理,并通过示例展示如何使用自定义路由策略分发数据。

索引数据路由原理

默认路由规则

默认情况下,Elasticsearch使用以下公式计算文档应被写入的分片编号:

shard_num = hash(_routing) % num_primary_shards

其中:

  • _routing:默认为文档的_id,也可以通过请求参数或映射设置指定。
  • num_primary_shards:索引的主分片数。

通过哈希函数和模运算,确保数据在分片间均匀分布,有利于数据均衡、容错和扩展。

分区路由

虽然可以手动指定路由值以减少查询涉及的分片数,但这可能导致大量数据集中到少数分片,造成分片大小不均。为此,Elasticsearch提供索引分区配置,允许使用同一路由值的数据分发到多个分片。在索引设置中启用此功能:

"index.routing_partition_size": N

此时,路由计算公式变为:

shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards

通过引入_id哈希值和routing_partition_size参数,使得具有相同路由值的文档更均匀地分布到多个分片。

使用自定义路由分发数据

在某些场景下,可能需要根据特定字段(如用户ID、租户ID等)进行数据路由,以实现数据隔离、优化查询性能或简化备份恢复。下面展示如何使用自定义路由策略分发数据。

创建索引并设置自定义路由

首先,创建一个名为person的索引,设置3个主分片和1个副本分片,并要求在写入文档时必须提供路由值:

PUT person
{"settings": {"number_of_shards": "3","number_of_replicas": "1"},"mappings": {"_routing": {"required": true}}
}

新增数据

向索引中写入一条带有自定义路由值(如“zhangsan”)的文档,并立即刷新索引以确保数据可查:

POST person/_doc/1?routing=zhangsan&refresh=true
{"id": "1","name": "zhangsan","subject": "语文","score": 100
}

查询数据

由于数据写入时使用了自定义路由值,查询时也必须提供相同的路由值,否则会导致查询失败:

GET person/_doc/1?routing=zhangsan

更新数据

更新文档时同样需要指定路由值,以确保操作作用于正确的分片:

POST person/_update/1?routing=zhangsan&refresh=true
{"doc": {"score": 120}
}

路由优化查询

在检索数据时,提供路由值可以跳过无关分片,减少资源消耗并加速查询:

GET person/_search?routing=zhangsan
{"query": {"match_all": {}}
}

查看路由对应分片

若需确定某个路由值对应的分片信息,可以使用_search_shards REST端点:

GET person/_search_shards?routing=zhangsan

删除数据

删除文档时同样需要指定路由值:

DELETE person/_doc/1?routing=zhangsan

总结而言,Elasticsearch通过路由规则有效地管理和分发索引数据,支持自定义路由策略以满足特定应用场景的需求。理解和熟练运用数据路由机制,有助于优化Elasticsearch集群的性能和稳定性。


http://www.ppmy.cn/embedded/16554.html

相关文章

Jupyter的下载与安装

1.下载: 在anaconda的指定环境中 conda install nb_conda_kernels 2.打开 在anaconda指定环境中使用命令: jupyter notebook 3.输入指令后,会显示如下,根据显示地址打开 3. 在右边的new按钮处,选择相应环境&…

Apache Doris 基于 Workload Group 的负载隔离能力解读|Deep Dive

作者:SelectDB 技术团队 现如今企业的数据查询需求在不断增多,在共享同一集群时,往往需要同时面对多个业务线或多种分析负载的并发查询。在有限的资源条件下,查询任务间的资源抢占将导致性能下降甚至集群不稳定,因此负…

通过共享网络使树莓派4联网

一、问题 尝试配置/boot/dhcpcd.conf文件无效,wifi依然无法联网,且通过桌面选择wifi输入密码后同样无法联网; 二、环境 1、可以通过网线连接电脑,并且可以连接串口; 2、可以通过静态地址通过网线访问树莓派ssh端口&…

【早晨读书会】深入理解rust并发编程

第一章 线程 线程 线程是调度的最小单位 同一进程中的多条线程将共享该进程中的全部系统资源,如虚拟地址空间,文件描述符和信号处理等等。但同一进程中的多个线程有各自的调用栈(call stack),自己的寄存器上下文&am…

短视频账号矩阵系统===4年技术源头打磨

短视频矩阵系统技术源头打磨需要从多个方面入手,以下是一些建议: 1. 基础技术研发:不断投入资金和人力进行基础技术研发,包括但不限于视频处理、人工智能、大数据等技术,以提高短视频矩阵系统的性能和稳定性。 2. 优化…

Spring Boot | Spring Boot “自定义“ Redis缓存 “序列化机制“

目录: Spring Boot "自定义" Redis缓存 "序列化机制" :一、基于 "注解" 的 "Redis缓存管理" 的 "默认序列化机制" 和 "自定义序列化机制"1.1 基于 "注解" 的 "Redis缓存管理" 的 …

09.JAVAEE之网络初识

1.网络 单机时代 >局域网时代 >广域网时代 >移动互联网时代 1.1 局域网LAN 局域网,即 Local Area Network,简称LAN。 Local 即标识了局域网是本地,局部组建的一种私有网络。 局域网内的主机之间能方便的进行网络通信&#xff0…

高端制造企业生产设备文件管理,怎样保证好用不丢失文件?

高端制造业在市场经济中占据重要角色,在高端制造业企业内部,生产设备又是最关键的一环环,它们不仅负责完成生产任务,同时也会产生大量的文件。这些数据反映了设备的运行状态、生产效率、能源消耗以及产品质量等多个方面&#xff0…