Elasticsearch 索引文档的过程

embedded/2024/12/22 19:00:27/

协调节点默认使用文档 ID 参与计算（也支持通过 routing），以便为路由提供合适的分片。

1 shard = hash(document_id) % (num_of_primary_shards)

1、当分片所在的节点接收到来自协调节点的请求后，会将请求写入到Memory Buffer ，然后定时（默认是每隔 1 秒）写入到 Filesystem Cache ，这个从 Momery Buffer 到Filesystem Cache 的过程就叫做 refresh ；
2、当然在某些情况下，存在 Momery Buffer 和 Filesystem Cache 的数据可能会丢失，ES是通过 translog 的机制来保证数据的可靠性的。其实现机制是接收到请求后，同时也会写入到translog中，当 Filesystem cache 中的数据写入到磁盘中时，才会清除掉，这个过程叫做flush；3、在 flush 过程中，内存中的缓冲将被清除，内容被写入一个新段，段的fsync 将创建一个新的提交点，并将内容刷新到磁盘，旧的 translog 将被删除并开始一个新的translog。咕泡科技出品,严禁商用
4、 flush 触发的时机是定时触发（默认 30 分钟）或者 translog 变得太大（默认为512M）时；
补充：关于 Lucene 的 Segement：
1、 Lucene 索引是由多个段组成，段本身是一个功能齐全的倒排索引。2、段是不可变的，允许 Lucene 将新的文档增量地添加到索引中，而不用从头重建索引。3、对于每一个搜索请求而言，索引中的所有段都会被搜索，并且每个段会消耗CPU的时钟周、文件句柄和内存。这意味着段的数量越多，搜索性能会越低。
4、为了解决这个问题，Elasticsearch 会合并小段到一个较大的段，提交新的合并段到磁盘，并删除那些旧的小段。

Elasticsearch 索引文档的过程

相关文章

14 Php学习：表单

数据结构和算法：贪心

【leetcode面试经典150题】66. 分隔链表（C++）

[Windows] Bypass分流抢票 v1.16.25 五一黄金周自动抢票软件（2024.02.08更新）

04-15 周一 GitHub仓库CI服务器actions-runner和workflow yaml配置文档解析

C#面：.NET默认的委托类型有哪几种？

（mac）性能监控平台搭建JMeter+Grafana+Influxdb

Java进阶-Stream流