协调节点默认使用文档 ID 参与计算( 也支持通过 routing) , 以便为路由提供合适的分片。
1 shard = hash(document_id) % (num_of_primary_shards)
1、 当分片所在的节点接收到来自协调节点的请求后 ,会将请求写入到Memory Buffer ,然后定时( 默认是每隔 1 秒)写入到 Filesystem Cache ,这个从 Momery Buffer 到Filesystem Cache 的过程就叫做 refresh ;
2、当然在某些情况下 ,存在 Momery Buffer 和 Filesystem Cache 的数据可能会丢失,ES是通过 translog 的机制来保证数据的可靠性的。其实现机制是接收到请求后,同时也会写入到translog中,当 Filesystem cache 中的数据写入到磁盘中时 , 才会清除掉,这个过程叫做flush;3、在 flush 过程中 , 内存中的缓冲将被清除 , 内容被写入一个新段,段的fsync 将创建一个新的提交点 , 并将内容刷新到磁盘 ,旧的 translog 将被删除并开始一个新的translog。咕泡科技出品,严禁商用
4、 flush 触发的时机是定时触发( 默认 30 分钟) 或者 translog 变得太大(默认为512M)时;
补充 :关于 Lucene 的 Segement:
1、 Lucene 索引是由多个段组成 , 段本身是一个功能齐全的倒排索引。2、段是不可变的 , 允许 Lucene 将新的文档增量地添加到索引中 ,而不用从头重建索引。3、对于每一个搜索请求而言 ,索引中的所有段都会被搜索 , 并且每个段会消耗CPU的时钟周、文件句柄和内存。这意味着段的数量越多 ,搜索性能会越低。
4、为了解决这个问题 ,Elasticsearch 会合并小段到一个较大的段,提交新的合并段到磁盘,并删除那些旧的小段。