ES indexSort 原理源码解析

news/2025/1/25 8:18:55/
在上一篇文章中,是我对es indexSort的优化对检索性能提升的测试。测试结论是:好的情况下,会有50%的性能提升效果。这让我对它是如何做到的,产生了浓烈的兴趣。

在这篇文章中,结合源码对原理进行一个解析

这里我想先提出两个问题

  1. 如何做到indexSort的,对已经写入的数据,再加入新的数据的时候,是不是需要对原来的数据进行重新排序?

  1. 更新逻辑是什么样的?在使用indexSort后,假如数据要更新,如何保证数据有序?

  1. 为什么会对检索性能提升这么多?

在下文中,会给出答案。

IndexSort使用场景有限

需要需要满足两个条件

  • 需要查询的Sort顺序与IndexSorting的顺序相同

  • 并且不需要获取符合条件的记录总数(TotalHits), "track_total_hits": false

除此之外,还有一些场景不能生效

对于字符串进行Range查询,且Range范围内有很多符合条件的Term的场景。这个场景下,查询可能会慢在两个地方,一个是Range范围内符合条件的Term非常多,扫描FST耗时很大,另一个如果这些Term对应的doc数很多,要构造BitSet也会非常耗时。因为利用IndexSorting的提前中断是发生在BitSet构造好之后,所以并不能优化到这个地方的性能。

对数字类型在BKD-Tree上进行范围查找时,因为BKD-Tree里的docID不是顺序排列的,所以并不像倒排链一样可以顺序读取。如果BKD-Tree上符合条件的docID很多,构造BitSet也很耗时,也不是IndexSorting能够优化到的。

检索需要依赖相关性的时候 ,因为根据相关性排序,一定要扫描一下全表才知道一个全局的分数。不可能通过局部的分数精准的取出TopK。

也就是说,假如在一次查询中,如果时间花费在 构建bitSet上。那么就算用了indexSet也不会有太好的效果。索引可以使用 profile分析一下检索语句,检索过程。

indexSort对检索性能提升的本质

实际上就是对数据做预处理 + 提前终止查询过程

与查询时的Sort不同,IndexSorting是一种预排序,即数据预先按照某种方式进行排序,它是Index的一个设置,不可更改。大家知道,Elasticsearch的底层是Lucene,Lucene中是以Segment为单位进行查询的,这里说的IndexSorting对数据进行预排序也是在每个Segment内有序的。

一个Segment中的每个文档,都会被分配一个docID,(注意这里docID 是内存储用的,不是文档里边的_id),docID从0开始,顺序分配。在没有IndexSorting时,docID是按照文档写入的顺序进行分配的,在设置了IndexSorting之后,docID的顺序就与IndexSorting的顺序一致。

举个例子来说,假如文档中有一列为Timestamp,我们在IndexSorting中设置按照Timestamp逆序排序,那么在一个Segment内,docID越小,对应的文档的Timestamp越大,即按照Timestamp从大到小的顺序分配docID。

Lucene中的倒排链都是按照docID从小到大的顺序排列的,在进行组合条件查询时,也是按照docID从小到大的顺序选出符合条件的doc。那么当查询时的Sort顺序与IndexSorting的顺序相同时,会发生什么呢?

比如查询时希望按照Timestamp降序排序后返回100条结果,在Lucene中进行查询时,发现docID对应的doc顺序也刚好是Timestamp降序排序的,那么查询到前100个符合条件的结果即可返回,这100个一定也是Timestamp最大的100个,这就做到了提前中断。

提前中断可以极大的提升查询性能,特别是当一个查询条件命中的文档数量非常多的时候。在没有IndexSorting时,必须把所有符合条件的文档的docID扫描一遍,并且读取这些doc的一些字段来排序,选出符合条件的doc。有了IndexSorting之后,只需要选出前Top个doc即可,避免了全部扫描,性能甚至可以提升几个数量级。

indexSort的发展历史

在Elasticsearch中,IndexSorting是6.0版本才引入的。ES其实本身是一个分布式壳子,实际上基本上都是在Lucene上做的。所以也要看看在lucene中的发展历史。

在Lucene中,IndexSorting其实已经发展了一段时间。最早在10年,Lucene提供了一个IndexSorter的工具,作为一个离线工具可以对Index数据排序后生成一个新的Index。后来13年加入了SortingMergePolicy,在Segment进行merge的时候可以生成排好序的新Segment,在17年又加入了Sorting on flushed segment的功能,在Segment最初生成时就进行排序。另一方面是Lucene在查询时也做了很多优化,如果有IndexSorting,很多地方做了提前中断,后面会讲提前中断对查询性能的巨大作用。经过几次Lucene的改进和优化,IndexSorting这个功能也终于被集成进Elasticsearch。

indexSort实现原理

如何保证数据根据某个字段排序?

想要弄清楚这个问题,需要大概知道es的底层存储原理。

  1. es的一个分片是一个lucene实例。一次检索发生的最小单元是segment。segment也是lucene的概念。 es每次refresh,会产生一个新的segment。

  1. es 是日志合并树的概念,也就是写入的数据,实际上是不再发生改变。上边说的refresh,实际上就是把堆中index buffer 中的数据生成一个segment,放在os 文件存储系统上,此时还没有落磁盘。但是段一旦产生,就已经不会再改变了。想要实现indexSort 在这在segment生成前,在堆内存中,要进行排序。

  1. 定期对小段进行合并,将符合条件的小段合并成大段。所以想要实现indexSort,会有第二个问题,在segment合并的过程中,再做一次排序。这里就相当于是把两个有序的链表,合并成一个有序的链表。

每个doc写入进来之后,按照写入顺序被分配一个docID,然后被IndexingChain处理,依次要对invert index、store fields、doc values和point values进行处理,有些数据会直接写到文件里,主要是store field和term vector,其他的数据会放到memory buffer中。

首先根据设定的列排序,这个排序可以利用内存中的doc values,排序之后得到老的docID到新docID的映射,因为之前docID是按照写入顺序生成的,现在重排后,生成的是新的排列。如果排序后与原来顺序完全一致,那么什么都不做,跟之前流程一样。

如果排序后顺序发生变化,如何排序呢?对于已经写到文件中的数据,比如store field和term vector,需要从文件中读出来,重新排列后再写到一个新文件里,原来的文件就相当于一个临时文件。对于内存中的数据结构,直接在内存中重排后写到文件中。

相比没有IndexSorting时,对性能影响比较大的一块就是store field的重排,因为这部分需要从文件中读出再写回,而其他部分都是内存操作,性能影响稍小一些。

不将store field和term vector这类数据也buffer在内存中,可以减少index buffer堆的压力
那假如把store field和term vector这类数据也buffer在内存中,是否可以提升IndexSorting开启时的写入性能?

indexSort实现细节

Elasticsearch中实现索引排序(Index Sorting)的方式是在文档被索引时对文档进行排序,并将排序后的信息存储在一个隐藏的字段中。当进行搜索时,Elasticsearch会利用该字段来执行排序操作,而不需要对原始数据进行排序。

具体实现方式是在倒排索引(Inverted Index)中维护一个有序列表(Sorted List),用于存储每个词项(Term)对应的文档ID以及在该词项下的排序值。当有新文档被索引时,会将该文档的ID和排序值插入到对应的有序列表中,并按照排序值进行排序。这样,当进行搜索时,可以根据查询语句中指定的排序规则快速访问对应的有序列表,并将文档ID按照顺序返回,实现了快速的排序操作。

Elasticsearch中的倒排索引实现是基于Lucene的实现。Lucene中的倒排索引使用了类似于跳表(Skip List)的数据结构,其中每个词项对应一个有序链表,链表中的每个节点存储了文档ID和在该词项下的排序值。为了提高搜索性能,Lucene还使用了一些优化技巧,例如使用倒排表(Inverted Table)存储有序链表的起始位置以及跨度(Span),以便快速定位和跳过无关的文档。

需要注意的是,索引排序会占用额外的存储空间,并在索引文档时会增加一定的性能开销。因此,在选择使用索引排序时,需要根据具体情况权衡性能和存储需求。

indexSort 相关源码

在Elasticsearch中实现Index Sorting的主要代码位于lucene-core模块中的Sorter.java和SorterTemplate.java文件中,这些代码是在Lucene中实现排序的基础上,针对Elasticsearch的需求进行了一些修改和优化。

Index Sorting的实现主要分为两个阶段:索引时的排序和搜索时的排序。

  1. 索引时的排序

在Elasticsearch中,索引时的排序是通过修改lucene-core模块中的IndexWriter.java文件实现的。具体而言,IndexWriter在向索引中添加新文档时,会根据排序规则计算出每个文档的排序值,并将排序值存储在一个名为"_doc"的隐藏字段中。同时,IndexWriter还会在每个字段的倒排索引中添加一个TermOrdValComparator对象,用于在添加新文档时对文档进行排序。

TermOrdValComparator实现了TermOrdValComparatorSource接口,其中TermOrdValComparatorSource定义了用于计算文档排序值的getComparator方法。在Elasticsearch中,TermOrdValComparatorSource的实现类是ElasticsearchFieldComparatorSource,该类会根据排序规则创建不同的FieldComparator对象,并在FieldComparator中实现计算文档排序值的方法。

  1. 搜索时的排序

在搜索时,Elasticsearch会根据查询语句中的排序规则从lucene-core模块中获取排序器(Sorter)对象,然后利用该对象对搜索结果进行排序。具体而言,Sorter会根据查询语句中指定的排序规则获取排序字段的倒排索引,并从中获取每个文档的排序值,然后根据排序规则对文档进行排序,并返回排序后的文档列表。

总的来说,Elasticsearch的Index Sorting实现是在lucene-core模块的基础上进行的,主要是通过修改IndexWriter.java文件和创建ElasticsearchFieldComparatorSource对象来实现索引时的排序,以及通过Sorter.java文件和ElasticsearchFieldComparatorSource对象来实现搜索时的排序。

具体来说,Elasticsearch的Index Sorting的实现可以分为以下几个步骤:

  1. 在创建索引时,指定需要排序的字段以及排序规则,例如:

PUT my_index
{"mappings": {"properties": {"my_field": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}}}}},"settings": {"sort": {"my_field.keyword": {"order": "asc"}}}
}

在这个例子中,我们指定了对名为"my_field.keyword"的字段按照升序进行排序。

  1. 在文档被索引时,Elasticsearch会为每个文档计算出其排序值,并将排序值存储在一个名为"_doc"的隐藏字段中。

  1. 在搜索时,根据查询语句中的排序规则创建排序器(Sorter)对象,并利用该对象对搜索结果进行排序。排序器会从倒排索引中获取每个文档的排序值,并根据排序规则对文档进行排序,最终返回排序后的文档列表。

Elasticsearch的Index Sorting实现并不复杂,但是它可以大幅提升搜索性能,特别是在需要对大量文档进行排序时。由于Index Sorting会在索引时对文档进行排序,因此可以避免在搜索时对所有文档进行排序的开销,从而大幅提升搜索性能。所以这项提升的本质是预处理技术,将需要实时计算的部分,在数据写入的时候,做一个预处理。这是其实洗升了写入的速度。牺牲了将近一倍。

在Elasticsearch的源码中,Index Sorting的实现是基于Lucene的实现进行的,具体涉及到以下几个类:

  1. ElasticsearchFieldComparatorSource

ElasticsearchFieldComparatorSource是Elasticsearch对Lucene的FieldComparatorSource接口的一个实现,用于计算文档排序值。在实现中,ElasticsearchFieldComparatorSource会根据排序规则创建不同的FieldComparator对象,其中FieldComparator实现了compare方法,用于比较文档排序值的大小。在compare方法中,ElasticsearchFieldComparatorSource会利用SortField对象中的属性信息,以及Document对象中的排序值信息来计算文档的排序值。

  1. IndexSortingConsumer

IndexSortingConsumer是Elasticsearch的一个内部类,用于在索引文档时进行排序。在实现中,IndexSortingConsumer会利用ElasticsearchFieldComparatorSource计算每个文档的排序值,并将排序值存储在一个名为"_doc"的隐藏字段中。同时,IndexSortingConsumer还会在每个字段的倒排索引中添加一个TermOrdValComparator对象,用于在添加新文档时对文档进行排序。

  1. Sorter

Sorter是Elasticsearch用于对搜索结果进行排序的核心类。在实现中,Sorter会根据查询语句中指定的排序规则获取排序字段的倒排索引,并从中获取每个文档的排序值,然后根据排序规则对文档进行排序,并返回排序后的文档列表。

  1. SortBuilder

SortBuilder是Elasticsearch用于创建排序规则的类。在实现中,SortBuilder会根据用户指定的排序规则创建SortField对象,并将SortField对象传递给Sorter进行排序。

以上这些类都是基于Lucene的实现进行的,因此其实现原理与Lucene类似。在具体实现过程中,Elasticsearch还做了一些优化,例如在排序时利用FieldDataCache缓存排序字段的倒排索引,以及在排序时利用位集操作来优化文档排序的计算过程。

参考文章:剖析Elasticsearch的IndexSorting:一种查询性能优化利器


http://www.ppmy.cn/news/36824.html

相关文章

【组织架构】中国铁路上海局集团有限公司

0 参考 中国铁路上海局集团有限公司 1 公司介绍 中国铁路上海局集团有限公司成立于1994年11月15日,注册地位于上海市静安区天目东路80号,法定代表人为侯文玉。公司是中国国家铁路集团有限公司管理的18个铁路局集团有限公司之一,曾用名“上…

电脑开机出现英文字母开不了机怎么办?收藏好这份实用指南!

案例:电脑开机出现英文字母开不了机 “家人们,好奇怪呀,我的电脑开机时出现了一串英文字母,一直都开不了机,这是怎么回事呢?我应该怎么解决这个问题呢?” 在使用电脑时,我们有时会…

Android 默认设置

时间:2021/03/05 之前公司不允许csdn,笔记写在其它地方。最近整理过来 1、framework中修改setting中的默认值 https://blog.csdn.net/deng0zhaotai/article/details/41380307 2、默认开启无障碍服务 AccessibilityService //MyAccessibilityServicel…

国产蓝牙耳机品牌有哪些?盘点口碑最好的国产蓝牙耳机

随着音乐、通话等活动的普及,耳机已经成为了我们日常生活中不可或缺的配件。但是在市场上,耳机种类繁多,品质参差不齐,许多人不知道怎么选购合适的蓝牙耳机,下面小编就来盘点当前口碑表现不错的蓝牙耳机。 一、南卡小…

【C++进阶】异常

文章目录C语言传统处理异常的方式C异常概念异常的用法异常的抛出和捕获异常的重新抛出异常安全异常规范自定义异常体系标准库异常体系异常的优缺点C语言传统处理异常的方式 传统的错误处理机制: 终止程序,如assert,缺陷:用户难以…

浅谈Scrapy框架普通反爬虫机制的应对策略

简单低级的爬虫速度快,伪装度低,如果没有反爬机制,它们可以很快的抓取大量数据,甚至因为请求过多,造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢,对服务器造成的负担也相对较小。 爬虫与反爬虫&…

OSPF------LSA 详解

LSA头部 [r1]display ospf lsdb 链路状态老化时间(Link-State Age) 16bits,单位s当该LSA被始发路由器产生时,该值被设置为0,之后随着该LSA在网络中被洪泛,老化时间逐渐累积。(但是不能让它一直增长&#x…

杰理-动态调整EDR和BLE的发射功率

杰理-动态调整EDR和BLE的发射功率 蓝牙TX发射功率档位, 参考功率值(dbm) ,超过等级范围默认设置为最高档 BD29: rang(0~8) {-18.3, -14.6, -12.1, -8.5, -6.0, -4.1, -1.1, 1.1, 4.0, 6.1} BD19: rang(0~10) {-17.6, -14.0, -11.5, -9.6, -6.6, -4.4, -0.79, 1.12, 3.8, 5.65,…