全网最简单的ElasticSearch入门指引

文章目录

- Elasticsearch概述
- - 1. Elasticsearch 的架构
  - - 主要组件
  - 2. Elasticsearch 的工作原理
  - - 索引操作
    - 搜索操作
    - 分布式特性
  - 3. Elasticsearch 的特点
  - 4. Elasticsearch 的核心功能
  - - 文档操作
    - 查询语言
    - 聚合分析
  - 5. Elasticsearch 的配置与管理
  - - 一、配置文件
    - 二、核心配置参数
  - 6. 应用场景
  - 7. 开发者工具
  - 总结
- 主要流程
- - 创建新文档
  - - 一、客户端发送写入请求
    - 二、路由到正确的分片
    - 三、主分片写入
    - 四、主从复制
    - 五、刷新与持久化
    - 六、确认写入成功
    - 七、段合并与优化
  - 文档检索
  - - 一、索引构建
    - 二、查询解析
    - 三、路由到正确的分片
    - 四、分片查询
    - 五、结果聚合与排序
    - 六、渲染搜索结果
    - 七、性能优化
  - 文档删除
  - - 一、基本概念
    - 二、删除操作的底层原理
    - 三、删除操作的性能考虑
  - 文档更新
  - - 一、更新过程概述
    - 二、详细步骤
    - 三、段合并与资源优化
    - 四、版本控制与并发处理

Elasticsearch概述

Elasticsearch 是一个分布式的、RESTful 风格的搜索和分析引擎，基于 Lucene 构建。它能够存储、搜索和分析海量数据，并且提供了强大的全文搜索能力。Elasticsearch 广泛应用于日志分析、实时监控、全文搜索等领域。以下是 Elasticsearch 的详细解释：

1. Elasticsearch 的架构

Elasticsearch 采用主从架构，由一个或多个节点组成集群。每个节点都是一个服务器进程，可以运行在一个或多个机器上。集群中的每个节点都存储着数据的部分副本，并且可以处理来自客户端的请求。
es-core-arc

主要组件

节点（Node）：集群中的一个实例。
集群（Cluster）：一组节点构成的集合，共享数据并协调处理请求。
索引（Index）：类似于关系数据库中的表，索引是用来存储文档的地方。
文档（Document）：索引中的单个记录，通常是一个 JSON 对象。
映射（Mapping）：定义索引中文档的结构，类似于数据库中的表结构。
类型（Type）：以前版本中用于分类文档的逻辑概念，新版本中已移除。
分片（Shard）：索引的逻辑分区，每个索引都可以拆分成多个分片，以实现水平扩展。
副本（Replica）：索引分片的副本，用于提高可用性和可靠性。

2. Elasticsearch 的工作原理

索引操作

创建索引：定义索引的映射和设置。
索引文档：将文档存储到索引中。
更新文档：修改索引中的文档。
删除文档：从索引中删除文档。

搜索操作

查询文档：通过查询 DSL（Domain Specific Language）来搜索文档。
聚合（Aggregation）：对文档进行统计分析。

分布式特性

数据分片：索引被分割成分片，每个分片都可以独立地存储在集群的不同节点上。
复制分片：为了提高可用性，每个分片都有一个或多个副本。
路由机制：通过哈希算法将文档路由到正确的分片上。

3. Elasticsearch 的特点

es-key-features

实时搜索：能够实时地搜索和返回结果。
高可扩展性：通过水平扩展来应对数据量的增长。
分布式：能够跨多个节点和服务器工作。
RESTful 接口：使用 HTTP 协议进行交互，支持 JSON 数据格式。
插件生态系统：拥有丰富的插件生态，可以轻松扩展功能。

4. Elasticsearch 的核心功能

文档操作

索引文档：存储文档。
获取文档：检索文档。
更新文档：修改文档。
删除文档：删除文档。

查询语言

Elasticsearch 支持多种查询语言，包括：

Match Query：基于全文搜索的查询。
Term Query：精确匹配查询。
Range Query：范围查询。
Bool Query：布尔查询，支持 AND、OR、NOT 等逻辑运算。

聚合分析

度量聚合：统计数值型字段。
桶聚合：分组统计。
管道聚合：基于其他聚合的结果进行进一步分析。

5. Elasticsearch 的配置与管理

以下是对Elasticsearch核心配置的详细解析：

一、配置文件

Elasticsearch的核心配置文件主要包括以下几个：

elasticsearch.yml：主配置文件，用于配置Elasticsearch的各种参数，如集群名称、节点名称、网络设置、数据路径等。
jvm.options：JVM参数配置文件，用于设置Java虚拟机（JVM）的最小堆内存（Xms）和最大堆内存（Xmx）等参数。
log4j2.properties：日志配置文件，用于配置Elasticsearch的日志输出格式和级别。

二、核心配置参数

集群相关配置
- cluster.name：集群名称，用于标识Elasticsearch集群。在同一个网段中，具有相同cluster.name的Elasticsearch服务会自动组成集群。
- node.name：节点名称，用于标识集群中的每个节点。节点名称可以自动生成，也可以手动配置。
- discovery.seed_hosts：集群中其他节点的地址列表，用于节点发现。可以配置IP地址、端口号或域名。
- cluster.initial_master_nodes：参与选举为主节点的节点列表。在集群首次启动时，这些节点将参与主节点的选举。
网络相关配置
- network.host：节点的网络地址，用于节点间的通信和客户端的访问。在单节点环境中，可以配置为本机地址；在集群环境中，通常配置为0.0.0.0以允许任何地址的访问。
- http.port：对外提供服务的HTTP端口号，默认为9200。
- transport.port：节点间通信使用的TCP端口号，默认为9300。在集群环境中，需要确保该端口在节点间是可访问的。
数据路径和日志路径
- path.data：数据存放路径，用于存储Elasticsearch的索引数据。可以配置为多个路径，以提高数据的读写性能。
- path.logs：日志存放路径，用于存储Elasticsearch的日志文件。通过查看日志文件，可以了解Elasticsearch的运行状态和错误信息。
内存设置
- 在jvm.options文件中，可以设置JVM的最小堆内存（-Xms）和最大堆内存（-Xmx）。Elasticsearch建议将JVM堆内存设置为机器总内存的一半，但不超过32GB。这是因为Lucene使用的数据结构在内存中的表现与JVM的垃圾回收机制有关，过大的堆内存设置可能导致长时间的垃圾回收停顿。
- Elasticsearch还建议禁用Swap分区，因为当物理内存不足时，操作系统会将一些内存页交换到磁盘上，这会导致性能急剧下降。
安全性和审计
- 通过配置xpack.security.enabled等参数，可以启用Elasticsearch的安全功能，如身份验证和授权、传输层安全性（TLS）等。
- 还可以配置审计日志记录功能，用于记录与安全相关的事件，如身份验证失败、拒绝连接和数据访问事件等。
分片和副本
- 在创建索引时，可以指定分片的数量和副本的数量。分片是Elasticsearch分布式存储和并行处理的基础，而副本则用于提供数据的高可用性和容错性。
- 分片的数量在索引创建后不能更改，而副本的数量可以在索引创建后动态调整。
其他高级配置
- 如文件描述符限制、断路器配置等，这些配置通常用于优化Elasticsearch的性能和稳定性。例如，可以通过调整文件描述符限制来避免在处理大量文件和网络连接时出现的资源耗尽问题；通过配置断路器来防止某些操作导致内存溢出错误等。

综上所述，Elasticsearch的核心配置涉及多个方面，包括集群配置、网络配置、数据路径和日志路径配置、内存设置、安全性和审计配置以及分片和副本配置等。正确的配置对于Elasticsearch的性能和稳定性至关重要。因此，在配置Elasticsearch时，需要仔细考虑每个参数的含义和取值范围，并根据实际情况进行适当调整。

6. 应用场景

全文搜索：网站和应用的全文搜索功能。
日志分析：收集和分析日志数据。
实时监控：实时监控系统和应用的状态。
数据分析：对大量数据进行分析和挖掘。

7. 开发者工具

Elasticsearch 提供了多种工具和客户端库来帮助开发者进行开发：

Kibana：用于可视化 Elasticsearch 数据的 Web 界面。
Logstash：用于收集、解析和传输日志数据。
Beats：轻量级的 Shipper（发送器），用于将数据发送到 Logstash 或直接发送到 Elasticsearch。

总结

Elasticsearch 是一个功能强大且高度可扩展的搜索和分析引擎，它提供了实时搜索、分布式存储和丰富的查询语言等功能。通过 Elasticsearch，可以轻松地构建高性能的应用程序和服务，特别是在需要处理大量数据和实时查询的场景下。

主要流程

创建新文档

Elasticsearch（简称ES）新文档录入的完整过程涉及多个步骤，包括客户端发送写入请求、路由到正确的分片、主分片写入、主从复制以及确认写入成功等。以下是对这一过程的详细描述：
es-segment

一、客户端发送写入请求

客户端通过REST API向Elasticsearch集群发送写入请求，该请求中包含要写入的索引、文档类型（在Elasticsearch 7.x及更高版本中，类型已被弃用，默认为_doc）和文档数据。文档数据通常以JSON格式提供。

二、路由到正确的分片

Elasticsearch根据请求中的索引信息和文档的ID（如果指定了的话），通过哈希算法确定该文档应该存储在哪个分片上。默认情况下，Elasticsearch使用文档的ID进行哈希计算，并与索引的主分片数量进行取模运算，以确定文档存储的具体分片。如果使用了自定义路由，则可以使用routing参数来指定文档的存储位置，这将覆盖默认的基于文档ID的路由逻辑。

三、主分片写入

一旦确定了目标分片，Elasticsearch会将写入请求发送到负责存储该文档的主分片所在的数据节点。在主分片上，Elasticsearch首先将文档写入到一个称为“事务日志”（Translog）的文件中。事务日志记录了所有的写入操作，包括新增、更新和删除，以确保在意外失败时能够恢复数据。

接着，Elasticsearch将文档的内容写入到内存中，并缓冲起来。内存中的数据结构称为“索引缓冲区”（Index Buffer）。这个过程是快速的，因为数据只是被写入了内存，而没有被持久化到磁盘上。

四、主从复制

为了确保数据的高可用性和容错能力，Elasticsearch会为主分片创建一个或多个副本分片。副本分片存储了主分片的完整副本，并位于不同的节点上。一旦主分片完成了文档的写入操作，Elasticsearch会将该文档复制到所有的副本分片上。这个过程是异步的，不会阻塞主分片的写入操作。

五、刷新与持久化

每隔一段时间（默认情况下每1秒），Elasticsearch会进行一次“刷新”（Refresh）操作。在刷新过程中，Elasticsearch会将内存中的索引缓冲区的数据刷新到磁盘上，创建一个新的段（Segment），并使其变得可搜索。这个过程不会阻塞新的写入操作，因为新的写入操作会继续被写入到内存中的索引缓冲区中，并在下一个刷新周期中被持久化到磁盘上。

六、确认写入成功

一旦文档被主分片和所有副本分片成功写入，并且刷新操作已经完成，Elasticsearch会向客户端发送写入成功的响应。这个响应包括操作是否成功以及相应的元数据（如文档ID和版本号等）。

七、段合并与优化

随着时间的推移，Elasticsearch中的段数量会逐渐增加。为了提高存储效率和搜索性能，Elasticsearch会定期将多个小段合并成较大的段。这个过程是自动进行的，通常在写入和获取请求的低峰期执行。段合并会减少段的数量，从而加快搜索速度，并释放不必要的存储空间。

综上所述，Elasticsearch新文档录入的完整过程涉及多个步骤和组件的协同工作。通过合理的配置和优化措施，可以确保Elasticsearch系统的高效、稳定和可靠运行。

文档检索

Elasticsearch（简称ES）的检索过程底层原理涉及多个组件和步骤，以下是对这一过程的完整描述：
es-index

一、索引构建

在Elasticsearch中，索引是存储文档的集合，类似于关系型数据库中的数据库。为了进行高效的检索，Elasticsearch会在索引构建阶段对文档进行分词、去停用词、去标点符号等处理，并生成倒排索引。

分词：将文档中的文本内容拆分成独立的单词或词组。
去停用词：去除对搜索无意义的常见词汇，如“的”、“是”等。
去标点符号：去除文本中的标点符号，以减少噪音。
生成倒排索引：将单词映射到包含这些单词的文档列表，即构建倒排索引。倒排索引是Elasticsearch进行高效检索的关键数据结构。

二、查询解析

当用户通过Elasticsearch的客户端API发送搜索请求时，请求首先会被解析成一个或多个查询语句。这些查询语句可以是简单的关键词搜索，也可以是复杂的布尔查询、范围查询等。

三、路由到正确的分片

Elasticsearch会根据查询语句中的索引信息和可能的路由参数（如果指定了的话），通过哈希算法确定查询应该路由到哪些分片上。这个过程与文档写入时的路由过程类似。

四、分片查询

一旦确定了目标分片，Elasticsearch会将查询请求发送到负责存储这些分片的数据节点。每个数据节点上的分片会并行处理查询请求，并返回相应的结果。

五、结果聚合与排序

所有相关的分片处理完查询请求后，会将结果返回给协调节点（通常是接收查询请求的节点）。协调节点会对这些结果进行聚合、排序、分页等处理，以生成最终的搜索结果。

聚合：将来自不同分片的结果合并成一个统一的结果集。
排序：根据查询语句中的排序条件对结果进行排序。
分页：根据查询语句中的分页参数返回相应的结果子集。

六、渲染搜索结果

最终，协调节点会将处理后的搜索结果返回给客户端。客户端可以根据这些结果渲染用户界面，展示给用户看。

七、性能优化

为了提高检索性能，Elasticsearch采用了多种优化策略：

缓存：Elasticsearch会对某些查询结果进行缓存，以加速重复查询的响应速度。
索引分片与副本：通过索引分片和副本机制，Elasticsearch可以实现水平扩展和高可用性。
段合并：为了优化存储和搜索性能，Elasticsearch会定期进行段合并操作，将多个小的段合并成更大的段。
倒排索引优化：Elasticsearch会对倒排索引进行定期的优化和维护，以确保其高效性和准确性。

综上所述，Elasticsearch的检索过程底层原理涉及多个组件和步骤的协同工作。通过合理的配置和优化措施，可以确保Elasticsearch系统的高效、稳定和可靠运行，为用户提供优质的搜索体验。

文档删除

Elasticsearch（简称ES）文档删除的底层原理主要涉及到其内部的数据结构和存储机制。以下是对ES文档删除底层原理的详细解释：

一、基本概念

Index（索引）：ES中的索引类似于传统数据库中的数据库，是存储数据的地方。
Document（文档）：索引中的一条数据记录，可以类比为数据库中的一行数据。
Shard（分片）：为了处理大规模数据，ES将索引水平拆分为多个分片，每个分片是一个独立的Lucene索引。
Segment（分段）：Lucene索引内部的数据结构，每个Segment是一个倒排索引，包含了部分文档的数据。
Translog（事务日志）：记录所有对索引的修改操作，用于故障恢复。

二、删除操作的底层原理

删除标记：
- 当用户发出删除请求时，ES并不会立即从磁盘上删除文档。相反，它会在相应的Segment的del文件中记录一个删除标记，表示该文档已被删除。
- 这个删除标记的作用是，在后续的搜索操作中，ES会过滤掉这些被标记为删除的文档。
Segment合并：
- 随着时间的推移，索引中会产生大量的Segment，每个Segment都可能有自己的del文件。
- 为了优化搜索性能，ES会定期合并这些Segment。在合并过程中，ES会检查每个Segment的del文件，并真正地从合并后的新Segment中删除那些被标记为删除的文档。
- 因此，文档的真正删除是在Segment合并时发生的。
Translog的作用：
- 在删除操作发生时，ES还会将删除操作记录到Translog中。
- 如果ES节点发生故障并重启，它会读取Translog中的操作日志，并重新执行这些操作，以确保数据的一致性。
- 在这个过程中，如果发现有删除操作，ES会相应地更新Segment的del文件。
数据的持久化：
- ES通过定期执行fsync操作，将内存中的Segment数据强制刷新到磁盘上，以确保数据的持久化。
- 同时，Translog也会定期被写入磁盘，以减少数据丢失的风险。

三、删除操作的性能考虑

延迟删除：由于删除操作只是标记删除并延迟到Segment合并时才真正删除，因此ES可以快速地响应删除请求，而不需要立即进行磁盘I/O操作。
合并策略：ES会根据Segment的大小和数量来决定何时进行合并。通常，较小的Segment会被优先合并，以减少搜索时的开销。
资源利用：Segment合并是一个资源密集型的操作，ES会尽可能地平衡合并操作的频率和资源利用率，以确保系统的整体性能。

综上所述，ES文档删除的底层原理是通过在Segment的del文件中记录删除标记来实现的，并依赖Segment合并来真正删除文档。同时，Translog用于记录删除操作并确保数据的一致性。这种设计使得ES能够在保证数据一致性的同时，提供高效的删除操作性能。

文档更新

Elasticsearch（简称ES）文档更新的底层原理主要基于其底层搜索引擎Lucene的不可变段（segments）设计。由于Lucene段是不可变的，ES不能直接修改已存在的文档，而是通过一种巧妙的方式来模拟更新的效果。以下是ES文档更新底层原理的详细解释：

一、更新过程概述

当接收到一个更新请求时，ES并不是简单地替换旧文档，而是执行一系列步骤来模拟更新操作。这些步骤包括查找文档、创建新版本、索引新文档以及标记旧文档为已删除。

二、详细步骤

查找文档：
- ES首先根据文档ID找到对应的原始文档。这一步骤通常涉及到底层Lucene索引的搜索操作。
创建新版本：
- 在找到原始文档后，ES会在内部生成一个新的文档版本。这个新版本通常只包含已更改的部分，而不是整个文档。这有助于减少存储空间的占用和提高更新效率。
- 新版本的文档会保留相同的文档ID，但会分配一个更高的版本号。这个版本号用于在后续操作中区分不同版本的文档。
索引新文档：
- ES将更新后的文档作为一个新的文档索引到系统中。这一步骤与索引新文档的过程类似，包括将文档添加到内存缓冲区、刷新到文件系统缓存中的新段以及后续的fsync操作等。
- 新文档被索引后，就可以被搜索和查询了。
标记旧文档为已删除：
- 在后台，ES会在与该文档关联的段的.del文件中标记旧文档为已删除。这个标记不会立即从磁盘上删除旧文档，而是确保在后续查询时，旧版本的文档会被过滤掉。
- 标记为已删除的文档仍然占用磁盘空间，直到在后续的段合并过程中被实际删除。

三、段合并与资源优化

段合并：
- 在后台，ES会定期进行段合并操作。这些操作将多个小段合并成一个大段，并在此过程中实际移除已被标记为删除的文档。
- 段合并有助于减少索引的碎片化和提高搜索性能。同时，它还能释放被删除文档占用的磁盘空间。
资源优化：
- ES通过合理的段合并策略来平衡资源利用率和性能。例如，它会优先合并较小的段以减少搜索时的开销，并尽量避免在高峰期进行合并操作以减少对系统性能的影响。

四、版本控制与并发处理

版本控制：
- ES中的每个文档都有一个内部版本号（_version字段）。每当文档被更新时，版本号会自动递增。
- 通过比较请求中的版本号与存储中的版本号，ES能够判断请求是否基于最新的文档状态。这有助于避免在高并发环境下出现数据覆盖的问题。
并发处理：
- ES采用了乐观并发控制策略来管理文档的更新和冲突。这种策略允许多个客户端同时操作文档，并在提交时检查冲突。
- 如果发生冲突（即某个客户端在读取文档后，其他客户端已经修改了该文档），则ES会拒绝后续的更新请求，并返回版本冲突的错误。

综上所述，ES文档更新的底层原理是通过创建新版本文档、索引新文档以及标记旧文档为已删除来实现的。这一过程中涉及到底层Lucene索引的搜索、版本控制、并发处理以及段合并等多个方面。通过这些机制，ES能够在保证数据一致性和完整性的同时，提供高效的更新操作性能。