使用 Elasticsearch Reindex API 迁移数据

embedded/2024/11/15 8:23:10/

使用 Elasticsearch Reindex API 迁移数据

在 Elasticsearch 中,随着需求的变化,可能需要对索引进行重建或更新。这通常涉及创建新索引、迁移数据等步骤。本文介绍如何使用 Reindex API 将旧索引中的数据迁移到新索引中

一、步骤概述

  1. 创建新索引:根据需求创建一个新索引,新旧索引的字段名称和数据类型必须一致

  2. 数据完整性:确保在迁移过程中,旧索引不再进行写入操作,以避免数据不一致

  3. 迁移数据:使用 Reindex API 将旧索引中的数据重新索引到新索引中

二、reindex基本使用

  • 源索引的 _source 字段必须启用,才能提取文档内容
  • 目标索引在执行 _reindex 前应按照需求配置好,Reindex API 不会复制源索引的设置(例如映射、分片、副本等),这些需要在重新索引前手动配置

基本使用示例

POST /_reindex
{"source": {"index": "my-index-000001"},"dest": {"index": "my-new-index-000001"}
}

请求条件

如果启用了 Elasticsearch 的安全功能,执行 Reindex API 需要具备以下权限:

  • 对源数据流、索引或别名的读取权限。
  • 对目标数据流、索引或别名的写入权限。
  • 如果希望 Reindex API 自动创建数据流或索引,还需具备 auto_configurecreate_indexmanage 权限。
  • 若从远程集群重新索引,需要配置 reindex.remote.whitelist 设置,并且源集群用户需要具有 monitorread 权限。

异步执行 Reindex

请求默认是异步执行的,虽然 API 会立即返回一个响应,但任务实际上在后台执行。如果希望同步执行任务,可以在 URL 中添加 wait_for_completion=true 参数,示例如下:

POST _reindex?wait_for_completion=true&refresh
{"source": {"index": "index_v1"},"dest": {"index": "index_v2"}
}

三、指定slice并行和size大小优化速度

创建好新索引后,可以使用 Reindex API 进行数据迁移。以下是迁移数据的示例:

POST _reindex?slices=20&refresh
{"source": {"index": "index_v1","size": 5000},"dest": {"index": "index_v2"}
}
  • slices:可以指定并发执行的切片数,帮助加快迁移速度
  • size:每次从源索引中读取的文档数量

上面两个参数要根据服务器硬件的配置和网络传输速度等进行设置,并非越高越好

监控重建任务

在进行数据迁移时,可以使用以下命令监控重建任务的进度:

GET /_tasks?detailed=true&actions=*reindex

这个命令会返回当前所有重建任务的详细信息,包括任务的状态、已处理的文档数量、总文档数量以及任何可能的错误信息

image-20240920172550693

如果需要查看特定的任务信息,可以使用:

GET /_tasks/<task_id>

<task_id> 替换为实际的任务 ID

取消重建任务

如果在迁移过程中需要停止重建任务,可以使用以下命令取消指定任务:

POST /_tasks/<task_id>/_cancel

注意事项

  • 在迁移完成后,可以对新索引进行验证,确保数据完整性和准确性
  • 迁移完成后,可以删除旧索引以释放存储空间

以下为官方文档的翻译,官方文档链接:[Reindex API | Elasticsearch Guide 8.15] | Elastic

官方文档的翻译:Reindex API

Reindex API 用于将文档从一个索引复制到另一个索引。它允许你将数据从源索引、别名或数据流迁移到目标索引。但需要注意,源和目标不能相同,不能将数据流重新索引到自身。

基本要求

  • 源索引的 _source 字段必须启用,才能提取文档内容。
  • 目标索引在执行 _reindex 前应按照需求配置好,Reindex API 不会复制源索引的设置(例如映射、分片、副本等),这些需要在重新索引前手动配置。

基本使用示例

POST /_reindex
{"source": {"index": "my-index-000001"},"dest": {"index": "my-new-index-000001"}
}

请求条件

如果启用了 Elasticsearch 的安全功能,执行 Reindex API 需要具备以下权限:

  • 对源数据流、索引或别名的读取权限。
  • 对目标数据流、索引或别名的写入权限。
  • 如果希望 Reindex API 自动创建数据流或索引,还需具备 auto_configurecreate_indexmanage 权限。
  • 若从远程集群重新索引,需要配置 reindex.remote.whitelist 设置,并且源集群用户需要具有 monitorread 权限。

功能描述

Reindex API 会从源索引提取文档,并将其重新索引到目标索引。支持复制全部文档或文档子集。在没有指定 version_type 或设置为 internal 时,Elasticsearch 将不考虑版本冲突,直接覆盖目标索引中已有的相同 ID 文档。如果将 version_type 设置为 external,则会保留源文档的版本信息,创建缺失文档,更新目标索引中较旧版本的文档。

异步执行 Reindex

通过将 wait_for_completion 设置为 false,可以异步执行 Reindex。此时,Elasticsearch 会执行一些预检操作,启动请求,并返回一个任务 ID,你可以用它来取消或查询任务状态。

从多个源重新索引

如果需要从多个源进行重新索引,建议一次处理一个源,而不是使用通配符进行批量处理。这样可以在出现错误时重新启动特定的索引过程。

示例 Bash 脚本

for index in i1 i2 i3 i4 i5; docurl -HContent-Type:application/json -XPOST localhost:9200/_reindex?pretty -d'{"source": {"index": "'$index'"},"dest": {"index": "'$index'-reindexed"}}'
done

限速和重新限速

Reindex 支持通过 requests_per_second 参数对批次操作进行限速。设置为任意正数可限制每秒的请求次数,设置为 -1 则禁用限速。例如,假设批次大小为 1000,requests_per_second 设置为 500:

目标时间 = 1000 / 500 = 2 秒
等待时间 = 目标时间 - 写入时间 = 2 秒 - 0.5= 1.5

可以使用 _rethrottle API 动态调整正在运行的 Reindex 请求的限速:

POST _reindex/{task_id}/_rethrottle?requests_per_second=-1

分片处理(Slicing)

Reindex 支持使用切片(Sliced scroll)并行化处理。手动切片时,可以为每个请求提供一个 slice 参数:

POST /_reindex
{"source": {"index": "my-index-000001","slice": {"id": 0,"max": 2}},"dest": {"index": "my-new-index-000001"}
}

也可以使用 slices 参数让 Elasticsearch 自动选择切片数量:

POST /_reindex?slices=5&refresh
{"source": {"index": "my-index-000001"},"dest": {"index": "my-new-index-000001"}
}

如何选择切片数量

一般情况下,切片数量与索引中的分片数量相同效果最好。如果分片数量过大(例如 500),可以选择较小的切片数量,因为切片过多可能影响性能。通常建议切片数量不超过分片数量,以避免额外的开销。

路由

Reindex 默认保留文档的路由信息,但可以通过 dest.routing 参数进行更改:

POST /_reindex
{"source": {"index": "source","query": {"match": {"company": "cat"}}},"dest": {"index": "dest","routing": "=cat"}
}

批次大小

默认情况下,Reindex 使用 1000 条文档作为批次大小,可以通过 size 参数自定义批次大小:

POST /_reindex
{"source": {"index": "source","size": 100},"dest": {"index": "dest"}
}

使用 Ingest 管道进行重建索引

您可以在重建索引时通过 ingest 管道处理文档。以下是指定管道的示例:

json复制代码POST _reindex
{"source": {"index": "source"},"dest": {"index": "dest","pipeline": "some_ingest_pipeline"}
}

查询参数

  • refresh(可选,布尔):如果为 true,请求会刷新受影响的分片,使此操作对搜索可见。默认值为 false。
  • timeout(可选,时间单位):每个索引操作等待的时间,包括:
    • 自动索引创建
    • 动态映射更新
    • 等待活动分片 默认值为 1 分钟。这确保 Elasticsearch 至少等待超时之前不会失败。实际等待时间可能更长,特别是在发生多次等待时。
  • wait_for_active_shards(可选,字符串):必须激活的分片副本数量才能继续操作。可以设置为 “all” 或任意正整数,最大值为索引中的总分片数量(number_of_replicas+1)。默认值为 1,即主分片。
  • wait_for_completion(可选,布尔):如果为 true,请求会阻塞,直到操作完成。默认值为 true。
  • requests_per_second(可选,整数):此请求的速率限制,每秒的子请求数量。默认值为 -1(无速率限制)。
  • require_alias(可选,布尔):如果为 true,目标必须是索引别名。默认值为 false。
  • scroll(可选,时间单位):指定在滚动搜索中应保持一致的索引视图的时间。
  • slices(可选,整数):将此任务分成的切片数量。默认值为 1,即任务未被切片成子任务。
  • max_docs(可选,整数):处理的最大文档数量。默认处理所有文档。当设置为小于或等于 scroll_size 的值时,将不会使用滚动来检索操作的结果。

请求体

  • conflicts(可选,枚举):设置为 “proceed” 以继续重建索引,即使存在冲突。默认值为 “abort”。

  • max_docs(可选,整数):重建索引的最大文档数量。如果 conflicts 设置为 “proceed”,重建索引可能会尝试从源中重建更多文档,直到成功将 max_docs 文档索引到目标中,或者遍历完源查询中的所有文档。

  • source(必需,字符串):您要复制的数据流、索引或别名的名称。也接受以逗号分隔的列表,以从多个源重建索引。

  • query(可选,查询对象):使用查询 DSL 指定要重建的文档。

  • remote(可选,字符串):要从中索引的远程 Elasticsearch 实例的 URL。索引远程数据时需要此参数。

    • username(可选,字符串):用于远程主机身份验证的用户名。
    • password(可选,字符串):用于远程主机身份验证的密码。
    • socket_timeout(可选,时间单位):远程套接字读取超时。默认值为 30 秒。
    • connect_timeout(可选,时间单位):远程连接超时。默认值为 30 秒。
    • headers(可选,对象):包含请求头的对象。
  • size(可选,整数):每批次要索引的文档数量。用于远程索引时,确保批次适合堆内缓冲区,默认最大大小为 100 MB。

  • slice(可选,整数):手动切片的切片 ID。

    • max(可选,整数):切片的总数。
  • sort(可选,列表):在索引之前按字段排序的以逗号分隔的 : 对列表。与 max_docs 一起使用以控制重建的文档。

    注意:在 7.6 中,重建索引时排序功能已被弃用。重建时的排序从未保证按顺序索引文档,并阻碍了重建的进一步发展,例如弹性和性能改进。如果与 max_docs 一起使用,建议使用查询过滤器。

  • _source(可选,字符串):如果为 true,重建所有源字段。设置为列表以重建特定字段。默认值为 true。

  • dest(必需,字符串):您要复制到的数据流、索引或索引别名的名称。

  • version_type(可选,枚举):索引操作使用的版本类型。有效值:internal、external、external_gt、external_gte。有关更多信息,请参见版本类型。

  • op_type(可选,枚举):设置为 “create” 以仅索引不存在的文档(如果缺失则放入)。有效值:index、create。默认值为 index。

    要重建到数据流目标,必须将此参数设置为 “create”。

  • pipeline(可选,字符串):要使用的管道名称。

  • script(可选,字符串):重建文档源或元数据时运行的脚本。

    • lang(可选,枚举):脚本语言:painless、expression、mustache、java。有关更多信息,请参见脚本。

响应体

  • took(整数):整个操作耗时的毫秒数。
  • timed_out(布尔):如果在重建期间执行的任何请求超时,则该标志设置为 true。
  • total(整数):成功处理的文档数量。
  • updated(整数):成功更新的文档数量,即在重建前同一 ID 的文档已存在。
  • created(整数):成功创建的文档数量。
  • deleted(整数):成功删除的文档数量。
  • batches(整数):重建过程中提取的滚动响应的数量。
  • noops(整数):由于用于重建的脚本返回了无操作值而被忽略的文档数量。
  • version_conflicts(整数):重建中遇到的版本冲突数量。
  • retries(整数):重建尝试的重试次数。bulk 表示重试的批量操作数量,search 表示重试的搜索操作数量。
  • throttled_millis(整数):请求为符合 requests_per_second 而休眠的毫秒数。
  • requests_per_second(整数):在重建过程中有效执行的每秒请求数量。
  • throttled_until_millis(整数):此字段在 _reindex 响应中应始终等于零。它仅在使用任务 API 时有意义,指示下次(自纪元以来的毫秒)将在符合 requests_per_second 的情况下再次执行被限制的请求。
  • failures(数组):如果在处理过程中有任何不可恢复的错误,则此数组中将包含错误。如果此数组非空,则请求因这些错误而中止。重建是通过批次实现的,任何失败都会导致整个过程中止,但当前批次中的所有失败都会收集到数组中。您可以使用 conflicts 选项防止在版本冲突时重建中止。

示例

根据查询重建选择文档

您可以通过向源添加查询来限制文档。例如,以下请求仅将 user.id 为 kimchy 的文档复制到 my-new-index-000001:

json复制代码POST _reindex
{"source": {"index": "my-index-000001","query": {"term": {"user.id": "kimchy"}}},"dest": {"index": "my-new-index-000001"}
}
使用 max_docs 限制重建的文档数量

您可以通过设置 max_docs 来限制处理的文档数量。例如,以下请求将从 my-index-000001 复制一个文档到 my-new-index-000001:

json复制代码POST _reindex
{"max_docs": 1,"source": {"index": "my-index-000001"},"dest": {"index": "my-new-index-000001"}
}
从多个源重建

源中的 index 属性可以是一个列表,从多个源复制的请求。此请求将从 my-index-000001 和 my-index-000002 索引中复制文档:

json复制代码POST _reindex
{"source": {"index": ["my-index-000001", "my-index-000002"]},"dest": {"index": "my-new-index-000002"}
}

Reindex API 不会处理 ID 冲突,因此最后写入的文档将覆盖之前的版本。如果目标索引已经存在文档,且 ID 与源相同,则它们会被替换。

从远程索引重建数据

Reindex 支持从远程 Elasticsearch 集群重建数据:

POST _reindex
{"source": {"remote": {"host": "http://otherhost:9200","username": "user","password": "pass"},"index": "my-index-000001","query": {"match": {"test": "data"}}},"dest": {"index": "my-new-index-000001"}
}

host 参数必须包含协议、主机和端口(例如 https://otherhost:9200),以及可选路径(例如 https://otherhost:9200/proxy)。usernamepassword 参数是可选的,当提供时,_reindex 将使用基本认证连接到远程 Elasticsearch 节点。请确保在使用基本认证时使用 HTTPS,否则密码将以明文发送。可以配置多种设置来管理 HTTPS 连接的行为。

当使用 Elastic Cloud 时,也可以通过有效的 API 密钥对远程集群进行身份验证:

POST _reindex
{"source": {"remote": {"host": "http://otherhost:9200","headers": {"Authorization": "ApiKey API_KEY_VALUE"}},"index": "my-index-000001","query": {"match": {"test": "data"}}},"dest": {"index": "my-new-index-000001"}
}

远程主机必须在 elasticsearch.yml 中通过 reindex.remote.whitelist 属性显式允许。可以设置为允许的远程主机和端口组合的逗号分隔列表。协议被忽略,仅使用主机和端口。例如:

reindex.remote.whitelist: [otherhost:9200, another:9200, 127.0.10.*:9200, localhost:*]

允许的主机列表必须在任何将协调重建的节点上进行配置。

此功能应适用于你可能遇到的任何版本的远程 Elasticsearch 集群。这将允许你通过从旧版本集群中重建数据来升级到当前版本。

Elasticsearch 不支持主要版本之间的向前兼容。例如,不能从 7.x 集群重建到 6.x 集群。

为了启用发送到旧版本 Elasticsearch 的查询,query 参数直接发送到远程主机,不进行验证或修改。

从远程集群重建数据不支持手动或自动切片。

从远程服务器重建数据使用一个堆内存缓冲区,默认最大大小为 100MB。如果远程索引包含非常大的文档,你需要使用较小的批量大小。以下示例将批量大小设置为 10,非常小:

POST _reindex
{"source": {"remote": {"host": "http://otherhost:9200",...},"index": "source","size": 10,"query": {"match": {"test": "data"}}},"dest": {"index": "dest"}
}

还可以通过 socket_timeout 字段设置远程连接的套接字读取超时,通过 connect_timeout 字段设置连接超时。两者的默认值均为 30 秒。此示例将套接字读取超时设置为一分钟,连接超时设置为 10 秒:

POST _reindex
{"source": {"remote": {"host": "http://otherhost:9200",...,"socket_timeout": "1m","connect_timeout": "10s"},"index": "source","query": {"match": {"test": "data"}}},"dest": {"index": "dest"}
}

配置 SSL 参数

从远程重建支持可配置的 SSL 设置。这些设置必须在 elasticsearch.yml 文件中指定,安全设置在 Elasticsearch 密钥库中添加。在 _reindex 请求的主体中无法配置 SSL。

以下设置是支持的:

  • reindex.ssl.certificate_authorities

    • 应信任的 PEM 编码证书文件的路径列表。不能同时指定 reindex.ssl.certificate_authoritiesreindex.ssl.truststore.path
  • reindex.ssl.truststore.path

    • 包含要信任的证书的 Java 密钥库文件的路径。该密钥库可以是 “JKS” 或 “PKCS#12” 格式。不能同时指定这两个设置。
  • reindex.ssl.truststore.password

    • 信任库的密码(reindex.ssl.truststore.path)。[7.17.0] 在 7.17.0 中已弃用。建议使用 reindex.ssl.truststore.secure_password
  • reindex.ssl.truststore.secure_password (安全)

    • 信任库的密码(reindex.ssl.truststore.path)。此设置不能与 reindex.ssl.truststore.password 一起使用。
  • reindex.ssl.truststore.type

    • 信任库的类型(reindex.ssl.truststore.path)。必须是 jks 或 PKCS12。如果信任库路径以 “.p12”、“.pfx” 或 “pkcs12” 结尾,此设置默认为 PKCS12。否则,默认为 jks。
  • reindex.ssl.verification_mode

    • 指示保护中间人攻击和证书伪造的验证类型。可以是 full(验证主机名和证书路径)、certificate(验证证书路径,但不验证主机名)或 none(不进行验证 - 强烈建议在生产环境中不要使用)。默认为 full。
  • reindex.ssl.certificate

    • 指定用于 HTTP 客户端身份验证的 PEM 编码证书(或证书链)(如果远程集群需要)。此设置要求设置 reindex.ssl.key。不能同时指定这两个设置。
  • reindex.ssl.key

    • 指定与用于客户端身份验证的证书相关联的 PEM 编码私钥的路径(reindex.ssl.certificate)。不能同时指定这两个设置。
  • reindex.ssl.key_passphrase

    • 如果 PEM 编码私钥被加密,指定解密其的密码(reindex.ssl.key)。[7.17.0] 在 7.17.0 中已弃用。建议使用 reindex.ssl.secure_key_passphrase
  • reindex.ssl.secure_key_passphrase (安全)

    • 如果 PEM 编码私钥被加密,指定解密其的密码(reindex.ssl.key)。不能与 reindex.ssl.key_passphrase 一起使用。
  • reindex.ssl.keystore.path

    • 指定包含用于 HTTP 客户端身份验证的私钥和证书的密钥库的路径(如果远程集群需要)。该密钥库可以是 “JKS” 或 “PKCS#12” 格式。不能同时指定这两个设置。
  • reindex.ssl.keystore.type

    • 密钥库的类型(reindex.ssl.keystore.path)。必须是 jks 或 PKCS12。如果密钥库路径以 “.p12”、“.pfx” 或 “pkcs12” 结尾,此设置默认为 PKCS12。否则,默认为 jks。
  • reindex.ssl.keystore.password

    • 密钥库的密码(reindex.ssl.keystore.path)。[7.17.0] 在 7.17.0 中已弃用。建议使用 reindex.ssl.keystore.secure_password
  • reindex.ssl.keystore.secure_password (安全)

    • 密钥库的密码(reindex.ssl.keystore.path)。此设置不能与 reindex.ssl.keystore.password 一起使用。
  • reindex.ssl.keystore.key_password

    • 密钥库中密钥的密码(reindex.ssl.keystore.path)。默认为密钥库密码。[7.17.0] 在 7.17.0 中已弃用。建议使用 reindex.ssl.keystore.secure_key_password
  • reindex.ssl.keystore.secure_key_password (安全)

    • 密钥库中密钥的密码(reindex.ssl.keystore.path)。默认为密钥库密码。此设置不能与 reindex.ssl.keystore.key_password 一起使用。

http://www.ppmy.cn/embedded/116185.html

相关文章

Python “函数” ——Python面试100道实战题目练习,巩固知识、检查技术、成功就业

本文主要是作为Python中函数的一些题目&#xff0c;方便学习完Python的函数之后进行一些知识检验&#xff0c;感兴趣的小伙伴可以试一试&#xff0c;含选择题、判断题、实战题、填空题&#xff0c;答案在第五章。 在做题之前可以先学习或者温习一下Python的函数&#xff0c;推荐…

WPF经典面试题全集

以下是一些常见的WPF&#xff08;Windows Presentation Foundation&#xff09;经典面试题及其答案详解&#xff1a; 1. WPF 是什么&#xff1f;与 WinForms 有何区别&#xff1f; 答案&#xff1a; WPF 是 Windows Presentation Foundation&#xff0c;是微软开发的用于构建…

不可错过!字节跳动打造的最新生产力工具来了

嘿&#xff0c;小伙伴们&#xff01;字节跳动新推出的豆包MarsCode代码练习平台真的挺贴心的&#xff0c;如果你对编程笔试感到有点儿担心或害怕&#xff0c;不妨去试试这个平台哦。它或许能让你在轻松愉快的氛围中提升技能&#xff0c;让面对笔试不再那么让人紧张。 豆包MarsC…

多融合的信息收集工具--Mitan

《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…

SQL Server实现limit用法

MySQL有limit语句&#xff0c;而SQL Server中没有&#xff0c;以下为类似功能实现 1、top n # 取最近10个月数据 SELECT TOP 10 * FROM test ORDER BY 月份 DESC; 2、ROW_NUMBER() where子句 # 取最近10个月数据 SELECT * FROM ( SELECT ROW_NUMBER()over(order by 月份 D…

【python】横截面数据分析及可视化报告示例

问题描述 题目&#xff1a; 共享的数据文件夹包含 2 个外部文件。第一个文件 "project data.xls "涉及国家层面的数据&#xff08;2000-2019 年&#xff09;&#xff0c;变量大多摘自世界发展指标。变量解释在第二个文件中 创建一个模型&#xff0c;解释为什么一些国…

Android常用C++特性之lambda表达式

声明&#xff1a;本文内容生成自ChatGPT&#xff0c;为方便大家了解学习作为引用到其他文章中。 C 中的 lambda 表达式 是一种简洁的语法&#xff0c;用于定义 匿名函数&#xff0c;即无需为函数命名的函数。它允许你在函数体内定义和使用临时的可调用对象&#xff0c;非常适合…

统信服务器操作系统【Cron定时任务服务】

Cron定时任务服务服务介绍、服务管理、服务配置 文章目录 一、功能概述二、功能介绍1. Cron 服务管理2.Cron 服务管理3.Cron 服务配置run-parts一、功能概述 cron是一个可以用来根据时间、日期、月份、星期的组合来 调度对周期性任务执行的守护进程。利用 cron 所提供的功能,可…