【ES】Elasticsearch核心基础概念:文档与索引

news/2024/10/23 9:22:41/

es的核心概念主要是:index(索引)、Document(文档)、Clusters(集群)、Node(节点)与实例,下面我们先来了解一下Document与Index。

RESTful APIs

在讲解Document与Index概念之前,我们先来了解一下RESTful APIs,因为下面讲解Document和Index的时候会使用到。

当我们把es服务器启动起来之后,要怎么调用呢?

其实很简单,es提供了基于HTTP协议的RESTful APIS,也就是说我们可以通过向es服务器发送HTTP请求来操作es服务器,如对文档读写、查询文档API、搜索API、索引的创建与删除,es默认使用9200端口接收HTTP请求。

所以调用es很简单,我们甚至可以使用命令行工具curl来调用es,比如下面的代码中,我们使用curl向es发送PUT请求,在request body携带JSON格式的数据传给es服务器:

# 使用curl调用es,创建一个文档
curl http://localhost:9200/my_test/1 -H "Content-Type:application/json" \
-X POST -d '{"uid":1,"username":"test"}'

下面的图片演示向es发送请求与es服务器响应的过程:
在这里插入图片描述
不过一般我们可以通过Kibana来管理es,而Kibana中的Dev Tools可以让我们更加方便地使用各种es的RESTful API,下面是我们在Kibana中Dev Tools使用的语句结构,其实作用与上面使用curl一样,我们在下面的演示会使用这种格式。

PUT /my_test/_doc/1
{"uid":1,"username":"test"
}

其实,为了方便不同编程语言的调用,es提供多种编程语言的类库(Java,PHP,Ruby,Go,Python,JavaScript,NET等),但这些编程语言是基于es提供的RESTful APIs的封装。

文档(Document)

es是面向文档的,文档是es中可搜索的最小单位,es的文档由一个或多个字段组成,类似于关系型数据库中的一行记录,但es的文档是以JSON进行序列化并保存的,每个JSON对象由一个或多个字段组成,字段类型可以是布尔,数值,字符串、二进制、日期等数据类型。

es每个文档都有唯一的id,这个id可以由我们自己指定,也可以由es自动生成。

文档的元数据

es每一个文档,除了保存我们写入进行的文档原始数据外,也有文档自己的元数据,这些元数据,用于标识文档的相关信息。

下面是一个普通的es文档:

{"_index" : "test_logs2","_type" : "_doc","_id" : "1","_version" : 1,"_seq_no" : 0,"_primary_term" : 1,"found" : true,"_source" : {"uid" : 1,"username" : "test"}
}

从上面的文档中,我们可以看文档的元数据字段如下:

  • _index:文档所在索引名称
  • _source:原始json数据
  • _type:文档所属类型,es7.0以后只有为 _doc
  • _version:文档版本,如果对文档进行修改,则该字段会增加
  • _score:相关性打分
  • id:文档唯一id
    下面我们来了解es通过RESTful Api提供了文档的CURD等操作:

Create

通过es的RESTful API,使用HTTP的PUT方法,可以在某个索引中创建一个文档,在Kibana的Dev Tools中,我们可以使用下面的语句创建一个文档:

# 在my_test索引中创建一个文档
PUT /my_test/_create/1
{"uid":1,"username":"one"
}

Index

在es中,索引大概有以下三种含义与作用: 1. 动词,es中一种创建文档的方式,就是现在讲到的。 2. 名词,es组织文档的方式,下面会讲到。 3. 动词,对文档的字段进行分词并存储,以后会讲到

# 使用Index的方式
PUT /my_test/_doc/1
{"uid":1,"username":"test"
}

Index的方式与Create一样,用于创建一个es文档,不同的是,使用Index创建文档时,如果指定的文档id已经存在,则会删除原文档,并重新创建一个文档,并且文档的字段_version会加1

Update

更新一个文档的数据使用的是HTTP的POST方法,而且修改的字段信息还必须在doc中,如下:

使用Update的方式是直接更新数据,这点与使用Index创建文档,文档存在时,会删除文档再重新创建是不同的。

# 更新
POST /my_test/_doc/1
{"doc":{"username":"this is a document"}
}

Delete

使用HTTP中DELETE方法,可以删除一个es的文档,示例如下:

# 删除文档
DELETE /my_test/_doc/1

Read

读取一个es文档就很简单了,使用HTTP的GET方法就可以了,如下:

读取

GET /my_test/_doc/1

Bulk Api

上面的讲的对关于文档的Index,Create,Update,Delete等操作,但每一次只能对一个索引的一个文档进行操作,而我们知道每一次请求服务器进行操作时,网络请求往返时间的开销是一个很大的消耗,如果每个请求都只做一个操作,那么就有点太浪费了。

所以es的文档的bulk api支持在一次请求中同时对不同索引中的文档进行Index,Create,Update,Delete等操作,也就是所谓的批量处理,在处理过程,即便其中某个操作出错,也不会影响其他操作,如下:

POST _bulk
{"create":{"_index":"my_test2","_id":4}}  
{"uid":2,"username":"333333333333333333"}
{"index":{"_index":"my_test2","_id":10}}
{"uid":10,"username":"tttt"}
{"delete":{"_index":"my_test2","_id":1}}
{"update":{"_index":"my_test2","_id":2}}
{"doc":{"uid":2,"username":"hhhhhhhhhhhhhhhhh"}}

上面只是bulk api的简单示例,如果要熟悉语法,还是要多看看es的官方文档。

索引(Index)

es索引,是es组织文档的方式,是拥有相结构文档的集合,可以把es的索引类比为关系型数据库的一张数据表。

下面我们来看看对索引的各种操作的RESTful APIs,如下:

Create

使用HTTP的PUT方法便可以创建一个索引,在Kibna的Dev Tools,使用下面的语句便可创建一个索引:

PUT /my_test
在创建索引时也指定mapping和setting,如下:

PUT /my_test
{"settings" : {"index" : {"number_of_shards" : 3, "number_of_replicas" : 2 }}
}

Exists

可以使用HTTP的HEAD方法判断索引是否存在,如下:

# 判断索引是否存在
HEAD /my_test

如果索引存在,则http状态码返回200,如果不存在,则返回404。

Get

使用HTTP的GET方法可以获取索引的setting和mapping等信息,如下:

GET /index

返回如下的结果:

{"my_test" : {"aliases" : { },"mappings" : { },"settings" : {"index" : {"creation_date" : "1564757617415","number_of_shards" : "1","number_of_replicas" : "1","uuid" : "z6zGhu_ERA-R1c0m2fQrvg","version" : {"created" : "7020099"},"provided_name" : "my_test"}}}
}

Delete

es中删除的索引API,允许我们删除已经存在的索引,有以下几种情况:

使用索引名,删除单个或多个索引

# 删除my_test
DELETE /my_test# 删除多个索引,用逗号分隔
DELETE /my_test,my_test1,my_test2

使用通配符*删除多个索引(慎用)

# 删除以my_test为前缀的索引
DELETE /my_test*

使用_all删除es服务器上的全部索引

# 删除全部索引
DELETE /_all

注意,这种操作非常危险,不推荐使用,如果想禁用这种操作,可在在es的config/elasticsearch.yml中将参数action.destructive_requires_name设置为true,如:

action.destructive_requires_name:true
这样的话,则不能执行以上的操作了。

小结

文档和索引是es中最基础也是最核心的概念,熟悉对掌握文档和索引的操作是进一步学习es的基础,其实,如果你有关系型数据库的知识,可以把索引类比为数据库中的数据表,而文档可以理解为数据表中的一行记录。


http://www.ppmy.cn/news/29129.html

相关文章

STM32F1,F4,L1系列禁止JTAG和SW引脚方法

STM32F1系列 程序中在使用到JTAG、SWD的某个IO 时,需要禁用掉相关调试方法后,再配置相应的IO方式。在需要相应的接口配置前使用这些代码。 对于F1系列,调用函数进行专门的禁止。 标准库配置方式: RCC_APB2PeriphClockCmd(RCC_A…

Python 日志

欢迎访问我的博客首页。 Python 日志1. 通过函数调用栈实现2. 改变 print 函数输出字体的颜色3. 使用 logging3.1 自定义名称的句柄3.2 使用默认句柄4. 参考1. 通过函数调用栈实现 traceback 库记录着 Python 的调用栈。使用 traceback,不仅可以输出日志位置&#x…

前端二面vue面试题总结

什么是 mixin ? Mixin 使我们能够为 Vue 组件编写可插拔和可重用的功能。如果希望在多个组件之间重用一组组件选项,例如生命周期 hook、 方法等,则可以将其编写为 mixin,并在组件中简单的引用它。然后将 mixin 的内容合并到组件中…

计算理论 复杂度预备知识

文章目录计算理论 复杂度预备知识符号递归表达式求解通项公式主方法Akra-Bazzi 定理计算理论 复杂度预备知识 符号 f(n)o(g(n))f(n)o(g(n))f(n)o(g(n)) &#xff1a;∃c\exists c∃c &#xff0c;当 nnn 足够大时&#xff0c; f(n)<cg(n)f(n)\lt cg(n)f(n)<cg(n) &#…

Kafka基本概念

什么是Kafka Kafka是一个消息系统。它可以集中收集生产者的消息&#xff0c;并由消费者按需获取。在Kafka中&#xff0c;也将消息称为日志(log)。 一个系统&#xff0c;若仅有一类或者少量的消息&#xff0c;可直接进行发送和接收。 随着业务量日益复杂&#xff0c;消息的种类…

华为机试题:HJ86 求最大连续bit数(python)

文章目录&#xff08;1&#xff09;题目描述&#xff08;2&#xff09;Python3实现&#xff08;3&#xff09;知识点详解1、input()&#xff1a;获取控制台&#xff08;任意形式&#xff09;的输入。输出均为字符串类型。1.1、input() 与 list(input()) 的区别、及其相互转换方…

【链表OJ题(一)】移除链表元素

​ ​&#x1f4dd;个人主页&#xff1a;Sherry的成长之路 &#x1f3e0;学习社区&#xff1a;Sherry的成长之路&#xff08;个人社区&#xff09; &#x1f4d6;专栏链接&#xff1a;数据结构 &#x1f3af;长路漫漫浩浩&#xff0c;万事皆有期待 文章目录链表OJ题(一)1. 移除…

代码随想录算法训练营day46 | 动态规划之背包问题 139.单词拆分

day46139.单词拆分1.确定dp数组以及下标的含义2.确定递推公式3.dp数组如何初始化4.确定遍历顺序5.举例推导dp[i]139.单词拆分 题目链接 解题思路&#xff1a;单词就是物品&#xff0c;字符串s就是背包&#xff0c;单词能否组成字符串s&#xff0c;就是问物品能不能把背包装满。…