Elasticsearch 索引文档的详细过程是怎样的

参考答案

Elasticsearch 索引文档的详细过程:

协调节点默认使用文档 ID 参与计算(也支持通过 routing),以便为路由提供合适的分片。

shard = hash(document_id) % (num_of_primary_shards)

1、refresh

当分片所在的节点接收到来自协调节点的请求后,会将请求写入到 MemoryBuffer,然后定时(默认是每隔 1 秒)写入到 Filesystem Cache,这个从 MomeryBuffer 到 Filesystem Cache 的过程,就叫做 refresh

2、flush

在某些情况下, Momery Buffer 和 Filesystem Cache 的数据可能会丢失,ES 是通过 translog 的机制来保证数据的可靠性的。

其实现机制是:在接收到请求后,同时也会写入到 translog 中。

当 Filesystem cache 中的数据写入到磁盘中时,才会清除掉,这个过程叫做 flush

3、flush 过程

在 flush 过程中,内存中的缓冲将被清除,内容被写入一个新段,段的 fsync 将创建一个新的提交点,并将内容刷新到磁盘,旧的  translog 将被删除,并开始一个新的 translog。

4、flush 触发的时机

flush 触发的时机,是定时触发(默认 30 分钟)、或者 translog 变得太大(默认为 512M)时。

Elasticsearch 索引文档的详细过程是怎样的

补充回答:

关于 Lucene 的 Segement

  • Lucene 索引是由多个段组成,段本身是一个功能齐全的倒排索引。
  • 段是不可变的,允许 Lucene 将新的文档增量地添加到索引中,而不用从头重建索引。
  • 对于每一个搜索请求而言,索引中的所有段都会被搜索,并且每个段会消耗 CPU 的时钟周、文件句柄和内存。这意味着段的数量越多,搜索性能会越低。
  • 为了解决这个问题,Elasticsearch 会合并小段到一个较大的段,提交新的合并段到磁盘,并删除那些旧的小段。

 

以上,是 Elasticsearch 搜索面试题【Elasticsearch 索引文档的详细过程是怎样的】的参考答案。

输出,是最好的学习方法

欢迎在评论区留下你的问题、笔记或知识点补充~

—end—

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧