欢马劈雪的技术文章、集册、实例源码

时代Java，与您同行！关注微信公众号，关注前沿技术，微信搜索：nowjava或时代Java，也可点击这里扫码关注

时代Java

登录注册

京东自营 + 国补 iPhone 历史最低价国家补贴享8折

欢马劈雪

结构化搜索

结构化搜索结构化搜索是指查询包含内部结构的数据。日期，时间，和数字都是结构化的：它们有明确的格式给你执行逻辑操作。一般包括比较数字或日期的范围，或确定两个值哪个大。文本也可以被结构化。一包蜡笔有不同的颜色：红色，绿色，蓝色。一篇博客可能被打上分布式和搜索的标签。电子商务产品有商品统一代码（UPCs）或其他有着严格格式的标识。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

结构化，搜索， elasticsearch，权威，指南
合并段

通过每秒自动刷新创建新的段，用不了多久段的数量就爆炸了。有太多的段是一个问题。每个段消费文件句柄，内存，cpu资源。更重要的是，每次搜索请求都需要依次检查每个段。段越多，查询越慢。ES通过后台合并段解决这个问题。小段被合并成大段，再合并成更大的段。这是旧的文档从文件系统删除的时候。旧的段不会再复制到更大的新段中。这个过程你不必做什么。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

合并， elasticsearch，权威，指南，中文版
持久化变更

没用fsync同步文件系统缓存到磁盘，我们不能确保电源失效，甚至正常退出应用后，数据的安全。为了ES的可靠性，需要确保变更持久化到磁盘。我们说过一次全提交同步段到磁盘，写提交点，这会列出所有的已知的段。在重启，或重新打开索引时，ES使用这次提交点决定哪些段属于当前的分片。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

持久，变更， elasticsearch，权威，指南
近实时搜索

因为per-segment search机制，索引和搜索一个文档之间是有延迟的。新的文档会在几分钟内可以搜索，但是这依然不够快。磁盘是瓶颈。提交一个新的段到磁盘需要fsync操作，确保段被物理地写入磁盘，即时电源失效也不会丢失数据。但是fsync是昂贵的，它不能在每个文档被索引的时就触发。所以需要一种更轻量级的方式使新的文档可以被搜索，这意味这移除fsync。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

实时，搜索， elasticsearch，权威，指南
动态索引

下一个需要解决的问题是如何在保持不可变好处的同时更新倒排索引。答案是，使用多个索引。不是重写整个倒排索引，而是增加额外的索引反映最近的变化。每个倒排索引都可以按顺序查询，从最老的开始，最后把结果聚合。Elasticsearch底层依赖的Lucene，引入了per-segment search的概念。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

动态，索引， elasticsearch，权威，指南
使文本可以被搜索

第一个不得不解决的挑战是如何让文本变得可搜索。在传统的数据库中，一个字段存一个值，但是这对于全文搜索是不足的。想要让文本中的每个单词都可以被搜索，这意味这数据库需要存多个值。支持一个字段多个值的最佳数据结构是倒排索引。倒排索引包含了出现在所有文档中唯一的值或词的有序列表，以及每个词所属的文档列表。 Term | Doc 1 | Doc 2 | Doc 3 | ...

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

文本，可以，搜索， elasticsearch，权威
入门

在分布式集群中，我们介绍了分片，把它描述为底层的工作单元。但分片到底是什么，它怎样工作？在这章节，我们将回答这些问题：为什么搜索是近实时的？为什么文档的CRUD操作是实时的？ES怎样保证更新持久化，即使断电也不会丢失？为什么删除文档不会立即释放空间？什么是refresh，flush, optimize API，以及什么时候你该使用它们？

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

入门， elasticsearch，权威，指南，中文版
别名

索引别名和零停机时间前面提到的重新索引过程中的问题是必须更新你的应用，来使用另一个索引名。索引别名正是用来解决这个问题的！索引别名就像一个快捷方式或软连接，可以指向一个或多个索引，也可以给任何需要索引名的 API 使用。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

别名， elasticsearch，权威，指南，中文版
重建索引

重新索引数据虽然你可以给索引添加新的类型，或给类型添加新的字段，但是你不能添加新的分析器或修改已有字段。假如你这样做，已被索引的数据会变得不正确而你的搜索也不会正常工作。修改在已存在的数据最简单的方法是重新索引：创建一个新配置好的索引，然后将所有的文档从旧的索引复制到新的上。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

重建，索引， elasticsearch，权威，指南
默认映射

默认映射通常，一个索引中的所有类型具有共享的字段和设置。用 _default_ 映射来指定公用设置会更加方便，而不是每次创建新的类型时重复操作。_default 映射像新类型的模板。所有在 _default_ 映射之后的类型将包含所有的默认设置，除非在自己的类型映射中明确覆盖这些配置。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

默认，映射， elasticsearch，权威，指南
自定义动态映射

自定义动态索引如果你想在运行时的增加新的字段，你可能会开启动态索引。虽然有时动态映射的规则显得不那么智能，幸运的是我们可以通过设置来自定义这些规则。日期检测当 Elasticsearch 遇到一个新的字符串字段时，它会检测这个字段是否包含一个可识别的日期，比如 2014-01-01。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

自定义，动态，映射， elasticsearch，权威
动态映射

动态映射当 Elasticsearch 处理一个位置的字段时，它通过【动态映射】来确定字段的数据类型且自动将该字段加到类型映射中。有时这是理想的行为，有时却不是。或许你不知道今后会有哪些字段加到文档中，但是你希望它们能自动被索引。或许你仅仅想忽略它们。特别是当你使用 Elasticsearch 作为主数据源时，你希望未知字段能抛出一个异常来警示你。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

动态，映射， elasticsearch，权威，指南
元数据中的ID字段

文档 ID文档唯一标识由四个元数据字段组成：_id：文档的字符串 ID_type：文档的类型名_index：文档所在的索引_uid：_type 和 _id 连接成的 type#id默认情况下，_uid 是被保存（可取回）和索引（可搜索）的。_type 字段被索引但是没有保存，_id 和 _index 字段则既没有索引也没有储存，它们并不是真实存在的。尽管如此，你仍然可以像真实字段一样查询 _id 字段。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

元数据， id，字段， elasticsearch，权威
元数据中的all字段

元数据：_all 字段在【简单搜索】中，我们介绍了 _all 字段：一个所有其他字段值的特殊字符串字段。query_string 在没有指定字段时默认用 _all 字段查询。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

元数据， all，字段， elasticsearch，权威
元数据中的source字段

元数据：_source 字段默认情况下，Elasticsearch 用 JSON 字符串来表示文档主体保存在 _source 字段中。像其他保存的字段一样，_source 字段也会在写入硬盘前压缩。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

元数据， source，字段， elasticsearch，权威
根对象

根对象映射的最高一层被称为根对象，它可能包含下面几项：一个 properties 节点，列出了文档中可能包含的每个字段的映射多个元数据字段，每一个都以下划线开头，例如 _type, _id 和 _source设置项，控制如何动态处理新的字段，例如 analyzer, dynamic_date_formats 和 dynamic_templates。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

对象， elasticsearch，权威，指南，中文版
映射

类型和映射类型在 Elasticsearch 中表示一组相似的文档。类型由一个名称（比如 user 或 blogpost）和一个类似数据库表结构的映射组成，描述了文档中可能包含的每个字段的属性，数据类型（比如 string, integer 或 date），和是否这些字段需要被 Lucene 索引或储存。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

映射， elasticsearch，权威，指南，中文版
自定义分析器

自定义分析器虽然 Elasticsearch 内置了一系列的分析器，但是真正的强大之处在于定制你自己的分析器。你可以通过在配置文件中组合字符过滤器，分词器和标记过滤器，来满足特定数据的需求。在【分析器介绍】中，我们提到分析器是三个顺序执行的组件的结合（字符过滤器，分词器，标记过滤器）。字符过滤器字符过滤器是让字符串在被分词前变得更加“整洁”。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

自定义，分析器， elasticsearch，权威，指南
配置分析器

配置分析器第三个重要的索引设置是 analysis 部分，用来配置已存在的分析器或创建自定义分析器来定制化你的索引。在【分析器介绍】中，我们介绍了一些内置的分析器，用于将全文字符串转换为适合搜索的倒排索引。standard 分析器是用于全文字段的默认分析器，对于大部分西方语系来说是一个不错的选择。它考虑了以下几点：standard 分词器，在词层级上分割输入的文本。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

配置，分析器， elasticsearch，权威，指南
设置

索引设置你可以通过很多种方式来自定义索引行为，你可以阅读Index Modules reference documentation，但是：提示: Elasticsearch 提供了优化好的默认配置。除非你明白这些配置的行为和为什么要这么做，请不要修改这些配置。下面是两个最重要的设置：number_of_shards定义一个索引的主分片个数，默认值是 `5`。这个配置在索引创建后不能修改。

欢马劈雪 2020-08-04 17:37:59 2020-08-04 05:37:59

设置， elasticsearch，权威，指南，中文版

个人简介

欢马劈雪
纵马驰骋迎雪而行
获得 161932 积分
https://nowjava.com/creator/10001

欢马劈雪

结构化搜索

合并段

持久化变更

近实时搜索

动态索引

使文本可以被搜索

入门

别名

重建索引

默认映射

自定义动态映射

动态映射

元数据中的ID字段

元数据中的all字段

元数据中的source字段

根对象

映射

自定义分析器

配置分析器

设置

个人简介

欢马劈雪

纵马驰骋迎雪而行

获得 161932 积分

https://nowjava.com/creator/10001

热门标签

社区

关于