在 Elasticsearch 中,映射(Mapping)是定义如何处理文档中各个字段数据类型的过程。映射类似于数据库中的表结构定义,它描述了文档中字段的名称、数据类型以及如何索引字段的信息。
映射处理的关键步骤包括:
-
定义数据类型:Elasticsearch 支持多种数据类型,如整数(integer)、浮点数(float)、字符串(text 和 keyword)、布尔值(boolean)、日期(date)等。要正确地索引和搜索数据,必须为文档中的每个字段指定正确的数据类型。
-
自动检测:在没有预先定义映射的情况下,Elasticsearch 可以自动检测输入数据的类型。例如,如果一个字段包含数字,Elasticsearch 可以将其识别为整数或浮点数。自动检测虽然方便,但可能不总是符合特定的数据需求。
-
显式映射:为了更精确地控制索引过程,可以显式地为文档定义映射。这可以通过使用 Elasticsearch 的 PUT 映射 API 来实现,你可以定义每个字段的类型、是否被索引以及其他特定的索引属性。
示例: 假设我们有一个电商平台的产品信息,我们可以为这些产品定义以下映射:
jsonPUT /products { "mappings": { "properties": { "product_id": { "type": "integer" }, "name": { "type": "text" }, "price": { "type": "float" }, "in_stock": { "type": "boolean" }, "created_at": { "type": "date", "format": "yyyy-MM-dd HH:mm:ss" } } } }
-
更新映射:一旦某个字段的映射定义好后,如果需要修改已有字段的映射类型,这通常是不允许的,因为这可能会导致数据不一致。如果确实需要修改,通常的做法是重新索引数据到一个新的索引中,这个新的索引有着新的映射定义。
-
动态映射控制:可以通过设置索引的动态映射规则来控制未显式定义字段的映射行为。例如,可以设置将所有新的未知字符串字段自动映射为 keyword 而非 text,或者完全关闭动态映射功能。
jsonPUT /my_index { "mappings": { "dynamic": "strict", // 或者 "true" 或 "false" "properties": { // 定义已知字段 } } }
总结
映射是 Elasticsearch 架构的重要部分,正确的映射能够保证数据被正确索引和有效查询。通过合理使用显式映射、控制动态映射,并在必要时重新索引数据,可以高效地管理 Elasticsearch 的数据结构。