Elasticsearch的删除映射类型操作示例

来自：网络

时间：2022-04-20

阅读：

一前言

官方解释：https://www.elastic.co/guide/en/elasticsearch/reference/6.0/removal-of-types.html

在elasticsearch6.0.0或更高的版本中创建索引仅能包含单个映射类型。在具有多种映射类型的5.x版本中创建的索引将继续像以前一样在elasticsearch6.x中运行。类型将在elasticsearch7.0.0中的API中弃用，并在8.0.0中完全删除。

二什么是映射类型？

从elasticsearch发布以来，每个文档都存储在单个索引中并分配了单个映射类型。映射类型用于表示要编制索引的文档或实体的类型。例如微博（twitter）索引可能具有用户（user）类型和推文（tweet）两个类型。

每种映射类型都可以有自己的字段，因此用户（user）类型可能有 full_name、user_name、email字段；而推文（tweet）类型可能有content、tweet_at字段和用户（user）类型的user_name字段。每个文档都有一个_type包含类型名称的元字段，通过在URL中指定类型名称，搜索可以限制为一种或多种类型：

GET twitter/user,tweet/_search
{
  "query":{
    "match":{
      "user_name":"kimchy"
    }
  }
}

该_type字段与文档组合_id以生成_uid字段，因此具有相同类型的文档_id可以存储在单个索引中。
映射类型也用于在文档中建立父子关系，因此类型的文档question可以是类型文档的父类answer。
扯了半天淡，一切不都是挺好的嘛？那还为啥要删除映射类型呢？

三为什么要删除映射类型？

最初（其实到现在），为了便于理解elasticsearch的数据组织，通常拿elasticsearch和关系型数据库做对比，比如我们谈到一个es索引（index）时，通常将它比喻为类似于SQL数据库中的database，而类型（type）等同于SQL数据库中的表。

这真是一个糟糕的比喻！让我们有了错误理解。因为在SQL数据库中，表彼此独立，一个表中的字段与另一个表中具有相同名称的字段无关，而映射类型中的字段不是这种情况。

在elasticsearch的索引中，不同映射类型具有相同名称的字段在内部由相同的Lucene字段支持。换句话说，使用上面的示例，用户（user）类型中的user_name字段存储在和推文（tweet）类型中的user_name字段完全相同的字段中，而且两种类型中的user_name字段必须具有相同的映射（定义）。

当我们希望删除一个类型的日期字段和同一个索引中另一个类型的布尔字段时，这可能会导致挫败感（可以理解为删除失败）。

最重要的是，在同一索引中存储具有很少或没有共同字段的不同实体会导致稀疏数据并干扰Lucene有效压缩文档的能力。

出于这些原因，我们决定从elasticsearch中删除映射类型的概念。

四映射类型的替代方法

4.1 将映射类型分开存储在索引中

第一种方法是每个文档类型都有一个索引，例如微博（twitter）索引中，我们可以将推文（tweet）类型和用户（user）类型分开，分别存储在独立的索引中。这样两个相互的索引就不会引起字段冲突了。

这中方法有两个好处：

数据更可能是密集的，因此受益于Lucene中使用的压缩技术。
用于全文搜索评分的词条统计将会更精确，应为同一索引中的所有文档都代表单个实体。

每个索引的大小可以根据其包含的文档数量进行适当的调整，比如我们为用户（user）类型分配较少的主分片，而为推文（tweet）类型分配较多的主分片。

4.2 自定义类型字段回到顶部

当然了，集群中可以存储多少个主分片是有限制的，我们不希望仅为几千个文档的集合而浪费整个分片。在这种情况下，我们可以实现自己的自定义type字段，该字段的工作方式与旧的_type相似。
还是上面微博（twitter）例子，最初，它的映射类型看起来是这样的：

PUT twitter
{
  "mappings": {
    "user":{
      "properties":{
        "name":{
          "type":"text"
        },
        "user_name":{
          "type":"keyword"
        },
        "email":{
          "type":"keyword"
        }
      }
    },
    "tweet":{
      "properties":{
        "content":{
          "type":"text"
        },
        "user_name":{
          "type":"keyword"
        },
        "tweet_at":{
          "type":"date"
        }
      }
    }
  }
}
PUT twitter/user/kimchy
{
  "name":"狗子",
  "user_name":"二狗子",
  "email":"dog@twodog.com"
}
PUT twitter/tweet/1
{
  "name":"kimchy",
  "tweet_ad":"2019-04-30T10:26:20Z",
  "content":"单身狗求包养"
}
GET twitter/tweet/_search
{
  "query": {
    "match": {
      "user_name": "kimchy"
    }
  }
}

如上示例，请在5.x及以下版本测试
我们也可以通过添加自定义type字段来实现相同目的：

PUT twitter
{
  "mappings": {
    "doc":{
      "properties":{
        "type":{
          "type":"keyword"
        },
        "name":{
          "type":"text"
        },
        "user_name":{
          "type":"keyword"
        },
        "email":{
          "type":"text"
        },
        "content":{
          "type":"text"
        },
        "tweet_at":{
          "type":"date"
        }
      }  
    }
  }
}
PUT twitter/doc/user-kimchy
{
  "type":"user",
  "name":"狗子",
  "user_name":"二狗子",
  "email":"dog@twodog.com"
}
PUT twitter/doc/tweet-1
{
  "type":"tweet",
  "user_name":"kimchy",
  "tweet_at":"2019-04-30T10:26:20Z",
  "content":"单身狗求包养"
}
GET twitter/_search
{
  "query": {
    "bool": {
      "must":[
        {
          "match": {
            "user_name": "kimchy"
          }
        }
      ],
      "filter": {
        "match":{
          "type":"tweet"
        }
      }
    }
  }
}

上述示例6.5.4版本运行无误。

五没有映射类型的父/子

以前，通过将一个映射类型设置为父级，将一个或多个其他映射类型设置为子级来表示父子关系。现在，没有了多类型，我们就不能再使用这种语法了。除了表示文档之间的关系方式已改为使用新的join字段之外，父子特征将继续像以前一样运行。

六删除映射类型的计划

这个删除映射类型的计划，对于用户来说是一个很大的变化，所以我们试图让它尽可能轻松，更改将如下所示：

在elasticsearch5.6.0中：

index.mapping.single_type:true在索引上设置将启用在6.0中强制执行的单索引类型。
父子的join字段替换可用于在5.6中创建索引。

在elasticsearch6.x中：

在5.x中创建的索引将继续在6.x中运行，就像在5.x中一样。
在6.x中创建的索引仅允许每个索引使用单一类型，任何字段都可以用于该类型，但必须是唯一的。
该_type名称可以不再与_id组合形成_uid字段，_uid字段已成为_id字段的别名。
新索引不再支持旧的父/子关系，而是应该使用连接字段。
不推荐使用_default_mapping类型。
在6.7中，索引创建、索引模板和映射API支持查询字符串参数（include_type_name），该参数仅表示请求和响应是否应该包含类型名称，默认为true，应该设置为一个显式值，以便准备升级到7.0。未设置include_type_name将导致一个弃用警告，没有显式类型的索引将使用默认的类型名称_doc。

在elasticsearch7.x中：

不推荐在请求中指定类型。例如，索引文档不再需要文档类型。对于自动生成的id，新的索引API在显式ids和POST {index_name}/_doc的情况下是PUT {index_name}/_doc/{id}。
索引创建，索引模板和映射API中的include_type_name参数将默认为false，未设置参数将导致启动警告。
删除了_default_mapping类型。

在elasticsearch8.x中：

不在支持在请求中指定类型。
include_type_name参数已删除。

七将多类型索引迁移到单一类型

Reindex API可用于将多类型索引转换为单类型索引。下面的例子可以在Elasticsearch 5.6或Elasticsearch 6.x中使用。在6.x中，不需要指定index.mapping。默认为单一类型。

7.1 每种文档类型的索引

第一个示例将微博（twitter）索引拆分为推文（tweets）索引和用户（users）索引：

PUT users
{
  "mappings": {
    "user":{
      "properties":{
        "name":{
          "type":"text"
        },
        "user_name":{
          "type":"keyword"
        },
        "email":{
          "type":"keyword"
        }
      }
    }
  }
}
PUT tweets
{
  "mappings": {
    "tweet":{
      "properties":{
        "content":{
          "type":"text"
        },
        "user_name":{
          "type":"keyword"
        },
        "tweet_at":{
          "type":"date"
        }
      }
    }
  }
}
POST _reindex
{
  "source": {
    "index":"twitter",
    "type":"user"
  },
  "dest": {
    "index":"users"
  }
}
POST _reindex
{
  "source": {
    "index":"twitter",
    "type":"tweet"
  },
  "dest": {
    "index": "tweets"
  }
}

上述代码在6.5.4版本中运行无误。

上述的示例意思是，在之前我们在微博（twitter）索引中，有两个类型（tweet和user）。

现在要将两个类型分开，成为独立的索引。

所以，首先先创建出各自的索引（tweets和users），然后通过POST _reindex来完成迁移工作。

7.2 自定义类型字段

第二个示例添加自自定义的type字段，并将其设置为原始值_type。

它还添加了类型到id，以防有任何不同类型的文档具有冲突的id：

PUT new_twitter
{
  "mappings": {
    "doc":{
      "properties":{
        "type":{
          "type":"keyword"
        },
        "name":{
          "type":"text"
        },
        "user_name":{
          "type":"keyword"
        },
        "email":{
          "type":"keyword"
        },
        "content":{
          "type":"text"
        },
        "tweet_at":{
          "type":"date"
        }
      }
    }
  }
}
POST _reindex
{
  "source": {
    "index":"twitter"
  },
  "dest":{
    "index": "new_twitter"
  },
  "script": {
    "source": """
      ctx._source.type = ctx._type;
      ctx._id = ctx._type + "-" + ctx._id;
      ctx._type = "doc";
    """
  }
}

上述代码在6.5.4版本运行无误。

八总结

总之，通篇看下来，如果对elasticsearch，尤其是各版本不太了解的话，这篇文档看着索然无味！重要的是看不懂，如果我们是新手，接触elasticsearch的时候，就是从6.x版本开始的，那只要记得，一个索引下面只能创建一个类型就行了，其中各字段都具有唯一性，如果在创建映射的时候，如果没有指定文档类型，那么该索引的默认索引类型是_doc，不指定文档id则会内部帮我们生成一个id字符串。

以上就是Elasticsearch的删除映射类型操作示例的详细内容，更多关于Elasticsearch删除映射类型的资料请关注其它相关文章！

问题描述A 页面有个按钮，点击后会跳转到一个新页面 B，如果我们跳转之后再打开 devtools 工具条就会无法看到 B 页面初始化发起的请求，那你会说我刷新下不就好了吗？大多数时候这

2024-10-18 23:12:41

在 Rust 中，*、ref、mut、& 和 ref mut 是用于处理引用、解引用和可变性的关键字和操作符，它们在不同的上下文中有不同的用法。一、* 解引用* 属于操作符1. 作用用于解引用指

2024-07-25 21:49:58

目录一.系统环境二.前言三.Open Policy Agent 简介四.Rego 语言简介五.配置基本环境六.docker安装OPA插件 6.1 安装docker 6.2 docker安装OPA插件 6.3 启用OPA

2024-06-05 22:14:00

HTTP 长连接，也称为 HTTP 持久连接（HTTP Persistent Connection）或 HTTP 连接重用，是一种在 HTTP 协议中实现的机制。在传统的 HTTP 通信中，每个 HTTP 请求和响应都会伴随着 TCP

2024-06-05 22:11:55

先给出公式 ans = n - LPS[n-1]其中ans为最小周期,n为给出的由假设的周期字符串中提取出的子串长度,LPS为前缀函数,n-1为字符串最后的位置下标证明如下
证明ans = n - LPS[n

2024-05-26 14:39:26

原文出处：改造 Kubernetes 自定义调度器 | Jayden's Blog (jaydenchang.top)OverviewKubernetes 默认调度器在调度 Pod 时并不关心特殊资源例如磁盘、GPU 等，因此突发奇想

2024-05-26 14:38:11

检索增强生成 (Retrieval Augmented Generation，RAG) 可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模

2024-05-25 11:53:26

目录 Ceph存储池 1. Ceph的存储流程 1. 数据写入 2. 数据读取 2. 资源池的配置 2.1 资源池创建 pgp是什么（Placement Group for Placement purpose）

2024-05-25 11:48:13

rust 处理错误，不使用 try catch，而是使用 Result<T, E>。简单的处理rust错误在各种关于rust错误处理的文档中，为了解释清楚其背后的机制，看着内容很多，不好理解。比如我们写一

2024-05-10 21:43:40

在上文中我们学会学会更改加载路径，加载对应文件夹下的Lua脚本。默认解析加载的lua脚本存在的文件位置非AB包或者Resources文件夹下往往不能随包体更新，这显然不符合热更需要

2024-05-10 21:29:47

方便我们在项目中使用Lua解析方法，我们封装管理一个lua解析器，管理LuaState的方法执行。解析器脚本：using LuaInterface;namespace BaseFramework{ /// <summary> /// 自

2024-05-10 21:29:22

使用自定义委托来调用lua脚本中的多返回值函数和长参数类型的函数。先看代码，依旧是上篇文章中所贴的脚本。新增调用两个函数testFuncusing System;using BaseFramework;usin

2024-05-10 21:28:53

访问数组类型的tableCallLuaEntrance测试脚本中内容： //--------------------------------------访问table-----------------------------//4.1 访问list/数组类型的table//

2024-05-10 21:28:16

在并发的世界中，最常见的并发安全问题就是数据竞争，也就是两个线程同时对一个变量进行读写操作。但当你在 Safe Rust 中写出有数据竞争的代码时，编译器会直接拒绝编译。那么它

2024-04-30 21:37:14

使用ollama + AnythingLLM快速且简单的在本地部署llama3不多说，直接开始一、安装ollamaollama官网：https://ollama.com/
下载地址：https://ollama.com/download打开以后注册并

2024-04-23 22:31:56

为什么需要 CNI在 kubernetes 中，pod 的网络是使用 network namespace 隔离的，但是我们有时又需要互相访问网络，这就需要一个网络插件来实现 pod 之间的网络通信。CNI 就是为了

2024-04-21 22:16:12

背景我是有个基于DOM实现的简历编辑器项目的，因为暂时找不到可以用Canvas实现的比较有意思的场景，所以才选择了继续做简历编辑器，最开始做简历编辑器就是因为很多简历网站都是

2024-04-15 11:46:07

前言在Canvas2D中实现圆形的绘制比较简单，只要调用arc指令就能在Canvas画布上绘制出一个圆形，类似的，在SVG中我们也只需要一个<circle>标签就能在页面上绘制一个圆形。那么在We

2024-04-13 21:52:27

第一章：引言导言在当今数字化时代，数据安全和完整性变得至关重要。消息摘要算法是一种用于验证数据完整性和安全性的重要工具。在众多消息摘要算法中，MD5（Message
Digest Algori

2024-04-11 21:57:55

1.概述传统应用开发中，为了提升系统的查询性能，往往会在系统架构设计中加入缓存机制。在AI大模型领域，虽然功能非常强大，但是使用成本也是非常昂贵的，比如OpenAI的GPT-4按照token

2024-03-31 22:20:53

目录简介架构 Application 和组件简单入门示例先决条件创建项目编译库文件引用库文件运行项目界面交互示例创建项目编译库文件实现应用函数引

2024-03-26 11:54:50

目录简介 hello world 常用功能动态路径多个片段(segments) 静态文件服务器简单WebAPI示例添加依赖实现接口接口测试参考链接简介Rust中最知名的两个web

2024-03-19 23:21:01

一、RabbitMQ的集群模式主要有两种：普通集群模式和镜像队列模式。下面分别介绍这两种模式的原理：1.普通集群模式：在普通集群模式下，RabbitMQ的集群节点之间主要同步元数据，而不

2024-03-19 23:07:45

0 前言在物联网领域中，mqtt消息一直是海量设备连接到平台的标配协议，而平台向移动端开放的操作接口往往是http协议，这就要求平台为两种协议作消息一一适配。在某些情况下，这些设

2024-03-19 23:04:15

目录前言 git rm 命令 git reset 命令 git rm 和 git reset 的比较不同用例的适用性比较对文件状态的影响比较 git update-index 命令 git clean 命令实际应用

2024-03-18 21:30:10

一、?=、?!、?＜=、?＜!、?:的解释1. 先看一下比较官方的解释 (?=pattern)：正向先行断言，表示匹配位置后面必须紧跟着满足 pattern 的字符串，但不包括这个字符串在匹配结果中。 (?!

2024-03-18 21:24:29

4）Playbook4.1）Playbook 介绍PlayBook 与 ad-hoc 相比，是一种完全不同的运用 Ansible 的方式，类似与 Saltstack 的 state 状态文件。ad-hoc 无法持久使用，PlayBook 可以持久使用

2024-03-17 23:18:56

尽管ggez提供了很多相关特性的demo供运行查看，但笔者第一次使用的时候还是有很多疑惑不解。经过仔细阅读demo代码并结合自己的实践，逐步了解了ggez在不同场景下的绘图方式，在此

2024-03-17 22:57:09

前言最近在学习 ES，所以需要在服务器上装一个单节点的 ES服务器环境：centos 7.9安装下载镜像目前最新版本是 8.12.2docker pull docker.elastic.co/elasticsearch/elasticsear

2024-03-15 20:55:15

MD5算法起源：MD5（Message Digest Algorithm 5）算法是由MIT的计算机科学家Ronald Rivest于1991年设计的一种消息摘要算法。MD5算法最初被用于提供数据完整性和一致性的验证，后来

2024-03-15 20:51:05

2020-09-27

2018-09-21

2018-09-02

2021-03-15

2022-12-16

2021-03-10

2019-08-24

2020-09-16

2019-07-29

2022-12-12

Elasticsearch的删除映射类型操作示例

目录

一 前言

二 什么是映射类型？

三 为什么要删除映射类型？

四 映射类型的替代方法

4.1 将映射类型分开存储在索引中

4.2 自定义类型字段回到顶部

五 没有映射类型的父/子

六 删除映射类型的计划

七将多类型索引迁移到单一类型

7.1 每种文档类型的索引

7.2 自定义类型字段

八 总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道

一前言

二什么是映射类型？

三为什么要删除映射类型？

四映射类型的替代方法

五没有映射类型的父/子

六删除映射类型的计划

八总结