kubernetes k8s常用问题排查方法_综合编程-免费资源网

来自：网络

时间：2022-06-26

阅读：

Pod 的那些状态

使用 K8s 部署我们的服务之后，为了观察 Pod 是否成功，我们都会使用下面这个命令查询 Pod 的状态。

kubectl get pods
NAME                         READY   STATUS              RESTARTS   AGE
my-app-5d7d978fb9-2fj5m      0/1     ContainerCreating   0          10s
my-app-5d7d978fb9-dbt89      0/1     ContainerCreating   0          10s

这里的 STATUS 代表了 Pod 的状态，可能会遇到的状态有下面几个：

ContainerCreating：代表容器正在创建，这是一个中间状态，随着容器创建成功会切换，但是也有可能一直卡在这里，具体问题下面会分析。
ImagePullBackOff：容器镜像拉取失败，具体原因需要结合 describe 命令再去查看。
CrashLoopBackOff：容器崩溃，一般容器崩溃，Deployment 会重新创建一个 Pod，维持副本数量，但是大概率新创建的Pod 还是会崩溃，它不会无限尝试，崩溃超过设置次数就不会再尝试重建Pod，此时Pod的状态就维持在了 CrashLoopBackOff。
Evicted: 因为节点资源不足（CPU/Mem/Storage都有可能），Pod 被驱逐会显示 Evicted 状态，K8s 会按照策略选择认为可驱逐的Pod从节点上 Kill 掉。
Running 这个代表 Pod 正常运行。

下面我们来看一下 Pod 的几个错误状态的原因，以及怎么排查解决它们。

镜像拉取失败

镜像拉取失败后 Pod 的状态字段表示为 ImagePullBackOff，这个发生的情况还是很多的，原因除了我们不小心写错镜像名字之外，还有就是常用软件的一些官方镜像都在国外，比如在docker.io 或者 quay.io 的镜像仓库上，有的时候访问速度会很慢。

下面我们自己故意制造一个镜像名字写错的场景，看怎么使用 kubectl 命令进行排查。比如我在 K8s 教程里一直用的 Deployment 定义：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-go-app
spec:
  replicas: 2
  selector:
    matchLabels:
      app: go-app
  template:
    metadata:
      labels:
        app: go-app
    spec:
      containers:
        - name: go-app-container
          image: kevinyan001/kube-go-app:v0.3
          resources:
            limits:
              memory: "200Mi"
              cpu: "50m"
          ports:
            - containerPort: 3000
          volumeMounts:
            - name: app-storage
              mountPath: /tmp
      volumes:
        - name: app-storage
          emptyDir: {}

我们把镜像的名字故意改错，改成 v0.5，这个镜像是我自己打的，确实还没有 0.5 版本。执行kubectl apply 后，来观察一下 Pod 的状态。

➜ kubectl apply -f deployment.yaml
deployment.apps/my-go-app configured
➜ kubectl get pods
NAME                         READY   STATUS              RESTARTS   AGE
my-go-app-5d7d978fb9-2fj5m   1/1     Running             0          3h58m
my-go-app-5d7d978fb9-dbt89   1/1     Running             0          3h58m
my-go-app-6b77dbbcc5-jpgbw   0/1     ContainerCreating   0          7s
➜ kubectl get pods
NAME                         READY   STATUS         RESTARTS   AGE
my-go-app-5d7d978fb9-2fj5m   1/1     Running        0          3h58m
my-go-app-5d7d978fb9-dbt89   1/1     Running        0          3h58m
my-go-app-6b77dbbcc5-jpgbw   0/1     ErrImagePull   0          14s
.....// 停顿1分钟，再查看Pod 的状态
➜ kubectl get pods                               
NAME                         READY   STATUS             RESTARTS   AGE
my-go-app-5d7d978fb9-2fj5m   1/1     Running            0          4h1m
my-go-app-5d7d978fb9-dbt89   1/1     Running            0          4h1m
my-go-app-6b77dbbcc5-jpgbw   0/1     ImagePullBackOff   0          3m11s

上面我们更新了 deployment 之后，观察到 Pod 的状态变化过程是：

ContainerCreating ===> ErrImagePull ===> ImagePullBackOff

首先 deployment 更新 Pod 时是滚动更新，要先把新 Pod 创建出来后能对旧版本 Pod 完成替换。接下来由于镜像拉取错误会反馈一个中间状态 ErrImagePull，此时会再次尝试拉取，如果确定镜像拉取不下来后，最后反馈一个失败的终态 ImagePullBackOff。

怎么排查是什么导致的拉取失败呢？通过 kubectl describe pod {pod-name} 查看它的事件记录

➜ kubectl describe pod my-go-app-6b77dbbcc5-jpgbw
Name:         my-go-app-6b77dbbcc5-jpgbw
Namespace:    default
Priority:     0
...
Controlled By:  ReplicaSet/my-go-app-6b77dbbcc5
Containers:
  go-app-container:
    Container ID:   
    Image:          kevinyan001/kube-go-app:v0.5
    Image ID:       
    Port:           3000/TCP
    Host Port:      0/TCP
    State:          Waiting
      Reason:       ErrImagePull
    Ready:          False
...
Node-Selectors:              &lt;none&gt;
Tolerations:                 node.kubernetes.io/not-ready:NoExecute op=Exists for 300s
                             node.kubernetes.io/unreachable:NoExecute op=Exists for 300s
Events:
  Type     Reason     Age                  From               Message
  ----     ------     ----                 ----               -------
  Normal   Scheduled  2m12s                default-scheduler  Successfully assigned default/my-go-app-6b77dbbcc5-jpgbw to docker-desktop
  Normal   Pulling    27s (x4 over 2m12s)  kubelet            Pulling image "kevinyan001/kube-go-app:v0.5"
  Warning  Failed     20s (x4 over 2m4s)   kubelet            Failed to pull image "kevinyan001/kube-go-app:v0.5": rpc error: code = Unknown desc = Error response from daemon: manifest for kevinyan001/kube-go-app:v0.5 not found: manifest unknown: manifest unknown
  Warning  Failed     20s (x4 over 2m4s)   kubelet            Error: ErrImagePull
  Normal   BackOff    4s (x5 over 2m4s)    kubelet            Back-off pulling image "kevinyan001/kube-go-app:v0.5"
  Warning  Failed     4s (x5 over 2m4s)    kubelet            Error: ImagePullBackOff

Pod 事件记录里，清楚记录了 Pod 从开始到最后经历的状态变化，以及是什么导致状态变化的，其中失败事件里清楚的给出了我们原因，就是镜像找不到。

Events:
  Type     Reason     Age                  From               Message
  ----     ------     ----                 ----               -------
  Warning  Failed     20s (x4 over 2m4s)   kubelet            Failed to pull image "kevinyan001/kube-go-app:v0.5": rpc error: code = Unknown desc = Error response from daemon: manifest for kevinyan001/kube-go-app:v0.5 not found: manifest unknown: manifest unknown
  Warning  Failed     20s (x4 over 2m4s)   kubelet            Error: ErrImagePull
  Normal   BackOff    4s (x5 over 2m4s)    kubelet            Back-off pulling image "kevinyan001/kube-go-app:v0.5"
  Warning  Failed     4s (x5 over 2m4s)    kubelet            Error: ImagePullBackOff

还有一种是网络原因，或者镜像仓库没有权限拒绝拉取请求，导致无法拉取成功。因为我这里网络环境、加速器之类的好不容易都配好了，就不给大家演示这两种情况了。

不过排查方式也是一样，使用kubectl describe 命令查看 Pod 的事件，并且使用 docker pull 尝试主动的拉取一下镜像试试，如果确实网络问题拉取不下来的，可以考虑翻墙，或者使用国内的加速节点。

配置加速器，可以考虑使用阿里云的免费加速器，配置文档在下面，需要注册阿里云账号才能使用加速器

https://help.aliyun.com/product/60716.html

启动后容器崩溃

再来看这种错误，这种一般是容器里运行的程序内部出问题导致的容器连续崩溃出现的问题。最后反馈到 Pod 状态上是 CrashLoopBackOff 状态。

演示容器运行中崩溃的情况有点难，不过好在我之前介绍 Go 服务自动采样的时候，做过一个镜像

以下内容引用我之前的文章：Go 服务进行自动采样性能分析的方案设计与实现

我做了个docker 镜像方便进行试验，镜像已经上传到了Docker Hub上，大家感兴趣的可以Down下来自己在电脑上快速试验一下。

通过以下命令即可快速体验。

docker run --name go-profile-demo -v /tmp:/tmp -p 10030:80 --rm -d kevinyan001/go-profiling

容器里Go服务提供的路由如下

所以我们把上面的 deployment Pod 模版里的镜像换成这个 kevinyan001/go-profiling，再通过提供的路由手动制造 OOM，来故意制造容器崩溃的情况。

修改Pod 使用的容器镜像

#执行 kubectl apply -f deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-go-app
spec:
  replicas: 2
  selector:
    matchLabels:
      app: go-app
  template:
    metadata:
      labels:
        app: go-app
    spec:
      containers:
        - name: go-app-container
          image: kevinyan001/go-profiling:latest
          resources:
            limits:
              memory: "200Mi"
              cpu: "50m"

创建个 SVC 让Pod能接受外部流量

#执行 kubectl apply -f service.yaml
apiVersion: v1
kind: Service
metadata:
  name: app-service
spec:
  type: NodePort
  selector:
    app: go-app
  ports:
    - name: http
      protocol: TCP
      nodePort: 30080
      port: 80
      targetPort: 80

程序中提供的路由如下：

kubernetes k8s常用问题排查方法

访问 http://127.0.0.1:30080/1gb-slice 让容器内存溢出，因为 Deployment 会重启崩溃的 Pod，所以这里非常考验手速：）估计狂点一分钟，Deployment 就放弃治疗休息会儿再重启 Pod，这时 Pod 的状态成功变成了：

➜ kubectl get pods
NAME                         READY   STATUS             RESTARTS      AGE
my-go-app-598f697676-f5jfp   0/1     CrashLoopBackOff   2 (18s ago)   5m37s
my-go-app-598f697676-tps7n   0/1     CrashLoopBackOff   2 (23s ago)   5m35s

这个时候我们使用 kubectl describe pod 看崩溃 Pod 的详细信息，会看到容器内程序返回的错误码

➜ kubectl describe pod my-go-app-598f697676-tps7n
Name:         my-go-app-598f697676-tps7n
Namespace:    default
    Port:           3000/TCP
    Host Port:      0/TCP
    State:          Running
      Started:      Sun, 20 Mar 2022 16:09:29 +0800
    Last State:     Terminated
      Reason:       Error
      Exit Code:    137
      Started:      Sun, 20 Mar 2022 16:08:56 +0800
      Finished:     Sun, 20 Mar 2022 16:09:05 +0800

不过要深入排查 Pod 内容器的问题，需要另一个命令 kubectl logs {pod-name} 的协助。

kubectl logs my-go-app-598f697676-tps7n

如果恰巧这个 Pod 被重启了，查不出来任何东西，可以通过增加 — previous 参数选项，查看之前容器的日志。

kubectl logs my-go-app-598f697676-tps7n --previous

容器被驱逐

首先声明，这个问题研发解决不了，但是你发挥一下自己YY的能力：当群里报警、运维@你赶紧看的时候，你来个反杀，告诉他资源不够了赶紧扩容，是不是能装到^_^…

扯远了，现在回正题。集群里资源紧张的时候，K8s 会优先驱逐优先级低的 Pod，被驱逐的 Pod 的状态会是 Evicted，这个情况没办法在本地模拟，贴一个在公司K8s集群遇到这种情况的截图。

kubectl get pod 查看Pod状态

kubernetes k8s常用问题排查方法

上图可以看到有一个Pod 的状态变成了 Evicted。

再来用describe 看下详细信息

kubectl describe pod 查看Pod 的详细信息和事件记录

kubernetes k8s常用问题排查方法

不好意思，历史久远，上面的图太模糊了，图中的Message 一栏里有给出如下信息：

Status: Faild
Reason: Evicted
Message: The node wan low on resource: xxx-storage. Container xxx using xxxKi, 
which exceeds its request of ....

总结

一般来说，大多数常见的部署失败都可以使用这些命令进行排查和调试：

kubectl get pods

kubectl describe pod <podname>

kubectl logs <podname>

kubectl logs <podname> --previous

当然，有的时候想看 Pod 的配置信息，还可以使用

kubectl get pod <podname> -o=yaml

验证一下Pod的配置是不是跟我们提交上去的一样，以及一些其他的额外信息。

get 和 describe 这两个命令除了能看 Pod 的状态和信息记录外，也能看其他资源的状态和信息。

kubectl get pod|svc|deploy|sts|configmap &lt;xxx-name&gt;
kubectl describe pod|svc|deploy|sts|configmap &lt;xxx-name&gt;

这些就留给大家后面自己体验吧。为了方便大家在本地试验，在公众号「网管叨bi叨」回复【k8s】能找到今天用的各种YAML的模版，感兴趣的可以动手实践起来。

以上就是kubernetes k8s常用问题排查方法的详细内容，更多关于kubernetes k8s问题排查方法的资料请关注其它相关文章！

问题描述A 页面有个按钮，点击后会跳转到一个新页面 B，如果我们跳转之后再打开 devtools 工具条就会无法看到 B 页面初始化发起的请求，那你会说我刷新下不就好了吗？大多数时候这

2024-10-18 23:12:41

在 Rust 中，*、ref、mut、& 和 ref mut 是用于处理引用、解引用和可变性的关键字和操作符，它们在不同的上下文中有不同的用法。一、* 解引用* 属于操作符1. 作用用于解引用指

2024-07-25 21:49:58

目录一.系统环境二.前言三.Open Policy Agent 简介四.Rego 语言简介五.配置基本环境六.docker安装OPA插件 6.1 安装docker 6.2 docker安装OPA插件 6.3 启用OPA

2024-06-05 22:14:00

HTTP 长连接，也称为 HTTP 持久连接（HTTP Persistent Connection）或 HTTP 连接重用，是一种在 HTTP 协议中实现的机制。在传统的 HTTP 通信中，每个 HTTP 请求和响应都会伴随着 TCP

2024-06-05 22:11:55

先给出公式 ans = n - LPS[n-1]其中ans为最小周期,n为给出的由假设的周期字符串中提取出的子串长度,LPS为前缀函数,n-1为字符串最后的位置下标证明如下
证明ans = n - LPS[n

2024-05-26 14:39:26

原文出处：改造 Kubernetes 自定义调度器 | Jayden's Blog (jaydenchang.top)OverviewKubernetes 默认调度器在调度 Pod 时并不关心特殊资源例如磁盘、GPU 等，因此突发奇想

2024-05-26 14:38:11

检索增强生成 (Retrieval Augmented Generation，RAG) 可将存储在外部数据库中的新鲜领域知识纳入大语言模型以增强其文本生成能力。其提供了一种将公司数据与训练期间语言模

2024-05-25 11:53:26

目录 Ceph存储池 1. Ceph的存储流程 1. 数据写入 2. 数据读取 2. 资源池的配置 2.1 资源池创建 pgp是什么（Placement Group for Placement purpose）

2024-05-25 11:48:13

rust 处理错误，不使用 try catch，而是使用 Result<T, E>。简单的处理rust错误在各种关于rust错误处理的文档中，为了解释清楚其背后的机制，看着内容很多，不好理解。比如我们写一

2024-05-10 21:43:40

在上文中我们学会学会更改加载路径，加载对应文件夹下的Lua脚本。默认解析加载的lua脚本存在的文件位置非AB包或者Resources文件夹下往往不能随包体更新，这显然不符合热更需要

2024-05-10 21:29:47

方便我们在项目中使用Lua解析方法，我们封装管理一个lua解析器，管理LuaState的方法执行。解析器脚本：using LuaInterface;namespace BaseFramework{ /// <summary> /// 自

2024-05-10 21:29:22

使用自定义委托来调用lua脚本中的多返回值函数和长参数类型的函数。先看代码，依旧是上篇文章中所贴的脚本。新增调用两个函数testFuncusing System;using BaseFramework;usin

2024-05-10 21:28:53

访问数组类型的tableCallLuaEntrance测试脚本中内容： //--------------------------------------访问table-----------------------------//4.1 访问list/数组类型的table//

2024-05-10 21:28:16

在并发的世界中，最常见的并发安全问题就是数据竞争，也就是两个线程同时对一个变量进行读写操作。但当你在 Safe Rust 中写出有数据竞争的代码时，编译器会直接拒绝编译。那么它

2024-04-30 21:37:14

使用ollama + AnythingLLM快速且简单的在本地部署llama3不多说，直接开始一、安装ollamaollama官网：https://ollama.com/
下载地址：https://ollama.com/download打开以后注册并

2024-04-23 22:31:56

为什么需要 CNI在 kubernetes 中，pod 的网络是使用 network namespace 隔离的，但是我们有时又需要互相访问网络，这就需要一个网络插件来实现 pod 之间的网络通信。CNI 就是为了

2024-04-21 22:16:12

背景我是有个基于DOM实现的简历编辑器项目的，因为暂时找不到可以用Canvas实现的比较有意思的场景，所以才选择了继续做简历编辑器，最开始做简历编辑器就是因为很多简历网站都是

2024-04-15 11:46:07

前言在Canvas2D中实现圆形的绘制比较简单，只要调用arc指令就能在Canvas画布上绘制出一个圆形，类似的，在SVG中我们也只需要一个<circle>标签就能在页面上绘制一个圆形。那么在We

2024-04-13 21:52:27

第一章：引言导言在当今数字化时代，数据安全和完整性变得至关重要。消息摘要算法是一种用于验证数据完整性和安全性的重要工具。在众多消息摘要算法中，MD5（Message
Digest Algori

2024-04-11 21:57:55

1.概述传统应用开发中，为了提升系统的查询性能，往往会在系统架构设计中加入缓存机制。在AI大模型领域，虽然功能非常强大，但是使用成本也是非常昂贵的，比如OpenAI的GPT-4按照token

2024-03-31 22:20:53

目录简介架构 Application 和组件简单入门示例先决条件创建项目编译库文件引用库文件运行项目界面交互示例创建项目编译库文件实现应用函数引

2024-03-26 11:54:50

目录简介 hello world 常用功能动态路径多个片段(segments) 静态文件服务器简单WebAPI示例添加依赖实现接口接口测试参考链接简介Rust中最知名的两个web

2024-03-19 23:21:01

一、RabbitMQ的集群模式主要有两种：普通集群模式和镜像队列模式。下面分别介绍这两种模式的原理：1.普通集群模式：在普通集群模式下，RabbitMQ的集群节点之间主要同步元数据，而不

2024-03-19 23:07:45

0 前言在物联网领域中，mqtt消息一直是海量设备连接到平台的标配协议，而平台向移动端开放的操作接口往往是http协议，这就要求平台为两种协议作消息一一适配。在某些情况下，这些设

2024-03-19 23:04:15

目录前言 git rm 命令 git reset 命令 git rm 和 git reset 的比较不同用例的适用性比较对文件状态的影响比较 git update-index 命令 git clean 命令实际应用

2024-03-18 21:30:10

一、?=、?!、?＜=、?＜!、?:的解释1. 先看一下比较官方的解释 (?=pattern)：正向先行断言，表示匹配位置后面必须紧跟着满足 pattern 的字符串，但不包括这个字符串在匹配结果中。 (?!

2024-03-18 21:24:29

4）Playbook4.1）Playbook 介绍PlayBook 与 ad-hoc 相比，是一种完全不同的运用 Ansible 的方式，类似与 Saltstack 的 state 状态文件。ad-hoc 无法持久使用，PlayBook 可以持久使用

2024-03-17 23:18:56

尽管ggez提供了很多相关特性的demo供运行查看，但笔者第一次使用的时候还是有很多疑惑不解。经过仔细阅读demo代码并结合自己的实践，逐步了解了ggez在不同场景下的绘图方式，在此

2024-03-17 22:57:09

前言最近在学习 ES，所以需要在服务器上装一个单节点的 ES服务器环境：centos 7.9安装下载镜像目前最新版本是 8.12.2docker pull docker.elastic.co/elasticsearch/elasticsear

2024-03-15 20:55:15

MD5算法起源：MD5（Message Digest Algorithm 5）算法是由MIT的计算机科学家Ronald Rivest于1991年设计的一种消息摘要算法。MD5算法最初被用于提供数据完整性和一致性的验证，后来

2024-03-15 20:51:05

2020-09-27

2018-09-21

2018-09-02

2021-03-15

2022-12-16

2021-03-10

2019-08-24

2020-09-16

2019-07-29

2022-12-12

kubernetes k8s常用问题排查方法

目录

Pod 的那些状态

镜像拉取失败

启动后容器崩溃

容器被驱逐

总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道