一个Pod调度失败后重新触发调度的所有情况分析

来自：网络

时间：2023-05-17

阅读：

正文

在 k8s 中一个Pod由于某些原因调度失败后，会被放入调度失败队列，这个队列里面的Pod后面都怎么样了呢？

他们怎么样才能重新获取到”重新做人的机会“呢？这篇文章，我们从源码的角度来看看来龙去脉

在 k8s 中会起两个协程，定期把 backoffQ 和 unscheduledQ 里面的 Pod拿到activeQ里面去

func (p *PriorityQueue) Run() {
   go wait.Until(p.flushBackoffQCompleted, 1.0*time.Second, p.stop)
   go wait.Until(p.flushUnschedulablePodsLeftover, 30*time.Second, p.stop)
}

flushUnschedulablePodsLeftover

func (p *PriorityQueue) flushUnschedulablePodsLeftover() {
   p.lock.Lock()
   defer p.lock.Unlock()
   var podsToMove []*framework.QueuedPodInfo
   currentTime := p.clock.Now()
   for _, pInfo := range p.unschedulablePods.podInfoMap {
      lastScheduleTime := pInfo.Timestamp
      if currentTime.Sub(lastScheduleTime) > p.podMaxInUnschedulablePodsDuration {
         podsToMove = append(podsToMove, pInfo)
      }
   }
   if len(podsToMove) > 0 {
      p.movePodsToActiveOrBackoffQueue(podsToMove, UnschedulableTimeout)
   }
}

    func (p *PriorityQueue) movePodsToActiveOrBackoffQueue(podInfoList []*framework.QueuedPodInfo, event framework.ClusterEvent) {
       activated := false
       for _, pInfo := range podInfoList {
          // If the event doesn't help making the Pod schedulable, continue.
          // Note: we don't run the check if pInfo.UnschedulablePlugins is nil, which denotes
          // either there is some abnormal error, or scheduling the pod failed by plugins other than PreFilter, Filter and Permit.
          // In that case, it's desired to move it anyways.
          if len(pInfo.UnschedulablePlugins) != 0 && !p.podMatchesEvent(pInfo, event) {
             continue
          }
          pod := pInfo.Pod
          if p.isPodBackingoff(pInfo) {
             if err := p.podBackoffQ.Add(pInfo); err != nil {
                klog.ErrorS(err, "Error adding pod to the backoff queue", "pod", klog.KObj(pod))
             } else {
                metrics.SchedulerQueueIncomingPods.WithLabelValues("backoff", event.Label).Inc()
                p.unschedulablePods.delete(pod)
             }
          } else {
             if err := p.activeQ.Add(pInfo); err != nil {
                klog.ErrorS(err, "Error adding pod to the scheduling queue", "pod", klog.KObj(pod))
             } else {
                    metrics.SchedulerQueueIncomingPods.WithLabelValues("active", event.Label).Inc()
                p.unschedulablePods.delete(pod)
             }
          }
       }
       p.moveRequestCycle = p.schedulingCycle
       if activated {
          p.cond.Broadcast()
       }
    }

将在unscheduledQ里面停留时长超过podMaxInUnschedulablePodsDuration（默认是5min）的pod放入到 ActiveQ 或 BackoffQueue，具体是放到哪个队列里面，根据下面规则判断：

根据这个Pod尝试被调度的次数，计算这个Pod应该等待下一次调度的时间，计算规则为指数级增长，即按照1s,2s,4s,8s这样的时间进行等待，但是这个等待时间也不会无限增加，会受到 podMaxBackoffDuration（默认10s）的限制，这个参数的意思是一个 Pod处于Backoff的最大时间，如果等待的时间如果超过了 podMaxBackoffDuration，那么就只等待 podMaxBackoffDuration 就会再次被调度；
当前时间 - 上次调度的时间 > 根据1获取到的应该等待的时间，那么就把Pod放到activeQ里面，将会被调度，否则Pod被放入 backoff 队列里继续等待，如果是在backoff 队列等待的话，后面就会被flushBackoffQCompleted取出

所以这里 Pod 如果满足条件的话就一定会从unscheduleQ里面移到 backooff里面或者activeQ里面

flushBackoffQCompleted

去取 backoff 队列（优先队列）里面取等待时间结束的 Pod，放入 activeQ

func (p *PriorityQueue) flushBackoffQCompleted() {
   p.lock.Lock()
   defer p.lock.Unlock()
   activated := false
   for {
      rawPodInfo := p.podBackoffQ.Peek()
      if rawPodInfo == nil {
         break
      }
      pod := rawPodInfo.(*framework.QueuedPodInfo).Pod
      boTime := p.getBackoffTime(rawPodInfo.(*framework.QueuedPodInfo))
      if boTime.After(p.clock.Now()) {
         break
      }
      _, err := p.podBackoffQ.Pop()
      if err != nil {
         klog.ErrorS(err, "Unable to pop pod from backoff queue despite backoff completion", "pod", klog.KObj(pod))
         break
      }
      p.activeQ.Add(rawPodInfo)
      metrics.SchedulerQueueIncomingPods.WithLabelValues("active", BackoffComplete).Inc()
      activated = true
   }
   if activated {
      p.cond.Broadcast()
   }
}

那么除了上述定期主动去判断一个 UnscheduledQ 或 backoffQ 里面的Pod是不是可以再次被调度，那么还有没有其他情况呢？

答案是有的。

还有四种情况会重新判断这两个队列里的 Pod 是不是要重新调度

有新节点加入集群
节点配置或状态发生变化
已经存在的 Pod 发生变化
集群内有Pod被删除

informerFactory.Core().V1().Nodes().Informer().AddEventHandler(
   cache.ResourceEventHandlerFuncs{
      AddFunc:    sched.addNodeToCache,
      UpdateFunc: sched.updateNodeInCache,
      DeleteFunc: sched.deleteNodeFromCache,
   },
)

新加入节点

func (sched *Scheduler) addNodeToCache(obj interface{}) {
   node, ok := obj.(*v1.Node)
   if !ok {
      klog.ErrorS(nil, "Cannot convert to *v1.Node", "obj", obj)
      return
   }
   nodeInfo := sched.Cache.AddNode(node)
   klog.V(3).InfoS("Add event for node", "node", klog.KObj(node))
   sched.SchedulingQueue.MoveAllToActiveOrBackoffQueue(queue.NodeAdd, preCheckForNode(nodeInfo))
}

func preCheckForNode(nodeInfo *framework.NodeInfo) queue.PreEnqueueCheck {
   // Note: the following checks doesn't take preemption into considerations, in very rare
   // cases (e.g., node resizing), "pod" may still fail a check but preemption helps. We deliberately
   // chose to ignore those cases as unschedulable pods will be re-queued eventually.
   return func(pod *v1.Pod) bool {
      admissionResults := AdmissionCheck(pod, nodeInfo, false)
      if len(admissionResults) != 0 {
         return false
      }
      _, isUntolerated := corev1helpers.FindMatchingUntoleratedTaint(nodeInfo.Node().Spec.Taints, pod.Spec.Tolerations, func(t *v1.Taint) bool {
         return t.Effect == v1.TaintEffectNoSchedule
      })
      return !isUntolerated
   }
}

可以看到，当有节点加入集群的时候，会把unscheduledQ 里面的Pod 依次拿出来做下面的判断：

Pod 对节点的亲和性
Pod 中 Nodename不为空那么判断新加入节点的Name判断pod Nodename是否相等
判断 Pod 中容器对端口的要求是否和新加入节点已经被使用的端口冲突
Pod 是否容忍了Node的Pod

只有上述4个条件都满足，那么新加入节点这个事件才会触发这个未被调度的Pod加入到 backoffQ 或者 activeQ，至于是加入哪个queue，上面已经分析过了

节点更新

func (sched *Scheduler) updateNodeInCache(oldObj, newObj interface{}) {
   oldNode, ok := oldObj.(*v1.Node)
   if !ok {
      klog.ErrorS(nil, "Cannot convert oldObj to *v1.Node", "oldObj", oldObj)
      return
   }
   newNode, ok := newObj.(*v1.Node)
   if !ok {
      klog.ErrorS(nil, "Cannot convert newObj to *v1.Node", "newObj", newObj)
      return
   }
   nodeInfo := sched.Cache.UpdateNode(oldNode, newNode)
   // Only requeue unschedulable pods if the node became more schedulable.
   if event := nodeSchedulingPropertiesChange(newNode, oldNode); event != nil {
      sched.SchedulingQueue.MoveAllToActiveOrBackoffQueue(*event, preCheckForNode(nodeInfo))
   }
}

func nodeSchedulingPropertiesChange(newNode *v1.Node, oldNode *v1.Node) *framework.ClusterEvent {
   if nodeSpecUnschedulableChanged(newNode, oldNode) {
      return &queue.NodeSpecUnschedulableChange
   }
   if nodeAllocatableChanged(newNode, oldNode) {
      return &queue.NodeAllocatableChange
   }
   if nodeLabelsChanged(newNode, oldNode) {
      return &queue.NodeLabelChange
   }
   if nodeTaintsChanged(newNode, oldNode) {
      return &queue.NodeTaintChange
   }
   if nodeConditionsChanged(newNode, oldNode) {
      return &queue.NodeConditionChange
   }
   return nil
}

首先是判断节点是何种配置发生了变化，有如下情况

节点可调度情况发生变化
节点可分配资源发生变化
节点标签发生变化
节点污点发生变化
节点状态发生变化

如果某个 Pod 调度失败的原因可以匹配到上面其中一个原因，那么节点更新这个事件才会触发这个未被调度的Pod加入到 backoffQ 或者 activeQ

informerFactory.Core().V1().Pods().Informer().AddEventHandler(
   cache.FilteringResourceEventHandler{
      FilterFunc: func(obj interface{}) bool {
         switch t := obj.(type) {
         case *v1.Pod:
            return assignedPod(t)
         case cache.DeletedFinalStateUnknown:
            if _, ok := t.Obj.(*v1.Pod); ok {
               // The carried object may be stale, so we don't use it to check if
               // it's assigned or not. Attempting to cleanup anyways.
               return true
            }
            utilruntime.HandleError(fmt.Errorf("unable to convert object %T to *v1.Pod in %T", obj, sched))
            return false
         default:
            utilruntime.HandleError(fmt.Errorf("unable to handle object in %T: %T", sched, obj))
            return false
         }
      },
      Handler: cache.ResourceEventHandlerFuncs{
         AddFunc:    sched.addPodToCache,
         UpdateFunc: sched.updatePodInCache,
         DeleteFunc: sched.deletePodFromCache,
      },
   },
)

已经存在的 Pod 发生变化

func (sched *Scheduler) addPodToCache(obj interface{}) {
   pod, ok := obj.(*v1.Pod)
   if !ok {
      klog.ErrorS(nil, "Cannot convert to *v1.Pod", "obj", obj)
      return
   }
   klog.V(3).InfoS("Add event for scheduled pod", "pod", klog.KObj(pod))
   if err := sched.Cache.AddPod(pod); err != nil {
      klog.ErrorS(err, "Scheduler cache AddPod failed", "pod", klog.KObj(pod))
   }
   sched.SchedulingQueue.AssignedPodAdded(pod)
}

func (p *PriorityQueue) AssignedPodAdded(pod *v1.Pod) {
   p.lock.Lock()
   p.movePodsToActiveOrBackoffQueue(p.getUnschedulablePodsWithMatchingAffinityTerm(pod), AssignedPodAdd)
   p.lock.Unlock()
}

func (p *PriorityQueue) getUnschedulablePodsWithMatchingAffinityTerm(pod *v1.Pod) []*framework.QueuedPodInfo {
   var nsLabels labels.Set
   nsLabels = interpodaffinity.GetNamespaceLabelsSnapshot(pod.Namespace, p.nsLister)
   var podsToMove []*framework.QueuedPodInfo
   for _, pInfo := range p.unschedulablePods.podInfoMap {
      for _, term := range pInfo.RequiredAffinityTerms {
         if term.Matches(pod, nsLabels) {
            podsToMove = append(podsToMove, pInfo)
            break
         }
      }
   }
   return podsToMove
}

可以看到，已经存在的Pod发生变化后，会把这个Pod亲和性配置依次和unscheduledQ里面的Pod匹配，如果能够匹配上，那么节点更新这个事件才会触发这个未被调度的Pod加入到 backoffQ 或者 activeQ。

集群内有Pod删除

func (sched *Scheduler) deletePodFromCache(obj interface{}) {
  var pod *v1.Pod
   switch t := obj.(type) {
   case *v1.Pod:
      pod = t
   case cache.DeletedFinalStateUnknown:
      var ok bool
      pod, ok = t.Obj.(*v1.Pod)
      if !ok {
         klog.ErrorS(nil, "Cannot convert to *v1.Pod", "obj", t.Obj)
         return
      }
   default:
      klog.ErrorS(nil, "Cannot convert to *v1.Pod", "obj", t)
      return
   }
   klog.V(3).InfoS("Delete event for scheduled pod", "pod", klog.KObj(pod))
   if err := sched.Cache.RemovePod(pod); err != nil {
      klog.ErrorS(err, "Scheduler cache RemovePod failed", "pod", klog.KObj(pod))
   }
   sched.SchedulingQueue.MoveAllToActiveOrBackoffQueue(queue.AssignedPodDelete, nil)
}

可以看到，Pod删除时间不像其他时间需要做额外的判断，这个preCheck函数是空的，所以所有 unscheduledQ 里面的Pod都会被放到 activeQ或者backoffQ里面。

从上面的情况，我们可以看到，集群内有事件发生变化，是可以加速调度失败的Pod被重新调度的进程的。常规的是，调度失败的 Pod 需要等5min 然后才会被重新加入 backoff 或 activeQ。backoffQ里面的Pod也需要等一段时间才会重新调度。这也就是为什么，当你修改节点配置的时候，能看到Pod马上重新被调度的原因

上面就是一个Pod调度失败后，重新触发调度的所有情况了。

更多关于Pod调度失败重新触发的资料请关注其它相关文章！

Go语言是一种现代化、高效且简洁的编程语言，广泛应用于各种领域的软件开发中。在Go语言中，输出带有换行符的文本非常简单，可以通过使用fmt包提供的Println函数实现。下面我们将

2024-03-15 21:10:27

很多初级的Gopher在学习了goroutine之后，在项目中其实使用率不高，尤其一些跨语言过来的人，对并发编程理解不深入，可能很多人只知道go func(),或者掌控不够，谨慎一些，尽量少使用或

2024-03-10 23:55:48

大家好，我是蓝胖子，说到golang的性能分析，不得不提的就是其自身拥有的pprof，它提供了从cpu，内存，阻塞情况，协程，线程，乃至程序运行轨迹trace的分析，可以说相当强大了。今天我将会用较

2024-03-08 22:44:23

前言上一篇文章说到我还开发了一个独立的自动测试工具，可以根据 OpenAPI 的文档来测试，并且在测试完成后输出测试报告，报告内容包括每个接口是否测试通过和响应时间等。这个工

2024-03-08 22:41:21

在Golang中，函数的形参定义非常灵活，可以传递不同类型的参数及不固定数量的参数。形参主要包括参数类型、参数个数及参数顺序，下面将通过具体的代码示例来详细解释。参数类型

2024-03-03 22:59:01

前言大家好，这里是白泽。《Go语言的100个错误以及如何避免》是最近朋友推荐我阅读的书籍，我初步浏览之后，大为惊喜。就像这书中第一章的标题说到的：“Go: Simple to learn but h

2024-03-02 16:33:47

反射有时我们需要写一个函数，这个函数有能力统一处理各种值类型，而这些类型可能无法共享同一个接口，也可能布局未知，也有可能这个类型在我们设计函数时还不存在，这个时候我们就可

2024-02-26 22:35:59

Go语言协程（Goroutine）与线程（Thread）是并发编程中常见的两种概念，它们都可以用来处理并发任务，但在实现方式、调度方式、资源消耗等方面有着显著的不同。本文将深入探讨Go语言协

2024-02-25 00:14:33

在Golang中，时间操作是非常常见的操作之一。有时候我们需要将时间戳转换为字符串，以便于展示或者存储。本文将介绍如何使用Golang将时间戳转换为字符串，并提供具体的代码示例。

2024-02-25 00:14:16

在使用编程语言 Golang 进行数值计算时，我们常常会遇到精度丢失的问题。这种问题可能会导致计算结果不准确，影响程序运行的正确性。本文将探讨在 Golang 中精度丢失的原因、常

2024-02-25 00:12:48

进程和线程进程（Process）就是程序在操作系统中的一次执行过程，是系统进行资源分配和调度的基本单位，进程是一个动态概念，是程序在执行过程中分配和管理资源的基本单位，每一个进

2024-02-25 00:06:24

Golang中除了普通的字符串赋值外，还有许多转义字符串的方法，这些方法有不同的适用场景和注意事项。本文将为大家介绍Golang中字符串转义的技巧与注意事项，并提供具体的代码示例

2024-02-23 15:54:46

在Go语言编程中，方法是一种特殊类型的函数，它是一个与对象关联的函数。本文将通过具体的代码示例介绍Golang方法的使用和优化技巧，让读者更好地掌握这一特性。1. 方法的定义在G

2024-02-23 15:53:48

Golang中的转义机制一直是开发者们较为关注的话题之一。在编写代码过程中，经常会用到各种转义字符来表示特殊的含义或者特殊符号。本文将深入探讨Golang中的转义机制，解密转义

2024-02-23 15:53:27

注释在程序开发中起着重要的作用，它可以帮助程序员更好地理解代码，提高代码的可读性和可维护性。在Golang中，注释同样具有重要的作用。本文将介绍如何编写清晰、简洁的Golang注

2024-02-23 15:53:04

指针指针操作指针包括指针地址、指针类型和指针取值 &: &符号放在变量前面进行取地址操作 **:*放在变量前面根据地址进行取值指针地址:func main() { var a int = 1 //

2024-02-22 22:34:01

只写一下如何使用，不对实现进行大量描述，两个库的代码都比较精炼，花一会看一下就行。 cmux 对端口进行复用，单端口可以建立不同协议的连接（本质都是 TCP），如 TCP/TLS/HTTP/gRPC 或

2024-02-22 19:36:56

golang中的接口Golang 中的接口是一种抽象数据类型，Golang 中接口定义了对象的行为规范，只定义规范不实现。接口中定义的规范由具体的对象来实现,通俗的讲接口就一个标准，它是

2024-02-22 19:35:03

目录前言 4. 控制结构 4.1 忽视元素在range循环中是拷贝（#30） 4.2 忽略在 range 循环中如何评估表达式（#31） 4.3 忽略在 range 中使用指针元素的影响（#32） 4.4 对 map 遍历

2024-02-07 16:41:14

目录前言 3. Data types 3.5 低效的切片初始化（#21） 3.6 切片为 nil 与为空混淆（#22） 3.7 没有正确检查切片是否为空（#23） 3.8 错误的切片拷贝（#24） 3.9 切片使用 append 的

2024-02-02 14:56:54

JuiceFS 企业版是一款为云环境设计的分布式文件系统，单命名空间内可稳定管理高达百亿级数量的文件。构建这个大规模、高性能的文件系统面临众多复杂性挑战，其中最为关键的环节

2024-02-02 14:56:30

在开发Go应用程序时，处理配置是一个常见的需求。配置可能来自于配置文件、环境变量、命令行参数等等。Viper是一个强大的库，可以帮助我们处理这些配置。什么是Viper？Viper是一

2024-01-29 15:18:14

YAML（YAML Ain't Markup Language）是一种人类可读的数据序列化格式，常用于配置文件和数据交换。在 Go 语言中，你可以使用 gopkg.in/yaml.v3 包来解析和生成 YAML 数据。本文将介

2024-01-29 15:17:39

Go语言的并发机制是其强大和流行的一个关键特性之一。Go使用协程（goroutines）和通道（channels）来实现并发编程，这使得编写高效且可维护的并发代码变得相对容易。下面是Go的并发机

2024-01-29 15:17:06

思考开始之前，先考虑下下面的代码的执行结果：package mainimport "fmt"func test() int { i := 0 defer func() { fmt.Println("defer1") }() defer func() { i += 1 fmt.P

2024-01-29 15:16:29

Go的map是一种高效的数据结构，用于存储键值对。其底层实现是一个哈希表（hash table），下面是有关map底层实现的详细介绍：哈希表：map的底层实现是一个哈希表，也称为散列表。哈希表是

2024-01-29 15:15:43

在 Go 语言中，虽然没有经典的面向对象编程中的继承和多态的概念，但你可以通过接口（interface）来实现多态性。Go 语言鼓励组合和接口多态，这使得代码更加灵活和模块化。下面将详细

2024-01-29 15:15:08

内存逃逸（memory escape）是指在编写 Go 代码时，某些变量或数据的生命周期超出了其原始作用域的情况。当变量逃逸到函数外部或持续存在于堆上时，会导致内存分配的开销，从而对程序

2024-01-29 15:14:32

队列是一种基本的数据结构，用于在计算机科学和编程中管理数据的存储和访问。队列遵循先进先出（First In, First Out，FIFO）原则，即最早入队的元素首先出队。这种数据结构模拟了物

2024-01-29 15:13:42

定时任务简介定时任务是指按照预定的时间间隔或特定时间点自动执行的计划任务或操作。这些任务通常用于自动化重复性的工作，以减轻人工操作的负担，提高效率。在计算机编程和应

2024-01-29 15:13:05

2020-11-25

2020-12-15

2020-12-19

2020-12-24

2020-11-10

2020-12-24

2020-09-29

2020-12-21

2020-12-19

2020-12-29

一个Pod调度失败后重新触发调度的所有情况分析

目录

正文

flushUnschedulablePodsLeftover

flushBackoffQCompleted

新加入节点

节点更新

已经存在的 Pod 发生变化

集群内有Pod删除

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道