集群资源管理

资源配额信息查看

在平台首页的 “资源配额” 卡片中,可以查看自己以及自己所属 租户 Slurm 集群和 Kubernetes 集群分区上的计算资源配额。

备注

配额指分配给指定用户、租户的资源额度,为用户或租户的某类资源的可用量。

为不同用户和租户设置计算资源配额是为了确保资源的合理使用,避免单个用户过多的占有和消耗集群资源、影响其他用户的使用。

如下图是一位用户的资源配额列表:

../../_images/resource.jpg

Slurm 集群计算资源配额

Slurm 集群计算资源配额分为 “用户配额” 和 “租户配额” 两类。分别展示用户在各个已开通的 HPC 集群分区的配额和该用户所属租户在各个已开通 HPC 集群分区的配额。

备注

用户的资源可用量不仅受用户自身的资源配额限制,也受用户所属租户的资源配额限制,即同一租户下的所有用户使用的资源总量不能超过租户的配额。

在 Slurm 集群资源配额列表中包含以下信息:

  • Slurm 集群名称

    采用资源管理系统 Slurm 进行资源调度的集群的名称。

  • 用户配额

    • 作业提交数

      用户在该 Slurm 集群上提交的作业数的配额限制,对应 Slurm 中该 user 的 MaxSubmit 配置项。

    • 作业运行数

      用户在该 Slurm 集群上运行的作业数的配额限制,对应 Slurm 中该 user 的 GrpJobs 配置项。

    • 作业节点数

      用户在该 Slurm 集群上运行的作业所使用的节点数的配额限制,对应 Slurm 中该 user 的 GrpNodes 配置项。

  • 租户配额

    • 作业提交数

      租户在该 Slurm 集群上提交的作业数的配额限制,对应 Slurm 中该 account 的 MaxSubmit 配置项。

    • 作业运行数

      租户在该 Slurm 集群上运行的作业数的配额限制,对应 Slurm 中该 account 的 GrpJobs 配置项。

    • 作业节点数

      租户在该 Slurm 集群上运行的作业所使用的节点数的配额限制,对应 Slurm 中该 account 的 GrpNodes 配置项。

Kubernetes 集群分区计算资源配额

Kubernetes 集群分区计算资源配额同样分为 用户配额租户配额 两类。分别展示用户在各个已开通的 Kubernetes 集群分区的配额以及该用户所属租户在各个已开通的 Kubernetes 集群分区的配额。

备注

用户的资源可用量不仅受用户自身的资源配额限制,也受用户所属租户的资源配额限制,即同一租户下的所有用户使用的资源总量不能超过租户的配额。

在 Kubernetes 集群分区资源配额列表中包含以下信息:

  • Kubernetes 集群

    采用 Kubernetes 进行资源调度的集群的名称。

  • 分区

    Kubernetes 集群下分区的名称。

  • 用户配额(已用/配额)

    表示用户在该 Kubernetes 集群分区上已使用的计算资源以及用户在该 Kubernetes 集群分区上使用计算资源的配额限制。

    例如 38/512 表示用户在该 Kubernetes 集群分区上使用了 38 个单位的资源(CPU 核数、GPU 块数、内存 GB 数、作业数或服务数),而用户在该 Kubernetes 集群分区上使用资源的配额限制为 512 个单位。

    • CPU(核)

      用户在该 Kubernetes 集群分区上已使用的 CPU 核数 / 用户在该 Kubernetes 集群分区上使用 CPU 核数的配额限制

    • GPU(块)

      用户在该 Kubernetes 集群分区上已使用的 GPU 块数 / 用户在该 Kubernetes 集群分区上使用 GPU 块数的配额限制

    • 内存(GB)

      用户在该 Kubernetes 集群分区上已使用的内存 GB 数 / 用户在该 Kubernetes 集群分区上使用内存 GB 数的配额限制

    • 作业数

      用户在该 Kubernetes 集群分区上已提交的作业数量 / 用户在该 Kubernetes 集群分区上提交作业数量的配额限制

    • 服务数

      用户在该 Kubernetes 集群分区上已提交的服务数量 / 用户在该 Kubernetes 集群分区上提交服务数量的配额限制

  • 租户配额(已用/配额)

    表示租户在该 Kubernetes 集群分区上已使用的计算资源以及租户在该 Kubernetes 集群分区上使用计算资源的配额限制。

    例如 38/512 表示租户在该 Kubernetes 集群分区上使用了 38 个单位的资源(CPU 核数、GPU 块数或内存 GB 数),而租户在该 Kubernetes 集群分区上使用资源的配额限制为 512 个单位。

    • CPU(核)

      租户在该 Kubernetes 集群分区上已使用的 CPU 核数 / 租户在该 Kubernetes 集群分区上使用 CPU 核数的配额限制

    • GPU(块)

      租户在该 Kubernetes 集群分区上已使用的 GPU 块数 / 租户在该 Kubernetes 集群分区上使用 GPU 块数的配额限制

    • 内存(GB)

      租户在该 Kubernetes 集群分区上已使用的内存 GB 数 / 租户在该 Kubernetes 集群分区上使用内存 GB 数的配额限制

    • 作业数

      租户在该 Kubernetes 集群分区上已提交的作业数量 / 租户在该 Kubernetes 集群分区上提交作业数量的配额限制

    • 服务数

      租户在该 Kubernetes 集群分区上已提交的服务数量 / 租户在该 Kubernetes 集群分区上提交服务数量的配额限制

备注

容器云作业 类型和 容器云服务 类型的应用提交运行后将消耗作业配额:

  • 提交 容器云服务 应用运行时,作业数和服务数的已用量均增加 1

  • 提交 容器云作业 应用运行时,作业数的已用量增加 1 ,服务数的已用量不变

集群分区资源开通

左侧导航栏 “资源管理” \(\rightarrow\) “集群与分区”,可以查看用户所有已开通集群的分区信息,如下图所示:

Kubernetes 集群分区

../../_images/cluster_partition_k8s.png

Kubernetes 集群的分区开通请联系 经办人

Slurm 集群分区

../../_images/cluster_partition_slurm.png

Slurm 集群的分区开通可以点击分区后的 “申请开通” 按钮提交申请,如下图所示:

../../_images/slurm_partition_open.png

集群资源配额调整

左侧导航栏 “资源管理” \(\rightarrow\) “用户配额” 页面, 用户可以查看自己在 Slurm 集群和 Kubernetes 集群分区上的计算资源配额,如下图所示:

../../_images/hpc.png ../../_images/k8s.png

Slurm 资源配额调整

Slurm 资源(即 HPC)限制粒度以集群为单位,一个集群下的所有分区的资源可用总量受到集群资源配额限制。

若需调整集群资源配额,请点击集群配额后的 “申请调整” 按钮提交调整配额的申请,如下图所示:

../../_images/hpc_approval.png

管理员通过申请后,资源配额会相应调整。

Kubernetes 资源配额调整

Kubernetes 资源(即 K8S)限制粒度以分区为单位。

若需调整用户分区配额,请点击用户分区配额后的 “申请调整” 按钮提交调整配额的申请,如下图所示:

../../_images/k8s_approval.png

管理员通过申请后,资源配额会相应调整。

备注

若需调整租户分区配额,请联系经办人处理。