集群资源管理¶
资源配额信息查看¶
在平台首页的 “资源配额” 卡片中,可以查看自己以及自己所属 租户 Slurm 集群和 Kubernetes 集群分区上的计算资源配额。
备注
配额指分配给指定用户、租户的资源额度,为用户或租户的某类资源的可用量。
为不同用户和租户设置计算资源配额是为了确保资源的合理使用,避免单个用户过多的占有和消耗集群资源、影响其他用户的使用。
如下图是一位用户的资源配额列表:
![../../_images/resource.jpg](../../_images/resource.jpg)
Slurm 集群计算资源配额¶
Slurm 集群计算资源配额分为 “用户配额” 和 “租户配额” 两类。分别展示用户在各个已开通的 HPC 集群分区的配额和该用户所属租户在各个已开通 HPC 集群分区的配额。
备注
用户的资源可用量不仅受用户自身的资源配额限制,也受用户所属租户的资源配额限制,即同一租户下的所有用户使用的资源总量不能超过租户的配额。
在 Slurm 集群资源配额列表中包含以下信息:
Slurm 集群名称
采用资源管理系统 Slurm 进行资源调度的集群的名称。
用户配额
作业提交数
用户在该 Slurm 集群上提交的作业数的配额限制,对应 Slurm 中该 user 的
MaxSubmit
配置项。作业运行数
用户在该 Slurm 集群上运行的作业数的配额限制,对应 Slurm 中该 user 的
GrpJobs
配置项。作业节点数
用户在该 Slurm 集群上运行的作业所使用的节点数的配额限制,对应 Slurm 中该 user 的
GrpNodes
配置项。
租户配额
作业提交数
租户在该 Slurm 集群上提交的作业数的配额限制,对应 Slurm 中该 account 的
MaxSubmit
配置项。作业运行数
租户在该 Slurm 集群上运行的作业数的配额限制,对应 Slurm 中该 account 的
GrpJobs
配置项。作业节点数
租户在该 Slurm 集群上运行的作业所使用的节点数的配额限制,对应 Slurm 中该 account 的
GrpNodes
配置项。
Kubernetes 集群分区计算资源配额¶
Kubernetes 集群分区计算资源配额同样分为 用户配额
和 租户配额
两类。分别展示用户在各个已开通的 Kubernetes 集群分区的配额以及该用户所属租户在各个已开通的 Kubernetes 集群分区的配额。
备注
用户的资源可用量不仅受用户自身的资源配额限制,也受用户所属租户的资源配额限制,即同一租户下的所有用户使用的资源总量不能超过租户的配额。
在 Kubernetes 集群分区资源配额列表中包含以下信息:
Kubernetes 集群
采用 Kubernetes 进行资源调度的集群的名称。
分区
Kubernetes 集群下分区的名称。
用户配额(已用/配额)
表示用户在该 Kubernetes 集群分区上已使用的计算资源以及用户在该 Kubernetes 集群分区上使用计算资源的配额限制。
例如
38/512
表示用户在该 Kubernetes 集群分区上使用了 38 个单位的资源(CPU 核数、GPU 块数、内存 GB 数、作业数或服务数),而用户在该 Kubernetes 集群分区上使用资源的配额限制为 512 个单位。CPU(核)
用户在该 Kubernetes 集群分区上已使用的 CPU 核数 / 用户在该 Kubernetes 集群分区上使用 CPU 核数的配额限制
GPU(块)
用户在该 Kubernetes 集群分区上已使用的 GPU 块数 / 用户在该 Kubernetes 集群分区上使用 GPU 块数的配额限制
内存(GB)
用户在该 Kubernetes 集群分区上已使用的内存 GB 数 / 用户在该 Kubernetes 集群分区上使用内存 GB 数的配额限制
作业数
用户在该 Kubernetes 集群分区上已提交的作业数量 / 用户在该 Kubernetes 集群分区上提交作业数量的配额限制
服务数
用户在该 Kubernetes 集群分区上已提交的服务数量 / 用户在该 Kubernetes 集群分区上提交服务数量的配额限制
租户配额(已用/配额)
表示租户在该 Kubernetes 集群分区上已使用的计算资源以及租户在该 Kubernetes 集群分区上使用计算资源的配额限制。
例如
38/512
表示租户在该 Kubernetes 集群分区上使用了 38 个单位的资源(CPU 核数、GPU 块数或内存 GB 数),而租户在该 Kubernetes 集群分区上使用资源的配额限制为 512 个单位。CPU(核)
租户在该 Kubernetes 集群分区上已使用的 CPU 核数 / 租户在该 Kubernetes 集群分区上使用 CPU 核数的配额限制
GPU(块)
租户在该 Kubernetes 集群分区上已使用的 GPU 块数 / 租户在该 Kubernetes 集群分区上使用 GPU 块数的配额限制
内存(GB)
租户在该 Kubernetes 集群分区上已使用的内存 GB 数 / 租户在该 Kubernetes 集群分区上使用内存 GB 数的配额限制
作业数
租户在该 Kubernetes 集群分区上已提交的作业数量 / 租户在该 Kubernetes 集群分区上提交作业数量的配额限制
服务数
租户在该 Kubernetes 集群分区上已提交的服务数量 / 租户在该 Kubernetes 集群分区上提交服务数量的配额限制
备注
容器云作业
类型和 容器云服务
类型的应用提交运行后将消耗作业配额:
提交
容器云服务
应用运行时,作业数和服务数的已用量均增加 1提交
容器云作业
应用运行时,作业数的已用量增加 1 ,服务数的已用量不变
集群分区资源开通¶
左侧导航栏 “资源管理” \(\rightarrow\) “集群与分区”,可以查看用户所有已开通集群的分区信息,如下图所示:
Kubernetes 集群分区¶
![../../_images/cluster_partition_k8s.png](../../_images/cluster_partition_k8s.png)
Kubernetes 集群的分区开通请联系 经办人 。
Slurm 集群分区¶
![../../_images/cluster_partition_slurm.png](../../_images/cluster_partition_slurm.png)
Slurm 集群的分区开通可以点击分区后的 “申请开通” 按钮提交申请,如下图所示:
![../../_images/slurm_partition_open.png](../../_images/slurm_partition_open.png)
集群资源配额调整¶
左侧导航栏 “资源管理” \(\rightarrow\) “用户配额” 页面, 用户可以查看自己在 Slurm 集群和 Kubernetes 集群分区上的计算资源配额,如下图所示:
![../../_images/hpc.png](../../_images/hpc.png)
![../../_images/k8s.png](../../_images/k8s.png)
Slurm 资源配额调整¶
Slurm 资源(即 HPC)限制粒度以集群为单位,一个集群下的所有分区的资源可用总量受到集群资源配额限制。
若需调整集群资源配额,请点击集群配额后的 “申请调整” 按钮提交调整配额的申请,如下图所示:
![../../_images/hpc_approval.png](../../_images/hpc_approval.png)
管理员通过申请后,资源配额会相应调整。
Kubernetes 资源配额调整¶
Kubernetes 资源(即 K8S)限制粒度以分区为单位。
若需调整用户分区配额,请点击用户分区配额后的 “申请调整” 按钮提交调整配额的申请,如下图所示:
![../../_images/k8s_approval.png](../../_images/k8s_approval.png)
管理员通过申请后,资源配额会相应调整。
备注
若需调整租户分区配额,请联系经办人处理。