应用运行

从平台 应用列表我的应用 列表中点击应用图标,进入 应用表单 页面。

应用表单 页面一般包括,应用的基本信息(如名称、图标、简介等)以及计算资源选择和其它运行应用所需的参数设置。

完成运行参数的设置之后,就可以通过点击 提交作业 按钮将作业提交至计算资源,成功提交后页面将跳转至 作业详情 页面。

容器应用

应用列表 中,带有蓝鲸标志的应用表示该应用为容器类应用, 该应用运行时将使用容器镜像创建虚拟运行环境,更好地支持用户自定义系统环境。

容器应用可分为两类:

  • 容器服务

    该应用提交的任务不会自动结束,需要手动关闭以释放资源。 运行中如果遭遇软件或硬件导致的故障而中断时,会自动尝试重启恢复容器。

  • 容器作业

    该应用提交的任务通常是运行一个脚本,脚本运行结束后就释放资源。

容器应用表单如下图:

../../_images/app_form_container.png

备注

表单右侧为已选分区的资源统计信息,包括 CPU、GPU、内存资源的总量和可使用量(仅容器应用显示)。资源不足时,仍然可以提交作业,会进入排队状态。

容器应用可选的基本参数设置包括:

  • 作业名称

    必填项,作业的名称,应用表单页会自动生成一个默认的作业名称,用户可根据需要修改。

  • 镜像选择

    作业运行的镜像,当有多个镜像时可从下拉列表中选择,缺省时会选择应用默认的镜像。

    小技巧

    应用可供选择的镜像有时可能无法完全满足用户的需求,如缺少某些程序,此时用户可先选择一个基础镜像提交作业,再对启动的作业容器根据个人需要进行程序安装。

    程序安装完成后的容器,用户可通过 作业容器构建镜像 功能,将其固化为一个新的容器镜像,镜像构建完成后,用户再次使用该应用时,则可在镜像选择列表看到新构建的镜像,选择该镜像进行作业提交,便无需再次重复安装程序。

  • 集群选择

    必选项,作业运行的集群,表单上会展示所有可用集群供用户选择。

  • 分区选择

    必选项,作业运行的分区,表单上会展示所选集群的所有可用分区供用户选择。

  • 作业配置

    必选项,作业的资源需求,包括 CPU、GPU、内存,表单上会展示所选分区的所有可用套餐配置供用户选择。

  • 其它应用运行需要的参数

    根据具体应用的运行需要,可能需要设置应用运行所需的额外输入,包括输入文件、运行参数等。

容器应用高级配置

点击应用的 配置模式,可切换应用的配置模式至 高级 模式,如下图:

../../_images/app_form_container_advance.png

高级模式下,用户可自定义应用的配置,包括:

  • 镜像挂载存储

    用来挂载星光存储到容器中,如下图:

    ../../_images/app_form_container_advance_volume.png
  • 环境变量设置

    用来设置容器中的环境变量,可将此处设置的环境变量的变量名和变量值传递给容器中的应用,如下图:

    ../../_images/app_form_container_advance_env.png
  • 镜像启动入口

    用来设置容器中的应用启动命令,如下图:

    ../../_images/app_form_container_advance_entry.png

    警告

    设置后将覆盖应用原有镜像启动命令,可能导致应用无法正常运行,请谨慎使用。

    小技巧

    此处的 entry.sh 推荐使用绝对路径。若欲将作业提交至启明集群,则可将 entry.sh 上传至启明集群所挂载的 GPUFS 存储中,并通过绝对路径 /GPUFS/xxxxxxxxxx/entry.sh 使用脚本。

  • 访问入口设置

    可以把作业监听的服务端口,代理到星光的域名上。创建成功后,可以在公网中访问,如下图:(更详细内容请参考 访问入口

    ../../_images/app_form_container_advance_listen.png

高性能应用

应用列表 中,卡片右上角没有任何标志的应用表示该应用为高性能应用, 该应用运行时使用 SLURM 调度的物理机/裸金属。

高性能应用表单如下图:

../../_images/app_form_hpc.png

高性能应用可选的基本参数设置包括:

  • 作业名称

    必填项,作业的名称,应用表单页会自动生成一个默认的作业名称,用户可根据需要修改。

  • 集群选择

    必选项,作业运行的集群,下拉列表会展示所有可用集群供用户选择。

  • 分区选择

    必选项,作业运行的分区,下拉列表会展示所选集群的所有可用分区供用户选择。

  • 节点数量

    必填项,作业运行所需的节点数量,默认情况下为 1,用户可根据需要修改。

  • 其它应用运行需要的参数

    根据具体应用的运行需要,可能要求设置应用运行所需的额外输入,包括输入文件、运行参数等。

高性能应用高级配置

点击应用的 配置模式 ,可切换应用的配置模式至 高级 模式,如下图:

../../_images/app_form_hpc_advance.png

高级模式下,用户可自定义应用的配置,包括:

  • 环境变量设置

    用来设置高性能作业中的环境变量,可将此处设置的环境变量的变量名和变量值传递给作业中的应用。

  • SLURM 扩展设置

    • exclude

      用来设置作业运行时需要排除的节点。

    • nodelist

      用来指定作业运行的节点。

    • ntasks-per-node

      用来设置作业运行时每个结点运行的进程数。

    以上各项参数的详细说明可以查阅 SLURM 官方文档

工作流应用

工作流是若干应用步骤组合而成的流程任务,步骤之间可能存在数据的依赖。

../../_images/submit_workflow_job.gif

工作流提交页面和普通应用类似。 应用表单根据工作流所需的输入( inputs )渲染参数表单。

由于流程中存在多个应用,不同的应用可能需要运行在不同的集群资源。 根据工作流应用运行设置的不同,可能会有一至多个运行参数设置标签页用于设置不同步骤所用的资源。 如上图示例的 “Compile” 标签所示,它指定该 “CompileAndTest” 应用流程中的 “编译阶段” 所使用的分区资源。