如何在丹摩平台创建一个自己的GPU云实例

DKPT

63人浏览 · 2024-11-19 21:46:48

DKPT · 2024-11-19 21:46:48 发布

1、访问丹摩平台，注册/登录平台

https://www.damodel.com/home

在这里插入图片描述

2、登录注册之后，点击控制台

在这里插入图片描述

3、进入控制台后，可以看到下面的页面

在这里插入图片描述

4、点击左侧导航栏中的GPU云实例选项，进入GPU云实例页面，进行GPU选型。

在这里插入图片描述

GPU选型指南可以查看下面的说明

GPU 选型
平台分配GPU、CPU、内存的机制为：按购买的GPU数量成比例分配CPU和内存，GPU云容器显示的CPU和内存均为每GPU分配的CPU和内存，如果租用两块GPU，那么CPU和内存就x2。此外GPU非共享，每个实例都是独占GPU资源。

选择CPU
CPU非常重要！尽管CPU并不直接参与深度学习模型计算，但CPU需要提供大于模型训练吞吐的数据处理能力。
我们通常为每块GPU分配固定数量的CPU逻辑核心。理想情况下，模型计算吞吐随GPU数量线性增长，单GPU的合理CPU逻辑核心数分配可以直接线性扩展到多GPU上。Damodel平台的算力实例提供了多种CPU分配规格。每块GPU应配备至少4~8核心的CPU，以满足多线程的异步数据读取。分配更多的核心通常不会再有很大的收益，此时的数据读取瓶颈通常源于Python的多进程切换与数据通信开销（如使用PyTorch DataLoader)。
服务器的CPU一般不如桌面CPU的主频高，但是核心数量多。因此您从以前使用桌面CPU切换到服务器CPU上后，需要充分利用多核心的性能，否则无法发挥服务器CPU的性能。

选择GPU
目前平台上提供的4种规格的GPU型号，后续会陆续推出其它型号的GPU供客户选择。

GPU的数量选择与训练任务有关。一般我们认为模型的一次训练应当在24小时内完成，这样隔天就能训练改进之后的模型。以下是选择多GPU的一些建议：

1块GPU。适合一些数据集较小的训练任务，如Pascal VOC等。
2块GPU。同单块GPU，但是你可以一次跑两组参数或者把Batchsize扩大。
4块GPU。适合一些中等数据集的训练任务，如MS COCO等。
8块GPU。经典永流传的配置！适合各种训练任务，也非常方便复现论文结果。

选择内存
内存在充足的情况下一般不影响性能，但是由于实例相比本地电脑对内存的使用有更严格的上限限制（本地电脑内存不足会使用硬盘虚拟内存，影响是速度下降），比如租用的实例分配的内存是64GB，程序在训练时最后将要使用64GB，此时超过限制的这一时刻进程会被系统Kill导致程序中断，因此如果对内存的容量要求大，请选择分配内存更多的主机或者租用多GPU实例。如果不确定内存的使用，那么可以在实例监控中观察内存使用情况。

5、点击创建实例，开始创建GPU云实例

在这里插入图片描述

在这里插入图片描述

在创建GPU云容器页面主要需要配置以下这些信息：
1、选择计费方式：按量计费、包日、包月

在这里插入图片描述

2、选择合适的配置与主机（这里我选择的是第一个NVIDIA-GeForce-RTX-4090，配置还不错）

在这里插入图片描述

3、选择GPU数量

在这里插入图片描述

4、扩容数据盘

在这里插入图片描述

5、选择镜像

在这里插入图片描述

6、选择密钥对

在这里插入图片描述

此处第一次进来没有，需要自己点击创建密钥对，创建一个密钥对。

在这里插入图片描述

创建之后就可以选择了

在这里插入图片描述

7、最后选择完成后即可付费创建云容器

在这里插入图片描述

8、创建完成，即可在控制台-GPU云实例中查看已创建的实例。

在这里插入图片描述

在这里插入图片描述

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌，为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐

cover

LightRAG+Ollama本地部署

cover

本地部署deepseek大模型后使用c# winform调用（可离线）

cover

NVIDIA H 系列 GPU与deepseek开源FlashMLA

所有评论(0)

查看更多评论

DKPT

已为社区贡献1条内容