丹摩｜丹摩智算平台入门指南：开启高效智算之旅

Hhq66666666

8人浏览 · 2024-11-29 12:59:26

Hhq66666666 · 2024-11-29 12:59:26 发布

一、平台注册与登录

访问丹摩智算平台官方网站，点击首页右上角的 “注册” 按钮。

按照提示填写注册信息，包括用户名、密码、电子邮箱等。确保信息的准确性和有效性，尤其是电子邮箱，因为后续的账号激活和重要通知都会发送到该邮箱。

完成注册后，返回登录页面，输入注册的用户名和密码，点击 “登录” 按钮即可进入丹摩智算平台的主界面。

二、项目创建与管理

进入平台后，在左侧菜单栏中找到 “项目管理” 选项并点击。

在项目管理页面，点击 “创建新项目” 按钮。

填写项目名称，例如 “我的第一个丹摩项目”，并可在项目描述框中简要描述项目的用途或目标，如 “用于图像识别算法的开发与测试”。

点击 “确定” 按钮，完成项目创建。此时会自动跳转到项目详情页面，在这里可以看到项目的基本信息、资源分配情况以及相关操作按钮。

三、资源配置

在项目详情页面中，找到 “资源配置” 板块。

根据项目需求选择计算资源，丹摩智算平台提供多种 GPU 类型和不同的内存配置选项。例如，如果项目涉及大规模深度学习训练，可选择多块高性能 GPU，如 4 块 NVIDIA A100 GPU，并适当配置较大的内存，如 256GB。

选择存储资源容量，根据数据量大小确定所需的存储空间。若预计数据量在 500GB 左右，可选择相应的存储套餐。

点击 “保存配置” 按钮，使资源配置生效。

四、环境搭建

丹摩智算平台支持多种开发环境，以搭建 Python 开发环境为例。

在项目详情页面找到 “环境设置” 选项并点击。

选择 “Python” 作为开发语言，并指定 Python 版本，如 Python 3.8。

平台会自动安装 Python 解释器及一些常用的基础库。若项目需要特定的 Python 库，如用于数据处理的 Pandas 和用于机器学习的 Scikit-learn，可以在 “额外依赖库” 区域添加。例如，在文本框中输入 “pandas==1.3.5 scikit-learn==0.24.2”，然后点击 “安装依赖库” 按钮，平台会自动下载并安装这些库。

五、数据上传与管理

在项目详情页面中点击 “数据管理” 选项。

点击 “上传数据” 按钮，选择本地需要上传的数据文件或文件夹。数据可以是各种格式，如文本文件、图像文件、CSV 数据文件等。例如，若有一个包含图像数据的文件夹 “image_dataset”，选中该文件夹后点击 “确定” 开始上传。

上传完成后，在数据管理页面可以看到已上传的数据列表。可以对数据进行查看、删除、下载等操作。若要对数据进行预处理，可以编写代码实现。以下是一个简单的 Python 代码示例，用于读取上传的 CSV 数据文件并进行基本的数据清洗：

import pandas as pd

# 读取数据文件
data = pd.read_csv('your_data.csv')

# 去除重复行
data = data.drop_duplicates()

# 处理缺失值，这里以填充均值为例
data.fillna(data.mean(), inplace=True)

六、任务创建与提交

在项目详情页面点击 “任务管理” 选项，然后点击 “创建新任务” 按钮。

填写任务名称，如 “图像分类模型训练任务”。

在 “任务脚本” 区域，编写任务执行的代码。例如，以下是一个简单的使用 PyTorch 进行图像分类模型训练的代码框架：

import torch
import torchvision
import torch.nn as nn
import torch.optim as optim

# 定义数据加载器
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                          shuffle=True, num_workers=2)

# 定义模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(torch.relu(self.conv1(x)))
        x = self.pool(torch.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = self.fc3(x)
        return x

net = Net()

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

# 训练模型
for epoch in range(2):  # 循环遍历数据集多次
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        # 获取输入数据和标签
        inputs, labels = data

        # 梯度清零
        optimizer.zero_grad()

        # 前向传播 + 反向传播 + 优化
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        # 打印统计信息
        running_loss += loss.item()
        if i % 2000 == 1999:    # 每 2000 个 mini-batches 打印一次
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0

print('Finished Training')

设置任务运行参数，如分配的计算资源（选择之前配置的 GPU 资源）、运行时间限制等。

点击 “提交任务” 按钮，任务将进入任务队列等待执行。