AutoDL深度学习

2025-03-27

字数统计: 727字 | 阅读时长≈ 2分

AutoDL深度学习实战教程

一、零基础极速入门

1. 注册与充值

注册地址：AutoDL官网
用微信扫码登录最方便，学生认证还有优惠
首次充值：建议先充10元（RTX3090可玩6小时，T4显卡可玩12小时）

2. 创建训练实例（关键步骤）

地区选择 → 内蒙古A区（最便宜且库存多）
GPU型号 → RTX3090（性能强）或 RTX2080Ti（性价比高）
镜像选择 → 搜"PyTorch2.1-CUDA12"（预装全套深度学习环境）
数据盘 → 必须勾选50GB（重要数据存这里！）

二、数据准备与传输（新手必看）

1. 本地数据处理规范

图片类数据：统一尺寸为512x512，用在线裁剪工具批量处理
文件命名：按类别_序号.jpg格式（如cat_001.jpg）

目录结构（示例）：

/dataset
  ├── train
  │   ├── cat
  │   └── dog
  └── test
      ├── cat
      └── dog

2. 上传数据到服务器

小文件（<1GB）：直接在网页控制台拖拽上传

大文件（>1GB）：

1 2	# 使用官方传输工具（需安装AutoDL客户端） autodl upload --path=/本地/数据集 --target=/root/autodl-tmp

Git同步（进阶）：

1	git clone https://github.com/你的仓库

三、模型训练全流程（以图像分类为例）

1. 启动JupyterLab

进入「我的实例」点击【JupyterLab】
新建Python Notebook
粘贴以下代码：

import torch
from torchvision import datasets, transforms

# 数据预处理
train_transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor()
])

# 加载数据集
train_data = datasets.ImageFolder(
    '/root/autodl-tmp/dataset/train',
    transform=train_transform
)

# 定义模型（示例用ResNet50）
model = torch.hub.load('pytorch/vision', 'resnet50', pretrained=True)
model.fc = torch.nn.Linear(2048, 2)  # 修改输出层

# 训练配置
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
criterion = torch.nn.CrossEntropyLoss()

# 开始训练！
for epoch in range(10):
    for inputs, labels in train_loader:
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

2. 监控训练状态

资源监控：控制台查看GPU利用率（理想>80%）
可视化：用TensorBoard查看损失曲线
1
tensorboard --logdir=/root/autodl-tmp/logs

意外中断：用

nohup

命令保持后台运行

1	nohup python train.py > log.txt 2>&1 &

四、省时省钱技巧（血泪经验）

1. 费用控制三板斧

立即关机：不用时务必在控制台关机（费用立即停止）
数据备份：训练完把模型传到阿里云OSS（比存AutoDL便宜）
抢占式实例：选择”内蒙古B区”的T4显卡（价格便宜30%）

2. 环境复用技巧

镜像保存：在「镜像管理」打包当前环境
快速克隆：已关机的实例可一键克隆（免重装环境）

预装依赖

1
2
3

# 推荐基础依赖
pip install numpy pandas matplotlib
conda install pytorch torchvision cudatoolkit=11.3

五、常见问题急救包

症状	解决方案
CUDA内存不足	减小batch_size到16 → 8 → 4
导入模块报错	`pip install --upgrade 包名`
无法连接Jupyter	检查实例是否开机+端口映射
训练结果异常	检查数据路径是否含中文

本文作者： 黎玮
本文链接： https://lwow.xyz/2025/03/27/AutoDL深度学习/