AutoDL深度学习实战教程
一、零基础极速入门
1. 注册与充值
注册地址:AutoDL官网
用微信扫码登录最方便,学生认证还有优惠首次充值:建议先充10元(RTX3090可玩6小时,T4显卡可玩12小时)
2. 创建训练实例(关键步骤)
1 | 地区选择 → 内蒙古A区(最便宜且库存多) |
二、数据准备与传输(新手必看)
1. 本地数据处理规范
图片类数据:统一尺寸为512x512,用在线裁剪工具批量处理
文件命名:按
类别_序号.jpg
格式(如cat_001.jpg
)目录结构(示例):
1
2
3
4
5
6
7/dataset
├── train
│ ├── cat
│ └── dog
└── test
├── cat
└── dog
2. 上传数据到服务器
小文件(<1GB):直接在网页控制台拖拽上传
大文件(>1GB):
1
2# 使用官方传输工具(需安装AutoDL客户端)
autodl upload --path=/本地/数据集 --target=/root/autodl-tmpGit同步(进阶):
1
git clone https://github.com/你的仓库
三、模型训练全流程(以图像分类为例)
1. 启动JupyterLab
- 进入「我的实例」点击【JupyterLab】
- 新建Python Notebook
- 粘贴以下代码:
1 | import torch |
2. 监控训练状态
资源监控:控制台查看GPU利用率(理想>80%)
可视化:用TensorBoard查看损失曲线
1
tensorboard --logdir=/root/autodl-tmp/logs
意外中断:用
1
nohup
命令保持后台运行
1
nohup python train.py > log.txt 2>&1 &
四、省时省钱技巧(血泪经验)
1. 费用控制三板斧
- 立即关机:不用时务必在控制台关机(费用立即停止)
- 数据备份:训练完把模型传到阿里云OSS(比存AutoDL便宜)
- 抢占式实例:选择”内蒙古B区”的T4显卡(价格便宜30%)
2. 环境复用技巧
镜像保存:在「镜像管理」打包当前环境
快速克隆:已关机的实例可一键克隆(免重装环境)
预装依赖
1
2
3# 推荐基础依赖
pip install numpy pandas matplotlib
conda install pytorch torchvision cudatoolkit=11.3
五、常见问题急救包
症状 | 解决方案 |
---|---|
CUDA内存不足 | 减小batch_size到16 → 8 → 4 |
导入模块报错 | pip install --upgrade 包名 |
无法连接Jupyter | 检查实例是否开机+端口映射 |
训练结果异常 | 检查数据路径是否含中文 |
- 本文作者: 黎玮
- 本文链接: https://lwow.xyz/2025/03/27/AutoDL深度学习/
- 版权声明: © William-Liwei. All rights reserved.