前言

​ 实验室给分配了服务器账号,可以跑自己的深度学习代码,但是在配置的过程中出现了种种问题,记录如下


0、解决服务器联网问题

首先你得有个vpn,点击这里注册下载

  • 本机按 win + R输入cmd,在小黑框中输入ipconfig,记下本机ip地址
  • 服务器上输入以下指令
export http_proxy=http://172.xx.xx.xx:7890
export https_proxy=http://172.xx.xx.xx:7890

172.xx.xx.xx替换为第一步记下的本机IP地址,端口号7890替换成本机VPN的端口号

  • 使用wget测试
wget www.baidu.com

img

1、使用WinScp将Anaconda3-2021.11-Linux-x86_64.sh上传至自己服务器

给权限

chmod +x Anaconda3-2021.11-Linux-x86_64.sh

安装

./Anaconda3-2021.11-Linux-x86_64.sh

一路回车,有的地方需要输入yes

安装完成后

输入conda -V测试是否安装成功

  • 中间如果遇到问题,试试断开putty重新连接

2、创建虚拟环境

#创建虚拟环境
conda create -n py3.9 python=3.9
#激活虚拟环境
conda activate py3.9

3、安装pytorch-gpu

在激活的虚拟环境下输入以下命令

conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia
  • 如果出现Solving environment: failed with initial frozen solve. Retrying with flexible solve

conda config --set channel_priority false

再次出现这个错误时不必理会,耐心等待即可

附:

pytorch-gpu测试代码

import torch
flag = torch.cuda.is_available()
print(flag)
ngpu= 1
# Decide which device we want to run on
device = torch.device("cuda:0" if (torch.cuda.is_available() and ngpu > 0) else "cpu")
print(device)
print(torch.cuda.get_device_name(0))
print(torch.rand(3,3).cuda()) 

结果:

img

指定GPU0来跑代码

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

更简单的方法:安装打包好的带pytorch-gpu的虚拟环境(只需要看第二步)

打包anaconda虚拟环境:

1、将要迁移的环境打包
conda pack -n 虚拟环境名称 -o output.tar.gz
  • 如果报错:No command ‘conda pack’
    尝试使用:conda install -c conda-forge conda-pack
2、迁移
  • 进到conda的安装目录:/anaconda3/envs/
  • 在该目录下新建文件夹py3.9
  • 复制output.tar.gz压缩文件到/anaconda3/envs/py3.9/下,在该目录下解压 tar -xzvf output.tar.gz

1、查看服务器GPU

nvidia-smi

Anaconda3-2021.11-Linux-x86_64.sh

output.tar.gz