Auto DL 平台租服务器（GPU）跑代码（炼丹）使用教程，告别繁琐的SSH，平台自带的Jpyter用网页就能实现

平台提供的Jupyter 接口可以让用户直接在网页实现对所租服务器的控制。

不用直接操作SSH。

创建实例后，快捷工具直接点Jupyter,这时你就已经在操作你租的服务器了，已经实现和你服务器的连接了。

打开终端那个黑框，你就已经在使用你租的服务器的Linux系统了,就已经可以通过输入Linux命令来对你租的系统里的资源进行使用了。

环境搭建：

一开始自己设置的环境是服务器默认环境，可能够用，也可能不够。

不够的话可以通过anconda来搭建：

在AutoDL平台租用的服务器上搭建、激活和查看环境，可以按照以下步骤进行：

创建并激活环境

在AutoDL平台租用的服务器上搭建环境可以使用conda或者pip等工具，具体步骤如下：

使用conda创建环境：

conda create--name my_env python=3.7source activate my_env

这里的my_env是你指定的环境名称，python=3.7是你指定的Python版本。使用source activate my_env命令激活环境。

使用pip创建虚拟环境：

python -m venv my_envsource my_env/bin/activate

这里的my_env是你指定的环境名称。使用source my_env/bin/activate命令激活环境。

激活环境后，你可以在该环境中安装和使用所需的Python库和工具。

构造环境

以安装PyTorch包为例

安装PyTorch可以使用conda或者pip等工具，具体步骤如下：

使用conda安装PyTorch：

conda install pytorch torchvision cudatoolkit=10.1-c pytorch

这里的cudatoolkit=10.1是针对CUDA 10.1版本的，如果你使用的是其他版本的CUDA，需要修改对应的参数。

使用pip安装PyTorch：

pip install torch torchvision

如果你使用的是GPU版本的PyTorch，需要安装对应的CUDA和cuDNN等工具。

查看环境

查看环境可以使用以下命令：

对于conda环境：

conda info --envs

这会列出所有已安装的conda环境，以及每个环境的路径和Python版本等信息。

对于pip虚拟环境：

source my_env/bin/activatepython -m pip list

这里的my_env是你指定的环境名称。使用python -m pip list命令列出该环境中

文件上传：

在Jupyter里有个按钮，点开就能选择本地的文件进行上传。

文件解压：

需要提前在服务器里安装一个解压缩软件：

对于Ubuntu/Debian系统：sudo apt-get install p7zip-full

对于CentOS/Fedora系统：sudo yum install p7zip-full

安装完成后，你就可以在终端中使用7z解压缩软件进行文件的解压缩了。在终端中输入以下命令进行解压缩：要进入文件所属目录才行

7z x filename.7z

这里的filename.7z是你需要解压缩的文件名。

如果安装不了，可能是因为软件源出现了问题：

尝试使用apt-get update命令更新软件包源，并重新运行apt-get install

直接用这行命令解决：

sudo apt-get update

知识拓展：

更换软件源来解决问题。具体步骤如下：

打开终端，并输入以下命令备份原来的软件源列表：

sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak

输入以下命令打开软件源配置文件：

sudo nano /etc/apt/sources.list

将原来的软件源地址替换成其他可用的软件源地址。例如，如果你使用的是Ubuntu系统，可以参考Ubuntu官方文档更换软件源。在配置文件中加入新的软件源地址后，可以使用Ctrl+X键保存并退出。

更新软件包列表，使用以下命令更新软件包列表：

sudo apt-get update

跑模型：

单纯运行代码：

也就是在终端中直接运行。

打开控制台，

进入目标文件夹，

使用 python ***.py命令，

如果要运行的代码文件是python语言名叫***的话。

让代码在离线的情况下运行：

如果是在终端中直接运行的话，那么断开SSH连接时，程序就会停止。

也就是说断网或者关闭目前的Jupyter程序就会终止。

解决方法一：

启动训练程序，并使用nohup命令和&符号将程序放到后台运行。例如：

nohup python train.py &

这里的train.py是你的训练程序名称，nohub命令可以让程序在后台运行，并忽略所有挂起信号（SIGNUP）.

其中&表示将程序放到后台运行，并输出日志到nohunp.out（自动生成）文件中。

如果需要查看训练日志，可以使用tail命令查看：

tail -f nohub.out

解决方法二：

使用tmux或screen等工具创建一个会话。

如果你使用的是tmux，可以使用以下命令创建一个会话：

tmux new -s my_session_name

如果你使用的是screen，可以使用以下命令创建一个会话：

screen -S my_session_name

这里的my_session_name是你指定的会话名称。

在会话中启动训练程序，例如：

python train.py

这样，训练程序将在会话中运行，即使你断开SSH连接或者退出终端，训练程序仍然会在后台继续运行。

如果你需要重新连接到AutoDL服务器并查看训练日志，可以使用以下命令重新连接到会话：

如果你使用的是tmux，可以使用以下命令重新连接到指定的会话：

tmux attach -t my_session_name

如果你使用的是screen，可以使用以下命令重新连接到指定的会话：

screen -r my_session_name

让程序终止运行：

方法一：

输入

sudo killall python

这个命令可以停止所有python程序的运行。

如果出现command not found错误可能是系统没装这个命令，

可以通过

sudo apt-get install psmisc

来安装

再不行就用：

sudo pkill python

同样可以停止所有python程序的运行

方法二：

找到正在运行模型的进程ID，使用以下命令查找：

ps aux | grep pythonps aux | grep train.py

这里的python是你使用的深度学习框架的解释器名称，例如TensorFlow和PyTorch都是使用python作为解释器。查找结果会显示正在运行的所有python进程及其进程ID。

如果把python换成train的话，就会列出所有正在运行的train进程。

使用kill命令停止模型的运行，例如：

kill -9 process_id

这里的process_id是你查找到的模型进程ID。

确认模型已经停止运行，你可以使用以下命令查看进程是否已经终止：

ps aux | grep python

如果模型的进程已经终止，将不会显示在查找结果中。

需要注意的是，使用kill命令可以强制停止模型的运行，但是这样可能会导致模型在停止前未保存的训练结果丢失。因此，在停止模型之前，建议保存训练结果和模型参数，以便以后继续训练或者使用。

路径问题：

pwd 命令查看当前路径

如果是绝对路径，那么一定是/root开头

文章版权归作者所有，未经允许请勿转载。

THE END

文章

Auto DL 平台租服务器（GPU）跑代码（炼丹）使用教程，告别繁琐的SSH，平台自带的Jpyter用网页就能实现

环境搭建：

创建并激活环境

构造环境

查看环境

文件上传：

文件解压：

知识拓展：

跑模型：

单纯运行代码：

让代码在离线的情况下运行：

解决方法一：

解决方法二：

让程序终止运行：

方法一：

方法二：

路径问题：

Windows 安装 MongoDB 并内网穿透远程连接

【深入浅出 Yarn 架构与实现】2-3 Yarn 基础库 – 服务库与事件库

虚拟机（Ubuntu)配置c语言环境

【Spark】Spark 的运行环境、运行架构、提交流程

1、Flutter使用总结(RichText、Container)

pheatmap实用参数（二）