一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境

By 机器之心2017年3月18日 14:55

一般而言,大型的神经网络对硬件能力有着较高的需求——往往需要强劲的 GPU 来加速计算。但是你也许还是想拿着一台笔记本坐在咖啡店里安静地写 TensorFlow 代码,同时还能享受每秒数万亿次的浮点运算(teraFLOPS)速度?其实这个目标不难实现,使用 PyCharm 中的一个远程解释器,你就能通过远程的方式获得几乎和本地计算时一样的性能。Erik Hallström 在本文中分享了如何使用 PyCharm、TensorFlow 和 SSH 搭建远程机器学习平台的过程。

需要注意的是,目前仅有 PyCharm Professional 支持这一功能,Community Edition 尚不支持。


远程数据处理机器


1-1.png

希望你的远程机器看起来不是这样的。


我们的目标是搭建一个固定的远程机器,其中有一个或多个先进的 GPU,必须是英伟达的——虽然我不喜欢目前深度学习硬件领域的这种垄断,但 TensorFlow 只能使用英伟达的 GPU。


首先,让我们安装最新版本的 Ubuntu,我推荐你使用桌面版,你可以终止其 GUI 服务,然后释放图形内存。然后将你的计算机联网,并通过在终端(Terminal)输入 ifconfig 来获取 IP 地址,在本文中,我假设我们的 IP 地址是 192.168.0.1,在实际操作时,你需要根据你自己的情况进行修改。


设置 SSH


为了让你的计算机与你的数据处理机器通信,你需要在其上安装 SSH。打开你的固定计算机上的终端然后输入以下代码进行安装:

sudo apt-get install ssh


启用 SSH X11 转发让你可以进行绘图(plot),首先如下打开配置文件:


sudo gedit /etc/ssh/sshd_config


然后找到注释行:

# X11Forwarding yes


移除前面的 # 号,然后保存并关闭该文件。


显卡


接下来安装显卡驱动,通常不同的显卡都有自己专用的驱动,所以你需要在你的软件包管理器中增加一个新的库(repository)。你所需的软件请根据你自己的显卡和 Ubuntu 版本进行选择。我在这里使用的是 NVIDIA-367,了解更多请参阅:https://help.ubuntu.com/community/BinaryDriverHowto/Nvidia

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-367


CUDA 和 cuDNN


现在应该安装 CUDA 工具包和 cuDNN 了,这是运行 TensorFlow 所必须的。你可以从英伟达的网站上下载它们:



注意下载 cuDNN 需要注册。这里使用的是 CUDA 8.0 和 cuDNN 5.1。对于 CUDA,我更喜欢使用内置的软件包管理器,这能让我们可以更轻松地追踪安装情况:

sudo dpkg -i cuda-repo-ubuntu1604_8.0.44-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda-toolkit-8.0


确保其 symlink 设置正确:

readlink -f /usr/local/cuda
>> /usr/local/cuda-8.0


下面是如何提取 cuDNN 的头文件,并将其复制到 CUDA 文件夹,并让其可以在终端进行读取(你的一些文件名可能会有所不同):

tar xvzf cudnn-8.0-linux-x64-v5.1.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*


最后添加你所需的环境变量,将它们附加到你的 .bashrc 文件,然后对其执行 source 命令:

echo 'export LD_LIBRARY_PATH=”$LD_LIBRARY_PATH:/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64"' >> ~/.bashrc
echo 'export CUDA_HOME=/usr/local/cuda' >> ~/.bashrc
source ~/.bashrc


Python 和 TensorFlow


安装一些所需的 Python 包:

sudo apt-get install python-pip python-dev build-essential python-numpy python-scipy python-matplotlib


然后安装启用了 GPU 的 TensorFlow,你可以在这个页面查阅你所需的版本:

https://www.tensorflow.org/versions/r0.11/get_started/os_setup.html

注意 TF_BINARY_URL 根据不同的系统而有所不同:

export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.11.0rc2-cp27-none-linux_x86_64.whl
pip install --ignore-installed --upgrade $TF_BINARY_URL


验证安装是否有效,在终端输入:

python
import tensorflow


如果你已经成功安装了 GPU 已启用的系统,你会得到类似下面的输出:

>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcublas.so locally
>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcudnn.so locally
>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcufft.so locally
>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcuda.so.1 locally
>I tensorflow/stream_executor/dso_loader.cc:111] successfully opened CUDA library libcurand.so locally


搞定了吗?下面该配置你的笔记本了!


超级便利的笔记本


1-2.png


打开你的笔记本电脑,然后将其连接到你的固定计算机所在的本地网络:


各种安装


我使用的是一台 Macbook,所以我可以使用一个名叫 Homebrew 的软件包管理器安装程序。甚至也可以使用 Homebrew Cask 轻松安装桌面应用。



安装 Homebrew 和 Cask:

/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

brew tap caskroom/cask


安装你所需的,包括 PyCharm IDE:

brew install cask ssh-copy-id python
brew cask install java pycharm xquartz


设置 SSH


通过执行下列代码生成一组 SSH 密钥对,然后继续参考该指南(如果你之前没有经验):

ssh-keygen -t rsa


现在将该密钥复制到你的远程机器,这样你以后连接它时就不用每次都输入密码了。第一次连接的时候你需要使用你远程机器的密码进行认证:

ssh-copy-id [remote username here]@[remote Ip here]


通过将以下代码附加到你本地机器上的 config 文件来启用压缩和 X11 转发(对数据绘图有用):

echo 'ForwardX11 yes' >> ~/.ssh/config
echo 'Compression yes' >> ~/.ssh/config

用你的笔记本连接你的运程机器,检查一下结果:

ssh [remote username here]@[remote Ip here]


现在还登录着,你应该禁用你的远程机器上的密码登录(为了安全)。使用你最喜欢的命令行编辑器打开配置文件:

sudo vim /etc/ssh/sshd_config


然后取消以下 # 行的注释:

PasswordAuthentication no


在你登录着你的远程机器时重启你的 SSH 服务器(你必须重新验证一次):

service ssh restart


 在你用 SSH 登录着你的远程机器时,你应该要做的最后一件事是找到你的显示器环境变量。后面我们将会用其来 plotting,我通常得到的是 localhost:10.0.

echo $DISPLAY
> localhost:10.0


记住这个命令的输出,后面会用到。


PyCharm 中的远程解释器


1-3.png


这部分很有意思,我们如何设置远程解释器(remote interpreter)从而让你能在远程机器上执行脚本呢?首先启动 PyCharm,然后新建一个 Python 项目。


解释器(Interpreter)


打开 Preferences > Project > Project Interpreter,点击右上角的加点按钮,然后点击 Add remote。


1-4.png


点击 SSH Credentials 按钮然后输入你的信息。选择 Auth Type 上的 Key pair,然后选择 Private Key file。其路径应该是 /Users/<your username>/.ssh/id_rsa


1-5.png



点击 OK > Apply。注意 Project Interpreter 上的 R 表示远程。


1-6.png


部署


该远程解释器不能执行本地的文件,PyCharm 必须将你的源文件(你的项目)复制到你的远程服务器上的目标文件夹,但这是自动完成的,所以你无需多想!当你在 Preferences 面板时,打开 Build, Execution, Deployment > Deployment > Options,确保勾选了 Create empty directories。这样当你创建文件夹时,PyCharm 就会自动同步:


1-7.png


现在回到 Build, Execution, Deployment > Deployment,然后点击 + 按钮,选择 SFTP 并为你的远程命名。点击 OK:


1-8.png


在 SFTP host 中首次输入你的远程机器的 IP 来设置连接,然后选择 Auth type 上的 Key pair,最后选择 Private Key file,路径应该是 /Users/<your username>/.ssh/id_rsa,如截图所示。然后你可能需要点击 Test SFTP connection 进行测试。如果你连接成功了,就应该设置 mapping 了。如果你愿意,你可以点击 Rooth path 旁边的 Autodetect,然后它会自动寻找你的远程机器上的主目录。在此之后你所特定的所有路径都将相对于该主路径。然后转到 Mappings 标签。


1-9.png


一旦你在你的本地路径中保存或创建了一个文件,它就将会被复制到远程机器上的 Deployment path,也许你想将其部署到如下所示的 DeployedProjects/ 文件夹。这是相对于你前面指定的 Rooth path,所以在我们的这个例子中,绝对的部署路径是:/home/username/DeployedProjects/TestProject/


1-10.png


现在我们完成了偏好设置,点击 Apply > OK,然后点击 Tools > Deployment > Automatic Upload,确认其被选择了:


1-11.png


要进行初始上传,右击项目浏览器中的项目文件夹,然后点击 Upload to remote:


1-11.5.png


在你的底部面板应该会出现一个 File transfer 标签,你可以查看进程:


1-12.png


然后点击 Tools > Deployment > Browse Remote Host。将该窗口拖拽到左边 Project 标签下面。这样你就能轻松地在本地和远程项目之间切换了。


1-13.png


一旦你保存并运行了一个文件后,这些部署设置将会无缝工作,它完成得非常快,你可能都无法察觉。


设置控制台


打开 Preferences > Build, Execution, Deployment > Console > Python console 然后选择 Python interpreter。然后点击 Dotted button 并输入所需的之间我们加入到 ~/.bashrc 中的环境变量。注意我们也给 DISPLAY 变量加了一个值,这个值是我们之前使用 SSH 连接服务器时找到的:


1-14.png


然后回到 Preferences > Build, Execution, Deployment > Console > Python console 然后选择 Always show the debug console。这在我们调试的时候非常有用:


1-15.png


创建一个运行配置


在你的项目中创建一个简单的名为 test.py 的测试文件,其中仅包含:

import tensorflow
print "Tensorflow Imported"


现在进入 Run > Edit Configurations…,点击 + 按钮创建一个新的 Python 配置。为其命名后选择该脚本运行:


1-16.png


现在像之前一样进入所需的环境变量。小技巧:你可以直接从我们之前指定的控制台设置中直接复制它们,在左下角使用 Ctrl+A 和复制/粘贴即可。你可以通过点击 Environment variables 一行后面的加点按钮获取它们。


1-17.png


点击 OK > OK 开始测试!


测试该设置


现在我们应该全部完成了,改进行测试了。首先打开终端并确保你至少有一个带有 X 转发的 SSH 信道连接到你的服务器。如果你的连接已经开启了一段时间了,你可能必须退出并重启它们:

ssh [remote username here]@[remote Ip here]


控制台


然后打开 PyCharm 中底部栏的 Python Console 并输入 import tensorflow。然后你可以输入 ls/ 来验证你确实在你的服务器上执行该命令。输出应该是这样的:


1-18.png


运行脚本


现在回到你的 test.py 脚本,然后选择顶部栏的 Run > Run…。选择你新建的运行配置 Test,其应该输出这样的结果:


1-19.png


绘图


让我们做一些绘图,把你的 test.py 文件改成这样:

import tensorflow
import matplotlib
matplotlib.use('GTKAgg')
import matplotlib.pyplot as plt
import numpy as np

print "Tensorflow Imported"
plt.plot(np.arange(100))
plt.show()


接着用你的运行配置 Test 再一次运行它,你会得到这个图:


1-20.png


这个图实际上在你的远程服务器上完成,但是窗口数据被转向到了你的本地机器。注意我们可以用 matplotlib.use('GTXAgg') 改变支持,因为它是一个支持 X11 的显示后台。你可以在这里阅读更多关于 Matplotlib 后台的信息:

http://matplotlib.org/faq/usage_faq.html#what-is-a-backend


你也可以在 matplotlibrc 文件中修改默认行为。记住在一个分离开的终端中你需要至少一个开放的 SSH 连接,使用 DISPLAY 环境变量的正确值以使其工作。如果无效尝试重新启动你的 SSH 连接。


调试脚本


最后做一些调试。点击左侧栏以放一个断点(breakpoint),接着点击 Run > Debug…,并选择 Test 配置。你将会看到执行已停止,然后你就可以远程调试脚本了。

1-21.png


下一步


为了使你的机器联网,你不得不在家庭路由器上转发端口,这根据不同的供应商而变化。我建议在你的路由器上转发一个超过 22 的不同端口。世界上存在很多动机不良的 bot 想要攻击你,它们会检查默认端口,也许会减慢你的连接(尽管你已经关闭了口令认证,所以你相当安全)。也许你可以把你的路由器上的端口 4343 转发到 IP 192.168.0.1 上的端口 22(该教程中我们的远程默认 IP)。另外,为了加快绘图,你也许会需要更快的加密:http://xmodulo.com/how-to-speed-up-x11-forwarding-in-ssh.html  


声明:本文由机器之心编译出品,原文来自Medium,作者:Erik Hallström,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。