深度学习工作站配置

前不久老师决定买一台GPU机器供组内使用,让我调研一下方案。之前组内的工作站都是买Dell的机器,但我们想插4块GPU,发现Dell卖的工作站主板都没法插4块GPU,所以这条路走不通。看了网上的一些配置,大家基本是单独买各个零部件然后组装。

GPU想买TitanX Pascal,但国内还没上市,不好报销,就买了GTX1080,最终的配置为:

配件 型号 数量
机箱 Corsair Carbide Air 540 1
主板 Asus X99-E WS/USB 3.1 1
CPU Intel I7-6900K 1
CPU水冷 Corsair H60 1
内存 Kingston Fury DDR4 2400 16GB 4
显卡 Inno3D GTX 1080 Founders Edition 4
电源 EVGA 1600W G2 1
固态硬盘 SAMSUNG 950 PRO 256G M.2 1
机械硬盘 WD40EZRZ 4T 1

一开始显卡选的是一款非公版的,后来发现非公版的太厚了,插不上4块,只能换成公版的。而且公版用的是涡轮风扇,多显卡时散热会好一些。

供货商把机器运过来后,自己装了系统和深度学习的各种环境。但不幸的是机器十分不稳定,经常死机或者是程序跑着跑着崩掉,报总线错误(Bad TLP PCIe Bus Errors),困扰了好几天。最后在这个帖子的24楼找到了解决方案,貌似是这块主板的总线电源管理有问题,按照这个改了之后机器就稳定了。