GPU計算服務器(GPU-K1000)
研發(fā)背景
工業(yè)與學術界的數(shù)據(jù)科學家已將 GPU 用于機器學習以便在各種應用上實現(xiàn)開創(chuàng)性的改進,這些應用包括圖像分類、視頻分析、語音識別以及自然語言處理等等。 尤其是深度學習,人們在這一領域中一直進行大力投資和研究。深度學習是利用復雜的多級「深度」神經網(wǎng)絡來打造一些系統(tǒng),這些系統(tǒng)能夠從海量的未標記訓練數(shù) 據(jù)中進行特征檢測。 雖然機器學習已經有數(shù)十年的歷史,但是兩個較為新近的趨勢促進了機器學習的廣泛應用: 海量訓練數(shù)據(jù)的出現(xiàn)以及 GPU 計算所提供的強大而高效的并行計算。 人們利用 GPU 來訓練這些深度神經網(wǎng)絡,所使用的訓練集大得多,所耗費的時間大幅縮短,占用的數(shù)據(jù)中心基礎設施也少得多。 GPU 還被用于運行這些機器學習訓練模型,以便在云端進行分類和預測,從而在耗費功率更低、占用基礎設施更少的情況下能夠支持遠比從前更大的數(shù)據(jù)量和吞吐量。 將 GPU 加速器用于機器學習的早期用戶包括諸多規(guī)模的網(wǎng)絡和社交媒體公司,另外還有數(shù)據(jù)科學和機器學習領域中一流的研究機構。 與單純使用 CPU 的做法相比,GPU 具有數(shù)以千計的計算核心、可實現(xiàn) 10-100 倍應用吞吐量,因此 GPU 已經成為數(shù)據(jù)科學家處理大數(shù)據(jù)的處理器。
為此公司開發(fā)了可擴展性很強的GPU計算服務器設備。
應用場景
適用于數(shù)據(jù)可視化、機器學習、計算建模等并行運算應用程序的理想設備。
支持8路GPU E5-2600 V3 V4系列
特性和優(yōu)勢:
1、大規(guī)模CUDA并行架構,使工作站的功耗和成本分別降至原來的1/20和1/10,性能卻能與小型集群媲美;
2、支持8 個Tesla K10/K40/K80/M40/M60/Xeon Phi 計算處理器(每個處理器有448個核心,共1,792個核心。以最終配置GPU卡為準。);
3、可提供4.12 Teraflops的單精度浮點運算性能和2.06 Teraflops的雙精度浮點運算性能
4、CUDA程序環(huán)境,支持多種編程語言和API,包括C、C++、OpenCL、DirectCompute或Fortran;
5、具備內存數(shù)據(jù)保護功能,加強了應用數(shù)據(jù)的完整性和可靠性。注冊文件、L1/L2高速緩存、共享內存和DRAM都處于ECC保護狀態(tài);
6、NVIDIA? 并行數(shù)據(jù)緩存(DataCache?)技術,能夠對無法預知數(shù)據(jù)地址的算法進行加速,例如物理解算器、光線追蹤、以及稀疏矩陣乘法等等;
7、NVIDIA? GigaThread? 引擎通過更快的上下文切換、同時內核執(zhí)行以及改善的線程塊調度功能,最大限度提升了吞吐量;
規(guī)格:
1、支持8 個Tesla K10/K40/K80/M40/M60/Xeon Phi 計算處理器(每個處理器有448個核心,共1,792個核心 以最終配置GPU卡為準。)
2、每臺服務器可提供4.12 Teraflops的單精度浮點運算性能和2.06 Teraflops的雙精度浮點運算性能
3、IEEE 754 單雙精度浮點運算標準
4、支持12或24 GB的專用DDR5內存(每顆Tesla C2050 GPU 3 GB,每顆 Tesla C2070/C2075 6GB)
5、4x 384-bit GDDR5 內存位寬 (每個GPU 384-bit GDDR5接口)
6、顯存總帶寬達576 GB/s(每個GPU 144 GB/s)支持2顆32納米英特爾至強處理器Westmere 5600系列,每處理器6內核,12線程,和12MB二級緩存
7、支持Trusted Execution, Advanced Encryption Security,以及新的指令集 (AESNI), Turbo Boost, Intel? Virtualization, Intel? QuickPath
8、Intel 5520芯片組,處理器集成內存控制器
9、Intel QuickPath總線架構,高達6.40 GT/s / 5.86 GT/s / 4.80 GT/s的總線帶寬
10、最高 192GB 1333 / 1066 / 800MHz DDR3 ECC Registered 內存
11、8x 3.5"SAS/SATA熱插拔硬盤位
12、兩個額外的單插槽卡擴展槽
產品示例圖: