HPC 高性能计算平台
為什麼 HPC 如此重要?
高效能運算 (HPC) 已不是新鮮事。數十年來,HPC 工作站和超級電腦在學術研究中扮演著不可或缺的角色,解決了複雜的問題並激發了發現和創新。近年來,數據量迅速激增,許多新的應用程式受益於 HPC 的強大功能,即跨共享資源執行運算密集型操作的能力,相較於傳統運算以更少的時間和更低的成本獲得結果。與此同時,HPC 硬體和軟體變得更容易獲得並且廣泛分佈。科學家、工程師和研究人員在一系列使用案例中仰賴著 HPC,包括天氣預報、石油和天然氣勘探、物理學、量子力學以及學術研究和商業應用的其他領域。
對於每一個涉及計算的課題組來說,購買超算機時還是建立自己的伺服器集群,成為了每個課題組的考量。筆者建議課題組針對專案需求,兩者靈活配置,不存在東風壓倒西風的說法;對於超算資源來說,短時間以較小的經費就可以撬動極大的計算資源,對於專案驗證或緊急的專案需求都是非常好的補充,對於許多大型專案的進展,沒有超算談何開展。當然回歸到課題組的實際需求,自建伺服器集群才是每個課題組最划算的算力投資。
FLOPS
超級電腦速度以每秒浮點運算次數 "FLOPS" (floating-point operations per second, flops)來作量度單位,常見的表示電腦中的峰值或速度用的單位英漢對照如下:
- 一個MFLOPS(megaFLOPS)等於每秒100萬(=\(10^6\))次的浮點運算
- 一個GFLOPS(gigaFLOPS)等於每秒10億(=\(10^9\))次的浮點運算
- 一個TFLOPS(teraFLOPS)等於每秒1兆(=\(10^{12}\))次的浮點運算
- 一個PFLOPS(petaFLOPS)等於每秒1千兆(=\(10^{15}\))次的浮點運算
- 一個EFLOPS(exaFLOPS)等於每秒100京(=\(10^{18}\))次的浮點運算
此外,由於浮點積和熔加運算或乘積累加是兩次的浮點運算(每條FMA指令包括加/減及乘),因此當處理器支援FMA指令時,峰值是兩倍每秒所能執行FMA指令的數目。
CPU flops
- 计算节点 1, 每个节点配置2颗intel Xeon Gold 6248 CPU, 双精度浮点计算性能 3.20 Tflops
- 计算节点 1, 每个节点配置2颗intel Xeon Platinum 8358 CPU, 双精度浮点计算性能 5.32 Tflops
- 計算節點:2顆 Intel® Xeon® Platinum 8280 2.4GHz CPU (28 Cores/CPU) 與 192GB 主記憶體, 3 Tflops
- 計算節點:2顆 Intel® Xeon® Platinum 8480+ 2.0GHz CPU (56 Cores/CPU) 與 512GB 主記憶體, 6.27 Tflops
GPU flops
- NVIDIA Tesla V100,双精度浮点计算能力 924 Tflops
TOP500
文章
超級電腦爭霸戰的新一頁開始了:Exascale(10 的 18 次方)之戰 | 2022/09/10
- 超級電腦的架構,可以說是非常的簡單:用網路線連結各台主機,讓主機間互相溝通,才能夠進行平行運算。
- 考驗硬體的處理能力、主機間節點的連線架構、資料讀寫能力,更甚者,則是軟體是否具有 Exascale 的使用能力,也就是硬體與軟體都必須要能夠良好的契合才行。
- 地球系統模擬中,其中一個挑戰便是進行模擬時程:挑戰一日(24 小時)的超級電腦計算可以得到多少年的模擬結果(simulated years per wall-clock day, SYPD),而此地球系統的精度為水平方向僅一公里的超高解析度,用來進行最終極的地球系統模擬:數位攣生(Digital Twins)。
- Neumann 等人也預計在 2030 年代後,進行 1 公里等級的超高精度計算也將不是夢想,而在 Exascale 主機降臨前的這個年代,有些超級計算中心已經以節點(Node)做為計算資源耗費的單位(Node per hour),而非 CPU per hour,顯示出大型主機對計算資源消耗的想法以從 CPU 規模上升到了 Node 規模。
目前已經有部份超級電腦都在進行 SYPD 的挑戰,如中國的神威太湖之光,其已完成了每日 3.4 年的地球系統模擬,只不過其地面僅有 25 公里的水平精度,海面僅 10 公里的水平精度,還有非常多的進步空間。只可惜,這個實驗並沒有進行進行資料輸出,無法得到正確的效能結果(資料的寫入與輸出也是非常費時的),以及真正的運算結果:因為沒有資料,就沒有辦法分析。
超算: 價格
超算中心產品的特點:完備的軟體運行環境及豐富的軟體選擇,穩定的技術支持,按需使用,靈活充值;缺點:昂貴且不易於管理,容易不知不覺就消耗了寶貴的科研經費(筆者接觸過課題組購置數萬機時,沒有有效管理,學生學習與試誤的過程中,就消耗殆盡;)
- 1毛 = 1/10元 (人民幣)
- 超算中心價格基本上在0.1-0.3元一個核時(人民幣),單價看起來還是不貴。
- 通常超算中心中主流的64核心節點,一般單價在0.1元每核心時,基於此計算一台64核心的伺服器長期租用,他的成本將會是:
- 每天的費用:64x0.1x24=153.6元;每年的費用可能高達56064元;目前一台超算中心的64核心節點,基本市場價格也就在5萬左右;我們也核算過各類伺服器配置,基本上超算同類的運算伺服器,租賃1年的費用,就等於您訂購這台伺服器費用了。
- 顯然從長期使用運算資源的角度來說,顯然自建自己的伺服器叢集是課題組更划算的選擇。
- 其次:自有的伺服器資源,可以做到更靈活的使用,軟體安裝也非常自由;文件資料本地存儲,使用快捷簡易等優點。
首先说现在的超算价格:link
- 以北京超级云计算中心为代表的,主流超算中心,价格通常不超过0.1元每核时(搞活动的时候0.08元左右),按照题主描述,10万核时约需要8000~1万元。论性价比的话,
- 我更推荐一些不太知名的,价格从0.05到0.08元每核时不等。
- 其次,题主描述的10万核时应该是按照自己的18核至强计算出来的。不同CPU的性能差距很大,举个例子,AMD 7601计算1小时的,AMD 7452可能40分钟甚至半小时就算完了。最后,讨论下自己搭机器与租超算的优缺点。自己搭建机器,肯定无法兼顾性能与价格,例如预算6000以内的话,估计只能买1台双路AMD 7601,可能无法满足短时间内算完全部算例的需求。好处就是机器实打实的是自己的,这10万核时的任务算完了以后,机器还可以干别的用途,甚至卖了回血也可以。而超算与之相反,可以提供最高的算力,满足短期内大量的计算需求。缺点就是算完以后自己啥都留不下。
实际上并行科技早就已经将超算商业化了,对于普通人也非常友好。我有个同学,自己有计算需求,但是课题组其他人没兴趣,她就自费只充了100块钱就够用了。就像充话费一样简单,使用也非常方便,超算就是一台远程linux电脑,远没有多数人想象的多么高冷神秘。Link
例子:
- 10万核时,0.1元每核时,需要1万人民币。
集群
- 北京东方超算科技有限公司, ChinaHPC
- 成立于2013年,创始团队来自于北京市计算中心和中国科学院超级计算中心,注册资金1000万元,坐落在北京市海淀区上地信息产业基地。
- 东方超算云
- 东方超算云的大规模算力集群位于全国一体化算力网络国家枢纽节点内蒙古自治区
- 一期建设360个18KW高密度机柜,计算节点2000台,56000CPU核心,20PB分布式并行存储容量
- Login website
- 公共计算平台服务资源
- A区资源(0.1元核心小时); 面向HPC、AI客户; 160节点; 处理器:2*Intel® Xeon® Platinum 9242 Processor(48核心、96线程、基础主频2.3GHz); 内存:24x16GB 2933MHz,共384GB
- B区资源(0.08元核心小时):面向大规模分布式并行,追求性价比用户; 1000节点; 处理器: Intel® Xeon® Processor E5-2680 v4 (28核心,基础主频2.4GHz,最大睿频3.3GHz); 内存:8*16GB ,共128GB 内存; 网络:Mellanox FDR 56Gb Infiniband
- 国家超级计算天津中心, 天河一号
- 中國人民解放軍國防科學技術大學和天津濱海新區提供的異構超級電腦
- 啟用時間: 天河-1:2009年10月29日,天河-1A:2010年10月28日
- 天河-1A使用的開源軟體包括:Linux作業系統,SLURM作業調度系統,Lustre叢集檔案系統
- 0.07元/核时,配置:单节点12核 , Intel Hexa Core Xeon X5670 ;主频 2.93GHz, 内存48G,私有高速网络,免费存储1TB
- 国家超级计算广州中心, 天河二号
- 中山大學廣州校區東校園
- 啟用時間: 2013年
天河二号
拥有约17920个计算节点,每节点配备两颗Xeon E5系列12核心的中央处理器、三个Xeon Phi 57核心的协处理器(运算加速卡),总内存容量约1.4PB,全局存储总容量约12.4PB。- 0.1元/核时,配置:单节点24核 , Intel Xeon E5-2692 v2 ;主频 2.2GHz, 内存64G,内存频率:DDR3 1333MHz,免费存储500GB
- 54.9PFLOPS(理論峰值), 实际运算速度33.86PFlops
- 天河二号使用教程
- 国家超级计算天津中心同国防科技大学联合研制, 天河三号, (E级)超级计算机
- https://baike.baidu.com/item/%E5%A4%A9%E6%B2%B3%E4%B8%89%E8%99%9F/22052788
- 科技媒体解构中国迄今为止最强大的超级计算机
- 国家超级计算长沙中心
- 中心拥有“天河”系列超级计算机、“天河·天马”计算集群等计算平台。其中2022年建成的天河新一代主机系统采用全国产设备,峰值计算性能达200P Flops(64 位精度),可提供1000P Ops人工智能算力(16位精度)
- “天河一号”高性能计算系统, 单节点配置:2*6核Intel Xeon Westmere EP,主频2.93GHz,内存48GB,1块Nvidia M2050 GPU
- CPU:0.10元/核/小时;GPU:2元/块/小时;纯CPU(120核包年):5万元/年。含GPU(120核包年):10万元/年。国家超级计算长沙中心2019年收费基本执行标准 2019
- 存储服务:天河存储0.5万元/TB/年;其它存储0.3万元/TB/年
- 国家超级计算深圳中心(深圳云计算中心)
- 深圳超算一期, 深圳超算二期
- 高性能计算集群约有3000余计算节点,CPU约70000核,总内存容量约230TB,全局存储总容量约20PB
- 神威·太湖之光
- 啟用時間: 2015年12月31日
- 部署在江蘇省無錫市的國家超級計算無錫中心,由清華大學負責營運
- 整机处理器个数 40960个
- 峰值性能为 125.436 PFlops
- 它的浮点运算速度达到了 90.83 PFlops(1PFlops为每秒1千万亿次浮点运算),超越第二名“天河二号”(33.06PFlops)近两倍。而且,与“天河二号”使用Intel芯片有所不同,它使用的芯片具有中国自主知识产权。Link
- 北京超级云计算中心
- 成立于2011年,中国科学院和北京市政府共建,由北京北龙超级云计算有限责任公司运营
- 推荐使用T6区,配置:单节点96核,按核计费,Intel Xeon Platinum 9242@2.3GHz,384G内存,100Gps 高速网,免费存储500G,价格1毛/核时=0.1/核时。(用的多会有一些折扣)
- 北京大学高性能计算校级公共平台
- 北京大学高性能计算校级公共平台用户文档
- 每个CPU时0.06元, 收费标准
- 作物遗传改良全国重点实验室生物信息计算平台
- 生物信息高性能计算平台为华中农业大学作物遗传改良全国重点实验室公共技术平台,专注为实验室及全校用户提供高通量测序数据的存储和计算服务。
- 平台由155个刀片计算节点、2个GPU节点、6个八路大内存胖节点、多套并行存储组成,总体计算能力理论峰值为380万亿次,CPU核心数为5600核,存储硬件12.7PB(可用容量8.8PB),主存储读写带宽超过45GB/s。平台预装了1000余款各类生物信息分析软件及相关使用文档、各类常用生物信息数据库,用户可使用本平台进行转录调控测序、单细胞测序、三维基因组测序、表观组测序、基因组组装注释等各类常见组学数据分析。可加速大规模重测序数据分析、复杂大基因组组装注释等需消耗大量资源的分析项目。
- 每个CPU时0.1元,并行存储空间每GB每月0.05元。重点室用户3折;重点实验室之外的用户不打折。根据用户上报的上一年度的文章,决定本年度的集群机时折扣。
- 武汉大学超级计算中心
- 中国科学技术大学超级计算中心
- 瀚海 22 超级计算系统, 瀚海 20 超级计算系统, 曙光 TC4600 百万亿次超级计算系统
- 中国科大超算中心用户使用手册
- 中国科学技术大学超级计算中心收费标准2023年11月15日版
- CPU节点 0.02元/CPU核小时
- 免费使用1TB的存储容量,超过1TB后为30.00元/TB月
- 校外用户收费为校内用户的3倍
- 南京航空航天大学 - 硬件资源 - 高性能计算中心
- 长空1号:2020年6月建成,包含CPU计算节点62个,每个节点配置2颗intel Xeon Gold 6248 CPU,合计2480核,双精度浮点计算性能198.4Tflops;GPU节点有12个(3台4卡节点),配置均为NVIDIA Tesla V100,双精度浮点计算能力924Tflops。
- 长空2号:2022年9月建成,包含CPU计算节点256个,每个节点配置2颗intel Xeon Platinum 8358 CPU,合计16384核心,双精度浮点计算性能1363.15Tflops。
- AI深度学习平台:AI深度学习平台是基于学校高性能计算平台硬件基础,面向人工智能、深度学习、大模型训练等领域的算力调度平台,功能涵盖数据集、算法、框架和模型的分类管理,并提供TensorFlow、PyTorch等常用深度学习框架和库。平台2024年5月正式上线运行,包含64张NVIDIA Tesla V100 GPU卡(16台4卡GPU节点),适合开展大规模数据处理与分析、复杂算法训练等。
- 杭州电子科技大学超算中心
- 曙光TC6000高性能计算集群有CPU计算节点68个
- 关于公布 2024 年度超算中心收费标准的通知
- 校内用户 CPU 节点 0.06 元/核·小时; 存储空间 超出 200GB 部分,每100GB 费用为 10 元/月
- 校外用户 CPU 节点 0.12 元/核·小时; 存储空间 超出 200GB 部分,每100GB 费用为 20 元/月
CPU
- Intel Xeon Phi 7250 is designed for highly parallel workloads with a significant number of threads.
- E5-2680 v3 and v4 are part of the Xeon E5 family, providing a balance of performance and efficiency for data center applications.
- Gold 6248R and 6342 are part of the Xeon Gold series, offering high core counts and advanced memory capabilities, suitable for demanding HPC tasks.
Name | Launch Date | Base Frequency (GHz) | Physical Cores | Threads | Cache (MB) | Price (Approx.) | TDP (W) | Max Memory Size | Memory Types | Instruction Set Extensions |
---|---|---|---|---|---|---|---|---|---|---|
Intel Xeon Phi CPU 7250 | Q2'16 | 1.40 | 68 | 272 | 34 | ~$2,500 | 215 | 384 GB | MCDRAM, DDR4-2400 | AVX-512 |
Intel Xeon CPU E5-2680 v3 | Q3'14 | 2.50 | 12 | 24 | 30 | ~$1,745 | 120 | 768 GB | DDR4-2133 | AVX 2.0 |
Intel Xeon CPU E5-2680 v4 | Q1'16 | 2.40 | 14 | 28 | 35 | ~$1,745 | 120 | 1.5 TB | DDR4-2400 | AVX 2.0 |
Intel Xeon Gold 6248R CPU | Q1'20 | 3.00 | 24 | 48 | 35.75 | ~$2,700 | 205 | 1 TB | DDR4-2933 | AVX-512 |
Intel Xeon Gold 6342 CPU | Q2'21 | 2.80 | 24 | 48 | 36 | ~$2,529 | 230 | 6 TB | DDR4-3200 | AVX-512 |