Bladed是一個用于風力發電機組性能和載荷仿真計算的建模工具,全球大型風力機制造商約有半數采用該軟件。
在風力發電機組的各個設計階段,優化設計都是重中之重。如果不能正確地對載荷、惡劣環境和結構完整性進行建模,或不能執行準確試驗,都可能會極大地危害機組長期的安全性、功能性和盈利能力。
風力機設計項目經常需要進行大量仿真計算,一組仿真計算耗費數千小時的計算機時。
一方面,算力在總量和項目波峰波谷期的彈性供應上能否滿足需求。充足的算力意味著縮短產品上市時間,拉大市場優勢。
另一方面,超大規模算力的調度使用和企業場景的復雜性帶來的管理等問題對IT自動化和智能化要求很高。如何調度超大規模集群的過程,還有其中隱藏的成本優化問題,其實很多。
速石科技用實證來解決這些問題。
實證背景信息
某風電新能源集團建設有本地機房,但機器較陳舊,資源有限。跑Bladed仿真任務計算周期長,特別是有大型仿真任務時,往往需要數周甚至數月才能出結果。
用戶要求將跑大型任務的時間縮短到一天以內,同時能夠對任務進行管理和監控。
實證目標
1、Bladed任務能否在云端有效運行?2、fastone平臺能否將大規模Bladed仿真任務周期縮短到一天?3、fastone平臺能否提供高效靈活的數據傳輸方案?4、fastone平臺能否提供有效的任務管理和監控?
實證參數
平臺:fastone企業版產品
應用:Bladed 4.10版
操作系統:
Bladed 4.10之前的版本不支持Linux系統,只支持Windows。
本次實證由于用戶更熟悉Windows操作系統,所以并未選擇Linux鏡像。
主流云廠商對不同操作系統鏡像有不同的定價方式。整體上來說,通過Windows系統使用云資源價格比Linux系統要貴。
適用場景:
構建風力發電機性能模型,運行仿真計算并處理結果,為工程師提供有關風力機動力學和優化的重要決策信息。
License配置:Bladed License Server設置在云端。
云端硬件配置:
Bladed是一個計算密集型應用,對CPU要求高、內存要求不大,因此平臺為用戶推薦選擇了滿足其應用特點的計算優化型實例機型。
調度器:
因為選擇了Windows操作系統,所以本實證中集群調度使用的是PBS調度器。
技術架構圖:
用戶通過Web方式登錄構建于公有云上的fastone算力運營平臺,根據實際計算需求自動創建、銷毀集群,提交計算任務,上傳下載任務,監控管理。
用戶通過NAT方式訪問位于公網的License服務器。
用戶通過VPN接入,可更安全地訪問云上私密的HPC環境。
實證場景一:大規模業務驗證9600個用例本地VS云端300核
結論:1、云端可提供滿足Bladed應用特點的機型,運行Bladed Windows版本的任務;2、本地資源運算9600個用例,耗時約4天;通過fastone平臺調用300核計算優化型實例運算9600個用例,總耗時約8小時,任務運行時間7小時;3、fastone平臺的自動化伸縮,有效降低整個計算周期資源占用率;4、fastone平臺能提供靈活高效的數據傳輸方案,滿足計算數據量大需求;5、fastone平臺可穩定運行Bladed任務、測試過程中未發生服務中斷;6、fastone平臺可監控、管理任務與集群的運行情況。
實證過程:1、數據上傳:用戶將Bladed風文件、工況文件等上傳至fastone平臺;2、數據處理:自動下載、解壓數據,修改配置;3、自動可擴展集群啟動:用戶選擇Bladed 應用,按需構建300個核的Bladed集群;4、任務運行:提交任務后,用戶可隨時在監控界面查看任務和集群運行情況;5、結果數據上傳:任務運行成功后,自動將結果數據上傳至對象存儲供用戶下載。
數據傳輸優化:Bladed的風文件和任務文件數據量極大,傳統傳輸模式往往會面臨以下問題:1、初始化大文件傳輸。在本實證中,用戶在跑任務之前需要上傳多達數百GiB的風文件;2、隨著任務的調整,有大量小文件需要增量上傳。在本實證中,用戶需要上傳9600個任務文件,每個幾十MiB不等。 fastone支持全自動化數據上傳,可充分利用帶寬,幫助用戶快速上傳、下載海量數據。同時,利用fastone自主研發的分段上傳、高并發、斷點續傳等數據傳輸技術,優化海量數據的傳輸效率。
自動化部署:在手動模式下,通常都是先構建一個固定規模的集群,然后提交任務,全部任務結束后,關閉集群。在本實證中,如果是手動部署,300核的集群一旦拉起,第一到第五步手動配置的時間里,所有機器一直都是開啟狀態,也就是說,燒錢中。更詳盡的涉云成本計算,可參考:幫助CXO解惑上云成本的迷思,看這篇就夠了 再看看我們的自動化部署:在本實證中,fastone平臺在任務的不同階段采取不同的策略應對,除任務運行的7小時內有300核云資源滿負荷運作以外,在數據處理和結果數據上傳階段均只開啟了1-2臺機器,而其他準備過程不需要開啟機器。很重要的一點是:任務完成后會及時下載結果并自動關機。
fastone的Auto-Scale功能可以自動監控用戶提交的任務數量和資源的需求,動態按需地開啟所需算力資源,在提升效率的同時有效降低成本。
用戶可根據自己需求,設置自動化調度集群規模上下限。
所有操作都是自動化完成,無需用戶干預;
在實際開機過程中,可能遇到云在某個可用區資源不足的情況,fastone會自動嘗試從別的區域開啟資源;
如果需要的資源確實不夠,又急需算力完成任務,用戶還可以從fastone界面選擇配置接近的實例類型來補充
詳細分解手動模式 VS 自動部署,看這里:EDA云實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?
任務和集群管理:提交任務后,可以在監控界面中查看任務和集群運行情況。
實證場景二:云端線性擴展驗證9600個用例云端300核 VS 3000核
Bladed應用具備線性擴展性。
當我們把自動化調度集群規模上限設為3000核,任務運行時間從7小時縮短到45分鐘,整體計算周期也從8小時縮短至1.75小時。
實證過程:
本實證中,單個任務運行時間為10-30分鐘,當有任務提前運行完成且數據下載完后,相應的機器會自動關閉,避免資源浪費。
實證小結
最后我們回顧一下實證目標:1、Bladed Windows版本任務在云端能夠有效運行;2、fastone平臺成功將大規模Bladed仿真任務的運算時間從4天縮短到1~7小時;3、fastone平臺能夠提供靈活高效的數據傳輸方案;4、fastone平臺能夠提供可靠的任務管理和監控。 除了Windows系統,速石科技還支持通過fastone平臺同時調度任務至本地和云上的Windows節點和Linux節點,滿足業務需求。同時,我們也支持SLURM/SGE/LSF等主流調度器,本次實證未曾涉及。 本次CAE云實證就到這里了。 未來我們還會帶給大家更多領域的用云“真香”實證,請保持關注哦!
關于速石:
速石科技(fastone)致力于構建為應用定義的云,讓任何應用程序,始終以自動化、更優化和可擴展的方式,在任何基礎架構上運行。
我們為有高算力需求的用戶提供一站式多云算力運營解決方案,基于本地+公有混合云環境的靈活部署及交付,幫助用戶提升10-20倍業務運算效率,降低成本達到75%以上,加快市場響應速度。速石平臺對藥物研發/基因分析/CAE/EDA/AI等行業應用進行分析與加速,通過Serverless框架屏蔽底層IT技術細節,實現用戶對本地和公有云資源無差別訪問。我們的產品包括:fastone COMPUTE PLATFORM和fastone COMPUTE CLOUD。
責任編輯: 李穎