【行業資訊】數據中心規劃中的九大誤區
發布時間:2022-08-09 文章來源:鴻宇科技 瀏覽次數:1104
很多企業的的業務都運行在安全容量范圍之外,而可以用于擴展的空間又非常有限或者根本不存在。據 IDC 統計,數據中心的平均使用年限為 9 年。然而 Gartner 的數據顯示任何運營超過7年的設施都趨于陳舊。
數據中心設施過時或者內部空間過于擁擠成為企業業務增長的“攔路虎”,這時建設新的數據中心有時就成為唯一的解決辦法。當投放市場的速度成為成敗關鍵的時候,沒有對業務需求作出適當評估的企業會讓數據中心建設走進死胡同,既無法保障可用性也無法滿足未來業務的需求。
那么如何在新建和擴建數據中心之時避免犯錯?設計和建設數據中心時,實施的方法是極為關鍵的。很多時候,企業只根據單位面積功率,單位建筑面積成本和 Tier 等級來規劃數據中心,但這些指標可能會與其總體業務目標和需要承擔的風險不一致。規劃不善導致投資使用不良和運營成本的增加。
很多企業則只注重細枝末節,過分關注“速度和供給”,綠色環保,并行維護,電力使用效率(PUE)和綠色建筑 (LEED)認證。盡管所有這些指標在決策過正中都十分重要,但是過分注重細節會影響對全局的把握。有不少數據中心因為數據中心擴建而錯過商業機會,所以應該用把握全局的方法實施擴建項目。
有大量的咨詢公司及相關人員可以為規劃提供幫助,但是評估這些咨詢建議和設想的工作量將是非常巨大的。關鍵 IT 容量在 1-3 MW 的范圍內數據中心很容易陷入這種麻煩。中型數據中心用戶對關鍵性的要求也不比大型兆瓦級用戶低。但是內部技術人員實施擴建的專業知識和經驗可能比較有限,來自多方的信息量過大導致思維混亂和作出錯誤的決策。
01
誤區之一:未將總擁有成本(TCO)納入考量
僅僅關注投資成本是一個很容易落入的陷阱,新建或擴建所需的成本往往會令人產生錯覺。盡管投資成本(CapEx)建模非常關鍵,但是如果未將數據中心基礎設施的運維成本(OpEx)納入計算,那么整體的業務規劃流程的效果就會受到嚴重削弱。
對數據中心運營成本(OpEx)建模需要兩個關鍵的子項:運行成本和維護成本。維護成本包括所有維護數據中心所有基礎設施的成本。這包括 OEM 設備的維護合同,數據中心清潔支出,雇傭維修和升級承包商等費用。運行成本包括所有與日常運營和現場工作人員相關的成本。這包括雇員工資,人員專業技術培訓和安全培訓,數據中心運行文件歷史記錄,容量管理以及質量監督條例和程序等費用。如果無法計算出 3 - 7 年的運維支出預算,那么建立投資回報(ROI)模型來作出明智的決策是無法實現的。
當正在規劃新建或擴建關鍵業務數據中心時,最佳的方案就是關注總擁有成本(TCO)的三個基本面:1)投資成本(CapEx), 2)運營成本(OpEx)和 3)能源成本。少計入任何一項,所創建的模型都無法將企業的各種風險和各種業務開銷相匹配。在作出采購設備和建設的決策時,未權衡 TCO 的方法所產生的風險是非常巨大的。
02
誤區之二:不準確的建設成本估算
另一個常見的錯誤是來自估算本身。董事會所批準的財務預算對與新建或者擴建數據中心來說太少,因而導致項目失敗。決策的流程如下所示:
? 資金申請提出后獲得暫時性通過。財務部門應該參與調查和獲取信息,創建最接近實際的預算。
? 花費必要的時間推進以上決定預算的流程。
? 調查發現原來的預算提案數額太低。
? 項目被延遲;雇員受到影響;針對外部和內部客戶的服務執行能力受到影響;預期受到影響。
? 這最終導致整個周期回到原點,這正是因為沒有避免第一個誤區,未將總擁有成本(TCO)納入考量,沒有建立一個全面的財務模型。
建設成本的問題本可以輕松避免,但是如果你無法規避誤區三,那么第二個誤區又是無可避免的。
03
誤區之三:未制定適當的設計指標和性能參數
有兩種“錯招”可能將企業推進超支的死亡漩渦。第一點就是人人可能都喜歡可用性為Tier 3 或更高的設計方案,但是并不是每個人都確實需要這樣的高可用性。第二點大多數的功率密度,kW/平方米和kW/機柜并不與實際的業務需求相匹配。
很多時候,“必須建成功率密度為 3 kW/平方米”這樣的方案是很不合理的。千萬不要過度規劃建設,那樣只會浪費資金。可用性越高的數據中心在運維和能源上的開銷也會越高。如果走入這個誤區將會讓創建業務模型和投資回報(ROI)分析的基礎偏離真實。首先要建立正確的設計指標和性能參數。然后圍繞這些指標和參數構建投資成本和和運營成本。
04
誤區之四:設施選址凌駕于設計指標之上
企業往往在確定設計指標和性能參數到位之前已經開始為設施的建設進行選址了。在缺少這些關鍵的信息的情況下勘察和評估場地并沒有實際的意義。這種“本末倒置”的情況經常發生于 1-3 MW的數據中心用戶群。兆瓦級的數據中心用戶通常都是這個領域的專家,會將市電的可用性和成本、光纖網絡接入、地理風險(例如地震,臺風和洪水高發區)等納入考量范圍,而基本的用戶則通常在其業務模式所顯示的需求,在其業務覆蓋的核心區域內建設或翻新場地來興建數據中心。
過早選址或者僅基于地理位置選址帶來的問題讓數據中心的選址無法滿足設計要求。舉例來說,在辦公室所在大樓內或者幾個街區以外部署數據中心確實很方便,但是關鍵業務的數據中心有一系列的場地要求,往往需要花費巨額投資成本才能在多租戶的商業大樓滿足這些要求,而且未來擴建的空間也會受到限制。
05
誤區之五:空間規劃凌駕于設計指標之上
用于安防數據中心基礎設施組件所用的物理空間和場地面積會是很巨大的。在最高可用性的系統中,高架地板面積即 IT 機房面積與支持設備所占的面積之間的比值可以高達 1:1。很多企業和機構只按 IT 設備所占的面積規劃對空間和面積的要求,然而制冷和電氣設備同樣需要占用大量的空間。此外,很多企業沒有注意到辦公空間所要占用的面積。因此在進入規劃面積的步驟之前,確定設計指標是極為重要的。如果沒有設計指標,計算滿足整體需求的總體空間和面積將無從談起。
06
誤區之六:設計缺乏靈活性,鉆入死胡同
數據中心行業在推廣模塊化設計的重要性方面取得了長足的進步。但是使用模塊化的方案并不能保證一定成功。模塊化的方案所基于的理念是只在需要更多容量的時候及時地添加所需的基礎設施設備,以此來保護投資的有效性。仍然有企業因為錯誤地估計未來的需求而導致他們自己鉆入死胡同。任何事情都有可能發生變化。靈活的模塊化審計方案是保證長遠利益的關鍵。因為整合,因并購而導致業務成幾何級數的增長或者未列入規劃的高密度設備的應用,即使是最好的功率密度規劃也會過時。在電氣方面,保證設計方案應該預留在已部署模塊在線添加 UPS 容量的能力。
將配電系統的輸入和輸出設計成能夠滿足未來變化的需要。為了滿足未來容量增長的需要而過度規劃配電系統所帶來的成本并不會帶來顯著的 TCO 增加。機械制冷方面,大多數用戶采用傳統的房間級制冷、適當的高架地板深度以及冷熱通道布局就能滿足其制冷需求。但是一旦引入高密度設備,一切將發生改變。所以應該保證設計核心能夠通過在線實施的方式添加行級或者機柜級制冷解決方案。
07
誤區之七:曲解PUE的概念
電力使用效率(PUE)是一個能有效衡量效率并推動效率提升的工具。但是對能源效率的定義并不嚴謹,這最終導致對 PUE 的曲解。在幾乎所有的新建和擴建數據中心中,獲得較低的 PUE 值會產生額外的投資成本。很多時候企業源于自身良好的愿望設定一個 PUE 目標,卻沒有考慮所有的應該考慮的因素。實際上充分了解為了達到既定目標所要付出的投資成本和投資回報率(ROI)是非常必要的。我們需要弄清楚總擁有成本(TCO)和 PUE 目標之間的連帶依存關系。
展示和了解 PUE,ROI 和 TCO 之間微妙的平衡關系的途徑有很多。在這里列出了三種有代表性的需要引起警示的例子:
PUE 設計指標的設定應該以什么情況為參考?是“最佳日”的測量值,還是基于年平均值計算?
PUE 計算是應該基于數據中心滿負載情況還是部分負載情況?所有設備的效率曲線都會因為負載率的不同而變化。在真實運行狀態下,PUE 值也會因時間和日期不同而變化。
最后,關于水冷冷水機和風冷冷水機的爭論也一直在繼續。每種設計多會衍生出更過的“自然冷卻”或“節能冷卻模式”應用配置來降低 PUE。例如,在權衡決策 TCO 和 ROI的時候,我們應該考慮采用水冷冷機方案對補水和水處理之中運維方面的要求。由此可以認識到一個典型的 2 MW 數據中心如果使用冷卻塔可能需要消耗 190 到 230 噸水。
有效利用PUE可以滿足總體的業務目標。但是要加以小心,不要陷入因為曲解計算公式而錯誤計算投資成本和運營成本預算的困境。
08
誤區之八:曲解 LEED認證
到目前為止,美國綠色建筑協會(USGBC)沒有為數據中心確定專屬的LEED認證指標。而是可以通過商業建筑標準通過認證。三個基本的認知錯誤:
? 對限定條件缺乏基本認知。可以通過閱讀相關參考文獻加以改善。
? 事后產生追加 LEED 認證的想法。獲得 LEED 認證應該是在概念設計階段開始,那么在項目揭示的時候被授予正式的認證。在規劃階段的初期就應該有 LEED 認證的工程師或者能夠提供此項服務的咨詢公司參與進來。
? 獲得認證會產生額外的成本。未將這些成本計入會對總擁有成本(TCO)和 商業決策產生影響。
09
誤區之九:設計方案過度繁復
如前所述,越簡單的設計越好。即使給定可用性要求,仍然有十幾種方法可以設計出有效的系統。常見的情況是,是冗余加劇了復雜性的形成。即使是模塊化的系統,加入不同的方案后,系統很快變得繁復起來。當在內部討論方案,或者從廠商尋求咨詢的時候首要的目標就是如何保持設計方案簡約。這樣做的原因是:
? 繁復就意味著更多的設備和組件,而更多的組件就意味著更多的故障點。
? 人為失誤。數據大小略有不同,但是其趨勢的指向是一致的。大部分數據中心宕機是由人為失誤導致的。復雜系統增加了運營的風險。
? 成本。簡單的系統意味著更少的建設成本。
? 運營和維護成本。繁復就意味著更多的設備和組件,其所需的運營和維護成本將呈幾何級數上升。
? 設計應以實際使用為基準。許多設計方案在圖紙上看很優秀。從圖紙上判斷和選擇配置并評估可用性風險看似容易。但是如果設計方案沒有考慮“可維護性”,在維修時,系統的可用性將承受風險和人員安全也受到威脅。
總結:盡管有很多以往數據中心建設和擴建的失敗案例,但這并不意味著下一個數據中心項目就也會如此。通過避免進入本文列出的九大誤區,你將能夠在一條通往成功的道路上邁步前行。總結來看:
1. 使用基于總擁有成本(TCO)的方案: 整體業務支出分析與風險分析關聯; 將投資成本(CapEx)、運營成本(OpEx)和能源成本納入成本模型。
2. 確定設計指標和性能參數:使設計指標基于風險分析和業務目標;按設計指標確定設計方案,包括關鍵性等級、選址、空間布局規劃。
3. 保持設計方案簡約和靈活性:采用可以滿足可用性要求的設計方案,但也要保證較低的建設和運營成本,簡約的設計是關鍵;通過具有靈活性的設計方案滿足計劃之外的擴建需求。
4. 如果 PUE 和 LEED 認證是指標的一部分,應充分了解常見的誤區和實施的成本。通過基于總擁有成本(TCO)的規劃方法,就可以使新建的數據中心設施滿足企業現在和未來對性能的要求和業務的需求。
轉載:全棧云技術架構