大數據平台
在大數據時代,随着數據的數量、類型和生成速度不斷增長(cháng),以存儲、運算、展現作(zuò)為(wèi)目的和如何充分(fēn)利用(yòng)“活力”數據實現業務(wù)創新(xīn)突破,則是企業搭建大數據平台的根本目的所在。大數據技(jì )術是指從各種各樣類型的數據中(zhōng),快速獲得有(yǒu)價值信息的能(néng)力。适用(yòng)于大數據的技(jì )術,包括大規模并行處理(lǐ)(MPP)數據庫,數據挖掘電(diàn)網,分(fēn)布式文(wén)件系統,分(fēn)布式數據庫,雲計算平台,互聯網,和可(kě)擴展的存儲系統。
慧點與主流的大數據平台廠商(shāng)有(yǒu)着悠久的合作(zuò)曆史,如戴爾易安(ān)信、IBM、SAP、Oracle、微軟、新(xīn)華三、華為(wèi)等;可(kě)幫助用(yòng)戶提供咨詢、規劃、部署和售後支持服務(wù)。
慧點在大數據平台搭建方面有(yǒu)着多(duō)年的實踐經驗,可(kě)在數據同步、數據脫敏、數據歸檔方面進行按需定制開發,同時也對整個數據流過程進行有(yǒu)效的安(ān)全管控;在大數據平台的部署時會兼顧客戶現有(yǒu)數據結構和模型,既能(néng)幫助用(yòng)戶節省大數據平台的搭建成本,同時也能(néng)縮減建設周期。
選擇超融合一體(tǐ)機是搭建大數據平台的趨勢
從2017年開始,業界已經有(yǒu)企業開始推廣人工(gōng)智能(néng)(AI)+大數據+雲計算三種能(néng)力整合的一體(tǐ)機産(chǎn)品,超融合一體(tǐ)機更适合互聯網行業的應用(yòng)屬性,因此在雲、大數據、AI時代,一體(tǐ)機會是一個趨勢,截至到2018年,35%的服務(wù)器都将以集成系統方式交付,這裏的集成系統就包括超融合、軟硬一體(tǐ)機等多(duō)種形态。
所謂一體(tǐ)機,是軟件與硬件相結合的集成系統産(chǎn)品,其一般集數據處理(lǐ)、數據傳輸、數據存儲三方面于一體(tǐ)。一體(tǐ)機通過預先集成、測試、優化,能(néng)夠實現快速部署、簡化IT基礎架構,節省資源,提升系統高可(kě)用(yòng)性和可(kě)擴展性。
為(wèi)什麽要選擇超融合一體(tǐ)機
目前市場上接受度較高的就是數據庫一體(tǐ)機,其主要原因是:
1.數據庫加速,為(wèi)取得更好的數據庫性能(néng),會在硬件層、彈性存儲層做垂直深入的調優,例如采用(yòng)讀寫更快的SSD盤,采用(yòng)面向數據庫獨特的讀寫算法。
2.數據庫加固,為(wèi)保證數據庫數據不丢失、不損壞,會在中(zhōng)間件服務(wù)層增加數據庫的備份/恢複、容災、定期校驗等服務(wù),提高數據的可(kě)用(yòng)性。
超融合一體(tǐ)機的優勢
簡化(預集成)、優化的基礎設施,降低部署管理(lǐ)難度
而從IT基礎設施發展角度看,複雜的計算、網絡、存儲等系統的集成模式已經成為(wèi)業務(wù)創新(xīn)的“絆腳石”。簡化(預集成)、優化的基礎設施才能(néng)為(wèi)數據驅動“智能(néng)化”提供更好的保障,解放IT人員的部署運維工(gōng)作(zuò),真正有(yǒu)精(jīng)力關注業務(wù)創新(xīn)、數據智能(néng)等領域。
大數據處理(lǐ)軟件的設計原則是“本地化計算”,“計算與存儲一體(tǐ)”
以Hadoop、Spark為(wèi)代表的大數據處理(lǐ)框架,架構設計原則之一就是:本地化計算。這摒棄了傳統計算和存儲系統分(fēn)開的架構,而采用(yòng)服務(wù)器的CPU和硬盤作(zuò)為(wèi)計算存儲能(néng)力。本地化計算(計算随數據分(fēn)布)是指并行計算框架智能(néng)地将計算任務(wù)指派到存儲着該任務(wù)所需數據的節點,從而避免傳統分(fēn)布式計算中(zhōng)嚴重的數據傳輸瓶頸。
深度學(xué)習、神經網絡算法需特殊硬件
以卷積神經網絡CNN
為(wèi)例,訓練深度學(xué)習模型所需要的計算力是超大規模的,比如基于ImageNet數據集訓練CNN,數據集一共大約120萬張圖片,訓練算法需要對這個數據集掃描100遍(epoch),這意味着10^18次浮點計算,即1exaFlops。簡單演算一下,基于一個主頻為(wèi)2.0GHz的CPU
core來訓練這樣的模型需要好幾年的時間。而采用(yòng)GPU(NVIDIA Tesla
P40),單塊隻需50小(xiǎo)時。按照一台2U服務(wù)器裝(zhuāng)載4塊GPU計算,隻需要12.5小(xiǎo)時。這也就是GPU比CPU在人工(gōng)智能(néng)上的侵略性優勢、而谷歌的TPU處理(lǐ)性能(néng)号稱比GPU快百倍。
而大數據一體(tǐ)機可(kě)很(hěn)方便的加入GPU、TPU、FPGA
等專有(yǒu)硬件,就形成了特有(yǒu)的競争力。(上訴神經網絡算法隻是這類專有(yǒu)硬件應用(yòng)的冰山(shān)一角,其他(tā)例如:數據庫加速、語言識别、視頻處理(lǐ)等,都需要大量專有(yǒu)硬件)
數據驅動:客戶都需要有(yǒu)一個自己的“大腦”
數據資産(chǎn)正變得越來越重要,因此誰也不希望自己的數據被某幾個雲巨頭存儲和分(fēn)析。因此未來各行各業的客戶勢必需要一個自己的“大腦”,而大數據一體(tǐ)機是很(hěn)好的承載平台。一方面保證數據資産(chǎn)留在自己的IDC機房,另一方面也具(jù)備便捷運維、高效分(fēn)析的能(néng)力。