作者:探碼科技, 原文鏈接: http://nbbskj.com/blog/41
? ? ? ?Cloudera首席架構師就內存及云計算相關技術發表討論,Hadoop將如何在大數據方面發揮更大價值。
? ? ? ?在Doug Cutting十年前創建Hadoop架構的時候,他從未想過這會為企業界帶來如此超大規模的計算。“毫無疑問,我當初預想的情況比我們現在所看到的要稍微保守一些。“他在近期倫敦的Strata+Hadoop World大會上說。
? ? ? ?在今天,Hadoop被很多家喻戶曉的名字使用,它幫助Facebook分析其每月超過16億的用戶流量,幫助VISA發現了數十億美元的金融欺詐。
? ? ? ?Hadoop的吸引力在于,它使大數據處理更便宜,從某些方面來說,更加簡單。這個平臺提供了一系列技術,允許大型數據集分布在商業服務器的大型集群中,對數據進行并行處理。
? ? ? ?然而該平臺還有一定的局限性。如今,Hadoop集群能處理大型數據集的速度受到二級存儲(SSD或更慢的旋轉磁盤)與計算機內存及CPU之間的數據傳遞率的限制。這種輸入/輸出(I/O)瓶頸的發生,是因為處理器速度和效率的增長要快于存儲讀寫速度。
? ? ? ?內存中的PB數據
? ? ? ?但是現在的存儲技術將經歷一次重大變革,對此Doug Cutting表示這將有利于釋放大數據處理的潛力。
? ? ? ?今年,Intel計劃發布其3D XPoint存儲芯片,可以比通常用于SSD中的NAND閃存快1000倍的速度來檢索數據,同時也能以超過現今常用的內存類型DRAM 十倍的密度存儲數據。
? ? ? ?Xpoint將在一開始以Optane品牌SSD的形式提供存儲,而Intel也計劃推出XPoint內存模塊以便跟進。由于Xpoint以比傳統DRAM有更高的密度來存儲數據,這些模塊將會使服務器具備遠遠大于現今標準的內存空間。Intel將在明年推出Intel Xeon服務器,含6TB內存,由DDR4 DRAM和Xpoint結合組成。也就是說,Xpoint在性能上并不會與DDR4 DRAM相匹配。預發行的Xpoint SSD有七微秒延遲以及78,000讀/寫IOPS,要慢于DRAM,并且據估計比高性能SSD快不到20倍。
? ? ? ?Doug Cutting預測,盡管如此,Xpoint的使用以及Hadoop集群的其他非揮發性內存將會使Hadoop平臺面向更多新的用例,允許用戶在內存中處理更大的數據集,這樣也可以分流從磁盤獲取數據的過程中的延遲。
? ? ? “如果內存中有1PB的數據,并且可以從循環中的任一節點訪問這些數據,如果是用于各種算法的,這就會是跨越幾個級別的性能提升。”Doug Cutting如此說道,他目前是Cloudera的首席架構師,Cloudera提供自有版本的Hadoop,即非常流行的CDH。
? ? ? “圖像運算等等各種五花八門的迭代機器學習算法、集群等這些在傳統上意義上花費了很長時間、非常昂貴的事物,現在都能基于大量的數據快速實現。
? ? ? “過大的數據集以及太慢的計算依然存在,但我認為現在已經有了很大的改變。“Doug Cutting補充說道,遠程直接管理訪問及千兆以太網交換也能減少與網絡流量有關的延遲。
? ? ? ?2014年,Intel對Cloudera進行了大約7.4億美元的投資。作為雙方合作的一部分,Intel會告知Cloudera其在研發安排中新的特性和硬件,確保Cloudera的Hadoop版本能夠充分利用這些新技術。
? ? ? ?“對于在內存中訪問數據架構方面,我們非常努力的令CPU使用達到最小。”Doug Cutting說道,并指出Cloudera盡量防止不必要的操作,這些操作會引起CPU成為內存數據處理的瓶頸。
? ? ? ?Hadoop和云計算
? ? ? ?Doug Cutting也希望簡化Hadoop集群在云計算中的部署,讓更廣泛的人群能夠使用Hadoop。在各種云平臺上構建Hadoop集群已經成為可能。舉例來說,運行CDH(Cloudera的Hadoop發行版),就可以使用Cloudera Director來部署AWS和Google云平臺上的虛擬服務器集群。
? ? ? ?然而,Doug Cutting也說到,如何使處理進程變的更為簡單,仍然有很多限制需要解決,而Cloudera也在計劃改進從AWS S3及其他云存儲向Hadoop數據處理引擎中輸入數據的支持。
? ? ? “我們需要對Hadoop做一些調整,使其能夠更好地適應云計算。我們需要重視像亞馬遜S3這樣的存儲,配合HDFS(Hadoop分布式文件系統)來進行輸入輸出,這樣人們就可以動態地部署集群。”他說。
? ? ? ?在云計算環境中,集群更有可能被啟動和關閉,Cloudera還要改進縮短啟動時間。
? ? ? ?另一個需要解決的問題,在于簡化Hadoop在不同云平臺之間的遷移,Doug Cutting對現階段的云平臺鎖定表示失望。
? ? ?“我們應該讓人們在云供應商之間能夠實現轉移,這在我們看來是非常有價值的。現在,如果你開始是在某云平臺上開發的應用,那么很快就被鎖定在這個云平臺上了。”
? ? ? ?Doug Cutting表示,在CDH上,Cloudera正在構建“一個軟件層,可以決定工作負載是運行在本地,還是放到亞馬遜、谷歌、微軟或其他云供應商上”。
? ? ? ?今天,這一功能在某種程度上來說可通過Cloudera Director實現,他說,“這正是我們要繼續推進并使其更加無縫”。
? ? ? ?Doug Cutting相信,最終,Hadoop的傳承將會扮演重要角色,讓大數據成為常態、讓開源成為軟件的標準選擇,讓關系型數據庫逐漸成為小眾市場。
?
? ? ? ?“我們將不會再討論大數據,而是探討數據系統。開源架構將不再是新鮮事物,它將成為主流。關系型系統將基本等同于Cobol語言,而成為歷史。我們在十年的時間中向前邁出了一大步。“
?