堕落不振功业废,勤耕不辍日月新

eBay:將Hadoop架構延伸到在線業務系統

综合 hailen 16℃

文章講的是eBay:將Hadoop架構延伸到在線業務系統,Hadoop in China社區一年一次的技術年度盛會Hadoop中國雲計算大會(Hadoop in China 2011,HiC2011)12.2-12.3日在北京召開,Hadoop in China已經成功舉辦四屆,今年大會的主題是“海量數據掘寶”,HiC2011由中國科學院計算技術研究所主辦,通過技術應用和科學研究雙重視角審視雲計算以及Hadoop開源生態系統的現狀和發展趨勢,發揚開源精神,促進Hadoop以及雲計算開源生態系統在中國的發展壯大。點擊IT168 Hadoop中國2011雲計算大會直播專題。

eBay:将Hadoop架构延伸到在线业务系统

▲點擊查看ebay公司自動化架構總監Juhan Lee現場采訪視頻

  本屆大會上,諸多hadoop領域的知名人士以及權威專家都親臨現場,分享在Hadoop方面的研究成果與嘗試,包括Apache軟件基金會主席 Doug Cutting先生、威斯康星大學教授Miron Livny以及google、Facebook、EMC、eBuy、IBM、淘寶、華為、支付寶、奇虎、新浪、中興、曙光、騰訊、人人網、清華大學、英特爾以及百度等學術機構、國際知名公司的資深工程師。IT168編輯在現場有幸采訪了ebay公司自動化架構總監Juhan Lee,以下是采訪實錄。

  問:參加本次hadoop雲計算大會,您有何感想?

  Juhan Lee:令人印象深刻,在本次大會上有如此多的對hadoop感興趣的技術愛好者,非常令人鼓舞。昨天的日程中也有非常多的有意思的環節。

  問:您如何看待Hadoop技術在中國市場的發展潛力?

  Juhan Lee:我認為是非常令人樂觀的,我知道中國市場上有很多的專業的參與者,像淘寶、百度等,我知道這些公司實際上也在Hadoop方面做了和ebay類似的嘗試,他們也像ebay一樣,從開源的技術起步,並在此基礎上進行開發,使之能為業務系統服務達成業務目標。因此,我非常看好Hadoop在中國市場的前景。

  問:從您上午的演講中我們已經知道,ebay已經部署了一個大規模的Hadoop集群,我想問一下,ebay的hadoop之旅從何開始?為什麽ebay會選擇hadoop技術?

  Juhan Lee:我們的變遷可以說是從一種昂貴的數據管理系統遷移到可擴展、更經濟的存儲系統,並允許更靈活的管理功能的這樣一個過程,在開始的時候,我們也非常謹慎,但漸漸的後來我們開始用Hadoop堆棧支撐業務系統,並取得了良好的效果,這鼓勵我們繼續在Hadoop方面持續我們的嘗試。

  問:能給我們一些數據說明ebay業務系統遇到的挑戰嗎?例如工作負載?數據規模大小?

  Juhan Lee:數據規模非常大,大概有數十PB。出於一些原因,我可能不方便透露太多的業務數據細節,但我們很有可能是全球最大的Hadoop系統之一。

  問:那麽哪些用戶應該選擇Hadoop系統?是否需要用戶規模大到了一定程度才需要Hadoop?

  Juhan Lee:處理數據、並分析其價值在今天已經非常的普遍,我們可以將數據存儲在各種縱向擴展的存儲或者DBMS(數據管理系統)系統中,而如果你知道應該如何處理和分析你的業務數據,你會根據數據分析的需要把數據結構化,問題在於,一旦你根據某種分析的需要轉換數據了之後,當你遇到另一個分析的需求,你需要把所有的工作重新做一遍。用Hadoop這樣的系統,我們就能在分析和轉換前把所有的數據歸檔處理,可以根據分析的需要自由的調用。舉一個例子,當你去一個賣場的時候,你會試一試鞋子,試一試夾克,也許最後你會買一雙鞋子。在傳統的數據管理系統中,你必須明確的知道你進到商店是希望買一雙鞋,但我們希望實現的是,也許你不知道你到底買什麽,你會希望了解更多的信息,試一試夾克或者其他的東西,最後你買了鞋子。內部數據存儲是非常重要的,能在你不知道該如何處理數據的時候盡可能多的保存數據,Hadoop系統則能夠讓你不斷的嘗試。

  問:除了Hadoop,ebay是否有考慮過別的解決方案來解決面臨業務壓力?

  Juhan Lee:是的,我們可以討論一些其他的解決方案,但是我們不能離開我們自己的業務背景,我們更多的考慮的是自身的業務挑戰,對我們的系統來說,應用傳統的會存在一些問題,第一,你需要花費很長的時間來構建你的系統;第二,我們認為是時候搭建一個更為成熟的系統了,應用Hadoop給了我們一個很好的開始,同時能從社區的得到支持,與此同時我們也能給社區帶來利益,並且與社區形成雙贏。

  問:下一步您會考慮如何繼續優化您的系統?

  Juhan Lee:這一點在演講中略有提及,我們計劃延伸我們的Hadoop系統,不僅僅只用於離線的數據系統,還將延伸到在線的業務系統,為此我們需要解決系統延時的問題,使之為實時的在線業務服務。這是我們即將要做的事情。

  問:最後一個問題,Hadoop最早是開源的技術,意味著成本低甚至是免費的,隨著越來越多的廠商加入這個陣營,Hadoop開始變得越來越商業化?您如何看待Hadoop的商業化趨勢?

  Juhan Lee:我認為這並不是一件壞事情,因為將開源的技術產品化並不是一件容易的事情,如果一個供應商能夠以較低的成本提供較為成熟的Hadoop方案,對用戶來說也是值得的,問題在於,這項技術和社區發展很緊密,當廠商介入進來後,也許會監控、引導社區的一些觀點,會影響社區的發展。

转载请注明:我是IT » eBay:將Hadoop架構延伸到在線業務系統

喜欢 (0)or分享 (0)