我覺得Big Data這幾年會變這麼紅,前因是因為Internet公司的巨頭們開始使用,業界一直都關注這些巨頭們,所以Big Data 也就因此而紅了。可以發現這些巨頭們都是可以收集使用者的資料,因此它們使用這些資料來改善產品。簡單說資料對巨頭們來說是非常重要的資產。不過這個Big Data真的要大企業才玩得起,但是我覺得國內應該沒有企業會玩吧!!(外商除外)
Big Data 在中文有許多名稱如海量資料、巨量資料、大數據等等,自從人類生活開始我們就在累積資料,什麼是Data呢? 在做資訊業時,我必須要很清楚了解之間的差異。 存起來,就是storage ;看得到的,是data; 看得懂,叫做information;能使用的出來,才能稱為 intelligence. 而唯一能創造獲利的是intelligence. 而所有關注Big Data的人就是想從Big Data 擷取出intelligence.
現在企業所有收集不只是文字的資料或是問卷調查,還有影像、圖像和網路上每日產生的大量資料,因此海量資料含括三種層面: 巨量、即時性及多樣性。
巨量 – 海量資料的特色就在於:龐大。企業資料包羅萬端,很容易便達到數兆位元組,甚至千兆位元組之譜。
即時性 – 海量資料通常具有時效性,一旦串流至企業便須立即使用,方能發揮其最大價值。
多樣性 – 海量資料的範疇不僅止於結構化資料,還包含各類非結構化的資料:諸如文字、音訊、視訊、點擊串流 (click stream)、日誌檔等等。
其實整個Big Data可以用三個圖表式整個Big Data: IaaS、PaaS,SaaS,但是以目前的商業環境來說大多都是在IaaS 。
IaaS : 基礎建設包含軟體方面有虛擬化技術和雲端技術而硬體方面有機房的管理,硬體設備的安全架構。畢竟有一個入口來收集資料。
PaaS: 分析平台就有Google App Engine 、Heroku、Force.com、Joyent和Windows Azure。在VMware的白皮書有一段是
PaaS in-line with the underlying cloud infrastructure that can support the analytical needs of reporting, analysis, dashboards, extraction, transformation and load (ETL) and predictive analytics。
整句的意思是PaaS在網上以底層的雲端基礎架構來提供需求分析所需要的報表、分析、控制面板、數據提取、轉換資料及加載和預測性分析。 PS : 數據提取、轉換資料及加載 ( extraction, transformation and load) 是ETLETL 代表資料由資料來源端擷取 (Extract) 出來,經過轉換 (Transform),再載入 (Load)到目的端的資料傳輸過程。
SaaS :可以說是展現層,透過PaaS來產生intelligence提供業務的全景的把握和細緻到每個獨立客戶的特殊需求。
例如 : 7-11銷貨系統 : 氣候與商品
Netflix : 60%影片租用來自系統推薦
Wal-Mart : 啤酒與尿布
Target百貨 : 神奇讀心術
Hadoop 介紹
提到Big Data,大多一定會聽到Hadoop,因為他是Internet巨頭—Google 所使用的。Hadoop是什麼呢?
Hadoop並不是什麼資料庫,也不是程式庫,甚至不是一個獨立產品。實際上,Hadoop是一些獨立模組的組合,包括一個分散式檔案系統HDFS、一個分散式資料庫HBase、一個大型分散式資料處理庫MapReduce等等。簡單說Hadoop是運算海量資料的軟體平台。Hadoop 的最常見用法之一是 Web 搜索。雖然它不是惟一的軟體框架應用程式,但作為一個並行資料處理引擎,它的表現非常突出。
名字起源
Hadoop這個名字不是一個縮寫,而是一個虛構的名字。該項目的創建者,Doug Cutting解釋Hadoop的得名:“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標準就是簡短,容易發音和拼寫,沒有太多的意義,並且不會被用於別處。小孩子恰恰是這方面的高手。”
Hadoop有兩大關鍵組成的Scheduler(程序排程)和 File System (檔案系統)。
在學習Hadoop中會學到一些專業術語:
Job –任務
Task–小工作
JobTracker –任務分派者
TaskTracker –小工作的執行者
Client – 發起任務的客戶端
Map – 應對
Reduce – 總和
Namenode – 名稱節點
Datanode –資料節點
Namespace –名稱空間
Replication – 副本
Blocks – 檔案區塊
Metadata –屬性資料
-----------------------------------------------------------------------------------------------------------------------------------------------------------
Hadoop是項目的總稱 。主要是由HDFS和MapReduce組成。
HDFS Hadoop Distribution File System
中文翻譯Hadoop分散式文件系統也就是之前提到的檔案系統(FileSystem),處理分佈於各個伺服器上的檔案系統。
MapReduce
MapReduce(MR)是一個用來編寫處理並行分散式資料程式的框架或庫。同 HDFS 一樣,它的架構也是基於主/從模式。“主機”是一個特殊的節點,負責協調多個工作節點之間的活動。
Hadoop 由許多元素構成。其最底部是 Hadoop Distributed File System,它存儲 Hadoop 集群中所有存儲節點上的檔。HDFS的上一層是MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers 組成。
除了 Hadoop ,還有什麼選擇呢?
Microsoft的Dryad和Dryad
Amonth的S3
Pregel,和MR一樣也是Google發明的
Twitter的Storm
UC Berkeley AMPLab的 Spark
留言列表