一.大數(shù)據(jù)采集 即對于結構化和非結構化海量的各種來源的數(shù)據(jù),所進行的收集活動。
1. 數(shù)據(jù)庫獲取:目前比較流行的是Sqoop和ETL,很多企業(yè)仍然使用MySQL、Oracle等傳統(tǒng)關系數(shù)據(jù)庫進行數(shù)據(jù)存儲。當然,對于開源Kettle和Talend本身,也集成了大數(shù)據(jù)集成內容,可以實現(xiàn)HDFS、hbase和主流Nosq數(shù)據(jù)庫之間的數(shù)據(jù)同步和集成。
2. 網(wǎng)絡數(shù)據(jù)收集:通過web爬蟲或網(wǎng)站公共API從網(wǎng)頁中獲取非結構化或半結構化數(shù)據(jù),并將其結構統(tǒng)一為本地數(shù)據(jù)的數(shù)據(jù)收集方法。
3.文件采集:包括實時文件采集與處理技術flume、基于ELK的日志采集、增量采集等。
二.大數(shù)據(jù)預處理 大數(shù)據(jù)預處理,指的是在數(shù)據(jù)分析之前,對*個收集的原始數(shù)據(jù)進行如"沖洗、灌裝、光滑、合并、標準化和一致性檢查"等一系列的行動,旨在提高數(shù)據(jù)的質量和為以后的分析打好基礎。
三. 大數(shù)據(jù)存儲 大數(shù)據(jù)存儲是指存儲器以數(shù)據(jù)庫的形式存儲采集到的數(shù)據(jù)的過程。 四. 大數(shù)據(jù)分析與挖掘 大數(shù)據(jù)分析與挖掘是從可視化分析、數(shù)據(jù)挖掘算法、預測分析、語義引擎和數(shù)據(jù)質量管理等方面對無序數(shù)據(jù)進行提取、提煉和分析的過程。