大數(shù)據(jù)技術發(fā)展到目前已經(jīng)經(jīng)歷了幾個階段,在很多企業(yè)都已經(jīng)形成了相對成熟穩(wěn)定的架構,如何了解其發(fā)展中的概況。以下是小編為你整理的大數(shù)據(jù)是學什么的 ?
大數(shù)據(jù)系統(tǒng)的演化歷程包括:解決數(shù)據(jù)規(guī)模問題,解決使用門檻問題,解決計算延遲問題,解決復雜場景問題。 ?
大數(shù)據(jù)的整體架構可以按以下分層:數(shù)據(jù)源、數(shù)據(jù)采集Agent、數(shù)據(jù)存儲、數(shù)據(jù)計算和數(shù)據(jù)應用。 ?
數(shù)據(jù)源從內(nèi)部來講一般來自于企業(yè)的各個數(shù)據(jù)中心,外部一般從互聯(lián)網(wǎng)獲取,也可能與其他企業(yè)或機構通過交換傳輸。
?
數(shù)據(jù)的采集通常有批處理的傳送,或者基于kafka等組件的實時接口,采集要確保準確高效。 ?
數(shù)據(jù)的存儲方式也包含多種,可以基于hadoop的分布式文件系統(tǒng),或者基于hbase分布式數(shù)據(jù)庫,也可以基于Kafka。 ?
數(shù)據(jù)的計算包括離線分析(Hive、Spark、MR),即席查詢/多維分析(Presto、SparkSQL、Kylin)和實時計算引擎(Flink、Spark Streaming)。 ?
大數(shù)據(jù)運營和傳統(tǒng)運營有什么區(qū)別 ?
大數(shù)據(jù)基于網(wǎng)絡有自己優(yōu)勢,可以短時間收集全世界數(shù)據(jù),作為后盾分析,利用,預測但是確定,過于依賴軟件,有時候不一定精準,比如我有一次到京東商城看一個產(chǎn)品圖片,本來意圖不是為了買 ?
這個這個產(chǎn)品,可是京東后來一直給我發(fā)這個產(chǎn)品廣告?zhèn)鹘y(tǒng)運營基于周圍群體,公司員工個人經(jīng)驗,范圍狹隘但是比較精準, 因為一切運營最終圍繞人來進行,了解人,才算精準,只有人更能實際 ?
觀察對方的內(nèi)在,外在,機器目前無法做到一個做生意的人,可以觀察客戶的一舉一動,任何表情,知道客戶需要什么可是機器目前還無法做到這么細微 ?
如果把大數(shù)據(jù)和個人分析綜合起來,這樣大數(shù)據(jù)運營更加完美,事實上,現(xiàn)在很多大公司,也是這么做的,分析師很重要,依靠大數(shù)據(jù),但是不局限于大數(shù)據(jù),自己觀察和經(jīng)驗也是重要參考之一 ?
大數(shù)據(jù)概念的結構 ?
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或對它保持敬畏之心,在以云計算為代表的技術創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。 ?
其次,想要系統(tǒng)的認知大數(shù)據(jù),必須要全面而細致的分解它,我著手從三個層面來展開: ?
*層面是理論,理論是認知的必經(jīng)途徑,也是被廣泛認同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
?
第二層面是技術,技術是大數(shù)據(jù)價值體現(xiàn)的手段和前進的基石。在這里分別從云計算、分布式處理技術、存儲技術和感知技術的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結果的整個過程。 ?
第三層面是實踐,實踐是大數(shù)據(jù)的最終價值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),*的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實現(xiàn)的藍圖。 ?
數(shù)據(jù)安全以及對于性能的影響 ?
像任何IT系統(tǒng)一樣安全性要求也對大數(shù)據(jù)系統(tǒng)的性能有很大的影響。在本節(jié)中,我們討論一下安全對大數(shù)據(jù)平臺性能的影響。 ?
- 首先確保所有的數(shù)據(jù)源都是經(jīng)過認證的。即使所有的數(shù)據(jù)源都是安全的,并且沒有針對安全方面的需求,那么你可以靈活設計一個安全模塊來配置實現(xiàn)。 ?
- 數(shù)據(jù)進過一次認證,那么就不要進行二次認證。如果實在需要進行二次認證,那么使用一些類似于token的技術保存下來以便后續(xù)繼續(xù)使用。這將節(jié)省數(shù)據(jù)一遍遍認證的開銷。 ?
- 您可能需要支持其他的認證方式,例如基于PKI解決方案或Kerberos。每一個都有不同的性能指標,在最終方案確定前需要將其考慮進去。 ?
- 通常情況下數(shù)據(jù)壓縮后進入大數(shù)據(jù)處理系統(tǒng)。這么做好處非常明顯不細說。 ?
- 針對不同算法的效率、對cpu的使用量你需要進行比較來選出一個傳輸量、cpu使用量等方面均衡的壓縮算法。 ?
- 同樣,評估加密邏輯和算法,然后再選擇。 ?
- 明智的做法是敏感信息始終進行限制。 ?
- 在審計跟蹤表或登錄時您可能需要維護記錄或類似的訪問,更新等不同的活動記錄。這可能需要根據(jù)不同的監(jiān)管策略和用戶需求個性化的進行設計和修改。 ?
- 注意,這種需求不僅增加了數(shù)據(jù)處理的復雜度,但會增加存儲成本。 ?
- 盡量使用下層提供的安全技術,例如操作系統(tǒng)、數(shù)據(jù)庫等。這些安全解決方案會比你自己設計開發(fā)性能要好很多。