
第1頁共9頁
大數據處理技術發展現狀及其應用展望
一、定義
著名的管理咨詢公司麥肯錫曾預測到:“數據,已經滲透到
當今每一個行業和業務職能領域,成為重要的生產因素。人們對
于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈
余浪潮的到來?!边@是大數據的最早定義。業界(于2021
年,高德納修改了對大數據的定義)將大數據的特征歸納為4
個“V”(量Volume,多樣Variety,價值Value,速
Velocity),或者說特點有四個層面:第一,海量數據量。大
數據計量單位至少是PB級別;第二,數據類型繁多。比如,
網絡日志、視頻、圖片、地理位置信息等等都是囊括進來。
第三,商業價值高。第四,處理速度快。
在大數據時代,三分技術,七分數據,得數據者得天下。
在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛
在價值。Google利用人們的搜索記錄挖掘數據二次利用價值,
比如預測某地流感爆發的趨勢;Amazon利用用戶的購買和瀏覽
歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;
Farecast利用過去十年所有的航線機票價格打折數據,來預測用
戶購買機票的時機是否合適。
大數據分析相比于傳統的數據倉庫應用,具有數據量大、
查詢分析復雜等特點。對于“大數據”(Bigdata)研究機構
第2頁共9頁
Gartner給出了這樣的定義。“大數據”是需要新處理模式才能
具有更強的決策力、洞察發現力和流程優化能力的海量、高增
長率和多樣化的信息資產。
二、大數據的技術
技術是大數據價值體現的手段和前進的基石。我將分別從云
計算、分布式處理技術、存儲技術和感知技術的發展來說明大
數據從采集、處理、存儲到形成結果的整個過程。
2.1、云技術
大數據常和云計算聯系到一起,因為實時的大型數據集分析
需要分布式處理框架來向數十、數百或甚至數萬的電腦分配工
作??梢哉f,云計算充當了工業革命時期的發動機的角色,而
大數據則是電。
云計算思想的起源是麥卡錫在上世紀60年代提出的:把計
算能力作為一種像水和電一樣的公用事業提供給用戶。如今,
在Google、Amazon、等一批互聯網企業引領下,一種行之有
效的模式出現了:云計算提供基礎架構平臺,大數據應用運行
在這個平臺上。業內是這么形容兩者的關系:沒有大數據的信息
積淀,則云計算的計算能力再強大,也難以找到用武之地;沒
有云計算的處理能力,則大數據的信息積淀再豐富,也終究只
是鏡花水月。那么大數據到底需要哪些云計算技術呢?這里暫且
列舉一些,比如虛擬化技術,分布式處理技術,海量數據的存
第3頁共9頁
儲和管理技術,NoSQL、實時流數據處理、智能分析技術(類
似模式識別以及自然語言理解)等。
2.2、分布式處理技術
分布式處理系統可以將不同地點的或具有不同功能的或擁有
不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一
管理控制下,協調地完成信息處理任務—這就是分布式處理系統
的定義。
以Hadoop(Yahoo)為例進行說明,Hadoop是一個實現了
MapReduce模式的能夠對大量數據進行分布式處理的軟件框架,
是以一種可靠、高效、可伸縮的方式進行處理的。而
MapReduce是Google提出的一種云計算的核心計算模式,是一
種分布式運算技術,也是簡化的分布式編程模式,MapReduce
模式的主要思想是將自動分割要執行的問題(例如程序)拆解成
map(映射)和reduce(化簡)的方式,在數據被分割后通過
Map函數的程序將數據映射成不同的區塊,分配給計算機機群處
理達到分布式運算的效果,在通過Reduce函數的程序將結果匯
整,從而輸出開發者需要的結果。
再來看看Hadoop的特性,第一,它是可靠的,因為它假
設計算元素和存儲會失敗,因此它維護多個工作數據副本,確
保能夠針對失敗的節點重新分布處理。其次,Hadoop是高效
的,因為它以并行的方式工作,通過并行處理加快處理速度。
Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop
第4頁共9頁
依賴于社區服務器,因此它的成本比較低,任何人都可以使
用。你也可以這么理解Hadoop的構成,Hadoop=HDFS(文件系
統,數據存儲技術相關)+HBa(數據庫)+MapReduce(數據
處理)
2.3、存儲技術
大數據可以抽象的分為大數據存儲和大數據分析,這兩者的
關系是:大數據存儲的目的是支撐大數據分析。到目前為止,
還是兩種截然不同的計算機技術領域:大數據存儲致力于研發可
以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關注在
最短時間內處理大量不同類型的數據集。
提到存儲,有一個著名的摩爾定律相信大家都聽過:18個
月集成電路的復雜性就增加一倍。所以,存儲器的成本大約每
18-24個月就下降一半。成本的不斷下降也造就了大數據的可存
儲性。
比如,Google大約管理著超過50萬臺服務器和100萬塊
硬盤,而且Google還在不斷的擴大計算能力和存儲能力,其
中很多的擴展都是基于在廉價服務器和普通存儲硬盤的基礎上進
行的,這大大降低了其服務成本,因此可以將更多的資金投入
到技術的研發當中。以Amazon舉例,AmazonS3是一種面向
Inter的存儲服務。該服務旨在讓開發人員能更輕松的進行網絡
規模計算。AmazonS3提供一個簡明的Web服務界面,用戶可
通過它隨時在Web上的任何位置存儲和檢索的任意大小的數據。
第5頁共9頁
此服務讓所有開發人員都能訪問同一個具備高擴展性、可靠性、
安全性和快速價廉的基礎設施,Amazon用它來運行其全球的網
站網絡。再看看S3的設計指標:在特定年度內為數據元提供
99.999999999%的耐久性和99.99%的可用性,并能夠承受兩
個設施中的數據同時丟失。
S3很成功也確實卓有成效,S3云的存儲對象已達到萬億級
別,而且性能表現相當良好。S3云已經擁萬億跨地域存儲對
象,同時AWS的對象執行請求也達到百萬的峰值數量。目前全
球范圍內已經有數以十萬計的企業在通過AWS運行自己的全部或
者部分日常業務。這些企業用戶遍布190多個國家,幾乎世界
上的每個角落都有Amazon用戶的身影。
2.4、預測技術
大數據的核心在于“預測”,而云計算使數據從“小樣本”
轉變成有機會對所有可能的數據進行分析,預測將基于“數據
之間的關聯性”而非“為什么是這樣的因果性”,我們只需要
按照預測出來的趨勢去響應,使用這些結果。
比如預測機票價格的走勢,并給出可信度,幫助用戶來決
定什么時間購買機票最省錢。它不用關心為什么機票會有差異,
是因為季節性還是因為其他什么原因,它僅僅是預測當前的機票
未來一段時間會上漲還是下降。如果機票價格有上漲的趨勢,
系統就系統用戶立即購買機票。而原始的數據可以從機票預訂數
據庫或者行業網站上扒下來。這項預測技術可以用在類似的相關
第6頁共9頁
領域。比如賓館預訂,商品購買等。比如通過汽車引擎的散熱
和振動來預測引擎是否會出現故障。
亞馬遜的推薦系統是很好的例子:亞馬遜從每一個客戶身上
捕獲了大量的數據,歷史購買了什么,哪些商品只是瀏覽卻沒
有購買,瀏覽停留的時間,哪些商品是合并購買的,它要做的
是找到產品之間的關聯性。
在零售行業,銷售數據的統計分析,可以讓供應商監控銷
售速率、數量、以及存貨情況,可以知道什么貨物和什么貨物
擺在一起,放在什么位置銷量最好,特定的季節,什么產品銷
量最高。
公共設施領域,不再是隨機的巡檢,而是針對設施上報的
數據以及故障發生的歷史數據、環境數據進行分析和預測,集
中人力和物力優先檢查最有可能出現問題的那些設施,減少整體
平均的故障發生率。
最近的”棱鏡計劃“,從音視頻、圖片、郵件、文檔
以及連接信息中分析個人可能對國家安全造成威脅的行動。
三、大數據處理技術的展望
3.1、對于企業
對于企業的大數據,隨著數據逐漸成為企業的一種資產,
數據產業會向傳統企業的供應鏈模式發展,最終形成“數據供應
鏈”。這里尤其有兩個明顯的現象:
第7頁共9頁
1)外部數據的重要性日益超過內部數據。在互聯互通的互
聯網時代,單一企業的內部數據與整個互聯網數據比較起來只是
滄海一粟;
2)能提供包括數據供應、數據整合與加工、數據應用等多
環節服務的公司會有明顯的綜合競爭優勢。
以IBM舉例,上一個十年,他們拋棄了PC,成功轉向了
軟件和服務,而這次將遠離服務與咨詢,更多地專注于因大數
據分析軟件而帶來的全新業務增長點。IBM執行總裁羅睿蘭認
為,“數據將成為一切行業當中決定勝負的根本因素,最終數據
將成為人類至關重要的自然資源?!盜BM積極的提出了“大數據
平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計
算(Streuting)、數據倉庫(DataWarehou)和信息整合與
治理(InformationIntegrationandGovernance)
3.2、對于個人
個人的大數據,與個人相關聯的各種有價值數據信息被有效
采集后,可由本人授權提供第三方進行處理和使用,并獲得第
三方提供的數據服務。
未來,每個用戶可以在互聯網上注冊個人的數據中心,以
存儲個人的大數據信息。用戶可確定哪些個人數據可被采集,
并通過可穿戴設備或植入芯片等感知技術來采集捕獲個人的大數
據,比如,牙齒監控數據,心率數據,體溫數據,視力數
據,記憶能力,地理位置信息,社會關系數據,運動數據,
第8頁共9頁
飲食數據,購物數據等等。用戶可以將其中的牙齒監測數據授
權給XX牙科診所使用,由他們監控和使用這些數據,進而為用
戶制定有效的牙齒防治和維護計劃;也可以將個人的運動數據授
權提供給某運動健身機構,由他們監測自己的身體運動機能,并
有針對的制定和調整個人的運動計劃;還可以將個人的消費數據
授權給金融理財機構,由他們幫你制定合理的理財計劃并對收益
進行預測。當然,其中有一部分個人數據是無需個人授權即可
提供給國家相關部門進行實時監控的,比如罪案預防監控中心可
以實時的監控本地區每個人的情緒和心理狀態,以預防自殺和犯
罪的發生。
3.3、對于政府
近期,奧巴馬政府宣布投資2億美元拉動大數據相關產業
發展,將“大數據戰略”上升為國家意志。奧巴馬政府將數據
定義為“未來的新石油”,并表示一個國家擁有數據的規模、
活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,
對數據的占有和控制甚至將成為陸權、海權、空權之外的另一
種國家核心資產。
在國內,政府各個部門都握有構成社會基礎的原始數據,
比如,氣象數據,金融數據,信用數據,電力數據,煤氣數
據,自來水數據,道路交通數據,客運數據,安全刑事案件
數據,住房數據,海關數據,出入境數據,旅游數據,醫療
數據,教育數據,環保數據等等。這些數據在每個政府部門里
第9頁共9頁
面看起來是單一的,靜態的。但是,如果政府可以將這些數據
關聯起來,并對這些數據進行有效的關聯分析和統一管理,這
些數據必定將獲得新生,其價值是無法估量的。
具體來說,現在城市都在走向智能和智慧,比如,智能電
網、智慧交通、智慧醫療、智慧環保、智慧城市,這些都依
托于大數據,可以說大數據是智慧的核心能源。
從國內整體投資規模來看,到2021年底全國開建智慧城市
的城市數超過180個,通信網絡和數據平臺等基礎設施建設投
資規模接近5000億元?!笆濉逼陂g智慧城市建設拉動的設
備投資規模將達1萬億元人民幣。大數據為智慧城市的各個領
域提供決策支持。在城市規劃方面,通過對城市地理、氣象等
自然信息和經濟、社會、文化、人口等人文社會信息的挖掘,
可以為城市規劃提供決策,強化城市管理服務的科學性和前瞻
性。在交通管理方面,通過對道路交通信息的實時挖掘,能有
效緩解交通擁堵,并快速響應突發狀況,為城市交通的良性運
轉提供科學的決策依據。在輿情監控方面,通過網絡關鍵詞搜
索及語義智能分析,能提高輿情分析的及時性、全面性,全面
掌握社情民意,提高公共服務能力,應對網絡突發的公共事
件,打擊違法犯罪。在安防與防災領域,通過大數據的挖掘,
可以及時發現人為或自然災害、恐怖事件,提高應急處理能力
和安全防范能力。
本文發布于:2023-03-09 22:19:04,感謝您對本站的認可!
本文鏈接:http://m.newhan.cn/zhishi/a/1678371545119498.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:數據處理技術.doc
本文 PDF 下載地址:數據處理技術.pdf
| 留言與評論(共有 0 條評論) |