更快的數(shù)據(jù)處理速度
由于數(shù)據(jù)量指數(shù)型增長,使得對于數(shù)據(jù)的快速分析的需要已經(jīng)變得比以往任何時候都要迫切。幾乎每家大數(shù)據(jù)廠商,都想要兜售比別家處理速度更快的產(chǎn)品。Hadoop發(fā)布的新品Hadoop 2.0 / YARN,幾乎能實時分析數(shù)據(jù)。而下一代大數(shù)據(jù)的計算牽引框架Apache Spark,它的速度比Hadoop快100倍。硅谷風險投資機構Andreessen Horowitz,已經(jīng)以1400萬美元的價格,領投了一家以Apache Spark為業(yè)務核心的初創(chuàng)企業(yè)Databricks。不久前,亞馬遜也上線了實時流數(shù)據(jù)服務Kinesis,來幫助沒有數(shù)據(jù)處理能力的公司解決這一問題。
許多分析供應商都已經(jīng)認識到了數(shù)據(jù)處理速度的重要性,并建立了能夠每秒處理TB數(shù)據(jù)的產(chǎn)品。傳感器數(shù)據(jù)分析、物聯(lián)網(wǎng)在工業(yè)和消費級市場快速發(fā)展的勢頭,驅動了這次變革。比如一家企業(yè)的傳感器,能夠每秒產(chǎn)生出數(shù)百次的事件,實時處理這些數(shù)據(jù)難度很高。特別是當實時處理的傳感器數(shù)據(jù),激增到一天5TB的時候,速度,就成了尤為關鍵的指標。
同時,盡管數(shù)據(jù)存儲成本已經(jīng)累年下降,但數(shù)據(jù)存儲的費用還是不小的一筆支出。部分商家相比存儲完整數(shù)據(jù)流而言,更傾向于保存過濾掉噪音的數(shù)據(jù)。
智能清洗“垃圾數(shù)據(jù)”
在本就難以計數(shù)的數(shù)據(jù)量繼續(xù)以指數(shù)模型激增時,對于數(shù)據(jù)質量的強化,便擺上了許多數(shù)據(jù)供應商的議程。換句話說,在龐大數(shù)據(jù)面前,即使計算機能夠高效的處理它們,但大量無用的“垃圾”數(shù)據(jù),只會給系統(tǒng)帶來負擔,并增添存儲、主機等設備成本。這就需要數(shù)據(jù)處理過程中,根據(jù)特定的規(guī)則和參數(shù),對涌進數(shù)據(jù)流進行“清洗”和分析,并自動決策該去處理哪些數(shù)據(jù),這一切不再需要人工去干預。
在這樣的環(huán)境下,如果選擇了一個壞的數(shù)據(jù),就會像病毒一樣,可能引發(fā)連續(xù)的錯誤決策,甚至讓企業(yè)蒙受經(jīng)濟損失。一個例子就是利用算法去進行股票交易,以毫秒計數(shù)股票市場中,任何一點小的差錯,都有可能引發(fā)無法巨大的損失。
所以,數(shù)據(jù)質量已成為服務級別協(xié)議(service level agreements)最重要的參數(shù)之一。無法屏蔽劣質的數(shù)據(jù)的供應商,會因此被列入行業(yè)的黑名單,以及面臨嚴重的經(jīng)濟處罰。B2B行業(yè)為早期數(shù)據(jù)質量的入局者,他們非常重視數(shù)據(jù)的質量,來保持商業(yè)運作時的穩(wěn)定性。甚至,許多企業(yè)計劃為數(shù)據(jù)質量部署實時的警告系統(tǒng),這些警告會被發(fā)送于負責相應問題的專員,由他們提供問題的解決方案。
機器學習是另一項需要保證數(shù)據(jù)質量的領域。機器學習系統(tǒng)部署在一個閉環(huán)的生態(tài)中,通過模式分析與其他的數(shù)據(jù)分析技術,細化原來的數(shù)據(jù)質量規(guī)則。而高質量的數(shù)據(jù),能夠保證機器進行正確的行為模式分析。
越來越多的基礎應用
大數(shù)據(jù)帶來的變革,使得每一個人都想要利用它,但技術上門檻又讓許多人不得已只能充當一個看客。而應用將有助于人們?nèi)タ朔@一困難。在接下來的幾年中,我們將會看到成千上萬的解決某一垂直領域的專業(yè)應用,以應對來自各行各業(yè)的大數(shù)據(jù)挑戰(zhàn)。
目前,已經(jīng)小有成就的數(shù)據(jù)分析公司包括eHarmony、 Roambi、 Climate Corporation等等。未來,甚至許多小企業(yè),既不用依賴特定基礎設備,也不要雇傭專業(yè)的數(shù)據(jù)科學家,就能受益于對大數(shù)據(jù)分析利用。
比如,一些應用將從各種渠道,收集關聯(lián)的客戶數(shù)據(jù),以更好地了解客戶的需求。從而企業(yè)能夠為特定的目標客戶,提供特定需求的產(chǎn)品,更有針對性地賺到錢。當這些應用走進人們?nèi)粘5某院韧鏄贰?a href="http://www.hebeifangzhukou.com/yiyao/" target="_blank" class="keylink">醫(yī)療保健等領域,生活也會因此而更美好。