ontent">簡介:
進(jìn)入2012年,大數(shù)據(jù)(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)大數(shù)據(jù)時代來臨
據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時報》《華爾街日報》的專欄封面,進(jìn)入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進(jìn)了投資推薦報告。
數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然現(xiàn)在企業(yè)可能并沒有意識到數(shù)據(jù)爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到數(shù)據(jù)對企業(yè)的重要性。
正如《紐約時報》2012年2月的一篇專欄中所稱,“大數(shù)據(jù)”時代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗(yàn)和直覺。[1-4]
哈佛大學(xué)社會學(xué)教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程。”[1][5]
編輯本段大數(shù)據(jù)隨著云時代的來臨,大數(shù)據(jù)(Bigdata)也吸引了越來越多的關(guān)注。著云臺的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Bigdata)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費(fèi)過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因?yàn)閷?shí)時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運(yùn)營中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量。
大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部內(nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達(dá)200萬個(相當(dāng)于《時代》雜志770年的文字量);賣出的手機(jī)為37.8萬臺,高于全球每天出生的嬰兒數(shù)量37.1萬……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
數(shù)據(jù)價值
一分鐘內(nèi),微博推特上新發(fā)的數(shù)據(jù)量超過10萬;社交網(wǎng)絡(luò)“臉譜”的瀏覽量超過600萬……
這些龐大數(shù)字,意味著什么?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實(shí)上,當(dāng)你仍然在把微博等社交平臺當(dāng)作抒情或者發(fā)議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯(lián)網(wǎng)的“數(shù)據(jù)財富”,先人一步用其預(yù)判市場走勢,而且取得了不俗的收益。
現(xiàn)在就讓我們一起來看看——他們是怎么做的。
這些數(shù)據(jù)都能干啥
●華爾街根據(jù)民眾情緒拋售股票;
●對沖基金依據(jù)購物網(wǎng)站的顧客評論,分析企業(yè)產(chǎn)品銷售狀況;
●銀行根據(jù)求職網(wǎng)站的崗位數(shù)量,推斷就業(yè)率;
●投資機(jī)構(gòu)搜集并分析上市企業(yè)聲明,從中尋找破產(chǎn)的蛛絲馬跡;
●美國疾病控制和預(yù)防中心依據(jù)網(wǎng)民搜索,分析全球范圍內(nèi)流感等病疫的傳播狀況;
●美國總統(tǒng)奧巴馬的競選團(tuán)隊(duì)依據(jù)選民的微博,實(shí)時分析選民對總統(tǒng)競選人的喜好。
數(shù)據(jù)轉(zhuǎn)化個案一
你開心他就買你焦慮他就拋
華爾街“德溫特資本市場”公司首席執(zhí)行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進(jìn)而判斷民眾情緒,再以“1”到“50”進(jìn)行打分。根據(jù)打分結(jié)果,霍廷再決定如何處理手中數(shù)以百萬美元計的股票。
霍廷的判斷原則很簡單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——今年第一季度,霍廷的公司獲得了7%的收益率。
個案二
國際商用機(jī)器公司(IBM)估測,這些“數(shù)據(jù)”值錢的地方主要在于時效。對于片刻便能定輸贏的華爾街,這一時效至關(guān)重要。5年前,華爾街2%的企業(yè)搜集微博等平臺的“非正式”數(shù)據(jù);如今,接近半數(shù)企業(yè)采用了這種手段。
●“社會流動”創(chuàng)業(yè)公司在“大數(shù)據(jù)”行業(yè)生機(jī)勃勃,和微博推特是合作伙伴。它分析數(shù)據(jù),告訴廣告商什么是正確的時間,誰是正確的用戶,什么是應(yīng)該發(fā)表的正確內(nèi)容,備受廣告商熱愛。
●通過喬希·詹姆斯的Omniture(著名的網(wǎng)頁流量分析工具)公司,你可以知道有多少人訪問你的網(wǎng)站,以及他們呆了多長時間——這些數(shù)據(jù)對于任何企業(yè)來說都至關(guān)重要。詹姆斯去年把公司賣掉,進(jìn)賬18億美元。
●微軟專家吉拉德喜歡把這些“大數(shù)據(jù)”結(jié)果可視化:他把客戶請到辦公室,將包含這些公司的數(shù)據(jù)圖譜展現(xiàn)出來——有些是普通的時間軸,有些像蒲公英,有些則是鋪滿整個畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談?wù)撌裁丛掝}。
●“臉譜”數(shù)據(jù)分析師杰弗遜的工作就是搭建數(shù)據(jù)分析模型,弄清楚用戶點(diǎn)擊廣告的動機(jī)和方式。
編輯本段可視化“數(shù)據(jù)是新的石油。”亞馬遜前任首席科學(xué)家AndreasWeigend說。Instagram以10億美元出售之時,成立于1881年的世界最大影像產(chǎn)品及服務(wù)商柯達(dá)正申請破產(chǎn)。
大數(shù)據(jù)是如此重要,以至于其獲取、儲存、搜索、共享、分析,乃至可視化地呈現(xiàn),都成為了當(dāng)前重要的研究課題。
“當(dāng)時時變幻的、海量的數(shù)據(jù)出現(xiàn)在眼前,是怎樣一幅壯觀的景象?在后臺注視著這一切,會不會接近上帝俯視人間星火的感覺?”
這個問題我曾請教過劉建國,中國著名的搜索引擎專家。劉曾主持開發(fā)過國內(nèi)第一個大規(guī)模中英文搜索引擎系統(tǒng)“天網(wǎng)”。
要知道,劉建國曾任至百度的首席技術(shù)官,在這樣一家每天需應(yīng)對網(wǎng)民各種搜索請求1.7億次(現(xiàn)在約為8.77億次)的網(wǎng)站中,如果只是在后臺靜靜端坐,可能片刻都不能安心吧。百度果然在提供搜索服務(wù)之外,逐漸增添了百度指數(shù),后又建立了基于網(wǎng)民搜索數(shù)據(jù)的重要產(chǎn)品“貼吧”及百度統(tǒng)計產(chǎn)品等。
劉建國沒有直接回答這個問題,他想了很久,似乎陷入了回憶,嘴角的笑容含著詭秘。
倒是有公司已經(jīng)在大數(shù)據(jù)中有接近上帝俯視的感覺,美國洛杉磯就有企業(yè)宣稱,他們將全球夜景的歷史數(shù)據(jù)建立模型,在過濾掉波動之后,做出了投資房地產(chǎn)和消費(fèi)的研究報告。
在數(shù)據(jù)可視化呈現(xiàn)方面,我最新接收到的故事是,一位在美國思科物流部門工作的朋友,很聰明的印度裔小伙子,近期被Facebook高價挖角,進(jìn)入其數(shù)據(jù)研究小組。他后來驚訝地發(fā)現(xiàn),里面全是來自物流企業(yè)、供應(yīng)鏈方面的技術(shù)人員和專家,“Facebook想知道,能不能用物流的角度和流程的方式,分析用戶的路徑和行為。”
四個特征數(shù)據(jù)量大(Volume)
第一個特征是數(shù)據(jù)量大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
類型繁多(Variety)
第二個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。
價值密度低(Value)
第三個特征是數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價值密度較低,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。
速度快時效高(Velocity)
第四個特征是處理速度快,時效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
既有的技術(shù)架構(gòu)和路線,已經(jīng)無法高效處理如此海量的數(shù)據(jù),而對于相關(guān)組織來說,如果投入巨大采集的信息無法通過及時處理反饋有效信息,那將是得不償失的。可以說,大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
編輯本段產(chǎn)業(yè)崛起越來越多的政府、企業(yè)等機(jī)構(gòu)開始意識到數(shù)據(jù)正在成為組織最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為組織的核心競爭力。
今年3月22日,奧巴馬政府宣布投資2億美元拉動大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家意志。奧巴馬政府將數(shù)據(jù)定義為“未來的新石油”,并表示一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國力的重要組成部分,未來,對數(shù)據(jù)的占有和控制甚至將成為陸權(quán)、海權(quán)、空權(quán)之外的另一種國家核心資產(chǎn)。
聯(lián)合國也在2012年發(fā)布了大數(shù)據(jù)政務(wù)白皮書,指出大數(shù)據(jù)對于聯(lián)合國和各國政府來說是一個歷史性的機(jī)遇,人們?nèi)缃窨梢允褂脴O為豐富的數(shù)據(jù)資源,來對社會經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時分析,幫助政府更好地響應(yīng)社會和經(jīng)濟(jì)運(yùn)行。
而最為積極的還是眾多的IT企業(yè)。麥肯錫在一份名為《大數(shù)據(jù),是下一輪創(chuàng)新、競爭和生產(chǎn)力的前沿》的專題研究報告中提出,“對于企業(yè)來說,海量數(shù)據(jù)的運(yùn)用將成為未來競爭和增長的基礎(chǔ)”,該報告在業(yè)界引起廣泛反響。
IBM則提出,上一個十年,他們拋棄了PC,成功轉(zhuǎn)向了軟件和服務(wù),而這次將遠(yuǎn)離服務(wù)與咨詢,更多地專注于因大數(shù)據(jù)分析軟件而帶來的全新業(yè)務(wù)增長點(diǎn)。IBM執(zhí)行總裁羅睿蘭認(rèn)為,“數(shù)據(jù)將成為一切行業(yè)當(dāng)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源。”
在國內(nèi),百度已經(jīng)致力于開發(fā)自己的大數(shù)據(jù)處理和存儲系統(tǒng);騰訊也提出目前已經(jīng)到了數(shù)據(jù)化運(yùn)營的黃金時期,如何整合這些數(shù)據(jù)成為未來的關(guān)鍵任務(wù)。
事實(shí)上,自2009年以來,有關(guān)“大數(shù)據(jù)”主題的并購案層出不窮,且并購數(shù)量和規(guī)模呈逐步上升的態(tài)勢。其中,Oracle對Sun、惠普對Autonomy兩大并購案總金額高達(dá)176億美元,大數(shù)據(jù)的產(chǎn)業(yè)價值由此可見一斑。
提供依據(jù)大數(shù)據(jù)是信息通信技術(shù)發(fā)展積累至今,按照自身技術(shù)發(fā)展邏輯,從提高生產(chǎn)效率向更高級智能階段的自然生長。無處不在的信息感知和采集終端為我們采集了海量的數(shù)據(jù),而以云計算為代表的計算技術(shù)的不斷進(jìn)步,為我們提供了強(qiáng)大的計算能力,這就圍繞個人以及組織的行為構(gòu)建起了一個與物質(zhì)世界相平行的數(shù)字世界。
大數(shù)據(jù)雖然孕育于信息通信技術(shù)的日漸普遍和成熟,但它對社會經(jīng)濟(jì)生活產(chǎn)生的影響絕不限于技術(shù)層面,更本質(zhì)上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基于數(shù)據(jù)分析做出,而不是像過去更多憑借經(jīng)驗(yàn)和直覺做出。
事實(shí)上,大數(shù)據(jù)的影響并不僅僅限于信息通信產(chǎn)業(yè),而是正在“吞噬”和重構(gòu)很多傳統(tǒng)行業(yè),廣泛運(yùn)用數(shù)據(jù)分析手段管理和優(yōu)化運(yùn)營的公司其實(shí)質(zhì)都是一個數(shù)據(jù)公司。麥當(dāng)勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數(shù)據(jù)分析基礎(chǔ)之上的精準(zhǔn)選址。而在零售業(yè)中,數(shù)據(jù)分析的技術(shù)與手段更是得到廣泛的應(yīng)用,傳統(tǒng)企業(yè)如沃爾瑪通過數(shù)據(jù)挖掘重塑并優(yōu)化供應(yīng)鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數(shù)據(jù)的掌握和分析,為用戶提供更加專業(yè)化和個性化的服務(wù)。
最讓人吃驚的例子是,社交媒體監(jiān)測平臺DataSift監(jiān)測了Facebook(臉譜)IPO當(dāng)天Twitter上的情感傾向與Facebook股價波動的關(guān)聯(lián)。在Facebook開盤前Twitter上的情感逐漸轉(zhuǎn)向負(fù)面,25分鐘之后Facebook的股價便開始下跌。而當(dāng)Twitter上的情感轉(zhuǎn)向正面時,F(xiàn)acebook股價在8分鐘之后也開始了回彈。最終當(dāng)股市接近收盤、Twitter上的情感轉(zhuǎn)向負(fù)面時,10分鐘后Facebook的股價又開始下跌。最終的結(jié)論是:Twitter上每一次情感傾向的轉(zhuǎn)向都會影響Facebook股價的波動。
這僅僅只是基于社交網(wǎng)絡(luò)產(chǎn)生的大數(shù)據(jù)“預(yù)見未來”的眾多案例之一,此外還有谷歌通過網(wǎng)民搜索行為預(yù)測流感爆發(fā)等例子。不僅在商業(yè)方面,大數(shù)據(jù)在社會建設(shè)方面的作為同樣令人驚嘆,智能電網(wǎng)、智慧交通、智慧醫(yī)療、智慧城市等的蓬勃興起,都與大數(shù)據(jù)技術(shù)與應(yīng)用的發(fā)展息息相關(guān)。
“大數(shù)據(jù)”可能帶來的巨大價值正漸漸被人們認(rèn)可,它通過技術(shù)的創(chuàng)新與發(fā)展,以及數(shù)據(jù)的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基于事實(shí)與數(shù)據(jù)做出決策,這樣的思維方式,可以預(yù)見,將推動一些習(xí)慣于靠“差不多”運(yùn)行的社會發(fā)生巨大變革。[4]
編輯本段應(yīng)對一個好的企業(yè)應(yīng)該未雨綢繆,從現(xiàn)在開始就應(yīng)該著手準(zhǔn)備,為企業(yè)的后期的數(shù)據(jù)收集和分析做好準(zhǔn)備,企業(yè)可以從下面五個方面著手,這樣當(dāng)面臨鋪天蓋地的大數(shù)據(jù)的時候,以確保企業(yè)能夠快速發(fā)展,具體為下面五點(diǎn)。
目標(biāo)
幾乎每個組織都可能有源源不斷的數(shù)據(jù)需要收集,無論是社交網(wǎng)絡(luò)還是車間傳感器設(shè)備,而且每個組織都有大量的數(shù)據(jù)需要處理,IT人員需要了解自己企業(yè)運(yùn)營過程中都產(chǎn)生了什么數(shù)據(jù),以自己的數(shù)據(jù)為基準(zhǔn),確定數(shù)據(jù)的范圍。
準(zhǔn)則
雖然每個企業(yè)都會產(chǎn)生大量數(shù)據(jù),而且互不相同、多種多樣的,這就需要企業(yè)IT人員在現(xiàn)在開始收集確認(rèn)什么數(shù)據(jù)是企業(yè)業(yè)務(wù)需要的,找到最能反映企業(yè)業(yè)務(wù)情況的數(shù)據(jù)。
重新評估
大數(shù)據(jù)需要在服務(wù)器和存儲設(shè)施中進(jìn)行收集,并且大多數(shù)的企業(yè)信息管理體系結(jié)構(gòu)將會發(fā)生重要大變化,IT經(jīng)理則需要準(zhǔn)備擴(kuò)大他們的系統(tǒng),以解決數(shù)據(jù)的不斷擴(kuò)大,IT經(jīng)理要了解公司現(xiàn)有IT設(shè)施的情況,以組建處理大數(shù)據(jù)的設(shè)施為導(dǎo)向,避免一些不必要的設(shè)備的購買。
重視大數(shù)據(jù)技術(shù)
大數(shù)據(jù)是最近幾年才興起的詞語,而并不是所有的IT人員對大數(shù)據(jù)都非常了解,例如如今的Hadoop,MapReduce,NoSQL等技術(shù)都是近年剛興起的技術(shù),企業(yè)IT人員要多關(guān)注這方面的技術(shù)和工具,以確保將來能夠面對大數(shù)據(jù)的時候做出正確的決定。
培訓(xùn)企業(yè)的員工
大多數(shù)企業(yè)最缺乏的是人才,而當(dāng)大數(shù)據(jù)到臨的時候,企業(yè)將會缺少這方面的采集收集分析方面的人才,對于一些公司,特別是那種人比較少的公司,工作人員面臨大數(shù)據(jù)將是一種挑戰(zhàn),企業(yè)要在平時的時候多對員工進(jìn)行這方面的培訓(xùn),以確保在大數(shù)據(jù)到來時,員工也能適應(yīng)相關(guān)的工作。[9]
培養(yǎng)三種能力
Teradata大中華區(qū)首席執(zhí)行官辛兒倫對新浪科技表示,隨著大數(shù)據(jù)時代的到來,企業(yè)應(yīng)該在內(nèi)部培養(yǎng)三種能力。第一,整合企業(yè)數(shù)據(jù)的能力;第二,探索數(shù)據(jù)背后價值和制定精確行動綱領(lǐng)的能力;第三,進(jìn)行精確快速實(shí)時行動的能力。
做到上面的幾點(diǎn),當(dāng)大數(shù)據(jù)時代來臨的時候,面臨大量數(shù)據(jù)將不是束手無策,而是成竹在胸,而從數(shù)據(jù)中得到的好處也將促進(jìn)企業(yè)快速發(fā)展。
內(nèi)容來自百科網(wǎng)