大數據時(shí)代概述
文章出處:http://psychicreadingswithdeb.com 作者:興邦開(kāi)發(fā)部 人氣: 發(fā)表時(shí)間:2016年04月23日
最早提出“大數據”時(shí)代到來(lái)的是全球知名咨詢(xún)公司麥肯錫,麥肯錫稱(chēng):“數據,已經(jīng)滲透到當今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數據的挖掘和運用,預示著(zhù)新一波生產(chǎn)率增長(cháng)和消費者盈余浪潮的到來(lái)。” “大數據”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時(shí)日,卻因為近年來(lái)互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。
進(jìn)入2012年,大數據(big data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數據,并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng )新。它已經(jīng)上過(guò)《紐約時(shí)報》《華爾街日報》的專(zhuān)欄封面,進(jìn)入美國白宮官網(wǎng)的新聞,現身在國內一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺(jué)靈敏的國金證券、國泰君安、銀河證券等寫(xiě)進(jìn)了投資推薦報告。
數據正在迅速膨脹并變大,它決定著(zhù)企業(yè)的未來(lái)發(fā)展,雖然很多企業(yè)可能并沒(méi)有意識到數據爆炸性增長(cháng)帶來(lái)問(wèn)題的隱患,但是隨著(zhù)時(shí)間的推移,人們將越來(lái)越多的意識到數據對企業(yè)的重要性。
正如《紐約時(shí)報》2012年2月的一篇專(zhuān)欄中所稱(chēng),“大數據”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策將日益基于數據和分析而作出,而并非基于經(jīng)驗和直覺(jué)。
哈佛大學(xué)社會(huì )學(xué)教授加里·金說(shuō):“這是一場(chǎng)革命,龐大的數據資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開(kāi)始這種進(jìn)程。
現在的社會(huì )是一個(gè)高速發(fā)展的社會(huì ),科技發(fā)達,信息流通,人們之間的交流越來(lái)越密切,生活也越來(lái)越方便,大數據就是這個(gè)高科技時(shí)代的產(chǎn)物。
隨著(zhù)云時(shí)代的來(lái)臨,大數據(Big data)也吸引了越來(lái)越多的關(guān)注。著(zhù)云臺的分析師團隊認為,大數據(Big data)通常用來(lái)形容一個(gè)公司創(chuàng )造的大量非結構化和半結構化數據,這些數據在下載到關(guān)系型數據庫用于分析時(shí)會(huì )花費過(guò)多時(shí)間和金錢(qián)。大數據分析常和云計算聯(lián)系到一起,因為實(shí)時(shí)的大型數據集分析需要像MapReduce一樣的框架來(lái)向數十、數百或甚至數千的電腦分配工作。
在現今的社會(huì ),大數據的應用越來(lái)越彰顯他的優(yōu)勢,它占領(lǐng)的領(lǐng)域也越來(lái)越大,電子商務(wù)、O2O、物流配送等,各種利用大數據進(jìn)行發(fā)展的領(lǐng)域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務(wù),創(chuàng )新運營(yíng)模式。有了大數據這個(gè)概念,對于消費者行為的判斷,產(chǎn)品銷(xiāo)售量的預測,精確的營(yíng)銷(xiāo)范圍以及存貨的補給已經(jīng)得到全面的改善與優(yōu)化。
“大數據”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現象:互聯(lián)網(wǎng)公司在日常運營(yíng)中生成、累積的用戶(hù)網(wǎng)絡(luò )行為數據。這些數據的規模是如此龐大,以至于不能用G或T來(lái)衡量。
大數據到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數據告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部?jì)热菘梢钥虧M(mǎn)1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質(zhì)信件數量);發(fā)出的社區帖子達200萬(wàn)個(gè)(相當于《時(shí)代》雜志770年的文字量);賣(mài)出的手機為37.8萬(wàn)臺,高于全球每天出生的嬰兒數量37.1萬(wàn)……
截止到2012年,數據量已經(jīng)從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產(chǎn)生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長(cháng)為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人產(chǎn)生200GB以上的數據。而到2012年為止,人類(lèi)生產(chǎn)的所有印刷材料的數據量是200PB,全人類(lèi)歷史上說(shuō)過(guò)的所有話(huà)的數據量大約是5EB。IBM的研究稱(chēng),整個(gè)人類(lèi)文明所獲得的全部數據中,有90%是過(guò)去兩年內產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數據規模將達到今天的44倍。[5] 每一天,全世界會(huì )上傳超過(guò)5億張圖片,每分鐘就有20小時(shí)時(shí)長(cháng)的視頻被分享。然而,即使是人們每天創(chuàng )造的全部信息——包括語(yǔ)音通話(huà)、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂(lè ),其信息量也無(wú)法匹及每一天所創(chuàng )造出的關(guān)于人們自身的數字信息量。
這樣的趨勢會(huì )持續下去。我們現在還處于所謂“物聯(lián)網(wǎng)”的最初級階段,而隨著(zhù)技術(shù)成熟,我們的設備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通??萍嫉倪M(jìn)步已經(jīng)使創(chuàng )造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務(wù)之上的商業(yè)投資也增長(cháng)了整整50%,達到了4000億美元。[5]
大數據帶給我們的三個(gè)顛覆性觀(guān)念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關(guān)關(guān)系,而不是因果關(guān)系。
A.不是隨機樣本,而是全體數據:在大數據時(shí)代,我們可以分析更多的數據,有時(shí)候甚至可以處理和某個(gè)特別現象相關(guān)的所有數據,而不再依賴(lài)于隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術(shù)讓我們意識到,這其實(shí)是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著(zhù)規模的擴大,對精確度的癡迷將減弱;擁有了大數據,我們不再需要對一個(gè)現象刨根問(wèn)底,只要掌握了大體的發(fā)展方向即可,適當忽略微觀(guān)層面上的精確度,會(huì )讓我們在宏觀(guān)層面擁有更好的洞察力;
C.不是因果關(guān)系,而是相關(guān)關(guān)系:我們不再熱衷于找因果關(guān)系,尋找因果關(guān)系是人類(lèi)長(cháng)久以來(lái)的習慣,在大數據時(shí)代,我們無(wú)須再緊盯事物之間的因果關(guān)系,而應該尋找事物之間的相關(guān)關(guān)系;相關(guān)關(guān)系也許不能準確地告訴我們某件事情為何會(huì )發(fā)生,但是它會(huì )提醒我們這件事情正在發(fā)生。