智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

【深度剖析】什么是大數(shù)據(jù)?

來源:網(wǎng)絡(luò)

點擊:854

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 大數(shù)據(jù)

      大數(shù)據(jù)(Big Data)

      大數(shù)據(jù),官方定義是指那些數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復(fù)雜的數(shù)據(jù)集,這種數(shù)據(jù)集無法用傳統(tǒng)的數(shù)據(jù)庫進(jìn)行存儲,管理和處理。大數(shù)據(jù)的主要特點為數(shù)據(jù)量大(Volume),數(shù)據(jù)類別復(fù)雜(Variety),數(shù)據(jù)處理速度快(Velocity)和數(shù)據(jù)真實性高(Veracity),合起來被稱為4V。

      大數(shù)據(jù)中的數(shù)據(jù)量非常巨大,達(dá)到了PB級別。而且這龐大的數(shù)據(jù)之中,不僅僅包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號等數(shù)據(jù)),還包括非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、聲音、視頻等數(shù)據(jù))。這使得大數(shù)據(jù)的存儲,管理和處理很難利用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫去完成。在大數(shù)據(jù)之中,有價值的信息往往深藏其中。這就需要對大數(shù)據(jù)的處理速度要非常快,才能短時間之內(nèi)就能從大量的復(fù)雜數(shù)據(jù)之中獲取到有價值的信息。在大數(shù)據(jù)的大量復(fù)雜的數(shù)據(jù)之中,通常不僅僅包含真實的數(shù)據(jù),一些虛假的數(shù)據(jù)也混雜其中。這就需要在大數(shù)據(jù)的處理中將虛假的數(shù)據(jù)剔除,利用真實的數(shù)據(jù)來分析得出真實的結(jié)果。

      大數(shù)據(jù)分析(Big Data Analysis)

      大數(shù)據(jù),表面上看就是大量復(fù)雜的數(shù)據(jù),這些數(shù)據(jù)本身的價值并不高,但是對這些大量復(fù)雜的數(shù)據(jù)進(jìn)行分析處理后,卻能從中提煉出很有價值的信息。對大數(shù)據(jù)的分析,主要分為五個方面:可視化分析(Analytic Visualization)、數(shù)據(jù)挖掘算法(Date Mining Algorithms)、預(yù)測性分析能力(Predictive Analytic Capabilities)、語義引擎(Semantic Engines)和數(shù)據(jù)質(zhì)量管理(Data Quality Management)。

      可視化分析是普通消費者常常可以見到的一種大數(shù)據(jù)分析結(jié)果的表現(xiàn)形式,比如說百度制作的“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”就是典型的案例之一。可視化分析將大量復(fù)雜的數(shù)據(jù)自動轉(zhuǎn)化成直觀形象的圖表,使其能夠更加容易的被普通消費者所接受和理解。

      數(shù)據(jù)挖掘算法是大數(shù)據(jù)分析的理論核心,其本質(zhì)是一組根據(jù)算法事先定義好的數(shù)學(xué)公式,將收集到的數(shù)據(jù)作為參數(shù)變量帶入其中,從而能夠從大量復(fù)雜的數(shù)據(jù)中提取到有價值的信息。著名的“啤酒和尿布”的故事就是數(shù)據(jù)挖掘算法的經(jīng)典案例。沃爾瑪通過對啤酒和尿布購買數(shù)據(jù)的分析,挖掘出以前未知的兩者間的聯(lián)系,并利用這種聯(lián)系,提升了商品的銷量。亞馬遜的推薦引擎和谷歌的廣告系統(tǒng)都大量使用了數(shù)據(jù)挖掘算法。

      預(yù)測性分析能力是大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域。從大量復(fù)雜的數(shù)據(jù)中挖掘出規(guī)律,建立起科學(xué)的事件模型,通過將新的數(shù)據(jù)帶入模型,就可以預(yù)測未來的事件走向。預(yù)測性分析能力常常被應(yīng)用在金融分析和科學(xué)研究領(lǐng)域,用于股票預(yù)測或氣象預(yù)測等。

      語義引擎是機器學(xué)習(xí)的成果之一。過去,計算機對用戶輸入內(nèi)容的理解僅僅停留在字符階段,不能很好的理解輸入內(nèi)容的意思,因此常常不能準(zhǔn)確的了解用戶的需求。通過對大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,讓計算機從中自我學(xué)習(xí),可以使計算機能夠盡量精確的了解用戶輸入內(nèi)容的意思,從而把握住用戶的需求,提供更好的用戶體驗。蘋果的Siri和谷歌的Google Now都采用了語義引擎。

      數(shù)據(jù)質(zhì)量管理是大數(shù)據(jù)在企業(yè)領(lǐng)域的重要應(yīng)用。為了保證大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,需要將大數(shù)據(jù)中不真實的數(shù)據(jù)剔除掉,保留最準(zhǔn)確的數(shù)據(jù)。這就需要建立有效的數(shù)據(jù)質(zhì)量管理系統(tǒng),分析收集到的大量復(fù)雜的數(shù)據(jù),挑選出真實有效的數(shù)據(jù)。

      分布式計算(Distributed Computing)

      對于如何處理大數(shù)據(jù),計算機科學(xué)界有兩大方向:第一個方向是集中式計算,就是通過不斷增加處理器的數(shù)量來增強單個計算機的計算能力,從而提高處理數(shù)據(jù)的速度。第二個方向是分布式計算,就是把一組計算機通過網(wǎng)絡(luò)相互連接組成分散系統(tǒng),然后將需要處理的大量數(shù)據(jù)分散成多個部分,交由分散系統(tǒng)內(nèi)的計算機組同時計算,最后將這些計算結(jié)果合并得到最終的結(jié)果。盡管分散系統(tǒng)內(nèi)的單個計算機的計算能力不強,但是由于每個計算機只計算一部分?jǐn)?shù)據(jù),而且是多臺計算機同時計算,所以就分散系統(tǒng)而言,處理數(shù)據(jù)的速度會遠(yuǎn)高于單個計算機。

      過去,分布式計算理論比較復(fù)雜,技術(shù)實現(xiàn)比較困難,因此在處理大數(shù)據(jù)方面,集中式計算一直是主流解決方案。IBM的大型機就是集中式計算的典型硬件,很多銀行和政府機構(gòu)都用它處理大數(shù)據(jù)。不過,對于當(dāng)時的互聯(lián)網(wǎng)公司來說,IBM的大型機的價格過于昂貴。因此,互聯(lián)網(wǎng)公司的把研究方向放在了可以使用在廉價計算機上的分布式計算上。

      服務(wù)器集群(Server Cluster)

      服務(wù)器集群是一種提升服務(wù)器整體計算能力的解決方案。它是由互相連接在一起的服務(wù)器群所組成的一個并行式或分布式系統(tǒng)。服務(wù)器集群中的服務(wù)器運行同一個計算任務(wù)。因此,從外部看,這群服務(wù)器表現(xiàn)為一臺虛擬的服務(wù)器,對外提供統(tǒng)一的服務(wù)。

      盡管單臺服務(wù)器的運算能力有限,但是將成百上千的服務(wù)器組成服務(wù)器集群后,整個系統(tǒng)就具備了強大的運算能力,可以支持大數(shù)據(jù)分析的運算負(fù)荷。Google,Amazon,阿里巴巴的計算中心里的服務(wù)器集群都達(dá)到了5000臺服務(wù)器的規(guī)模。

      大數(shù)據(jù)的技術(shù)基礎(chǔ):MapReduce、Google File System和BigTable

      2003年到2004年間,Google發(fā)表了MapReduce、GFS(Google File System)和BigTable三篇技術(shù)論文,提出了一套全新的分布式計算理論。

      MapReduce是分布式計算框架,GFS(Google File System)是分布式文件系統(tǒng),BigTable是基于Google File System的數(shù)據(jù)存儲系統(tǒng),這三大組件組成了Google的分布式計算模型。

      Google的分布式計算模型相比于傳統(tǒng)的分布式計算模型有三大優(yōu)勢:首先,它簡化了傳統(tǒng)的分布式計算理論,降低了技術(shù)實現(xiàn)的難度,可以進(jìn)行實際的應(yīng)用。其次,它可以應(yīng)用在廉價的計算設(shè)備上,只需增加計算設(shè)備的數(shù)量就可以提升整體的計算能力,應(yīng)用成本十分低廉。最后,它被Google應(yīng)用在Google的計算中心,取得了很好的效果,有了實際應(yīng)用的證明。

      后來,各家互聯(lián)網(wǎng)公司開始利用Google的分布式計算模型搭建自己的分布式計算系統(tǒng),Google的這三篇論文也就成為了大數(shù)據(jù)時代的技術(shù)核心。

      主流的三大分布式計算系統(tǒng):Hadoop,Spark和Storm

      由于Google沒有開源Google分布式計算模型的技術(shù)實現(xiàn),所以其他互聯(lián)網(wǎng)公司只能根據(jù)Google三篇技術(shù)論文中的相關(guān)原理,搭建自己的分布式計算系統(tǒng)。

      Yahoo的工程師Doug Cutting和Mike Cafarella在2005年合作開發(fā)了分布式計算系統(tǒng)Hadoop。后來,Hadoop被貢獻(xiàn)給了Apache基金會,成為了Apache基金會的開源項目。Doug Cutting也成為Apache基金會的主席,主持Hadoop的開發(fā)工作。

      Hadoop采用MapReduce分布式計算框架,并根據(jù)GFS開發(fā)了HDFS分布式文件系統(tǒng),根據(jù)BigTable開發(fā)了HBase數(shù)據(jù)存儲系統(tǒng)。盡管和Google內(nèi)部使用的分布式計算系統(tǒng)原理相同,但是Hadoop在運算速度上依然達(dá)不到Google論文中的標(biāo)準(zhǔn)。

      不過,Hadoop的開源特性使其成為分布式計算系統(tǒng)的事實上的國際標(biāo)準(zhǔn)。Yahoo,F(xiàn)acebook,Amazon以及國內(nèi)的百度,阿里巴巴等眾多互聯(lián)網(wǎng)公司都以Hadoop為基礎(chǔ)搭建自己的分布式計算系統(tǒng)。

      Spark也是Apache基金會的開源項目,它由加州大學(xué)伯克利分校的實驗室開發(fā),是另外一種重要的分布式計算系統(tǒng)。它在Hadoop的基礎(chǔ)上進(jìn)行了一些架構(gòu)上的改良。Spark與Hadoop最大的不同點在于,Hadoop使用硬盤來存儲數(shù)據(jù),而Spark使用內(nèi)存來存儲數(shù)據(jù),因此Spark可以提供超過Hadoop100倍的運算速度。但是,由于內(nèi)存斷電后會丟失數(shù)據(jù),Spark不能用于處理需要長期保存的數(shù)據(jù)。

      Storm是Twitter主推的分布式計算系統(tǒng),它由BackType團(tuán)隊開發(fā),是Apache基金會的孵化項目。它在Hadoop的基礎(chǔ)上提供了實時運算的特性,可以實時的處理大數(shù)據(jù)流。不同于Hadoop和Spark,Storm不進(jìn)行數(shù)據(jù)的收集和存儲工作,它直接通過網(wǎng)絡(luò)實時的接受數(shù)據(jù)并且實時的處理數(shù)據(jù),然后直接通過網(wǎng)絡(luò)實時的傳回結(jié)果。

      Hadoop,Spark和Storm是目前最重要的三大分布式計算系統(tǒng),Hadoop常用于離線的復(fù)雜的大數(shù)據(jù)處理,Spark常用于離線的快速的大數(shù)據(jù)處理,而Storm常用于在線的實時的大數(shù)據(jù)處理。

    (審核編輯: Doris)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。

    主站蜘蛛池模板: 郑州试驾场地_双超专业汽车试驾场地_郑州双超文化传播有限公司官方网站 | 上海便携式液体_日本理音液体_HACH液体颗粒计数器,metone尘埃粒子计数器-上海翰森科学仪器有限公司 | 石英砂|无烟煤滤料|火山岩|聚合硫酸铁|活性炭-河南碧水清源水处理材料有限公司 | 九江江菱电梯有限公司 | 童程童美少儿编程培训课程 - 上市公司缔造少儿编程专业化品牌20年 | 水处理设备厂家_纯净水设备_超纯水设备价格找西安瑞泉水处理 | 冷却特性测试仪_ 刀柄热胀仪_加油小车价格_皮带张力仪_上海川奇机电设备有限公司 | 天津翻译公司盖章|022-58385822| 翰文博译(天津)商务咨询有限公司 | 太原万通汽车学校[官网]-太原好的汽修培训学校,学新能源汽车技术,学汽修,学汽车检测与维修技术 | 无锡纯铁-中纯特钢纯铁公司 | 潍坊网络推广,临沂360推广,东营360推广,枣庄360推广,潍坊网站建设,潍坊网络公司,潍坊360搜索,潍坊APP开发,潍坊360推广,潍坊360代理,潍坊点睛网络科技有限公司 | 消防安装_消防安装施工_消防施工_北京消防安装公司-亿杰(北京)消防工程有限公司 | 弯箍机_钢筋弯箍机_全自动钢筋弯箍机_数控弯箍机-建科智能装备制造(天津)股份有限公司 | 郑州腾飞建设工程集团有限公司 | 腻子粉厂家_耐水腻子粉_内墙腻子粉批发_生态腻子粉_长沙美恩生态腻子粉厂家 | 全自动拆包机,自动拆包机,全自动逐层拆包机,全自动吨袋拆包机,吨袋拆包机,管链输送机,气流分级机 | 郑州环球重工机械有限公司建筑垃圾处理专题网站 | 实验室冷水机-冷却循环水系统-深圳市达沃西制冷设备厂 | 模具|数控加工-车床加工-精密数控铣床-东莞市方菱精密模具有限公司专注零件及模具加工 | 抛丸机-H型钢结构抛丸机-钢板通过式抛丸机厂家-泓霖喷砂除锈设备 | 山东金起起重机械有限公司[官网]-金桥银路悬臂吊,金起龙门吊,山东金起起重行吊,单梁起重机 | 沼气池-沼气设备-沼气工程-山东达禹环境工程有限公司 | 无尘车间_洁净车间_净化车间_洁净室工程一站式净化服务商-深圳市美克威尔环境科技有限公司 | 健身器材_健身器材厂_健身器材厂家-徐州兰士健身器材有限公司 | 水表_智能电表_抄表软件_ic卡水控机_电磁水表厂家-深圳市华熙仪数码科技有限公司 | 项目可行性研究报告_稳评能评节能报告_节能报告收费标准-智汇中经(上海)管理咨询有限公司 | 自动封箱机_纸箱封箱机_封箱机厂家-青岛百高包装器材有限公司 | 石材雕刻机_墓碑雕刻机_木工雕刻机_雕刻机厂家-合肥沃力数控设备有限责任公司 | 三菱PLC,三菱变频器,三菱伺服,三菱电机--广州凌控 | 泰安兴润建材有限公司,泰安井盖定做,泰安警示桩定做,泰安雨水篦子定做,泰安操场篦子定做,泰安标志牌定做 | 液晶拼接屏_液晶监视器_液晶广告机_触摸一体机_户外广告机_中亿睿企业官网 | 智能电地暖_电地暖安装_电地暖价格-西安秦星暖通工程有限公司 | 四氟瓶塞-塑料离心机-双联恒温水浴锅-常州天瑞仪器有限公司 | 盆底肌修复仪器-产后康复脉冲磁训练仪-南京佳澜健康管理有限公司 | 拓普思(常州)智能科技有限公司-青少年无人机教育培训比赛课程加盟拓活力 | 铝合金百叶窗_西安百叶窗厂家-西安市未央区通达建材物资部 | 四川蜀易控科技有限公司-酒店客房控制系统-智慧酒店智能化客房控制系统生产厂家 | 西安宣传片拍摄,陕西艺景网络科技有限公司资料备份,西安影视公司,视频拍摄制作,抖音视频制作,纪录片拍摄西安短视频摄影团队,西安抖音视频拍摄 | 英格索兰隔膜泵_ARO气动隔膜泵_英格索兰隔膜泵配件【原厂正品】连续五年无投诉_英格索兰隔膜泵代理-苏州瑞晟茂环保设备有限公司 印刷公司,北京印刷厂,宣传画册手册印刷厂-和智印彩页设计 | 专注欧美工业控制自动化设备-MRO工业品采购服务-科电远扬 | 四通球阀_304真空阀_不锈钢五通球阀厂家-浙江壬丰阀门有限公司 |