智汇工业-智慧工业、智能制造及工业智能、工业互联门户网站,专业的工业“互联网+”传媒

每個人都應該知道的25個大數據術語

來源:網絡

點擊:1260

A+ A-

所屬頻道:新聞中心

關鍵詞: 大數據

    如果你初來乍到,大數據看起來很嚇人!根據你掌握的基本理論,讓我們專注于一些關鍵術語以此給你的約會對象、老板、家人或者任何一個人帶來深刻的印象。

    每個人都應該知道的25個大數據術語

    讓我們開始吧:

    1.算法。“算法”如何與大數據相關?即使算法是一個通用術語,但大數據分析使其在當代更受青睞和流行。

    2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費占比呢?那你便是在做“分析”了。你正從一堆原始數據中來吸取經驗,以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數據分析了。大數據分析的實質是利用大量數據來進行推斷和講故事。大數據分析有3種不同到的類型,接下來便繼續本話題進行依次討論。

    3.描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節。

    4.預測分析。如果你根據過去5年的信用卡歷史記錄來進行分析,并且劃分具有一定的連續性,則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節是,這并不是“預測未來”,而是未來可能會發生的“概率”。在大數據預測分析中,數據科學家可能會使用類似機器學習、高級的統計過程(后文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。

    每個人都應該知道的25個大數據術語

    5.規范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規范分析建立在預測分析的基礎之上,包含了“行動”記錄(例如減少食品、服裝、娛樂支出),并分析所得結果來“規定”最佳類別以減少總體支出。你可以嘗試將其發散到大數據,并設想高管們如何通過查看各種行動的影響來做出數據驅動的決策。

    6.批處理。雖然批量數據處理在大型機時代就早已出現,但大數據交給它更多大數據集處理,因此賦予了批處理更多的意義。對于一段時間內收集到的一組事務,批量數據處理為處理大量數據提供了一種有效的方法。后文將介紹的Hadoop便是專注于批量數據處理。超越批處理的世界:流計算 使用Spark SQL構建批處理程序。

    7. Cassandra是由Apache Software Foundation管理的一款流行的開源數據庫管理系統。很多大數據技術都歸功于Apache,其中Cassandra的設計初衷便是處理跨分布式服務器的大量數據。

    8. 云計算。顯而易見云計算已經變得無所不在,所以本文可能無須贅述,但為了文章的完整性還是佐以介紹。云計算的本質是在遠程服務器上運行的軟件和(/或)數據托管,并允許從互聯網上的任何地方進行訪問。

    9. 集群計算。它是一種利用多臺服務器的匯集資源的“集群”來進行計算的奇特方式。在了解了更多技術之后,我們可能還會討論節點、集群管理層、負載平衡和并行處理等。

    10. 黑暗數據。依我看來,這個詞適用于那些嚇得六神無主的高級管理層們。從根本上來說,黑暗數據是指那些被企業收集和處理但又不用于任何有意義用途的數據,因此描述它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網絡信息流、呼叫中心日志、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業數據都可能是“黑暗數據”,但無人真正知曉。

    11. 數據湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節的玩笑。但它真的是個術語!數據湖是一個原始格式的企業級數據的大型存儲庫。雖然此處討論的是數據湖,但有必要再一起討論下數據倉庫,因為數據湖和數據倉庫在概念上是極其相似的,都是企業級數據的存儲庫,但在清理和與其他數據源集成之后的結構化格式上有所區別。數據倉庫常用于常規數據(但不完全)。據說數據湖能夠讓用戶輕松訪問企業級數據,用戶真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。擁抱開源技術的前提——認識數據湖 你知道數據湖泊(DATA LAKE)嗎?

    12. 數據挖掘。數據挖掘是指利用復雜的模式識別技術從大量數據中找到有意義的模式、提取見解。這與我們前文討論的使用個人數據做分析的術語“分析”密切相關。為了提取出有意義的模式,數據挖掘者使用統計學(是呀,好老的數學)、機器學習算法和人工智能。

    13.數據科學家。我們談論的是一個如此熱門的職業!數據科學家們可以通過提取原始數據(難道是從前文所說的數據湖中提取的?),處理數據,然后提出新見解。數據科學家所需具備的一些技能與超人無異:分析、統計、計算機科學、創造力、故事講述和理解業務環境。難怪他們能獲得如此高的薪水報酬。

    14.分布式文件系統。由于大數據太大而無法在單個系統上進行存儲,分布式文件系統提供一種數據存儲系統,方便跨多個存儲設備進行大量數據的存放,并有助于降低大量數據存儲的成本和復雜度。

    15. ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉化和加載的過程。 它具體是指“提取”原始數據,通過數據清洗/修飾的方式進行“轉化”以獲得 “適合使用”的數據,進而“加載”到合適的存儲庫中供系統使用的整個過程。盡管ETL這一概念源于數據倉庫,但現在也適用于其它情景下的過程,例如在大數據系統中從外部數據源獲取/吸收數據。我們需要什么樣的ETL?

    工程師要不要寫ETL?——教你構建高效的算法/數據科學部門 ETL的經驗總結

    16. Hadoop。人們一想起大數據就能立即想到Hadoop。 Hadoop(擁有可愛的大象LOGO)是一個開源軟件框架,主要組成部分是Hadoop分布式文件系統(HDFS),Hadoop部署了分布式硬件以支持大型數據集的存儲、檢索和分析。如果你真的想給別人留下深刻的印象,還可以談談YARN(Yet Another Resource Schedule,另一個資源調度器),正如其名,它也是一個資源調度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會還想出了Pig,Hive和Spark(沒錯,它們都是各種軟件的名稱)。這些名字難道不讓你感到印象深刻嗎?

    17. 內存計算。一般來說,任何可以在不訪問I / O的情況下進行的計算預計會比需要訪問I/O的速度更快。內存內計算是一種能夠將工作數據集完全轉移到集群的集體內存中、并避免了將中間計算寫入磁盤的技術。Apache Spark便是一種內存內計算系統,它與I / O相比,在像Hadoop MapReduce這樣的系統上綁定具有巨大的優勢。

    18. IOT。最新的流行語是物聯網(Internet of things,簡稱IOT)。IOT是通過互聯網將嵌入式對象(傳感器、可穿戴設備、汽車、冰箱等)中的計算設備互連在一起,并且能夠發送/接收數據。IOT產生了大量的數據,這為呈現大數據分析提供了更多的機會。

    19.機器學習。機器學習是為了設計一種基于提供的數據能夠進行不斷學習、調整、改進的系統的設計方法。機器使用預測和統計的算法進行學習并專注于實現“正確的”行為模式和簡見解,隨著越來越多的數據注入系統它還在不斷進行優化改進。典型的應用有欺詐檢測、在線個性化推薦等。

    20.MapReduce。MapReduce的概念可能會有點混亂,但讓我試一試。MapReduce是一個編程模型,最好的理解方法是將Map和Reduce是看作兩個獨立的單元。在這種情況下,編程模型首先將大數據的數據集分成幾個部分(技術術語上是稱作“元組”,但本文并不想太過技術性),因此可以部署到不同位置的不同計算機上(即前文所述的集群計算),這些本質上是Map的組成部分。接下來該模型收集到所有結果并將“減少”到同一份報告中。 MapReduce的數據處理模型與hadoop的分布式文件系統相輔相成。

    21.NoSQL。乍一聽這像是針對傳統關系型數據庫管理系統(RDBMS)的面向對象的SQL(Structured Query Language, 結構化查詢語言)的抗議,其實NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實際上是指被用來處理大量非結構化、或技術上被稱作“圖表”(例如關系型數據庫的表)等數據的數據庫管理系統。NoSQL數據庫一般非常適用于大型數據系統,這得益于它們的靈活性以及大型非結構化數據庫所必備的分布式結構。

    22.R語言。有人能想到比這個編程語言更糟糕的名字嗎?是的,’R’是一門在統計計算中表現非常優異的編程語言。如果你連’R’都不知道,那你就不是數據科學家。(如果你不知道’R’,就請不要把那些糟糕的代碼發給我了)。這就是在數據科學中最受歡迎的語言之一的R語言。

    23. Spark(Apache Spark)。Apache Spark是一種快速的內存內數據處理引擎,它可以高效執行需要快速迭代訪問數據集的流、機器學習或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。

    24.流處理。流處理旨在通過“連續”查詢對實時和流數據進行操作。結合流分析(即在流內同時進行連續計算數學或統計分析的能力),流處理解決方案可以被用來實時處理非常大的數據。

    25. 結構化和非結構化數據。這是大數據5V中的“Variety”多樣性。結構化數據是能夠放入關系型數據庫的最基本的數據類型,通過表的組織方式可以聯系到任何其他數據。非結構化數據則是所有不能直接存入關系數據庫中的數據,例如電子郵件、社交媒體上的帖子、人類錄音等。

    (審核編輯: 林靜)

    聲明:除特別說明之外,新聞內容及圖片均來自網絡及各大主流媒體。版權歸原作者所有。如認為內容侵權,請聯系我們刪除。

    主站蜘蛛池模板: 全自动码垛机械手,码垛机器人,拆包机,缠绕机,开箱封箱装箱机厂家-山东昊宇自动化设备有限公司 | 深圳诚暄软板首页-fpc软板,fpc软性线路板打样生产厂家 | 威学一百-专注国际学校择校备考-DSE-A-level-雅思-托福-OSSD-港澳台联考-AP-IGCSE-IB-AMC-多邻国-PTE-SAT-SSAT-小语种(如日语,韩语,德语,法语,西班牙语,意大利语,俄语,泰语)等考试培训,为出国留学学生提供个性化定制性学习方案,线下实体面授+线上网络课程, 提供一对一,小班课等多种班型 | 上海建发物资有限公司 | 吸音板_隔音板多少钱_降噪声学材料_环保阻燃防火_吸声装饰工程定制_厂家价格直供 - 佛山天阶声学材料厂 | 乌鲁木齐万疆通管道设备有限公司 销售热线;13565955557-新疆 乌鲁木齐 万疆通 管道设备 波纹补偿器 膨胀节 金属软管 伸缩器 管件 阀门 维修 | 重型钢板网|钢板网厂家|钢板网 - 高禄公司 | 塑木地板-木塑地板厂家「云南昆明楚雄曲靖玉溪塑木地板」云南云冶中信塑木新型材料有限公司 | 耐火砖厂家价格-郑州荣盛窑炉耐火材料有限公司 | 妙手网-圆心大药房-广东圆心恒金堂医药连锁有限公司-放心的网上药店_妙手医生旗下正规网上买药平台 | 拖链电缆-卷筒电缆-行车电缆-机器人电缆-上海甲朗制造 | 渣浆泵厂家/潜水-渣浆泵过流件-管道增压泵 - 河北聚洪泵业有限公司 | 江苏广分检测技术有限公司、电力安全工具检测、苏州绝缘工具检测、昆山电力安全工具检测-广分检测技术(苏州)有限公司 | 上海浩斌信息科技有限公司RFID读写器,IC卡读卡器,手持机,数据采集终端,电力仓库管理软件开发,固定资产软件,纱管标签,试剂管理,RFID试剂柜,档案管理,档案柜,智能货架 | 喷雾式干燥机-真空桨叶干燥机-桨叶干燥器-常州力马干燥科技有限公司 | 上饶建盛建设,建盛建设,上饶市建盛建设工程质量检测有限公司-房屋鉴定 | 南山荔枝,深圳南荔农业荔枝园自销-质保优放心选购 | 太原重卡叔叔运输有限公司-山西太原大件运输、太原物流公司、太原货运物流、太原大件运输、太原货运信息、长治物流公司、长治大件运输、晋城物流公司、晋城大件运输、忻州大件运输、朔州大件运输、阳泉大件运输、大同大件运输、吕梁大件运输、临汾大件运输、运城大件运城 | 深圳同步带轮_东莞齿轮加工_东莞同步轮厂家-东莞东城精胜机械配件厂 | 联智通达_工控一体机_工业触摸一体机_工业一体机_工业触控一体机_POS机主板_工控主板_国产化主板_RK3588主板厂商-联智通达 | 浙江凯力防爆电气集团有限公司【官网】 | 抛丸机-H型钢结构抛丸机-钢板通过式抛丸机厂家-泓霖喷砂除锈设备 | 尼德克医疗器械贸易(上海)有限公司 | 亿企商贸-亿万企业的商务贸易平台-B2B企业产品发布供求信息平台,一带一路中国企业及产品展示平台,免费企业智能自助建站网络营销推广平台,打造B2B企业黄页产品信息发布推广专业综合电子商务平台! | 惠声电子、广州市惠声电子科技有限公司、VBS、VBS惠声电子、VBS公共广播生产厂家、VBS广播功放生产厂家、VBS会议系统设备批发、VBSIP网络对讲系统厂家、VBS会议系统厂家、VBS智能中控厂家、VBS专业扩声厂家 | 温州网络公司_网站建设_网络营销策划_阿里淘宝店铺服务-温州聚欣网络科技有限公司 | 注塑加工,无锡塑料件加工,注塑模具加工厂家-无锡富立康精密模塑有限公司 | 青岛相控阵检测_无损探伤检测机构_相控阵超声检测公司-青岛发现检验技术咨询 | 青砖厂家,青瓦价格-河北祥庆烧结瓦有限公司 | 华网,华网资讯,华网头条,华人网络家园 | 加药装置-排油烟装置-工业滤水器-连云港灵动 | 声测管厂家_声测管现货_桥梁桩基声测管_注浆管_沉降板-沧州市福顺昌钢管有限公司 | 语音芯片_蓝牙芯片_ble数传芯片_蓝牙数传模块厂家_拓达半导体-蓝牙数传芯片模块原厂 | 南宁清洁公司|外墙清洗|开荒清洁|洒水车|管道疏通|园林绿化_广西优而美环境工程有限公司 | 宁波雷豹机电科技有限公司|雷豹冷风机|雷豹工业大风扇|MFC18000|MFC16000|MFC6000|EF3622|EF4222|EF4822|移动工业蒸发式冷风机空气冷却器|大型工业空调扇|雷豹移动式工业大风扇|雷豹大风扇|生产厂家|公司官网 | 美国渗透压仪-PSI渗透压仪|华泰和合 | 锁螺丝机_自动螺丝机_手持式自动锁螺丝机_自动打螺丝机-普思自动化 | 西安防静电地板_防静电地板厂家_防静电地板价格_OA网络地板_写字楼架空地板_机房墙板安装-红梅防静电地板厂家直销 | 泰州光明会计师事务所有限公司-财务业务审计,会计服务业务及资产评估业务的专业服务机构 | 全降解塑料厂家_淋膜_秸秆_手机壳_气泡袋_牙刷牙线_GRS可回收包装材料-东莞全球环保科技有限公司 | 木材粉碎机,树枝粉碎机,木材破碎机厂家 |