唔好紧放松进去了h_青青热久免费精品视频在线观看_狠狠色狠狠色综合人人_草莓樱桃榴莲丝瓜秋葵绿巨人

分布式與并行數(shù)據(jù)挖掘的比較

分布式與并行數(shù)據(jù)挖掘的比較 百恒物聯(lián) 2018-07-18 2343

分布式與并行數(shù)據(jù)挖掘的比較


  云計(jì)算相關(guān)技術(shù)的飛速發(fā)展和高速寬帶網(wǎng)絡(luò)的廣泛使用,使得實(shí)際應(yīng)用中分布式數(shù)據(jù)挖掘的需求不斷增長(zhǎng)。分布式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)與分布式計(jì)算技術(shù)的有機(jī)結(jié)合,主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn),它是物聯(lián)網(wǎng)要求的數(shù)據(jù)挖掘,是在網(wǎng)絡(luò)中挖掘出來(lái)的。通過(guò)與云計(jì)算技術(shù)相結(jié)合,可能會(huì)產(chǎn)生更多、更好、更新的數(shù)據(jù)挖掘方法和技術(shù)手段。


  分布式數(shù)據(jù)挖掘


  1、分布式數(shù)據(jù)挖掘的優(yōu)點(diǎn)


  考慮到商業(yè)競(jìng)爭(zhēng)和法律約束等多方面的因素,在許多情況下,為了保證數(shù)據(jù)挖掘的安全性和容錯(cuò)性,需要保護(hù)數(shù)據(jù)隱私,將所有數(shù)據(jù)集中在一起進(jìn)行分析往往是不可行的。分布式數(shù)據(jù)挖掘系統(tǒng)能將數(shù)據(jù)合理地劃分為若干個(gè)小模塊,并由數(shù)據(jù)挖掘系統(tǒng)并行處理,最后將各個(gè)局部的處理結(jié)果合成最終的輸出模式,這樣做可以充分利用分布式計(jì)算的能力和并行計(jì)算的效率,對(duì)相關(guān)的數(shù)據(jù)進(jìn)行分析與綜合,從而節(jié)省大量的時(shí)間和空間開銷。

  2、分布式數(shù)據(jù)挖掘面臨的問(wèn)題


  ·算法方面:實(shí)現(xiàn)數(shù)據(jù)預(yù)處理中各種數(shù)據(jù)挖掘算法,以及多數(shù)據(jù)挖掘任務(wù)的調(diào)度算法。

  ·系統(tǒng)方面:能在對(duì)稱多處理機(jī)(Symmetrical Multi- Processing,SMP)、大規(guī)模并行處理機(jī)(Massively Parallel Processor,MPP)等具體的分布式平臺(tái)上實(shí)現(xiàn),考慮節(jié)點(diǎn)間負(fù)載平衡、減少同步與通信開銷、異構(gòu)數(shù)據(jù)集成等問(wèn)題。

  3、分布式數(shù)據(jù)挖掘的系統(tǒng)分類


  按照不同的角度,分布式數(shù)據(jù)挖掘系統(tǒng)可以劃分為以下幾類。

  根據(jù)節(jié)點(diǎn)間數(shù)據(jù)分布情況是否同構(gòu),可分為同構(gòu)和異構(gòu)兩類。同構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的節(jié)點(diǎn)間數(shù)據(jù)的屬性空間相同,異構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的節(jié)點(diǎn)間數(shù)據(jù)具有不同的屬性空間。

  按照數(shù)據(jù)模式的生成方式,分布式數(shù)據(jù)挖掘系統(tǒng)可分為集中式、局部式和重分布式三類。

  ·在集中式分布式數(shù)據(jù)挖掘系統(tǒng)中,先把數(shù)據(jù)集中于中心點(diǎn),再生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較高,但數(shù)據(jù)量較小的情況;

  ·在局部式分布式數(shù)據(jù)挖掘系統(tǒng)中,先在各節(jié)點(diǎn)處生成局部數(shù)據(jù)模式,然后將局部數(shù)據(jù)模式集中到中心節(jié)點(diǎn)生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較低,但效率較高的情形;

  ·在重分布式數(shù)據(jù)挖掘系統(tǒng)中,首先將所有數(shù)據(jù)在各個(gè)節(jié)點(diǎn)間重新分布,然后按照與局部式系統(tǒng)相同的方法生成數(shù)據(jù)模式。

  并行數(shù)據(jù)挖掘與分布式數(shù)據(jù)挖掘的比較


  并行數(shù)據(jù)挖掘系統(tǒng)與分布式數(shù)據(jù)挖掘系統(tǒng)都用網(wǎng)絡(luò)連接各個(gè)數(shù)據(jù)處理節(jié)點(diǎn),網(wǎng)絡(luò)中的所有節(jié)點(diǎn)構(gòu)成一個(gè)邏輯上的統(tǒng)一整體,用戶可以對(duì)各個(gè)節(jié)點(diǎn)上的數(shù)據(jù)進(jìn)行透明存取。

  并行挖掘與分布式挖掘的不同點(diǎn)如下所述:


  1、應(yīng)用目標(biāo)不同

  并行數(shù)據(jù)挖掘中各個(gè)處理機(jī)節(jié)點(diǎn)并行完成數(shù)據(jù)挖掘任務(wù),以提高數(shù)據(jù)挖掘系統(tǒng)的整體性能;分布式數(shù)據(jù)挖掘?qū)崿F(xiàn)場(chǎng)地自治和數(shù)據(jù)的全局透明共享,而不要求利用網(wǎng)絡(luò)中的所有節(jié)點(diǎn)來(lái)提高系統(tǒng)的處理性能。

  2、實(shí)現(xiàn)方式不同

  并行數(shù)據(jù)挖掘中各節(jié)點(diǎn)間可以采用高速網(wǎng)絡(luò)連接,節(jié)點(diǎn)間的數(shù)據(jù)傳輸代價(jià)相對(duì)較低;分布式數(shù)據(jù)挖掘的各節(jié)點(diǎn)間一般采用局域網(wǎng)或廣域網(wǎng)相連,網(wǎng)絡(luò)帶寬較低,點(diǎn)到點(diǎn)的通信開銷較大。

  3、各節(jié)點(diǎn)的地位不同

  并行數(shù)據(jù)挖掘的各節(jié)點(diǎn)是非獨(dú)立的,在數(shù)據(jù)處理中只能發(fā)揮協(xié)同作用,而不能有局部應(yīng)用,適合算法內(nèi)并行;分布式數(shù)據(jù)挖掘系統(tǒng)的各節(jié)點(diǎn)除了能通過(guò)網(wǎng)絡(luò)協(xié)同完成全局事務(wù)外,每個(gè)節(jié)點(diǎn)都可以獨(dú)立運(yùn)行自己的數(shù)據(jù)挖掘任務(wù),執(zhí)行局部應(yīng)用,具有高度的自治性,適合不同算法之間的并行。

  云計(jì)算通過(guò)廉價(jià)的PC服務(wù)器,可以管理大數(shù)據(jù)量與大集群,其關(guān)鍵技術(shù)在于能夠?qū)υ苾?nèi)的基礎(chǔ)設(shè)施進(jìn)行動(dòng)態(tài)按需分配與管理。云計(jì)算的任務(wù)可以分割成多個(gè)進(jìn)程,在多臺(tái)服務(wù)器上并行計(jì)算,然后得到最終結(jié)果,其優(yōu)點(diǎn)是對(duì)大數(shù)據(jù)量的操作性能非常好。從用戶角度來(lái)看,并行計(jì)算是由單個(gè)用戶完成的,分布式計(jì)算是由多個(gè)用戶合作完成的,云計(jì)算是可以在沒(méi)有用戶參與指定計(jì)算節(jié)點(diǎn)的情況下,交給網(wǎng)絡(luò)另一端的云計(jì)算平臺(tái)的服務(wù)器節(jié)點(diǎn)自主完成計(jì)算的,這樣云計(jì)算就同時(shí)具備了并行計(jì)算與分布式計(jì)算的特征。
400-680-9298,0791-88117053
掃一掃關(guān)注百恒網(wǎng)絡(luò)微信公眾號(hào)
歡迎您的光顧,我們將竭誠(chéng)為您服務(wù)×
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售后服務(wù) 售后服務(wù)
 
售后服務(wù) 售后服務(wù)
 
×