![]() |
上海申思特自動化設(shè)備有限公司
主營產(chǎn)品: 美國E E傳感器,美國E E減壓閥,意大利ATOS阿托斯油缸,丹麥GRAS麥克風(fēng),丹麥GRAS人工頭, ASCO電磁閥,IFM易福門傳感器 |
![](/NewShowStand/style/14/Images/Blue/中級會員.png)
聯(lián)系電話
![]() |
上海申思特自動化設(shè)備有限公司
主營產(chǎn)品: 美國E E傳感器,美國E E減壓閥,意大利ATOS阿托斯油缸,丹麥GRAS麥克風(fēng),丹麥GRAS人工頭, ASCO電磁閥,IFM易福門傳感器 |
聯(lián)系電話
參考價 | 面議 |
更新時間:2016-12-13 14:48:48瀏覽次數(shù):1047
聯(lián)系我們時請說明是化工儀器網(wǎng)上看到的信息,謝謝!
雙布魯姆WILKERSON威爾克森過濾器數(shù)
隨著近年來數(shù)據(jù)總量呈現(xiàn)出的爆炸增長趨勢,,數(shù)據(jù)備份系統(tǒng)存儲的數(shù)據(jù)越來越多。經(jīng)研究發(fā)現(xiàn),,在備份,、歸檔等集中存儲系統(tǒng)中存在大量冗余數(shù)據(jù),有的甚至占到存儲空間的60%,,導(dǎo)致存儲成本過高,,數(shù)據(jù)訪問性能下降。數(shù)據(jù)排重是減少數(shù)據(jù)冗余,、節(jié)省存儲空間的有效手段,。
雙布魯姆WILKERSON威爾克森過濾器
現(xiàn)有排重算法中,文件級排重盡管排重開銷小,,但排重粒度過粗,,難以取得存儲空間的高效利用;數(shù)據(jù)塊級排重算法能實(shí)現(xiàn)高效存儲,,但其附帶的存儲開銷過高,,排重的時間開銷大。研究分層排重結(jié)構(gòu),,應(yīng)用雙布魯姆WILKERSON過濾器實(shí)現(xiàn)數(shù)據(jù)排重,,優(yōu)化數(shù)據(jù)排重性能,,主要工作如下:針對數(shù)據(jù)重復(fù)有文件級的重復(fù)和數(shù)據(jù)塊級的重復(fù)之分,提出一種基于雙布魯姆WILKERSON過濾器的數(shù)據(jù)排重算法,。該算法使用兩個布魯姆WILKERSON過濾器構(gòu)成二級排重結(jié)構(gòu),,將排重過程分解成文件排重和數(shù)據(jù)塊排重兩部分。算法首*入*級進(jìn)行文件排重,,然后將*級排重判定為不重復(fù)的文件分割成塊進(jìn)行第二級數(shù)據(jù)塊排重,。利用這種分層排重結(jié)構(gòu),通過*級將重復(fù)文件直接過濾掉,,不進(jìn)入第二級排重,,減少了數(shù)據(jù)塊排重的工作量;通過第二級進(jìn)入不重復(fù)文件內(nèi)部進(jìn)行數(shù)據(jù)塊排重,,獲得了數(shù)據(jù)塊級的排重粒度,。將上述算法應(yīng)用于文檔備份系統(tǒng)中,實(shí)現(xiàn)對文檔的排重,,由于算法采用布魯姆WILKERSON過濾器對數(shù)據(jù)進(jìn)行壓縮表達(dá),,存在誤判可能,即假陽性誤判問題,。本文設(shè)計(jì)通過查詢元數(shù)據(jù)(保存數(shù)據(jù)相關(guān)信息)來為誤判糾錯,。當(dāng)布魯姆WILKERSON過濾器判斷數(shù)據(jù)為重復(fù)時,首先將元數(shù)據(jù)預(yù)讀到內(nèi)存中,,在內(nèi)存中匹配元數(shù)據(jù)信息,,若沒有找到,再讀取保存元數(shù)據(jù)的文件—索引文件查詢元數(shù)據(jù),。通過內(nèi)存,、索引文件兩級元數(shù)據(jù)查詢,杜絕了假陽性誤判的情況,。由于為假陽性誤判糾錯需要對元數(shù)據(jù)進(jìn)行大量訪問,,增加了排重時間開銷,設(shè)計(jì)將索引文件緩存,,保證元數(shù)據(jù)操作的高效,,以此提高排重效率。但系統(tǒng)的句柄數(shù)限制了同時緩存的索引文件數(shù)目,,若索引文件過多,,則不能同時緩存全部索引文件,,需要進(jìn)行更多的磁盤IO,,此時排重開銷與耗時都急劇升高,針對這種情況,,采用動態(tài)哈希算法來分配元數(shù)據(jù)地址,,將元數(shù)據(jù)保存在少數(shù)幾個索引文件內(nèi),,從而克服了句柄限制問題。
雙布魯姆WILKERSON威爾克森過濾器
實(shí)驗(yàn)結(jié)果表明,,在文檔備份系統(tǒng)中,,使用該排重算法對不同重復(fù)率的文檔文件集合排重,相比其他兩種備份工具,,在保持較好排重率的前提下,,耗時平均縮短了10%左右。