關鍵詞:不確定數據 數據挖掘 頻繁模式 spark
摘要:如何在海量不確定數據集中提高頻繁模式挖掘性能是目前研究的熱點.傳統算法大多是以期望、概率或者權重等單一指標為數據項集支持度,在大數據背景下,同時考慮概率和權重支持度的算法難以兼顧其執行效率.為此,本文提出一種基于Spark的不確定數據集頻繁模式挖掘算法(UWEFP),首先,為了同時兼顧數據項的概率和權重,計算一項集的最大概率權重值并進行剪枝;然后,為了減少對數據集的多次掃描,結合Spark框架的優點,設計了一種具有FP-tree特征的新穎的UWEFP-tree結構進行模式樹的構建及挖掘;最后在Spark環境下,以UCI數據集進行實驗驗證.實驗結果表明本文的方法在保證挖掘結果的同時,提高了效率.
信息與控制雜志要求:
{1}基金或課題項目:若要標注獲得基金或課題贊助的論文,應注明基金或課題項目名稱,并在圓括號內注明項目編號。
{2}本刊歡迎具有創見性、應用性、前瞻性的論文,對觸及社會和學術界熱點、重點及時代感、現實性較強的論文優先錄用。
{3}圖片要求為原始稿件單獨發送,清晰,色彩、亮度適中,圖像分辨率應為1024×768像素,4M以上。
{4}文中需進一步解釋的內容作為頁末注釋,用宋體五號字。文中用上標標注,編號為:①②③。
{5}附錄內容較少,與參考文獻排在同一頁;如出現內容較多,則另起一頁。附錄的字體為12磅,Times New Roman字體,加粗。附錄內容格式要求與正文一致。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社