一種基于Spark的不確定數據集頻繁模式挖掘算法

楊陽; 丁家滿; 李海濱; 賈連印; 游進國; 姜瑛 昆明理工大學信息工程與自動化學院; 云南昆明650500

關鍵詞:不確定數據 數據挖掘 頻繁模式 spark 

摘要:如何在海量不確定數據集中提高頻繁模式挖掘性能是目前研究的熱點.傳統算法大多是以期望、概率或者權重等單一指標為數據項集支持度,在大數據背景下,同時考慮概率和權重支持度的算法難以兼顧其執行效率.為此,本文提出一種基于Spark的不確定數據集頻繁模式挖掘算法(UWEFP),首先,為了同時兼顧數據項的概率和權重,計算一項集的最大概率權重值并進行剪枝;然后,為了減少對數據集的多次掃描,結合Spark框架的優點,設計了一種具有FP-tree特征的新穎的UWEFP-tree結構進行模式樹的構建及挖掘;最后在Spark環境下,以UCI數據集進行實驗驗證.實驗結果表明本文的方法在保證挖掘結果的同時,提高了效率.

信息與控制雜志要求:

{1}基金或課題項目:若要標注獲得基金或課題贊助的論文,應注明基金或課題項目名稱,并在圓括號內注明項目編號。

{2}本刊歡迎具有創見性、應用性、前瞻性的論文,對觸及社會和學術界熱點、重點及時代感、現實性較強的論文優先錄用。

{3}圖片要求為原始稿件單獨發送,清晰,色彩、亮度適中,圖像分辨率應為1024×768像素,4M以上。

{4}文中需進一步解釋的內容作為頁末注釋,用宋體五號字。文中用上標標注,編號為:①②③。

{5}附錄內容較少,與參考文獻排在同一頁;如出現內容較多,則另起一頁。附錄的字體為12磅,Times New Roman字體,加粗。附錄內容格式要求與正文一致。

注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

信息與控制

北大期刊
1-3個月下單

關注 11人評論|1人關注
相關期刊
  • 戶外探險
    省級期刊 1個月內下單
    戶外雜志社
  • 歌劇
    省級期刊 1個月內下單
    上海歌劇院
  • 家居主張
    省級期刊 1個月內下單
    上海世紀出版股份有限公司;上海辭書出版社
  • 幸福生活指南
    省級期刊 1個月內下單
    福建省廣播影視集團
服務與支付
国产精品视频线观看26uuu,免费av网站在线观看,免费一级a四片久久精品网,国产成人无码精品久久久露脸
亚洲国产另类久久久精品黑人 | 亚洲男人的天堂1024 | 日韩久久久精品中文字幕 | 亚洲人AV在线播放不卡 | 最新国产免费Av网址 | 亚洲精品自在在线观看 |