摘要:非頻繁項集是未被標準化的頻繁項集產生算法(如APRIORI以及FP-Growth算法)提取的所有項集.在數據集上挖掘有意義的非頻繁項集是數據挖掘的重要工作之一.目前,基于傳統數據集的非頻繁項集挖掘研究主要集中在負相關、負模式以及間接關聯等方面,且主要是對整個數據集上的性質進行分析,而沒有對數據集的切片進行分析.該文提出了一種新的模式,試圖找到符合如下條件的特定子群,其描述的數據集切片上存在某些特殊項集,這些項集在整個數據集上并非頻繁項集,但是在該數據集切片上卻是頻繁項集.根據用戶要求自動找出這些異常子群以及其對應項集的算法在數據分析中有著十分重要的意義.該文提出的解決方案由兩部分組成:候選產生階段以及查詢交互階段.前者是一個脫機處理的過程,而后者則是在線實時反饋的過程.在候選產生階段,該文提出了一種基于多維數據集高效產生頻繁項集以及顯著子群并有效建立索引的算法.根據索引,在查詢交互階段,該文提出的算法框架可以快速準確地返回給定查詢對應的異常子群以及對應項集.基于多個真實數據集的實驗表明,該文提出的方案可以根據用戶要求實時返回有意義的異常子群以及對應項集.此外,該文提出的算法在多維數據集上的挖掘效率比UTMTU算法提升了數倍.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機學報雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:研究論文與技術報告、短文、學術通信、學術活動、中國計算機學會學術動態等。于1978年經新聞總署批準的正規刊物。