Khai thác luật kết hợp hiếm

56 265 0
Khai thác luật kết hợp hiếm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LÊ VĂN NHẤT KHAI THÁC LUẬT KẾT HỢP HIẾM LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 TP HỒ CHÍ MINH, năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM LÊ VĂN NHẤT KHAI THÁC LUẬT KẾT HỢP HIẾM LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 BỘ HƯỚNG DẪN KHOA HỌC: PGS.TSKH NGUYỄN XUÂN HUY TP HỒ CHÍ MINH, năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS.TSKH Nguyễn Xuân Huy Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ Tên Chức danh Hội đồng GS.TSKH Hoàng Văn Kiếm Chủ tịch PGS.TS Lê Hoài Bắc Phản biện TS Võ Thị Thanh Vân Phản biện TS Hồ Đắc Nghĩa Ủy viên TS Lê Mạnh Hải Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV GS.TSKH Hoàng Văn Kiếm TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Văn Nhất Giới tính: Nam Ngày 31 tháng 12 năm sinh: 1973 Nơi sinh: Quảng Ngãi Chuyên ngành: Công nghệ thông tin MSHV: 1300860048 I- Tên đề tài: KHAI THÁC LUẬT KẾT HỢP HIẾM II- Nhiệm vụ nội dung: - Tìm hiểu thuật toán khai thác luật kết hợp - Tìm hiểu thuật toán khai thác luật kết hợp - Xây dựng ví dụ cho thuật toán nghiên cứu - Xây dựng chương trình Demo III- Ngày giao nhiệm vụ: 25/03/2015 IV- Ngày hoàn thành nhiệm vụ: 15/09/2015 V- Cán hướng dẫn: PGS.TSKH Nguyễn Xuân Huy CÁN BỘ HƯỚNG DẪN PGS.TSKH Nguyễn Xuân Huy KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Lê Văn Nhất ii LỜI CÁM ƠN hướng dẫn giúp đỡ tận tình PGS.TSKH Nguyễn Xuân Huy X Thầy/Cô Khoa CNTT giúp đỡ Xin cám ơn Thầy/Cô thuộc phòng QLKH&ĐTSĐH tạo nhiều điều kiện thuận lợi cho suốt trình theo học Trường quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho luận văn hoàn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, ngày 15 tháng năm 2015 Lê Văn Nhất iii TÓM TẮT Khai phá nhiều nhà nghiên cứu quan tâm Trong năm gần khai thác luật kết hợp (các luật có độ hỗ trợ thấp độ tin cậy cao) nhận nhiều quan tâm nhà nghiên cứu Các luật vậy, xảy nhiều trường hợp chúng lại luật có giá trị ứng dụng cao Khi sử dụng thuật toán truyền thống khai thác tập phổ biến để khai thác tập không phổ biến phải đặt ngưỡng độ hỗ trợ cực tiểu (minsup) nhỏ nên số lượng tập tìm lớn Tuy nhiên, có phần nhỏ số tập tập sinh luật Vì vậy, chi phí cho việc tìm kiếm cao nhiều khai thác tập phổ biến thông thường Ngoài ra, việc phải sinh nhiều luật thừa trình sinh luật từ tập không phổ biến hạn chế thuật toán khai thác luật kết hợp Để giải vấn đề tồn nêu trên, nội dung nghiên cứu luận văn tập trung vào việc nghiên cứu thuật toán khai thác luật kết hợp, khai thác luật kết hợp để từ đó, đề xuất cài đặt chương trình thực nghiệm thuật toán khai thác luật kết hợp iv ABSTRACT The mining knowledge potential in the current database is the common goal of science data mining and it is very much interest researchers In recent years, the mining Sporadic Rules (the rules has a low support but high confidence) has received much attention from researchers The Sporadic rules is rare but in many cases they are the rules of high value applications When using traditional algorithms mining frequent itemset for mining sporadic itemset, When using traditional algorithms mining frequent itemset for mining sporadic itemset, the minimum support (minSup) have to very small and number of items very large have could find However, only a very small part of this sporadic items can yield sporadic rule Therefore, the cost of the mining will be much higher when mining frequent itemset In addition, the mining algorithms sporadic rules from sporadic items generate many redundant in the mining is also a restriction of mining algorithms sporadic rules To solve these problems, as mentioned above, the research content of this thesis will focus on the study of mining association rule mining algorithms provisions scattered and install one mining algorithms sporadic rule for testing v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa CSDL Cơ sở liệu DB DataBase Conf Độ đo tin cậy confidence Supp Độ đo hỗ trợ support MST Minsup (ngưỡng hỗ trợ tối thiểu) MCT Minconf (ngưỡng tin cậy tối thiểu) minASup Min Absolute Support MCISI Mining Closed ImPerfectly Sporadic Itemsets MPSI Mining Perfectly Sporadic Itemsets FI Frequent itemset (Tập phổ biến ký hiệu ) IFI ImFrequent itemset (Tập không phổ biến ký hiệu ) vi DANH MỤC CÁC BẢNG Bảng 1.1 Cơ sở liệu giao dịch Bảng 2.1Kết S1 chạy Apriori-Inverse 25 Bảng 2.2 Kết S2 chạy Apriori-Inverse 26 Bảng 2.3 CSDL giao dịch D .30 Bảng 3.1 So sánh tỉ lệ trung bình kích thước Tidset Diffset [11] 34 29 Đầu vào : CSDL D, minSup, maxSup K êt : Tập tập không tuyệt đối hai ngưỡng đóng CS MCISI ALGORITHM (D, minSup, maxSup) : FI = {Ij × g(Ij) : Ij∈I ,|g(Ij)| ≥ maxSup} IFI = {Kj × g(Kj) : Kj∈I ,|g(Kj)|< maxSup, |g(Kj)| ≥ minSup} For each Ij × g(Ij) in FI Nodes={Pj × g(Pj): Pj = Ij∪Mj , g(Pj) = g(Ij)∩g(Mj), Mj∈FI\{I1, ,Ij} or Mj∈ IFI , |g(Pj)| ≥ minSup} //Kết hợp Ij với mục liệu lại bên phải mục xét FI mục lieu IFI MCISI-EXTEND(Nodes,C) CS = CS ∪C MCISI-EXTEND(Nodes, C): For each Xi × g(Xi) in Nodes NewN = ∅ and X = Xi For each Xj × g(Xj) in Nodes, with k(j) >k(i) 10 X = X ∪ Xj and Y = g(Xi) ∩ g(Xj) 11 CHARM-PROPERTY(Nodes, NewN) 12 if NewN ≠ ∅ then MCISI-EXTEND(NewN, C) 13 if sup(X) < maxSup then 14 C = C ∪ X // X chưa gộp vào Hình 2.2 Thuật toán MCISI [4] Giai đoạn thứ 2, dòng lệnh 3, 4, thực kết hợp mục liệu FI với mục liệu lại bên phải mục liệu xét FI với tất mục liệu khác IFI để tạo không gian tìm kiếm Nodes Tiếp theo thực hàm MCISI-EXTEND(Nodes,C) không gian khởi tạo Hàm tìm tập phổ biến đóng theo minSup không gian Nodes theo tinh thần thuật toán CHARM [7] Tập phổ biến đóng theo minSup cuối theo nhánh không gian tìm kiếm tập phổ biến đóng cực đại Tiếp theo dòng lệnh 13 kiểm tra điều kiện để loại tập có độ hỗ trợ 30 lớn maxSup Như vậy, kết thúc hàm MCISI-EXTEND cho kết tập C tập tập phổ biến đóng theo minSup, không phổ biến theo maxSup chứa mục liệu phổ biến theo maxSup Theo định nghĩa 2.2 tập tập không tuyệt đối hai ngưỡng đóng Giai đọan thứ 3: dòng lệnh kết hợp tất tập tìm từ không gian khác khởi tạo từ tập mục liệu FI Tập tập tập không tuyệt đối hai ngưỡng đóng Ví dụ minh họa: Xét CSDL D bảng sau Bảng 2.3 CSDL giao dịch D Tác vụ Mục liệu t1 ABCDHJ t2 AE t3 AGJ t4 ABCEFHJ t5 E t6 ADEH t7 ACFJ t8 EJ Giả thiết xét với minSup = 0,25 maxSup = 0,5 Ban đầu có hai tập: FI ={A×123467, E×24568, J×13478} tập mục liệu phổ biến theo độ hỗ trợ cận maxSup.(dòng 1) IFI ={B×14, C×147, D×16, F×47, H×146} tập mục liệu không phổ biến theo độ hỗ trợ cận maxSup, phổ biến theo độ hỗ trợ cận minSup.(dòng 2) Dòng 3, xét với mục liệu A×123467 tập FI Dòng có Nodes = {AB×14, AC×147, AD×16, AE×246, AF×47, AH×146, AJ×1347}, mục liệu xếp theo thứ tự tăng dần từ vựng Dòng thực hàm MCISI-EXTEND(Nodes,C) Nodes thiết lập dòng sau: 31 Ban đầu xét AB×14, X = AB (dòng 8) Tiếp theo nút kết hợp với nút lân cận bên phải (dòng 9) Khi kết hợp với g(AB)⊆ g(AC) nên thay AB ABC (X = ABC) Khi kết hợp với AD ABCD tập có độ hỗ trợ nhỏ minSup nên bị loại Kết hợp với AE ABCE có độ hỗ trợ nhỏ minSup nên bị loại Kết hợp với AF ABCF bị lọai có độ hỗ trợ nhỏ minSup Khi kết hợp với AH g(ABC) ⊆ g(AH) nên thay ABC ABCH (X = ABCH) Khi kết hợp với AJ g(ABCH) ⊆ g(AJ) nên thay ABCH ABCHJ (X=ABCHJ) Kiểm tra sup(ABCHJ) = 0.25 có độ hỗ trợ nhỏ maxSup nên bổ sung ABCHJ×14 vào C Tập mục liệu ABCHJ thỏa mãn điều kiện minSup ≤ sup(ABCHJ) < maxSup, h(ABCHJ) = f(g(ABCHJ)) =f(14)= ABCHJ có chứa A, J mục liệu phổ biến theo maxSup Vậy ABCHJ tập không tuyệt đối hai ngưỡng đóng theo định nghĩa 2.2 Tương tự tiến hành với nút lại Nodes, cuối có kết : C = {ABCHJ×14, ACFJ×47, ACJ×147, ADH×16, AEH×46, AE×246, AH×146} Vậy SC = {ABCHJ×14, ACFJ×47, ACJ×147, ADH×16, AEH×46, AE×246,AH×146} (dòng 6) Tiếp tục thực với mục liệu lại FI để tạo Nodes khác Cuối kết hợp tập tìm Nodes có SC tập tập không tuyệt đối hai ngưỡng đóng CSDL D Kết chương Trong chương 2, luận văn trình bày hai thuật toán: khai thác tập tuyết đối (Apriori-Inverse) tác giả [5] trình bày khai thác tập không tuyệt đối hai ngưỡng (MCISI) tác giả [4] đề xuất Phần ví dụ minh họa cuối thuật toán thể tường minh hai thuật toán mà tác giả luận văn tìm hiểu trình bày chương Từ nghiên cứu chương chương 2, phần thuật toán đề xuất tác giả trình bày chương luận văn 32 CHƯƠNG MỘT ĐỀ XUẤT KHAI THÁC LUẬT KẾT HỢP HIẾM 3.1 CÁC NGHIÊN CỨU LIÊN QUAN 3.1.1 Đặt vấn đề Luật kết hợp hàm ý luật kết hợp không xảy thường xuyên CSDL Mặc dù xảy nhiều trường hợp chúng lại luật có giá trị Trong chương này, trình bày thuật toán khai thác luật Bài toán phát luật kết hợp chia làm hai giai đọan: Giai đoạn 1: Tìm tất tập mục liệu để sinh luật kết hợp Các tập mục liệu gọi tập mục liệu (hay tập hiếm) Giai đoạn 2: Với tập tìm giai đoạn 1, sinh tất luật có độ tin cậy nhỏ độ tin cậy cực tiểu xác định trước Trong hai giai đoạn giai đoạn khó khăn, phức tạp tốn nhiều chi phí phí Giai đoạn giải đơn giản tìm tất tập độ hỗ trợ chúng Tương tự khai thác luật kết hợp, việc phát luật kết hợp có phạm vi rộng Trong luận văn này, đưa thuật toán khai thác luật kết hợp tuyệt đối CSDL tác vụ Việc nghiên cứu khai thác luật CSDL định lượng hướng phát triển 3.1.2 Một số nghiên cứu liên quan Theo hướng tiếp cận đường biên phân chia tập phổ biến tập không phổ biến, luật tuyệt đối không tuyệt đối Y S Koh cộng đề xuất [5,6] dạng luật thú vị luận văn nghiên cứu phát triển mục 3.2 Cũng theo hướng [8, 9], L Szathmary cộng tiến hành khai thác luật với độ hỗ trợ cực tiểu Trong [8], tác giả đưa phương pháp tìm tất tập qua thực thi hai bước: (i) Tìm tất tập cực tiểu; Các tập coi sinh cực tiểu để tìm tập (ii) Tìm tất tập dựa tập cực tiểu Không gian tập chia làm hai phần: tập có độ hỗ trợ “bằng không” tập có độ hỗ trợ “khác không” 33 Như vậy, toàn không gian chia làm vùng Đường biên phân chia vùng phụ thuộc vào giá trị minSup Mỗi vùng phân chia hai tập là: tập phần tử cực đại tập phần tử cực tiểu Trong [4], tác giả đưa thuật toán khai thác tập không tuyệt đối đóng hai ngưỡng, thuật toán dựa thuật toán CHARM [7] khai thác tập phổ biến đóng dựa IT-Tree sử dụng Tidset Thuật toán sử dụng liệu lớn tránh việc phải lưu trữ nhiều tập không tuyệt đối sinh (tập không tuyệt đối đóng có số lượng nhỏ số tập không tuyệt đối nhiều) Tuy nhiên sử dụng tập không tuyệt đối để khai thác luật gặp khó khăn muốn liệt kê hết tất luật không tuyệt đối 3.2 THUẬT TOÁN KHAI THÁC LUẬT HIẾM TUYỆT ĐỐI 3.2.1 Đặt vấn đề Trong [5], Y.S Koh cộng đề xuất thuật toán Apriori-Inverse phát triển từ thuật toán Apriori để tìm tập tuyệt đối từ sinh luật tuyệt đối Apriori thuật toán có độ phức tạp trung bình so với thuật toán khác tìm tập phổ biến cho luật kết hợp Apriori-Inverse có khả chưa phải thuật toán hiệu để tìm tập tuyệt đối Tôi đề xuất giải pháp hiệu việc tìm tập theo định nghĩa [5] cách đề xuất toán phát luật kết hợp X→Y cho: conf(X→Y) > minConf, minASup ≤ sup((X∪Y))< maxSup, ∀x ∈ (X∪Y), sup(x)< maxSup Trong đó, minASup, maxSup, minConf giá trị người sử dụng đưa vào Nhằm hạn chế tập có độ hỗ trợ nhỏ không mong muốn sở nhận xét: luật có độ hỗ trợ nhỏ đến phải dương, thuật toán Apriori-Inverse [5] tìm tập tuyệt đối mà phần tử tập có độ hỗ trợ không nhỏ minASup Đó giá trị phụ thuộc vào CSDL cụ thể (Trong Apriori-Inverse minASup giá trị mặc định, thuật toán đề xuất minASup cung cấp từ người sử dụng) Trong [2] tác giả đề xuất thuật toán tìm tập tuyệt đối hai ngưỡng đóng, định nghĩa tập tuyệt đối [5] tập tuyệt đối hai ngưỡng [2] 34 đóng gần tương đương Tuy nhiên, tìm tập đóng việc xác định tất luật từ tập đóng (tập hiến đóng hỗ trợ tập cho trước có phải tập không, từ kiểm tra số luật theo định người sử dụng) Như vậy, với CSDL vừa nhỏ việc tìm tập đóng không cần thiết gây khó khăn việc sinh tất luật từ tập 3.2.2 Cơ sở lý thuyết Từ nghiên cứu thuật toán CHARM [7] thấy, sử dụng cấu trúc IT-Tree mức khai thác tập tuyệt đối có tốc độ khai thác nhanh so với thuật toán Apriori-Inverse [5] cần duyệt CSDL lần không cần khai thác tập tuyệt đối đóng [2,4] Ngoài ra, [11] tác giả chứng minh rằng, sử dụng IT-Tree, sử dụng Diffset (Differences of tidset) chiếm nhớ sử dụng Tidset Cụ thể xem so sánh Tidset Diffset Bảng 3.1 Bảng 3.1 So sánh tỉ lệ trung bình kích thước Tidset Diffset [11] MinSup Độ dài trung Độ dài trung Tỉ lệ (%) bình Diffset bình Tidset Tidset/Diffset chess 0.5 26 1820 70 connect 90 143 62204 434.99 mushroom 60 622 10.37 pumsb_star 35 301 18977 63.04 Pumsb 90 330 45036 136.47 CSDL Mohammed J Zaki, Karam Gouda.(2003) , “Fast Vertical Mining Using Diffsets”, Proc of ACM SIGKDD international conference on Knowledge discovery and data mining, pp 326-335 Trong bảng 3.1 nhận thấy : Độ dài trung bình Diffset nhỏ độ dài trung bình Tidset nhiều, cụ thể trường hợp với CSDL connect với minsup=90% tỷ lệ Tidset/Diffset lên đến 434.99 Chính độ dài trung bình nhỏ nên khai thác tập liệu vừa, thuật toán xử lý tất liệu nhớ tăng tốc độ xử lý lên nhiều lần so với việc phải sử dụng nhớ nhớ 35 Ví dụ: với CSDL giao dịch Bảng 1.1 thấy, việc sử dụng Diffset (Hình 3.2) để khai thác tập phổ biến sử dụng nhớ so với sử dụng Tidset (Hình 3.1) Hình 3.1Cây IT-Tree sử dụng tidset tìm FI thỏa ngưỡng minSup= 50%[11] Hình 3.2 Cây IT-Tree sử dụng Diffset tìm FI thỏa ngưỡng minSup= 50% [11] Thuật toán khai thác tập tuyệt đối sử dụng Diffset (MPSI_DIFF) Hình 3.3.Trong thuật toán này, điểm khác biệt so với thuật toán tìm tập phổ biến sử dụng Diffset [11] dòng lệnh Tại đây, thuật toán tạo tập 36 mục đơn Tidset chúng thỏa lúc hai điều kiện là: nhỏ maxSup (tính hiếm) lớn minASup (dùng để bỏ qua tập có độ hỗ trợ nhỏ) Đầu vào: CSDL D, minASup, maxSup Đầu ra: Tập tập tuyệt đối MPSI_DIFF Algorithm: [P0] = {i × t(i):i ∈ I,minASup ≤ |t(i)|< maxSup} ENUMERATE_MPSI_DIFF([P0]) ENUMERATE_MPSI_DIFF([P]) SORT([P]) for all li∈ [P] [Pi] = ∅ for all lj∈ [P], with j > i T = d( lj )\ d( li ) if σ (l i ) - |T| ≥minASup then 10 I = li∪ lj // I khởi động rỗng 11 [Pi] = [Pi] ∪ { I × T } 12 For all [Pi] ≠ ∅ ENUMERATE_MPSI_DIFF([Pi]) Hình 3.3 Thuật toán MPSI khai thác tập tuyệt đối Dòng thuật toán gọi hàm ENUMRATE_MPSI_DIFF([P]) Trong hàm bước phát triển IT-Tree sử dụng diffset Dòng lệnh xếp tập [P] theo thứ tự tăng dần độ hỗ trợ Từ dòng lệnh 5-7 xét hội tập mục li với tập mục bên phải I tập lj (dòng 10) Và so sánh độ hỗ trợ li - |diffset(lj) – diffset(li)| với minsup (dòng 9) Nếu thỏa độ phổ biến theo minASup thêm I diffset T vào mức i (dòng 11) Dòng 12, thuật toán gọi hàm ENUMRATE_MPSI_DIFF ([Pi]) đệ quy cho tất trường hợp tập [Pi] khác rỗng để tìm tất tập tuyệt đối Biến maxSup sử dụng lần bước để tạo tất tập đơn có độ hỗ trợ nhỏ maxSup Do mức IT-Tree tạo nút I hội tập đơn nên hiển nhiến tập I có độ hỗ trợ nhỏ maxSup Ví dụ minh họa thuật toán: Giả sử có CSDL giao dịch D giống Bảng 1.1 Mã giao dịch Nội dung giao dịch A, C, T, W C, D, W A, C, T, W 37 A, C, D, W A, C, D, T, W C, D, T Và với maxSup=70%, minASup=20% thuật toán hoạt động sau: Dòng tạo tập item đơn có độ hỗ trợ thỏa lúc điều kiện lớn minASup nhỏ maxSup Vậy P0 = {A × 1345, D × 2456, T × 1356} Tới thuật toán gọi hàm ENUMRATE_MPSI_DIFF để tạo mức Ở mức [P1] ta có li=A, lj D,T Như tập hội chúng AD, AT, DT diffset tương ứng là: Với AD, d(AD) = d(A) \ d(D) = 1345 \ 2456 = 13 Với AT, d(AT) = d(A) \ d(T) = 1345 \ 1356 = Với DT, d(DT) = d(D) \ d(T) = 2456 \ 1356 = 24 Theo dòng lệnh ta có: Với AD : |d(A)| - |d(AD)| = 4-2 = >minASup (2/6 > 20%) AD thuộc [P1], Xét tương tự ta có:|d(A)| - |d(AT)| = - = > minASup AT thuộc [P1], |d(D)| - |d(DT)| = - = > minASup DT thuộc [P1] Ở mức [P2] ta có li = AD, lj AT, DT {} A × 1345 D × 2456 AD × 13 AT × T × 1356 DT × 24 ADT × 13 Hình 3.4 Kết thuật toán MPSI chạy liệu Bảng 1.1 Với ADT ta có : d(ADT) = d(AD) \ d(AT) = 13 \ = 13 Vậy |d(AD)| - |d(ADT)| = < minASup nên ADT không đưa vào [P2] 38 Lần lượt xét tập khác ta có độ hỗ trợ chúng nhỏ minASup nên tập [P2] rỗng Như thuật toán kết thúc Toàn tập tuyệt đối thu {A, D, T, AD, AT, DT} (kết hình 3.4) So sánh với kết ví dụ chạy thuật toán Apriori-Inverse CSDL ta thấy chúng cho kết giống Tuy nhiên, [11] tác giả chứng minh, thuật toán sử dụng IT-Tree với Diffset cho thời gian chạy tốt nhiều so với thuật toán Apriori 3.3 THỰC NGHIỆM – ĐÁNH GIÁ THUẬT TOÁN Để kiểm tra tính hiệu thuật toán trình bày chương Chương trình thuật toán Apriori-Inverse viết ngôn ngữ Java lấy từ nguồn http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php Tác giả viết thêm hàm thực thuật toán đề xuất chương mã nguồn thuật toán viết java, chạy trình biên dịch mã nguồn mở Eclipse Tác giả nghiên cứu việt hóa số chức Khi thực chương trình, hình có cấu trúc hình 3.5 Cấu hình máy tính thực thực nghiệm là: Sony 3.40 GHz xử lý Core i5 GB nhớ chính, chạy hệ điều hành Windows 7.0-64bit Hình 3.5 Màn hình chương trình thực nghiệm Combobox dùng để chọn thuật toán thực Ở có thuật toán để chọn 39 thuật toán Apriori-Inverse thuật toán MPSI_DIFF đề xuất Khi chọn thuật toán, textbox hiển thị cho nhập maxSup, minASup Với textbox chọn file liệu, chọn file liệu cần thực thi dạng file.txt (các file download từ địa nêu trên), ví dụ ta chọn file: Chess.txt, Retail.txt, Connect.txt Pumsb.txt Mục textbox chọn file xuất kết ta định file.txt có sẵn hay file để ghi luật tìm sau trình khai thác Dấu check mục “Mở file kết thuật toán kết thúc” check tự động mở file kết hình Nút lệnh “thực hiện” thực trình khai thác theo thuật toán CSDL chọn, xuất kết file.txt hiển thị thời gian thực thi, khối lượng nhớ tối đa mà thuật toán chiếm trình thực thi Đầu tiên thực nghiệm so sánh thuật toán file CSDL: chess.txt với ngưỡng maxSup 70%, 60%, 50% minASup cố định trường hợp 20% Kết thu hiển thị hình 3.6 Hình 3.6 Kết CSDL chess Lần thứ chạy với CSDL connect với giá trị maxSup minASup tương tự 40 Hình 3.7 Kết CSDL connect Qua thực nghiệm CSDL khác hình 3.6, hình 3.7 thấy, thuật toán MPSI đề xuất có thời gian thực thi tốt nhiều so với thuật toán Aprirori-Inverse [5] Tuy thuật toán cải tiến không trùng lắp với đề xuất có trước, thực khai thác tập tuyệt đối Các phần mở rộng thuật toán tác giả đưa vào phần hướng phát triển tương lai 41 PHẦN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận văn trình bày phần lý thuyết số thuật toán khai thác luật kết hợp luật kết hợp đóng (Apriori, Charm) thuật toán khai thác tập để từ sinh luật : Thuật toán apriori-Inverse khai thác tập tuyệt đối thuật toán MCISI khai thác tập không tuyệt đối đóng dựa thuật toán Charm Tất thuật toán mà luận văn trình bày cho ví dụ minh họa Cũng từ nghiên cứu nêu trên, chương luận văn đề xuất thuật toán khai thác tập tuyệt đối để từ khai thác luật tuyệt đối Thuật toán đề xuất dựa ý tưởng phương pháp IT-tree sử dụng Diffset [11] để khai thác tập phổ biến mà tác giả Zaki cộng đề xuất Trên sở thuật toán khai thác tập phổ biến này, tác giả thay đổi tập mục ban đầu điều kiện sinh tập để khai thác tập tuyệt đối Trong ví dụ minh họa thuật toán Apriori- Inverse MPSI_DIFF CSDL cho thấy kết thuật toán giống Kết thực nghiệm hai thuật toán cho thấy thuật toán đề xuất có thời gian chạy nhanh thuật toán Apriori-Inverse Luận văn sử dụng phép so sánh hai thuật toán có mục đích khai thác tập tuyệt đối CSDL giao dịch Hướng phát triển Các nghiên cứu luận văn tập trung khai thác tập tuyệt đối tập không tuyệt đối CSDL giao dịch Các nghiên cứu CSDL định lượng CSDL biến động để khai thác luật có ích hướng nghiên cứu mở có nhiều nhà nghiên cứu quan tâm Hiện có nhiều thuật toán khai thác song song luật kết hợp, khai thác luật kết hợp CSDL phân tán Việc áp dụng phát triển thuật toán cho khai thác tập luật hướng cần nghiên cứu tiếp Phần thực nghiệm luận văn cần mở rộng so sánh với số thuật toán khác có mục đích khai thác tập tuyệt đối để có kết khách quan Ngoài cần thực nghiệm nhiều loại CSDL khác có tình thực tế cao 42 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Cù Thu Thủy, Hà Quang Thụy (2011), “Phát luật kết hợp Sporadic không tuyệt đối hai ngưỡng mờ”, Tạp chí tin học điều khiển học, tập 27 (2), tr 142-152 [2] Cù Thu Thủy (2012), “Nghiên cứu phát luật kết hợp ứng dụng”, luận án tiến sỹ Đại học Công nghệ - ĐH Quốc Gia Hà Nội [3] Phạm Xuân Hiếu, “Khai phá song song luật kết hợp mờ”(2005) , luận văn thạc sỹ, Đại học Công nghệ- ĐH Quốc Gia Hà Nội Tiếng Anh [4] Cù Thu Thủy, Do Van Thanh (2010), “Mining Imperfectly Sporadic Rules with Tow Tresholds”, International Journal of Computer Theory and Engineering, Vol 2(5), pp.1793-8201 [5] Koh Y S., Rountree N (2005), “Finding Sporadic Rules Using AprioriIverse”, Proc of PAKDD2005, pp.97-106 [6] Koh Y S., Rountree N., O’Keefe R A (2008), “Mining Interesting Imperfectly Sporadic Rule”, Knowledge and Information System, Vol 14(2), pp 179-196 [7] Zaki M J., Hsiao C (1999), CHARM: An Efficient Algorithm for Closed Association Rule Mining, Technical Report 99-10, Computer Science Department, Rensselaer Polytechnic Institute, Troy NY 12180, pp 1-20 [8] Kjkdsa Szathmary L., Napoli A., Valtchev P (2007), “Towards Rare Itemset Mining”, Proc of the 19th IEEE International Conference on Tools with Artificial Intelligence, pp 305-312 [9] Szathmary L., RareAssociation Valtchev P., Rules Using and Napoli Minimal A Rare (2010), “Generating Itemsets Family”, InternationalJournal of Software and Informatics, Vol (3), pp 219-238 [10] Agrawal R., Imielinski T., and Swami A (1993), “Mining Association Rules between Sets of Items in Large Databases”, Proc of ACM SIGMOD Conf Management of Data, pp 207-216 43 [11] Mohammed J Zaki, Karam Gouda.(2003) , “Fast Vertical Mining Using Diffsets”, Proc of ACM SIGKDD international conference on Knowledge discovery and data mining, pp 326-335 ... vào việc nghiên thuật toán khai thác tập phổ biến, khai thác luật kết hợp, luật kết hợp Từ đó, luận văn đề xuất thuật toán khai thác luật kết hợp làm tăng hiệu khai thác, cài đặt chương trình... MSHV: 1300860048 I- Tên đề tài: KHAI THÁC LUẬT KẾT HỢP HIẾM II- Nhiệm vụ nội dung: - Tìm hiểu thuật toán khai thác luật kết hợp - Tìm hiểu thuật toán khai thác luật kết hợp - Xây dựng ví dụ cho thuật... toán Apriori khai thác tập phổ biến 1.2.2.2 Thuật toán CHARM khai thác tập phổ biến đóng 11 1.2.3 Thuật toán khai thác luật kết hợp 20 CHƯƠNG KHAI THÁC LUẬT KẾT HỢP HIẾM 22

Ngày đăng: 11/09/2017, 20:37

Mục lục

    CHƯƠNG 1 TỔNG QUAN VỀ KHAI THÁCDỮ LIỆU

    1.1 GIỚI THIỆU ĐỀ TÀI

    1.2.2.2 Thuật toán CHARM khai thác tập phổ biến đóng

    1.2.3 Thuật toán khai thác luật kết hợp

    CHƯƠNG 2 KHAI THÁC LUẬT KẾT HỢP HIẾM

    2.1.1 Luật kết hợp hiếm

    2.2 Một số thuật toán khai thác luật hiếm

    2.2.2 Thuật toán tìm luật hiếm không tuyệt đối

    CHƯƠNG 3 MỘT ĐỀ XUẤT KHAI THÁC LUẬT KẾT HỢP HIẾM

    3.1 CÁC NGHIÊN CỨU LIÊN QUAN

Tài liệu cùng người dùng

Tài liệu liên quan