1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác luật kết hợp tối thiểu sử dụng dàn tập đóng

79 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 13,47 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - VÕ MINH QUÂN KHAI THÁC LUẬT KẾT HỢP TỐI THIỂU SỬ DỤNG DÀN TẬP ĐÓNG LUẬN VĂN THẠC SỸ Chuyên ngành: Công nghệ Thông tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 04 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - VÕ MINH QUÂN KHAI THÁC LUẬT KẾT HỢP TỐI THIỂU SỬ DỤNG DÀN TẬP ĐÓNG LUẬN VĂN THẠC SỸ Chuyên ngành: Công nghệ Thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TS LÊ HOÀI BẮC TP HỒ CHÍ MINH, tháng 04 năm 2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS TS Lê Hoài Bắc Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày11 tháng 04 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên PGS.TS Lê Trọng Vĩnh GS.TSKH Hoàng Văn Kiếm TS Võ Đình Bảy PGS.TS Đỗ Phúc TS Nguyễn Văn Mùi Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận c Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV PGS TS Lê Trọng Vĩnh TRƯỜNG ĐH CƠNG NGHỆ TP HCM PHỊNG QLKH – ĐTSĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 18 tháng 03 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: VÕ MINH QUÂN Giới tính: Nam Ngày, tháng, năm sinh: 02/10/1980 Nơi sinh: Phú Quốc – Kiên Giang Chuyên ngành: Công nghệ Thông tin MSHV: 1341860017 I- Tên đề tài : KHAI THÁC LUẬT KẾT HỢP TỐI THIỂU SỬ DỤNG DÀN TẬP ĐÓNG II- Nhiệm vụ nội dung : - Tập trung tìm hiểu, đánh giá đề xuất hướng tiếp cận hiệu thuật toán khai thác luật kết hợp cross-level sử dụng dàn tập đóng - Khảo sát phương pháp khai thác luật kết hợp cross -level sử dụng dàn tập đóng có - Định hướng đề xuất hướng tiếp cận khai thác luật kết hợp cross-level dùng dàn tập ng III- Ngày giao nhiệm vụ:18/08/2014 IV- Ngày hoàn thành nhiệm vụ: 14/03/2015 V- Cán hướng dẫn: PGS.TS LÊ HOÀI BẮC CÁN BỘ HƯỚNG DẪN PGS.TS LÊ HOÀI BẮC KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Võ Minh Quân ii LỜI CÁM ƠN Trong suốt q trình học tập hồn thành luận văn này, nhận hướng dẫn, giúp đỡ q báu q thầy cơ, gia đình, bạn bè đồng nghiệp Với lịng kính trọng biết ơn sâu sắc xin bày tỏ lời cảm ơn chân thành tới: Khoa Cơng Nghệ Thơng Tin, Phịng Quản lý Khoa học - Đào tạo sau Đại học trường Đại Học Cơng Nghệ Thành Phố Hồ Chí Minh tạo điều kiện thuận lợi giúp đỡ q trình học tập hồn thành luận văn Thầy hướng dẫn Phó Giáo sư - Tiến sĩ Lê Hoài Bắc, thầy truyền đạt kiến thức bổ ích cho tơi q trình học tập, hết lịng tạo điều kiện giúp đỡ tơi q trình hồn thành luận văn Anh Lương Hữu Phúc, hết lòng giúp đỡ, hướng dẫn cho tơi q trình thực luận văn Tồn thể q thầy nhiệt tình giản g dạy truyền đạt kiến thức bổ ích cho tơi suốt khóa học vừa qua Cuối xin cảm ơn đến tất người thân gia đình, bạn bè đồng nghiệp giúp đỡ suốt trình học tập thực luận văn Võ Minh Quân iii MỤC LỤC MỞ ĐẦU Chương TỔNG QUAN Chương CƠ SỞ LÝ THUYẾT 2.1 Khai thác tập phổ biến 2.1.1 Một số định nghĩa 2.1.2 Thuật toán khai thác tập phổ biến Apriori 2.2 Khai thác tập phổ biến đóng 11 2.2.1 Một số định nghĩa 11 2.2.2 Thuật toán khai thác tập phổ biến đóng (CHARM) [3 1] 12 2.3 Dàn tập phổ biến đóng 15 2.3.1 Định nghĩa 15 2.3.2 Một số thuật tốn khai thác dàn tập phổ biến đóng 15 2.3.2.1 Thuật toán CHARM-L [31] 15 2.3.2.2 Thuật tốn xây dựng dàn tập đ óng [2] 17 2.4 Tập sinh tối tiểu (minimal Generator – mG) [30] 19 2.5 Khai thác luật kết hợp tối thiểu không dư thừa từ dàn tập đóng 20 2.5.1 Một số định nghĩa 20 2.5.2 Thuật tốn khai thác MNAR từ dàn tập đóng [26] 20 Chương THUẬT TOÁN MMCAR 22 3.1 GIỚI THIỆU 22 3.1.1 Tính tốn độ phổ biến item 22 3.1.2 Xây dựng dàn tập đóng mức xác định 23 3.1.3 Các luật kết hợp tối thiểu không dư thừa cross -level 23 3.1.3.1 Dàn ứng cử viên 25 3.1.3.2 Tính tốn mG, TidList độ hỗ trợ tối thiểu 32 3.1.3.3 Sinh luật kết hợp cross-level từ dàn tập đóng 33 3.2 MƠ TẢ THUẬT TỐN MMCAR 33 iv 3.3 ĐỀ XUẤT HƯỚNG TIẾP CẬN MỚI 45 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 50 4.1 MÔ TẢ CHIẾN LƯỢC VÀ DỮ LIỆU THỰC NGHIỆM 50 4.2 SO SÁNH, ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 58 TÀI LIỆU THAM KHẢO 59 PHỤ LỤC v DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT Từ Tiếng Anh Giải thích CCL Cross-level Closed-Itemset Lattices Dàn tập đóng cross-level CFCI Cross-level Frequent Closed Itemsets Tập phổ biến đóng cross-level CSDL Database(s) Cơ sở liệu DFS Depth First Search Tìm theo chiều sâu FI Frequent Itemset(s) Tập phổ biến FCI Frequent Closed Itemsets Tập phổ biến đóng FCI-List Frequent Closed Itemsets List Danh sách tập phổ biến đóng FIL Frequent Itemsets Lattice Dàn tập phổ biến FCIL Frequent Itemsets Lattice Dàn tập phổ biến đóng Item Mục Itemset Tập mục MFIL Modification of Frequent Itemset Dàn tập phổ biến thay đổi Lattice MMCAR Minimal Non-redundent Multilevel Luật không dư thừa tối thiểu đa and Cross-level Assocication Rules MNAR cấp cross-level Minimal Non-redundent Assocication Luật không dư thừa tối thiểu Rule(s) mFI Multilevel Frequent Itemsets Tập phổ biến đa cấp mFCI Multilevel Frequent Closed Itemsets Tập phổ biến đóng đa cấp mG(MG) Minimal Generator Tập sinh tối tiểu minSup Minimum Support Độ hỗ trợ tối thiểu minConf Minimum Confidence Độ tin cậy tối thiểu Subset Tập Superset Siêu tập Tid(TID) Transaction identifier Danh định giao dịch TidList Transaction identifier List Danh sách danh định giao dịch Support Độ phổ biến Ø Tập rỗng vi ∈ Thuộc ∃ Tồn ⋂ Phép giao ⊂ Chứa hồn tồn ⊈ Khơng chứa ≥ Lớn ≡ Tương đương ∉ Không thuộc ∄ Không tồn ⋃ Phép hợp ⊆ Chứa ≠ Khác ≤ Nhỏ ∀ Với 52 Bảng 4.4 Kết thực nghiệm liệu Retail Bảng Kết thực nghiệm liệu Pumsb Trong đó, Phương pháp thuật toán MMCAR, Phương pháp phương pháp đề xuất Mỗi dịng bảng kết trung bình cộng lần thi hành chương trình ứng với mã hóa, tương ứng với độ đo minSup minConfđã sử dụng để thực nghiệm thuật toán MMCAR 53 4.2 SO SÁNH, ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM Hình 4.1 – 4.4so sánh thời gian xây dựng dàn Phương pháp từ liệu Mushroom, Chess, Pumsb Retail, ứng với thay đổi số nhóm minSup Hình 4.1 Thời gian xây dựng dàn từ liệu Mushroom với giá trị khác minSup số nhóm Hình 4.2 Thời gian xây dựng dàn từ liệu Chess với giá trị khác minSup số nhóm 54 Hình 4.3 Thời gian xây dựng dàn từ liệu Pumsb với giá trị khác minSup số nhóm Hình 4.4 Thời gian xây dựng dàn từ liệu Retail với giá trị khác minSup số nhóm 55 Hình 4.5 Lượng nhớ cần thiết để xây dựng dàn từ liệu Mushroom với giá trị khác minSup số nhóm Hình 4.6 Lượng nhớ cần thiết để xây dựng dàn từ liệu Chess với giá trị khác minSup số nhóm 56 Hình 4.7 Lượng nhớ cần thiết để xây dựng dàn từ liệu Pumsb với giá trị khác minSup số nhóm Hình 4.8 Lượng nhớ cần thiết để xây dựng dàn từ liệu Retail với giá trị khác minSup số nhóm Hình 4.5 – 4.8 so sánh lượng nhớ cần thiết để xây dựng dàn Phương pháp từ liệu Mushroom, Chess, Pumsb Retail, ứng với thay đổi số nhóm minSup 57 Các kết cho thấy thay đổi số nhóm minSup ảnh hưởng đến: i) Thời gian để xây dựng dàn ii) Lượng nhớ cần thiết để dựng dàn Và hầu hết trường hợp, phương pháp đề xuất có kết chi phí tốt so với phương pháp so sánh (thuật toán MMCAR) thời gian nhớ, kết số luật kết hợp đa cấp cross -level khai thác tương đương Từ cho thấy, phương pháp đề xuất hiệu so với thuật toán MMCAR Mặt khác, phương pháp đề xuất bỏ qua việc xây dựng dàn -item không cần phải duyệt DFS để sinh tập đóng ứng viên sử dụng trực tiếp tập đóng sinh làm ứng v iên giao 58 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt luận văn Luận văn tập trung tìm hiểu kỹ thuật khai thác luật kết hợp đa cấp cross-level sử dụng dàn tập đóng, dựa việc khai thác hiệu hành vi dàn Qua đó, luận văn đề xuất hướng tiếp cận hiệu dựa vào kỹ thuật tìm hiểu Phương pháp đề xuất hiệu khơng phải tốn khơng gian lưu trữ dàn ứng viên, dàn tập phổ biến đóng cross -level tạo từ tập phổ biến đóng cross-level thuật tốn xây dựng dàn tập phổ biến đóng hiệu Ngồi ra, phương pháp đề xuất không tốn thời gian để duyệt dàn theo DFS để sinh tập đóng ứng viên Phương pháp đề xuất thực nghiệm CSDL thực với số mức phân cấp khai thác thành công luật kết hợp tối thiểu đa cấp cross level, với số luật cung cấp nhiều thông tin Các luật kết hợp khai thác phương pháp đề xuất có ảnh hưởng lớn lĩnh vực ứng dụng thực tế đầy thách thức như: máy học, sinh học, trí tuệ nhân tạo, thống kê , … Hướng nghiên cứu Các hướng nghiên cứu tương lai tập trung khai thác luật kết hợp tối thiểu đa cấp cross -level CSDL lớn , ra, mở rộng số mức phân cấp cao Bên cạnh tiếp tục nghiên cứu áp dụng vào CSDL thực tế để thấy đóng góp đề tài vào thực tiễn Mặc dù thân cố gắng tập trung nghiên cứu tham khảo tài liệu, báo, tạp chí khoa học ngồi nước, trình độ cịn n hiều hạn chế nên tránh khỏi thiếu sót Rất mong nhận đóng góp quý thầy cô nhà khoa học để luận văn hoàn thiện 59 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lê Hồi Bắc & Võ Đình Bảy Khai thác luật thiết yếu từ tập phổ biến đóng Science & Technology Development, Vol 11, No.01 – 2008, 40-50 [2] Lê Hồi Bắc & Võ Đình Bảy Ứng dụng dàn tập đóng khai thác luật thiết yếu Tạp chí Phát triển KH&CN, tập 12, số 11-2009, 49-56 [3] Lê Hồi Bắc & Võ Đình Bảy Thuật tốn tìm nhanh Minimal Generator tập phổ biến đóng Tạp chí Phát triển KH&CN, tập 10, số 12-2007, 11-19 [4] Võ Đình Bảy (2011) Nâng cao hiệu thuật toán khai thác luật kết hợp dự dàn Luận văn Tiến sĩ, Khoa Học Máy Tính, ĐHKHTN Tiếng Anh [5] Agrawal, R., & Srikant, R (1994) Fast algorithms for mining association rules in large databases In VLDB (pp 487–499) [6] Agrawal, R., & Srikant, R (1995) Mining sequential patterns In ICDE (pp 3–14) [7] Agrawal, R., Imielinski, T., & Swami, A.N (1993) Mining association rules between sets of items in large databases In SIGMOD conference (pp 207–216) [8] Ahmed, C F., Tanbeer, S K., Jeong, B.-S., Lee, Y.-K., & Choi, H.-J (2012) Single-pass incremental and interactive mining for weighted frequent patterns Expert Systems with Applications, 39(9), 7976–7994 [9] Alramouni, S.,& Lee, J Y (2005) Mining multiple-level association rules from a transactional database using fp-tree In DMIN (pp 97–103) [10] Bastide, Y., Pasquier, N., Taouil, R., Stumme, G., & Lakhal, L (2000) Mining minimal non-redundant association rules using frequent closed itemsets In Computational logic (pp 972–986) [11] Brin, S., Motwani, R., & Silverstein, C (1997) Beyond market baskets: Generalizing association rules to correlations In SIGMOD conferencepp (265– 276) 60 [12] Han, J., & Fu, Y (1995) Discovery of multiple-level association rules from large databases In VLDB (pp 420–431) [13] Han, J., Pei, J., & Yin, Y (2000) Mining frequent patterns without candidate generation In SIGMOD conference (pp 1–12) [14] Han, J., & Fu, Y (1999) Mining multiple-level association rules in large databases IEEE Transactions on Knowledge and Data Engineering, 11(5), 798– 804 [15] Jia, L., Yao, J., & Pei, R (2003) Mining association rules with frequent closed itemsets lattice In KES (pp 469–475) [16] ki Leung, C W., fai Chan, S C., & Chung, F.-L (2008) An empirical study of a cross-level association rule mining approach to cold-start recommendations Knowledge Based Systems, 21(7), 515–529 [17] Loglisci, C., & Malerba, D (2009) Mining multiple level non-redundant association rules through two-fold pruning of redundancies In MLDM (pp 251– 265) [18] Pei, J., Han, J., & Mao, R (2000) Closet: An efficient algorithm for mining frequent closed itemsets In ACM SIGMOD workshop on research issues in data mining and knowledge discovery(pp 21–30) [19] Shrivastava, V K., Kumar, P., & Pardasani, K R Fp-tree and cofi based approach for mining of multiple level association rules in large databases arXiv:1003.1821 [20] Srikant, R., & Agrawal, R (1995) Mining generalized association rules In VLDB(pp 407–419) [21] Srikant, R., & Agrawal, R (1996) Mining sequential patterns: Generalizations and performance improvements In EDBT (pp 3–17) [22] Tahrima, H., Chowdhury, F A., Md Samiullah., Sayma, A & Byeong-Soo, J (2014) An efficient approach for mining cross-level closed itemsets and minimal association rules using closed itemset lattices Expert Systems with Applications 41 (2014) 2914–2938 [23] Thakur, R., Jain, R., & Pardasani, K (2006) Mining level-crossing association 61 rules from large databases Journal of Computer Science, 2(1), 76–81 [24] Vo, B., & Le, B (2009) Mining traditional association rules using frequent itemsets lattice In 39th international conference on computers and industrial engineering (pp 1401–1406) [25] Vo, B., & Le, B (2009) Fast algorithm for mining minimal generators of frequent closed itemsets and their applications In 39th international conference on computers and industrial engineering (pp 1407–1411) [26] Vo, B., & Le, B (2011) A frequent closed itemsets lattice-based approach for mining minimal non-redundant association rules arXiv:1108.5253 [27] Vo, B., & Le, B (2011) Mining minimal non-redundant association rules using frequent itemsets lattice IJISTA, 10(1), 92–106 [28] Wan, Y., Liang, Y., & Ding, L -Y (2008) Mining multiple association rules with dynamic concept hierarchy In Seventh international conference on machine learning and cybernetics (pp 287–292) [29] Wu, T., Chen, Y., & Han, J (2007) Association mining in large databases: A reexamination of its measures In PKDD (pp 621–628) [30] Zaki, M J (2004) Mining non-redundant association rules Data Mining and Knowledge Discovery, 9(3), 223–248 [31] Zaki, M J., & Hsiao, C.-J (2005) Efficient algorithms for mining closed itemsets and their lattice structure IEEE Transactions on Knowledge and Data Engineering, 17(4), 462–4 PHỤ LỤC Bổ đề Qua dàn với , ,…, , ,…, với dàn , tạo dàn , , cặp dàn sinh dàn kết dư thừa ,…, , , ,…, dàn , , ,…, , Tuy nhiên, việc xem xét hai Chứng minh Dàn dàn , ,…, , , ,…, chứa item mức a 1,a2,…,ak-1,ak Tương tự, , , ,…, chứa item tương ứng với mức , a1,a2,…,ak-1,ak+1 a2,a3,…,ak,ak+1 Nếu xét qua hai dàn , ,…, dàn , , ,…, , ,…, , với dàn , tạo dàn chứa item từ , mức a1,a2,…,ak-1,ak,ak+1 Trong thực tế, dàn , ,…, , Do đó, hai , cặp tương đương tạo dàn dư thừa xét qua thời điểm Bổ đề Khi duyệt tập nútT dàn , ,…, để giao với dàn , khác, nút xét thứ tự duyệt t heo chiều sâu (Depth First Search DFS) thực đầu tiên, đảm bảo tập phổ biến đóng lớn khai thác Chứng minh Từ thuộc tính dàn, rõ ràng là, dàn CFCI=∅ Với nútT={CFCIT,TIDT,MGT}∈t CT∈t , ,…, , , ,…, ,…, , , có nút gốc TR chứa chứa tập nút , , ∀iCT[i]={CFCICT[i],TIDCT[i],MGCT[i]}, ∀iCFCICT[i]⊃ CFCIT , TIDCT[i]⊂ TIDT Do đó, nút mức Tleaf dàn , ,…, , chứa CFCI lớn nút mức tương ứng chứa CFCI nhỏ Vì vậy, nút sâu với itemset dài khám phá trình tự duyệt DFS Bổ đề Khi giao hai nút T1={ T2={ , , }∈t , ,…, , , , } ∈t , ,…, , để tạo tất subset bao phủ tất CFCI tạo cách giao nút ứng viên T1 T2, với Chứng minh: ⊂ đoạn itemset xung đột Xét, ∪ T2={ ∪ ={ }, , , ⊂ (CFCIcon) ∪ với T1={ }∈t ⊂ ∪ , ,…, (CFCImat) ∪ , , } ∈t , Rõ ràng ∪ ={ , ,…, , All_subset(CFCI) (CFCIdis) Cho T1 T2, ⊂ Hơn nữa, k=1 } = = ∅ Xét k=n>1, subset CFCImat cho T1 T2 tính tốn theo phương pháp xây dựng CFCI, với bước k=1,2, ,n-1, subset có chiều dài khác CFCImat tính tốn Do đó, việc tính tốn lại subset CFCImat cho kết dư thừa tránh cách an toàn cách tạo subset lớn nhất, CFCImat Một lần nữa, việc tính tốn tất subset cho CFCIdisT1 CFCIdisT2 khơng cần thiết Do tính chất dàn, rõ ràng subset, khác với , khơng kết thúc CFCI Vì từ subset khác tạo subset thực tế CFCI kết với độ hỗ trợ nhau, điều trái với tính chất tập phổ biến đóng Do đó, tránh việc tính tốn subset Các subset đoạn itemset item tránh Vì xung đột DESC(subset( giải Kết là, giao hai nút T1={ , }∈t đó: , ,…, CFCIS = {CFCImat∪ Với CFCImat= cách gỡ }\ DESC( , , , ,…, , } ∈t , ,…, , , , ,…., ∪ }, (1) , = ∪ { }, ∪ )} }∈t , ,…, cho S=T1×T2={CFCIS,TIDS,MGS}, , Bổ đề Cho hai nút T1={ , bỏ , bao = itemset giải xung đột T1 T2= {{ , T2={ Do đó, cần tính subset đủ để tính CFCI nút kết dàn , )) từ ∅ đến )), với DESC(subset( gồm tất subset T2={ tốt , , , } ∈t , ,…, , , đoạn itemset gộp T1 ′ ⊆CFCIP đoạn itemset gộp T2 ′ ⊆CFCIQ, itemset kết không CFCI, với P Q nút cha tương ứng T1 T2 Chứng minh: Cho hai dàn T1={ ∈t , , ,…, } ∈t , , , ,…, , T2={ Q={CFCIQ,TIDQ,MGQ} ∈t , , ,…, ,…, , với mnút ,…, ,…, , với nnút, , có nút cha P={CFCIP,TIDP,MGP} , , }∈t , có nút cha ′ ⊆ đoạn itemset gộp T1 , ′ CFCIP đoạn itemset gộp T2 là CFCI Bởi vì, theo định nghĩa dàn, ⊂TIDP , ⊆CFCIQ, itemset kết khơng ⊂CFCIP ⊂CFCIQ, với ⊂TIDQ Giao hai nút T1 T2 để xây dựng CFCI nghĩa giao , mà đòi hỏi sinh subset ⊂ 3, rõ ràng cần subset Hơn nữa, từ bổ đề ′ đủ, với chứa đoạn lõi Vì vậy, nút cha dàn có itemset với lực lượng nhỏ lực lượng itemset nó, nhiên, với độ phổ biến lớn độ ′ phổ biến itemset Do Nếu ⊆CFCIP ′ ⊆CFCIQ, nên hỗn xây dựng CFCI CFCI xây dựng mâu thuẫn với định nghĩa tập phổ biến đóng nút giả tạo Bổ đề Cho hai nút T1={ T2={ , T1 CFCImat , , =∅ T2 , }∈t , ,…, , , T2={ T1 với k≥2 ∪ { T1 hai nút }∈t T1={ , ,…, , , ,…, }=∅ , và } ∈t , Nếu , { , , ,…, , , itemset giải xung đột T1 itemset giải xung đột T2 T2 itemset trùng khớp cho hai nút tương ứng , ∪ , }=∅, nút kết S∉ , , ,…, itemset giải xung đột T2 T2 giao , , , itemset giải xung đột T1 Chứng minh: Khi } ∈t , ,…., , , đoạn itemset riêng biệt cho T1 T2 Với k≥1, CFCImat=∅, với k≥2, CFCImat=∅ từ bổ đề 1, nút phải thuộc dàn , không thuộc dàn kết , ,…, đó, {T1 Và {T1 , , ∪ , ∪ } itemset mức }=∅ cho kết nút chứa tập phổ biến từ mức a2,a3, ,ak+1 nút dàn {T2 , {T1 , ∪ ∪ }=∅ , nút kết S∉ , cách giao , }∈t T1={ , Chứng minh Theo bổ đề 4, ∀i cha ith T1, ∀j , ,…, ′ ′ , , , , ∩ TIDS = nút ′ , ⊂ ≡ Tid item tập ′ ′ , ⊄ ≡ , , tìm , ′ tương ứng ′ , ⊇ trường ∩ ′ , đại diện cho danh sách ′ Theo công thức (2), CFCIS = Bổ đề Cho nút kết S={CFCIS,TIDS,MGS} ∈t , ,…, ′ ≡ ′ , TIDS = ,…, tập đóng độc lập, thuộc vào nút khác Do đó, ,…, , , ⊈CFCIQ[j], với Q[j]={CFCIQ[j],TIDQ[j],MGQ[j]} cha jth ′ Tuy nhiên, dựa vào tính chất dàn, hợp đó, Ngồi ra, , ⊈ CFCIP[i], với P[i]={CFCIP[i],TIDP[i],MGP[i]} ′ Rõ ràng T2={ ,…, } ∈t , T2 Xét danh sách Tid item tập ,…, Bổ đề Cho nút kết S={CFCIS,TIDS,MGS} ∈t T2={ dàn , } itemset mức ak+1 Kết là, chứa tập phổ biến mức a2,a3, ,ak Do cách giao , }∈t ⎧ Chứng minh ⎨ ⎩ T1={ , ,…, ∪ , , } ∈t , , thì: , ế , ế , ế , ế = ⊂ ⊂ , , ,…, ,…, ′ , , ∪ , có ≠ Từ định nghĩa, mG subset không rỗng nhỏ tập phổ biến đóng với TidList giống tập phổ biến đóng [25] Nếu = , TIDS = = = TIDS Do đó, MGS subset khơng rỗng nhỏ item , tương ứng với = Tuy nhiên, nút T1 thuộc dàn có mức cao nút T2 Do đó, để trì tính chất dàn việc tính tốn MG, suy MGS = Nếu ⊂ , TIDS = ⋂ subset khơng rỗng nhỏ item MGS = TIDS = Do đó, MGS , tương ứng với , suy tương tự (2) ≠ , TIDS = ⋃ TIDS⊂ Do đó, MGS subset khơng rỗng nhỏ item từ , tương ứng từ pha trộn , suy ra, MGS = TIDS⊂ ∪ ... : KHAI THÁC LUẬT KẾT HỢP TỐI THIỂU SỬ DỤNG DÀN TẬP ĐÓNG II- Nhiệm vụ nội dung : - Tập trung tìm hiểu, đánh giá đề xuất hướng tiếp cận hiệu thuật toán khai thác luật kết hợp cross-level sử dụng. .. sử dụng dàn tập đóng - Khảo sát phương pháp khai thác luật kết hợp cross -level sử dụng dàn tập đóng có - Định hướng đề xuất hướng tiếp cận khai thác luật kết hợp cross-level dùng dàn tập ng III-... [10], quan tâm khai thác luật kết hợp với tiền đề tối thiểu hiệu suất tối đa , phân biệt hai kiểu luật dựa giá trị độ tin cậy: luật kết hợp tối thiểu xác gần Các luật kết hợp xác tối thiểu với độ

Ngày đăng: 05/03/2021, 15:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN