Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 149 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
149
Dung lượng
1,94 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ ĐÌNH BẢY NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN L Tp. Hồ Chí Minh – 2011 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ ĐÌNH BẢY NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN : chuyên ngành: 62.48.01.01 1: PGS. Tp. Hồ Chí Minh – 2011 -i- Lời cam đoan Tôi xin cam an rng ni dung ca lun án này là kt qu nghiên cu ca chính bn thân. Tt c nhg tham kho t các nghiên cu có liên quan . nêu trong anh . Tác gi lun án -ii- Lời cảm ơn Lời đầu tiên, em xin bày tỏ lòng biết ơn sâu sắc đến Thầy, PGS. TS. Lê Hoài Bắc bởi nhờ sự động viên, chỉ bảo, hướng dẫn tận tình của Thầy, em mới có thể hoàn thành luận án này. Em cũng xin chân thành gửi lời cảm ơn đến các Thầy Cô trong khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên Tp. HCM đã tận tình dạy dỗ, chỉ bảo nhiều kiến thức quí báu giúp em hoàn thành khóa học đúng tiến độ. Xin cảm ơn Phòng Sau đại học về những hỗ trợ về mặt thủ tục, giấy tờ. Xin cảm ơn các đồng nghiệp, bạn bè đã động viên tôi trong suốt thời gian thực hiện luận án này. Không có sự động viên kịp thời của các thầy – cô và các bạn, tôi khó hoàn thành luận án đúng hạn. Cuối cùng, xin chân thành cảm ơn cha mẹ, vợ con và anh chị em đã khích lệ, động viên, tạo điều kiện thuận lợi cho tôi trong suốt thời gian làm nghiên cứu sinh. 11 -iii- ii vi viii ix 1 1.1. Khai thác d 1 2 6 7 8 9 11 11 11 12 26 26 28 34 2.3. Dàn 37 37 dàn -L) 39 44 44 44 51 51 -iv- 52 52 53 54 55 DÀN 58 3.1. Khdàn 58 dàn 58 61 66 74 76 77 80 88 ây 90 91 93 95 97 101 DÀN 103 dàn 104 104 105 107 -v- dàn 108 112 114 114 115 121 121 124 125 -vi- Danh mục các kí hiệu, chữ viết tắt STT 1 AR Association Rule(s) 2 CHARM Closed Association Rule Mining 3 Cidset Closed identifiers set 4 C k Cadidate k-itemsets tem. 5 CSDL Database(s) 6 Diffset Difference set 7 Eclat Equivalence class tranformation 8 FCI Frequent Closed Itemset(s) 9 FCIL Frequent Closed Itemset Lattice Dàn c 10 FI Frequent Itemset(s) 11 FIL Frequent Itemset Lattice 12 FP-tree Frequent Pattern-tree Cây FP 13 I Items 14 IT-tree Itemset-Tidset tree Cây IT 15 L k Large k-itemsets k item. 16 MFIL Modification of Frequent Itemset Lattice 17 minConf Minimum confidence 18 mG Minimal Generator -vii- 19 minSup Minimum support 20 minSupCount Minimum support count (tính theo 21 MNAR Minimal Non-redundant Association Rule(s) L 22 NAR Non-redundant Association Rule(s) L 23 P(I) Power set of I I 24 T Transactions C 25 t(X) Transaction Identifiers containing X C 26 Tidset Transactions identifier set các 27 Support 28 ng 29 -viii- Danh mục các bảng 10 13 15 16 26 32 45 49 54 64 66 67 TW 74 75 76 78 80 minConf = 80% 96 minSupCount = 3 106 k và n trên các CSDL 107 112 117 117 tw 118 [...]... độ, v.v Khai thác luật kết hợp l tìm ra các mối quan hệ giữa các item với nhau Khác với luật phân lớp, vế phải của luật kết hợp có thể chứa một hay nhiều item Vì vậy, độ phức tạp của b i toán khai thác luật kết hợp lớn hơn nhiều so với b i toán khai thác luật phân lớp Từ khi b i toán khai thác luật kết hợp đƣợc phát biểu v o năm 1993 bởi Agrawal v các đồng sự [B6] đến nay đ có khá nhiều thuật toán đƣợc... quan về khai thác dữ liệu, các khái niệm tập phổ biến, tập phổ biến đóng, d n v luật kết hợp Chƣơng 2: Trình b y cơ sở lý thuyết li n quan đến khai thác tập phổ biến, khai thác tập phổ biến đóng, thuật toán xây dựng dàn tập đóng, các thuật toán -9- khai thác luật kết hợp hiện có l m cơ sở cho các đóng góp ở chƣơng 3 v chƣơng 4 Chƣơng 3: Các đóng góp của luận án li n quan đến khai thác luật kết hợp dựa. .. Khai thác luật kết hợp, phân lớp v gom nhóm dữ liệu Từ các b i toán n y, các nhóm nghi n cứu đ mở rộng cho việc khai thác dữ liệu văn bản [B21], khai thác dữ liệu không gian, thời gian, khai thác dữ liệu Web, v.v… Khai thác luật phân lớp l tìm ra các qui luật để từ đó dự đoán nh n của các mẫu chƣa biết trƣớc lớp Muốn vậy, từ cơ sở dữ liệu (CSDL) cần phân lớp, chúng ta khai thác các luật với vế phải l các. .. thống, việc sinh tất cả các luật kết hợp từ CSDL D thỏa minSup v minConf gặp nhiều bất lợi (do tính dƣ thừa của tập luật hiểu theo nghĩa dựa tr n độ phổ biến, độ tin cậy) Do đó cần có một phƣơng pháp thích hợp để khai thác với số luật ít hơn nhƣng vẫn bảo đảm tích hợp đầy đủ tất cả các luật của phƣơng pháp khai thác truyền thống Một cách tiếp cận l khai thác luật kết hợp không dƣ thừa dựa v o tập phổ biến... biến của luật v p l độ tin cậy của luật Khai thác luật kết hợp là sinh các luật từ CSDL D thỏa ngƣỡng phổ biến v ngƣỡng tin cậy do ngƣời dùng chỉ định Trong số n y có thể kể đến các phƣơng pháp dựa v o độ phổ biến v độ tin cậy nhƣ: Khai thác luật truyền thống [A2, B6, B7], khai thác luật thu gọn (không sinh luật thỏa tính chất bắc cầu) [A5, A8], khai thác luật không dƣ thừa [A6, A7, B97, B101], khai. .. triển các thuật toán hiệu quả để khai thác luật, đặc biệt l ứng dụng d n trong giai đoạn này D n đ đƣợc phát triển khá sớm trong toán học nhƣng việc ứng dụng dàn vào việc sinh luật kết hợp còn sơ khai, chƣa có nhiều các đóng góp Trong thực tế, khi số lƣợng tập phổ biến hay phổ biến đóng tăng l n, thời gian để sinh luật kết hợp cũng tăng theo Vì vậy, việc ứng dụng d n để khai thác nhanh luật kết hợp đƣợc... tăng hiệu quả khai thác luật kết hợp nhƣ: Các thuật toán phát triển từ Apriori [B7, B13, B15, B17, B64, B65], các thuật toán phát triển từ FP-tree [B16, B31, B38, B66, B91], các thuật toán phát triển từ IT-tree [B17, B96, B98, B103] Ngoài ra còn có các thuật toán nhƣ DCI [B57, B61, B62], LCM [B82], BitTableFI [B26] và Index-BitTableFI [B73], một cải tiến của BitTableFI để l m giảm thời gian khai thác. .. biến Tuy các cách tiếp cận có khác nhau nhƣng điểm chung của các thuật toán khai thác luật kết hợp l chia b i toán th nh hai giai đoạn: i) Khai thác tất cả các tập phổ biến (FI – Frequent Itemsets) hay tập phổ biến đóng (FCI – Frequent Closed Itemsets) ii) Sinh luật kết hợp từ FI/FCI của giai đoạn i) Có thể nói, cùng với sự phát triển mạnh mẽ của công nghệ thông tin v truyền thông thì ng nh khai thác dữ... Hình 2.22 – Thuật toán sinh luật từ tập FI dựa v o bảng băm 48 Hình 2.23 – Thuật toán sinh luật không dƣ thừa tối tiểu có độ tin cậy 100% 52 Hình 2.24 – Thuật toán sinh luật không dƣ thừa tối tiểu có độ tin cậy nhỏ hơn 100% 53 Hình 2.25 – Một số hƣớng tiếp cận khai thác luật hiện có 55 -ix- Hình 2.26 – Các đóng góp của luận án trong khai thác luật kết hợp 57 Hình 3.1 – Thuật toán xây... của tác giả Aljandal [B8] nghi n cứu phát triển một số độ đo thú vị cho luật kết hợp (năm 2009) B n cạnh đó, tác giả ứng dụng v o b i toán dự đoán các li n kết Luận án của tác giả Page [B63] nghi n cứu khai thác itemset v luật kết hợp tr n CSDL quan hệ (năm 2009) -5- 1.3 Giới thiệu về dàn D n l một khái niệm đƣợc nhắc đến từ rất sớm trong lĩnh vực toán học Nó đƣợc sử dụng trong khai thác luật kết hợp . PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ ĐÌNH BẢY NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN L. TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ ĐÌNH BẢY NÂNG CAO HIỆU QUẢ CỦA CÁC THUẬT TOÁN KHAI THÁC LUẬT KẾT HỢP DỰA TRÊN DÀN : . B8 khai thác dàB84]. 1.4. Luật kết hợp Bài toán khai thác [B6, B7] n