Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS.TS LÊ HOÀI BẮC Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 30 tháng 01 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) STT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 30 tháng 01 năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phan Văn Bảo An Giới tinh: Nam Ngày, tháng, năm sinh: 06/05/1983 Nơi sinh: An Giang Chuyên ngành: Công nghê thông tin MSHV: 1441860001 I- Tên đề tài: KHAI THÁC MẪU TRỌNG SỐ PHỔ BIẾN TỐI ĐẠI TRONG CƠ SỞ DỮ LIỆU GIAO DỊCH II- Nhiệm vụ nội dung: Đề tài nghiên cứu đơn giản tập trung vào nghiên cứu thuật toán khai thác mẫu đánh trọng số Đề xuất thuật tốn MWFIM U.Yun cơng sự, kết hợp sử dụng Diffset nhằm giảm thời gian khai thác tiết kiệm nhớ lưu trữ III- Ngày giao nhiệm vụ: 01/08/2015 IV- Ngày hoàn thành nhiệm vụ: 30/01/2016 V- Cán hướng dẫn: PGS.TS Lê Hoài Bắc CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS.TS LÊ HOÀI BẮC KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Phan Văn Bảo An ii LỜI CÁM ƠN Trong sống khơng có thành cơng mà không gắn liền với hỗ trợ, giúp đỡ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập trường Đại Học Công Nghệ Hutech đến nay, nhận nhiều quan tâm, giúp đỡ quý Thầy Cô bạn bè để tơi hồn thành tốt khóa học Tơi xin gửi đến q Thầy Cơ Phịng Quản Lý Khoa Học- Đào Tạo Sau Đại Học lời cám ơn chân thành sâu tổ chức giảng dạy cho tiếp cận với môn học mà theo tơi hữu ích sinh viên cao học ngành Ngành Công Nghệ Thông Tin tất sinh viên thuộc chuyên ngành nghề khác Và đặc biệt, cho hội nghiên cứu Luận văn xác với thực tế tiếp cận thời đại Bên cạnh để có kiến thức quí báu cho vận dụng vào việc nghiên cứu luận văn, xin chân thành cảm ơn PGS.TS Lê Hoài Bắc người Thầy đã tận tâm truyền đạt kiến thức, hướng dẫn tận tình để giúp tơi hồn thành Luận văn cách tốt Ngồi ra, thành cơng luận văn tơi không nhắc đến người thân gia đình ln ln chia sẽ, động viên, giúp tơi có động lực vượt qua thời điểm khó khăn Cuối cám ơn cố vũ nhiệt tình bạn bè giúp tơi hồn thành luận văn (Họ tên tác giả Luận văn) Phan Văn Bảo An iii TÓM TẮT Trong lĩnh vực khai thác liệu, có nhiều nghiên cứu khai thác mẫu phổ biến ứng dụng thực tế rộng lớn khai thác luật kết hợp, tương quan, mẫu tuần tự, ràng buộc mẫu phổ biến, mẫu đồ thị, mẫu nổi, nhiều cơng trình khai thác liệu khác Chúng tơi giới thiệu thuật tốn MWFIM[16] U.Yun cho khai thác mẫu phổ biến tối đại từ sở liệu giao dịch Mẫu khai thác U.Yun cắt tỉa mẫu không quan trọng làm giảm kích thước khơng gian tìm kiếm Tuy nhiên, việc trì tính chất chống đơn điệu (anti-monotone) mà không mát thông tin cần xem xét, thuật tốn U.Yun cắt tỉa mẫu trọng số không phổ biến sử dụng tiền tố, có thứ tự trọng số giảm dần Ngồi luận văn sử dụng kỹ thuật Diffsets nhằm khai thác nhanh độ hỗ trợ items sở liệu giao dịch có mật độ trùng lắp cao nhằm giảm thời gian khai thác tiết kiệm nhớ iv ABSTRACT In the field of data mining, there have been many studies on mining frequent patterns due to its broad applications in mining association rules, correlations, sequential patterns, constraint-based frequent patterns, graph patterns, emerging patterns, and many other data mining tasks We propose a algorithm U.Yun 's MWFIM for mining maximal weighted frequent patterns from a transaction database His mining paradigm prunes unimportant patterns and reduces the size of the search space However, maintaining the antimonotone property without loss of information should be considered, and thus our algorithm prunes weighted infrequent patterns and uses a prefix-tree with weight-descending order Besides, in dense database transaction, our algorithm used Diffset to reduce extraction time and save memory storage v MỤC LỤC CHƯƠNG1: MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Nội dung nghiên cứu 1.3 Mục tiêu nghiên cứu 1.4 Đối tượng nghiên cứu 1.5 Phạm vi nghiên cứu 1.6 Phương pháp nghiên cứu CHƯƠNG 2: TỔNG QUAN CÁC LĨNH VỰC NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT 2.1 Các khái niệm định nghĩa 2.1.1 Tổng quan khai thác luật kết hợp 2.1.2 Phương pháp Apriori 2.1.3 Phương pháp IT-tree 12 2.1.4 Phương pháp FP-tree 16 2.2 Tổng quan khai thác luật kết hợp CSDL đánh trọng số 21 2.2.1 Định nghĩa tính chất tập đánh trọng số 21 2.2.2 Thuật toán khai thác dựa WIT-tree[9] 23 2.3 Khai thác mẫu phổ biến tối đại MFP 29 CHƯƠNG 3: KHAI THÁC MẪU PHỔ BIẾN TRỌNG SỐ TỐI ĐẠI TRONG CSDL GIAO DỊCH 31 3.1 Tổng quát khai thác tập phổ biến trọng số tối đại 31 3.1.1 Mẫu trọng số phổ biến tối đại 32 3.1.2 Ví dụ 34 3.2 Phương pháp khai thác MWFP 36 3.3 Nghiên cứu liên quan 42 3.4 Giới thiệu Diffset 42 3.5 Thuật toán dựa Diffset 43 3.5.1 Thuật toán WIT-FWI-DIFF dựa Diffset 43 3.5.2 Khai thác MWFIM_DIFF dựa Diffset 47 3.5.3.1 Thuật toán MWFIM_DIFF dựa Diffset 47 vi 3.5.2.2 Ví dụ thuật toán MWFIM 49 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 57 4.1 Môi trường thực nghiệm 57 4.2 Kết thực nghiệm 58 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62 5.1 Kết luận 62 5.2 Nhận xét ưu điểm hạn chế 63 TÀI LIỆU THAM KHẢO 64 vii DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu Nghĩa tiếng Anh Nghĩa tiếng Việt CSDL Database Cơ sở liệu DB Database Cơ sở liệu DBT Database Transaction Cơ sở liệu giao dịch Diffset Different set Tập khác Tidset FP Frequent Patern Mẫu phổ biến FP-TREE Frequent Patern Tree Thuật toán FP-TREE FWI Frequent weighted itemsets Tập trọng số phổ biến GD Transaction Giao dịch từ viết tắt Tập hợp toàn I The set of items thành phần sở liệu IT Itemset transaction Tập giao dich Itemset The set of items Tập thành phần Knowledge Discovery in Khám phá tri thức Database - Data Mining liệu KT Datamining Khai thác dự liệu k-thành-phần A set of k items Tập k thành phần Li Leyer i Mức i Min_sup Threshold Ngưỡng hỗ trợ Maximal Weighted Frequent Thuật toán khai thác mẫu Itemset Mining trọng số phổ biến tối đại Maximal weighted Mẫu trọng số phổ biến tối frequent patterns đại T Transactions Các giao dịch Tidset Transaction identity set Tập giao dịch định danh KDD MWFIM MWFP viii TW Transaction weight Giao dịch trọng số WIT Weight Itemset transaction Tập giao dịch trọng số WIT-TREE Weight Itemset transaction tree Ws Weight support Thuật toán WITTREE Độ hỗ trợ trọng số 51 d 0.65 3.25 c 0.8 2.4 e 0.45 2.25 f 0.5 g 0.4 1.6 h 0.5 i 0.45 0.45 Bước 3: Sắp xếp items theo thứ tự giảm dần trọng số Danh sách sau xếp theo giảm trọng số sau: Bảng 3.7 Sắp xếp trọng số giảm dần item ITEM WEIGHT c 0.8 a 0.7 d 0.65 b 0.6 f 0.5 e 0.45 Bước 4: Duyệt CSDL TDB lần xây dựng bảng dọc bitvectors Diffset từ ứng viên phổ biến Bảng 3.7 52 Bảng 3.8 Minh họa dọc Diffset từ CSDL TDB VERTICAL TIDSET VERTICAL BITVECTORS DIFFSETf c a d b e F 1 1 1 c a d b e f 2 2 0 0 0 3 0 0 4 0 1 5 0 0 0 0 0 1 0 6 Bước 5: Ta gọi hàm MWFIM_DIFF để thực bước thuật toán: Đầu tiên ta khởi tạo nút gốc root, xếp thứ tự giảm trọng số mà trọng số lớn 0.8 (c, a,d, b, e, f) Danh sách thêm vào phần root hình 3.7 Root {f} {c} {a} {d} {b} {e} Hình 3.6 Khởi tạo mức root item phổ biến Ta thực duyệt tiền tố theo theo thứ tự sâu từ trái sang phải để kiểm tra mở rộng nút Bắt đầu từ nút {c} có phần có nút {a, d, b, e, f} item xếp giảm dần nên phần đầu {c} có trọng số lớn 53 0.8 Để mở rộng mức kết hợp {c} ∪ {i} item {a, d, b, e, f} Ta kiểm tra mẫu {c,a} có trọng số hỗ trợ có thỏa mãn min_sup = hay khơng? - Tính ws(ca) weight(ca) = [weight(c)+weight(a)]/2 = [(0.8+0.7)]/2 =0.75 mà: ws(ca) = 𝜎(ca) * weight(ca) 𝜎(ca) = 𝜎(c) - |d(ca)| = 𝜎(c) - |d(a) -d(c)| = - |∅| = 3-0 =3 → ws(ca) = 𝜎(ca) * weight(ca) = 0.75 * = 2.25 > min_sup Root {f} {c} {a} {d} {b} {e} {c,a} Hình 3.7 Mở rộng nút {c} Vì {c,a} thỏa mãn min_sup nên {c,a} mẫu phổ biến thêm vào phần mở rộng {c} Hình 3.8 Ta tiếp tục thực duyệt theo thứ tự sâu từ trái sang phải Ta kiểm tra mẫu {c,a,d} có trọng số hỗ trợ có thỏa mãn min_sup = hay khơng? - Tính ws(cad) sau: ws(cad) = 𝜎(cad) * weight(cad) weight(cad) = [weight(ca)+weight(d)]/2 =(0.75 + 0.65)/2 = 0.70 và: 𝜎(cad) = 𝜎(ca) - |d(cad)| = 𝜎(ca) - |d(d) - d(ca)| = - |∅| = 3- =3 (𝜎(ca) = từ mẫu {c,a}) → ws(cad) = 𝜎(cad) * weight(cad) = * 0.70 = 2.1 > min_sup 54 Vì {c,a,d} thỏa mãn min_sup nên {c,a,d} mẫu phổ biến thêm vào phần mở rộng {c,a} Ta tiếp tục thực duyệt thứ tự sâu từ trái sang phải Root {f} {c} {a} {d} {b} {e} {c,a} {c,a,d} Hình 3.8 mở rộng nút {c,a} Thực tương tự bước ta tính mẫu {c,a,d,b} có trọng số hỗ trợ 2.0625 > min_sup nên thêm vào phần mở rộng Nhưng kiểm tra mẫu{c,a,d,b,e} có trọng số hỗ trợ 19.2 rõ ràng khơng thỏa mãn min_sup nhỏ nên mẫu khơng phổ biến nút nhánh {c} Do ta trở lại với nút {c,a,d,b} kiểm tra xem có phải mẫu trọng số phổ biến tối đại thỏa mãn điều kiện khơng có mẫu chứa nằm tập MWFP Thực kiểm tra: Duyệt tất mẫu MWFP xem có mẫu chứa {c,a,d,b} có mẫu chứa {c,a,d,b} khơng MWFP ngược lại MWFP, ta nhận thấy khơng có mẫu chứa nên {c,a,d,b} (lúc MWFP rỗng) thêm vào tập MWFP ta có tiền tố Hình 3.9 55 Root {f} {d} {a} {c} {e} {b} {c,a} {c,a,d} {c,a,d,b} {c,a,d,b,e} Hình 3.9 mở rộng nhánh {c} Thực tương tự bước ta có hình 3.10 Các mẫu bị gạch tên mẫu không thỏa mãn min_sup nên khơng phổ biến nút nhánh {a} Các mẫu không bị gạch {c,ab},{c,d,b},{c,b} mẫu trọng số phổ biến thỏa mãn min_sup Ngồi mẫu khơng mẫu MWFP chứa mẫu {c,a,d,b} MWFP Root {f} {a} {c} {c,a} {c,d} {c,b} {d} {b} {e} {c,e} {c,a,d} {c,a,b} {c,a,e} {c,d,b} {c,d,e} {c,b,e} {c,a,d,b} {c,a,d,e} {c,a,b,e} {c,d,b,e} {c,a,d,b,e} 3.10 duyệt hết nhánh {c} Chúng ta tiếp tục thực tương tự bước cho nhánh cịn lại ta Hình 20 Ta thấy sau thực duyệt thứ tự sâu từ trái sang phải nhánh {a} ta có nút {a,d,b,e,f},{a,d,b,f},{a,d,e,f},{d,e,f},{a,f} nút không thỏa mãn min_sup nên khơng mẫu phổ biến nút 56 nhánh {a} Ta xem xét hai mẫu {a,d,b,e},{a,b,e,f} thỏa mãn điều kiện thêm vào tập MWFP khơng có mẫu chứa MWFP Cịn lại mẫu phổ biến khác khơng thỏa mãn để thêm vào MWFP cuối Hình 3.11 Root {f} {a} {c} {c,a} {c,d} {c,b} {c,e} {a,d} {d} {a,b} {a,f} {d,b} {a,e} {c,a,d} {c,a,b} {c,a,e} {c,d,b} {c,d,e} {c,b,e} {a,d,b} {a,d,e} {a,b,e} {a,e,f} {c,a,d,b} {c,a,d,e} {c,a,b,e} {c,d,b,e} {c,a,d,b,e} {d,b,e} {d,b,f} {b} {e} {b,e} {e,f} {b,e,f} {a,d,b,e} {a,d,b,f} {a,d,e,f} {a,b,e,f} {d,b,e,f} {a,d,b,e,f} Hình 3.11 MWFP {{c,a,d,b},{a,d,b,e},{a,b,e,f}} mẫu trọng số phổ biến tối đại Vậy sau thuật tốn kết thúc ta có tập {{c,a,d,b},{a,d,b,e},{a,b,e,f}} mẫu trọng số phổ biến tối đại MWFP 57 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm - Ngơn ngữ lập trình C# VS2013 - CPU Intel core i3, Ram 6G - Microsoft Windows 64 – bit  Đặc điểm sở liệu thực nghiệm Các kết thực nghiệm thử nghiệm CSDL liệu lấy từ trang web Frequent Itemset Mining Dataset Repository: http://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php Các liệu c h u ẩ n sửa đổi cách tạo bảng để lưu trữ giá trị trọng số item (giá trị khoảng từ đến 90) giá trị min_sup từ cho sở liệu Cơ sở để gán trọng số là: Trong CSDL bán hàng siêu thị trọng số thể số lượng mặt hàng min_sup người dùng tự định nghĩa nên thay đổi tùy ý Thuật tốn ứng dụng vào CSDL GD thực tế Kết thực nghiệm khai thác mẫu trọng số phổ biến tối đại CSDL chuẩn hiển thị minh họa hình 4.1,4.2,4.3,4.4,4.5 Bảng 4.1 Cơ sở liệu thực nghiệm có chỉnh sửa CSDL #Trans #Item Size Tình trạng Chess 3196 75 334 KB Đã sửa đổi Mushrooms 8416 119 589 KB Đã sửa đổi BMS1_itemset_mining 59602 498 934 KB Đã sửa đổi Connect 88162 129 8.82 MB Đã sửa đổi 58 4.2 Kết thực nghiệm Thời gian thực thi để tìm kiếm tập đánh trọng số thay đổi tùy theo min_sup từ 10 đến 90, giá trị min_sup nhỏ thực lâu ngược lại Số giao dịch nhiều nhớ sử dụng tăng ngược lại Cài đặt thực nghiệm cho thuật toán MWFIM sử dụng Tidsets MWFIM_DIFF sử dung Diffsets ta nhận kết thực nghiệm với kết mẫu trọng số phổ biến tối đại khác thời gian thực thi Từ kết thử nghiệm trên, ta thấy thời gian xử lý MWFIM_TID (sử dụng Tidset) tốn nhiều thời gian xử lý CSDL có số sản phẩm lớn min_sup nhỏ Tuy nhiên với thuật toán cải tiến MWFIM_DIFF (sử dụng Diffsets), hệ thống xử lý nhanh ổn CSDL có tầng số GD dày đặc, có kích thước vừa nhỏ min_sup thích hợp CSDL Thời gian thực thi (giây) 70 Chess 60 50 40 MWFIM_TID 30 MWFIM_DIFF 20 10 90 70 50 30 10 min_sup Hình 4.1 Biểu đồ thực nghiệm MWFP CSDL Chess 59 Thời gian thực thi (giây) 350 Mushrooms 300 250 200 MWFIM_TID 150 MWFIM_DIFF 100 50 90 70 50 30 10 min_sup Hình 4.2 Biểu đồ thực nghiệm MWFP CSDL Mushrooms Thời gian thực thi (giây) 30 BMS1_itemset_mining 25 20 15 MWFIM_TID MWFIM_DIFF 10 90 70 50 30 10 min_sup Hình 4.3 Biểu đồ thực nghiệm MWFP CSDL BMS1_itemset_mining 60 Thời gian thực thi (giây) 140 Connect 120 100 80 MWFIM_DIF 60 MWFIM_DIFF 40 20 90 70 50 30 10 min_sup Hình 4.4 Biểu đồ thực nghiệm MWFP CSDL Connect Bộ nhớ sử dụng (MB) 60 50 40 30 MWFIM_TID MWFIM_DIFF 20 10 Chess Mushrooms BMS1 Connect CSDL Hình 4.5 Biểu đồ thực nghiệm nhớ sử dụng 61 Hình 4.6 Chương trình đề mơ thuật tốn 62 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Đề tài tập trung vào nghiên cứu thuật toán khai thác mẫu trọng số phổ biến đánh trọng số dựa thuật toán khai thác tập phổ biến C S D L nhị phân Thông qua trình thực đề tài thực mục tiêu: - Nghiên cứu sở lý thuyết kỹ thuật khai thác tập phổ biến phương pháp Apriori, FP-tree, IT-tree - Tìm hiểu sở liệu GD có trọng số, trọng số hỗ trợ định nghĩa lý thuyết liên quan - Tìm hiểu độ khác hai tập tương đương Diffset - Nghiên cứu thuật toán khai thác tập phổ biến sở liệu GD có trọng số WIT-FWI, WIT-FWI-DIF - Cài đặt thực nghiệm để khảo sát kết thuật toán đề xuất: tiến hành khai mẫu trọng số phổ biến tối đại sở liệu chuẩn như: Chess, Mushrooms, BMS1_itemset_mining, Connect Từ đề xuất thuật tốn khai thác m ẫu trọng số phổ biến tối đại U.Yun tập đánh trọng số dựa CSDL GD có trọng số áp dụng Diffset để tiến hành tính nhanh độ hỗ trợ Dựa vào để khai thác nhanh tập đánh trọng số giúp cho việc khai thác m ẫu trọng số phổ biến tối đại xử lý nhanh Nhờ áp dụng Diffset, chúng tơi tính tốn trọng số hỗ trợ dựa khác tập Tidset, nhằm tối ưu thời gian xử lý cho khai thác Mẫu trọng số phổ biến tối đại, giảm chi phí cho khơng gian lưu trữ khai thác C S D L lớn Với cải tiến này, thuật tốn đề xuất có hiệu suất tốt so với thuật toán trước với tất kết Từ ứng dụng thuật toán 63 vào thực tiễn 5.2 Nhận xét ưu điểm hạn chế  Ưu điểm: Trong sở liệu dày đặc, kích thước Diffset nhỏ so với Tidset Vì vậy, sử dụng Diffset tiêu tốn dung lượng nhớ, không gian lưu trữ giảm đáng kể cho phép máy tính nhanh đ ộ hỗ trợ itemset Thuật toán phù hợp với tất loại CSDL, đặc biệt hiệu khai thác với CSDL mà mật độ trùng lắp GD lớn vừa thu thập từ thông tin trạng thái người chơi game (chứa nước người chơi), Mushroom chứa ghi mô tả đặc điểm lồi nấm khác  Hạn chế: Thuật tốn đạt hiệu với sở liệu dày đặc, mật độ trùng lắp GD lớn, với sở liệu nhỏ thời gian thực thi khơng có khác biệt so với sử dụng Tidset Với CSDL thưa CSDL chứa GD mua hàng siêu thị lớn BMS1_itemset_mining, thuật toán cho hiệu tương đương so với thuật toán đề nghị trước  Hướng phát triển - Tiếp tục nghiên cứu cách thức khai thác mẫu trọng số phổ biến tối đại tập đánh trọng phổ biến hiệu - Tiến đến việc khai thác mẫu trọng số phổ biến tập đóng đánh trọng phổ biến - Nghiên cứu cách thức cập nhật tập kết CSDL thay đổi 64 TÀI LIỆU THAM KHẢO [1] Agrawal at al (1993) Mining Association Rule between sets of items in large databases ACM SIGMOD Record 22 (2) 207-216 [2] Agrawal, R., & Srikant, R (1994) Fast algorithms for mining association rules In: VLDB’94 (pp 487-499) [3] Cai, C H., Fu, A W., Cheng, C H., & Kwong, W W (1998) Mining association rules with weighted items In: Proceedingss of international database engineering and applications symposium (IDEAS 98) (pp 68-77) [4] Ramkumar, G D., Ranka, S., & Tsur, S (1998) Weighted association rules: Model and algorithm In: SIGKDD’98 (pp 661-666) [5] Tao, F., Murtagh, F., & Farid, M (2003) Weighted association rule mining using weighted support and signficance framework In: SIGKDD’03 (pp 661-666) [6] Wang, W., Yang, J., & Yu, P S (2000) Efficient mining of weighted association rules In: SIGKDD 2000 (pp 270-274) [7] Han, J., Pei, J., & Yin, Y (2000) Mining frequent patterns without candidate generation In: SIGMOD (pp 1-12) [8] Zaki et al (1997) New algorithms for fast discovery of association rules [9] Vo, B., Coenen, F., Le, B (2013) A new method for mining frequent weighted itemsets based on WIT-trees Expert systems with applications 40(4), 1256-1264 [11] Zaki, M J (2004) Mining non-redundant association rules Data Mining andKnowledge Discovery, 9(3), 223–248 [12] Zaki, M J., & Gouda, K (2003) Fast vertical mining using diffsets In: 65 SIGKDD’03 (pp.326–335) [13] Nguyễn Lâm, 2014 Khai thác Top-rank-k tập đánh trọng số (Luận văn cao học, Học viện kỹ thuật quân sự) [14] Han, J., Pei, J., & Yin, Y (2000) Mining frequent patterns without candidate generation In: SIGMOD (pp 1-12) [15] D Burdick, M Calimlim, J Flannick, J Gehrke, T Yiu, MAFIA: a maximal frequent itemset algorithm, IEEE Transactions on Knowledge and Data Engineering 17 (11) (2005) 1490–1504 [16] U Yun, Hyeonil Shin, Keun Ho Ryu, EunChul Yoon: An efficient mining algorithm for maximal weighted frequent patterns in transactional databases, Knowledge and Information Systems pages Vol 33, page 53–64 (2012) [17] U Yun, K Ryu, Approximate weighted frequent pattern mining with/without noisy environments, Knowledge Based Systems 24 (1) (2011) 73–82 [18] U Yun, An efficient mining of weighted frequent patterns with length decreasing support constraints, Knowledge Based Systems 21 (8) (2008) 741–752 ... hai mẫu Thứ tự tham gia chúng khai thác mẫu phổ biến trọng số tối đại (MWFP) Trong MWFP khai thác, mẫu phổ biến trọng số tìm thấy đầu tiên, mẫu phổ biến tối đại khai thác từ mẫu phổ biến trọng số. .. toán khai thác mẫu trọng số phổ biến tối đại sở liệu giao dịch Giới thiệu thuật toán MWFIM [16] khai thác mẫu trọng số tối đại phổ biến tối đại dựa sở liệu giao dịch có đánh trọng số Nghiên cứu... CHƯƠNG 3: KHAI THÁC MẪU PHỔ BIẾN TRỌNG SỐ TỐI ĐẠI TRONG CSDL GIAO DỊCH 31 3.1 Tổng quát khai thác tập phổ biến trọng số tối đại 31 3.1.1 Mẫu trọng số phổ biến tối đại

Định dạng
Số trang	78
Dung lượng	1,2 MB