Khai thác mẫu trọng số phổ biến tối đại trong cơ sở dữ liệu giao dịch

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : PGS.TS LÊ HOÀI BẮC Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 30 tháng 01 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) STT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 30 tháng 01 năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phan Văn Bảo An Giới tinh: Nam Ngày, tháng, năm sinh: 06/05/1983 Nơi sinh: An Giang Chuyên ngành: Công nghê thông tin MSHV: 1441860001 I- Tên đề tài: KHAI THÁC MẪU TRỌNG SỐ PHỔ BIẾN TỐI ĐẠI TRONG CƠ SỞ DỮ LIỆU GIAO DỊCH II- Nhiệm vụ nội dung: Đề tài nghiên cứu đơn giản tập trung vào nghiên cứu thuật toán khai thác mẫu đánh trọng số Đề xuất thuật toán MWFIM U.Yun công sự, kết hợp sử dụng Diffset nhằm giảm thời gian khai thác tiết kiệm nhớ lưu trữ III- Ngày giao nhiệm vụ: 01/08/2015 IV- Ngày hoàn thành nhiệm vụ: 30/01/2016 V- Cán hướng dẫn: PGS.TS Lê Hoài Bắc CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS.TS LÊ HOÀI BẮC KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Phan Văn Bảo An ii LỜI CÁM ƠN Trong sống thành công mà không gắn liền với hỗ trợ, giúp đỡ dù hay nhiều, dù trực tiếp hay gián tiếp người khác Trong suốt thời gian từ bắt đầu học tập trường Đại Học Công Nghệ Hutech đến nay, nhận nhiều quan tâm, giúp đỡ quý Thầy Cô bạn bè để hoàn thành tốt khóa học Tôi xin gửi đến quý Thầy Cô Phòng Quản Lý Khoa Học- Đào Tạo Sau Đại Học lời cám ơn chân thành sâu tổ chức giảng dạy cho tiếp cận với môn học mà theo hữu ích sinh viên cao học ngành Ngành Công Nghệ Thông Tin tất sinh viên thuộc chuyên ngành nghề khác Và đặc biệt, cho hội nghiên cứu Luận văn xác với thực tế tiếp cận thời đại Bên cạnh để có kiến thức quí báu cho vận dụng vào việc nghiên cứu luận văn, xin chân thành cảm ơn PGS.TS Lê Hoài Bắc người Thầy đã tận tâm truyền đạt kiến thức, hướng dẫn tận tình để giúp hoàn thành Luận văn cách tốt Ngoài ra, thành công luận văn không nhắc đến người thân gia đình luôn chia sẽ, động viên, giúp có động lực vượt qua thời điểm khó khăn Cuối cám ơn cố vũ nhiệt tình bạn bè giúp hoàn thành luận văn (Họ tên tác giả Luận văn) Phan Văn Bảo An iii TÓM TẮT Trong lĩnh vực khai thác liệu, có nhiều nghiên cứu khai thác mẫu phổ biến ứng dụng thực tế rộng lớn khai thác luật kết hợp, tương quan, mẫu tuần tự, ràng buộc mẫu phổ biến, mẫu đồ thị, mẫu nổi, nhiều công trình khai thác liệu khác Chúng giới thiệu thuật toán MWFIM[16] U.Yun cho khai thác mẫu phổ biến tối đại từ sở liệu giao dịch Mẫu khai thác U.Yun cắt tỉa mẫu không quan trọng làm giảm kích thước không gian tìm kiếm Tuy nhiên, việc trì tính chất chống đơn điệu (anti-monotone) mà không mát thông tin cần xem xét, thuật toán U.Yun cắt tỉa mẫu trọng số không phổ biến sử dụng tiền tố, có thứ tự trọng số giảm dần Ngoài luận văn sử dụng kỹ thuật Diffsets nhằm khai thác nhanh độ hỗ trợ items sở liệu giao dịch có mật độ trùng lắp cao nhằm giảm thời gian khai thác tiết kiệm nhớ iv ABSTRACT In the field of data mining, there have been many studies on mining frequent patterns due to its broad applications in mining association rules, correlations, sequential patterns, constraint-based frequent patterns, graph patterns, emerging patterns, and many other data mining tasks We propose a algorithm U.Yun 's MWFIM for mining maximal weighted frequent patterns from a transaction database His mining paradigm prunes unimportant patterns and reduces the size of the search space However, maintaining the antimonotone property without loss of information should be considered, and thus our algorithm prunes weighted infrequent patterns and uses a prefix-tree with weight-descending order Besides, in dense database transaction, our algorithm used Diffset to reduce extraction time and save memory storage v MỤC LỤC CHƯƠNG1: MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Nội dung nghiên cứu 1.3 Mục tiêu nghiên cứu 1.4 Đối tượng nghiên cứu 1.5 Phạm vi nghiên cứu 1.6 Phương pháp nghiên cứu CHƯƠNG 2: TỔNG QUAN CÁC LĨNH VỰC NGHIÊN CỨU VÀ CƠ SỞ LÝ THUYẾT 2.1 Các khái niệm định nghĩa 2.1.1 Tổng quan khai thác luật kết hợp 2.1.2 Phương pháp Apriori 2.1.3 Phương pháp IT-tree 12 2.1.4 Phương pháp FP-tree 16 2.2 Tổng quan khai thác luật kết hợp CSDL đánh trọng số 21 2.2.1 Định nghĩa tính chất tập đánh trọng số 21 2.2.2 Thuật toán khai thác dựa WIT-tree[9] 23 2.3 Khai thác mẫu phổ biến tối đại MFP 29 CHƯƠNG 3: KHAI THÁC MẪU PHỔ BIẾN TRỌNG SỐ TỐI ĐẠI TRONG CSDL GIAO DỊCH 31 3.1 Tổng quát khai thác tập phổ biến trọng số tối đại 31 3.1.1 Mẫu trọng số phổ biến tối đại 32 3.1.2 Ví dụ 34 3.2 Phương pháp khai thác MWFP 36 3.3 Nghiên cứu liên quan 42 3.4 Giới thiệu Diffset 42 3.5 Thuật toán dựa Diffset 43 3.5.1 Thuật toán WIT-FWI-DIFF dựa Diffset 43 3.5.2 Khai thác MWFIM_DIFF dựa Diffset 47 3.5.3.1 Thuật toán MWFIM_DIFF dựa Diffset 47 vi 3.5.2.2 Ví dụ thuật toán MWFIM 49 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 57 4.1 Môi trường thực nghiệm 57 4.2 Kết thực nghiệm 58 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62 5.1 Kết luận 62 5.2 Nhận xét ưu điểm hạn chế 63 TÀI LIỆU THAM KHẢO 64 vii DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu Nghĩa tiếng Anh Nghĩa tiếng Việt CSDL Database Cơ sở liệu DB Database Cơ sở liệu DBT Database Transaction Cơ sở liệu giao dịch Diffset Different set Tập khác Tidset FP Frequent Patern Mẫu phổ biến FP-TREE Frequent Patern Tree Thuật toán FP-TREE FWI Frequent weighted itemsets Tập trọng số phổ biến GD Transaction Giao dịch từ viết tắt Tập hợp toàn I The set of items thành phần sở liệu IT Itemset transaction Tập giao dich Itemset The set of items Tập thành phần Knowledge Discovery in Khám phá tri thức Database - Data Mining liệu KT Datamining Khai thác dự liệu k-thành-phần A set of k items Tập k thành phần Li Leyer i Mức i Min_sup Threshold Ngưỡng hỗ trợ Maximal Weighted Frequent Thuật toán khai thác mẫu Itemset Mining trọng số phổ biến tối đại Maximal weighted Mẫu trọng số phổ biến tối frequent patterns đại T Transactions Các giao dịch Tidset Transaction identity set Tập giao dịch định danh KDD MWFIM MWFP viii TW Transaction weight Giao dịch trọng số WIT Weight Itemset transaction Tập giao dịch trọng số WIT-TREE Weight Itemset transaction tree Ws Weight support Thuật toán WITTREE Độ hỗ trợ trọng số 51 d 0.65 3.25 c 0.8 2.4 e 0.45 2.25 f 0.5 g 0.4 1.6 h 0.5 i 0.45 0.45 Bước 3: Sắp xếp items theo thứ tự giảm dần trọng số Danh sách sau xếp theo giảm trọng số sau: Bảng 3.7 Sắp xếp trọng số giảm dần item ITEM WEIGHT c 0.8 a 0.7 d 0.65 b 0.6 f 0.5 e 0.45 Bước 4: Duyệt CSDL TDB lần xây dựng bảng dọc bitvectors Diffset từ ứng viên phổ biến Bảng 3.7 52 Bảng 3.8 Minh họa dọc Diffset từ CSDL TDB VERTICAL TIDSET VERTICAL BITVECTORS DIFFSETf c a d b e F 1 1 1 c a d b e f 2 2 0 0 0 3 0 0 4 0 1 5 0 0 0 0 0 1 0 6 Bước 5: Ta gọi hàm MWFIM_DIFF để thực bước thuật toán: Đầu tiên ta khởi tạo nút gốc root, xếp thứ tự giảm trọng số mà trọng số lớn 0.8 (c, a,d, b, e, f) Danh sách thêm vào phần đuôi root hình 3.7 Root {f} {c} {a} {d} {b} {e} Hình 3.6 Khởi tạo mức root item phổ biến Ta thực duyệt tiền tố theo theo thứ tự sâu từ trái sang phải để kiểm tra mở rộng nút Bắt đầu từ nút {c} có phần đuôi có nút {a, d, b, e, f} item xếp giảm dần nên phần đầu {c} có trọng số lớn 53 0.8 Để mở rộng mức kết hợp {c} ∪ {i} item {a, d, b, e, f} Ta kiểm tra mẫu {c,a} có trọng số hỗ trợ có thỏa mãn min_sup = hay không? - Tính ws(ca) weight(ca) = [weight(c)+weight(a)]/2 = [(0.8+0.7)]/2 =0.75 mà: ws(ca) = 𝜎(ca) * weight(ca) 𝜎(ca) = 𝜎(c) - |d(ca)| = 𝜎(c) - |d(a) -d(c)| = - |∅| = 3-0 =3 → ws(ca) = 𝜎(ca) * weight(ca) = 0.75 * = 2.25 > min_sup Root {f} {c} {a} {d} {b} {e} {c,a} Hình 3.7 Mở rộng nút {c} Vì {c,a} thỏa mãn min_sup nên {c,a} mẫu phổ biến thêm vào phần mở rộng {c} Hình 3.8 Ta tiếp tục thực duyệt theo thứ tự sâu từ trái sang phải Ta kiểm tra mẫu {c,a,d} có trọng số hỗ trợ có thỏa mãn min_sup = hay không? - Tính ws(cad) sau: ws(cad) = 𝜎(cad) * weight(cad) weight(cad) = [weight(ca)+weight(d)]/2 =(0.75 + 0.65)/2 = 0.70 và: 𝜎(cad) = 𝜎(ca) - |d(cad)| = 𝜎(ca) - |d(d) - d(ca)| = - |∅| = 3- =3 (𝜎(ca) = từ mẫu {c,a}) → ws(cad) = 𝜎(cad) * weight(cad) = * 0.70 = 2.1 > min_sup 54 Vì {c,a,d} thỏa mãn min_sup nên {c,a,d} mẫu phổ biến thêm vào phần mở rộng {c,a} Ta tiếp tục thực duyệt thứ tự sâu từ trái sang phải Root {f} {c} {a} {d} {b} {e} {c,a} {c,a,d} Hình 3.8 mở rộng nút {c,a} Thực tương tự bước ta tính mẫu {c,a,d,b} có trọng số hỗ trợ 2.0625 > min_sup nên thêm vào phần mở rộng Nhưng kiểm tra mẫu{c,a,d,b,e} có trọng số hỗ trợ 19.2 rõ ràng không thỏa mãn min_sup nhỏ nên mẫu không phổ biến nút nhánh {c} Do ta trở lại với nút {c,a,d,b} kiểm tra xem có phải mẫu trọng số phổ biến tối đại thỏa mãn điều kiện mẫu chứa nằm tập MWFP Thực kiểm tra: Duyệt tất mẫu MWFP xem có mẫu chứa {c,a,d,b} có mẫu chứa {c,a,d,b} không MWFP ngược lại MWFP, ta nhận thấy mẫu chứa nên {c,a,d,b} (lúc MWFP rỗng) thêm vào tập MWFP ta có tiền tố Hình 3.9 55 Root {f} {d} {a} {c} {e} {b} {c,a} {c,a,d} {c,a,d,b} {c,a,d,b,e} Hình 3.9 mở rộng nhánh {c} Thực tương tự bước ta có hình 3.10 Các mẫu bị gạch tên mẫu không thỏa mãn min_sup nên không phổ biến nút nhánh {a} Các mẫu không bị gạch {c,ab},{c,d,b},{c,b} mẫu trọng số phổ biến thỏa mãn min_sup Ngoài mẫu không mẫu MWFP chứa mẫu {c,a,d,b} MWFP Root {f} {a} {c} {c,a} {c,d} {c,b} {d} {b} {e} {c,e} {c,a,d} {c,a,b} {c,a,e} {c,d,b} {c,d,e} {c,b,e} {c,a,d,b} {c,a,d,e} {c,a,b,e} {c,d,b,e} {c,a,d,b,e} 3.10 duyệt hết nhánh {c} Chúng ta tiếp tục thực tương tự bước cho nhánh lại ta Hình 20 Ta thấy sau thực duyệt thứ tự sâu từ trái sang phải nhánh {a} ta có nút {a,d,b,e,f},{a,d,b,f},{a,d,e,f},{d,e,f},{a,f} nút không thỏa mãn min_sup nên không mẫu phổ biến nút 56 nhánh {a} Ta xem xét hai mẫu {a,d,b,e},{a,b,e,f} thỏa mãn điều kiện thêm vào tập MWFP mẫu chứa MWFP Còn lại mẫu phổ biến khác không thỏa mãn để thêm vào MWFP cuối Hình 3.11 Root {f} {a} {c} {c,a} {c,d} {c,b} {c,e} {a,d} {d} {a,b} {a,f} {d,b} {a,e} {c,a,d} {c,a,b} {c,a,e} {c,d,b} {c,d,e} {c,b,e} {a,d,b} {a,d,e} {a,b,e} {a,e,f} {c,a,d,b} {c,a,d,e} {c,a,b,e} {c,d,b,e} {c,a,d,b,e} {d,b,e} {d,b,f} {b} {e} {b,e} {e,f} {b,e,f} {a,d,b,e} {a,d,b,f} {a,d,e,f} {a,b,e,f} {d,b,e,f} {a,d,b,e,f} Hình 3.11 MWFP {{c,a,d,b},{a,d,b,e},{a,b,e,f}} mẫu trọng số phổ biến tối đại Vậy sau thuật toán kết thúc ta có tập {{c,a,d,b},{a,d,b,e},{a,b,e,f}} mẫu trọng số phổ biến tối đại MWFP 57 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Môi trường thực nghiệm - Ngôn ngữ lập trình C# VS2013 - CPU Intel core i3, Ram 6G - Microsoft Windows 64 – bit  Đặc điểm sở liệu thực nghiệm Các kết thực nghiệm thử nghiệm CSDL liệu lấy từ trang web Frequent Itemset Mining Dataset Repository: http://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php Các liệu c h u ẩ n sửa đổi cách tạo bảng để lưu trữ giá trị trọng số item (giá trị khoảng từ đến 90) giá trị min_sup từ cho sở liệu Cơ sở để gán trọng số là: Trong CSDL bán hàng siêu thị trọng số thể số lượng mặt hàng min_sup người dùng tự định nghĩa nên thay đổi tùy ý Thuật toán ứng dụng vào CSDL GD thực tế Kết thực nghiệm khai thác mẫu trọng số phổ biến tối đại CSDL chuẩn hiển thị minh họa hình 4.1,4.2,4.3,4.4,4.5 Bảng 4.1 Cơ sở liệu thực nghiệm có chỉnh sửa CSDL #Trans #Item Size Tình trạng Chess 3196 75 334 KB Đã sửa đổi Mushrooms 8416 119 589 KB Đã sửa đổi BMS1_itemset_mining 59602 498 934 KB Đã sửa đổi Connect 88162 129 8.82 MB Đã sửa đổi 58 4.2 Kết thực nghiệm Thời gian thực thi để tìm kiếm tập đánh trọng số thay đổi tùy theo min_sup từ 10 đến 90, giá trị min_sup nhỏ thực lâu ngược lại Số giao dịch nhiều nhớ sử dụng tăng ngược lại Cài đặt thực nghiệm cho thuật toán MWFIM sử dụng Tidsets MWFIM_DIFF sử dung Diffsets ta nhận kết thực nghiệm với kết mẫu trọng số phổ biến tối đại khác thời gian thực thi Từ kết thử nghiệm trên, ta thấy thời gian xử lý MWFIM_TID (sử dụng Tidset) tốn nhiều thời gian xử lý CSDL có số sản phẩm lớn min_sup nhỏ Tuy nhiên với thuật toán cải tiến MWFIM_DIFF (sử dụng Diffsets), hệ thống xử lý nhanh ổn CSDL có tầng số GD dày đặc, có kích thước vừa nhỏ min_sup thích hợp CSDL Thời gian thực thi (giây) 70 Chess 60 50 40 MWFIM_TID 30 MWFIM_DIFF 20 10 90 70 50 30 10 min_sup Hình 4.1 Biểu đồ thực nghiệm MWFP CSDL Chess 59 Thời gian thực thi (giây) 350 Mushrooms 300 250 200 MWFIM_TID 150 MWFIM_DIFF 100 50 90 70 50 30 10 min_sup Hình 4.2 Biểu đồ thực nghiệm MWFP CSDL Mushrooms Thời gian thực thi (giây) 30 BMS1_itemset_mining 25 20 15 MWFIM_TID MWFIM_DIFF 10 90 70 50 30 10 min_sup Hình 4.3 Biểu đồ thực nghiệm MWFP CSDL BMS1_itemset_mining 60 Thời gian thực thi (giây) 140 Connect 120 100 80 MWFIM_DIF 60 MWFIM_DIFF 40 20 90 70 50 30 10 min_sup Hình 4.4 Biểu đồ thực nghiệm MWFP CSDL Connect Bộ nhớ sử dụng (MB) 60 50 40 30 MWFIM_TID MWFIM_DIFF 20 10 Chess Mushrooms BMS1 Connect CSDL Hình 4.5 Biểu đồ thực nghiệm nhớ sử dụng 61 Hình 4.6 Chương trình đề mô thuật toán 62 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Đề tài tập trung vào nghiên cứu thuật toán khai thác mẫu trọng số phổ biến đánh trọng số dựa thuật toán khai thác tập phổ biến C S D L nhị phân Thông qua trình thực đề tài thực mục tiêu: - Nghiên cứu sở lý thuyết kỹ thuật khai thác tập phổ biến phương pháp Apriori, FP-tree, IT-tree - Tìm hiểu sở liệu GD có trọng số, trọng số hỗ trợ định nghĩa lý thuyết liên quan - Tìm hiểu độ khác hai tập tương đương Diffset - Nghiên cứu thuật toán khai thác tập phổ biến sở liệu GD có trọng số WIT-FWI, WIT-FWI-DIF - Cài đặt thực nghiệm để khảo sát kết thuật toán đề xuất: tiến hành khai mẫu trọng số phổ biến tối đại sở liệu chuẩn như: Chess, Mushrooms, BMS1_itemset_mining, Connect Từ đề xuất thuật toán khai thác m ẫu trọng số phổ biến tối đại U.Yun tập đánh trọng số dựa CSDL GD có trọng số áp dụng Diffset để tiến hành tính nhanh độ hỗ trợ Dựa vào để khai thác nhanh tập đánh trọng số giúp cho việc khai thác m ẫu trọng số phổ biến tối đại xử lý nhanh Nhờ áp dụng Diffset, tính toán trọng số hỗ trợ dựa khác tập Tidset, nhằm tối ưu thời gian xử lý cho khai thác Mẫu trọng số phổ biến tối đại, giảm chi phí cho không gian lưu trữ khai thác C S D L lớn Với cải tiến này, thuật toán đề xuất có hiệu suất tốt so với thuật toán trước với tất kết Từ ứng dụng thuật toán 63 vào thực tiễn 5.2 Nhận xét ưu điểm hạn chế  Ưu điểm: Trong sở liệu dày đặc, kích thước Diffset nhỏ so với Tidset Vì vậy, sử dụng Diffset tiêu tốn dung lượng nhớ, không gian lưu trữ giảm đáng kể cho phép máy tính nhanh đ ộ hỗ trợ itemset Thuật toán phù hợp với tất loại CSDL, đặc biệt hiệu khai thác với CSDL mà mật độ trùng lắp GD lớn vừa thu thập từ thông tin trạng thái người chơi game (chứa nước người chơi), Mushroom chứa ghi mô tả đặc điểm loài nấm khác  Hạn chế: Thuật toán đạt hiệu với sở liệu dày đặc, mật độ trùng lắp GD lớn, với sở liệu nhỏ thời gian thực thi khác biệt so với sử dụng Tidset Với CSDL thưa CSDL chứa GD mua hàng siêu thị lớn BMS1_itemset_mining, thuật toán cho hiệu tương đương so với thuật toán đề nghị trước  Hướng phát triển - Tiếp tục nghiên cứu cách thức khai thác mẫu trọng số phổ biến tối đại tập đánh trọng phổ biến hiệu - Tiến đến việc khai thác mẫu trọng số phổ biến tập đóng đánh trọng phổ biến - Nghiên cứu cách thức cập nhật tập kết CSDL thay đổi 64 TÀI LIỆU THAM KHẢO [1] Agrawal at al (1993) Mining Association Rule between sets of items in large databases ACM SIGMOD Record 22 (2) 207-216 [2] Agrawal, R., & Srikant, R (1994) Fast algorithms for mining association rules In: VLDB’94 (pp 487-499) [3] Cai, C H., Fu, A W., Cheng, C H., & Kwong, W W (1998) Mining association rules with weighted items In: Proceedingss of international database engineering and applications symposium (IDEAS 98) (pp 68-77) [4] Ramkumar, G D., Ranka, S., & Tsur, S (1998) Weighted association rules: Model and algorithm In: SIGKDD’98 (pp 661-666) [5] Tao, F., Murtagh, F., & Farid, M (2003) Weighted association rule mining using weighted support and signficance framework In: SIGKDD’03 (pp 661-666) [6] Wang, W., Yang, J., & Yu, P S (2000) Efficient mining of weighted association rules In: SIGKDD 2000 (pp 270-274) [7] Han, J., Pei, J., & Yin, Y (2000) Mining frequent patterns without candidate generation In: SIGMOD (pp 1-12) [8] Zaki et al (1997) New algorithms for fast discovery of association rules [9] Vo, B., Coenen, F., Le, B (2013) A new method for mining frequent weighted itemsets based on WIT-trees Expert systems with applications 40(4), 1256-1264 [11] Zaki, M J (2004) Mining non-redundant association rules Data Mining andKnowledge Discovery, 9(3), 223–248 [12] Zaki, M J., & Gouda, K (2003) Fast vertical mining using diffsets In: 65 SIGKDD’03 (pp.326–335) [13] Nguyễn Lâm, 2014 Khai thác Top-rank-k tập đánh trọng số (Luận văn cao học, Học viện kỹ thuật quân sự) [14] Han, J., Pei, J., & Yin, Y (2000) Mining frequent patterns without candidate generation In: SIGMOD (pp 1-12) [15] D Burdick, M Calimlim, J Flannick, J Gehrke, T Yiu, MAFIA: a maximal frequent itemset algorithm, IEEE Transactions on Knowledge and Data Engineering 17 (11) (2005) 1490–1504 [16] U Yun, Hyeonil Shin, Keun Ho Ryu, EunChul Yoon: An efficient mining algorithm for maximal weighted frequent patterns in transactional databases, Knowledge and Information Systems pages Vol 33, page 53–64 (2012) [17] U Yun, K Ryu, Approximate weighted frequent pattern mining with/without noisy environments, Knowledge Based Systems 24 (1) (2011) 73–82 [18] U Yun, An efficient mining of weighted frequent patterns with length decreasing support constraints, Knowledge Based Systems 21 (8) (2008) 741–752 [...]... [16] khai thác mẫu trọng số tối đại phổ biến tối đại dựa trên cơ sở dữ liệu giao dịch có đánh trọng số Nghiên cứu Diffset của Zaki nhằm ứng dụng vào khai thác mẫu tối đại tối đại 2 1.3 Mục tiêu nghiên cứu Mục tiêu tổng quát: Khảo sát các phương pháp làm thực nghiệm và phân tích thực nghiệm của các tác giả và đề xuất thuật toán mới mang tính tối ưu hơn thuật toán tác giả Đánh giá thực nghiệm một số thuật... giả tìm hiểu các thuật toán khai thác mẫu trọng số phổ biến tối đại trên dữ liệu tĩnh (dữ liệu không có biến động), dữ liệu nghiên cứu được lấy từ nguồn dữ liệu nghiên cứu chuẩn (chưa thử nghiệm trên dữ liệu thực), việc đánh giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán (chưa đánh giá tính có ích thực sự so với ý kiến thực của khách hàng) Việc xử lý dữ liệu theo hướng tập trung... VÀ CƠ SỞ LÝ THUYẾT 2.1 Các khái niệm và định nghĩa Khai thác dữ liệu là một công cụ giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó Khai thác dữ liệu được dùng để mô tả quá trình tìm kiếm, chắt lọc và khai phá tri thức trong cơ sở dữ liệu hay chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ. .. là việc xử lý dữ liệu lớn hiệu quả Vì vậy, tác giả ưu tiên tập trung nghiên cứu các thuật toán tìm các item có số lượng phổ biến tối đại từ đó cửa hàng tìm được các mặt hàng khách hàng quan tâm nhất để nhà quản lý có thể hoạch định kế hoạch mua bán cho mình 1.2 Nội dung nghiên cứu Đề tài tập trung vào nghiên cứu thuật toán khai thác mẫu trọng số phổ biến tối đại trên cơ sở dữ liệu giao dịch Giới thiệu... Độ hỗ trợ của các item trong cơ sở dữ liệu D1 - 20 Bảng 2.8 Các item phổ biến thỏa mãn Min_sup trong CSDL D1 - 20 Bảng 2.9 CSDL các giao dịch D - 21 Bảng 2.10 Trọng số các giao dịch CSDL D 22 Bảng 2.11 Trọng số GD của các GD có trong D 22 Bảng 2.12 Bảng trọng số hỗ hợ cho tập phổ biến 1 phần tử ... toán khai thác mẫu trọng số phổ biến tối đại Mục tiêu cụ thể: Đưa ra các bước thực nghiệm cần thiết để đánh giá khách quan ưu điểm và khuyết điểm của các thuật toán MWFIM Đánh giá thuật toán khai thác cải tiến mới So sánh hiệu quả của tác giả và thuật toán cải tiến Kiểm tra tính đúng đắn của mã nguồn các thuật toán khai thác mẫu trọng số phổ biến tối đại MWFIM so với mã giả của các thuật toán đưa ra trong. .. liệu thô Quá trình này bao gồm tập hợp nhiều kỹ thuật được sử dụng trong tiến trình khám phá tri thức để tự động khai thác và chỉ ra sự khác biệt giữa các mối quan hệ và các mẫu chưa biết bên trong dữ liệu Khai thác luật kết hợp [2] là một phần quan trọng trong quá trình khám phá tri thức trong dữ liệu (KDD) Khai thác luật kết hợp được sử dụng để xác định mối quan hệ giữa các sản phẩm trong cơ sở dữ. .. tập phổ biến có kích thước là 3 dựa trên các tập phổ biến có kích thước là 2 thỏa min_sup vừa tìm được, duyệt cơ sở dữ liệu D để xác định độ hỗ trợ cho từng tập phổ biến và loại bỏ tất cả các tập phổ biến có độ hỗ trợ nhỏ hơn min_sup Bảng 2.4 Apriori 3-itemset thỏa min_sup Bước 4: Tạo ra các tập phổ biến có kích thước là 4 dựa trên các tập phổ biến có kích thước là 3 vừa tìm được, duyệt cơ sở dữ liệu. .. đề xuất một mô hình để mô tả các khái niệm về việc khai thác luật kết hợp có trọng số và dựa trên giải thuật Apriori để tìm ra các tập phổ biến được đánh trọng Từ đó nhiều kỹ thuật khai thác luật kết hợp có trọng số được đề xuất như: Wang, Yang, Yu [6] và Tao, Murtagh, Farid [5] 2.1.1 Tổng quan về khai thác luật kết hợp Trong lĩnh vực khai thác dữ liệu, mục đích của luật kết hợp (Association Rule -... của các tập dữ liệu nhằm làm giảm kích thước bộ nhớ yêu cầu và giúp cho việc tính độ phổ biến nhanh hơn Ứng dụng IT-Tree trong giai đoạn khai thác tập phổ biến: Nhận xét: chỉ những itemset nào có tập giao tác khác rỗng thì mới có thể xuất hiện trong giao tác, lúc đó mới tính độ hỗ trợ và so sánh với min_sup Còn lại những itemset có tập giao tác bằng rỗng thì không xuất hiện trong cơ sở dữ liệu đó Ví

Định dạng
Số trang	78
Dung lượng	1,11 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Agrawal at al. (1993). Mining Association Rule between sets of items in large databases. ACM SIGMOD Record 22 (2) 207-216	Khác
[2] Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. In: VLDB’94 (pp. 487-499)	Khác
[3] Cai, C. H., Fu, A. W., Cheng, C. H., & Kwong, W. W. (1998). Mining association rules with weighted items. In: Proceedingss of international database engineering and applications symposium (IDEAS 98) (pp. 68-77)	Khác
[4] Ramkumar, G. D., Ranka, S., & Tsur, S. (1998). Weighted association rules: Model and algorithm. In: SIGKDD’98 (pp. 661-666)	Khác
[5] Tao, F., Murtagh, F., & Farid, M. (2003). Weighted association rule mining using weighted support and signficance framework. In: SIGKDD’03 (pp. 661-666)	Khác
[6] Wang, W., Yang, J., & Yu, P. S. (2000). Efficient mining of weighted association rules. In: SIGKDD 2000 (pp. 270-274)	Khác
[7] Han, J., Pei, J., & Yin, Y. (2000). Mining frequent patterns without candidate generation. In: SIGMOD (pp. 1-12)	Khác
[8] Zaki et al. (1997). New algorithms for fast discovery of association rules	Khác
[9] Vo, B., Coenen, F., Le, B (2013). A new method for mining frequent weighted itemsets based on WIT-trees. Expert systems with applications 40(4), 1256-1264	Khác
[11] Zaki, M. J. (2004). Mining non-redundant association rules. Data Mining andKnowledge Discovery, 9(3), 223–248	Khác
[12] Zaki, M. J., & Gouda, K. (2003). Fast vertical mining using diffsets. In	Khác
[13] Nguyễn Lâm, 2014 Khai thác Top-rank-k tập được đánh trọng số (Luận văn cao học, Học viện kỹ thuật quân sự)	Khác
[14] Han, J., Pei, J., & Yin, Y. (2000). Mining frequent patterns without candidate generation. In: SIGMOD (pp. 1-12)	Khác
[15] D. Burdick, M. Calimlim, J. Flannick, J. Gehrke, T. Yiu, MAFIA: a maximal frequent itemset algorithm, IEEE Transactions on Knowledge and Data Engineering 17 (11) (2005) 1490–1504	Khác
[16] U. Yun, Hyeonil Shin, Keun Ho Ryu, EunChul Yoon: An efficient mining algorithm for maximal weighted frequent patterns in transactional databases, Knowledge and Information Systems pages Vol 33, page 53–64 (2012)	Khác
[17] U. Yun, K. Ryu, Approximate weighted frequent pattern mining with/without noisy environments, Knowledge Based Systems 24 (1) (2011) 73–82	Khác
[18] U. Yun, An efficient mining of weighted frequent patterns with length decreasing support constraints, Knowledge Based Systems 21 (8) (2008) 741–752	Khác