Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,83 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN MINH TÂN XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 01 năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN MINH TÂN XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS LÊ THỊ NGỌC THƠ TP HỒ CHÍ MINH, tháng 01 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học: TS LÊ THỊ NGỌC THƠ Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP.HCM ngày tháng năm 2018 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP.HCM VIỆN ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 12 tháng 01 năm 2018 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN MINH TÂN Giới tính: Nam Ngày, tháng, năm sinh: .25/02/1989 Nơi sinh: Tây Ninh Chuyên ngành: Công Nghệ Thông Tin MSHV: 1541860042 I- Tên đề tài: XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH II- Nhiệm vụ nội dung: Giới thiệu tổng quan khai thác liệu khai thác luật kết hợp dựa tập phổ biến, tập hữu ích tập hữu ích trung bình Trình bày số thuật tốn cho q trình khai thác tập itemset có giá trị hữu ích cao hữu ích trung bình cao Xây dựng thuật tốn khai thác itemset có giá trị hữu ích trung bình cao liệu động Cho ví dụ minh họa nhận xét Cài đặt chương trình thực nghiệm III- Ngày giao nhiệm vụ: 13/02/2017 IV- Ngày hoàn thành nhiệm vụ: 30/12/2017 V- Cán hướng dẫn: TS Lê Thị Ngọc Thơ CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) TS Lê Thị Ngọc Thơ i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Tp.HCM, ngày 12 tháng 01 năm 2018 Tác giả luận văn NGUYỄN MINH TÂN ii LỜI CẢM ƠN Trước tiên, xin gởi lời cảm ơn tri ân sâu sắc thầy cô Trường Đại học Kỹ thuật Công nghệ Tp HCM, đặc biệt Thầy Cô Khoa Công nghệ Thông tin truyền đạt vốn kiến thức quý báu cho suốt thời gian học tập trường Đồng thời, xin gửi lời cảm ơn đến Ban Giám hiệu, Khoa Công nghệ Thông tin Trường Đại học Quốc tế Sài Gịn, đồng nghiệp mơn Tin học tạo điều kiện giúp đỡ hồn thành khóa học Đặc biệt, tơi gởi lời cảm ơn chân thành đến TS Lê Thị Ngọc Thơ, Trường Đại học Kỹ thuật Công nghệ Tp.HCM, Cô nhiệt tình hướng dẫn định hướng, giúp tơi hồn thành luận văn Sau cùng, gửi lời biết ơn đến gia đình, bạn bè bạn lớp ủng hộ, tạo điều kiện tốt cho suốt khóa học Trong q trình thực luận văn, tơi cố gắng hồn thành tốt với tất nỗ lực thân, chắn không tránh khỏi sai sót hạn chế Rất mong nhận đóng góp ý kiến Quý Thầy Cô bạn để học thêm nhiều kinh nghiệm Tôi xin chân thành cảm ơn! Nguyễn Minh Tân iii TĨM TẮT Nội dung luận văn tìm hiểu thuật tốn khai thác tập hữu ích trung bình khai thác tập hữu ích trung bình liệu động Tác giả tìm hiểu thay đổi giá trị itemsets cập nhật thêm giao dịch tính tốn thay đổi Trên sở tác giả đề xuất cải tiến thuật tốn HAUI-Tree để tính tốn tập giá trị itemset sở liệu thêm vào cập nhật lại tập itemsets hữu ích trung bình Định hướng đề xuất thêm giao dịch mới, itemsets thỏa ngưỡng sở liệu ban đầu tập liệu thêm vào cập nhật mà không cần phải tính lại tất chạy thuật tốn từ đầu Nội dung cụ thể luận văn xây dựng thuật toán IHAUI-Tree để khai thác itemsets dựa độ hữu ích trung bình Khi giao dịch thêm vào sở liệu, thuật tốn cần tính tốn giá trị thay đổi cập nhật lại tập hữu ích trung bình mà không cần chạy lại từ đầu Đồng thời, nghiên cứu tác giả đề xuất cấu trúc liệu cho itemset để cải tiến việc tính tốn giá trị cho itemset nhanh Phương pháp đề xuất thực nghiệm liệu mẫu so sánh kết với phương pháp trước Kết thực nghiệm cho thấy, giải pháp đề xuất nâng cao hiệu việc khai thác itemsets hữu ích trung bình, việc cập nhật liệu thường xuyên iv ABSTRACT The main content of this thesis is to study algorithms for mining average utility itemsets on the dynamic data, learn about changes in the values of the itemsets when updating transactions, calculate those changes and suggest improving the HAUI-Tree algorithm to calculate the set of the values of the itemsets in the added database and to update the set of the average utility itemsets The objective of this work is to ensure that when new transactions are added, the itemsets meeting the threshold in the original database and the newly added dataset will be updated without re-running the algorithm from scratch In particular, the IHAUI-Tree algorithm is developed to exploit the itemsets based on the average utility When transactions are added to the database, the algorithm only needs to calculate the changed values and update the average utility itemsets without re-running from the scratch In this work, we proposed a new data structure for the itemsets to help calculate the values of the itemsets faster The proposed approach is experiement on two data sets The results were compared to previous algorithms and shown that our proposed solution improve the efficiency in exploiting the average utility itemsets, especially when data is frequently updated v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT .iv MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT viii DANH MỤC CÁC BẢNG .ix DANH MỤC CÁC HÌNH x CHƯƠNG - TỔNG QUAN .1 1.1 Tổng quan khai phá liệu 1.1.1 Nhu cầu khai phá liệu 1.1.2 Khai thác liệu tiến hóa cơng nghệ thơng tin .3 1.1.3 Khai phá liệu khai phá tri thức 1.1.4 Các bước q trình khai phá liệu .7 1.1.5 Kiến trúc hệ thống khai phá liệu .9 1.1.6 Ứng dụng khai phá liệu 11 1.2 Khai thác mẫu phổ biến 12 1.2.1 Mẫu phổ biến .12 1.2.2 Khai thác mẫu phổ biến, tập phổ biến 12 1.3 Khai thác dựa giá trị hữu ích 14 1.4 Khai thác dựa giá trị hữu ích trung bình 15 1.5 Mục tiêu luận văn 16 CHƯƠNG - CƠ SỞ LÝ THUYẾT 18 2.1 Một số khái niệm 18 2.1.1 Cơ sở liệu giao dịch .18 2.1.2 Itemset 18 vi 2.1.3 Độ phổ biến 18 2.1.4 Tập phổ biến 18 2.1.5 Tính chất Apriori 19 2.1.6 Ngưỡng hữu ích trung bình tối thiểu 19 2.1.7 Độ hữu ích 19 2.1.8 Tập hữu ích 20 2.1.9 Độ hữu ích trung bình 21 2.1.10.Tập hữu ích trung bình 21 2.1.11.Cận độ hữu ích trung bình 21 2.1.12.Tập cận độ hữu ích trung bình .22 2.2 Tính chất bao đóng giảm .22 2.3 Tính bao đóng giảm tập cận hữu ích trung bình 23 2.4 Thuật toán HAUI-Tree 23 2.4.1 Giới thiệu .23 2.4.1.1.Biểu diễn Itemset .23 2.4.1.2.Cây HAUI-Tree 24 2.4.2 Thuật toán sử dụng HAUI-Tree 24 2.4.2.1.Tập liệu giao dịch 24 2.4.2.2.Thuật toán khai thác với HAUI-Tree 25 2.4.3 Ví dụ minh họa 27 2.4.4 Một số nhận xét 31 2.5 Khai thác độ hữu ích trung bình hai pha tăng trưởng 32 2.5.1 Giới thiệu .32 2.5.2 Thuật toán 32 2.5.3 Một số nhận xét 34 CHƯƠNG - XÂY DỰNG THUẬT TOÁN IHAUI-TREE 35 3.1 Cây IHAUI-Tree 35 3.2 Thuật toán IHAUI .35 3.3 Ví dụ minh họa 38 39 Bảng 3.1: CSDL giao dịch TID t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 A 0 0 B 1 0 0 C 25 12 0 D 0 0 1 E 2 0 2 F 1 0 0 Bảng 3.2: Giá trị hữu ích Item A B C D E F Profit 10 Bước 1: Tính tốn độ hữu ích, giá trị hữu ích trung bình cận hữu ích trung bình, kết BẢNG 3.3 40 Bảng 3.3: Kết tính giá trị hữu ích, AU UB 1-itemset TID t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 UB AU uAk 0 0 42 24 uBk 10 10 0 20 0 57 40 uCk 25 12 0 75 57 uDk 0 0 6 24 24 uEk 10 10 0 10 10 56 45 uFk 2 0 0 42 12 muk 25 10 12 10 6 20 10 Với Ngưỡng 25, ta thu tập L1 (tập 1-itemset có ub > Ngưỡng) tiến hành khai thác L1 (L0 rỗng, khai thác từ đầu) Bảng 3.4: 1-itemset 1-Itemset A B C D E F auX 24 40 57 24 45 12 ubX 42 57 75 24 56 42 Tx {1,0,0,0,1,0,0,1,1,0} {0,1,0,1,0,0,0,1,0,0} {1,1,0,1,1,1,1,0,0,1} {1,0,0,0,0,1,1,0,1,0} {1,0,1,0,1,0,0,1,0,1} {1,0,1,0,0,1,0,1,0,0} POSX {1,1,1,1} {1,1,2} {2,2,2,2,1,1,1} {3,2,2,2} {4,1,3,3,2} {5,2,3,4} Bước 2: Thực hàm đệ quy dựa tính chất bao đóng giảm, phương pháp tính tốn để phát sinh ứng viên theo cấu trúc IHAUI-Tree AU 24 A UB Tx 42 {1,0,0,0,1,0,0,1,1,0} AU 40 AB {8} A {1,0,0,0,1,0,0,1,1,0} B {0,1,0,1,0,0,0,1,0,0} A*B {0,0,0,0,0,0,0,1,0,0} UAB 29 AUAB 14.5 UBAB 20 B UB Tx 57 {0,1,0,1,0,0,0,1,0,0} AC {1,5} A {1,0,0,0,1,0,0,1,1,0} C {1,1,0,1,1,1,1,0,0,1} A*C {1,0,0,0,1,0,0,0,0,0} UAC 19 AUAC 9.5 UBAC 16 C AU 57 UB 75 Tx {1,1,0,1,1,1,1,0,0,1} A E A*E UAE AUAE UBAE AE {1,5,8} {1,0,0,0,1,0,0,1,1,0} {1,0,1,0,1,0,0,1,0,1} {1,0,0,0,1,0,0,1,0,0} 43 21.5 36 AU 45 E UB Tx 56 {1,0,1,0,1,0,0,1,0,1} AF {1,8} A {1,0,0,0,1,0,0,1,1,0} F {1,0,1,0,0,1,0,1,0,0} A*F {1,0,0,0,0,0,0,1,0,0} UAF 20 AUAF 10 UBAF 26 Hình 3.2: Kết kết hợp item {A} với item khác F AU UB Tx 12 42 {1,0,1,0,0,1,0,1,0,0} 41 AU 24 A UB Tx 42 {1,0,0,0,1,0,0,1,1,0} AU 40 B UB Tx 57 {0,1,0,1,0,0,0,1,0,0} C AU 57 BC {2,4} B {0,1,0,1,0,0,0,1,0,0} C {1,1,0,1,1,1,1,0,0,1} B*C {0,1,0,1,0,0,0,0,0,0} UBC 57 AUBC 28.5 UBBC 37 UB 75 Tx {1,1,0,1,1,1,1,0,0,1} B E B*E UBE AUBE UBBE BE {8} {0,1,0,1,0,0,0,1,0,0} {1,0,1,0,1,0,0,1,0,1} {0,0,0,0,0,0,0,1,0,0} 30 15 20 AU 45 E UB Tx 56 {1,0,1,0,1,0,0,1,0,1} F AU UB Tx 12 42 {1,0,1,0,0,1,0,1,0,0} BF {8} B {0,1,0,1,0,0,0,1,0,0} F {1,0,1,0,0,1,0,1,0,0} B*F {0,0,0,0,0,0,0,1,0,0} UBF 26 AUBF 13 UBBF 20 Hình 3.3: Kết kết hợp item {B} với item khác Tính tốn tương tự cho item cịn lại, ta thu IHAUI-Tree sau: AU 24 A UB Tx 42 {1,0,0,0,1,0,0,1,1,0} AU 40 A AU 24 UB 42 Tx AU 40 B UB Tx 57 {0,1,0,1,0,0,0,1,0,0} B UB Tx 57 {0,1,0,1,0,0,0,1,0,0} C AU 57 UB 75 Tx {1,1,0,1,1,1,1,0,0,1} C E C*E UCE AUCE UBCE CE {1,5,10} {1,1,0,1,1,1,1,0,0,1} {1,0,1,0,1,0,0,1,0,1} {1,0,0,0,1,0,0,0,0,1} 39 19.5 26 AU 45 UB 75 Tx {1,1,0,1,1,1,1,0,0,1} F AU UB Tx 12 42 {1,0,1,0,0,1,0,1,0,0} CF {1,6} C {1,1,0,1,1,1,1,0,0,1} F {1,0,1,0,0,1,0,1,0,0} C*F {1,0,0,0,0,1,0,0,0,0} UCF 10 AUCF UBCF 12 C AU 57 E UB Tx 56 {1,0,1,0,1,0,0,1,0,1} AU 45 E UB Tx 56 {1,0,1,0,1,0,0,1,0,1} F AU UB Tx 12 42 {1,0,1,0,0,1,0,1,0,0} EF {1,3,8} E {1,0,1,0,1,0,0,1,0,1} F {1,0,1,0,0,1,0,1,0,0} E*F {1,0,1,0,0,0,0,1,0,0} UEF 35 AUEF 17.5 UBEF 36 Hình 3.4: Kết thu IHAUI-Tree Khai thác IHAUI-Tree với Ngưỡng 25, thu kết sau: 42 Bảng 3.5: Kết thu tập HAU VÀ HAUUB Itemset AU A B C E F AE AF AEF BC EF UB 24.0 40.0 57.0 45.0 12.0 21.5 10.0 17.5 28.5 17.5 Ngưỡng 42.0 57.0 75.0 56.0 42.0 36.0 26.0 26.0 37.0 36.0 25 25 25 25 25 25 25 25 25 25 Tập HAU = {{B},{C},{E},{BC}} Tập HAUUB ={{A},{B},{C},{E},{AE},{AF},{AEF},{BC},{EF}} 3.3.2 Cập nhật thêm giao dịch Giả sử, thêm giao dịch (BẢNG 3.5) vào CSDL giao dịch ban đầu (BẢNG 3.1) Bảng 3.6: CSDL giao dịch thêm TID t11 t12 t13 A B 1 C D E 0 F Bước 1: Tính tốn độ hữu ích, giá trị hữu ích trung bình cận hữu ích trung bình, kết BẢNG 3.7 Và giá trị NgưỡngN tính 10 NgưỡngU = NgưỡngD + NgưỡngN = 10 + 25 = 35 43 Bảng 3.7: Kết tính giá trị hữu ích, AU UB 1-itemset TID t11 t12 t13 UB AU uAk 18 uBk 10 10 22 20 uCk 28 uDk 12 22 18 uEk 0 uFk 10 18 12 muk 12 10 Với Ngưỡng 10, ta thu tập L1 (tập 1-itemset có ub > Ngưỡng) tiến hành khai thác L1 (ta có L0 L1 lần chạy trước) Bảng 3.8: 1-itemset 1-Itemset A B C D E F AUX 40 18 UBX 18 42 48 42 12 18 Tx {1,0,1} {1,1,0} {1,1,1} {1,1,0} {0,0,1} {1,0,1} Dựa vào L0 L1, ta tính tập HAUUB 1-itemset sau: Bảng 3.9: 1-itemset sau cập nhật CSDL Trước 1-Itemset auX A 24 B 40 C 57 D 24 E 45 F 12 ubX 42 57 75 24 56 42 CSDL Thêm 1-Itemset AUX A B 40 C D 18 E F 12 UBX 18 42 48 42 18 CSDL Cập nhật 1-Itemset AUX UBX Ngưỡng A 33 60 35 B 80 99 35 C 64 123 35 D 42 66 35 E 50 62 35 F 24 60 35 Bước 2: Thực hàm đệ quy dựa tính chất bao đóng giảm, phương pháp tính tốn để phát sinh ứng viên theo cấu trúc IHAUI-Tree 44 AU A UB 18 A B A*B UAB AUAB UBAB Tx {1,0,1} AU 40 AB {1,} {1,0,1} {1,1,0} {1,0,0} B UB 42 1.5 12 A C A*C UAC AUAC UBAC 16 32 AUAC UBAC AB AUAB UBAB Tx {1,1,0} AC {1,3} {1,0,1} {1,1,1} {1,0,1} 12 18 AU C UB 48 A D A*D UAD AUAD UBAD AC Tx {1,1,1} AU 18 AD {1} {1,0,1} {1,1,0} {1,0,0} 15 7.5 12 D UB 42 A F A*F UAF AUAF UBAF AD 15.5 34 AUAD UBAD Tx {1,1,0} AU 12 F UB 18 AF {1,3} {1,0,1} {1,0,1} {1,0,1} 21 10.5 18 AE 18 24 AUAE UBAE Tx {1,0,1} AF 18 24 AUAF UBAF 20.5 44 Hình 3.5: Kết kết hợp item {A} với item khác Ta thấy {AB} có UB thỏa NgưỡngN khơng có tập HAUUBD (của lần chạy trước), nên ta tính lại {AB}, sau cập nhật {AB} khơng thỏa NgưỡngU Vì ta bỏ qua {AC} có UB thỏa NgưỡngN khơng có tập HAUUBD (của lần chạy trước) Vì ta duyệt lại CSDL ban đầu để tính giá trị {AC} xem có thỏa khơng Ở đây, {AC} sau cập nhật khơng thỏa NgưỡngU, nên ta bỏ qua {AD} có UB thỏa NgưỡngN khơng có tập HAUUBD (của lần chạy trước), nên {AD} sau cập nhật thỏa NgưỡngU Vì ta duyệt lại CSDL ban đầu để tính giá trị {AD} xem có thỏa không Ở đây, {AD} sau cập nhật khơng thỏa NgưỡngU, nên ta bỏ qua {AE} có UB khơng thỏa NgưỡngN có tập HAUUBD (của lần chạy trước), nên {AE} sau cập nhật thỏa NgưỡngU Ở đây, {AE} sau cập nhật khơng thỏa NgưỡngU, nên ta bỏ qua {AF} có UB thỏa NgưỡngN, có tập HAUUBD (của lần chạy trước), nên {AF} sau cập nhật thỏa NgưỡngU Vì ta cập nhật lại giá trị {AF} = {AF}N + {AF}D (trong tập HAUUBD) xem có thỏa khơng Ở đây, {AF} có UB sau cập nhật thỏa NgưỡngU, nên ta thêm vào tập HAUUBU 45 AU A UB 18 Tx {1,0,1} AU 40 B UB 42 B C B*C UBC AUBC UBBC Tx {1,1,0} AU BC {1,2} {1,1,0} {1,1,1} {1,1,0} 25 12.5 22 C UB 48 AU 18 BD {1,2} BD {1,1,0} D {1,1,0} B*D {1,1,0} UBD 38 AUBD 19 UBBD 22 BC AUBC UBBC Tx {1,1,1} D UB 42 AUBD UBBD AU 12 F UB 18 Tx {1,0,1} BF {1} {1,1,0} {1,0,1} {0,0,1} 20 10 12 B F B*F UBF AUBF UBBF BD 41 59 Tx {1,1,0} BF 19 22 AUBF UBBF 23 32 Hình 3.6: Kết kết hợp item {B} với item khác Tính tốn tương tự cho item lại, ta thu kết sau: AU A UB 18 Tx {1,0,1} AU 40 B UB 42 Tx {1,1,0} AU C UB 48 Tx {1,1,1} AU 18 CD {1,2} C {1,1,1} D {1,1,0} C*D {1,1,0} UCD 23 AUCD 11.5 UBCD 22 D UB 42 C F C*F UCF AUCF UBCF AU A UB 18 Tx {1,0,1} AU 40 B UB 42 Tx {1,1,0} AU C UB 48 AU 12 CF {1,3} {1,1,1} {1,0,1} {1,0,1} 15 7.5 18 CD AUCD UBCD Tx {1,1,0} F UB 18 CE {3} {1,1,1} {0,0,1} {0,0,1} 3.5 C E C*E UCE AUCE UBCE CE 24.5 40 Tx {1,1,1} AUCE UBCE AU 18 D E D*E UDE AUDE UBDE CF 16 22 D UB 42 Tx {1,0,1} Tx {1,1,0} AUCF UBCF AU 12 DE {1} {1,1,0} {0,0,1} {1,0,0} 0 12.5 30 F UB 18 D F D*F UDF AUDF UBDF Tx {1,0,1} DF {1} {1,1,0} {1,0,1} {1,0,0} 22 11 12 DF AUDF UBDF E F E*F UE F AUE F UBE F 19 24 EF {1} {0,0,1} {1,0,1} {0,0,1} 3.5 EF {1} AUE F UBE F 21 42 Hình 3.7: Kết kết hợp item khác Khai thác IHAUI-Tree với Ngưỡng 35, thu kết sau: 46 Bảng 3.10: Kết thu từ IHAUI-Tree 1-Itemset A B C D E F AE AF BC CD EF AUX 33 80 64 42 50 24 26.5 20.5 41 24.5 21 UBX 60 99 123 66 62 60 42 44 59 40 42 Ngưỡng 35 35 35 35 35 35 35 35 35 35 35 Tập HAUI = {{B},{C},{D},{E},{BC}} Tập HAUUB = {{A},{B},{C},{D},{E},{F},{AF},{AF},{BC},{CD},{EF}} 3.4 Một số nhận xét Thuật tốn áp dụng tính bao đóng giảm tập cận hữu ích trung bình để giảm số ứng viên giá trị cận trung bình tối thiểu để loại bỏ bớt ứng viên nhằm tăng tốc độ giảm nhớ khai thác Đồng thời thuật toán đề xuất sử dụng cấu trúc liệu để tăng hiệu tính tốn giá trị itemset tính tốn r-itemset dựa vào 1-itemset tiện cho việc cập nhật liệu Tuy nhiên, với trường hợp số lượng 1-itemset tập cận hữu ích trung bình số lượng itemset tập cận hữu ích trung bình lần chạy trước nhiều (do ngưỡng nhỏ CSDL lớn) thuật tốn gặp vấn đề vùng nhớ Kết luận chương Chương tìm hiểu tính chất Apriori việc áp dụng khai thác tập itemset hữu ích trung bình sở liệu có biến động Cũng tìm hiểu thay đổi giá trị itemset cập nhật thêm giao dịch, tính tốn thay đổi đề xuất cải tiến thuật tốn HAUI-Tree để tính tốn tập 47 giá trị itemset sở liệu cập nhật lại tập itemset hữu ích trung bình Để biến động xảy ra, itemset tìm cập nhật mà khơng cần chạy lại giải thuật từ đầu HAUI-Tree Đồng thời, chương trình cấu trúc liệu cho cho itemset để tối ưu hóa việc tính tốn giá trị khai thác cập nhật giá trị itemset thêm giao dịch Bảng 3.11: Câu trúc itemset IHAUI HAUI 1-Itemset A B C D E F auX 24 40 57 24 45 12 ubX 42 57 75 24 56 42 Tx {1,0,0,0,1,0,0,1,1,0} {0,1,0,1,0,0,0,1,0,0} {1,1,0,1,1,1,1,0,0,1} {1,0,0,0,0,1,1,0,1,0} {1,0,1,0,1,0,0,1,0,1} {1,0,1,0,0,1,0,1,0,0} POSX {1,1,1,1} {1,1,2} {2,2,2,2,1,1,1} {3,2,2,2} {4,1,3,3,2} {5,2,3,4} 1-Itemset A B C D E F auX 24 40 57 24 45 12 ubX 42 57 75 24 56 42 Tx {1,5,8,9} {2,4,8} {1,2,4,5,6,7,10} {1,6,7,9} {1,3,5,8,10} {1,3,6,8} POSX {1,1,1,1} {1,1,2} {2,2,2,2,1,1,1} {3,2,2,2} {4,1,3,3,2} {5,2,3,4} 48 CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Các liệu mẫu Bảng 4.1: Thông tin liệu Bộ liệu Số giao dịch Số item Accidents 340183 469 Retail 88162 16470 Chúng tơi thử nghiệm thuật tốn đề xuất liệu Accidents Retail, với giá trị item giao dịch phát sinh ngẫu nhiên đoạn [0, 10] Chương trình cài đặt NET framework 4.5, sử dụng Visual Studio 2017 Thực nghiệm tiến hành máy tính cấu hình Intel Core i57400, 4GB RAM, hệ điều hành Windows 10 64bit Chúng cài đặt tiến hành so sánh hai thuật toán HAUI-Tree thuật toán đề xuất số ứng viên xét thời gian chạy nhằm rút cải tiến thuật toán luận văn đưa sử dụng IHAUI-Tree để khai thác cấu trúc itemset để cải tiến tốc độ tính tốn Từng liệu chạy thử số lượng giao dịch khác nhau, đưa kết tập cận hữu ích trung bình gồm 1itemset (HAUUB1), tập hữu ích trung bình gồm 1-itemset ban đầu (HAU1), thời gian chạy số lượng ứng viên tương ứng cho thuật toán 49 4.2 Chạy thử nghiệm liệu Accidents Bảng 4.2: Kết chạy thử nghiệm Tổng giao dịch 280000 290000 300000 310000 320000 330000 340183 Thuật toán HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUUB1 31 31 31 31 31 31 31 31 31 31 31 31 31 31 HAU1 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Ứng viên 18744 18744 18738 18738 18788 18788 18560 18560 18505 18505 18670 18670 18748 18748 HAUUB 5864 5864 5863 5863 5883 5883 5812 5812 5801 5801 5860 5860 5889 5889 HAU 99 99 100 100 100 100 98 98 99 99 99 99 100 100 Thời gian (phút) 6.679 6.625 7.56 1.832 8.172 1.372 7.61 0.439 7.395 0.724 7.551 4.087 8.29 1.794 Bảng 4.3: Thời gian chạy thuật toán Thuật toán HAUI-TREE IHAUI-TREE 280000 290000 300000 310000 320000 330000 340183 6.679 7.56 8.172 7.61 7.395 7.551 8.29 6.625 1.832 1.372 0.439 0.724 4.087 1.794 Accidents Database Thời gian chạy (phút) 10 280000 290000 300000 310000 320000 330000 Số giao dịch HAUI-TREE IHAUI-TREE Hình 4.1: So sánh thời gian chạy thuật toán 340183 50 4.3 Chạy thử nghiệm liệu Retail Bảng 4.4: Kết chạy thử nghiệm Số lượng giao dịch 87400 87600 87800 88000 88162 Thuật toán HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUUB1 298 298 297 297 297 297 296 296 298 298 HAU1 Ứng viên HAUUB 68 76960 785 68 76960 785 69 76689 786 69 76689 786 69 76689 786 69 76689 786 70 76283 784 70 76283 784 70 76876 786 70 76876 786 HAU Thời gian (phút) 319 3.237 319 2.961 320 3.104 320 0.109 320 3.021 320 0.088 321 3.106 321 0.119 321 2.537 321 0.092 Bảng 4.5: Thời gian chạy thuật toán Thuật toán HAUI-TREE IHAUI-TREE 87400 3.237 2.961 87600 3.104 0.109 87800 3.021 0.088 88000 3.106 0.119 88162 2.537 0.092 Thời gian chạy (phút) Retail Database 3.5 2.5 1.5 0.5 87400 87600 87800 88000 88162 Số giao dịch HAUI-TREE IHAUI-TREE Hình 4.2: So sánh thời gian chạy thuật toán 4.4 Kết luận kiến nghị Luận văn đề xuất cấu trúc liệu để cải tiến thuật toán HAU- Tree xây dựng thuật tốn IHAUI-Tree để khai thác tập hữu ích trung bình liệu động Thuật tốn có sử dụng tính bao đóng giảm tập cận hữu ích trung bình để giảm số lượng ứng viên so với thuật toán khai thác tập liệu động trước đó, thời gian tính tốn nhanh nhờ cách lưu trữ sử dụng hiệu tập Tx Pos 51 Thực nghiệm cho thấy thuật toán IHAUI sử dụng cấu trúc liệu giúp cải thiện nhớ thực thi chương trình giúp tính tốn nhanh ritemset tập liệu lần chạy trước Tuy cải thiện nhiều mặt nhớ, thuật toán gặp vấn đề nhớ chạy liệu lớn, tỉ lệ ngưỡng nhỏ Một vấn đề là, ta thấy số lượng ứng viên thỏa ngưỡng nhỏ nhiều so với số lượng xét Vì cần phải tìm cách giảm số lượng ứng viên Kết luận chương Chương trình bày kết chạy thực nghiệm thuật toán đề xuất liệu mẫu, kết so sách với thuật toán tác giả trước Đồng thời rút số nhận xét đánh giá 52 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Những đóng góp luận văn: Luận văn đề xuất xây dựng thuật toán IHAUI-Tree việc khai thác itemset dựa tập hữu ích trung bình để giảm thời gian chạy lại sở liệu thêm giao dịch Đồng thời, đề xuất cấu trúc liệu cho itemset (BitArray) để tăng tốc độ tính tốn giá trị khai thác hỗ trợ việc tính toán giá trị itemset lần chạy sau dựa vào tập cận hữu ích trung bình lần chạy trước Chạy thực nghiệm hai liệu so sánh với thuật toán HAUI-Tree ngưỡng cận hữu ích trung bình Hướng phát triển Nghiên cứu tiếp trường hợp biến động liệu khác (xóa, sửa) sơ sở liệu ban đầu Nghiên cứu đề xuất giải pháp giảm bớt số ứng viên tập cận hữu ích trung bình Nghiên cứu đề xuất giải pháp cho việc cài đặt phân tán, khai thác hệ sơ sở liệu phân tán Nghiên cứu đề xuất giải pháp cho việc ứng dụng toán vào thực tế 53 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Hong, T.P., Lee, C.H., Wang, S.L (2011), “Effective utility mining with the measure of average utility”, Expert Systems with Applications, 38, 8259–8265 [2] Jiawei Ha, Micheline Kamber, Jian Pei (2012), Data Mining Concepts and Techniques Third Edition, Elsevier Inc, 243-248 [3] Lan, G.C., Hong, T.P., Tseng, V.S (2012), “Efficiently mining high averageutility itemsets with an improved upper-bound strategy”, International Journal of Information Technology & Decision Making, 1009-1030 [4] Lan, G.C., Hong, T.P., Tseng, V.S (2012), “A Projection-Based Approach for Discovering High Average-Utility Itemsets”, Journal Of Information Science And Engineering, 28, 193-209 [5] Lan, G.C., Hong, T.P., Lu, W.H (2010), “An effective tree structure for mining high utility itemset”, Expert Systems with Applications, 38, 7419– 7424 [6] Lan, G.C., Hong, T.P., Tseng, V.S (2010), “Mining High TransactionWeighted Utility Itemsets”, Computer Engineering and Applications (ICCEA), 11242871, 314 – 318 [7] Lan, G.C., Lin, C.W., Hong, T.P., Tseng, V.S (2011), “Updating High Average-Utility Itemsets in Dynamic Databases”, Intelligent Control and Automation (WCICA), 12145338, 932 – 936 [8] Liu, Y., Liao, W.K., Choudhary (2005), “A two-phase algorithm for fast discovery of high utility itemsets”, Lecture Notes in Computer Science, 3518, 689-695 [9] Tien Lu, Bay Vo, Hien T Nguyen, Tzung-Pei Hong (2014), “A New Method for Mining High Average Utility Itemsets”, Computer Information Systems and Industrial Management Lecture Notes in Computer Science Volume 8838, 2014, pp 33– 42 ... tài: XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH II- Nhiệm vụ nội dung: Giới thiệu tổng quan khai thác liệu khai thác luật kết hợp dựa tập phổ biến, tập hữu ích. .. tập hữu ích trung bình Trình bày số thuật tốn cho q trình khai thác tập itemset có giá trị hữu ích cao hữu ích trung bình cao Xây dựng thuật tốn khai thác itemset có giá trị hữu ích trung bình. .. thuộc tập hữu ích trung bình Để khai thác tập hữu ích trung bình khai thác dựa tập cận hữu ích trung bình Tuy nhiên trường hợp liệu phân bố khơng đều, item có chênh lệch lớn độ hữu ích giao dịch