Xây dựng thuật toán IHAUI để khai thác dữ liệu dựa trên độ hữu ích trung bình

68 240 0
Xây dựng thuật toán IHAUI để khai thác dữ liệu dựa trên độ hữu ích trung bình

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN MINH TÂN XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 01 năm 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - NGUYỄN MINH TÂN XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS LÊ THỊ NGỌC THƠ TP HỒ CHÍ MINH, tháng 01 năm 2018 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP HCM Cán hướng dẫn khoa học: TS LÊ THỊ NGỌC THƠ Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP.HCM ngày tháng năm 2018 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TH C Tọ h C hủ P P Ủ y Ủ y Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP.HCM VIỆN ĐÀO T ẠO S AU ĐẠI HỌ C CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 12 tháng 01 năm 2018 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN MINH TÂN Giới tính: Nam Ngày, tháng, năm sinh: .25/02/1989 Nơi sinh: Tây Ninh Chuyên ngành: Công Nghệ Thông Tin MSHV: 1541860042 I- Tên tài: đề XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH II- Nhiệm vụ nội dung: Giới thiệu tổng quan khai thác liệu khai thác luật kết hợp dựa tập phổ biến, tập hữu ích tập hữu ích trung bình Trình bày số thuật tốn cho q trình khai thác tập itemset có giá trị hữu ích cao hữu ích trung bình cao Xây dựng thuật tốn khai thác itemset có giá trị hữu ích trung bình cao liệu động Cho ví dụ minh họa nhận xét Cài đặt chương trình thực nghiệm IIINgày 13/02/2017 IV- Ngày 30/12/2017 giao hoàn thành V- Cán hướng dẫn: Thơ nhiệm vụ: nhiệm vụ: TS Lê Thị Ngọc CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) TS Lê Thị Ngọc Thơ i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn cảm ơn thơng tin trích dẫn Luận văn rõ nguồn gốc Tp.HCM, ngày 12 tháng 01 năm 2018 Tác giả luận văn NGUYỄN MINH TÂN ii LỜI CẢM ƠN Trước tiên, xin gởi lời cảm ơn tri ân sâu sắc thầy cô Trường Đại học Kỹ thuật Công nghệ Tp HCM, đặc biệt Thầy Cô Khoa Công nghệ Thông tin truyền đạt vốn kiến thức quý báu cho suốt thời gian học tập trường Đồng thời, xin gửi lời cảm ơn đến Ban Giám hiệu, Khoa Công nghệ Thông tin Trường Đại học Quốc tế Sài Gòn, đồng nghiệp môn Tin học tạo điều kiện giúp đỡ tơi hồn thành khóa học Đặc biệt, gởi lời cảm ơn chân thành đến TS Lê Thị Ngọc Thơ, Trường Đại học Kỹ thuật Công nghệ Tp.HCM, Cơ nhiệt tình hướng dẫn định hướng, giúp tơi hồn thành luận văn Sau cùng, tơi gửi lời biết ơn đến gia đình, bạn bè bạn lớp ủng hộ, tạo điều kiện tốt cho tơi suốt khóa học Trong q trình thực luận văn, tơi cố gắng hồn thành tốt với tất nỗ lực thân, chắn khơng tránh khỏi sai sót hạn chế Rất mong nhận đóng góp ý kiến Quý Thầy Cô bạn để học thêm nhiều kinh nghiệm Tôi xin chân thành cảm ơn! Nguyễn Minh Tân TÓM TẮT Nội dung luận văn tìm hiểu thuật tốn khai thác tập hữu ích trung bình khai thác tập hữu ích trung bình liệu động Tác giả tìm hiểu thay đổi giá trị itemsets cập nhật thêm giao dịch tính tốn thay đổi Trên sở tác giả đề xuất cải tiến thuật tốn HAUI-Tree để tính tốn tập giá trị itemset sở liệu thêm vào cập nhật lại tập itemsets hữu ích trung bình Định hướng đề xuất thêm giao dịch mới, itemsets thỏa ngưỡng sở liệu ban đầu tập liệu thêm vào cập nhật mà khơng cần phải tính lại tất chạy thuật toán từ đầu Nội dung cụ thể luận văn xây dựng thuật toán IHAUI-Tree để khai thác itemsets dựa độ hữu ích trung bình Khi giao dịch thêm vào sở liệu, thuật tốn cần tính tốn giá trị thay đổi cập nhật lại tập hữu ích trung bình mà khơng cần chạy lại từ đầu Đồng thời, nghiên cứu tác giả đề xuất cấu trúc liệu cho itemset để cải tiến việc tính tốn giá trị cho itemset nhanh Phương pháp đề xuất thực nghiệm liệu mẫu so sánh kết với phương pháp trước Kết thực nghiệm cho thấy, giải pháp đề xuất nâng cao hiệu việc khai thác itemsets hữu ích trung bình, việc cập nhật liệu thường xuyên ABSTRACT The main content of this thesis is to study algorithms for mining average utility itemsets on the dynamic data, learn about changes in the values of the itemsets when updating transactions, calculate those changes and suggest improving the HAUI-Tree algorithm to calculate the set of the values of the itemsets in the added database and to update the set of the average utility itemsets The objective of this work is to ensure that when new transactions are added, the itemsets meeting the threshold in the original database and the newly added dataset will be updated without re-running the algorithm from scratch In particular, the IHAUI-Tree algorithm is developed to exploit the itemsets based on the average utility When transactions are added to the database, the algorithm only needs to calculate the changed values and update the average utility itemsets without re-running from the scratch In this work, we proposed a new data structure for the itemsets to help calculate the values of the itemsets faster The proposed approach is experiement on two data sets The results were compared to previous algorithms and shown that our proposed solution improve the efficiency in exploiting the average utility itemsets, especially when data is frequently updated MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT .iv MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT viii DANH MỤC CÁC BẢNG .ix DANH MỤC CÁC HÌNH .x CHƯƠNG - TỔNG QUAN .1 1.1 Tổng quan khai phá liệu 1.1.1 Nhu cầu khai phá liệu 1.1.2 Khai thác liệu tiến hóa công nghệ thông tin .3 1.1.3 Khai phá liệu khai phá tri thức 1.1.4 Các bước trình khai phá liệu .7 1.1.5 Kiến trúc hệ thống khai phá liệu .9 1.1.6 Ứng dụng khai phá liệu 11 1.2 Khai thác mẫu phổ biến 12 1.2.1 Mẫu phổ biến .12 1.2.2 Khai thác mẫu phổ biến, tập phổ biến 12 1.3 Khai thác dựa giá trị hữu ích 14 1.4 Khai thác dựa giá trị hữu ích trung bình 15 1.5 Mục tiêu luận văn 16 CHƯƠNG - CƠ SỞ LÝ THUYẾT 18 2.1 Một số khái niệm 18 2.1.1 Cơ sở liệu giao dịch .18 2.1.2 Itemset 18 Bảng 3.1: CSDL giao dịch T It t t2 t t t t t t t9 A 0 0 B 1 0 0 C 2 50 28 0 D 0 0 1 E 2 0 2 F 1 0 0 Bảng 3.2: Giá trị hữu ích I P er3 01 Bước 1: Tính tốn độ hữu ích, giá trị hữu ích trung bình cận hữu ích trung bình, kết BẢNG 3.3 Bảng 3.3: Kết tính giá trị hữu ích, AU UB 1-itemset T It t1 t t t t t t t t9 1U B A U u 0 0 4 u u u u 0 00 50 1 0 00 28 0 0 00 0 7 4 Với Ngưỡng u m F2 u6 2 0 2 06 6 06 2 25, ta thu tập L1 (tập 1-itemset có ub > Ngưỡng) tiến hành khai thác L1 (L0 rỗng, khai thác từ đầu) Bảng 3.4: 1-itemset 1- a u It A u2 b4 { { {1 { { {21 {1 ,2 { D 4 {3 { 4{ { 2 Bước 2: Thực hàm đệ quy dựa tính chất bao đóng giảm, phương pháp tính tốn để phát sinh ứng viên theo cấu trúc IHAUI-Tree A AU 24 A B A*B UAB AUAB UBAB UB 42 A B {1,0,0 ,0,1,0 {0,1,0 ,1,0,0 {0,0,0 ,0,0,0 29 14.5 20 AU {1,0,0 40 ,0,1,0 B UB 57 AU 57 Tx {0,1,0 ,1,0,0 A C A*C UAC AUAC UBAC A C {1,0,0 ,0,1,0 {1,1,0 ,1,1,1 {1,0,0 ,0,1,0 19 9.5 16 C UB 75 {1,1,0 ,1,1,1 A E A*E UAE AUAE UBAE AE {1,5 {1,0,0 ,0,1,0 {1,0,1 ,0,1,0 {1,0,0 ,0,1,0 43 21.5 36 E AU 45 UB 56 F AU 12 {1,0,1 ,0,1,0 A F A*F UAF AUAF UBAF UB 42 A F {1,0,0 ,0,1,0 {1,0,1 ,0,0,1 {1,0,0 ,0,0,0 20 10 26 Hình 3.2: Kết kết hợp item {A} với item khác Tx {1,0,1 ,0,0,1 A AU 24 B C B*C UBC AUBC UBBC UB 42 B Tx AU UB {1,0,0,0,1,0,0,1,1,0} 40 57 C Tx AU UB {0,1,0,1,0,0,0,1,0,0} 57 75 B C {0,1,0 ,1,0,0 {1,1,0 ,1,1,1 {0,1,0 ,1,0,0 57 B E B*E UBE AUBE UBBE 28.5 37 E Tx AU UB {1,1,0,1,1,1,1,0,0,1} 45 56 B E {0,1,0 ,1,0,0 {1,0,1 ,0,1,0 {0,0,0 ,0,0,0 30 15 20 B F B*F UBF AU BF UBBF F Tx AU UB Tx {1,0,1,0,1,0,0,1,0,1} 12 42 {1,0,1,0,0,1,0,1,0,0} B F {0,1,0 ,1,0,0 {1,0,1 ,0,0,1 {0,0,0 ,0,0,0 26 13 20 Hình 3.3: Kết kết hợp item {B} với item khác Tính tốn tương tự cho item lại, ta thu IHAUI-Tree sau: A AU 24 C E C*E UCE AU CE UBCE UB 42 B Tx AU {1,0,0,0,1,0,0,1,1,0} 40 UB 57 19.5 26 UB 42 E Tx AU UB {1,1,0,1,1,1,1,0,0,1} 45 56 C F C*F UCF AUCF UBCF A UEF AUEF UBEF UB 75 CE {1,5, {1,1,0 ,1,1,1 {1,0,1 ,0,1,0 {1,0,0 ,0,1,0 39 AU 24 E F E*F C Tx AU {0,1,0,1,0,0,0,1,0,0} 57 B Tx AU 40 UB 57 Tx {0,1,0,1,0,0,0,1,0,0} C AU 57 UB 75 Tx AU UB {1,1,0,1,1,1,1,0,0,1} 45 56 F Tx AU UB Tx {1,0,1,0,1,0,0,1,0,1} 12 42 {1,0,1,0,0,1,0,1,0,0} C F {1,1,0 ,1,1,1 {1,0,1 ,0,0,1 {1,0,0 ,0,0,1 10 12 E F Tx AU UB Tx {1,0,1,0,1,0,0,1,0,1} 12 42 {1,0,1,0,0,1,0,1,0,0} EF {1,3, {1,0,1 ,0,1,0 {1,0,1 ,0,0,1 {1,0,1 ,0,0,0 35 17.5 36 Hình 3.4: Kết thu IHAUI-Tree Khai thác IHAUI-Tree với Ngưỡng 25, thu kết sau: Bảng 3.5: Kết thu tập HAU VÀ HAUUB Ite ms A B C E F A EA F A EB CE F A U 1 U N B g 425 225 725 525 625 225 225 625 625 325 Tập HAU = {{B},{C},{E},{BC}} Tập HAUUB ={{A},{B},{C},{E},{AE},{AF},{AEF},{BC},{EF}} 3.3.2 Cập nhật thêm giao dịch Giả sử, thêm giao dịch (BẢNG 3.5) vào CSDL giao dịch ban đầu (BẢNG 3.1) Bảng 3.6: CSDL giao dịch thêm T A It t1 t Bước B 1 C D E 0 F 1: Tính tốn độ hữu ích, giá trị hữu ích trung bình cận hữu ích trung bình, kết BẢNG 3.7 N U D N Và giá trị Ngưỡng tính 10 Ngưỡng = Ngưỡng + Ngưỡng = 10 + 25 = 35 Bảng 3.7: Kết tính giá trị hữu ích, AU UB 1-itemset T It t1 t 1U B A U u u u u u m 1 1F u1 26 00 06 2 87 Với Ngưỡng 10, ta thu tập L1 (tập 1-itemset có ub > Ngưỡng) u 1 00 tiến hành khai thác L1 (ta có L0 L1 lần chạy trước) Bảng 3.8: 1-itemset 1- A U T It A U9 B1 { x {1 4 07 { D { 85 26 {1 1 { Dựa vào L0 L1, ta tính tập HAUUB 1-itemset sau: Bảng 3.9: 1-itemset sau cập nhật 1Ite A B C D E F CSD aL u u b 2 5 7 4 5 2 CSDL AThêm U IteA U9 B1 B 4 C D E 85 26 F 1 CSDL A Cập U Ngư IteA U B6 ỡng 35 35 B C 19 35 D 26 35 35 E 35 F Bước 2: Thực hàm đệ quy dựa tính chất bao đóng giảm, phương pháp tính tốn để phát sinh ứng viên theo cấu trúc IHAUI-Tree A UB T {1,x 0,1 AB {1,} A {1, 0,1 B {1, 1,0 A*B {1, 0,03 UAB AUAB UBAB 12 AU AUAB UBAB AU 40 B UB T 42 {1,x 1,0 AU AC A {1,3} {1, 0,1 C {1, A*C 1,1 {1, 0,1 UAC 12 AUAC UBAC 18 C UB T 48 {1,x 1,1 A AUAC C UBAC 345 A B16 32 D UB T 42 {1,x 1,0 AD {1}{1, A 0,1 D {1, A*D 1,0 {1, 0,0 UAD 15 AUAD UBAD 12 AU 18 A 1U F U T x 1B {1,0, 1} AF A {1,3} {1, 0,1 F {1, 0,1 A*F {1, 0,1 UAF 21 AUAF UBAF A AUAD D 18 UBAD 24 180 A AUAE E 18 UBAE 24 A AUAF F UBAF 44 Hình 3.5: Kết kết hợp item {A} với item khác N D Ta thấy {AB} có UB thỏa Ngưỡng khơng có tập HAUUB (của lần chạy trước), nên ta tính lại {AB}, sau cập nhật {AB} khơng thỏa NgưỡngU Vì ta bỏ qua N D {AC} có UB thỏa Ngưỡng khơng có tập HAUUB (của lần chạy trước) Vì ta duyệt lại CSDL ban đầu để tính giá trị {AC} xem có thỏa U khơng Ở đây, {AC} sau cập nhật không thỏa Ngưỡng , nên ta bỏ qua N D {AD} có UB thỏa Ngưỡng khơng có tập HAUUB (của lần chạy U trước), nên {AD} sau cập nhật thỏa Ngưỡng Vì ta duyệt lại CSDL ban đầu để tính giá trị {AD} xem có thỏa không Ở đây, {AD} sau U cập nhật không thỏa Ngưỡng , nên ta bỏ qua N D {AE} có UB khơng thỏa Ngưỡng có tập HAUUB (của lần U chạy trước), nên {AE} sau cập nhật thỏa Ngưỡng Ở đây, {AE} sau U cập nhật không thỏa Ngưỡng , nên ta bỏ qua N D {AF} có UB thỏa Ngưỡng , có tập HAUUB (của lần chạy trước), U nên {AF} sau cập nhật thỏa Ngưỡng Vì ta cập nhật lại giá trị N D D {AF} = {AF} + {AF} (trong tập HAUUB ) xem có thỏa khơng Ở đây, {AF} có U U UB sau cập nhật thỏa Ngưỡng , nên ta thêm vào tập HAUUB A UB T {1,x 0,1 AU AU 40 B UB T 42 {1,x 1,0 AU C UB T 48 {1,x 1,1 AU 18 D UB T 42 {1,x 1,0 A 1U F U T x 1B {1,0, 1} BC B {1,2} {1, 1,0 C {1, 1,1 B*C {1, 1,0 UBC 25 AUBC UBBC 222 BD BD {1,2} {1, 1,0 D {1, 1,0 B*D {1, 1,0 UBD 38 AUBD 19 UBBD 22 BF {1}{1, B 1,0 F {1, 0,1 B*F {0, 0,1 UBF 20 AUBF 10 UBBF 12 B AUBC C 41 UBBC 59 B AUBD D 19 UBBD 22 B AUBF F 23 UBBF 32 Hình 3.6: Kết kết hợp item {B} với item khác Tính tốn tương tự cho item lại, ta thu kết sau: A UB AU T x {1, 0,1 AU 40 B UB 42 T x {1, 1,0 AU C UB 48 T x {1, 1,1 AU 18 D UB T x 42 {1, 1,0 A U C D AUCD UBCD AUDE UBDE AUDF D F 19 UBDF UBCF 404 A AU UB DE {1} D {1, 1,0 E {0, 0,1 D*E {1, 0,0 UDE E F E*F UE F AU CF 22 UBCD T x {1,0, 1} CF {1,3} C {1, 1,1 F {1, 0,1 C*F {1, 0,1 UCF 15 CD {1,2} C {1, 1,1 D {1, 1,0 C*D {1, 1,0 UCD 23 AUCD F U B T x {1, 0,1 AU 40 B UB 42 T x {1, 1,0 AU C UB 48 T x {1, 1,1 AU 18 D UB T x 42 {1, 1,0 A U C E C*E UCE 18 AUCE UBCE AU CE C E 16 AUCF UBCE 22 UBCF F U B CE {3} {1,1, 1} {0,0, 1} {0,0, 1} C F 30 T x {1,0, 1} D F D*F UDF DF {1} {1,1, 0} {1,0, 1} {1,0, 0}22 AUDF 11 UBDF 12 24 E F {0, 0,1 {1, 0,1 {0, 0,1 AUE F UBE F E AUE F F 21 UBE F 42 Hình 3.7: Kết kết hợp item khác Khai thác IHAUI-Tree với Ngưỡng 35, thu kết sau: Bảng 3.10: Kết thu từ IHAUI-Tree It A B C D E F A E A FB C D E F A U 3 24 04 21 42 UNg B6ưỡ 35 035 1935 2635 635 235 435 235 435 435 035 Tập HAUI = {{B},{C},{D},{E},{BC}} Tập HAUUB = {{A},{B},{C},{D},{E},{F},{AF},{AF},{BC},{CD},{EF}} 3.4 Một số nhận xét Thuật tốn áp dụng tính bao đóng giảm tập cận hữu ích trung bình để giảm số ứng viên giá trị cận trung bình tối thiểu để loại bỏ bớt ứng viên nhằm tăng tốc độ giảm nhớ khai thác Đồng thời thuật toán đề xuất sử dụng cấu trúc liệu để tăng hiệu tính tốn giá trị itemset tính tốn r-itemset dựa vào 1-itemset tiện cho việc cập nhật liệu Tuy nhiên, với trường hợp số lượng 1-itemset tập cận hữu ích trung bình số lượng itemset tập cận hữu ích trung bình lần chạy trước nhiều (do ngưỡng nhỏ CSDL lớn) thuật tốn gặp vấn đề vùng nhớ Kết luận chương Chương tìm hiểu tính chất Apriori việc áp dụng khai thác tập itemset hữu ích trung bình sở liệu có biến động Cũng tìm hiểu thay đổi giá trị itemset cập nhật thêm giao dịch, tính tốn thay đổi đề xuất cải tiến thuật tốn HAUI-Tree để tính tốn tập giá trị itemset sở liệu cập nhật lại tập itemset hữu ích trung bình Để biến động xảy ra, itemset tìm cập nhật mà không cần chạy lại giải thuật từ đầu HAUI-Tree Đồng thời, chương trình cấu trúc liệu cho cho itemset để tối ưu hóa việc tính tốn giá trị khai thác cập nhật giá trị itemset thêm giao dịch Bảng 3.11: Câu trúc itemset IHAUI HAUI 1- a u It A u2 b4 7 D 4 5 2 1- a u It A u2 b4 B C D 4 E 5 F 2 { { 1 { { {0 {21 { ,2 { {3 { 4{ { P { {O , { {{21 {,2,{ ,{ {3 ,{ 4{ , CHƯƠNG - THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Các liệu mẫu Bảng 4.1: Thông tin liệu B Số Số ộ gi 3ite Ac ci R 88 16 e 166 Chúng tơi thử nghiệm thuật tốn đề xuất liệu Accidents Retail, với giá trị item giao dịch phát sinh ngẫu nhiên đoạn [0, 10] Chương trình cài đặt NET framework 4.5, sử dụng Visual Studio 2017 Thực nghiệm tiến hành máy tính cấu hình Intel Core i57400, 4GB RAM, hệ điều hành Windows 10 64bit Chúng cài đặt tiến hành so sánh hai thuật toán HAUI-Tree thuật toán đề xuất số ứng viên xét thời gian chạy nhằm rút cải tiến thuật toán luận văn đưa sử dụng IHAUI-Tree để khai thác cấu trúc itemset để cải tiến tốc độ tính tốn Từng liệu chạy thử số lượng giao dịch khác nhau, đưa kết tập cận hữu ích trung bình gồm 1itemset (HAUUB1), tập hữu ích trung bình gồm 1-itemset ban đầu (HAU1), thời gian chạy số lượng ứng viên tương ứng cho thuật toán 4.2 Chạy thử nghiệm liệu Accidents Bảng 4.2: Kết chạy thử nghiệm Tổng giao dịch 280000 290000 300000 310000 320000 330000 340183 Thuật toán HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUUB1 31 31 31 31 31 31 31 31 31 31 31 31 31 31 HAU1 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Ứng viên 18744 18744 18738 18738 18788 18788 18560 18560 18505 18505 18670 18670 18748 18748 HAUUB 5864 5864 5863 5863 5883 5883 5812 5812 5801 5801 5860 5860 5889 5889 HAU Thời gian (phút) 99 6.679 99 6.625 100 7.56 100 1.832 100 8.172 100 1.372 98 7.61 98 0.439 99 7.395 99 0.724 99 7.551 99 4.087 100 8.29 100 1.794 Bảng 4.3: Thời gian chạy thuật toán T 2 3 3 H 7 IH 1 0 A Accidents Database Thời gian chạy (phút) 10 280000 290000 300000 310000 320000 330000 Số giao dịch HAUI-TREE IHAUI-TREE Hình 4.1: So sánh thời gian chạy thuật toán 340183 4.3 Chạy thử nghiệm liệu Retail Bảng 4.4: Kết chạy thử nghiệm Số lượng giao dịch 87400 87600 87800 88000 88162 Thuật toán HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUI-TREE IHAUI-TREE HAUUB1 298 298 297 297 297 297 296 296 298 298 HAU1 68 68 69 69 69 69 70 70 70 70 Ứng viên 76960 76960 76689 76689 76689 76689 76283 76283 76876 76876 HAUUB 785 785 786 786 786 786 784 784 786 786 HAU Thời gian (phút) 319 3.237 319 2.961 320 3.104 320 0.109 320 3.021 320 0.088 321 3.106 321 0.119 321 2.537 321 0.092 Bảng 4.5: Thời gian chạy thuật toán 8 8 Thời gian chạy (phút) T H IH A 3.5 2.5 1.5 0.5 87400 Retail Database 87600 87800 88000 88162 Số giao dịch HAUI-TREE IHAUI-TREE Hình 4.2: So sánh thời gian chạy thuật toán 4.4 Kết luận kiến nghị Luận văn đề xuất cấu trúc liệu để cải tiến thuật toán HAU- Tree xây dựng thuật toán IHAUI-Tree để khai thác tập hữu ích trung bình liệu động Thuật tốn có sử dụng tính bao đóng giảm tập cận hữu ích trung bình để giảm số lượng ứng viên so với thuật toán khai thác tập liệu động trước đó, thời gian tính tốn nhanh nhờ cách lưu trữ sử dụng hiệu tập Tx Pos Thực nghiệm cho thấy thuật toán IHAUI sử dụng cấu trúc liệu giúp cải thiện nhớ thực thi chương trình giúp tính tốn nhanh ritemset tập liệu lần chạy trước Tuy cải thiện nhiều mặt nhớ, thuật toán gặp vấn đề nhớ chạy liệu lớn, tỉ lệ ngưỡng nhỏ Một vấn đề là, ta thấy số lượng ứng viên thỏa ngưỡng nhỏ nhiều so với số lượng xét Vì cần phải tìm cách giảm số lượng ứng viên Kết luận chương Chương trình bày kết chạy thực nghiệm thuật toán đề xuất liệu mẫu, kết so sách với thuật toán tác giả trước Đồng thời rút số nhận xét đánh giá KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Những đóng góp luận văn: Luận văn đề xuất xây dựng thuật toán IHAUI-Tree việc khai thác itemset dựa tập hữu ích trung bình để giảm thời gian chạy lại sở liệu thêm giao dịch  Đồng thời, đề xuất cấu trúc liệu cho itemset (BitArray) để tăng tốc độ tính tốn giá trị khai thác hỗ trợ việc tính tốn giá trị itemset lần chạy sau dựa vào tập cận hữu ích trung bình lần chạy trước Chạy thực nghiệm hai liệu so sánh với thuật toán HAUI-Tree ngưỡng cận hữu ích trung bình Hướng phát triển  Nghiên cứu tiếp trường hợp biến động liệu khác (xóa, sửa) sơ sở liệu ban đầu  Nghiên cứu đề xuất giải pháp giảm bớt số ứng viên tập cận hữu ích trung bình Nghiên cứu đề xuất giải pháp cho việc cài đặt phân tán, khai thác hệ sơ sở liệu phân tán Nghiên cứu đề xuất giải pháp cho việc ứng dụng toán vào thực tế DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Hong, T.P., Lee, C.H., Wang, S.L (2011), “Effective utility mining with the measure of average utility”, Expert Systems with Applications, 38, 8259–8265 [2] Jiawei Ha, Micheline Kamber, Jian Pei (2012), Data Mining Concepts and Techniques Third Edition, Elsevier Inc, 243-248 [3] Lan, G.C., Hong, T.P., Tseng, V.S (2012), “Efficiently mining high averageutility itemsets with an improved upper-bound strategy”, International Journal of Information Technology & Decision Making, 1009-1030 [4] Lan, G.C., Hong, T.P., Tseng, V.S (2012), “A Projection-Based Approach for Discovering High Average-Utility Itemsets”, Journal Of Information Science And Engineering, 28, 193-209 [5] Lan, G.C., Hong, T.P., Lu, W.H (2010), “An effective tree structure for mining high utility itemset”, Expert Systems with Applications, 38, 7419– 7424 [6] Lan, G.C., Hong, T.P., Tseng, V.S (2010), “Mining High TransactionWeighted Utility Itemsets”, Computer Engineering and Applications (ICCEA), 11242871, 314 – 318 [7] Lan, G.C., Lin, C.W., Hong, T.P., Tseng, V.S (2011), “Updating High Average-Utility Itemsets in Dynamic Databases”, Intelligent Control and Automation (WCICA), 12145338, 932 – 936 [8] Liu, Y., Liao, W.K., Choudhary (2005), “A two-phase algorithm for fast discovery of high utility itemsets”, Lecture Notes in Computer Science, 3518, 689-695 [9] Tien Lu, Bay Vo, Hien T Nguyen, Tzung-Pei Hong (2014), “A New Method for Mining High Average Utility Itemsets”, Computer Information Systems and Industrial Management Lecture Notes in Computer Science Volume 8838, 2014, pp 33– 42 ... đề XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH II- Nhiệm vụ nội dung: Giới thiệu tổng quan khai thác liệu khai thác luật kết hợp dựa tập phổ biến, tập hữu ích. .. tập hữu ích trung bình Trình bày số thuật tốn cho q trình khai thác tập itemset có giá trị hữu ích cao hữu ích trung bình cao Xây dựng thuật tốn khai thác itemset có giá trị hữu ích trung bình. .. nhanh chóng rút ngắn thời gian khai thác 1.4 Khai thác dựa giá trị hữu ích trung bình Như nhắc trên, với khai thác độ hữu ích, độ hữu ích itemset tổng giá trị hữu ích item tất giao dịch chứa mà

Ngày đăng: 02/01/2019, 11:01

Tài liệu cùng người dùng

Tài liệu liên quan