Khai thác luật kết hợp có trọng số trong cơ sở dữ liệu: luận văn thạc sĩ

76 39 0
Khai thác luật kết hợp có trọng số trong cơ sở dữ liệu: luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG *** HỒ XUÂN KIÊN KHAI THÁC LUẬT KẾT HỢP CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG *** HỒ XUÂN KIÊN KHAI THÁC LUẬT KẾT HỢP CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU Chuyên nghành: CÔNG NGHỆ THÔNG TIN Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: PGS.TS Nguyễn Thanh Tùng Đồng Nai, năm 2017 LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn chân thành đến thầy hướng dẫn PGS.TS Nguyễn Thanh Tùng - Viện Công Nghệ Thông Tin, người tận tình giảng dạy, hướng dẫn, bảo, động viên suốt thời gian học tập làm luận văn Tôi xin gửi lời cảm ơn sâu sắc đến Thầy/Cô giáo Khoa Công nghệ thông tin - Trường Đại học Lạc Hồng trực tiếp giảng dạy hai năm học qua Tôi xin gửi lời cảm ơn đến lãnh đạo Trường Đại Học Lạc Hồng tạo điều kiện sở vật chất để tơi hồn thành chương trình học Mặc dù q trình làm luận văn tơi có nhiều cố gắng để hồn thành luận văn cách tốt nhất, nhiên không tránh khỏi thiếu sót, mong nhận góp ý thầy cô giáo đồng nghiệp Đồng Nai, ngày 16 tháng 12 năm 2016 Học viên HỒ XUÂN KIÊN LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn thầy PGS.TS Nguyễn Thanh Tùng Mọi tham khảo sử dụng luận văn trích dẫn rõ ràng tác giả, tên cơng trình, thời gian, địa điểm công bố Tôi xin chịu trách nhiệm với lời cam đoan Đồng Nai, ngày 16 tháng 12 năm 2016 Học viên HỒ XUÂN KIÊN MỤC LỤC Trang phụ bìa Lời cảm ơn Lời cam đoan Mục lục Danh mục ký hiệu, chữ viết tắt Danh mục bảng Danh mục hình vẽ Mở đầu 10 Chƣơng Khái quát khai phá liệu vấn đề khai thác luật kết hợp 12 1.1 Khai phá liệu 12 1.2 Khai phá luật kết hợp 16 1.2.1 Cơ sở liệu giao tác 17 1.2.2 Phát biểu toán khai phá luật kết hợp 18 1.2.3 Các tính chất tập mục thường xuyên luật kết hợp 21 1.2.3.1 Các tính chất TMTX 21 1.2.3.2 Các tính chất luật kết hợp 21 1.2.4 Một số hướng tiếp cận khai phát luật kết hợp 22 1.2.5 Một số thuật toán khai phá luật kết hợp 24 1.2.5.1 Thuật toán Apriori 24 1.2.5.2 Thuật toán FP-Growth 31 1.2.6 Mở rộng toán khai phá TMTX 35 1.3 Kết luận chương 36 Chƣơng Các mơ hình thuật tốn khai thác luật kết hợp có trọng số 37 2.1 Yêu cầu phải xem xét trọng số 37 2.2 Khai thác luật kết hợp có trọng số khơng chuẩn hóa, thuật tốn MINWAL(O) 38 2.2.1 Mơ hình tốn 38 2.2.2 Thuật tốn MINWAL(O) khai phá tập mục thường xun có trọng số 42 2.2.2.1 Cơ sở toán học 42 2.2.2.2 Thuật toán MINWAL(O) 45 2.3 Khai thác luật kết hợp có trọng số chuẩn hóa, thuật tốn MINWAL(W) 56 2.3.1 Mơ hình tốn 56 2.3.2 Thuậ toán MINWAL(W) khai phá tập mục thường xuyên có trọng số chuẩn hóa 58 2.3.2.1 Cơ sở toán học 58 2.3.2.2 Thuật toán MINWAL(W) 59 2.4 Kết luận chương 66 Chƣơng Cài đặt thuật toán kết tính tốn thử nghiệm 67 3.1 Giới thiệu toán 67 3.2 Cài đặt thuật toán 67 3.2.1 Môi trường cài đặt 67 3.2.2 Giao diện sử dụng chức chương trình 68 3.3 Đánh giá kết hướng phát triển 73 3.4 Kết luận chương 73 Kết luận 74 Tài liệu tham khảo DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Từ cụm từ CSDL Cơ sở liệu CNTT Công nghệ thông tin KDD Knowledge Discovery in Databases TMTX Tập mục thường xuyên DANH MỤC BẢNG Ý NGHĨA STT TRANG Bảng 1.1 Biểu diễn ngang CSDL giao tác 17 Bảng 1.2 Biểu diễn dọc CSDL giao tác 17 Bảng 1.3 Ma trận giao tác CSDL 18 Bảng 1.4 Cơ sở liệu giao tác minh hoạ thực thuật toán 27 Apriori Bảng 2.1 CSDL giao tác 44 Bảng 2.2 Trọng số mục 44 DANH MỤC HÌNH STT Ý NGHĨA TRANG Hình 1.1 Các bước trình khám phá tri thức 14 Hình 3.1 Sơ đồ chức chương trình 68 Hình 3.2 Giao diện chương trình 68 Hình 3.3 Form nhập mã hàng với trọng số tương ứng 69 Hình 3.4 Form nhập hóa đơn khách hàng 69 Hình 3.5 Chương trình minh họa thuật tốn Apriori 70 Hình 3.6 Hình minh họa thuật tốn MINWAL(O) 71 Hình 3.7 Minh họa thuật tốn MINWAL(W) 72 10 MỞ ĐẦU  Lý chọn đề tài Khai thác luật kết hợp (Association Rule Mining) kỹ thuật quan trọng, có nhiều ứng dụng khai thác liệu Mơ hình (mơ hình nhị phân) toán khai thác luật kết hợp giới thiệu Agrawal cộng vào năm 1993, nghiên cứu phát mối quan hệ mặt hàng (mục liệu items) sở liệu giao tác siêu thị [4] Sau cơng trình kinh điển này, vấn đề khai thác luật kết hợp sở liệu (CSDL) nhiều nhà nghiên cứu lý thuyết ứng dụng quan tâm Nhiều thuật toán mới, hiệu khai thác luật kết hợp, mơ hình mở rộng tốn nhà nghiên cứu đề xuất Mơ hình nhị phân tốn khai thác luật kết hợp có số hạn chế, khơng đáp ứng tình khác thực tiễn Một hạn chế mơ hình tất mục liệu xử lý (xuất hay không xuất giao tác), thực tế chúng có tầm quan trọng khác Nhằm khắc phục hạn chế người ta đề xuất mơ hình khai thác luật kết hợp có trọng số, mặt hàng gán cho trọng số khác tùy theo mức độ quan trọng chúng việc mang lại lợi nhuận kinh doanh Những năm gần đây, khai thác luật kết hợp có trọng số trở thành đề tài hấp dẫn, nội dung quan trọng khai thác liệu, thu hút quan tâm nhiều nhà nghiên cứu ứng dụng Sau cơng trình Cai C.H cộng [5], với hai thuật toán MINWAL(O) MINWAL(W), nhà nghiên cứu liên tục phát triển đề xuất thuật toán mới: thuật toán WARM Tao F [7], WAR Wang W cộng [8], WFIM Yun U Leggett J J [9], SPWIPtree Chowdhury Farhan Ahmed cộng [6]  Mục tiêu đề tài Nghiên cứu tốn khai phá luật kết hợp có trọng số sở liệu (CSDL) lớn với số định nghĩa độ hỗ trợ có trọng số tập mục Nghiên cứu số thuật toán hiệu khai phá tập mục thường xuyên có trọng số, từ phát luật kết hợp có trọng số 62 tập ứng viên sử dụng để tạo tập mục cha có khả tập mục thường xuyên có trọng số chuẩn hóa vịng lặp Rules (L, minconf): Sinh luật kết hợp thỏa mãn độ tin cậy minconf từ tập mục thường xuyên có trọng số thuộc L Cấu trúc thuật toán MINWAL(W) tương tự thuật tốn Apriori, chi tiết có số khác biệt Mặc dù k-tập mục thường xuyên có trọng số chuẩn hóa sinh từ  k  1 -tập mục, tất tập tập mục thường xuyên có trọng số chuẩn hóa tập mục thường xun có trọng số chuẩn hóa Vì có khác biệt việc tạo các tập ứng viên MINWAL(W) Apriori Trong Apriori, Các tập ứng viên Ck sinh việc kết nối tập mục thường xuyên thuộc Lk 1 Trong MINWAL(W), tập ứng viên Ck sinh cách tạo tập cha bậc thấp tập mục Lk 1 (dựa theo Mệnh đề 2.4) Trong trình tỉa bớt ứng viên MINWAL(W) Apriori Gen có khác biệt Việc tỉa bớt ứng viên MINWAL(W) không thông qua việc kiểm tra tập tập mục thường xuyên có trọng số chuẩn hóa có phải mục thường xuyên có trọng số chuẩn hóa hay không mà sử dụng ước lượng độ hỗ trợ có trọng số chuẩn hóa Theo Mệnh đề 2.1, độ hỗ trợ có trọng số chuẩn hóa ước lượng lớn độ hỗ trợ có trọng số chuẩn hóa xác tập mục ứng viên, nên ứng viên có độ hỗ trợ có trọng số chuẩn hóa ước lượng lớn ngưỡng nwminsup khơng thể tập mục thường xuyên có trọng số chuẩn hóa Ví dụ 2.3: Xét CSDL DT bảng 2.1 có trọng số mục cho bảng 2.2 Giả sử ngưỡng nwminsup 0.50 ngưỡng minconf 0.85 Ta cần tìm tất tập mục thường xun có trọng số chuẩn hóa DT 63 Giải: Duyệt CSDL DT, thu độ dài có tập mục DT Bƣớc lặp (k =1) - Cho C1  I , L   - Duyệt CSDL DT, thu số đếm hỗ trợ mục C1 là: SC(e) = 7, SC(d) = 6, SC(c) = 2, SC(b) = 5, SC(a) = - Tính độ hỗ trợ có trọng số chuẩn hóa mục thuộc C1 , thu được: NWsup(e)  0.9   0.90 , NWsup(d)  0.8   0.68 7 NWsup(c)  0.4   0.11 , NWsup(b)  0.3   0.21 7 NWsup(a)  0.1  0.057 - Với nwminsup cho 0.50, L1  d,e - Sau bước lặp 1, ta có L  L  L1    d,e  d,e Bƣớc lặp (k =2) - Thực kết nối: Kết nối tập mục thường xuyên L1 với mục C1 có trọng số nhỏ để lập thành tập cha bậc thấp, thu được: C2  e,d , e,c , e,b , e,a , d,c , d,b , d,a - Tỉa C2 : Ước lượng cận cho cho số đếm độ hỗ trợ (ESC) tập mục C2 là: ESC e,d  SC e , SC d  7,6  , ESC e,c  SC e , SC c  7,2  , 64 ESC e,b  SC e , SC b  7,5  , ESC e,a  SC e , SC a  7,4  , ESC d,c  SC d , SC c  6,2  , ESC d,b  SC d , SC b  6,5  ESC d,a  SC d , SC a  6,4  Với ước lượng số đếm hỗ trợ, ta có ước lượng cho độ hỗ trợ có trọng số chuẩn hóa tập mục C2 là: ENWsup e,d  0.9  0.8   0.73 , ENWsup e,c  0.18 , ENWsup e,b  0.43 , ENWsup e,a  0.28 , ENWsup d,c  0.17 , ENWsup d,b  0.39 , ENWsup d,a  0.26 Các tập mục e,c , e,b , e,a , d,c , d,b d,a , có độ hỗ trợ có trọng số chuẩn hóa ước lượng nhỏ nwminsup = 0.50, nên bị loại Sau tỉa, lại C2  e,d Thực kiểm tra: Duyệt CSDL DT, xác định số đếm hỗ trợ thực tế, tính độ hỗ trợ có trọng số chuẩn hóa thực tế e,d : NWsup e,d  we  wd 0.9  0.8  sup e,d    0.73  nwminsup 2 Vậy, L2  e,d Sau bước lặp 2, L  L  L2  d,e,e,d 65 Bƣớc lặp (k =3) Kết nối: Thực kết nối tập mục thường xuyên L2 với mục có trọng số nhỏ để lập thành tập cha bậc thấp, thu được: C3  e,d,a,e,d,b,e,d,c Tỉa C3 : Ước lượng cận cho cho số đếm độ hỗ trợ ba tập mục C3 đây, ta có: ESC e,d,a  SC e,d , SC a  6,4  , ESC e,d,b  SC e,d , SC b  6,5  , ESC e,d,c  SC e,d , SC c  6,2  Với ước lượng số đếm hỗ trợ, ta có ước lượng cho độ hỗ trợ có trọng số chuẩn hóa tập mục là: ENWsupport e,d,a  0.9  0.8  0.1   0.34 , ENWsupport e,d,b  0.48 , ENWsupport e,d,c  0.20 Với nwminsup = 0.50 , ba tập e,d,a,e,d,b,e,d,c bị loại Sau tỉa, C3   Do L3   , thuật tốn dừng Như vậy, sau ba bước lặp, L  d,e,e,d Sinh luật kết hợp: Từ tập mục d , e có hai luật kết hợp: conf( d  e ) = SC d , e SC d   1 , 66 conf( e  d ) = SC d , e SC e   0.87 Như vậy, với ngưỡng nwminsup 0.50 ngưỡng minconf 0.80, có hai luật kết hợp có trọng số lớn là: d  e , e  d 2.4 Kết luận chƣơng Chương luận văn trình bày hai mơ hình mở rộng toán khai phá luật kết hợp nhị phân: Khai phá luật kết hợp có trọng số Khai phá luật kết hợp có trọng số chuẩn hóa Trong trường hợp mở rộng, sau phần phát biểu toán phần trình bày sở tốn học lời giải thuật toán Các thuật toán minh họa ví dụ cụ thể, rõ ràng bước 67 CHƢƠNG CÀI ĐẶT THUẬT TOÁN VÀ CÁC KẾT QUẢ TÍNH TỐN THỬ NGHIỆM 3.1 Giới thiệu tốn Như trình bày chương chương khai phá tập mục thường xuyên khai phá luật kết hợp có nhiều ứng dụng thực tiễn, kinh quản lý doanh Chương trình bày việc cài đặt thuật tốn khai phá luật kết hợp có trọng số chạy thử nghiệm CSDL bán hàng Cơ sở liệu bán hàng gồm có: - Số lượng mặt hàng là: 11 - Số giao dịch: 464 3.2 Cài đặt thuật tốn 3.2.1 Mơi trƣờng cài đặt Chương trình cài đặt mơi trường Microsoft Vusual Studio 2015, câu lệnh viết ngôn ngữ C# Chương trình chạy Microsoft Framework 4.5 lưu trữ liệu tệp Database Micrsoft SQL server 2008 Chương trình thử nghiệm hệ điều hành Windows 64bit, máy tính cá nhân với xử lý Intel(R) Core(TM) i5-245-M @2.50Ghz, nhớ Ram có dung lượng 4Gb 68 3.2.2 Giao diện sử dụng chức chƣơng trình Sơ đồ chức giao diện chương trình cho Hình 3.1 Hình 3.2 Hình 3.1 Sơ đồ chức chương trình Hình 3.2 Giao diện chương trình 69 Xây dựng form để nhập danh mục hàng hóa hóa đơn tương ứng khách hàng: Hình 3.3 Form nhập mã hàng với trọng số tương ứng Hình 3.4 Form nhập hóa đơn khách hàng 70 Các Hình 3.5, 3.6 3.7 mơ tả q trình hoạt động thuật tốn Apriori, MINWAL(O) MINWAL(W) Hình 3.5 Chương trình minh họa thuật tốn Apriori Form TinhApriori : Tìm TMTX với độ hỗ trợ cho trước gồm phương thức sau :  GetL1FrequentItems() : Tạo TMTX có tập mục  GenerateCandidate() : Kết nối TMTX theo thứ tự từ điển để tạo tập ứng viên  GenerateCandidates() : Tạo tập ứng viên k+1 tập mục từ TMTX có k tập mục  Thuật toán dừng đếm phương thức GenerateCandidates() 71 Hình 3.6 Hình minh họa thuật toán MINWAL(O) Form TinhMinwalO : Khai phá luật kết hợp có trọng số khơng chuẩn hóa với độ hỗ trợ độ tin cậy cho trước gồm phương thức sau:  GetL1FrequentItems_MINWALO() : Tạo tập mục ứng viên tập mục candidates so sánh với độ hỗ trợ để tạo TMTX có tập mục  GenerateCandidates_MINWALO() : Tạo tập ứng viên k+1 tập mục từ tập từ candidates so sánh với đọ hỗ trợ để tạo TMTX  Thuật toán dừng đếm phương thức GenerateCandidates() 72 Hình 3.7 Hình minh họa thuật toán MINWAL(W) Form TinhMinwalW : Khai phá luật kết hợp có trọng số chuẩn hóa với độ hỗ trợ độ tin cậy cho trước gồm phương thức sau :  GenerateCandidatesL1() : Tạo tập ứng viên C1  GetL1FrequentItems_MINWALW() : Tạo TMTX có tập mục  GenerateCandidatesL1() : Kết nối TMTX với tập ứng viên  GenerateCandidates_MINWALW() : sinh TMTX tạo tập mục ứng viên  Thuật toán dừng đếm phương thức GenerateCandidates() 73 3.3 Đánh giá kết hƣớng phát triển Thuật toán cài đặt, chạy thử liệu bán hàng cho kết xác so với kết tính tốn trước Kết chạy thuật tốn tìm TMTX CSDL bán hàng, từ phát luật kết hợp Tuy nhiên thuật tốn chạy với CSDL có lượng liệu khơng nhiều nên chưa đánh giá xác thời gian tấc độ thực thuật toán 3.4 Kết luận chƣơng Trong chương này, luận văn trình bày việc cài đặt chạy thử thuật toán Apriori, MINWAL(O), MINWAL(W) CSDL bán hàng cho kết xác so với kết tính tốn trước 74 KẾT LUẬN  Nội dung luận văn Ƣu điểm - Trình bày khái quát kiến thức khai phá liệu, toán khai phá luật kết hợp truyền thống (nhị phân) thuật toán Apriori (Chương 1) - Trên sở kiến thức khai phá luật kết hợp truyền thống, luận văn trình bày hai mơ hình mở rộng thuật tốn khai phá luật kết hợp có tính đến trọng số khác mục Đó là: khai phá luật kết hợp có trọng số khơng chuẩn hóa khai phá luật kết hợp có trọng số chuẩn hóa Các thuật tốn minh họa ví dụ cụ thể (chương 2) - Các thuật tốn lập trình, tính tốn, thử nghiệm chạy CSDL giao tác (Chương 3) Hạn chế Các thuật toán cài đặt chạy để xử lý CSDL bán hàng học viên xây dựng lên với lượng liệu không đủ lớn nên chưa tính thời gian, nhớ mà thuật tốn sử dụng  Cơng việc tiếp theo: - Tiếp tục thực việc kiểm tra, đánh giá thuật toán nghiên cứu khai phá luật kết hợp có trọng số, thơng qua tính tốn thực nghiệm CSDL thực tế có lượng liệu đủ lớn - Tìm hiểu thêm thuật tốn để khai phá luật kết hợp có trọng số 75 TÀI LIỆU THAM KHẢO Bac Le, Huy Nguyen and Bay Vo (2010), Efficient Algorithms for Mining [1] Frequent Weighted Itemsets from Weighted Items Databases Proceedings of 2010 IEEE RIVF, pp 1-6 Trần Huy Dương, Nguyễn Hưng Long, Nguyễn Thanh Tùng (2012), Một [2] thuật toán hiệu khai phá tập mục thường xuyên có trọng số chuẩn hóa Kỷ yếu Hội thảo Quốc gia lần thứ XIV “Một số vấn đề chọn lọc Công nghệ thông tin Truyền thông”, NXB Khoa học Kỹ thuật, Hà nội, tr 318-331 [3] [4] Đỗ Phúc (2006), Giáo trình khai thác liệu (Data Minning) Nhà xuất Đại Học Quốc Gia TP Hồ Chí Minh Agrawal, R., Srikant, R (1994), Fast Algorithms for Mining Association Rules 20th Int Conf on Very Large Data Bases (VLDB), pp 487–499 Cai, C.H., Fu, A.W.C., Cheng, C.H., Kwong, W.W (1998) Mining [5] association rules with weighted items In Proceedings of Int Database Engineering and Applications Symposium (IDEAS 1998), Cardiff, Wales, UK, pp 68–77 [6] Chowdhury Farhan Ahmed, et al (2008), Efficient Single-Pass Mining of Weighted Interesting Patterns In: AI 2008, LNAI 5360, pp 404 – 415 Tao, F (2003), Weighted association rule mining using weighted support and [7] significant framework In: 9th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining, USA, pp 661–666 [8] Wang, W., Yang, J., Yu, P.S (2004), WAR: weighted association rules for item intensities Knowledge Information and Systems 6, pp 203–229 Yun, U., Leggett, J.J (2005), WFIM: weighted frequent itemset mining with [9] a weight range and a minimum weight In: Fourth SIAM Int Conf on Data Mining, USA, pp 636–640 76 Yun, U (2007), Efficient Mining of weighted interesting patterns with a [10] strong weight and/or support affinity Information Sciences 177, pp 3477– 3499 ... luật kết hợp có trọng số chương sau luận văn 37 CHƢƠNG CÁC MƠ HÌNH VÀ THUẬT TỐN KHAI THÁC LUẬT KẾT HỢP CÓ TRỌNG SỐ 2.1 Yêu cầu phải xem xét trọng số Khai phá luật kết hợp đóng vai trị quan trọng. .. gọi trọng số Độ hỗ trợ luật kết hợp trở thành độ 36 hỗ trợ độ tin cậy có trọng số Luật kết hợp có độ hỗ trợ trọng số hóa gọi luật kết hợp có trọng số - Quân tâm tới kiểu thuộc tính khác sở liệu... 35 1.3 Kết luận chương 36 Chƣơng Các mô hình thuật tốn khai thác luật kết hợp có trọng số 37 2.1 Yêu cầu phải xem xét trọng số 37 2.2 Khai thác luật kết hợp có trọng số khơng

Ngày đăng: 16/08/2020, 10:30

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan