Khai phá tập mục thường xuyên có trọng số

58 252 0
Khai phá tập mục thường xuyên có trọng số

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI ===#r)tBoa=== NGUYỄN YĂN PHÓNG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN CÓ TRỌNG SỐ LUẬN VĂN THẠC sĩ MÁY TÍNH Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI ===#r)tBoa=== NGUYỄN YĂN PHÓNG KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN CÓ TRỌNG SỐ Chuyên ngành: Khoa học máy tính Mã sổ: 60 48 01 01 LUẬN VĂN THẠC sĩ MÁY TÍNH Ngưòi hướng dẫn khoa học: TS NGUYỄN LONG GIANG Để hoàn thành luận văn nhận giúp đỡ tận tình thầy hướng dẫn khoa học, thầy cô trường CẢM Đại học Sư phạm Hà Nội Tôi xin chân thành cảm ơnLỜI thầy cô trường Đại học Sư phạm Hà Nội tạo điều kiện học tập, nghiên cứu giúp đỡ nhiều trình làm luận văn Đặc biệt xin cảm ơn thầy TS Nguyễn Long Giang Viện Công Nghệ Thông Tin tận tình hướng dẫn, bảo suốt trình học tập, nghiên cứu đề tài giúp đỡ hoàn thành luận văn Vĩnh Phúc, ngày 01 tháng 10 năm 2015 Học viên * Nguyễn Văn Phóng Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên * Nguyễn Văn Phóng MỤC LỤC PHỤ LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT TV • Ã » • Ký hiệu, chữ viết tắt Diên giải CSDL Cơ sở liệu TID Transction Identifcation w Tập trọng số mục L Tập tất mục thường xuyên ck Tập k-tập mục ứng viên Lk Tập k-tập mục thường xuyên SC(X) Số đếm hỗ trợ tập mục X WFIk Tập k-tập mục thường xuyên có trọng số WFI Tập tất tập mục thường xuyên có trọng số MaxW Trọng số có giá trị lớn CSDL giao tác MinW Trọng số có giá trị nhỏ tập mục điều kiện min_weight Ngưỡng trọng số tối thiểu min_sup Ngưỡng hỗ trợ tối thiểu support Độ hỗ trợ tập mục conf Độ tin cậy minconf Độ tin cậy cực tiếu BFS Breadth First Search DFS Depth First Search WFIM Weighted Frequent Itemset Mining Danh mục bảng Bảng 2.7 Tập tập mục thường xuyên với khoảng trọng sổ khác .54 Bảng 2.8 Mục thường xuyên có trọng sổ (sẳp xếp tăng dần theo trọng sổ) 57 Danh mục hình • Hình 1.2 Cây FP-tree xây dựng dần thêm giao tác ti, t2, t3 16 MỞ ĐẦU Lý chọn đề tài Khai phá luật kết họp giới thiệu Agrawal [4] vào năm 1994 phân tích sở liệu bán hàng siêu thị, phân tích sở thích mua khách hàng cách tìm mặt hàng khác khách hàng mua lần mua Những thông tin giúp ngưòi quản lý kinh doanh tiếp thị chọn lọc thu xếp không gian bày hàng họp lý hơn, giúp cho kinh doanh hiệu Bài toán khai phá luật kết họp bao gồm hai toán Bài toán thứ tìm tập mục thường xuyên (Frequent itemset) thỏa mãn ngưỡng hỗ trợ tối thiểu cho trước, toán thứ hai sinh luật kết hợp (Association rule) thỏa mãn ngưỡng tin cậy cho trước từ tập mục thường xuyên tìm Mọi khó khăn toán khai phá luật kết họp tập trung toán thứ nhất, khai phá tất tập mục thường xuyên thỏa mãn ngưỡng độ hỗ trợ cho trước, nghiên cứu khai phá luật kết hợp phần lớn tập trung vào toán khai phá tập mục thường xuyên Kể từ Agrawal đề xuất, khai phá tập mục thường xuyên thu hút quan tâm nhiều nhà nghiên cứu, có hàng trăm kết nghiên cứu công bố giói thiệu thuật toán hay đề xuất giải pháp nâng cao hiệu thuật toán có Tập mục thường xuyên có vai trò quan trọng nhiều ứng dụng thực tế quản lý quan hệ khách hàng, nâng cao hiệu thương mại điện tử, lĩnh vực sinh tin học, phân tích cấu trúc Protein DNA, mở rộng truy vấn, hỗ trợ tư vấn tuyển sinh đào tạo, phát xâm nhập mạng Bài toán khai phá luật kết hợp kinh điển Agrawal cộng đề xuất [4] gọi toán khai phá luật kết họp nhị phân giá trị mục liệu giao tác 1, tức quan tâm mục liệu có xuất giao tác hay không Do đó, mang ngữ nghĩa thống kê, không phản ánh vai trò khác thuộc tính đặc tính liệu vốn có chúng sở liệu Để đáp ứng yêu cầu thực tiễn, toán khai phá tập mục thường xuyên có nhiều cách thức mở rộng ứng dụng Một hướng mở rộng quan trọng xem xét mức độ quan trọng khác mục liệu cách gán cho mục liệu giá trị gọi trọng số [5,10] Số lượng tập mục giá trị tập mục trọng số nhà nghiên cứu quan tâm chúng có nhiều ứng dụng thực tiễn Ví dụ, vói toán bán hàng siêu thị, trọng số tập mục số lượng mặt hàng bán đơn giá (giá trị) mặt hàng bán Khi đó, toán khai phá luật kết họp kinh điển trở thành toán khai phá luật kết hợp có trọng số Như trình bày trên, khai phá luật kết họp có trọng số hướng nghiên cứu quan trọng khai phá liệu học máy, có ý nghĩa khoa học thực tiễn cao Do đó, chọn đề tài “Khai phá tập mục thường xuyên có trọng số” Mục đích nghiên cứu Nắm bắt kiến thức tổng quan phương pháp khai phá tập mục thường xuyên kinh điển số phương pháp khai phá tập mục thường xuyên có trọng số, sở cài đặt, thử nghiệm đánh giá thuật toán số liệu mẫu Nhiệm vụ nghiên cứu Là sở liệu mẫu (cơ sở liệu giao tác) Đối tượng phạm vi nghiên cứu Tìm hiểu thử nghiệm thuật toán khai phá tập mục thường xuyên có trọng số sở liệu giao tác Những đóng góp đề tài Trình bày hai thuật toán khai phá tập mục thường xuyên có trọng số: thuật toán MINWAL dựa thuật toán Apriori thuật toán WFIM dựa thuật toán FP-Growth Tổng họp kết nghiên cứu khai phá luật kết họp có trọng số Phương pháp nghiên cứu Luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm, nghiên cứu lý thuyết: tìm hiểu khái niệm, thuật toán công bố khai phá tập mục thường xuyên có trọng số nghiên cứu thực nghiệm, luận văn thực cài đặt thuật toán, chạy thử nghiệm đánh giá kết thực thuật toán Bố cục luận văn Luận văn chia làm chương Chương 1: trình bày tổng quan toán khai phá tập mục thường xuyên, bao gồm khai niệm hai thuật toán kinh điển: thuật toán nhị phân Apriori thuật toán sử dụng cấu trúc FP-Growth Chương 2: trình bày hai thuật toán khai phá tập mục thường xuyên có trọng số: thuật toán MINWAL dựa thuật toán Apriori thuật toán WFIM dựa thuật toán FP-Growth Chương 3: trình bày phần cài đặt, thử nghiệm đánh giá thuật toán số liệu mẫu ENWsupport(c,r,a) = Q’8 + Q>9 + 0,85 ^ _Q 2g 6’ ENWsupport(c,r,b) = Q’8 + Q’9 + 0,75 *— = 027 6’ 12 „ *- = 0,13 10 0,8 + 0,9 + 13 11 ENWsupport(c,r,i) = 14 15 ENWsupport(c,r,p) = Q’^ + OjP + O,?^ — = 16 17 18 -cxrw/ UC „—U'l= _o,0,75 = — -* 26 + 0,85+0,75^2 ENWsupport(f,m,b) 19 20 21 22 cxm, ^ t A f 0,9 + 0,75 + 0,9 * n c 23 - ENWsupport(d,f,r) = 24 — * — = 0,57 25 26 {c,f,p}, Các tập mục {c,d,a},{c,d,b},{c,d,i},{c,d,p},{c,f,a},{c,f,b},{c,f,i}, {c,m,a},{c,m,b},{c,m,i},{c,m,p},{c,r,a},{c,r,b},{c,r,i},{c,r,p},{d,f,a},{d,f,b}, {d,f,i},{d,f,p},{d,m,a},{d,m,b},{d,m,i},{d,m,p},{d,r,a},{d,r,b},{d,r,i},{d,r,p} {d,r,a}, {d,r,b},{d,r,i},{d,r,p},{m,r,a},{m,r,b},{m,r,i} {m,r,p} có ước lượng độ hỗ trợ có trọng số chuẩn hóa nhỏ wminsup = 0,5 nên bị loại Sau prune lại c3 = {{c,d,f},{c,d,m},{c,d,r},{c,f,m},{c,f,r},{d,f,m},{d,f,r},{d,m,r},{f,m,r}} 27 28 29 Thực thủ tục Checking: Duyệt CSDL giao tác D, xác định số đếm hỗ trợ thực tế, tính độ hỗ trợ có họng số chuẩn hóa thực {c,d,f}, {c,d,m}, {c,d,r}, {c,f,m}, {c,f,r}, {d,f,m}, {d,f,r}, {d,m,r}, {f,m,r} : W +W +W 30 c « /*C^ ^ ^ 0,8 + 0,9+0,75*4 31 -3 w +w +w ENWsupport(d,m,r) = —-—— *SC(d,m,r) 0,9 + 0,85 + 0,9^ = 0,59 32 ^ „ N _ w / + w m + ^ * < ^ „ ^ 0,75 + 0,85 + 0,9*4 n e ^ n e 33 - ENWsupport(f,m,r) = — * 5C(f,m,r) = — -* — = 0,56 > 0,5 34 3 35 Vậy, 36 Lj = {{c, d, f }, {c, d, m}, {c, d, r}, {c, f, m}, {c, f, r}, {d, f, m}, {d, f, r}, {d, m, r}, {f, m, r}} Sau bước lặp 3, 37 {c},{d},{f},{m},{r},{c,d},{c,f},{c,m},{c,r},{d,f},{d,m},> {d, r}, {f, m}, {f, r }, {m, r }, {c, d, f }, {c, d, m}, {c, d, r }, {c, f, m}, {c,f,r},{d,f,m},{d,f,r},{d,m,r},{f,m,r} 38 Bước lặp 4: (k = 4) 39 Thực thủ tục Join: Thực kết nối tập mục thường xuyên L3 với mục có trọng số nhỏ hon để lập thành tập cha bậc thấp, thu 40 Thực thủ tục Prune: Ước lượng cận cho cho số đếm độ hỗ trợ bốn tập mục C4 đây, ta có: 41 ESC (c,d, f, a) = (sc (c, d, f ), sc (a)) = (4,2) = 42 ESC (c,d, f, b) = (sc (c, d, f ), sc (b)) = (4,2) = 43 ESC(c, d, f, i ) = (sc (c, d, f ), sc(i)) = min(4,1) = 44 ESC(c,d,f,p) = min(sc(c,d,f ), sc(p)) = (4,3) = 45 ESC (c,d, m, a) = (sc (c, d, m), sc (a)) = (4,2) = 46 ESC(c,d,m,b) = min(sc(c,d,m), sc(b)) = (4,2) = 47 ESC (c, d, m, i ) = (sc (c, d, m), sc (i )) = (4,1) = 48 ESC (c,d, m, p) = (sc (c, d,m), sc(p)) = (4,3) = 49 ESC (c,d,r, a) = (sc (c,d,r), sc (a)) = (4,2) = 50 ESC (c,d,r, b) = (se (c, d, r), SC (b)) = (4,2) = ESC (c, d, r, i) = (se (c, d, r), SC (i)) = (4,1) = ESC (c,d,r, p) = (se (c,d,r), SC (p)) = (4,3) = ESC (c, f, m, a) = (se (c, f, m), SC (a)) = (4,2) = ESC (c, f, m, b) = (se (c, f, m), SC (b)) = (4,2) = ESC (c, f, m, i) = (se (c, f, m), SC (i)) = (4,1) = ESC (c, f, m, p) = (se (c, f,m), SC(p)) = (4,3) = ESC (c,f, r, a) = (se (c, f, r), SC (a)) = (4,2) = ESC (c,f,r, b) = (se (c,f,r), SC (b)) = (4,2) = ESC (c, f, r, i ) = (se (c, f, r ), SC (i )) = (4,1 ) = ESC(c,f,r,p) = min(sc(c,f,r), sc(p)) = min(4,3) = ESC (d,f, m, a) = (se (d,f, m), SC (a)) = (5,2) = ESC (d,f, m, b) = (se (d, f, m), SC (b)) = (5,2) = ESC (d, f, m, i) = (se (d, f, m), SC (i)) = min(5,l) = ESC (d, f, m, P ) = (se (d, f,m), SC(p)) = (5,3) = ESC(d,f,r,a) = min(sc(d,f,r), SC (a)) = (4,2) = Esc(d,f,r,b) = min(sc(d,f,r), SC (b)) = (4,2) = ESC(d,f,r,i) = min(sc(d,f,r), SC(i)) = min(4,1) = ESC(d,f,r,p) = min(sc(d,f,r), sc(p)) = min(4,3) = ESC(d,m,r,a) = min(sc(d,m,r), SC (a)) = (4,2) = ESC(d,m,r,b) = min(sc(d,m,r), sc(b)) = min(4,2) = ESC(d,m,r,i) = min(sc(d,m,r), SC (i)) = (4,1) = ESC (d, m, r, p) = (se (d, m,r ), SC (p)) = (4,3) = 51 ESC (f, m, r, a) = (se (f, m,r ), SC (a)) = (4,2) = 52 ESC (f, m,r, b) = (se (f, m,r), SC (b)) = (4,2) = 53 ESC (f, m, r, i ) = (se (f, m, r), SC (i )) = (4,1) = 54 ESC (f, m, r, p) = (se (f, m,r), SC (p)) = (4,3) = 55 Esc(c,d,f,m) = min(sc(c,d,f), SC H) = (4,6) = 56 ESC (c, d, f, r ) = (se (c, d, f ), SC (r )) = (4,4) = 57 ESC (c, d, m, r ) = (se (c, d, m), SC (r )) = (4,4) = 58 ESC(d,f,m,r) = min(sc(d,f,m), sc(r)) = (5,4) = Với ước lượng số đếm hỗ trợ trên, ta có ước lượng cho độ hỗ trợ có họng số chuẩn hóa tập mục là: 59 60 61 T3MW ^ t( A— f X= _0,28 0,8 + 0,9 + 0,75 + 0,85 # ENWsupport(c,d,f,a) = * 67 -T3VTW7.✓ J o, + =0,9+ 0,9+—0,7 jl ENWsupport(c,d,r,i) — = o, 14 62 63 64 C1VT«7ENWsupport(d,f,r,i) r- 0,9 + 0,75 + =0,9—— + 0,7 2— * — = 0,14 65 - 4 — * ENWsupport(d,f,r,p) = Q>9 + Q’75 + Q’9 + Q’7 * = 0,42 66 67 68 Các tập mục {c,d,f,a},{c,d,f,b},{c,d,f,i},{c,d,f,p},{c,d,m,a},{c,d,m,b}, 69 {c,d,m,i}, {c,d,m,p}, {c,d,r,a}, {c,d,r,b}, {c,d,r,i}, {c,d,r,p}, {c,f,m,a}, {c,f,m,b}, { c,f,m,i}, {c,f,m,p}, {c,f,r,a}, {c,f,r,b}, {c,f,r,i}, {c,f,r,p}, {d,f,m,a}, {d,f,m,b}, {d,f, m,i}, {d,f,m,p}, {d,f,r,a}, {d,f,r,b}, {d,f,r,i}, {d,f,r,p}, {d,m,r,a}, {d,m,r,b}, {d,m,r, i}, {d,m,r,p},{f,m,r,a},{f,m,r,b},{f,m,r,i} {f,m,r,p} có ước lượng độ hỗ trợ có họng số chuẩn hóa nhỏ wminsup = 0,5 nên bị loại 70 Sau prune lại: 71 c4 = {{c,d,f,m},{c,d,f,r},{c,d,m,r},{d,f,m,r}} 72 Thực thủ tục Checking: Duyệt CSDL giao tác D, xác định số đếm hỗ trợ thực tế, tính độ hỗ trợ có họng số chuẩn hóa thực {c,d,f,m}, {c,d,f,r}, {c,d,m,r}, {d,f,m,r} : 73 A _ 0,8 + 0,9 + 0,75 + 0,85 * 74 ENWsupport(c,d,f,m) = = 0,55 >0,5 *— 75 76 77 Vậy, L4= {{c,d,f,m},{c,d,f,r},{c,d,m,r},{d,f,m,r}} Sau bước lặp 4, 78 {c}, {d}, {f}, {m}, {r}, {c, d}, {c, f}, {c, m}, {c, r}, {d, f}, {d, m}, {d,r},{f,m},{f,r},{m,r},{c,d,f},{c,d,m},{c,d,r},{c,f,m}, 4_ {c,f,r}, {d,f,m},{d,f,r},{d,m,r},{f,m,r},{c,d,f,m}, 79 80 {c, d, f, r}, {c, d, m, r}, {d, f, m, r} Bước lặp 5: (k = 5) 81 Thực thủ tục Join: Thực kết nối tập mục thường xuyên L4 với mục có trọng số nhỏ để lập thành tập cha bậc thấp, thu được: {c, d, f, 82 m, a}, {c, d, f, r, a}, {c, d, m, r, a}, {d, f, m, r, a}, {c, d, f, m, b}, {c, d, f, r, b}, {c, d, m, r, b}, {d, f, m, r, b}, ị {c, d, f, m, i}, {c, d, f, r, i}, {c,c5d, m, r, i}, {d, f, m, r,i}, 83 ► {c, d, f, m, p}, {c, d, f, r, p}, {c, d, m, r, p}, {d, f, m, r, p}, {c,d,f,m,r} 84 Thực thủ tục Prune: ước lượng cận cho cho số đếm độ hỗ trợ năm tập mục c5 đây, ta có: 85 ESC (c,d,f, m, a) = (sc (c,d,f, m), sc (a)) = (4,2) = 86 ESC (c, d, f, m, b) = (sc (c, d, f, m), sc (b)) = (4,2) = 87 ESC (c,d,f, m,i) = (sc (c,d,f, m), sc (i)) = (4,1) = 88 ESC(c,d,f,m,p) = min(sc(c,d,f,m), sc (p )) = min(4,3) = 89 ESC (c,d,f,r, a) = (sc (c,d,f,r), sc (a)) = (4,2) = 90 ESC (c,d,f,r,b) = (sc (c,d,f,r), sc (b)) = (4,2) = 91 ESC(c,d,f,r,i) = min(sc(c,d,f,r), sc(i)) = min(4,1) = 92 ESC(c,d,f,r,p) = (sc(c,d,f,r), sc (p)) = (4,3) = 93 ESC (c, d, m, r, a) = (sc (c, d, m, r), SC(a)) = (4,2) = 94 ESC (c, d, m, r, b) = (sc (c, d, m, r), sc (b)) = (4,2) = 95 ESC (c, d, m, r, i ) = (sc (c, d, m, r ), sc(i)) = (4,1) = 96 ESC (c, d, m, r, p) = (sc (c, d, m, r), SC(p)) = (4,3) = 97 ESC (d, f, m, r, a ) = (sc (d, f, m, r), sc(a)) = (4,2) = 98 ESC (d, f, IĨỊ, r, b) = (sc (d, f, m, r), sc (b)) = (4,2) = 99 ESC(d,f,m,r,i) = min(sc(d,f,m,r), sc(i)) = min(4,1) = 100 ESC(d,f,m,r,p) = min(sc(d,f,m,r), sc(p)) = (4,3) = 101 ESC (c, d, f, m, r) = (sc (c, d, f, m), sc (r)) = (4,4) = Với ước lượng số đếm hỗ trợ trên, ta có ước lượng cho độ hỗ trợ 102 có trọng số chuẩn hóa tập mục là: 103 ỵ 0,8 + 0,9 + 0,75 + 0,85 + 0,85.2 104 - ENWsupport(c,d,f,m,a) = 6^’ ^ ~Y 105 , 0,8 + 0,9 + 0,75 + 0,85 + 0,75.2 _ n 106 - ENWsupport(c,d,f,m,b) = Y * ^ - 0,27 107 0,7.1 V J _ 0,8 + 0,9 + 0,75 + 0,85 + 108 - ENWsupport(c,d,f,m,i) = Y 109 ^ 0,8 + 0,9 + 0,75 + 0,85 + 0,7 110 ENWsupport(c,d,f,m,p) = 0’ 40- 111 * ^ - 0,13 Y *g - 0,8 + 0,9 + 0,75 + 0,9 + 0,85*2 _ n „0 112 ENWsupport(c,d,f,r,a) = Y —- Y * ^ - 0j 28 113 ENWsupport(c,d,f,r,b) = 0,27 114 ENWsupport(c,d,f,r,i) =Ý * g - 0,14 115 ENWsupport(c,d,f,r,p) = Ý ^ - 0,41 116 117 118 CXTYW 0,9 + 0,75 + 0,85 + 0,9 + 0,7 *-13 n A1 * — 119 - ENWsupport(d,f,m,r,p) = = 0,41 120 56 121 cxra, 0,8 + 0,9 + 0,75 + 0,85 + 0,9*4 122 - ENWsupport(c,d,f,m,r) = = 0,56 123 56 — * — 124 Các tập mục {c,d,f,m,a},{c,d,f,m,b},{c,d,f,m,i},{c,d,f,m,p},{c,d,m,a}, {c,d,f,r,a}, {c,d,f,r,b}, {c,d,f,r,i}, {c,d,f,r,p}, {c,d,m,r,a}, {c,d,m,r,b}, {c,d,m,r,i}, {c,d,m,r,p},{d,f,m,r,a},{d,f,m,r,b},{d,f,m,r,i} {d,f,m,r,p} có ước lượng độ hỗ trợ có trọng số chuẩn hóa nhỏ hon wminsup = 0,5 nên bị loại 125 Sau prune lại 126 c5= {{c,d,f,m,r}} 127 Thực thủ tục Checking: Duyệt CSDL giao tác D, xác định số đếm hỗ trợ thực tế, tính độ hỗ trợ có họng số chuẩn hóa thực {c,d,f,m,r}: 128 I3XTW J f 0,8 + 0,9 + 0,75 + 0,85 + 0,9*4 129 - ENWsupport(c,d,f,m,r) = — * — = 0,56 130 131 Vậy, L5= {{c,d,f,m,r}} 132 Sau bước lặp 4, 133 {c},{d},{f},{m},{r},{c,d},{c,f},{c,m},{c,r},{d,f},{d,m}, {d,r}, {f, m}, {f ,r}, {m,r}, {c,d,f }, {c,d, m}, {c,d,r}, {c,f, m}, 134 135 136 '{c,f,r},{d,f,m},{d,f,r},{d,m,r},{f,m,r},{c,d,f,m}, {c, d, f, r}, Ịc, d, m, r}, {d, f, m, r}, {c, d, f, m, r} Bước lặp 6: (k = 6) 137 Thực thủ tục Join: Thực kết nối tập mục thường xuyên L5 với mục có trọng số nhỏ hon để lập thành tập cha bậc thấp, thu được: 138 c6 = {{c,d,f,m,r,a},{c,d,f,m,r,b},{c,d,f,m,r,i},{c,d,f,m,r,p},} 139 Thực thủ tục Prune: ước lượng cận cho cho số đếm độ hỗ trợ sáu tập mục Cô đây, ta có: 140 ESC(c,d,f,r,m,a) = min(sc(c,d,f,r,m), sc(a)) = min(4,2) = 141 ESC (c,d,f,r, m, b) = (sc (c,d,f,r, m), sc (b)) = (4,2) = 142 ESC (c,d,f,r, m,i) = (sc (c,d, f,r, m), sc (i)) = (4, l) = 143 ESC(c,d,f,r,m,p) = (sc(c, d,f,r,m), sc(p)) = (4,3) = Với ước lượng số đếm hỗ trợ trên, ta có ước lượng cho độ hỗ trợ 145 có họng số chuẩn hóa tập mục là: 146 J2m„ A f N 0,8 + 0,9 + 0,75 + 0,9 + 0,85 + 0,85 A n 147 - ENWsupport(c,d,f,r,m,a) =— * — = 0,28 144 Với wminsup = 0,5, Các tập mục {c,d,f,r,m,a},{c,d,f,r,m,b}, {c,d,f,r,m,i}, {c,d,f,r,m,p} có ước lượng độ hỗ trợ có trọng số chuẩn hóa nhỏ wminsup = 0,5 nên bị loại 10 11 Sau tỉa, CỂ = 0, dừng thuật toán Minwal Như vậy, sau bước lặp, 12 {c}, {d}, {f }, {m}, {r}, {c, d}, {c, f }, {c, m}, {c, r}, {d, f }, {d, m}, {d, r}, {f, m}, {f, r}, {m, r}, {c, d, f }, {c, d, m}, {c, d, r}, {c, f, L= m}, {c, f, r}, {d, f, m}, {d, f, r}, {d, m, r}, {f, m, r}, {c, d, f, m}, 13 14 {c, d, f, r}, {c, d, m, r}, {d, f, m, r}, {c, d, f, m, r} 15 Ta thu tất tập mục thường xuyên CSDL giao tác D cách sử dụng thuật toán Minwal 2.2 Thuật toán WFIM theo tiếp cận FP-Growth 16 Thuật toán WFIM (Weighted Frequent Itemset Mining) [10] thuật toán khai phá tập mục thường xuyên có trọng số dựa mô hình FP-Tree (cấu trúc cây) cách đưa vào ràng buộc trọng số phân khoảng trọng số ngưỡng trọng số nhỏ 17 Thuật toán đưa định nghĩa ngưỡng trọng số nhỏ (min_weight), xử lý riêng biệt sup weight, để ngưòi sử dụng cân độ hỗ trợ trọng số 18 Độ hỗ trợ giảm dần kích thước tập mục tăng dần, trọng số có đặc tính hoàn toàn khác biệt Một tập mục có trọng số thấp trở thành tập mục có trọng số cao sau thêm mục khác có trọng số cao, đảm bảo tính chặn đóng cho tập mục thường xuyên 19 Ví dụ 2.3 Giả sử min_sup 3, mục A có độ hỗ trợ 2, độ hỗ trợ tập mục AB 2, trọng số mục A trọng số mục B Độ hỗ trợ có trọng số mục A độ hỗ trợ có trọng số tập mục AB Chúng ta tỉa mục A độ hỗ trợ có trọng số mục A nhỏ ngưỡng hỗ trợ nhỏ độ hỗ trợ có trọng số tập mục AB với ngưỡng hỗ trợ nhỏ tập mục AB tập mục thường xuyên có trọng số Để giải vấn đề này, FP-Tree xây dựng thứ tự tăng dan weight duyệt từ lên 20 Sau giới thiệu chi tiết thuật toán đưa ví dụ thực tế theo thứ tự để minh họa cho bước việc xây dựng FP-tree duyệt tìm tập mục thường xuyên FP-tree Bảng 2.5 thể ví dụ sử dụng trình minh họa: [...]... mục thường xuyên tập trung vào tìm các thuật toán mới hoặc đề xuất giải pháp nâng cao hiệu quả các thuật toán đã có Phần này sẽ trình bày khái quát các kỹ thuật chính để khai phá tập mục thường xuyên Bài toán khai phá tập mục thường xuyên có thể chia thành hai bài toán nhỏ: tìm các tập mục ứng viên và tìm các tập mục thường xuyên Tập mục ứng viên là tập mục mà ta hy vọng nó là tập mục thường xuyên, phải... Chương 2: KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN CÓ TRỌNG SỐ Chương này trình bày thuật toán khai phá tập mục thường xuyên có trọng số MINWAL [5] dựa trên thuật toán Apriori và thuật toán khai phá tập mục thường xuyên có trọng số WFIM dựa trên thuật toán FP-Growth [10] theo hướng tiếp cận cấu trúc cây (FP-Tree) bằng cách đưa vào ràng buộc trọng số là phân khoảng trọng số và ngưỡng trọng số nhỏ nhất 2.1 2.1.1... kết nối để tạo ra tập ứng viên Ck Theo mệnh đề 2.3, một k-tâp mục ứng viên chỉ có thể là tập mục thường xuyên có trọng số chuẩn hóa nếu nó là tập cha bậc thấp của một (k-l) -tập mục thường xuyên có trọng số chuẩn hóa Vì thế, khi thủ tục con này thực hiện, nó sẽ kết nối các tập mục thường xuyên có trọng số chuẩn hóa trong Lk_i với một trong số các mục có trọng số nhỏ hơn để lập thành một tập cha bậc thấp... trợ có trọng số của chúng và nhập các tập mục thường xuyên có trọng số chuẩn hóa tìm được vào tập Lk Tập Lk này cũng sẽ là tập các ứng viên được sử dụng để tạo các tập mục cha có khả năng là tập mục thường xuyên có trọng số chuẩn hóa tại vòng lặp tiếp theo Cấu trúc của thuật toán MINWAL(W) tương tự như thuật toán Apriori, nhưng về chi tiết có một số khác biệt Mặc dù các k -tập mục thường xuyên có trọng. .. có trọng sổ chuẩn hóa thì bất kỳ một tập con bậc cao nào của X cũng sẽ là tập mục thường xuyên có trọng sổ chuẩn hóa Mệnh đề 2.3 [5] Nếu X là một (k +1) - tập mục thường xuyên có trọng sổ chuẩn hóa thì X phải là tập cha bậc thấp của một k -tập mục thường xuyên có trọng sổ chuẩn hóa Y Với các kết luận nêu trong các Mệnh đề 2.1, 2.2 và 2.3, ta có thể xây dựng thuật toán khai phá tập mục thường xuyên có. .. Tập mục X = Yu Z , trong đó mọi mục thuộc z đều có trọng số không lớn hơn Wj, ta có tập mục X được gọi là tập cha bậc thấp (lowerorder superset) của Y 3 Định nghĩa 2.6 Cho tập mục X Tập mục con Y của X mà mỗi mục trong Y đều có trọng số lớn hơn hoặc bằng trọng số của các mục trong X - Y, ta có tập mục Y được gọi là tập con bậc cao (high-order subset) của X Mệnh đề 2.2 [5] Nếu X là tập mục thường xuyên. .. trọng số chuẩn hóa như sau [5] 2.1.2 Thuật toán MINWAL Thuật toán MINWAL(W) Đầu vào: CSDL giao tác D, 1) Tổng số giao tác M và tổng số mục N trong D, 2) Ngưỡng hỗ trợ wminsup, 3) Trọng số của các mục w 15 w , , W sắp xếp theo thứ tự tăng dần 2 N Đầu ra: Tập các tập mục thường xuyên có trọng số chuẩn hóa L Ký hiệu: D Cơ sở dữ liệu w Tập các trọng số của các mục Lk Tập các k -tập mục thường xuyên có trọng. .. wminsupp X được gọi là tập mục thường xuyên có trọng số chuẩn hóa nếu: NWsupport (x)> vvminsupp (2.3) Trường hợp ngược lại, X được gọi là tập mục không thường xuyên có trọng số chuẩn hóa Giả sử Y là một q -tập mục con của I và k là một số nguyên thỏa mãn q

Ngày đăng: 19/06/2016, 09:55

Từ khóa liên quan

Mục lục

  • KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN

  • CÓ TRỌNG SỐ

  • KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN

  • CÓ TRỌNG SỐ

    • (2.6)

      • Học viên *

      • Nguyễn Văn Phóng

      • Học viên *

      • Nguyễn Văn Phóng

      • Chương 1: TỔNG QUAN VỀ KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN

      • 1.1. Các khái niêm cơ bản

      • 1.1.1. Cơ sở dữ liệu giao tác

      • 1.1.2. Tập mục thường xuyên và luật kết hợp

      • 1.1.3. Các tính chất cơ bản của tập mục thường xuyên

      • 1.1.4. Bài toán khai phá luật kết hợp

      • 1.2. Một số thuật toán cơ bản khai phá tập mục thường xuyên

      • 1.2.1. Thuật toán Apriori

      • (8) end;

      • (10) End;

      • 1])

        • then

        • 1.2.2. Thuật toán FP-growth

        • 1.3. Kết luận

Tài liệu cùng người dùng

Tài liệu liên quan