Phan III Chuong 7 Khai mo du lieu tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả các lĩn...
Phần III: Khai mỏ liệu khám phá tri thức Chương 7: Khai mỏ liệu Tham khảo thêm: [1] GS.TSKH Hồng Kiếm Bài giảng cao học mơn học sở tri thức ứng dụng ĐHKHTN-TPHCM [2] Krzysztof J Cios, Witold Pedrycz, Roman W Swiniarski Data Mining Methods for Knowledge Discovery Kluwer Academic Publishers, 1998 [3] Citeseer - Scientific Literature Digital Library Artificial Intelligence-http://citeseer.nj.nec.com/ArtificialIntelligence/ - I Một số tốn điển hình data mining Bài tốn khám phá luật kết hợp Bài toán phân loại liệu Bài tốn gom nhóm liệu Bài tốn lập mơ hình Bài tốn dự báo … I Một số tốn điển hình data mining (tt) a Phát luật kết hợp (association rules) Tìm mối liên hệ trường mô tả đối tượng CSDL xây dựng thành luật cụ thể Luật kết hợp tri thức quan trọng tiềm ẩn CSDL Ví dụ: Sau phân tích CSDL bán hàng ta tìm luật (1): Nếu khách hàng mua A mua B (2): Nếu khách hàng mua C tháng sau mua D … I Một số tốn điển hình data mining (tt) b Phân lớp (classification) Phân đối tượng liệu có đặc trưng lớp C vào lớp C Lớp A Lớp B Lớp C I Một số tốn điển hình data mining (tt) c Gom nhóm (Clustering) Gom đối tượng liệu tương tự vào nhóm Nhóm Nhóm Nhóm Tham khảo thêm: [1] Krzysztof J Cios, Witold Pedrycz, Roman W Swiniarski Data Mining Methods for Knowledge Discovery Kluwer Academic Publishers, 1998 [2] Citeseer - Scientific Literature Digital Library Artificial Intelligencehttp://citeseer.nj.nec.com/ArtificialIntelligence/ - 2003 II Luật kết hợp Một số khái niệm: Cho I = {i1, i2, i3, …, in} tập hợp trường gọi items D: tập giao tác có giao tác Ti mà Ti ⊆ I T chứa X X ⊆ T (X tập có phần tử ⊆ I) Mỗi giao tác Ti có danh TID Luật kết hợp mối liên hệ điều kiện hai tập hạng mục liệu X Y theo dạng sau: Nếu X Y, ký hiệu X ⇒ Y Chúng ta có luật kết hợp X ⇒ Y, X ⊂ I, Y ⊂ I X ∩ Y = ∅ Luật X ⇒ Y có độ support s có s% số giao tác D có chứa X ∪ Y Hay : support (X⇒Y) = s% = Card(X∪ Y)/ Card(D) % II Luật kết hợp (tt) Luật X⇒Y có độ tin cậy c (confidence) có c% số giao tác D chứa X∪ Y so với số giao tác D chứa X, ta có : c = Card(X∪ Y)/Card(X) % Tập hạng mục liệu gọi ItemSet có độ support lớn hay giá trị ngưỡng nhỏ (gọi minsupp) gọi Large ItemSet Các ItemSet lại gọi Small ItemSet Với Large ItemSet - L, A tập khác rỗng L, tỉ lệ phần trăm support L so với support A lớn hay độ tin cậy nhỏ (gọi minconf) ta có luật kết hợp A ⇒ (L\A) II Luật kết hợp (tt) Ví dụ: (minh họa đại lượng minsupp minconf) TID Age Married NumCars 100 23 No 200 25 Yes 300 29 No 400 34 Yes 500 38 Yes Người ta đưa minsupp = 40% mincon f = 50 % Tìm luật kết hợp thỏa mãn minsupp minconf (1): Age (30 39) and (Married: Yes) ⇒ NumCars = (s = 40%, c = 100%) (2): NumCars(0 1) ⇒ Married = No (s = 40%, c = 66,6%) II Luật kết hợp (tt) Biến đổi CSDL Phân chia giá trị thuộc tính thành khoảng ứng với khoảng liên kết với giá trị nguyên dương để dễ dàng thao tác thuộc tính Thuộc tính CSDL Thuộc tính khơng định lượng Thuộc tính định lượng Ví dụ: thuộc tính Age Ví dụ: Thuộc tính Married II Luật kết hợp (tt) Ví dụ: CSDL có thuộc tính Age nhận giá trị từ 20 → 50 Ta chia 20 → 50 thành khoảng: 10 19; 20 29; 30 39; 40 49 Xem miền thuộc tính riêng là: 1, 2, 3, TID Age TID Thuộc tính 100 32 100 200 48 200 300 21 300 400 34 400 500 15 500 biến đổi thành II Luật kết hợp (tt) Tìm luật kết hợp Để rút luật CSDL cần tiến hành bước sau: B1: Xác định khoảng phân chia thuộc tính cần phân tích B2: Kết hợp khoảng thuộc tính phân chia bước B1 với số nguyên để thực thuật toán nhanh, dễ dàng B3: So sánh support item với minsupp, tạo tập Largeitemset B4: ABCD AB Large itemset ta rút luật AB ⇒ CD support(ABCD)/support(AB) >= minconf B5: Xác định chọn luật phù hợp II Luật kết hợp (tt) Ví dụ: Dùng ví dụ hồ sơ nhân chia khoảng thuộc tính AGE (giả sử chia thành khoảng) Minsupp = 40% = records Minconf = 50% TID Age Married NumCars 100 23 No 200 25 Yes 300 29 No 400 34 Yes 500 38 Yes II Luật kết hợp (tt) Các khoảng chia Age Interval 20 24 25 29 30 34 35 39 TID Age Married NumCars 100 20 24 No 200 25 29 Yes 300 25 29 No 400 30 34 Yes 500 35 39 Yes Kết hợp thuộc tính Age Married với số nguyên Interval Integer Value Integer 20 24 Yes 25 29 No 30 34 35 39 II Luật kết hợp (tt) Bảng kết sau biến đổi TID Age Married NumCars 100 200 1 300 2 400 500 II Luật kết hợp (tt) Tập Large itemset tìm sau: Itemset Support {(Age: 20 29)} {(Age: 30 39)} {(Married: Yes)} {(Married: No)} {(Numcars: 1)} {(Age: 30 39), (Married: Yes)}} Rút luật sau: Rule S C (Age: 30 39) and (Married:Yes) ⇒ (Numcars: 2) 40% 100% (Age: 20 29) ⇒ (Numcars: 1) 60% 66,6% II Luật kết hợp (tt) Ví dụ: Bài tốn tìm luật kết hợp Cho CSDL sau: Tìm luật kết hợp cho minsupp = 0.5(50%) minconf = 1(100%) Hóa đơn Các mặt hàng Bánh mì, nước ngọt, sữa Bia, bánh mì Bia, nước ngọt, khăn giấy, sữa Bia, bánh mì, khăn giấy, sữa Nước ngọt, khăn giấy, sữa II Luật kết hợp (tt) Ta có: sp(“bánh mì”) = 3/5; sp(“bia”) = 3/5; sp(“nước ngọt”) = 3/5; sp(“sữa”) = 4/5; sp(“khăn giấy”) = 3/5; ⇒ F1 = {“bánh mì”, “bia”, “nước ngọt”, “sữa”, “khăn giấy”} ⇒ C2 = { {“bánh mì”,“bia”}, {“bánh mì”,“nước ngọt”}, {“bánh mì”,“sữa”}, {“bánh mì”,“khăn giấy”}, {“bia”,“nuớc ngọt”}, {“bia”,”sữa”}, {“bia”,”khăn giấy”}, {“nuớc ngọt”,”sữa”}, {“nuớc ngọt”,”khăn giấy”}, {“sữa”,”khăn giấy”} } II Luật kết hợp (tt) Tìm F2 từ C2: sp({“bánh mì”, “bia”}) = 2/5 (loại) sp({“bánh mì”,”nuớc ngọt”}) = 1/5 (loại) sp({“bánh mì”,”sữa”}) = 2/5 (loại) … sp({“nuớc ngọt”, “sữa”}) = 3/5 … sp({“sữa”,”khăn giấy”}) = 3/5 ⇒ F2 = {{“nước ngọt”,”sữa”}, {“sữa”,”khăn giấy”}} ⇒ C3 = {{“nuớc ngọt”,”sữa”,”khăn giấy”}} II Luật kết hợp (tt) Tìm F3 từ C3: sp({“nuớc ngọt”,”sữa”,”khăn giấy”}) = 2/5 (loại) ⇒ F3 = {} ⇒ C4 = {} Vậy tập phổ biến {{“nước ngọt”,”sữa”}} Ta xây dựng luật (R1) “nước ngọt” → “sữa”; (R2) “sữa” → “nước ngọt” conf(R1) = sp(R1)/sp(“nước ngọt”) = 3/5 : 3/5 = (100%) conf(R2) = sp(R1)/sp(sữa) = 3/5 : 4/5 = ¾ (75%) (loại) II Luật kết hợp (tt) Vậy tìm luật: “nuớc ngọt” → “sữa” với minsupp = 50% minconf = 100% Khách hàng mua “nước ngọt” mua “sữa” Thuật tốn tìm luật kết hợp Bước : Liệt kê tất tập P I cho P > Bước : Với tập P, liệt kê tất tập X khác trống P Luật R hình thành : R : X →P \ X Thuật toán APRIORITID (Tham khảo thêm giảng cao học môn học sở tri thức ứng dụng ĐHKHTN-TPHCM GS.TSKH Hoàng Kiếm) ... conf(R1) = sp(R1)/sp(“nước ngọt”) = 3/5 : 3/5 = (100%) conf(R2) = sp(R1)/sp(sữa) = 3/5 : 4/5 = ¾ (75 %) (loại) II Luật kết hợp (tt) Vậy tìm luật: “nuớc ngọt” → “sữa” với minsupp = 50% minconf =