Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 3

41 7 0
Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

.c om ng co ng th an Chương cu u du o KHAI PHÁ DỮ LIỆU CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com https://fb.com/tailieudientucntt Mục (item): i1, i2, …  Tập mục (item set): Tập X I an co ng  ng th Cho tập D = {T1, T2, …, Tn}, Ti: Một giao dịch (transaction),  Ti: Các tập I,  D: Cơ sở liệu giao dịch  |D|: Số giao dịch D du o  u  Cho tập I = {i1, i2, …, in}, cu  c om Tập phổ biến luật kết hợp CuuDuongThanCong.com https://fb.com/tailieudientucntt Ví dụ: Cho tập I = {A, B, C, D, E},  Tập mục: X = {A, D, E},  Cơ sở liệu giao dịch D: u du o ng th an co ng  cu  c om Tập phổ biến luật kết hợp  T1 {A, B, C, D} T2 {A, C, E} T3 {A, E} T4 {A, B, E} T5 {A, B, C, D, E} D có giao dịch CuuDuongThanCong.com https://fb.com/tailieudientucntt Độ hỗ trợ (support) ứng với tập mục: Là xác suất xuất X sở liệu ng  co  c om Tập phổ biến luật kết hợp C( X ) sup( X )  |D| Công thức:  C(X) số giao dịch có chứa X du o ng th    u Ví dụ: X = {A, C}, C(X) = 3, cu   an giao dịch D Sup(X) = 3/5 (=60%) T1 {A, B, C, D} T2 {A, C, E} T3 {A, E} T4 {A, B, E} T5 {A, B, C, D, E} Các tập mục có độ hỗ trợ lớn giá trị ngưỡng minsup cho trước gọi tập phổ biến CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Luật kết hợp (Association Rule) Cho hai tập mục X, Y ⊆ I, X ∩ Y = ϕ  Luật kết hợp ký hiệu X → Y, mối ràng buộc tập an X xuất sở liệu giao dịch kéo theo th  co mục Y theo tập mục X, ng  ng xuất Y với một tỷ lệ Độ hỗ trợ luật (xác suất X Y xuất u  du o Luật kết hợp đặc trưng bởi: cu  giao dịch): C( X  Y ) sup( X  Y )  sup( X  Y )  | D| CuuDuongThanCong.com https://fb.com/tailieudientucntt  c om Luật kết hợp (Association Rule) Độ tin cậy luật (tỷ lệ giao dịch chứa X co ng Y so với giao dịch chứa X): C(XY) số giao dịch chứa X Y, u Trong đó: cu  du o ng th an C ( X  Y ) sup( X  Y ) conf ( X  Y )   C( X ) sup( X ) CuuDuongThanCong.com C(X) số giao dịch có chứa X https://fb.com/tailieudientucntt Luật mạnh: Các luật có độ hỗ trợ lớn giá trị co ng ngưỡng minsup độ tin cậy lớn giá trị an ngưỡng minconf cho trước gọi luật mạnh, hay th luật có giá trị (strong association rules) du o ng Nếu đồng thời sup(XY)  minsup X Y conf(XY)  minconf gọi luật mạnh u  cu  c om Luật kết hợp (Association Rule) CuuDuongThanCong.com https://fb.com/tailieudientucntt th an co ng Mơ hình khai phá liệu luật kết hợp du o ng Tìm tập phổ biến Output u Input Xác định luật kết hợp cu  c om Luật kết hợp (Association Rule) CuuDuongThanCong.com https://fb.com/tailieudientucntt u du o ng th an co ng Mơ hình khai phá liệu luật kết hợp  Input: Cơ sở liệu giao dịch, trị ngưỡng minsup, minconf  Tìm tập phổ biến: Sinh tất luật kết hợp có Apriori, FP-Growth, …  Xác định luật kết hợp: Tách tập phổ biến tìm thành tập khơng giao X Y Tính độ tin cậy X  Y, ngưỡng minconf luật mạnh  Output: Tất luật mạnh cu  c om Luật kết hợp (Association Rule) CuuDuongThanCong.com https://fb.com/tailieudientucntt 10 Bài tập: ng Cho I = {A, B, C, D, E, F} sở liệu giao dịch D: an co Chọn ngưỡng minsup = 20% minconf = 70% Hãy ng th xác định luật kết hợp mạnh T1 {D, E} T2 {A, B, D, E} T3 {A, B, D} T4 {C, D, E} T5 {F} T6 {B, C, D} du o u cu  c om Luật kết hợp (Association Rule) CuuDuongThanCong.com https://fb.com/tailieudientucntt 27 .c om Thuật giải FP-GROWTH ng  Thuật giải FP-GROWTH cho phép phát co tập phổ biến mà không cần khởi tạo ứng th an viên du o FP ng  Xây dựng cấu trúc liệu thu gọn gọi cu u  Kết xuất mục phổ biến dựa FP CuuDuongThanCong.com https://fb.com/tailieudientucntt 28 cu u du o ng th an co ng c om Thuật giải FP-GROWTH – B1 CuuDuongThanCong.com https://fb.com/tailieudientucntt 29 .c om Thuật giải FP-GROWTH – B1 ng  Duyệt CSDL giao dịch đếm số lần xuất ứng co với mục an  Loại bỏ mục không phổ biến ng th  Sắp lại thứ tự mục giao dịch theo thứ du o tự giảm dần số lần xuất u  Mỗi nút tương ứng với mục cu gắn trọng số số lần xuất  Giải thuật FP-Growth đọc lần lƣợt giao dịch ánh xạ tương ứng với đừờng (xuất phát từ nút gốc) FP CuuDuongThanCong.com https://fb.com/tailieudientucntt 30 .c om Thuật giải FP-GROWTH – B1 ng  Thứ tự xếp mục tuân thủ co suốt trình xây dựng FP an  Các đừờng có thể có đoạn trùng ng th giao dịch có phần tử chung (chung du o tiền tố dãy) Mỗi lần có phần tử trùng trọng u số đỉnh vị trí trùng tăng lên cu  Con trỏ sử dụng để trì danh sách kết nối đơn nút đại diện cho mục CuuDuongThanCong.com https://fb.com/tailieudientucntt 31 cu u du o ng th an co ng c om Thuật giải FP-GROWTH – B2 CuuDuongThanCong.com https://fb.com/tailieudientucntt 32 .c om Thuật giải FP-GROWTH – B1 cu u du o ng th an co ng Ứng với mục phổ biến Ii:  Xây dựng tập sở mẫu có điều kiện (conditional pattern base) Mỗi mẫu có điều kiện đường nối từ đỉnh gốc tới đỉnh cha kề với đỉnh có chứa mục Ii Mỗi mẫu gán trọng số với trọng số đỉnh có chứa mẫu Ii cuối đường  Xây dựng FP có điều kiện (conditional FP-tree) dựa việc kết hợp mẫu có chung tiền tố (nếu có) Khi trọng số ứng với đỉnh tổng trọng số ghép  Duyệt FP có điều kiện để sinh tập phổ biến có hậu tố Ii 33 CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Thuật giải FP-GROWTH {f, a, c, d, g, i, m, p} T200 {a, b, c, f, l, m, o} T300 {b, f, h, j, o} T400 {b, c, k, s, p} T500 {a, f, c, e, l, p, m, n} cu u du o T100 CuuDuongThanCong.com Items ng T th an co ng Ví dụ: Cho sở liệu giao dịch D gồm giao dịch bảng Biết ngưỡng minsup = 60% Hãy tìm tập phổ biến https://fb.com/tailieudientucntt 34 .c om Thuật giải FP-GROWTH Items {f, a, c, d, g, i, m, p} T200 {a, b, c, f, l, m, o} T300 {b, f, h, j, o} T400 {b, c, k, s, p} T500 {a, f, c, e, l, p, m, n} cu u du o ng th T100 an T co ng Duyệt CSDL để xác định tần suất xuất mục Items frequency a b c f m p ==> mincount = CuuDuongThanCong.com https://fb.com/tailieudientucntt 35 .c om Thuật giải FP-GROWTH Items th T an co ng  Loại bỏ mục phổ biến  Sắp mục giao dịch theo thứ tự giảm dần support count Sort {f, a, c, d, g, i, m, p} T200 {a, b, c, f, l, m, o} {f, c, a, b, m} T300 {b, f, h, j, o} {f, b} T500 du o u cu T400 ng T100 {f, c, a, m, p} {b, c, k, s, p} {c, b, p} {a, f, c, e, l, p, m, n} {f, c, a, m, p} CuuDuongThanCong.com https://fb.com/tailieudientucntt 36 .c om Thuật giải FP-GROWTH cu u du o ng th an co ng  Đọc giao dịch ánh xạ vào FP: CuuDuongThanCong.com https://fb.com/tailieudientucntt 37 .c om Thuật giải FP-GROWTH cu u du o ng th an co ng  Đọc giao dịch ánh xạ vào FP: CuuDuongThanCong.com https://fb.com/tailieudientucntt 38 .c om Thuật giải FP-GROWTH cu u du o ng th an co ng  Cây FP hoàn chỉnh: CuuDuongThanCong.com https://fb.com/tailieudientucntt 39 .c om Thuật giải FP-GROWTH cu u du o ng th an co ng  Cây FP hoàn chỉnh: CuuDuongThanCong.com https://fb.com/tailieudientucntt 40 ng {c:3} co fcam:2, cb:1 Cây FP có điều kiện Tập phổ biến p:3, cp:3 an p Cơ sở mẫu có điều kiện {f:3, c:3, a:3} m:3, fm:3, cm:3, am:3, fcm:3, fam:3, cam:3 Null b:3 {f:3, c:3} a:3, fa:3, ca:3 f:3 {f:3} c:3, fc:3 Null Null f:3 fca:2, fcab:1 b fca:1, f:1, c:1 a fc:3 c f cu u du o ng m th Mục c om Thuật giải FP-GROWTH CuuDuongThanCong.com https://fb.com/tailieudientucntt 41 ... Tập phổ biến p :3, cp :3 an p Cơ sở mẫu có điều kiện {f :3, c :3, a :3} m :3, fm :3, cm :3, am :3, fcm :3, fam :3, cam :3 Null b :3 {f :3, c :3} a :3, fa :3, ca :3 f :3 {f :3} c :3, fc :3 Null Null f :3 fca:2, fcab:1....c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com... co {A, B, C} Tập mục th Tập mục L3 ng C3 an C3 c om Luật kết hợp (Association Rule) u du o {A, C, F} cu L3 có phần tử nên khơng thể tiếp tục kết nối để sinh L4 Thuật toán kết thúc Ta có tập tập

Ngày đăng: 18/09/2021, 17:27

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan