Bài giảng khai phá dữ liệu chương 4 phan mạnh thường

44 238 0
Bài giảng khai phá dữ liệu  chương 4   phan mạnh thường

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Chương Phân lớp (Classification) Nội dung Phân lớp dự báo Cây định quy nạp Phân lớp Bayes Bài tập lý thuyết Chương Phân lớp Phân lớp dự báo  Có thể dùng phân lớp dự báo để xác lập mô hình/mẫu nhằm mô tả lớp quan trọng hay dự đoán khuynh hướng liệu tương lai  Phân lớp (classification) phân loại dự đoán nhãn  Dự báo (prediction) hàm giá trị liên tục Chương Phân lớp Phân lớp liệu  Phân lớp liệu tiến trình có bước  Huấn luyện: Dữ liệu huấn luyện phân tích thuật tóan phân lớp ( có thuộc tính nhãn lớp)  Phân lớp: Dữ liệu kiểm tra dùng để ước lượng độ xác phân lớp Nếu độ xác chấp nhận dùng phân lớp để phân lớp mẫu liệu Chương Phân lớp Phân lớp liệu  Độ xác (accuracy) phân lớp tập kiểm tra cho trước phần trăm mẫu tập kiểm tra phân lớp xếp lớp correctly classified test sample Accuracy  total number of test sampl Chương Phân lớp Chuẩn bị liệu  Làm liệu  Lọc nhiễu  Thiếu giá trị  Phân tích liên quan (chọn đặc trưng)  Các thuộc tính không liên quan  Các thuộc tính dư thừa  Biến đổi liệu Chương Phân lớp Đánh giá phương pháp phân lớp  Độ xác dự đoán: khả phân lớp dự đoán liệu chưa thấy  Tính bền vững: khả phân lớp thực dự đoán với liệu có nhiễu hay thiếu giá trị  Tính kích cỡ (scalability): khả tạo phân lớp hiệu với số lượng liệu lớn  Khả diễn giải: phân lớp cung cấp tri thức hiểu Cây định (Decision tree) LOGO Chương Phân lớp Cây định Bài toán: định có đợi bàn quán ăn không, dựa thông tin sau: Lựa chọn khác: có quán ăn khác gần không? Quán rượu: có khu vực phục vụ đồ uống gần không? Fri/Sat: hôm thứ sáu hay thứ bảy? Đói: đói chưa? Khách hàng: số khách quán (không có, vài người, đầy) Giá cả: khoảng giá ($, $$, $$$) Mưa: trời có mưa không? Đặt chỗ: đặt trước chưa? Loại: loại quán ăn (Pháp, Ý, Thái, quán ăn nhanh) 10 Thời gian đợi: 0-10, 10-30, 30-60, >60 Chương Phân lớp Cây định  Các mẫu miêu tả dạng giá trị thuộc tính (logic, rời rạc, liên tục)  Ví dụ, tình đợi bàn ăn  Các loại mẫu mẫu dương (T) mẫu âm (F) Chương Phân lớp Cây định  Các mẫu miêu tả dạng giá trị thuộc tính (logic, rời rạc, liên tục)  Ví dụ, tình đợi bàn ăn  Các loại mẫu mẫu dương (T) mẫu âm (F) 10 Chương Phân lớp Tạo luật từ định outlook sunny o’cast humidity high no normal yes rain wind yes true no false yes IF (Outlook = Sunny) and (Humidity = High) THEN PlayTennis = No IF (Outlook = Sunny) and (Humidity = Normal) THEN PlayTennis = Yes 30 Chương Phân lớp Các thuộc tính có nhiều giá trị  Nếu thuộc tính có nhiều giá trị (ví dụ, ngày tháng), ID3 chọn  C4.5 dùng GainRatio GainRatio(S, A)  Gain(S, A) SplitInformation(S, A) c SplitInformation(S, A )   i1 Si S log2 Si S where S i is subset of S with A has value v i 31 Phân lớp Bayes LOGO Chương Phân lớp Phân lớp Bayes  Bộ phân lớp Bayes dự báo xác suất thành viên lớp, chẳng hạn xác suất mẫu cho trước thuộc lớp xác định  Bộ phân lớp Naïve Bayes so sánh đuợc công với Bộ phân lớp với định mạng nơron Chúng giả định thuộc tính độc lập (độc lập điều kiện lớp) 33 Chương Phân lớp Định lý Bayes  X mẫu liệu chưa biết nhãn lớp  H giả thuyết cho X thuộc lớp C  Ấn định xác suất hậu nghiệm posterior probability P(H|X) cho H cho trước quan sát X (H conditioned on X)  Giả sử giới mẫu liệu gồm trái cây, mô tả màu sắc hình dáng - Giả sử X màu đỏ tròn - H gỉa thuyết mà X táo - Thì P(H|X) phản ánh độ tin cậy X táo biết trước X có màu đỏ tròn 34 Chương Phân lớp Định lý Bayes  P(X|H) xác suất tiên nghiệm X có điều kiện H Định lý Bayes P(X | H)P(H) P(H| X)  P(X)  Khi có n giả thuyết P(Hi | X)  P(X | Hi )P(Hi ) n  j 1 P(X | Hj )P(H j ) 35 Chương Phân lớp Phân lớp Naïve Bayesian (NBC)  Mỗi mẫu liệu biểu diễn X= (x1, x2,…, xn) với thuộc tính A1, A2,…, An  Các lớp C1, C2, …, Cm Cho trước mẫu chưa biết X NBC gán X vào Ci iff P(Ci|X) > P(Cj|X) với  j  m, j  i Do vậy, cực đại P(Ci|X) Lớp Ci cho P(Ci|X) cực đại gọi giả thuyết hậu nghiệm cực đại (maximum posterior hypothesis) Theo định lý Bayes P(X | C i )P(C i ) P(Ci | X)  P(X) 36 Chương Phân lớp Phân lớp Naïve Bayesian (NBC)  Do P(X) cho tất lớp, cần cực đại P(X|Ci) P(Ci) Nếu chưa biết P(Ci) cần giả định P(C1)=P(C2)=…= P(Cm) cực đại P(X|Ci) Ngược lại, ta cực đại P(X|Ci) P(Ci)  Nếu m lớn, tốn tính P(X|Ci) P(Ci) NBC giả định độc lập điều kiện lớp n P(X | Ci )   P(x k | C i ) k 1 37 Chương Phân lớp Phân lớp Naïve Bayesian (NBC)  Có thể tính P(x1|Ci), …, P(xn|Ci) từ mẫu huấn luyện Nếu Ak phân lớp P(xk|Ci) = sik/si với sik số mẫu huấn luyện Ci có trị xk cho Ak si số mẫu thuộc lớp Ci Nếu Ak liên tục giả định có phân bố Gaussian P(x k | Ci )  g(x k , μCi , σ Ci )  e πσ Ci  (x k μ Ci ) 2σ Ci 38 Chương Phân lớp Phân lớp Naïve Bayesian (NBC)  Để phân lớp mẫu chưa biết X, ta tính P(X|Ci) P(Ci) cho Ci Sau mẫu X gán vào Ci P(Ci|X) > P(Cj|X) for  j  m, j  i  Nói cách khác, NBC gán X vào lớp Ci cho P(X|Ci) P(Ci) cực đại 39 Chương Phân lớp Dữ liệu khách hàng 40 Chương Phân lớp Dự đoán nhãn lớp với phân lớp Bayesian  X = (age=“[...]... 5-] E = 0. 940 Humidity S:[9+, 5-] E = 0. 940 Wind High Normal Weak Strong [3+, 4- ] E = 0.985 [6+, 1-] E = 0.592 [6+, 2-] E = 0.811 [3+, 3-] E = 1.00 Gain(S, Humidity) = 940 - (7/ 14) .985 - (7/ 14) .592 = 151 Gain(S, Wind) = 940 - (8/ 14) .811 - (6/ 14) 1.00 = 048 26 Chương 4 Phân lớp Information gain của tất cả thuộc tính Gain (S, Outlook) = 0. 246 Gain (S, Humidity) = 0.151 Gain (S, Wind) = 0. 048 Gain (S,... của p các mẫu thuộc lớp dương thay đổi giữa 0 và 1 entropy Entropy – Độ hỗn tạp dữ liệu c Entropy(S)    pilog2p i i1 22 Chương 4 Phân lớp Entropy – Độ hỗn tạp dữ liệu Từ 14 mẫu của bảng Play-Tennis, 9 thuộc lớp dương và 5 mẫu âm (ký hiệu là [9+, 5-] ) Entropy([9+, 5-] ) = - (9/ 14) log2(9/ 14) - (5/ 14) log2(5/ 14) = 0. 940 Lưu ý: 1 Entropy là 0 nếu tất cả các thành viên của S đều thuộc về cùng một lớp... nhận giá trị v 24 Chương 4 Phân lớp Information Gain – Độ lợi thông tin Values(Wind) = {Weak, Strong}, S = [9+, 5-] Sweak là nút con với trị “weak” là [6+, 2-] Sstrong , là nút con với trị “strong”, là [3+, 3-] Gain(S, Wind) = Entropy(S) -  v{Weak, S trong} Sv Entropy(S v ) S = Entropy(S) - (8/ 14) Entropy(Sweak) - (6/ 14) Entropy(SStrong) = 0. 940 - (8/ 14) 0.811 - (6/ 14) 1.00 = 0. 048 25 Chương 4 Phân lớp Thuộc... wind {D4, D8, D10, D11,D12, D 14} wind o’cast {D5, D6} mild no {D4, D 14} wind true {D 14} normal {D10} yes false {D4} {D3} null yes no yes 16 Chương 4 Phân lớp Cây quyết định đơn giản hơn (tốt hơn) outlook sunny {D1, D2, D8 D9, D11} o’cast {D3, D7, D12, D13} {D4, D5, D6, D10, D 14} yes wind humidity high {D1, D2, D8} no normal {D9, D10} yes rain true {D6, D 14} no false {D4, D5, D10} yes Cây sẽ đơn giản.. .Chương 4 Phân lớp Cây quyết định  Là cách biểu diễn các giả thuyết 11 Chương 4 Phân lớp Cây quyết định Cây quyết định là cấu trúc cây sao cho:  Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính  Mỗi nhánh biểu diễn kết quả phép kiểm tra  Các nút lá biểu diễn các lớp hay các phân bố lớp  Nút cao nhất trong cây là nút gốc 12 Chương 4 Phân lớp Ví dụ cây quyết định 13 Chương 4 Phân... nút lá 4 Nếu các ví dụ được phân lớp rõ Thì Stop nguợc lại lặp lại các bước 1 -4 cho các nút lá 5 Tỉa các nút lá không ổn định Temperature Headache Temperature Flu normal {e1, e4} e1 e2 e3 e4 e5 e6 yes yes yes no no no normal high very high normal high very high no yes yes no no no no high {e2, e5} Headache yes {e2} yes no {e5} no very high {e3,e6} Headache yes {e3} yes no {e6} no 14 Chương 4 Phân lớp... ánh độ tin cậy X là quả táo khi biết trước X có màu đỏ và tròn 34 Chương 4 Phân lớp Định lý Bayes  P(X|H) là xác suất tiên nghiệm của X có điều kiện trên H Định lý Bayes P(X | H)P(H) P(H| X)  P(X)  Khi có n giả thuyết P(Hi | X)  P(X | Hi )P(Hi ) n  j 1 P(X | Hj )P(H j ) 35 Chương 4 Phân lớp Phân lớp Naïve Bayesian (NBC)  Mỗi mẫu dữ liệu được biểu diễn bằng X= (x1, x2,…, xn) với các thuộc tính... tính Gain (S, Outlook) = 0. 246 Gain (S, Humidity) = 0.151 Gain (S, Wind) = 0. 048 Gain (S, Temperature) = 0.029 27 Chương 4 Phân lớp Xây dựng cây quyết định {D1, D2, , D 14} [9+, 5-] Outlook Sunny Overcast {D1, D2, D8, D9, D11} [2+, 3-] {D3, D7, D12, D13} [4+ , 0-] ? Yes Rain {D4, D5, D6, D10, D 14} [3+, 2-] ? Thuộc tính nào cần được kiểm tra? Ssunny = {D1, D2, D3, D9, D11} Gain(Ssunny , Humidity) = 970 -... - (3/5)0.918 = 0.019 28 Chương 4 Phân lớp Điều kiện dừng 1 Từng thuộc tính đã được đưa vào dọc theo con đường trên cây 2 Các mẫu huấn luyện ứng với nút lá có cùng giá trị thuộc tính đích (chẳng hạn, chúng có entropy bằng zero) Lưu ý: Thuật toán ID3 dùng Information Gain và C4.5, thuật toán được phát triển sau nó, dùng Gain Ratio (một biến thể của Information Gain) 29 Chương 4 Phân lớp Tạo luật từ cây... Chúng giả định các thuộc tính là độc lập nhau (độc lập điều kiện lớp) 33 Chương 4 Phân lớp Định lý Bayes  X là mẫu dữ liệu chưa biết nhãn lớp  H là giả thuyết sao cho X thuộc về lớp C  Ấn định xác suất hậu nghiệm posterior probability P(H|X) sao cho H đúng khi cho trước quan sát X (H conditioned on X)  Giả sử thế giới các mẫu dữ liệu gồm trái cây, được mô tả bằng màu sắc và hình dáng - Giả sử X là ... 5-] E = 0. 940 Humidity S:[9+, 5-] E = 0. 940 Wind High Normal Weak Strong [3+, 4- ] E = 0.985 [6+, 1-] E = 0.592 [6+, 2-] E = 0.811 [3+, 3-] E = 1.00 Gain(S, Humidity) = 940 - (7/ 14) .985 - (7/ 14) .592... Gain(S, Wind) = Entropy(S) -  v{Weak, S trong} Sv Entropy(S v ) S = Entropy(S) - (8/ 14) Entropy(Sweak) - (6/ 14) Entropy(SStrong) = 0. 940 - (8/ 14) 0.811 - (6/ 14) 1.00 = 0. 048 25 Chương Phân lớp Thuộc... lớp Entropy – Độ hỗn tạp liệu Từ 14 mẫu bảng Play-Tennis, thuộc lớp dương mẫu âm (ký hiệu [9+, 5-] ) Entropy([9+, 5-] ) = - (9/ 14) log2(9/ 14) - (5/ 14) log2(5/ 14) = 0. 940 Lưu ý: Entropy tất thành

Ngày đăng: 03/12/2015, 03:43

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan