Trªn c¬ së ph©n líp nµy chóng ta cã thÓ chuyÓn ®æi vÒ c¸c luËt quyÕt ®Þnh.... MiÒn gi¸ trÞ vµ ý nghÜa cña Entropy, Gain.[r]
(1)Trang tiêu đề
Môc lôc JJ II
J I
Trang1/15
Quay lui Toµn hình
Đóng File Phần 4:
(2)Trang tiêu đề
Môc lôc
JJ II
J I
Trang2/15
Quay lui Toµn mµn hình
Đóng File 1. Các khái niệm bản
. HƯ thèng th«ng tin: A = (U, A)
. Bảng định: T = (U, C ∪ D)
Bảng định quán: C → D
. Lâi vµ tËp rót gän
R → D; Core = \ R∈RED
R
. Luật định
^
i
(3)Trang tiêu đề Mục lục JJ II
J I
Trang3/15
Quay lui Toàn hình
Đóng File
U Đau đầu Đau Thân nhiệt Cảm cúm
u1 Có Có Bình thờng Không
u2 Cã Cã Cao Cã
u3 Cã Cã RÊt cao Có
u4 Không Có Bình thờng Không
u5 Kh«ng Kh«ng Cao Kh«ng
u6 Kh«ng Cã RÊt cao Cã
Thuộc tính định Cảm cúm
R1 ={Đau cơ, Thân nhiệt};
R2= {Đau đầu, Thân nhiÖt};
(4)Trang tiêu đề Mục lục JJ II
J I
Trang4/15
Quay lui Toàn hình
Đóng File
Bảng rút gọn tơng ứng với R1
U Đau Thân nhiệt Cảm cúm
u1, u4 Có Bình thờng Không
u2 Cã Cao Cã
u3, u6 Cã RÊt cao Cã
u5 Kh«ng Cao Kh«ng
Có thể có cỏc lut quyt nh:
(Đau cơ, Không)^(Thân nhiệt,Cao) (Cảm cúm, Không)
(5)Trang tiờu Mục lục JJ II
J I
Trang5/15
Quay lui Toàn hình
úng File 2. Cõy định
2.1. Kh¸i niƯm
Cây định cấu trúc biểu diễn d−ới dạng cây, nút biểu diễn giá trị định thuộc tính, nhánh biểu diễn đầu định biểu diễn lớp định
(6)Trang tiêu đề Mục lục JJ II
J I
Trang6/15
Quay lui Toàn hình
Đóng File
2.2. Thuật tóan CLS xây dựng định
Giả sử tập giá trị thuộc tính định {Y, N}
1 Tạo nút T bao gồm toàn tập huấn luyện (đối t−ợng),
2 Nếu tất mẫu (đối t−ợng) T có giá trị
quyết định Y tạo nút Y T dừng,
3 Nếu tất mẫu (đối t−ợng) T có giá trị
quyết định N tạo nút N T dừng
4 Chän thuộc tính X có giá trị v1, v2,Ã Ã Ã , vi chia
T thành tập T1, T2,· · · , Ti t−¬ng øng víi
giá trị chúng X, tạo i nót T1, T2,· · · , Ti
của T với X = vj nhãn nhánh từ T đến Tj
(7)Trang tiêu đề Mục lục JJ II
J I
Trang7/15
Quay lui Toàn hình
úng File 3. Xõy dựng định dựa vào
Entropy
Vấn đề: Chọn thuộc tính để phân nhánh?
3.1. Entropy
Cho bảng định T = (U, C∪D) Khơng tính tổng
qu¸t, ta cã thĨ xem D = {d}, Card(Vd) = k Phân hoạch
ca U thuộc tính d gồm lớp: U1, U2,ã ã ã , Uk,
đặt pi =
Card(Ui)
Card(U), i = 1,· · · , k
(8)Trang tiêu đề Mục lục JJ II
J I
Trang8/15
Quay lui Toµn hình
Đóng File
3.2. Information gain
Cho a ∈ C, Gia l−ợng thông tin U thuộc tính
a, ký hiệu Gain(U, a) đ−ợc định nghĩa nh− sau:
Gain(U, a) = Entropy(U) − X
v∈Va
Card(Uv)
Card(U) × Entropy(Uv)
Trong đó, Va tập giá trị thuộc tính a, Uv lớp
trong phân hoạch U thuộc tính a, t−ơng ứng
(9)Trang tiêu đề Mục lục JJ II
J I
Trang9/15
Quay lui Toµn mµn hình
Đóng File
B1 V:= U;
B2 Tính giá trị Entropy(V );
B3 For a C Tính giá trị Gain(V, a);
B4 Chọn thuộc tính a có giá trị Gain(V, a) lớn làm
thuộc tính phân nhánh;
C := C \ {a};
B5 For v ∈ Va
B5.1 V := Uv
(10)Trang tiêu đề Mục lục JJ II
J I
Trang10/15
Quay lui Toàn hình
Đóng File
Xét bảng định sau, với thuộc tính định
M ileage
U W eight Door Size Cylinder Mileage
u1 low compact high
u2 low sub low
u3 medium compact high
u4 high compact low
u5 high compact low
u6 low compact high
u7 high sub low
u8 low sub low
U1 = {u1, u3, u6}; U2 = {u2, u4, u5, u7, u8} Entropy(U) = −(3
8 log2 +
5 log2
5 8)
(11)Trang tiêu đề Mục lục JJ II
J I
Trang11/15
Quay lui Toµn mµn hình
Đóng File Gain(U, W eight) = Entropy(U)
−(3
8Entropy(Uhigh) +
8Entropy(Umedium) +
8Entropy(Ulow))
T−¬ng tù,
Gain(U, Door) = Entropy(U)−
(3
8Entropy(U2) +
8Entropy(U4)) Gain(U, Size) = Entropy(U)−
(5
8Entropy(Ucompact) +
(12)Trang tiêu đề Mục lục JJ II
J I
Trang12/15
Quay lui Toàn hình
Đóng File
Xét lại ví dụ bệnh nhân
U Đau đầu Đau Thân nhiệt Cảm cúm
u1 Có Có Bình thờng Không
u2 Cã Cã Cao Cã
u3 Cã Cã RÊt cao Có
u4 Không Có Bình thờng Không
u5 Kh«ng Kh«ng Cao Kh«ng
u6 Kh«ng Cã RÊt cao Cã
Entropy(U) = −(12 log2 21 + 12 log2 12) = Gain(U,Đau đầu) =
2( log2
1 +
2 log2
2 3)−
1 2(
1 log2
1 +
3 log2
3) = log23 −
3 ' 0.918
Gain(U,Đau cơ) = 56(35 log2 35 + 25 log2 25) − 16 log21 '
1 −0.809
Gain(U,Th©n nhiƯt) = 1−1
3(log21)− 3(
1 log2
1 2+
1 log2
(13)Trang tiêu đề Mục lục JJ II
J I
Trang13/15
Quay lui Toàn hình
Đóng File
Nh vy, b−ớc phân nhánh đầu tiên, chọn thuộc tính "Thân nhiệt" Với thuộc tính có giá trị: "Bình th−ờng", "Cao", "Rất cao" Do đó, có nhánh t−ơng ứng
với nút trong: U1 = {u1, u4} (có giá trị định
là "Khơng"); U2 = {u2, u5} U3 = {u3, u6} (có cựng giỏ tr quyt nh "Cú")
Lợt phân nhánh tiÕp theo chóng ta xÐt nót U2:
Entropy(U2) = (12(log2) +
2(log2) =
Gain(U2,Đau đầu) = 12(log21 + log21) = Gain(U2,Đau cơ) = 12(log21 + log21) =
(14)Trang tiêu đề Mục lục JJ II
J I
Trang14/15
Quay lui Toàn hình
úng File Cỏc lut quyt nh:
(Thân nhiệt, Bình thờng) (Cảm cúm, Không)
(Thân nhiệt, Rất cao) (Cảm cúm, Có)
(Thân nhiệt, Cao) V
(Đau đầu, Có) (Cảm cúm, Có)
(Thân nhiệt, Cao) V
(Đau đầu, Không) (Cảm cúm,
(15)Trang tiêu đề Mục lục JJ II
J I
Trang15/15
Quay lui Toàn hình
Đóng File Câu hỏi:
1 Miền giá trị ý nghÜa cña Entropy, Gain
2 Hệ thống đ−ợc xem ổn định với giá trị
Entropy?
3 Ưu nh−ợc điểm xây dựng định dựa vào
Entropy?