Vẽ Cây Quyết Định:... Phân lớp Nạve Bayes: *Xác suất trên tồn tập:... Giải thuật k-NN: e Play Tennis... Overcast Hot Normal Weak YesDữ liệu sẽ được chuẩn hóa thành: Ta có Distance = Ou
Trang 1Bài kiểm tra giữa kì (20%) Môn Học : Datamining
Họ và tên : Trần Thiện Thơ MSSV : 030137210490 Lớp học phần : ITS324_231_1_D01
Trang 2Câu 1:
1.1
Ta có :
- Entropy (S) = -p (+) log 2 p (+) - p (-)* log 2 p (-)
- Gain (S,x) = Entropy (S) – Entropy(S|x)
=> S = {9+,5-}
=> |S| = 14
=> Entropy(S) = - 9/14 * log (9/14) - 5/14*log (5/14) = 0.9402 2
● Xét thuộc tính Outlook = {Sunny, Overcast, Rain}
x= Outlook v={Sunny,Overcast,Rain}
- Entropy(S|x) = 5/14*Entropy(S_sunny) + 4/14*Entropy(S_overcast) + 5/14* Entropy(S_rain)
= 5/14*0.971 + 4/14*0 + 5/14* 0.971 = 0.694 bits
- Gain(S, x) = Entropy(S) - Entropy(S|x)
= 0.247
● Xét thuộc tính Temp = {Hot, Mild, Cool}
Trang 3x= Temp v= {Hot,Mild,Cool}
- Entropy(S|x) = 4/14*Entropy(S_hot) + 6/14*Entropy(S_mild) + 4/14* Entropy(S_cool)
= 4/14*1.000 + 6/14*0.918 + 4/14* 0.811
= 0.911 bits
- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.029
● Xét thuộc tính Hum= {High, Normal}
- Entropy(S|x) = 7/14*Entropy(S_high) + 7/14*Entropy(S_normal) = 0.788 bits
Gain(S, x) = Entropy(S)
-Entropy(S|x)
= 0.152
● Xét thuộc tính Hum= {High,
Normal}
Trang 4x= Wind v= {Weak,Strong}
- Entropy(S|x) = 8/14*Entropy(S_weak) + 6/14*Entropy(S_strong) = 0.892 bits
Gain(S, x) = Entropy(S)
-Entropy(S|x)
= 0.048
=> Gain(S, x = Outlook) là lớn nhất => dùng 'Outlook' làm thuộc tính
phân chia
Tiến hành chia tập dữ liệu S ban đầu theo 'Outlook' ta được :
S_sunny = [D1,D2,D8,D9,D11]
S_overcast = [D3,D7,D12,D13]
S_Rain= [D4,D5,D6,D10,D14]
Xét tập S_Sunny:
- Entropy(S|x) = 2/5*Entropy(S_hot) + 2/5*Entropy(S_mild) + 1/5* Entropy(S_cool) = 0.4
- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.571
Trang 5High 0 3 3 0
- Entropy(S|x) = 3/5*Entropy(S_high) + 2/5*Entropy(S_normal) = 0
- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.94
- Entropy(S|x) = 3/5*Entropy(S_weak) + 2/5*Entropy(S_strong) = 0.951 Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.02
Ta có :
=> Gain(S_sunny, x = Hum.) là lớn nhất
=> Dùng 'Humidity' làm thuộc tính phân chia tiếp của S_sunny
*Chia S_sunny theo 'Humidity'
S_sunny_high = [D1,D2,D8]
=> Đồng nhất class(No) => gán thuộc class (No) cho nút (lá) và dừng S_sunny_Normal = [D9,D11] :
=> Đồng nhất class(Yes) => gán thuộc class (Yes) cho nút (lá) và dừng Xét S_overcast :
=> Đồng nhất về class (Yes) => gán nhãn cho nút = 'Yes'
Xét S_rain:
Trang 6Sunny 3 2 5 0.971
- Entropy(S|x) = 3/5*Entropy(S_mild) + 2/5*Entropy(S_cool) = 0.951
- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.02
- Entropy(S|x) = 2/5*Entropy(S_high) + 3/5*Entropy(S_normal) = 0.951
- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.02
- Entropy(S|x) = 3/5*Entropy(S_weak) + 2/5*Entropy(S_strong) = 0
- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.971
Nhận xét :
Trang 7=> Gain(S_rain, x = Wind) là lớn nhất
=> Chúng ta dùng 'Wind' làm thuộc tính phân chia tiếp của S_rain
* Chia S_rain theo 'wind'
S_rain_strong= [D6,D14]
=> Đồng nhất class(No) => gán thuộc class (No) cho nút (lá) và dừng
S_rain_weak = [D4,D5, D10]
=> Đồng nhất class(Yes) => gán thuộc class (Yes) cho nút (lá) và dừng
Vẽ Cây Quyết Định:
Trang 8Dự đốn:
Dùng model dự đốn cho đối tượng X:
=> Class (X) = Yes
1.2 Phân lớp Nạve Bayes:
*Xác suất trên tồn tập:
Trang 99 5 14 0.643 0.357
Mô tả lại bài toán:
z = (Rain, Mild, High, Strong)
C1 (play=Yes), c2(play = No)
*Xác suất các P(xi|c):
z = {Rain, Mild, High, Strong}
P (C1, z) = P(Rain|C1)*P(Mild|C1)*P(High|C1)*P(Strong|C1)*P(C1) = 0.3 * 0.4 * 0.3 * 0.3 *0.643
Trang 10= 0.00694
P (C2, z) = P(Rain|C2)*P(Mild|C2)*P(High|C2)*P(Strong|C2) * P(C2) = 0.4 * 0.4 * 0.8 * 0.6 * 0.357
= 0.0274
Vì P (C1, z) < P (C2, z) :
=> Class(z) = C2 = No
1.3 Giải thuật k-NN:
e
Play Tennis
Trang 11Overcast Hot Normal Weak Yes
Dữ liệu sẽ được chuẩn hóa thành:
Ta có Distance =
Outl
ook
Tennis
Distance
Trang 120 1 1 1 Yes 2.2361
*Theo đề, k = 3, ta có được:
2.4495
2.2361
1.7321
1.7321
1.4142
1.7321
2.2361
2.6458
1.4142
2.2361
Trang 13Distance K = 3 Play
2
=> Kết luận: Yes
Câu 2 :
*Ta có Tập dữ liệu Test :
· Theo cây quyết định của đề bài cho ta sẽ có đầu ra cheat:
dữ liệu tạp test)
Cheat(theo cây quyết định)
Trang 14Ta có Ma Trận Nhầm Lẫn như sau :
Accuracy = (TP+TN) / (TP+FP+TN+FN)=
4/5 = 0.8
Sensitivity = TP/P = 1
Specificity = TN/N = 0