1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài kiểm tra giữa kì (20%) môn học datamining

14 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Kiểm Tra Giữa Kì
Tác giả Trần Thiện Thơ
Trường học Standard format not all caps
Chuyên ngành Datamining
Thể loại Exam
Định dạng
Số trang 14
Dung lượng 1,05 MB

Nội dung

Vẽ Cây Quyết Định:... Phân lớp Nạve Bayes: *Xác suất trên tồn tập:... Giải thuật k-NN: e Play Tennis... Overcast Hot Normal Weak YesDữ liệu sẽ được chuẩn hóa thành: Ta có Distance = Ou

Trang 1

Bài kiểm tra giữa kì (20%) Môn Học : Datamining

Họ và tên : Trần Thiện Thơ MSSV : 030137210490 Lớp học phần : ITS324_231_1_D01

Trang 2

Câu 1:

1.1

Ta có :

- Entropy (S) = -p (+) log 2 p (+) - p (-)* log 2 p (-)

- Gain (S,x) = Entropy (S) – Entropy(S|x)

=> S = {9+,5-}

=> |S| = 14

=> Entropy(S) = - 9/14 * log (9/14) - 5/14*log (5/14) = 0.9402 2

● Xét thuộc tính Outlook = {Sunny, Overcast, Rain}

x= Outlook v={Sunny,Overcast,Rain}

- Entropy(S|x) = 5/14*Entropy(S_sunny) + 4/14*Entropy(S_overcast) + 5/14* Entropy(S_rain)

= 5/14*0.971 + 4/14*0 + 5/14* 0.971 = 0.694 bits

- Gain(S, x) = Entropy(S) - Entropy(S|x)

= 0.247

● Xét thuộc tính Temp = {Hot, Mild, Cool}

Trang 3

x= Temp v= {Hot,Mild,Cool}

- Entropy(S|x) = 4/14*Entropy(S_hot) + 6/14*Entropy(S_mild) + 4/14* Entropy(S_cool)

= 4/14*1.000 + 6/14*0.918 + 4/14* 0.811

= 0.911 bits

- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.029

● Xét thuộc tính Hum= {High, Normal}

- Entropy(S|x) = 7/14*Entropy(S_high) + 7/14*Entropy(S_normal) = 0.788 bits

Gain(S, x) = Entropy(S)

-Entropy(S|x)

= 0.152

● Xét thuộc tính Hum= {High,

Normal}

Trang 4

x= Wind v= {Weak,Strong}

- Entropy(S|x) = 8/14*Entropy(S_weak) + 6/14*Entropy(S_strong) = 0.892 bits

Gain(S, x) = Entropy(S)

-Entropy(S|x)

= 0.048

=> Gain(S, x = Outlook) là lớn nhất => dùng 'Outlook' làm thuộc tính

phân chia

Tiến hành chia tập dữ liệu S ban đầu theo 'Outlook' ta được :

S_sunny = [D1,D2,D8,D9,D11]

S_overcast = [D3,D7,D12,D13]

S_Rain= [D4,D5,D6,D10,D14]

Xét tập S_Sunny:

- Entropy(S|x) = 2/5*Entropy(S_hot) + 2/5*Entropy(S_mild) + 1/5* Entropy(S_cool) = 0.4

- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.571

Trang 5

High 0 3 3 0

- Entropy(S|x) = 3/5*Entropy(S_high) + 2/5*Entropy(S_normal) = 0

- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.94

- Entropy(S|x) = 3/5*Entropy(S_weak) + 2/5*Entropy(S_strong) = 0.951 Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.02

Ta có :

=> Gain(S_sunny, x = Hum.) là lớn nhất

=> Dùng 'Humidity' làm thuộc tính phân chia tiếp của S_sunny

*Chia S_sunny theo 'Humidity'

S_sunny_high = [D1,D2,D8]

=> Đồng nhất class(No) => gán thuộc class (No) cho nút (lá) và dừng S_sunny_Normal = [D9,D11] :

=> Đồng nhất class(Yes) => gán thuộc class (Yes) cho nút (lá) và dừng Xét S_overcast :

=> Đồng nhất về class (Yes) => gán nhãn cho nút = 'Yes'

Xét S_rain:

Trang 6

Sunny 3 2 5 0.971

- Entropy(S|x) = 3/5*Entropy(S_mild) + 2/5*Entropy(S_cool) = 0.951

- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.02

- Entropy(S|x) = 2/5*Entropy(S_high) + 3/5*Entropy(S_normal) = 0.951

- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.02

- Entropy(S|x) = 3/5*Entropy(S_weak) + 2/5*Entropy(S_strong) = 0

- Gain(S, x) = Entropy(S) - Entropy(S|x) = 0.971

Nhận xét :

Trang 7

=> Gain(S_rain, x = Wind) là lớn nhất

=> Chúng ta dùng 'Wind' làm thuộc tính phân chia tiếp của S_rain

* Chia S_rain theo 'wind'

S_rain_strong= [D6,D14]

=> Đồng nhất class(No) => gán thuộc class (No) cho nút (lá) và dừng

S_rain_weak = [D4,D5, D10]

=> Đồng nhất class(Yes) => gán thuộc class (Yes) cho nút (lá) và dừng

Vẽ Cây Quyết Định:

Trang 8

Dự đốn:

Dùng model dự đốn cho đối tượng X:

=> Class (X) = Yes

1.2 Phân lớp Nạve Bayes:

*Xác suất trên tồn tập:

Trang 9

9 5 14 0.643 0.357

Mô tả lại bài toán:

z = (Rain, Mild, High, Strong)

C1 (play=Yes), c2(play = No)

*Xác suất các P(xi|c):

z = {Rain, Mild, High, Strong}

P (C1, z) = P(Rain|C1)*P(Mild|C1)*P(High|C1)*P(Strong|C1)*P(C1) = 0.3 * 0.4 * 0.3 * 0.3 *0.643

Trang 10

= 0.00694

P (C2, z) = P(Rain|C2)*P(Mild|C2)*P(High|C2)*P(Strong|C2) * P(C2) = 0.4 * 0.4 * 0.8 * 0.6 * 0.357

= 0.0274

Vì P (C1, z) < P (C2, z) :

=> Class(z) = C2 = No

1.3 Giải thuật k-NN:

e

Play Tennis

Trang 11

Overcast Hot Normal Weak Yes

Dữ liệu sẽ được chuẩn hóa thành:

Ta có Distance =

Outl

ook

Tennis

Distance

Trang 12

0 1 1 1 Yes 2.2361

*Theo đề, k = 3, ta có được:

2.4495

2.2361

1.7321

1.7321

1.4142

1.7321

2.2361

2.6458

1.4142

2.2361

Trang 13

Distance K = 3 Play

2

=> Kết luận: Yes

Câu 2 :

*Ta có Tập dữ liệu Test :

· Theo cây quyết định của đề bài cho ta sẽ có đầu ra cheat:

dữ liệu tạp test)

Cheat(theo cây quyết định)

Trang 14

Ta có Ma Trận Nhầm Lẫn như sau :

Accuracy = (TP+TN) / (TP+FP+TN+FN)=

4/5 = 0.8

Sensitivity = TP/P = 1

Specificity = TN/N = 0

Ngày đăng: 09/12/2024, 17:49

w