Ví dụ minh họa xây dựng cây quyết định

Một phần của tài liệu nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng (Trang 34 - 38)

David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên. Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf. Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không. Vậy là trong hai tuần, anh ta thu thập thông tin về: Trời (outlook) (nắng (sunny), nhiều mây (clouded) hoặc mưa (raining). Nhiệt độ (temperature) bằng độ F, độ ẩm (humidity), gió mạnh (windy) hay không. Và tất nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm 14 dòng và 5 cột.

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 22 / 61

Thực hiện các bước để xây dựng nên cây quyết định cho bài toán trên:

Cơ sở dữ liệu trên có 5 thuộc tính: OUTLOOK (thuộc tính rời rạc), TEMPERATURE (thuộc tính liên tục), HUMIDITY (thuộc tính liên tục), WINDY (thuộc tính rời rạc), PLAY (lớp)

 PLAY(5 Play, 9 Don’t Play).

 OUTLOOK: 5 sunny (3 Don’t Play, 2 Play), 4 overcast (4 Play), 5 rain (2 Don’t Play, 3 Play), TEMPERATURE, HUMIDITY, WINDY.

E(PLAY) = E(5 Play,9 Don’t Play) = - (5/14 log2 5/14 + 9/14 log29/14) = 0.94.

E(OUTLOOK) = 5/14 E(Sunny) + 4/14E(Overcast) + 5/14E(rain) = 5/14 (3/5 log23/5 + 2/5 log22/5) + 4/14 (4/4 log24/4 + 0) + 5/14 (2/5 log22/5 + 3/5 log23/5) = 0.69.

E(TEMPERATURE) Với ngưỡng σ là 70.5.

E(TEMPERATURE) = 4/14 E( < 70.5) + 10/14 E(≥70.5) = 4/14 (1/3 log2 1/3 + 2/3 log22/3) + 10/14 (4/10 log2 4/10 + 6/10 log26/10) = 0.92.

E(HUMIDITY) Với ngưỡng σ là 77.5

E(HUMIDITY) = 9/14E (≥77.5) + 5/14E(<77.5) = 0.89.

E(WINDY) = 8/14E(False) + 6/14 E(True) = 0.89. Suy ra, ta có G(PLAY, OUTLOOK) là Max.

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 23 / 61

Khi đó, ta sẽ được một phần của cây quyết định như sau :

OUTLOOK

Yes

Overcast Sunny Rain

Hình 2. 6 Xây dựng cây quyết định cho bài toán Play Golf

E(TEMPERATURE) = 1/5E(<70.5) + 4/5E(≥70.5) = 0.736.

E(HUMIDITY) = 2/5E(<77.5) + 3/5E(≥77.5) = 0.

E(WINDY) = 2/5E(True) + 3/5E(False) = 0.952.

G(OUTLOOK, HUMIDITY) là Max. Ta được cây như sau :

OUTLOOK

Yes

Overcast Sunny Rain

HUMIDITY

< 77.5 >= 77.5

Yes No (adsbygoogle = window.adsbygoogle || []).push({});

Hình 2. 7 dựng cây quyết định cho bài toán Play Golf

E(TEMPERATURE) = 3/5E(<70.5) + 2/5E(≥70.5) = 0.952.

E(HUMIDITY) = 4/5E( ≥77.5) + 1/5E(<77.5) = 0.648.

E(WINDY) = 3/5E(False) + 2/5E(True) = 0.

G(OUTLOOK, WINDY) là Max.

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 24 / 61

OUTLOOK

Yes

Overcast Sunny Rain

HUMIDITY < 77.5 >= 77.5 Yes No WINDY No Yes False True

Hình 2. 8 Xây dựng cây quyết định cho bài toán Play Golf

Nhận xét

Cây quyết định trên phân loại theo các giá trị của biến Outlook, ta có ba nhóm khác nhau: Nhóm người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây và nhóm chơi khi trời mưa.

 Kết luận thứ nhất: nếu trời nhiều mây, người ta luôn luôn chơi golf và có một số người ham mê đến mức chơi golf cả khi trời mưa.

 Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con. Ta thấy rằng khách hàng không muốn chơi golf nếu độ ẩm lên quá 77.5%.

 Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi golf nếu trời nhiều gió.

Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây quyết định, David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió vì hầu như sẽ chẳng có ai chơi golf trong những ngày đó. Vào những hôm khác, khi nhiều người sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúpcông việc.

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 25 / 61

CHƢƠNG 3

XẾP HẠNG TÍN DỤNG NỘI BỘ NGÂN HÀNG

Chương này trình bày những lý thuyết chung về xếp hạng tín dụng, các phương pháp xếp hạng tín dụng phổ biến. Đồng thời, cũng giới thiệu về Ngân hàng thương mại cổ phần Quân Đội và quy trình xếp hạng tín dụng tại ngân hàng này.

Một phần của tài liệu nghiên cứu cây quyết định trong xếp hạng tín dụng nội bộ ngân hàng (Trang 34 - 38)