luyện
Cũng tiếp tục xét ví dụ chơi Golf ở trên, từ tập ví dụ minh họa ta đã sử dụng C4.5 để sinh ra cây quyết định. Với cây được sinh ra, người dùng cuối đã có thể có được những cái nhìn tổng quan về sự phân lớp của tập ví dụ huấn luyện. Tuy nhiên
để cho trực quan hơn thì phương pháp học cây quyết định cho phép chúng ta tạo ta các luật từ chính cây quyết định. Điểm mạnh của các luật đó là sự trực quan và dễ hiểu đối với con người. Con người chúng ta vốn quen và dễ nhận biết được các luật dạng “Nếu – Thì” do đó việc khai phá dữ liệu sử dụng cây quyết định sinh ra các luật là một điểm mạnh của phương pháp này mà chúng ta đã nhắc đến ở phần trên của luận văn.
Hình 3.2 Kết quả chạy C.45Rules với ứng dụng chơi Golf
Lệnh C4.5rules trong chương trình C4.5 cho phép ta tạo ra luật từ chính cây quyết định đã được sinh ra và được lưu trữ ở bước trên. Cụ thể với cây quyết định được sinh ra bởi lệnh C4.5 trên các file dữ liệu Golf.names và Golf.data, ta sử dụng C4.5rules để sinh các luật như trong hình. Cụ thể, với cây quyết định được sinh bởi C4.5 ở trên thì C4.5rules sẽ chuyển đổi nó thành các luật tương ứng như sau:
Luật 2:
outlook = overcast -> class Play [70.7%]
Luật 4: outlook = rain windy = false -> class Play [63.0%] Luật 1: outlook = sunny humidity > 75
-> class Don't Play [63.0%] Luật 3:
outlook = rain windy = true
-> class Don't Play [50.0%] Lớp mặc định: Play
Như vậy, một cách tổng quan ta có thể rút ra được một số luật như sau từ tập ví dụ huấn luyện:
Luật 1: Nếu “Outlook = Sunny” và “Humidity > 75” thì không chơi golf. Luật 2: Nếu “Outlook = Overcast” thì chơi golf.
Luật 3: Nếu “Outlook = Rain” và “Windy = True” thì không chơi golf. Luật 4: Nếu “Outlook = Rain” và “Windy = False” thì chơi golf.
Ngược lại thì chơi golf là lớp ngầm định – tức là nếu các trường hợp không nằm trong 4 luật trên thì sẽ chơi golf.