II. TÌM HIỂU VỀ PHÂN LỚP DỮ LIỆU: 1 Giới thiệu về phân lớp:
E(A) =Σ [(pi+ni)/(p+n)] I(pi,ni) i=
2.7. Giải thuật mở rộng C4.5:
C4.5 là sự mở rộng của giải thuật ID3 trên một số khía cạnh sau:
Trong việc xây dựng cây quyết định, chúng có thể liên hệ với tranning set mà có những records với những giá trị thuộc tính không được biết đến bởi việc đánh giá việc thu thập thông tin hoặc là tỉ số thu thập thông tin, cho những thuộc tính bằng việc xem xét chỉ những record mà ở đó thuộc tính được định nghĩa.
Trong việc sử dụng cây quyết định, chúng ta có thể phân loại những record mà có những giá trị thuộc tính không biết bằng việc ước lượng những kết quả có khả năng sãy ra. Trong ví dụ chơi đánh gôn của chúng ta, nếu chúng ta được đưa một record mới mà outlook là sunny và humidity chưa cho biết, chúng ta sẽ xử lý như sau:
Chúng ta di chuyển từ nút gốc Outlook đến nút Humidity theo cung được đánh nhãn là sunny. Ở điểm đó từ lúc chúng ta không biết giá trị của Humidity chúng ta để ý rằng nếu humidity là ở 75 có 2 records, và nếu humidity là lớn hơn 75 có 3 records trong đó có 1 record không hoạt động . Như vậy điều đó có thể đưa ra như câu trả lới cho record khả năng (0.4,06) cho chơi gôn hoặc không chơi gôn.
Chúng ta có thể liên hệ đến những giá trị liên tục . Giả sử rằng thuộc tính Ci có tầm giá trị thuộc tính liên tục . Chúng ta sẽ xem xét những giá trị này trong tập learning set . Cho rằng chúng được xắp sếp thứ tự tăng dần A1, A2,..,Am sau đó với mỗi giá trị Ai i=1,2,..,m.Chúng ta chia những records thành những cái có giá trị từ Ci trở lên và bao gồm cả Aj và những cái có những giá trị lớn hơn Aj. Với những lần phân hoạch này chúng ta tính lại giá trị thu thập và tỉ số thu thập và chọn ra phân hoạch có tỉ số thu thập thông tin nhận được tối đa.
Trong ví dụ về chơi Golf của chúng ta, đối với humidity T là training set chúng ta sẽ xát định thông tin cho mỗi lần phân chia và tìm được sự phân chia tốt nhất tại 75. Phạm vi của thuộc tính này trở thành {<=75,>75}. Chú ý rằng phương pháp này liên quan đến một con số quan trọng của việc tính toán.