Phân lớp dựa vào cây quyết định

Một phần của tài liệu Phân lớp thư điện tử sử dụng máy Vector hỗ trợ (Trang 30)

Cây quyết định là một đồ thị của các sự quyết định và các hệ quả của nó, được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của câu trúc dạng cây.

Học cây quyết định là phương pháp được sử dụng rộng rãi cho việc học quy nạp từ một mẫu lớn. Đây là phương pháp xấp xỉ hàm mục tiêu có

giá trị rời rạc. Mặt khác, cây quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If - Then.

Học bằng cây quyết định là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại, còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó.

Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại cho mỗi tập con dẫn xuất một cách đệ quy. Quá trình đệ quy hoàn thành khi việc chia tách là không thể tiếp tục thực hiện được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại.

Trong các thuật toán học cây quyết định thì các thuật toán sinh cây ID3, C4.5 và C5.0 là các thuật toán nổi tiếng nhất[10]. Sau đây là nội dung thuật toán ID3:

ID3 (Example, Target attributes, Attributes) 1. Tạo một nút gốc Root cho cây quyết định

2. Nếu toàn bộ Examples đều là các ví dụ dương, tả lại cây Root một nút đơn, với nhãn +.

3. Nếu toàn bộ Examples đều là các ví dụ âm, trả lại cây Root một nút đơn, với nhãn -.

4. Nếu Attributes là rỗng thì trả lại cây Root một nút đơn với gán nhãn bằng giá trị phổ biến nhất của Target_attribute trong Example.

5. Ngược lại Begin

5.1. A <= thuộc tính từ tập Attribute mà phân loại tốt nhất tập

5.2. Thuộc tính quyết định cho Root <= A 5.3. For mỗi giá trị có thể có vi của A

5.3.1. Cộng thêm một nhánh cây con ở dưới Root, phù hợp với biểu thức kiểm tra A=vi.

5.3.2. Đặt Examplesvi là một tập con của tập các ví dụ có giá trị vi cho A

5.3.3. Nếu Examplesvi rỗng

- Dưới mỗi nhánh mới thêm một nút lá với nhẵn bằng giá trị phổ biến nhất của Target_attribute trong tập

Examples

- Ngược lại thì dưới nhánh mới này thêm một cây con ID3 (Examples, target_attribute, Attribute-{A}).

End

Return Root.

Thuộc tính tốt nhất là thuộc tính có độ lấy thông tin lớn nhất.

So với các phương pháp khai phá dữ liệu, phương pháp sử dụng cây quyết định có ưu điểm là đơn giản và dễ hiểu, người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn. Phương pháp học máy dùng cây quyết định và dựa trên cây quyết định là rất hiệu quả bởi vì nó có thể làm việc được với một số lượng lớn các thuộc tính, và hơn nữa từ cây quyết định có thể rút ra được một hệ thống luật học. Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết, các kỹ thuật khác thường đòi hỏi chuẩn hoá dữ liệu, cần tạo ra các biến phụ và loại bỏ các giá trị rỗng. Ngoài ra cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định.

Tuy nhiên, khi sử dụng mô hình cây quyết định có thể xảy ra hiện tượng overfit, khi đó phải có thuật toán làm mịn như tỉa hay chặt bớt các nhánh dữ liệu nhiễu và dư thừa để giải quyết hiện tượng này.

Một phần của tài liệu Phân lớp thư điện tử sử dụng máy Vector hỗ trợ (Trang 30)