Minh họa cây quyết định

7 Tổng kết

2.8 Minh họa cây quyết định

Các thuật toán để xây dựng cây quyết định thường áp dụng phương pháp tiếp cận từ trên xuống (top-down) đối với dữ liệu. Mục tiêu là cố gắng tập hợp các đối tượng giống nhau thành một nhóm và tìm kiếm các luật “tốt nhất” để phân chia các nhóm đối tượng khác nhau. Trong đó, định nghĩa về “tốt nhất” phụ thuộc vào thuật toán được sử dụng. Các thuật toán cây quyết định đáng chú ý là ID3, C4.5, CART, CHAID và MARS. Các thuật toán cây quyết định có khả năng tạo ra các cây quá mức chi tiết khiến độ phức tạp của chúng tăng lên. Điều này sẽ dẫn đến khả năng cao thuật toán đang cố gắng “thỏa mãn” bộ dữ liệu huấn luyện, bao gồm cả dữ liệu nhiễu. Cần lưu ý rằng mục đích cuối cùng của quá trình phân tích dữ liệu hay huấn luyện mô hình phân tích là để làm sao khi áp dụng cho bộ dữ liệu thực tế chúng đem lại kết quả chính xác nhất chứ không phải tập trung vào dữ liệu huấn luyện. Do đó nhìn chung, các cây quyết định có độ phức tạp vừa phải được ưu tiên hơn các cây quyết định siêu phức tạp, vì chúng dễ hiểu hơn và ít có khả năng rơi vào tình trạng overfitting. Một hướng tiếp cận để chống lại điều này là sử dụng một kỹ thuật được gọi là prunning. Prunning làm giảm kích thước của cây quyết định bằng cách loại bỏ các phân nhánh cung cấp ít thông tin để phân loại các đối tượng.

2.3.2 Random Forest

Random Forest là một thuật toán phân loại bao gồm nhiều cây quyết định và sử dụng phương pháp bỏ phiếu để đưa ra quyết định về đối tượng cần được dự báo. Ý tưởng đằng sau thuật toán này chính là dự đoán của số đông sẽ chính xác hơn dự đoán của bất kỳ cây quyết định riêng lẻ nào. Thuật toán hoạt động theo bốn bước (hình 2.9).

Các bước của quá trình phân tích tĩnh1

Lưu dữ liệu cây AST vào mảng