Thuộc tính quan trọng

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest (Trang 46)

Việc thực hiện các tính toán để xác định thuộc tính quan trọng trong RF cũng gần như tương tự việc sử dụng OOB để tính toán lỗi trong RF. Cách thực hiện như sau: Giả sử chúng ta cần xác định “thuộc tính quan trọng” của thuộc tính thứ thứ m. Đầu tiên tính ROOB, sau đó hoán vị ngẫu nhiên các giá trị của thuộc tính m trong dữ liệu

Chương 4: Giải thuật Random Forest Trang 46

OOB, lần lượt “gửi” các giá trị này xuống cây và “đếm” số các dự đoán đúng ta gọi việc tính toán này đối với thuộc tính là Rperm.

Độ quan trọng thuộc tính được tính như sau:

Trong trường hợp giá trị của thuộc tính quan trọng trên mỗi cây là độc lập thì chúng ta có thể tính được lỗi chuẫn (standard error) của ROOB - Rperm.

Ngoài độ quan trọng thuộc tính, trong RF cũng cần chú ý đến độ quan trọng GINI (GINI important). Chỉ số GINI tại nút N được định nghĩa là tổng bình phương xác suất mỗi lớp tại nút N [6]. Chỉ số GINI được tính như sau:

Trong đó p(wj) là là xác suất của lớp wj có mặt tại nút N. Điều này cũng có nghĩa là nếu trong tất cả các trường hợp tại nút N chỉ rơi vào một lớp duy nhất, thì giá trị chỉ số GINI tại nút N bằng 0.

Trong một số giải thuật như CART, SLIQ và RF chỉ số GINI được sử dụng như là một tiêu chỉ để phân nhánh trong cây. Các giải thuật này cố gắng cực tiểu hóa giá trị chỉ số GINI tại nút dựa vào việc phân nhánh trong cây theo công thức sau:

Trong đó k là số lượng các nút con được phân chia ra từ nút N, ni là số lượng các mẫu tại nút con i và n là tống số các mẫu tại nút N. Trong RF tại mỗi lần phân nhánh tại một nút thì giá trị chỉ số GINI tại hai nút con sẽ nhỏ hơn so với giá trị chỉ số GINI tại nút cha. Thêm vào đó chỉ số GINI giảm đối với mỗi thuộc tính đơn lẻ trên tất cả các cây đưa ra một độ quan trọng thuộc tính nhanh, và điều này là rất đồng nhất với đo lường độ quan trọng hoán vị [8].

Trong mô hình máy học đề xuất trong chương tiếp theo nhằm tăng hiệu quả phân lớp của giải thuật RF, mức độ giảm của chỉ số GINI cũng được sử dụng như một tiêu chí trong việc xác định độ quan trọng thuộc tính.

Chương 5: Phương pháp học máy đề xuất Trang 48

Chương 5: Phương pháp học máy đề xuất

Trong chương này chúng tôi đề xuất một phương pháp học máy nhằm tăng hiệu quả phân lớp của giải thuật RF. Nội dung chủ yếu của phương pháp học máy chúng tôi để xuất dựa vào: (1) Độ chính xác của việc kiểm chứng chéo (cross-validation) giữa các tập dữ liệu trong bộ dữ liệu; và (2) Độ quan trọng thuộc tính của mỗi thuộc tính trong tập dữ liệu tập huấn (chỉ số GINI).

Trước khi đi vào trình bày phương pháp học máy đề xuất, chúng ta cùng tìm hiểu một số kỹ thuật, lý thuyết được sử dụng trong phương pháp học máy đề xuất, đó là kỹ thuật kiểm chứng chéo (n-fold cross validation) và lý thuyết Bayes.

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest (Trang 46)

Tải bản đầy đủ (PDF)

(75 trang)