Mô hình Random Forest

Phần 8. XÂY DỰNG CÁC MÔ HÌNH VÀ ĐÁNH GIÁ ĐỘ CHÍNH XÁC, GIẢI THÍCH Ý NGHĨA CỦA MÔ HÌNH, DỰ BÁO

8.2 Mô hình Random Forest

- Random Forests là thuật toán học có giám sát (supervised learning). Nó có thể được sử dụng cho cả phân lớp và hồi quy. Nó cũng là thuật toán linh hoạt và dễ sử dụng nhất.

- Thuật toán hoạt động như sau:

1. Chọn các mẫu ngẫu nhiên từ tập dữ liệu đã cho.

2. Thiết lập cây quyết định cho từng mẫu và nhận kết quả dự đoán từ mỗi quyết định cây.

3. Hãy bỏ phiếu cho mỗi kết quả dự đoán.

4. Chọn kết quả được dự đoán nhiều nhất là dự đoán cuối cùng.

Hình 60 : Mô hình Random Forest

Ưu điểm: Random forests được coi là một phương pháp chính xác và mạnh mẽ vì số cây quyết định tham gia vào quá trình này. Nó không bị vấn đề overfitting. Lý do chính là nó mất trung bình của tất cả các dự đoán, trong đó hủy bỏ những thành kiến.

Trong đề tài phân tích dữ liệu thời tiết ở Australia, ma trận nhầm lẫn của mô hình Random Forest cho thấy một số kết quả quan trọng và cung cấp những hiểu biết

sâu sắc về hiệu suất của mô hình. Dưới đây là những điều mà ma trận nhầm lẫn chứng tỏ:

1. Khả năng phân loại của mô hình: Ma trận nhầm lẫn cho thấy mô hình Random Forest có khả năng phân loại tốt với một độ chính xác tổng thể cao (85.4%).

Điều này cho thấy mô hình này có khả năng dự đoán đúng hầu hết các mẫu thời tiết.

2. Hiệu suất đối với từng lớp:

Lớp 0 (Không có hiện tượng thời tiết xấu): Mô hình dự đoán rất tốt cho lớp này với số lượng True Negative (20935) lớn và số lượng False Positive (878) nhỏ. Điều này cho thấy mô hình hiếm khi dự đoán sai các mẫu thuộc lớp 0 là lớp 1.

Lớp 1 (Có hiện tượng thời tiết xấu): Mô hình dự đoán không tốt bằng cho lớp này, với số lượng False Negative (3235) lớn hơn so với số lượng True Positive (3110).

Điều này chứng tỏ mô hình còn nhiều trường hợp không nhận diện đúng các mẫu thời tiết xấu.

3. Precision và Recall:

Precision cao (78.0%) cho lớp 1 cho thấy khi mô hình dự đoán một mẫu là thời tiết xấu, khả năng dự đoán đúng là cao. Điều này có nghĩa là mô hình ít dự đoán sai các mẫu thời tiết tốt là thời tiết xấu.

Recall thấp (49.0%) cho lớp 1 cho thấy mô hình bỏ sót nhiều mẫu thời tiết xấu, tức là nhiều trường hợp thời tiết xấu không được nhận diện đúng. Điều này có thể là một vấn đề quan trọng trong các ứng dụng thực tế, nơi việc nhận diện chính xác các hiện tượng thời tiết xấu là rất quan trọng.

4. Khả năng cải thiện mô hình: Kết quả này gợi ý rằng cần có các biện pháp cải thiện mô hình, như tối ưu hóa tham số, sử dụng các kỹ thuật tiền xử lý dữ liệu tốt hơn, hoặc kết hợp với các mô hình khác để nâng cao hiệu suất dự đoán các hiện tượng thời tiết xấu.

Hình 61 : Ma trận nhầm lẫn mô hình Random Forest

- Dựa trên biểu đồ các chỉ số hiệu suất của mô hình Random Forest dưới đây, ta có thể rút ra các nhận xét sau:

1. Accuracy (Độ chính xác): Accuracy = 0.85 (85%): Điều này cho thấy rằng mô hình dự đoán đúng 85% tổng số trường hợp. Đây là một kết quả khá tốt, cho thấy mô hình hoạt động hiệu quả trên toàn bộ tập dữ liệu

2. Precision (Độ chính xác khi dự đoán có hiện tượng thời tiết xấu): Precision = 0.85 (85%): Mô hình đạt được độ chính xác 85% khi dự đoán các trường hợp có hiện tượng thời tiết xấu. Nghĩa là, trong số các dự đoán là thời tiết xấu, 85% là chính xác.

3. Recall (Khả năng phát hiện hiện tượng thời tiết xấu): Recall = 0.72 (72%):

Mô hình nhận diện đúng 72% các trường hợp thời tiết xấu trong tổng số các trường hợp thời tiết xấu thực sự. Điều này cho thấy vẫn còn một số trường hợp thời tiết xấu bị bỏ sót (28%).

4. F1-Score (Chỉ số hài hòa giữa Precision và Recall): F1-Score = 0.76 (76%):

Chỉ số này là sự kết hợp của Precision và Recall, cung cấp một cái nhìn cân bằng hơn về hiệu suất của mô hình. Với F1-Score đạt 76%, mô hình Random Forest có khả năng khá tốt trong việc phân loại chính xác và phát hiện các trường hợp thời tiết xấu.

Hình 62 : Đánh giá hiệu suất mô hình Random Forest

- Biểu đồ ROC (Receiver Operating Characteristic) là một công cụ trực quan để đánh giá hiệu suất của mô hình phân loại. Ở biểu đồ ROC dưới đây, ta có thể thấy:

1. True Positive Rate (TPR) hay Sensitivity (Trục Y): Đây là tỷ lệ các trường hợp dương tính thực sự được mô hình dự đoán chính xác.

2. False Positive Rate (FPR) (Trục X): Đây là tỷ lệ các trường hợp âm tính thực sự bị mô hình dự đoán sai thành dương tính.

3. Đường cong ROC:

Đường cong ROC thể hiện mối quan hệ giữa TPR và FPR ở các ngưỡng khác nhau.

Một mô hình hoàn hảo sẽ có đường ROC đi qua điểm (0, 1) - nghĩa là TPR = 1 và FPR = 0, tức là không có trường hợp âm tính nào bị dự đoán sai thành dương tính và tất cả các trường hợp dương tính đều được dự đoán chính xác.

4. Diện tích dưới đường cong (AUC - Area Under the Curve):

AUC = 0.89: Diện tích dưới đường cong ROC của mô hình Random Forest là 0.89. AUC là một chỉ số quan trọng để đánh giá hiệu suất của mô hình.

Với AUC = 0.89, mô hình Random Forest của bạn hoạt động rất tốt. AUC gần

bằng 1 chứng tỏ mô hình có khả năng phân biệt giữa các lớp rất tốt.

- Ý nghĩa:

+ Hiệu suất tổng quát: Với AUC = 0.89, mô hình Random Forest có khả năng dự đoán chính xác các hiện tượng thời tiết, cho thấy mô hình phân biệt tốt giữa các

ngày có và không có mưa .

+ Đánh đổi giữa TPR và FPR: Đường cong ROC cho phép bạn chọn ngưỡng dự đoán tối ưu bằng cách cân nhắc giữa tỷ lệ dương tính thực sự và tỷ lệ âm tính sai. Nếu bạn muốn tăng khả năng phát hiện các ngày có hiện tượng thời tiết xấu (TPR cao hơn), bạn có thể chấp nhận một số lượng nhỏ hơn các ngày không có hiện tượng thời tiết xấu bị dự đoán sai (FPR cao hơn).

Xử Lý Giá Trị Ngoại Lai (Outlier Values)

Mô hình KNN (K-Nearest Neighbors)