Thực hiện phân lớp bằng thuật tốn Decision tree (J48)

Một phần của tài liệu (Luận văn thạc sĩ) Nghiên cứu một số phương pháp học máy có giám sát và ứng dụng trong hỗ trợ chẩn đoán bệnh ung thư vú (Breast Cancer) (Trang 66 - 69)

3.3 Phân tích, đánh giá kết quả thực nghiệm

3.3.5 Thực hiện phân lớp bằng thuật tốn Decision tree (J48)

Kịch bản 1: Thực hiện huấn luyện trong chế độ phân lớp Percentage split đề xác

định tỉ lệ phân chia, trong thực nghiệm này em xác định tỉ lệ 80%, cĩ nghĩa là chia 80% tập huấn luyện (tập trian), 20% tập kiểm tra (tập test). Đề đạt hiệu quả phân lớp như sau:

Bảng 3.28: Độ chính xác của thuật tốn J48 (kịch bản 1) J48

phân loại chính xác 130 (92.8571 %) phân loại khơng chính xác 10 (7.1429 %) ● Đánh giá về phần tách thử nghiệm cho J48

Bảng 3.29: Tĩm tắt cho J48 (kịch bản 1)

J48

Thống kê Kappa 0.8485

Sai số trung bình tuyệt đối 0.092 Lỗi bình phương trung bình gốc 0.2429 Sai số tuyệt đối tương đối 20.2164 % Lỗi bình phương tương đối gốc 50.6609 %

Tổng số phiên bản 140

 Độ chính xác chi tiết theo lớp cho J48

● Ma trận nhầm lẫn (Confusion matrix)

Bảng 3.31: Ma trận nhầm lẫn của (kịch bản 1)

Phân loại Lành tính Ác tính

J48 Phiên họp1 82 8

Phiên họp2 2 48

Kịch bản 2: Thực nghiệm huấn luyện trong chế độ phân Cross-validation. Tập

dữ liệu sẽ được chia đều k tập (folds) cĩ kích thước xấp xỉ nhau và bộ phân loại học được sẽ được đánh giá bởi phương pháp Cross-validation. Trong thực nghiệm này em xác định chọn fold = 10, để đạt hiệu quả phân lớp như sau:

Bảng 3.32: Độ chính xác của thuật tốn J48 (kịch bản 2)

J48 phân loại chính xác 661 ( 94.5637 % ) phân loại khơng chính xác 38 ( 5.4363 % )

● Đánh giá về phần tách thử nghiệm cho J48

Bảng 3.33: Tĩm tắt cho J48 (kịch bản 2)

J48

Thống kê Kappa 0.8799

Sai số trung bình tuyệt đối 0.0691 Lỗi bình phương trung bình gốc 0.2228 Sai số tuyệt đối tương đối 15.2992 % Lỗi bình phương tương đối gốc 46.8739 %

● Độ chính xác chi tiết theo lớp cho J48

Bảng 3.34: Các thước đo độ chính xác của thuật tốn J48 (kịch bản 2)

J48 TP FP Precision Recall F- Measure MCC ROC PRC Class 0.956 0.075 0.961 0.956 0.958 0.880 0.955 0.955 Lành tính 0.925 0.044 0.918 0.925 0.921 0.880 0.955 0.903 Ác tính Weighted Avg 0.946 0.064 0.946 0.946 0.946 0.880 0.955 0.937 ● Ma trận nhầm lẫn (Confusion matrix) Bảng 3.35: Ma trận nhầm lẫn của (kịch bản 2) Phân loại Lành tính Ác tính J48 Phiên họp1 438 20 Phiên họp2 18 223

Riêng thuật tốn J48, em cĩ thể sử dụng chức năng Visualize tree để xem hình ảnh cây quyết định.

Hình 3.21 : Cây quyết định Visualization

Một phần của tài liệu (Luận văn thạc sĩ) Nghiên cứu một số phương pháp học máy có giám sát và ứng dụng trong hỗ trợ chẩn đoán bệnh ung thư vú (Breast Cancer) (Trang 66 - 69)

Tải bản đầy đủ (PDF)

(78 trang)