- Giai đoạn 4: Đánh giá độ chính xác của phân lớp.
3.4.1. Thực nghiệm giải thuật trên bộ dữ liệu Breast cancer [23] * Thông tin chi tiết về tập dữ liệu Breast cancer:
* Thông tin chi tiết về tập dữ liệu Breast cancer:
Số Tuple: 699. Số thuộc tính: 9
Giá trị khuyết thiếu: có
Thông tin về các thuộc tính:
1. Clump Thickness: 1 - 10 2. Uniformity of Cell Size: 1 - 10 3. Uniformity of Cell Shape: 1 - 10 4. Marginal Adhesion: 1 - 10
5. Single Epithelial Cell Size: 1 - 10 6. Bare Nuclei: 1 - 10
7. Bland Chromatin: 1 - 10 8. Normal Nucleoli: 1 - 10 9. Mitoses: 1 - 10
Sau khi tiến hành giảm số chiều của tập dữ liệu bằng phương pháp T-Test sử dụng chức năng Mattest trong MATLAB 7.0.1 thì thuộc tính Sample code number bị loại bỏ, như vậy bộ dữ liệu còn lại 9 thuộc tính được trích xuất như Hình 3.9
Hình 3.4 Minh họa tập dữ liệu Breast cancer
* Đánh giá độ chính xác của luật.
Kết quả tập luật được sinh ra sau khi thực hiện giải thuật CPAR-GR trên bộ dữ liệu Breast Cancer cho 2 lớp là Benign và Malignant được trình bày chi tiết trong Bảng 3.10. Trong đó mỗi luật kết hợp được tạo ra với 2 đến 6 giá trị để dự đoán nhãn lớp.
Bảng 3.15 Độ chính xác của các luật trên bộ dữ liệu Breast Cancer
ST
T R
Laplace Accuracy
R1 Marginal adhesion= 5, Bland chromatin= 1, Normal nucleoli= 2 2 0.5
R2 Clump thickness= 4, Single epithelial cell size= 12 0.5
R3 Clump thickness= 1 2 0.875
R4
Clump thickness= 9, Marginal adhesion= 10, Single epithelial cell size= 10, Bare nuclei= 9, Bland chromatin= 8, Normal nucleoli= 9, Mitoses= 7 4
0.5
R6
Clump thickness= 8, Uniformity of cell size= 10, Uniformity of cell shape= 10, Marginal adhesion= 6, Bare nuclei= 8, Normal nucleoli= 10, Mitoses= 4 4
0.5
R7 Single epithelial cell size= 4 4 0.833
R8
Uniformity of cell size= 3, Bland chromatin= 5, Normal nucleoli= 3
4 0.5