Thực nghiệm giải thuật trên bộ dữ liệu Breast cancer [23] * Thông tin chi tiết về tập dữ liệu Breast cancer:

Một phần của tài liệu Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh (Trang 78 - 80)

- Giai đoạn 4: Đánh giá độ chính xác của phân lớp.

3.4.1.Thực nghiệm giải thuật trên bộ dữ liệu Breast cancer [23] * Thông tin chi tiết về tập dữ liệu Breast cancer:

* Thông tin chi tiết về tập dữ liệu Breast cancer:

 Số Tuple: 699.  Số thuộc tính: 9

 Giá trị khuyết thiếu: có

Thông tin về các thuộc tính:

1. Clump Thickness: 1 - 10 2. Uniformity of Cell Size: 1 - 10 3. Uniformity of Cell Shape: 1 - 10 4. Marginal Adhesion: 1 - 10

5. Single Epithelial Cell Size: 1 - 10 6. Bare Nuclei: 1 - 10

7. Bland Chromatin: 1 - 10 8. Normal Nucleoli: 1 - 10 9. Mitoses: 1 - 10

Sau khi tiến hành giảm số chiều của tập dữ liệu bằng phương pháp T-Test sử dụng chức năng Mattest trong MATLAB 7.0.1 thì thuộc tính Sample code number bị loại bỏ, như vậy bộ dữ liệu còn lại 9 thuộc tính được trích xuất như Hình 3.9

Hình 3.4 Minh họa tập dữ liệu Breast cancer

* Đánh giá độ chính xác của luật.

Kết quả tập luật được sinh ra sau khi thực hiện giải thuật CPAR-GR trên bộ dữ liệu Breast Cancer cho 2 lớp là Benign và Malignant được trình bày chi tiết trong Bảng 3.10. Trong đó mỗi luật kết hợp được tạo ra với 2 đến 6 giá trị để dự đoán nhãn lớp.

Bảng 3.15 Độ chính xác của các luật trên bộ dữ liệu Breast Cancer

ST

T R

Laplace Accuracy

R1 Marginal adhesion= 5, Bland chromatin= 1, Normal nucleoli= 2  2 0.5

R2 Clump thickness= 4, Single epithelial cell size= 12 0.5

R3 Clump thickness= 1 2 0.875

R4

Clump thickness= 9, Marginal adhesion= 10, Single epithelial cell size= 10, Bare nuclei= 9, Bland chromatin= 8, Normal nucleoli= 9, Mitoses= 7  4

0.5

R6

Clump thickness= 8, Uniformity of cell size= 10, Uniformity of cell shape= 10, Marginal adhesion= 6, Bare nuclei= 8, Normal nucleoli= 10, Mitoses= 4 4

0.5

R7 Single epithelial cell size= 4  4 0.833

R8

Uniformity of cell size= 3, Bland chromatin= 5, Normal nucleoli= 3

 4 0.5

Một phần của tài liệu Ứng dụng thuật toán phân lớp dựa trên luật kết hợp dự báo vào giải bài toán dự báo tình hình nghỉ bỏ học của học sinh trung học trên địa bàn thành phố hồ chí minh (Trang 78 - 80)