Phân lớp dữ liệu sử dụng cây quyết định C4.5

Một phần của tài liệu Phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông (Trang 40)

Sau khi đưa dữ liệu vào WEKA, tại Tab Classify lựa chọn thuật toán J48, J48 trên weka là xây dựng cho thuật toán C4.5. Sau khi thực hiện lựa chọn thuật toán, sử dụng Cross Validation với Folds =10 cho bộ dữ liệu đào tạo. Chọn các tham số thiết lập cấu hình:

- minNumObj=3

- confidenceFactor=0.25

Trong đó minNumObj là số lượng tối thiểu các trường hợp tại mỗi nút và confidenceFactor là mức độ niềm tin, nếu mức độ niềm tin càng nhỏ thì cây sinh ra sẽ được cắt càng nhiều.

Thực hiện thực nghiệm lần lượt với tỷ lệ (churn /non-churn) lần lượt là 1/10, 1/2 và 1/1. Kết quả xây dựng mô hình phân lớp sử dụng cây quyết định C4.5 như sau:

Algorithms Tổng số lá Tổng số nút Tỉ lệ phân lớp đúng Tỉ lệ phân lớp sai

C 4.5 - 1/10 45 59 89.9822% 10.0178% C 4.5 - 1/2 151 187 75.8057% 24.1943% C 4.5 - 1/1 225 283 70.7978% 29.2022%

Bảng 2 - Kết quả mô hình phân lớp sử dụng C 4.5 với tỷ lệ mẫu khác nhau Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/10:

TP Rate FP Rate Precision Recall Class

0.099 0.006 0.631 0.099 CHURN

1.000 0.994 0.900 1.000 NON-CHURN

0.900 0.894 0.876 0.900 Weighted Avg. Bảng 3 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/10 Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/2:

TP Rate FP Rate Precision Recall Class

0.465 0.095 0.709 0.465 CHURN

0.905 0.535 0.772 0.905 NON-CHURN

0.758 0.388 0.751 0.758 Weighted Avg. Bảng 4 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/2

Bảng đánh giá hiệu năng với tỷ lệ mẫu 1/1:

TP Rate FP Rate Precision Recall Class

0.664 0.248 0.728 0.664 CHURN

0.752 0.336 0.691 0.752 NON-CHURN

0.708 0.292 0.710 0.708 Weighted Avg. Bảng 5 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/1

Một phần của tài liệu Phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông (Trang 40)

Tải bản đầy đủ (PDF)

(55 trang)