3.3.1.3. Trích chọn thuộc tính
Với các thuộc tính như Tên khách hàng, Giới tính, Địa chỉ, Điện thoại chúng ta khơng dùng để khai phá vì đây là thuộc tính mang tính đơn lẻ và cá nhân hóa, khơng được ứng dụng nhiều trong trường hợp này.
3.3.2. Thực nghiệm với thuật toán C4.5 và Naive Bayes trên Rapid miner
a. Thuật toán C4.5 Bước 1: Nạp dữ liệu
*Khởi động RapidMiner
*Add Data: chọn tệp dữ liệu KH.csv trong máy tính
Hình 17. Tập dữ liệu chạy thuật toán trên Rapidminer
Bước 2: Lựa chọn làm nhãn (Set Role)
Lựa chọn các thuộc tính quyết định của mơ hình (nhãn) *Operators: Select Attributes: Names & Roles *Parameter: Attribute name: QUYET DINH * Parameter: target role: label
Bước 3: Lựa chọn các thuộc tính tham gia mơ hình
Lựa chọn các thuộc tính có ý nghĩa và phù hợp với bài tốn tham gia vào mơ hình. *Operators: Select Attributes
*Parameter: subset: chọn tất cả các thuộc tính trong tập dữ liệu KH.csv trừ thuộc tính QUYET DINH.
Bước 4: Kiểm thử mơ hình: Xây dựng bước kiểm thử hiệu quả mơ hình
*Validation: Split-Validation
*Parameter: number of validation: 10 (kiểm thử 10 folds)
*Lựa chọn phương pháp phân lớp: Sử dụng giải thuật cây quyết định để phân lớp
dữ liệu
- Modeling: Decision Tree
- Parameter: Criterion: Gain Ratio
*Ứng dụng mơ hình
Lớp được dự đốn bởi mơ hình
_________Positive_________ _________Negative_________
Positive TP FP
Negative FN TN
Khóa luận tốt nghiệp
-Scoring: Apply Model
*Đánh giá hiệu quả mơ hình: Đánh giá hiệu quả mơ hình bằng các độ đo hồi tưởng
và chính xác
Ta có mơ hình vừa xây dựng:
Hình 18. Mơ hình chạy thuật tốn C4.5 trên RapidMiner
b. Thuật toán Naive Bayes Bước 1: Nạp dữ liệu
*Khởi động RapidMiner
*Add Data: chọn tệp dữ liệu KH.csv trong máy tính
*Tạo một Process mới, đưa tệp dữ liệu KH.csv vào mơ hình. Bước 2: Lựa chọn làm nhãn (Set Role)
Lựa chọn các thuộc tính quyết định của mơ hình (nhãn) *Operators: Select Attributes: Names & Roles *Parameter: Attribute name: QUYET DINH * Parameter: target role: label
Bước 3: Lựa chọn các thuộc tính tham gia mơ hình
Lựa chọn các thuộc tính có ý nghĩa và phù hợp với bài tốn tham gia vào mơ hình. *Operators: Select Attributes
*Parameter: subset: chọn tất cả các thuộc tính trong tập dữ liệu KH.csv trừ thuộc tính QUYET DINH.
Bước 4: Kiểm thử mơ hình: Xây dựng bước kiểm thử hiệu quả mơ hình
Khóa luận tốt nghiệp
^Validation: Validation
^Parameter: number of validation: 10 (kiểm thử 10 folds)
*Lựa chọn phương pháp phân lớp:
- Modeling: Naive Bayes
*Ứng dụng mơ hình
-Scoring: Apply Model
*Đánh giá hiệu quả mơ hình: Đánh giá hiệu quả mơ hình bằng các độ đo hồi tưởng
và chính xác
Ta có mơ hình vừa xây dựng:
Hình 19. Mơ hình chạy thuật tốn Naive Bayes trên Rapid Miner
3.4. Kết quả
Để đánh giá độ chính xác của mơ hình phân lớp nói chung và 2 thuật tốn trên nói riêng, ta xác định các giá trị của ma trận sau:
TP + FP TP
TP + FN
accuracy: 88.57%
true KHONG true CO class precision
pred KHONG 1154 94 9247%
pred. CO 61 47 43.52%
class recall 94.98% 33.33%