CHƢƠNG 3 : THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK
3.13. Đánh giá mơ hình
So sánh kết quả các lần chạy giữa 2 thuật tốn
3.13.1.
Hình 3.13.1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes
73,20% 73,30% 73,40% 73,50% 73,60% 73,70% 73,80% 73,90% 74,00% 55/45 66/34 70/30 85/15 90/10 73,93% 73,95% 73,92% 73,95% 73,48% Tỷ lệ phân lớp đúng 82,00% 81,97% 81,90% 81,83% 81,44% 73,93% 73,95% 73,92% 73,95% 73,48% 68,00% 70,00% 72,00% 74,00% 76,00% 78,00% 80,00% 82,00% 84,00% 55/45 66/34 70/30 85/15 90/10
Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes
Tất cả các thí nghiệm được tiến hành với cùng một bộ dữ liệu, từ các lần chạy thực nghiệm của J48 và Naive Bayes trên Weka ta đã chọn được tỷ lệ hợp lý nhất cho 2 thuật tốn:
+ J48 lựa chọn tỷ lệ huấn luyện 82%.
+ Naive Bayes chọn tỷ lệ huấn luyện 73,95%.
Từ các lần chạy thử, nhận thấy tỉ lệ thực hiện của J48 luơn cao hơn Naive Bayes, thuật tốn J48 cĩ hiệu quả phân lớp đúng đạt 82,00 %, lớp sai 18,00 % Trong khi Naive Bayes lớp đúng đạt 73,95 %, sai bằng 26,15 %. Như vậy thuật tốn J48 là lựa chọn phù hợp nhất & tỷ lệ dữ liệu tập huấn phù hợp nhất là 55%.
Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất
3.13.2.
Lần chạy đạt tỷ lệ phân lớp đúng cao nhất:
Giải thuật: J48
Tỷ lệ dữ liệu huấn luyện: 55% Mơ hình cây quyết định được xây dựng:
Cây quyết định kích cỡ: 63
Số lượng lá: 57
Bảng thơng số kết quả chạy thuật tốn:
Hình 3.13.2: kết quả lần chạy phù hợp nhất J48
Ý nghĩa các giá trị quan trọng:
TP=TP/(TP+FN) Example:
TP(a)=291/(291+ 1820)=0.138
FPrate (tỷ lệ mẫu tích cực sai): Thấp. FP=FP/(FP + TN)
Example:
FP(a)=0/(0+7982)=0
FP(b)=1820/(1820 + 291)=0.862
Precision (Giá trị dự đốn mẫu tích cực đúng): Cao. Precision= TP / (TP + FP)
Recall (Giá trị biểu diễn tỷ lệ mẫu cần thực hiện lại): Cao.
F- measure: Biểu diễn trung bình điều hịa giữa recall và precision F-measure = 2TP / (2TP + FP + FN)
Confusion Matrix - Ma trận sự nhầm lẫn:
Dây là một ma trận vuơng với kích thước mỗi chiều bằng số lượng lớp dữ liệu (Giá trị tại hàng thứ 2, cột thứ a là số lượng điểm lẽ ra thuộc vào lớp a nhưng lại được dự đốn là thuộc vào lớp b). Nhìn vào bảng ma trận trên, ta cĩ thể thấy được dữ liệu thu thập dịng b (Xấu) cột a (Tốt) cĩ 04 lớp cĩ khả nghi xếp nhầm.
Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55%
3.13.3.
Lần chạy đạt tỷ lệ phân lớp đúng cao nhất:
Giải thuật: Navie bayes
Bảng thơng số kết quả chạy thuật tốn
Hình 3.13.3: kết quả lần chạy phù hợp nhất Navie Bayes
3.14. Triển khai tích hợp hệ thống Khai phá dữ liệu
Weka ngồi cung cấp ứng dụng chạy độc lập, cịn cung cấp cả API để các doanh nghiệp cĩ thể tích hợp vào ứng dụng của mình.
Trong luận văn này, tác giả thực nghiệm tích hợp Weka API vào hệ thống Portal: “Khảo sát tín dụng 360o” của Ngân hàng Vietinbank
Màn hình chức năng
Màn hình giao diện
Hình 3.14.2: Màn hình giao diện
Màn hình kết quả chạy với J48