- Sử dụng luật kết hợp để phát hiện lỗi vòng bi [4] là công trình của nhóm tác giả
T Luật kết hợp Accuracy Laplace
1 Sớm tuổi = 2 Class = 1 0.968
2 Nghiện ma túy = 2 Class = 1 0.993
3 Học lực = 2 Class = 1 0.994
4 Hạnh kiểm = 2, Sớm tuổi = 1 Class = 1 0.984
5 Mồ côi = 1, Hút thuốc lá = 1 Class = 1 0.982
6 Nghiện ma túy = 4, Nghiện game = 4, Class
= 0 0.983
7 Vi phạm nội quy = 4, Bảo lưu = 4 Class = 0 0.985
8 Trễ tuổi = 5 Class = 0 0.995
9 Học lực = 5, Hạnh kiểm = 5 Class = 0 0.985
5.3.4. Độ chính xác phân lớp
Qua quá trình thực nghiệm trên 6 bộ dữ liệu cho thấy giải thuật CPAR-GR cho độc chính xác cao hơn trên hầu hết các bộ dữ liệu từ 0.57% đến 8% thể hiện tính hiệu quả của cải tiến
Bảng 0.4 So sánh độ chính xác của CPAR và
CPAR-GR (%)
Bộ dữ liệu CPAR CPAR-
GR Breast Cancer 95.7 95.13 Breast Cancer 95.7 95.13 Cleve 82.84 86.8 Hepatitis 77.92 79.22 Heart 87.04 87.04 Pima 78.52 82.55 Mushroom 85.23 93.43 Học sinh 87.4 87.61 Average accuracy(%) 84.21 87.43
Hình 0.2 Biểu đồ độ chính xác phân lớp của
giải thuật CPAR và CPAR-GR.
0 20 40 60 80 100 120 B I Ể U Đ Ồ Đ Ộ C H Í N H X Á C P H Â N L Ớ P CPAR CPAR-GR
với các bộ GSR – Decay_Factor khi thay đổi từ 0.6- 1/3 sang 0.99 – 2/3 thì hệ số GSR – Decay_Factor quá nhỏ dẫn đến việc thực hiện lặp xảy ra nhiều lần hơn. So dánh giữa CPAR và CPAR-GR thì CPAR-GR đã được cải tiến nhưng lại sử dụng tài nguyên và thời gian thực hiện nhìn chung nhiều hơn, đổi lại độ chính xác phân lớp của CPAR-GR trên hầu hết các bộ dữ liệu là cao hơn.
Trong thời gian tới chúng tôi tập trung áp dụng có hiệu quả các phương pháp tiền xử lý
dữ liệu, thu giảm số chiều của tập dữ liệu. Khắc phục tình trạng có một số ít trường hợp luật kết hợp sinh ra vế điều kiện có một thuộc tính. Tiến hành thu thập thêm các bộ dữ liệu trong lĩnh vực quản lý học sinh cũng như các lĩnh vực khác nhằm củng cố bằng thực nghiệm tính ưu việt sau khi được cải tiến của thuật toán CPAR-GR.
TÀI LIỆU THAM KHẢO
[1] V. T. N. Châu, “Luật kết hợp,” trong Giáo trình khai phá dữ liệu, Đại học Quốc gia Tp. Hồ Chí Minh, 2012, p. 11.
[2] N. Kaoungku, K. Suksut, R. Chanklan, K. Kerdprasop và N. Kerdprasop, Data Classification Based on Feature Selection with Association Rule Mining, Hong Kong: International MultiConference of Engineers and Computer Scientists , 2017.
[3] S. Sulova, Association Rule Mining for Improvement of IT Project Management, TEM Journal. Volume 7, Issue 4, 2018, pp. 717-722.
[4] Y. Li, J. Wang, L. Duan, T. Bai, X. Wang, Y. Zhang và G. Qin, Association Rule- Based Feature Mining for Automated Fault Diagnosis of Rolling Bearing, Hindawi, 2019.
[5] X. Yin, J. Han và Jiawei, trong CPAR: Classification based on Predictive Association
Rules, Proc. 3rd SIAM International Conference on Data Mining, 2003, pp. 331-335.
[6] M. Nandhini và S. N. Sivanandam, An improved predictive association rule based classifier using gain ratio and T-test for health care data diagnosis, Tamil Nadu,India: Sadhan Indian Academy of Sciences, 2015.
[7] "Machine Learning Repository," University of California, [Online]. Available: https://archive.ics.uci.edu/ml/index.php.
Tác giả chịu trách nhiệm bài viết:
Họ tên: Nguyễn Văn Chiến
Đơn vị: Trường ĐH Sư phạm Kỹ Thuật Tp.Hồ Chí Minh
Điện thoại: 0973422537
Email: nguyenvanchien12@gmail.com
Tp. HCM, ngày 22 tháng 12 năm 2020
Xác nhận của giảng viên hướng dẫn
(Ký & ghi rõ họ tên)