Thực nghiệm với tập dữ liệu D1

Tập dữ liệu ựầu vào ựược sử dụng ựể thực nghiệm các kỹ thuật khai phá dữ liệu là tập dữ liệu ựã ựược tiền xử lý trong chương 3 (D1).

Tập dữ liệu bao gồm 32,376 bản ghi, mỗi bản ghi gồm 18 thuộc tắnh và thuộc tắnh lớp. Số lớp của tập dữ liệu là 05 lớp như A, B, C, D và E ựược phân bố không

ựồng ựều như sau: lớp A có 29,072 bản ghi chiếm 89.80% trên tổng số bản ghi của tập dữ liệu, lớp B có 2,411 bản ghi chiếm 7.45% trên tổng số bản ghi của tập dữ liệu, lớp C có 156 bản ghi chiếm 0.48% trên tổng số bản ghi của tập dữ liệu, lớp D có 201 bản ghi chiếm 0.62 % trên tổng số bản ghi của tập dữ liệu và lớp E có 536 bản ghi chiếm 1.65% trên tổng số bản ghi của tập dữ liệu.

Thực nghiệm với C = 2, G = 0.6

Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 ựể dựựoán rủi ro tắn dụng kết quả thu ựược như sau:

Ớ Số mẫu phân lớp ựúng là 29,872 chiếm 92.2659 %

Ớ Số mẫu phân lớp sai là 2,504 chiếm 7.7341 % Một sốựộựo ựối với từng lớp thu ựược như sau:

Bảng 6.1 - Một sốựộựo dựựoán rủi ro tắn dụng bằng SVM (tập dữ liệu D1).

Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class

0.988 0.639 0.932 0.988 0.959 0.674 A 0.342 0.01 0.736 0.342 0.467 0.666 B 0.254 0.001 0.662 0.254 0.367 0.626 D 0.276 0 0.741 0.276 0.402 0.638 C 0.425 0.002 0.803 0.425 0.556 0.712 E Ma trận Confusion như sau : Bảng 6.2 - Ma trận confusion dựựoán rủi ro tắn dụng bằng SVM (tập dữ liệu D1). a b c d e <-- classified as 28726 271 20 12 43 a = A 1566 824 5 3 13 b = B 143 7 51 0 0 c = D 106 6 1 43 0 d = C 297 11 0 0 228 e = E

6.3.3. Thực nghiệm với tập dữ liệu ựược hợp nhất lớp (D2)

Tập dữ liệu này gồm 02 lớp là A_B và C_D_E ựược phân bố như sau: lớp A_B có 31,483 bản ghi chiếm 97.25% trên tổng số bản ghi của tập dữ liệu D2, lớp C_D_E có 893 bản ghi chiếm 2.75% trên tổng số bản ghi của tập dữ liệu D2.

Thực nghiệm với C =2, G = 0.6

Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 ựể dựựoán rủi ro tắn dụng kết quả thu ựược như sau:

Ớ Số mẫu phân lớp ựúng là 31,720 chiếm 97.9738 %

Ớ Số mẫu phân lớp sai là 656 chiếm 2.0262 % Một sốựộựo ựối với từng lớp thu ựược như sau:

Bảng 6.3 Ờ Một sốựộựo dựựoán rủi ro tắn dụng bằng SVM (tập dữ liệu D2). Tỷ lệ TP Tỷ lệ FP Precision Recall F-Measure ROC Area Class

0.997 0.634 0.982 0.997 0.99 0.682 A_B 0.366 0.003 0.784 0.366 0.499 0.682 C_D_E Ma trận Confusion như sau : Bảng 6.4 Ờ Ma trận confusion dựựoán rủi ro tắn dụng bằng SVM (tập dữ liệu D2). a b <-- classified as 31393 90 a = A_B 566 327 b = C_D_E

6.4. đánh giá kết quả dựựoán rủi ro tắn dụng bằng SVM

Tập dữ liệu của bài toán bao gồm 05 lớp là A, B, C, D và E. Trong ựó, lớp A và B là các lớp chiếm ựa số trong tập dữ liệu và lớp C, D và E là các nhóm nợ xấu và chiếm thiểu số trong tập dữ liệu. Trong dựựoán rủi ro tắn dụng, những dựựoán của các nhóm nợ xấu (lớp C, D và E) là quan trọng. Vì vậy ựể thuận lợi trong việc ựánh giá các kỹ thuật khai phá dữ liệu ựối với bài toán, tôi sẽ sử dụng các ựộ ựo trung bình của các ựộựo của lớp A, B và C, D, E. Ta ựặt các ựộựo trung bình của các ựộựo 02 lớp A và B là các ựộựo trung bình lớp I (vắ dụ F-MeasureI) và các ựộ ựo trung bình của các

ựộ ựo 03 lớp C, D và E là các ựộ ựo trung bình lớp II (vắ dụ F-MeasureII). Tôi sẽ sử

dụng ựộ phân lớp chắnh xác và các ựộựo Recall, F-Measure và ROC Area ựể ựánh giá kỹ thuật khai phá dữ liệu.

Các kết quả thử nghiệm trong phần 6.3 ựược tóm tắt trong bảng sau:

Bảng 6.5 - So sánh các kết quả dựựoán rủi ro tắn dụng sử dụng SVM. Tỷ lệ dự ựoán chắnh xác % RecallI F- MeasureI ROC AreaI RecallII F- MeasureII ROC AreaII P1 92.2659 0.665 0.713 0.67 0.3183 0.4417 0.6587 P3 97.9738 0.997 0.99 0.682 0.366 0.499 0.682 Trong ựó, P1 Ờ sử dụng SVM dựựoán rủi ro tắn dụng trên tập dữ liệu D1 P2 Ờ sử dụng SVM dựựoán rủi ro tắn dụng trên tập dữ liệu D2

Bộ phân lớp ựược xây dựng dựa trên tập dữ liệu ựược hợp nhất lớp tốt hơn rất nhiều so với bộ phân lớp ựược xây dựng dựa trên tập dữ liệu có 05 lớp. Cụ thể là: ựộ

chắnh xác phân loại tăng là 5.7079%, ựộ ựo Recall trung bình của nhóm I tăng lên là 0.332%, ựộựo F-Measure trung bình của nhóm I tăng lên là 0.277%, ựộựo ROC Area trung bình của nhóm I tăng lên là 0.012%, ựộ ựo Recall trung bình của nhóm II tăng lên là 0.0477%, ựộ ựo F-Measure trung bình của nhóm II tăng lên là 0.0573%, ựộ ựo ROC Area trung bình của nhóm II tăng lên là 0.0233%.

Như vậy rõ ràng bộ phân lớp SVM ựược sử dụng ựể dựựoán rủi ro tắn dụng ựối với bài toán có 02 lớp sẽ tốt hơn rất nhiều ựối với bài toán 05 lớp. Vì vậy trong những trường hợp cụ thể bài toán dựựoán rủi ro tắn dụng sử dụng SVM nên ựược xem xét chỉ ựối với 02 lớp.

CHƯƠNG 7 - đÁNH GIÁ CÁC KỸ THUẬT đỐI VỚI BÀI

TOÁN DỰ đOÁN RỦI RO TÍN DỤNG

Kết quả dự ựoán rủi ro tắn dụng ựược thực hiện tại các chương 4, 5 và 6 ựược tóm tắt trong bảng sau: Bảng 7.1 Ờ Tóm tắt kết quả dựựoán rủi ro tắn dụng bằng các kỹ thuật DM. Tập dữ liệu D1 Tập dữ liệu D2 C4.5 CBA SVM C4.5 CBA SVM độ chắnh xác % 91.2188 88.3 92.2659 97.7236 97.21 97.9738 REI 0.6745 0.618 0.665 0.993 0.999 0.997 FI 0.703 0.678 0.713 0.998 0.992 0.99 REII 0.3767 0.293 0.3183 0.409 0.439 0.366 FII 0.4607 0.452 0.4417 0.498 0.608 0.499 Trong ựó C4.5 là kỹ thuật khai phá dữ liệu cây quyết ựịnh ựược nghiên cứu trong chương 4. CBA là kỹ thuật khai phá dữ liệu quy nạp luật ựược ựề cập ở chương 5 và SVM là kỹ thuật khai phá dữ liệu SVM trong chương 6. FI là ựộ ựo F-Measure trung bình của nhóm lớp I (lớp A và B) hoặc của lớp hợp nhất A_B, REI là ựộ ựo Recall trung bình của nhóm lớp I (lớp A và B) hoặc của lớp hợp nhất A_B, FII là ựộ ựo F-Measure trung bình của nhóm lớp II (lớp C, D và E) hoặc của lớp hợp nhất C_D_E, REII là ựộựo Recall trung bình của nhóm lớp II (lớp C, D và E) hoặc của lớp hợp nhất C_D_E. Kết quả trong bảng trên là kết quả tốt nhất của mỗi kỹ thuật trong các thử nghiệm.

Các kết quả kiểm tra này ựều ựược thực hiện bằng phương pháp kiểm tra chéo (Cross Validation) với Fold là 10.

Như vậy ựộ chắnh xác dựựoán của kỹ thuật khai phá dữ liệu SVM luôn cao hơn kỹ thuật cây quyết ựịnh C4.5 và kỹ thuật phân lớp quy nạp luật CBA. Trong ba kỹ

thuật này thì CBA thu ựược kết quả dựựoán chắnh xác thấp nhất.

Các kỹ thuật khai phá dữ liệu nếu ựược áp dụng ựối với bài toán có số lớp ắt (02 lớp) thì kết quả dựựoán chắnh xác là rất cao. Vì vậy các bài toán dựựoán cần xem xét việc ựưa bài toán có nhiều lớp về bài toán có số lớp ắt hơn.

Mặc dù kỹ thuật SVM luôn mang lại tỷ lệ dự ựoán chắnh xác cao hơn hai kỹ

thuật C4.5 và CBA. Tuy nhiên bộ phân lớp của SVM thu ựược là mô hình học máy không tường minh ựối với người sử dụng. Vì vậy bộ phân lớp do SVM ựược sinh ra như một hộp ựen ựối với các chuyên gia trong việc ựánh giá mô hình dựa vào phân tắch nghiệp vụ. Mặt khác với mô hình học máy sẽ gây ra các khó khăn trong quá trình tắch hợp vào các hệ thống khác trong thực tế. Hai kỹ thuật C4.5 và CBA luôn có tỷ lệ

dự ựoán chắnh xác thấp hơn so với kỹ thuật SVM nhưng bộ phân lớp thu ựược dưới dạng cây quyết ựịnh (C4.5) hoặc tập luật (CBA). điều này sẽ tường minh cho các chuyên gia phân tắch các luật ựể có thểựánh giá và lựa chọn luật hữu ắch áp dụng trong thực tế và có thể sử dụng tập luật ựược ựánh giá tốt ựể cài ựặt trong các hệ thống khác.

KẾT LUẬN

Kết quảựạt ựược

Qua thời gian nghiên cứu và thực nghiệm, luận văn ựã ựóng góp ựược những vấn ựề sau:

Ớ Giúp người ựọc hiểu ựược những khái niệm cơ bản về khai phá tri thức từ

dữ liệu và khai phá dữ liệu.

Ớ Trình bày và ựưa ra các ựặc ựiểm cơ bản của các kỹ thuật cây quyết ựịnh (C4.5), phân lớp bằng phương pháp quy nạp luật (CBA) và Vector Hỗ trợ

Máy (SVM).

Ớ Thử nghiệm các kỹ thuật khai phá dữ liệu C4.5, CBA, SVM ựối với bài toán dựựoán rủi ro tắn dụng có tập dữ liệu không cân bằng.

Ớ Thử nghiệm cải tiến các kỹ thuật bằng phương pháp hợp nhất lớp dữ liệu.

Ớ đánh giá và so sánh các kỹ thuật khai phá dữ liệu ựối với bài toán dữựoán rủi ro tắn dụng.

Ớ Phân tắch và ựưa ra những tri thức mới của bài toán dựựoán rủi ro tắn dụng từ kỹ thuật khai phá dữ liệu C4.5 và CBA.

Hướng phát triển

Ớ Thử nghiệm một số giải pháp nhằm cải tiến các kỹ thuật ựối với tập dữ liệu không cân bằng.

Ớ Tìm hiểu và sử dụng một số ựộ ựo ựể ựánh giá chất lượng của các bộ phân lớp ựược sinh ra.

Ớ Thử nghiệm một số kỹ thuật khái phá dữ liệu khác ựối với bài toán dựựoán rủi ro tắn dụng ựểứng dụng trong thực tế.

Ớ Ứng dụng các kỹ thuật khai phá dữ liệu trong luận văn này cho các bài toán trong thực tế như: phát hiện giao dịch gian lận trong hoạt ựộng ngân hàng, phát hiện các giao dịch rửa tiền,Ầ

TÀI LIỆU THAM KHẢO Việt Nam [1] http://www.vnexpress.net/GL/Kinh-doanh/2005/08/3B9E14B9/ [2] http://www.vietinbank.vn/vbcd.php?id=06640 [3] http://www.vietinbank.vn/?id=08687&page=3&sheet=1&c=476&m=475 Nước ngoài

[4] Aniruddha J. Joshi. Mining Biomedical Signals, pp.20-21.

[5] B.E. Boser, I. Guyon, and V. Vapnik (1992), ỘA training algorithm for optimal

margin classifiersỢ, In Proceedings of the Fifth Annual Workshop on Computational Learning Theory, pp. 144-152. ACM Press.

[6] Bing Liu, Wynne Hsu, Yiming Ma (1998), "Integrating Classification and

Association Rule Mining." Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD-98, Plenary Presentation),

New York, USA.

[7] Chris Drummond and Robert C. Holte, C4.5, Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling.

[8] C. Cortes and V. Vapnik (1995), Support-vector network. Machine Learning,

20:273-294.

[9] Daniel T. Larose, Discovering Knowledge in Data.

[10] D. Hand, H. Mannila and P. Smyth (2001), Principles of Data Mining, The MIT Press,. London, England.

[11] David Hand, Heikki Mannila and Padhraic Smyth. Principles of Data mining. [12] Dorian Pyle. Data preparation for Data Mining.

[13] Dunham, M.H, Data Mining. Introductory and Advanced Topics, Prentice Hall, 2003.

[14] D. Pyle (2003), Business Modeling and Data Mining, Morgan Kaufmann Publishers, San Francisco, CA.

[15] E. Osuna, R. Freund, and F. Girosi (1997), Support vector machines: Training

and applications, AI Memo 1602, Massachusetts Institute of Technology.

[16] Goharian & Grossman, Data Preprocessing.

[17] Ho, T.B., Nguyen, D.D., Kawasaki, S. (2001), ỘMining Prediction Rules from

Minority ClassesỢ, 14th International Conference on Applications of Prolog (INAP2001), International Workshop Rule-Based Data Mining RBDM 2001,

[18] Ho, T.B., Kawasaki, S., Nguyen, D.D. (2001), ỘExtracting Predictive Knowledge from Meningitis Data by Integration of Rule Induction and Association MiningỢ,

International Workshop Challenge in KDD, 22 May, Shimane, Japan, 25-32,

Lecture Notes in Artificial Intelligence 2253, Springer 2001, 508-515.

[19] Ho, T.B., Nguyen, D.D., Kawasaki, S. (2002), ỘLearning Minority Classes in

Unbalanced DatasetsỢ, Third International Conference on Parallel and Distributed Computing, Kanazawa, September 3-6, 196-203.

[20] Ho, T.B., Nguyen, D.D. (2003), ỘChance Discovery and Learning Minority

ClassesỢ, Journal of New Generation Computing, Ohmsha, Ltd. and Springer-

Verlag, Vol. 21, No. 2, 147-160.

[21] Ian H.Witten & Eibe Frank, Data mining, Practical Machine Learning Tools and

Techniques.

[22] J. Mena (2003), ỘInvestigative Data Mining for Security and Criminal DetectionỢ,

Butterworth Heinemann, New York, NY.

[23] J. R. Quinlan (2006). Bagging, Boosting, and C4.5.

[24] J. R. Quinlan (1996), Improved Use of Continuous Attributes in C4.5.

[25] Keerthi, S. S. and C.-J. Lin (2003). Asymptotic behaviors of support vector machines with Gaussian kernel. Neural Computation 15 (7), 1667Ờ1689.

[26] Nguyen, T.D., Ho, T.B., Nguyen, D.D. (2002), ỘData and Knowledge

Visualization in the Knowledge Discovery ProcessỢ, 5th International Conference Recent Advances in Visual Information Systems, Taiwan, 11-13

March, Lecture Note in Computer Science 2314, Springer, 311-321.

[27] Nguyen, D.D., Ho, T.B. (2006), ỘA Bottom-up Method for Simplifying Support

Vector SolutionsỢ, IEEE Transactions on Neural Networks, Vol.17, No. 3, 792-

796.

[28] Nguyen, D.D., Ho, T.B. (2005), ỘAn Efficient Method for Simplifying Support

Vector MachinesỢ, The 22th International Conference on Machine Learning, ICML 2005, Bonn, 7-11 August, 2005, 617-624.

[29] Nguyen, D.D., Ho, T.B. (2005), ỘSpeeding-up Model Selection for Support

Vector MachinesỢ, 18th International Conference of Florida Artificial Intelligence Research Society FLAIRS, Florida, 16-18 May, 2005.

[30] Osmar R. Zaiane, Principles of Knowledge Discovery in Databases, Chapter 1-

Introduction to Data Mining.

[31] O. P. Rud (2001), Data Mining Cookbook Ờ Modeling Data for Marketing, Risk

and Customer Relationship Management, John Wiley & Sons, New York, NY.

[32] Peter Flach and Nada Lavrac, Rule Induction.

[33] Quinlan, J. C4.5. In Programs for Machine Learning, Series in Machine Learning, Morgan Kaufmann, 1997.

[35] R. Mattison (1997), Data Warehousing and Data Mining for Telecommunications, Norwood, MA.

[36] R. Agrawal, R. Srikant (1994), ỘFast Algorithms for Mining Association Rules in

Large Databases.Ợ, In: 20th International Conference on Very Large Data Bases,

pp.478-499.

[37] R. Kohavi (1995), Wrappers for Performance Enhancement and Oblivious

Decision Graphs, Department of Computer Science, Stanford University.

[38] S. Sumathi, S.N. Suvanandam, Introduction to Data Mining and Its Applications. [39] S. Knerr, L. Personnaz, and G. Dreyfus (1990), Single-layer learning revisited: a

stepwise procedure for building and training a neural network. In J. Fogelman, editor, Neurocomputing: Algorithms, Architectures and Applications. Springer- Verlag.

[40] T. M. Mitchell (1997), Machine Learning. McGraw-Hill. [41] Tom M. Mitchell, Machine learning, pp.74.

[42] TuBao Ho, Data Preprocessing.

[43] Xin Lu, Barbara Di Eugenio and Stellan Ohlsson, Learning Tutorial Rules Using Classification Based On Associations.

[44] Yanmin Sun. Cost-Sensitive Boosting for Classification of Imbalanced Data, 2007.

[45] Yoav Freund, Robert E. Schapire (1996), ỘExperiments with a new boosting

algorithmỢ, In: Thirteenth International Conference on Machine Learning, San

Francisco, 148-156, 1996.

Giới thiệu Support Vector Machine