Nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng

ðẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ðẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TOÀN NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHO BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG LUẬN VĂN THẠC SĨ Hà Nội - 2008 ðẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ðẠI HỌC CÔNG NGHỆ Nguyễn Văn Toàn NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHO BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG Ngành: Cơng nghệ thơng tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn ðức Dũng Hà nội - 2008 MỤC LỤC MỞ ðẦU .5 CHƯƠNG - TỔNG QUAN KHAI PHÁ TRI THỨC TỪ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 12 1.1 1.2 1.3 1.4 Giới thiệu khai phá tri thức từ liệu khai phá liệu 12 Nhiệm vụ(task) khai phá liệu 15 ðánh giá mô hình dự đốn 16 Ứng dụng KDD Datamining 18 CHƯƠNG - BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG 21 2.1 Bài tốn dự đốn rủi ro tín dụng 21 2.2 Thông tin khoản vay 22 2.2.1 Thông tin khách hàng vay vốn 22 2.2.2 Thông tin phương án sản xuất kinh doanh 23 2.2.3 Thơng tin liên quan đến tài sản bảo đảm (TSBD) 24 2.2.4 Thông tin khác 24 2.3 Dữ liệu sử dụng cho toán 24 CHƯƠNG - XỬ LÝ DỮ LIỆU DỰ ðỐN RỦI RO TÍN DỤNG 25 3.1 Tiền xử lý liệu 25 3.1.1 Công việc tiền xử lý liệu 25 3.1.2 Tiền xử lý liệu dự đốn rủi ro tín dụng 30 3.2 Phương pháp lấy mẫu liệu (Data sampling) 35 3.2.1 Phương pháp lấy mẫu liệu 35 3.2.2 Lấy mẫu lên (Oversampling) 35 3.2.3 Lấy mẫu xuống (undersampling) 36 3.2.4 Kết hợp hai chiến lược 36 3.3 Hợp lớp tập liệu (Data merged) 36 CHƯƠNG - DỰ ðOÁN RỦI RO TÍN DỤNG SỬ DỤNG 38 CÂY QUYẾT ðỊNH (C4.5) 38 4.1 Giới thiệu ñịnh 38 4.1.1 Khái niệm 38 4.1.2 Các loại ñịnh 38 4.1.3 Ví dụ thực hành 39 4.1.4 Xây dựng ñịnh 40 4.2 Thuật tốn C4.5 đặc ñiểm ñịnh 41 4.2.1 Thuật toán C4.5 [17] 41 4.2.2 So sánh C4.5 với phiên khác 45 4.2.3 ðặc ñiểm ñịnh 46 4.3 Dự đốn rủi ro tín dụng sử dụng định (C4.5) 46 4.4 ðánh giá kết dự đốn rủi ro tín dụng sử dụng ñịnh (C4.5) 52 CHƯƠNG - DỰ ðỐN RỦI RO TÍN DỤNG SỬ DỤNG PHƯƠNG PHÁP QUY NẠP LUẬT 58 5.1 Giới thiệu 58 5.2 Thuật toán CBA 59 5.3 Dự đốn rủi ro tín dụng CBA 65 5.4 ðánh giá kết dự đốn rủi ro tín dụng 67 CHƯƠNG - DỰ ðOÁN RỦI RO TÍN DỤNG SỬ DỤNG SUPPORT VECTOR MACHINE 71 6.1 Giới thiệu Support Vector Machine 71 6.2 ðặc ñiểm Support Vector Machine 73 6.3 Dự đốn rủi ro tín dụng Support Vector Machine 75 6.3.1 Lựa chọn tham số 75 6.3.2 Thực nghiệm với tập liệu D1 76 6.3.3 Thực nghiệm với tập liệu ñược hợp lớp (D2) 77 6.4 ðánh giá kết dự đốn rủi ro tín dụng SVM 78 CHƯƠNG - ðÁNH GIÁ CÁC KỸ THUẬT ðỐI VỚI BÀI TOÁN DỰ ðỐN RỦI RO TÍN DỤNG…… ……………………………………………………………… 79 TÀI LIỆU THAM KHẢO…………………………………………………………….82 10 BẢNG CÁC TỪ VIẾT TẮT Thuật ngữ Ý nghĩa CBA Classification Based on Association – Phân loại dựa vào kết hợp CSDL Cơ sở liệu DM Data mining (Khai phá liệu) D1 Tập liệu sau tiền xử lý D2 Tập liệu hợp lớp thành 02 lớp A_B C_D_E từ tập D1 KDD Knowledge Discovery in Database (Khai phá tri thức từ liệu) SVM Support Vector Machine (máy véc-tơ hỗ trợ) TSBD Tài sản bảo ñảm 11 BẢNG CÁC THUẬT NGỮ ANH-VIỆT Tiếng Anh Association Classification And Regression Tree – CART Classification Clustering Classification Based on Association Bucket Data mining Data cleaning Data integration Data merged Data sampling Data selection Data transformation Data reduction Data discretization Data warehouse Decision tree Description Estimation Imbalanced/Unbalanced data Knowledge Discovery in Data Knowledge representation Mean-squared error Mean absolute error Rule Induction Oversampling Pattern evaluation Prediction Prediction Model Random oversampling Relative absolute error Relative squared error Root mean-squared error Root relative squared error Synthetic Minority Oversampling Technique - SMOTE Undersampling Tiếng Việt Kết hợp Cây phân lớp hồi quy Phân lớp Phân cụm Phân loại dựa vào kết hợp Khối Khai phá liệu Làm liệu Tích hợp liệu Hợp liệu Lẫy mẫu liệu Lựa chọn liệu Biến ñổi liệu Thu gọn liệu Rời rạc hóa liệu Kho liệu Cây định Mơ tả Ước lượng Dữ liệu phân bố khơng đều/khơng cân Khai phá tri thức từ liệu Biểu diễn tri thức sai số bình phương trung bình sai số tuyệt đối trung bình Quy nạp luật Lấy mẫu lên ðánh giá mẫu Dự đốn Mơ hình dự báo Lấy mẫu lên ngẫu nhiên sai số tương ñối tuyệt ñối Sai số bình phương tương ñối Căn bậc hai sai số bình phương trung bình bậc hai sai số bình phương tương đối Kỹ thuật lấy mẫu lên lớp thiểu số nhân tạo Lấy mẫu 12 Chương - TỔNG QUAN KHAI PHÁ TRI THỨC TỪ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá tri thức từ liệu khai phá liệu Hiện có nhiều định nghĩa khai phá liệu: theo Witten [2] khai phá liệu trình khai phá mẫu liệu Quá trình phải tự động bán tự động Các mẫu khám phá phải có ý nghĩa Cịn theo Dunham[3] khai phá liệu trình tìm kiếm thơng tin ẩn chứa liệu Hay định nghĩa Roiger khai phá liệu trình tận dụng hay số kỹ thuật học máy ñể tự ñộng phân tích trích chọn tri thức từ liệu bên CSDL Tựu chung lại khai phá liệu (DM) phân tích tập liệu quan sát lớn để tìm mối liên hệ hiển nhiên tổng quát hóa liệu theo cách để hiểu có ý nghĩa cho liệu DM q trình khai phá tri thức tri thức có ích dạng tiềm nguồn liệu có DM bước trình khai phá tri thức từ liệu (KDD - Knowledge Discovery in Data Process) Quá trình KDD Quá trình khai phá tri thức từ liệu bao gồm số bước từ liệu đến tri thức Q trình bao gồm bước lặp sau [4]: Hình 1.1 – Q trình KDD • Làm liệu (Data cleaning): giai ñoạn thực việc loại bỏ liệu nhiễu, liệu không phù hợp khỏi liệu ñược sử dụng ñể khai phá tri thức 13 • Tích hợp liệu (Data integration): giai ñoạn nhiều nguồn liệu, thường hỗn hợp ñược tổng hợp vào nguồn phổ biến • Lựa chọn liệu (Data selection): bước này, liệu khơng liên quan phân tích để ñịnh giữ lại hay loại bỏ khỏi tập liệu Giai ñoạn thực việc lựa chọn trường mẫu liệu ñể thực khai phá tri thức thu kết cao • Biến ñổi liệu (Data transformation): coi hợp liệu, ñây giai ñoạn mà liệu ñược lựa chọn ñược biến ñổi vào mẫu thích hợp cho q trình khai phá • Khai phá liệu (Data mining): ñây giai ñoạn ñịnh trình khai phá tri thức từ liệu Các kỹ thuật ñược sử dụng giai ñoạn nhằm lấy mẫu hữu ích tiềm ẩn • ðánh giá mẫu (Pattern evaluation): bước này, mẫu biểu diễn tri thức hấp dẫn ñược nhận biết dựa độ đo đưa • Biểu diễn tri thức (Knowledge representation): giai ñoạn cuối trình khai phá tri thức từ liệu, nhằm biểu diễn trực quan tri thức cho người dùng Bước quan trọng sử dụng kỹ thuật trực quan ñể giúp người sử dụng hiểu biểu diễn kết khai phá liệu Thông thường số bước ñược gộp lại với Ví dụ làm liệu (data cleaning) tích hợp liệu ñược gộp với thành giai ñoạn tiền xử lý liệu (preprocessing) ñể sinh kho liệu (data warehouse) Lựa chọn liệu (data selection) biến ñổi liệu (data transformation) ñược gộp lại thành giai ñoạn hợp liệu, liệu ñược lựa chọn ñược biến ñổi ñể tạo thành tập liệu có định dạng thống KDD trình lặp Mỗi tri thức khai phá ñược biểu diễn cho người dùng, ñộ ño ñánh giá nâng cao, khai phá ñược cải tiến tương lai, liệu ñược chọn biến ñổi tương lai, nguồn liệu tích hợp nhằm thu kết khác, thích hợp Quá trình Data mining Quá trình khai phá liệu giai ñoạn khai phá tri thức CSDL Q trình phải đáng tin cậy dùng lại người dùng hiểu biết Data mining Do quy trình chuẩn cơng nghiệp Cross cho khai phá liệu (CRISP-DM: CRoss Industry Standard Process for Data mining) ñã ñược số tổ chức, công ty (SPSS/ISL, NCR, Daimler-Benz, OHRA) hợp tác phát triển công bố 14 năm 1996 CRISP tiến trình chuẩn miễn phí, sử dụng để xử lý vấn ñề khai phá liệu thương mại nghiên cứu [5] CRISP-DM vịng đời bao gồm giai đoạn, biểu diễn hình sau: Hình 1.2 – Q trình CRISP-DM • Tìm hiểu nghiệp vụ (Business understanding): ñây giai ñoạn ñầu tiên q trình chuẩn CRISP-DM, hiểu giai đoạn tìm hiểu nghiên cứu Phát biểu mục tiêu dự án yêu cầu rõ ràng phạm vi yêu cầu nghiệp vụ nghiên cứu Biến ñổi mục tiêu giới hạn vào mẫu phát biểu ñịnh nghĩa vấn ñề data mining Chuẩn bị ñưa chiến lược ñể ñạt mục tiêu • Tìm hiểu liệu (Data understanding): giai đoạn gồm cơng việc là: Tập hợp liệu Sử dụng phân tích liệu mang tính thăm dị để hiểu liệu khai phá hiểu biết ban ñầu ðánh giá chất lượng liệu 15 Nếu đề nghị lựa chọn tập hấp dẫn mà gồm mẫu hữu ích • Chuẩn bị liệu (Data preparation): chuẩn bị liệu từ dòng ban ñầu ñến tập liệu cuối ñược sử dụng giai ñoạn sau Giai ñoạn lựa chọn tình biến mà ta muốn phân tích mà liên quan đến phân tích Thực biến ñổi biến chắn, cần thiết Làm dòng liệu sẵn sàng cho cơng cụ mơ hình hóa • Mơ hình hóa (Modeling): giai đoạn bao gồm cơng việc là: Lựa chọn sử dụng kỹ thuật mơ hình hóa phù hợp Chỉnh sửa thiết lập mơ hình để tối ưu kết Nếu cần thiết, lặp lại giai ñoạn chuẩn bị liệu (preparation) ñể lấy mẫu liệu vào yêu cầu cụ thể kỹ thuật khai phá liệu • ðánh giá (Evaluation): ðánh giá chất lượng hiệu lực nhiều mô hình thực giai đoạn mơ hình hóa trước triển khai chúng cho sử dụng thực tế Xác định mơ hình thực tế thu tập mục tiêu giai ñoạn ñầu tiên hay chưa ðưa vào số khía cạnh quan trọng vấn ñề nghiệp vụ nghiên cứu mà chưa thu ñược thích đáng ði đến định sử dụng kết khai phá liệu • Triển khai (Deployment): Sử dụng mơ hình tạo: Tạo mơ hình khơng có nghĩa hồn thành dự án Thí ñiểm triển khai ñơn giản: sinh báo cáo Thí điểm triển khai phức tạp hơn: thực q trì khai phá liệu song song phận khác 1.2 Nhiệm vụ(task) khai phá liệu Một số tốn mà khai phá liệu thường thực [6]: • Mơ tả (Description) • Ước lượng (Estimation) • Dự đốn (Prediction) • Phân lớp (Classification) • Phân cụm (Clustering) • Kết hợp (Association) Bài tốn thơng dụng KPDL Phân lớp (Classification) Với tập liệu huấn luyện cho trước huấn luyện người, giải thuật phân loại học phân loại (classifier) dùng ñể phân liệu vào 70 IF PTBD = (60-70] AND TPKT = TPKT1311 AND DCKH = HYE THEN C_D_E (0.023% 100.000% 5 0.023%) • Rule 5.15: IF TPKT = TPKT1199 AND LHDN = BT1306 THEN C_D_E (0.019% 100.000% 4 0.019%) • Rule 5.16: IF HTBD = P AND TPKT = TPKT1511 AND DCKH = HPH THEN C_D_E (0.019% 100.000% 4 0.019%) Trong luật rule 5.10, 5.11, 5.12, 5.13 luật hồn tồn quen thuộc chun gia ngân hàng Còn luật rule 5.9, 5.14, 5.15 5.16 ñược xem luật có giá trị tri thức ñối với chuyên gia ngân hàng 71 CHƯƠNG - DỰ ðỐN RỦI RO TÍN DỤNG SỬ DỤNG SUPPORT VECTOR MACHINE 6.1 Giới thiệu Support Vector Machine SVM (Support Vector Machine) kỹ thuật học máy thích hợp cho phân loại hồi quy SVM xuất phát từ lý thuyết học thống kê, ñược phát triển C Cortes V Vapnik năm 1995 [30] Mục đích SVM cung cấp mơ hình để dự đốn giá trị đích mẫu liệu tập liệu kiểm tra(test) SVM ñược xây dựng dựa khái niệm mặt phẳng ñịnh hay ñường biên ñịnh Một mặt phẳng ñịnh phân tách tập ñối tượng bao gồm nhiều phần tử thành lớp khác Trong ví dụ Hình 6.1 đối tượng thuộc lớp hình trịn, lớp hình vng ðường thẳng phân chia đối tượng hình vng nằm bên phải, hình trịn nằm bên trái gọi đường định Hình 6.1 - Phân lớp tuyến tính ðây ví dụ điển hình cho việc phân lớp tuyến tính, tức đường phân lớp có dạng đường thẳng Tuy nhiên, phần lớn tốn lại khơng đơn giản vậy, cấu trúc tập đối tượng phức tạp (Hình 6.2) dẫn ñến ñường phân lớp phức tạp rõ ràng trường hợp địi hỏi phải dùng đường có nhiều đoạn cong để phân lớp Việc phân lớp cách vẽ ñường phân chia tập đối tượng thành lớp hình dung siêu phẳng phân lớp, SVM đặc biệt phù hợp cho việc giải công việc 72 Hình 6.2 – Phân lớp phi tuyến tính Hình 6.3 diễn tả cho thấy ý tưởng SVM Phần bên trái mơ tả sơ đồ tập đối tượng ban đầu (phía bên trái - khơng gian ñầu vào) Sử dụng số hàm toán học, ñược biết hàm nhân, ñể xếp lại ñối tượng giống phép ánh xạ hay cịn gọi phép biến đổi Trong tập đối tượng mới, đối tượng (phía bên phải) phân tách phân lớp thẳng thay phải dùng phân lớp cong phức tạp (như phía bên trái) Phần cơng việc cịn lại tìm đường thẳng tối ưu ñể phân chia ñối tượng thành lớp Hình 6.3 – Ý tưởng cho mơ hình SVM Mơ tả tốn học mơ hình SVM sau: Ban đầu tập liệu khơng thể phân lớp tuyến tính được, biểu diễn dạng vector x khơng gian R n , giả sử tìm ánh xạ phi tuyến tính φ từ khơng gian R n vào không gian R m , với m>n : φ : Rn → Rm Khi vector xi khơng gian R n tương ứng với vector φ ( xi ) khơng gian R m điều không gian R m này, tập vector φ ( xi ) phân lớp tuyến tính Thay giá trị xi φ ( xi ) khơng gian R m ta tốn OP2 (bài tốn đối ngẫu), tích vơ hướng xi x j ñược thay φ ( xi ).φ ( x j ) Tuy nhiên 73 việc tính tốn trực tiếp φ ( xi ) phức tạp, tích vơ hướng φ ( xi ).φ ( x j ) không gian R m tính tìm hàm nhân (Kernel) K ( xi , x j ) : K ( xi , x j ) = φ ( xi ).φ ( x j ) Việc xác ñịnh hàm nhân K có số điều kiện ràng buộc việc lựa chọn tất nhiên ảnh hưởng ñến kết vector siêu phẳng thu ñược 6.2 ðặc ñiểm Support Vector Machine SVM họ phương pháp dựa sở hàm nhân ñể tối thiểu hóa rủi ro ước lượng Cho tập liệu huấn luyện (xi, yi), i=1,…,l xi Є Rn y Є {1,-1}l , SVM yêu cầu xử lý vấn ñề tối ưu sau: l wT w + C ∑ ξ i w ,b ,ξ i =1 Với ràng buộc yi ( wT Φ ( xi ) + b ≥ − ξ i , ξ i ≥ 0, i = 1, , l Ở ñây vector huấn luyện xi ñược ánh xạ vào không gian chiều cao thông qua hàm φ Sau SVM tìm phân cách tuyến tính với lề (margin) tối đa khơng gian chiều cao C > tham số khái niệm lỗi Hơn nữa, K(xi, xj) ≡ φ ( xi ) T φ (xj) ñược gọi hàm nhân Bốn hàm nhân sau: • Linear: K(xi, xj) = xiTxj • polynomial: K(xi, xj) = (γxiTxj + r)d, γ > • Radial basis function (RBF): K(xi, xj) = exp(−γ||xi − xj||2), γ > • Sigmoid: K(xi, xj) = tanh(γxiTxj + r) Trong đó, γ, r, d tham số hàm nhân Trong luận văn này, sử dụng SVM với hàm nhân RBF (Radial Basis Function) sử dụng loại SVM C-SVC Hàm kernel RBF RBF hàm nhân ánh xạ phi tuyến tính mẫu vào khơng gian có chiều cao hơn, khác với hàm nhân tuyến tính, RBF điều khiển mẫu quan hệ nhãn lớp thuộc tính khơng tuyến tính Hơn hàm nhân tuyến tính trường hợp ñặc biệt RBF Keerthi ñã hàm nhân tuyến tính với tham số có thực thi với hàm nhân RBF với số tham số (C, γ)[34] 74 RBF có chút khó khăn với giá trị số Một điểm quan trọng < Kij ≤ 1, khác với hàm nhân polynomial với giá trị đến vơ (γxiTxj + r > 1) (γxiTxj + r < 1) bậc lớn Trong hàm nhân RBF, hai tham số quan trọng C γ Chúng ta khơng thể biết trước giá trị C γ tốt cho toán cụ thể Do số loại mơ hình lựa chọn tham số thường ñược sử dụng ñể chọn giá trị C γ tốt cho toán cụ thể Mục tiêu ñể xác ñịnh giá trị tốt (C, γ) cho phân loại có độ xác dự đốn cao C-Support Vector Classification Cho vector huấn luyện xi Rn, i = 1,…,l , hai lớp, vector y ∈ Rl , yi ∈{-1, 1}, C-SVC [30] [31] xử lý vấn ñề sau: l wT w + C ∑ ξ i w ,b ,ξ i =1 Với ràng buộc yi ( wT Φ ( xi ) + b ≥ − ξ i , ξ i ≥ 0, i = 1, , l ðối ngẫu là: α T Qα − e T α α Với ràng buộc y T α = 0, ≤ α i ≤ C, i = 1, , l Trong e vector tất cả, C > giới hạn (upper bound), Q ma trận l x l, Qij ≡ yiyjK(xi, xj), K(xi, xj) ≡ φ ( xi ) T φ (xj) hàm nhân Ở ñây vector huấn luyện xi ánh xạ vào khơng gian chiều cao (có thể vơ hạn) qua hàm φ Hàm ñịnh là:  l  sgn  ∑ y iα i K ( xi , x) + b   i =1  Phân loại nhiều lớp SVM phân loại 02 lớp, ñể áp dụng cho tập liệu có nhiều lớp, S Knerr ñã ñưa tiếp cận “một ñối một” (one-against-one)[32] Tập liệu huấn luyện có k lớp cần xây dựng k(k-1)/2 phân lớp cho tập liệu gồm hai lớp Tập liệu có lớp từ ith ñến jth, xử lý vấn ñề phân loại lớp sau: 75 w ,b ,ξ ij ij ij ij T ij ( w ) w + C (∑ (ξ ij ) t ) t Với ràng buộc ( w ij ) T Φ ( xt ) + b ij ≥ − ξ xt lớp thứ i ( wij ) T Φ ( xt ) + b ij ≥ + ξ tij ≥ xt lớp thứ j Trong phân loại ta sử dụng chiến lược biểu quyết: phân loại nhị phân ñược xem xét biểu quyết, biểu lặp lại cho tất ñiểm liệu x - ñiểm cuối ñược ñịnh lớp có số biểu lớn Trong trường hợp hai lớp có số biểu việc chọn đơn giản lớp có mục nhỏ SVM với liệu không cân (Unbalanced) ðối với liệu không cân E Osuna ñã ñưa việc sử dụng tham số phạt khác công thức SVM [33] Cụ thể C-SVM trở thành: l wT w + C ∑ ξ i + C − ∑ ξ i w ,b ,ξ i =1 y = −1 i Với ràng buộc yi ( wT Φ ( xi ) + b ≥ − ξ i , ξ i ≥ 0, i = 1, , l ðối ngẫu là: α T Qα − e T α α Với ràng buộc ≤ α i ≤ C + yi=1; ≤ α i ≤ C − yi=-1; Chú ý với việc thay C giá trị khác Ci , i =1,…,l, hầu hết phân tích trước Lúc sử dụng C+ C- trường hợp ñặc biệt 6.3 Dự đốn rủi ro tín dụng Support Vector Machine Trong luận văn, tơi sử dụng phần mềm libsvm tích hợp vào weka chọn CSVC với hàm nhân RBF SVM Như hai tham số quan trọng ảnh hưởng ñến kỹ thuật khai phá liệu C (Cost) G (Gama) 6.3.1 Lựa chọn tham số Việc lựa chọn tham số SVM ñược thực công cụ CVParameter Weka Công cụ ñược phát triển dựa sở lý thuyết R Kohavi [35] Lựa chọn tham số thực thử nghiệm dãy giá trị tham 76 số tập liệu ñược cross validate với fold =10 Ví dụ: ta thực lựa chọn tham số C tốt dãy giá trị từ 0.1 ñến với số bước 10 cross validate fold =10 Công cụ thực việc chia tập liệu thành 10 tập chọn tập làm tập kiểm tra huấn luyện liệu cịn lại giá trị C dãy 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0 Dựa kết huấn luyện dự đốn cơng cụ đưa giá trị C tốt để có kết dự đốn cao Tơi thực việc lựa chọn tham số C G công cụ CVParameter Weka sau: • ðối với tập liệu chưa cân bằng(D1): chọn giá trị C = 1, 2, 3, 4, G chọn dãy 0.1 thực 20 bước chọn Kết thu ñược G =0.6 giá trị tốt nhất, với giá trị thực tiếp chọn C dãy thực bước Kết thu ñược C =2, tham số tốt SVM sử dụng hàm RBF tập liệu chưa cân C =2, G =0.6 • ðối với tập liệu hợp lớp (D2), tơi thực tương tự kết thu ñược C = 2, G =0.6 6.3.2 Thực nghiệm với tập liệu D1 Tập liệu ñầu vào ñược sử dụng ñể thực nghiệm kỹ thuật khai phá liệu tập liệu ñã ñược tiền xử lý chương (D1) Tập liệu bao gồm 32,376 ghi, ghi gồm 18 thuộc tính thuộc tính lớp Số lớp tập liệu 05 lớp A, B, C, D E ñược phân bố khơng đồng sau: lớp A có 29,072 ghi chiếm 89.80% tổng số ghi tập liệu, lớp B có 2,411 ghi chiếm 7.45% tổng số ghi tập liệu, lớp C có 156 ghi chiếm 0.48% tổng số ghi tập liệu, lớp D có 201 ghi chiếm 0.62 % tổng số ghi tập liệu lớp E có 536 ghi chiếm 1.65% tổng số ghi tập liệu Thực nghiệm với C = 2, G = 0.6 Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 để dự đốn rủi ro tín dụng kết thu sau: • Số mẫu phân lớp 29,872 chiếm 92.2659 % • Số mẫu phân lớp sai 2,504 chiếm 7.7341 % Một số ñộ ño ñối với lớp thu ñược sau: 77 Bảng 6.1 - Một số ñộ ño dự đốn rủi ro tín dụng SVM (tập liệu D1) Tỷ lệ TP 0.988 0.342 0.254 0.276 0.425 Tỷ lệ FP 0.639 0.01 0.001 0.002 Precision 0.932 0.736 0.662 0.741 0.803 Recall 0.988 0.342 0.254 0.276 0.425 F-Measure ROC Area 0.959 0.674 0.467 0.666 0.367 0.626 0.402 0.638 0.556 0.712 Class A B D C E Ma trận Confusion sau : Bảng 6.2 - Ma trận confusion dự đốn rủi ro tín dụng SVM (tập liệu D1) a 28726 1566 143 106 297 b 271 824 11 c 20 51 d 12 43 e 43 13 0 228 < classified as a=A b=B c=D d=C e=E 6.3.3 Thực nghiệm với tập liệu ñược hợp lớp (D2) Tập liệu gồm 02 lớp A_B C_D_E ñược phân bố sau: lớp A_B có 31,483 ghi chiếm 97.25% tổng số ghi tập liệu D2, lớp C_D_E có 893 ghi chiếm 2.75% tổng số ghi tập liệu D2 Thực nghiệm với C =2, G = 0.6 Sử dụng SVM với hàm nhân RBF với C=2, G =0.6 để dự đốn rủi ro tín dụng kết thu sau: • Số mẫu phân lớp 31,720 chiếm 97.9738 % • Số mẫu phân lớp sai 656 chiếm 2.0262 % Một số ñộ ño ñối với lớp thu ñược sau: Bảng 6.3 – Một số độ đo dự đốn rủi ro tín dụng SVM (tập liệu D2) Tỷ lệ TP 0.997 0.366 Tỷ lệ FP 0.634 0.003 Precision 0.982 0.784 Recall F-Measure ROC Area 0.997 0.99 0.682 0.366 0.499 0.682 Class A_B C_D_E Ma trận Confusion sau : Bảng 6.4 – Ma trận confusion dự đốn rủi ro tín dụng SVM (tập liệu D2) a 31393 566 b 90 327 < classified as a = A_B b = C_D_E 78 6.4 ðánh giá kết dự đốn rủi ro tín dụng SVM Tập liệu toán bao gồm 05 lớp A, B, C, D E Trong đó, lớp A B lớp chiếm ña số tập liệu lớp C, D E nhóm nợ xấu chiếm thiểu số tập liệu Trong dự đốn rủi ro tín dụng, dự đốn nhóm nợ xấu (lớp C, D E) quan trọng Vì để thuận lợi việc ñánh giá kỹ thuật khai phá liệu tốn, tơi sử dụng ñộ ño trung bình ñộ ño lớp A, B C, D, E Ta ñặt ñộ ño trung bình ñộ ño 02 lớp A B độ đo trung bình lớp I (ví dụ F-MeasureI) độ đo trung bình ñộ ño 03 lớp C, D E độ đo trung bình lớp II (ví dụ F-MeasureII) Tơi sử dụng độ phân lớp xác ñộ ño Recall, F-Measure ROC Area ñể ñánh giá kỹ thuật khai phá liệu Các kết thử nghiệm phần 6.3 tóm tắt bảng sau: Bảng 6.5 - So sánh kết dự đốn rủi ro tín dụng sử dụng SVM Tỷ lệ dự đốn xác % RecallI FMeasureI ROC AreaI RecallII FMeasureII ROC AreaII 92.2659 97.9738 0.665 0.997 0.713 0.99 0.67 0.682 0.3183 0.366 0.4417 0.499 0.6587 0.682 P1 P3 Trong đó, P1 – sử dụng SVM dự đốn rủi ro tín dụng tập liệu D1 P2 – sử dụng SVM dự đốn rủi ro tín dụng tập liệu D2 Bộ phân lớp ñược xây dựng dựa tập liệu ñược hợp lớp tốt nhiều so với phân lớp ñược xây dựng dựa tập liệu có 05 lớp Cụ thể là: độ xác phân loại tăng 5.7079%, độ đo Recall trung bình nhóm I tăng lên 0.332%, độ đo F-Measure trung bình nhóm I tăng lên 0.277%, độ đo ROC Area trung bình nhóm I tăng lên 0.012%, độ đo Recall trung bình nhóm II tăng lên 0.0477%, độ đo F-Measure trung bình nhóm II tăng lên 0.0573%, độ đo ROC Area trung bình nhóm II tăng lên 0.0233% Như rõ ràng phân lớp SVM sử dụng để dự đốn rủi ro tín dụng tốn có 02 lớp tốt nhiều tốn 05 lớp Vì trường hợp cụ thể toán dự đốn rủi ro tín dụng sử dụng SVM nên xem xét ñối với 02 lớp 79 CHƯƠNG - ðÁNH GIÁ CÁC KỸ THUẬT ðỐI VỚI BÀI TỐN DỰ ðỐN RỦI RO TÍN DỤNG Kết dự đốn rủi ro tín dụng thực chương 4, tóm tắt bảng sau: Bảng 7.1 – Tóm tắt kết dự đốn rủi ro tín dụng kỹ thuật DM Tập liệu D1 Tập liệu D2 C4.5 CBA SVM C4.5 CBA SVM ðộ xác % 91.2188 88.3 92.2659 97.7236 97.21 97.9738 REI 0.6745 0.618 0.665 0.993 0.999 0.997 FI 0.703 0.678 0.713 0.998 0.992 0.99 REII 0.3767 0.293 0.3183 0.409 0.439 0.366 FII 0.4607 0.452 0.4417 0.498 0.608 0.499 Trong C4.5 kỹ thuật khai phá liệu ñịnh ñược nghiên cứu chương CBA kỹ thuật khai phá liệu quy nạp luật ñược ñề cập chương SVM kỹ thuật khai phá liệu SVM chương FI độ đo F-Measure trung bình nhóm lớp I (lớp A B) lớp hợp A_B, REI độ đo Recall trung bình nhóm lớp I (lớp A B) lớp hợp A_B, FII độ đo F-Measure trung bình nhóm lớp II (lớp C, D E) lớp hợp C_D_E, REII ñộ ño Recall trung bình nhóm lớp II (lớp C, D E) lớp hợp C_D_E Kết bảng kết tốt kỹ thuật thử nghiệm Các kết kiểm tra ñều ñược thực phương pháp kiểm tra chéo (Cross Validation) với Fold 10 Như độ xác dự đốn kỹ thuật khai phá liệu SVM ln cao kỹ thuật định C4.5 kỹ thuật phân lớp quy nạp luật CBA Trong ba kỹ thuật CBA thu kết dự đốn xác thấp Các kỹ thuật khai phá liệu ñược áp dụng ñối với tốn có số lớp (02 lớp) kết dự đốn xác cao Vì tốn dự đốn cần xem xét việc đưa tốn có nhiều lớp tốn có số lớp 80 Mặc dù kỹ thuật SVM mang lại tỷ lệ dự đốn xác cao hai kỹ thuật C4.5 CBA Tuy nhiên phân lớp SVM thu mơ hình học máy khơng tường minh người sử dụng Vì phân lớp SVM ñược sinh hộp ñen ñối với chuyên gia việc ñánh giá mơ hình dựa vào phân tích nghiệp vụ Mặt khác với mơ hình học máy gây khó khăn q trình tích hợp vào hệ thống khác thực tế Hai kỹ thuật C4.5 CBA ln có tỷ lệ dự đốn xác thấp so với kỹ thuật SVM phân lớp thu ñược dạng ñịnh (C4.5) tập luật (CBA) ðiều tường minh cho chuyên gia phân tích luật để đánh giá lựa chọn luật hữu ích áp dụng thực tế sử dụng tập luật đánh giá tốt ñể cài ñặt hệ thống khác 81 KẾT LUẬN Kết ñạt ñược Qua thời gian nghiên cứu thực nghiệm, luận văn đóng góp vấn đề sau: • Giúp người đọc hiểu ñược khái niệm khai phá tri thức từ liệu khai phá liệu • Trình bày đưa đặc điểm kỹ thuật ñịnh (C4.5), phân lớp phương pháp quy nạp luật (CBA) Vector Hỗ trợ Máy (SVM) • Thử nghiệm kỹ thuật khai phá liệu C4.5, CBA, SVM ñối với tốn dự đốn rủi ro tín dụng có tập liệu khơng cân • Thử nghiệm cải tiến kỹ thuật phương pháp hợp lớp liệu • ðánh giá so sánh kỹ thuật khai phá liệu tốn đốn rủi ro tín dụng • Phân tích đưa tri thức tốn dự đốn rủi ro tín dụng từ kỹ thuật khai phá liệu C4.5 CBA Hướng phát triển • Thử nghiệm số giải pháp nhằm cải tiến kỹ thuật ñối với tập liệu khơng cân • Tìm hiểu sử dụng số ñộ ño ñể ñánh giá chất lượng phân lớp sinh • Thử nghiệm số kỹ thuật khái phá liệu khác tốn dự đốn rủi ro tín dụng để ứng dụng thực tế • Ứng dụng kỹ thuật khai phá liệu luận văn cho toán thực tế như: phát giao dịch gian lận hoạt ñộng ngân hàng, phát giao dịch rửa tiền,… 82 TÀI LIỆU THAM KHẢO Việt Nam [1] [2] [3] http://www.vnexpress.net/GL/Kinh-doanh/2005/08/3B9E14B9/ http://www.vietinbank.vn/vbcd.php?id=06640 http://www.vietinbank.vn/?id=08687&page=3&sheet=1&c=476&m=475 Nước [4] Aniruddha J Joshi Mining Biomedical Signals, pp.20-21 [5] B.E Boser, I Guyon, and V Vapnik (1992), “A training algorithm for optimal margin classifiers”, In Proceedings of the Fifth Annual Workshop on Computational Learning Theory, pp 144-152 ACM Press [6] Bing Liu, Wynne Hsu, Yiming Ma (1998), "Integrating Classification and Association Rule Mining." Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD-98, Plenary Presentation), New York, USA [7] Chris Drummond and Robert C Holte, C4.5, Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling [8] C Cortes and V Vapnik (1995), Support-vector network Machine Learning, 20:273-294 [9] Daniel T Larose, Discovering Knowledge in Data [10] D Hand, H Mannila and P Smyth (2001), Principles of Data Mining, The MIT Press, London, England [11] David Hand, Heikki Mannila and Padhraic Smyth Principles of Data mining [12] Dorian Pyle Data preparation for Data Mining [13] Dunham, M.H, Data Mining Introductory and Advanced Topics, Prentice Hall, 2003 [14] D Pyle (2003), Business Modeling and Data Mining, Morgan Kaufmann Publishers, San Francisco, CA [15] E Osuna, R Freund, and F Girosi (1997), Support vector machines: Training and applications, AI Memo 1602, Massachusetts Institute of Technology [16] Goharian & Grossman, Data Preprocessing [17] Ho, T.B., Nguyen, D.D., Kawasaki, S (2001), “Mining Prediction Rules from Minority Classes”, 14th International Conference on Applications of Prolog (INAP2001), International Workshop Rule-Based Data Mining RBDM 2001, Tokyo, 20-22 October, 254-264 83 [18] Ho, T.B., Kawasaki, S., Nguyen, D.D (2001), “Extracting Predictive Knowledge from Meningitis Data by Integration of Rule Induction and Association Mining”, International Workshop Challenge in KDD, 22 May, Shimane, Japan, 25-32, Lecture Notes in Artificial Intelligence 2253, Springer 2001, 508-515 [19] Ho, T.B., Nguyen, D.D., Kawasaki, S (2002), “Learning Minority Classes in Unbalanced Datasets”, Third International Conference on Parallel and Distributed Computing, Kanazawa, September 3-6, 196-203 [20] Ho, T.B., Nguyen, D.D (2003), “Chance Discovery and Learning Minority Classes”, Journal of New Generation Computing, Ohmsha, Ltd and SpringerVerlag, Vol 21, No 2, 147-160 [21] Ian H.Witten & Eibe Frank, Data mining, Practical Machine Learning Tools and Techniques [22] J Mena (2003), “Investigative Data Mining for Security and Criminal Detection”, Butterworth Heinemann, New York, NY [23] J R Quinlan (2006) Bagging, Boosting, and C4.5 [24] J R Quinlan (1996), Improved Use of Continuous Attributes in C4.5 [25] Keerthi, S S and C.-J Lin (2003) Asymptotic behaviors of support vector machines with Gaussian kernel Neural Computation 15 (7), 1667–1689 [26] Nguyen, T.D., Ho, T.B., Nguyen, D.D (2002), “Data and Knowledge Visualization in the Knowledge Discovery Process”, 5th International Conference Recent Advances in Visual Information Systems, Taiwan, 11-13 March, Lecture Note in Computer Science 2314, Springer, 311-321 [27] Nguyen, D.D., Ho, T.B (2006), “A Bottom-up Method for Simplifying Support Vector Solutions”, IEEE Transactions on Neural Networks, Vol.17, No 3, 792796 [28] Nguyen, D.D., Ho, T.B (2005), “An Efficient Method for Simplifying Support Vector Machines”, The 22th International Conference on Machine Learning, ICML 2005, Bonn, 7-11 August, 2005, 617-624 [29] Nguyen, D.D., Ho, T.B (2005), “Speeding-up Model Selection for Support Vector Machines”, 18th International Conference of Florida Artificial Intelligence Research Society FLAIRS, Florida, 16-18 May, 2005 [30] Osmar R Zaiane, Principles of Knowledge Discovery in Databases, Chapter 1Introduction to Data Mining [31] O P Rud (2001), Data Mining Cookbook – Modeling Data for Marketing, Risk and Customer Relationship Management, John Wiley & Sons, New York, NY [32] Peter Flach and Nada Lavrac, Rule Induction [33] Quinlan, J C4.5 In Programs for Machine Learning, Series in Machine Learning, Morgan Kaufmann, 1997 [34] Rajanish Dass, Data mining in Banking and Finance: A Note For Bankers 84 [35] R Mattison (1997), Data Warehousing and Data Mining for Telecommunications, Norwood, MA [36] R Agrawal, R Srikant (1994), “Fast Algorithms for Mining Association Rules in Large Databases.”, In: 20th International Conference on Very Large Data Bases, pp.478-499 [37] R Kohavi (1995), Wrappers for Performance Enhancement and Oblivious Decision Graphs, Department of Computer Science, Stanford University [38] S Sumathi, S.N Suvanandam, Introduction to Data Mining and Its Applications [39] S Knerr, L Personnaz, and G Dreyfus (1990), Single-layer learning revisited: a stepwise procedure for building and training a neural network In J Fogelman, editor, Neurocomputing: Algorithms, Architectures and Applications SpringerVerlag [40] T M Mitchell (1997), Machine Learning McGraw-Hill [41] Tom M Mitchell, Machine learning, pp.74 [42] TuBao Ho, Data Preprocessing [43] Xin Lu, Barbara Di Eugenio and Stellan Ohlsson, Learning Tutorial Rules Using Classification Based On Associations [44] Yanmin Sun Cost-Sensitive Boosting for Classification of Imbalanced Data, 2007 [45] Yoav Freund, Robert E Schapire (1996), “Experiments with a new boosting algorithm”, In: Thirteenth International Conference on Machine Learning, San Francisco, 148-156, 1996 [46] Witten, I.H.; Franks (1999), E Tools for Data Mining, Morgan Kaufmann ... việc áp dụng kỹ thuật khai phá liệu cho tốn cần xem xét đến khía cạnh liệu không cân 25 Chương - XỬ LÝ DỮ LIỆU DỰ ðỐN RỦI RO TÍN DỤNG 3.1 Tiền xử lý liệu Dữ liệu ñược sử dụng ñể khai phá liệu thường... 46 4.3 Dự đốn rủi ro tín dụng sử dụng định (C4.5) 46 4.4 ðánh giá kết dự đốn rủi ro tín dụng sử dụng ñịnh (C4.5) 52 CHƯƠNG - DỰ ðỐN RỦI RO TÍN DỤNG SỬ DỤNG PHƯƠNG PHÁP QUY NẠP LUẬT... Nguyễn Văn Toàn NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHO BÀI TOÁN DỰ ðOÁN RỦI RO TÍN DỤNG Ngành: Cơng nghệ thơng tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG

Định dạng
Số trang	79
Dung lượng	0,92 MB