Khai thác và phân tích dữ liệu ngân hàng nhằm phát hiện rủi ro và hỗ trợ ra quyết định trong quản trị : Luận văn ThS. Công nghệ thông tin: 60 48 01 03

68 29 0
Khai thác và phân tích dữ liệu ngân hàng nhằm phát hiện rủi ro và hỗ trợ ra quyết định trong quản trị : Luận văn ThS. Công nghệ thông tin: 60 48 01 03

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM VĂN THÙY KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NGÂN HÀNG NHẰM PHÁT HIỆN RỦI RO VÀ HỖ TRỢ RA QUYẾT ĐỊNH TRONG QUẢN TRỊ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2014 d ĐẠI HỌC QUỐC GIA HÀ NỘI LỜI ĐOAN TRƯỜNG ĐẠICAM HỌC CƠNG NGHỆ Tơi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tôi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp PHẠM VĂN THÙY Tơi xin chịu tồn trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Nội, tháng năm 2014 KHAI THÁC VÀ PHÂNHàTÍCH DỮ 5LIỆU NGÂN HÀNG NHẰM PHÁT HIỆN RỦI RO VÀ HỖ TRỢ RA QUYẾT ĐỊNH TRONG QUẢN TRỊ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU HÀ NỘI - 2014 LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tôi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin chịu tồn trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, tháng năm 2014 LỜI CẢM ƠN Lời cho phép tơi bày tỏ lịng biết ơn sâu sắc cảm ơn chân thành tới TS Phan Xuân Hiếu- Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội - dành nhiều thời gian quí báu để tận tình hướng dẫn, dìu dắt, bảo định hướng cho tơi suốt thời gian hồn thành luận văn Tơi xin bày tỏ lịng biết ơn tới thầy cô giáo Khoa Công nghệ Thông tin Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian học tập trường Tôi xin gửi lời cảm ơn sâu sắc tới Ban Giám đốc đồng nghiệp Trung tâm công nghệ ngân hàng quốc tế Việt Nam (VIB) tạo điều kiện thuận lợi cho suốt trình học tập thực luận văn Tơi xin chân thành cảm ơn bạn bè gia đình, người thân ln bên khuyến khích, động viên ủng hộ tơi q trình học tập hồn thành luận văn Do thời gian trình độ có hạn nên luận văn tránh khỏi thiếu sót Rất mong nhận đóng góp ý kiến thầy cô giáo, đồng nghiệp, bạn bè, quý vị quan tâm để luận văn hoàn thiện Trân trọng cảm ơn! Hà Nội, tháng năm 2014 Phạm Văn Thùy NỘI DUNG BẢNG TỪ VIẾT TẮT DANH MỤC HÌNH MINH HỌA DANH MỤC BẢNG BIỂU MỞ ĐẦU CHƯƠNG 1: RỦI RO TÍN DỤNG VÀ MƠ HÌNH QUẢN LÝ RỦI RO TÍN DỤNG TẠI NGÂN HÀNG Hoạt động tín dụng Phân loại tín dụng ngân hàng .9 Rủi ro ngân hàng rủi ro tín dụng 3.1 Rủi ro hoạt động ngân hàng: 3.2 Rủi ro tín dụng 10 3.3 Ảnh hưởng rủi ro tín dụng 11 Hiện trạng VIB yêu cầu quản trị rủi ro .12 CHƯƠNG 2: KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG THÔNG TIN NGÂN HÀNG 14 Khái niệm khai phá liệu 14 1.1 Tại lại khai phá liệu 14 1.2 Định nghĩa khai phá liệu 14 1.3 Các bước khai phá liệu 15 1.4 Các phương pháp khai thác liệu 17 Ứng dụng khai phá liệu ngành tài ngân hàng 18 2.1 Quản trị rủi ro 20 2.2 Phát gian lận 22 2.3 Quản lý danh mục vốn đầu tư 22 2.4 Ứng dụng kinh doanh 23 2.5 Marketing chăm sóc khách hàng 25 CHƯƠNG 3: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG 27 Phát biểu toán 28 Mơ hình phân lớp dự báo rủi ro .29 Phân lớp sử dụng định 31 3.1 Cây định 31 3.2 Ưu nhược điểm định 31 3.3 Quá trình xây dựng định 33 3.4 Thuật toán định .33 3.5 Thuật toán C4.5 35 3.6 Chọn thuộc tính tốt 36 3.7 Chuyển định sang dạng luật dễ hiểu .38 Phân lớp SVM – Support Vector Machine .39 4.1 Phân lớp SVM tuyến tính 41 4.2 Phân lớp SVM phi tuyến .42 4.3 Phân đa lớp SVM 44 CHƯƠNG 4: ỨNG DỤNG KHAI PHÁ DỮ LIỆU PHÁT HIỆN RỦI RO TÍN DỤNG TẠI VIB 46 Hiện trạng VIB 46 1.1 Hệ thống xếp hạng tín dụng CRS 46 1.2 Kho liệu KM 47 Tích hợp liệu vào kho liệu 49 2.1 Thiết kế lược đồ liệu .49 2.2 Load liệu vào kho liệu 50 Phân lớp dự báo rủi ro từ kho liệu VIB 51 3.1 Tiền xử lý liệu 53 3.2 Phân lớp sử dụng định áp dụng thuật toán C4.5 54 3.3 Phân lớp sử dụng thuật toán SVM 57 Đánh giá mô hình 59 CHƯƠNG 5: KẾT LUẬN 62 Luận văn đạt kết sau 62 Hướng tiếp cận tương lai 62 TÀI LIỆU THAM KHẢO 63 BẢNG TỪ VIẾT TẮT KPDL Khai phá liệu XHTD Xếp hạng tín dụng SVM Support Vector Machine CSDL Cơ sở liệu CRS Credit Rating System KDD Knowledge Discovery and Data Mining DW Data Warehouse DANH MỤC HÌNH MINH HỌA Hình 1: Các bước khai phá liệu .15 Hình 2: Các thành phần hệ thống Data mining 16 Hình 3: Khai phá liệu tìm kiếm tri thức từ lượng liệu khổng lồ 19 Hình 4: Ứng dụng data mining ngân hàng 20 Hình 5: Mơ hình phân lớp dự báo rủi ro 29 Hình 6: Quy trình phân lớp 30 Hình 7: Ví dụ định 31 Hình 8: Sự phục thuộc Entropy 37 Hình 9: Siêu phẳng phân tách .40 Hình 10: Khoảng cách từ siêu phẳng đến điểm gần siêu phẳng 40 Hình 11: Tập liệu tách tuyến tính 41 Hình 12: Chuyển đổi không gian hàm nhân 43 Hình 13:Phân đa lớp SVM 44 Hình 14: Quy trình nhập liệu chấm điểm XHTD 47 Hình 15: Kiến trúc DataWarehouse VIB 48 Hình 16: Lược đồ data mart khoản vay 50 Hình 17: Ánh xạ liệu dimension CL_STATUS với liệu nguồn 50 Hình 18: Ánh xạ fact table LOAN với liệu nguồn 51 Hình 19: Tập liệu mẫu 53 Hình 20: Một số số liệu thuộc tính 54 Hình 21: Tỷ lệ mẫu lớp liệu 54 Hình 22: Chọn thuật toán C4.5 .55 Hình 23: Mơ hình xây dựng C4.5 56 Hình 24: Chuyển đổi liệu từ Nominal sang Binary 58 Hình 25: Minh họa kết mơ hình SVM Weka 59 DANH MỤC BẢNG BIỂU Bảng 1: Các trường thông tin khách hàng 52 Bảng 2: Bảng kết xây dựng mơ hình định C4.5 56 Bảng 3: Kết phân lớp C4.5 tập mẫu 56 Bảng 4: Bảng kết xây dựng mơ hình phân lớp SVM .58 Bảng 5: Ma trận kết phân lớp SVM với tập training .59 Bảng 6: Đánh giá mơ hình phân lớp .59 Bảng 7: Các số đánh giá phân lớp C4.5 60 Bảng 8: Các số đánh giá mơ hình phân lớp SVM 61 MỞ ĐẦU Ngày với phát triển mạnh mẽ công nghệ thông tin, với cơng cụ hỗ trợ cho việc tích lũy thơng tin trở lên mạnh mẽ tiện lợi, tạo điều kiện cho doanh nghiệp, tổ chức thu thập sở hữu lượng thông tin khổng lồ từ liệu có cấu trúc đến phi cấu trúc Hàng triệu sở liệu dùng quản trị kinh doanh, quản lý phủ, quản lý liệu khoa học nhiều ứng dụng khác Sự phong phú liệu, thông tin khai thác kịp thời liệu đem lại hiệu hiệu suất công tác quản lý hoạt động kinh doanh doanh nghiệp Nhưng yêu cầu khai thác thông tin địi hỏi cao, người sử dụng thơng tin khơng cần sử dụng liệu mà cần thêm nhiều tri thức, ý nghĩa tiềm ẩn liệu thơng tin để hỗ trợ cho việc định chiến lược kinh doanh… Cho đến năm 90 kỷ trước nhu cầu khai phá liệu thực bùng nổ, theo hàng loạt lĩnh vực tổ chức kho liệu, hệ hỗ trợ định, doanh nghiệp thơng minh, thuật tốn, phân loại, phân lớp … mở hướng phát triển cho việc tổ chức khai thác liệu KPDL bao hàm nhiều hướng tiếp cận Các lĩnh vực áp dụng lĩnh vực chủ yếu thừa kế từ lĩnh vực CSDL, học máy (machine leaning), trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê Các toán chủ yếu khai phá liệu phân lớp/ dự đoán, phân cụm (clustering), khai phá luật kết hợp … Lĩnh vực điểm giao thoa nhiều lĩnh vực khác KPDL áp dụng thành cơng vào thị trường tài ngân hàng, chứng khoán, sinh học, y tế, giáo dục, viễn thông.v.v Trong môi trường hoạt động nhiều thử thách, ngân hàng phải gánh chịu rủi ro đáng kể để kiếm lợi nhuận Chính mà đo lường, dự đoán, đánh giá quản trị rủi ro khía cạnh quan trọng ngân hàng Hoạt động tín dụng hoạt động mang lại nguồn thu chủ yếu cho ngân hàng hoạt động tiềm ẩn nhiều rủi ro.Rủi ro tín dụng cho rủi ro lớn ngân hàng thương mại Việt Nam, tổn thất từ rủi ro khơng ảnh hưởng đến an tồn, hiệu quả, uy tín ngân hàng mà cịn ảnh hưởng đến ổn định hệ thống ngân hàng kinh tế đất nước Nhận thấy rủi ro dự báo cách áp dụng công nghệ thông tin vào việckhai thác phân tích liệu từ kho liệu có, tơi chọn hướng nghiên cứu Khai thác phân tích liệu ngân hàng nhằm phát rủi ro hỗ trợ định quản trị cho đề tài luận văn Luận văn xây dựng lý thuyết KPDL nhà khoa học nghiên cứu đồng thời xin trình bày quan điểm Hình 16: Lược đồ data mart khoản vay Bảng FT_LOAN_DD_STATIC bảng fact table, bảng lưu trữ tất các thông tin khoản vay khách hàng Bảng hệ thống kho liệu có nhiên thiếu phần trạng thái nợ nên bổ xung thêm chiều (DM_LOAN_STATUS) DM_LOAN_STATUS: Mô tả trạng thái nợ có hệ thống, theo quy định ngân hàng nhà nước có loại gọi nhóm nợ 2.2 Load liệu vào kho liệu Load liệu cho chiều nhóm nợ khách hàng Hình 17: Ánh xạ liệu dimension CL_STATUS với liệu nguồn Load liệu vào bảng FT có chứa thơng tin nhóm nợ khách hàng 50 Hình 18: Ánh xạ fact table LOAN với liệu nguồn Phân lớp dự báo rủi ro từ kho liệu VIB Dữ liệu thông tin khách hàng cá nhân vay vốn gồm có thơng tin sau, liệu chia làm nhóm thơng tin: thơng tin nhân thân, thông tin khả trả nợ, thông tin quan hệ với VIB tổ chức tín dụng khác, thơng tin phương án đầu tư TT I 10 11 12 13 CHỈ TIÊU THÔNG TIN VỀ NHÂN THÂN Tuổi Trình độ học vấn Lý lịch tư pháp Tình trạng sở hữu nhà ở/BĐS Thời gian lưu trú địa Tình trạng nhân Số người trực tiếp phụ thuộc kinh tế vào KH vay Giá trị hợp đồng bảo hiểm nhân thọ mà VIB người thụ hưởng so với dư nợ Cơ cấu gia đình dựa tình trạng thực tế Đánh giá mối quan hệ KH vay với cộng đồng (uy tín cơng tác, kinh doanh, khu phố địa phương…) Đánh giá mối quan hệ KH vay với thành viên gia đình KH vay Năng lực hành vi dân người thân gia đình Đánh giá gia cảnh khách hàng so với mặt chung vùng 51 Tình trạng sức khỏe khách hàng KHẢ NĂNG TRẢ NỢ Loại hình quan cơng tác Triển vọng phát triển quan người tham gia trả nợ công tác Thời gian làm lĩnh vực chuyên môn Thời giancông tác quan Rủi ro nghề nghiệp (thất nghiệp, tai nạn nghề nghiệp, nhân mạng, …) Vị trí cơng tác Trả lương chuyển thu nhập qua VIB Hình thức hợp đồng lao động Tổng thu nhập hàng tháng người tham gia trả nợ Mức thu nhập ròng ổn định hàng tháng người tham gia trả nợ Tỷ lệ tổng số tiền phải trả lại (gốc+lãi) nguồn thu nhập trả nợ cho 25 VIB 26 Đánh giá cán tín dụng khả trả nợ khách hàng III QUAN HỆ VỚI VIB TCTD khác 27 Số lần cấu lại nợ nợ hạn 10 ngày 12 tháng vừa qua Tỷ trọng nợ (nợ gốc, lãi) cấu lại hạn từ 10 ngày trở lên tổng 28 dư nợ KH vay VIB thời điểm đánh giá 29 Tình trạng dư nợ 30 Tỷ trọng tiền gửi tiết kiệm VIB so với dư nợ Tình hình cung cấp thơng tin khách hàng theo yêu cầu VIB 12 31 tháng qua Tình hình trả nợ gốc lãi với tổ chức tín dụng 12 tháng qua (tính 32 đến thời điểm đánh giá) 33 Thời gian quan hệ với VIB 34 Số TCTD KH vay có quan hệ tín dụng IV ĐÁNH GIÁ PHƯƠNG ÁN ĐẦU TƯ 35 Tỷ lệ vốn tự có KH vay tham gia vào phương án đầu tư Chiều hướng biến động giá sản phẩm khách hàng tham gia đầu tư 36 tháng vừa qua 37 Đánh giá phương án đầu tư khách hàng Đánh giá rủi ro gián đoạn hoạt động kinh doanh khách hàng tác động 38 mơi trường kinh doanh 39 Tính ổn định thị trường đầu 40 Quan hệ khách hàng cá nhân tổ chức khác 14 II 15 16 17 18 19 20 21 22 23 24 Bảng 1: Các trường thông tin khách hàng Thông tin từ hệ thống kho liệu gồm có thơng tin khoản vay giao dịch liên quan đến khoản vay thời gian giải ngân, thời gian đáo hạn, lãi suất, tình trạng trả nợ (nhóm nợ) Đối với toán phân lớp dự báo rủi ro đề cập cần sử dụng liệu lịch sử tình trạng trả nợ khách hàng Dữ liệu tình trạng trả nợ gồm giá trị rời rạc tương ứng với nhóm nợ mà khách hàng rơi vào Trong 52 +Nhóm 1: nhóm nợ đủ tiêu chuẩn, nhóm khách hàng trả trả nợ hạn trước tất tốn khoản vay +Nhóm 2: nhóm nợ cần ý, nhóm khách hàng trả nợ hạn 90 ngày +Nhóm 3: nhóm nợ tiêu chuẩn, bao gồm khách hàng trả nợ hạn từ 90 ngày đến 180 ngày +Nhóm 4: nhóm nợ nghi ngờ, khách hàng trả nợ hạn từ 180 ngày đến 360 ngày Việc thu hồi nợ từ khách hàng khó khăn +Nhóm 5: nhóm khách hàng có khả vốn mà nợ hạn 360 ngày 3.1 Tiền xử lý liệu Do luận văn thực liệu khách hàng cá nhân khách hàng cá nhân kinh doanh nên tiêu phương án đầu tư giá trị Vì trước thực thực nghiệm phải loại bỏ trường không cần thiết Ngồi liệu thực tế có số trường có tỷ lệ mẫu khơng có giá trị cao nên loại bỏ không tham gia vào q trình xây dựng mơ hình phân lớp Sau loại bỏ trường khơng cần thiết, trường có tỷ lệ rỗng cao cịn 29 thuộc tính thơng tin có tổng cộng 14158 mẫu hình 19 Hình 19: Tập liệu mẫu 53 Dưới thông tin số trường liệu, công cụ Weka Explore cho phép xem thông tin mô tả liệu tỷ lệ phân bổ, trình bày đồ họa dễ quan sát Hình 20: Một số số liệu thuộc tính Hình 21: Tỷ lệ mẫu lớp liệu 3.2 Phân lớp sử dụng định áp dụng thuật toán C4.5 Chọn thuật toán J48 WEKA, J48 weka xây dựng cho thuật toán C4.5 54 Hình 22: Chọn thuật tốn C4.5 Thiết lập thơng số Trong giải thuật định J48 (C4.5) cung cấp Weka có tham số quan trọng  confidenceFactor: Nhân tố sử dụng cho việc cắt tỉa (Nếu giá trị nhỏ sinh cắt nhiều)  minNumObj: Số thể tối thiểu nút  unPruned: True sinh cắt tỉa ngược lại Sau điều chỉnh thông số, ta chọn giá trị tham số cho kết tốt sau:  Chọn phương pháp test: Cross Validation  Tham số thuật toán: minNumObj=10  confidenceFactor=0.2  unpruned=False Kết xây dựng hình phân lớp định tập liệu training 14158 mẫu 55 Thời gian xây dựng mơ hình 3.49 s Số 117 Số nút 154 Số mẫu phân lớp 9388 /14158= 66.3088 % Số mẫu phân lớp sai 4770 /14158= 33.6912 % Bảng 2: Bảng kết xây dựng mơ hình định C4.5 Hình 23: Mơ hình xây dựng C4.5 Ma trận kết test tập 14158 mẫu a b c d e a = Nhóm 7635 1434 21 b = Nhóm 165 0 c = Nhóm 3343 16 1241 30 d = Nhóm 54 73 14 e = Nhóm 51 37 Bảng 3: Kết phân lớp C4.5 tập mẫu 56 Các luật đáng ý rút từ mơ sau + If khách hàng “Đã nợ hạn” AND “Có quan hệ với tổ chức tín dụng” AND “Xếp hạng tín dụng AA” AND “Mục đích vay trả góp bất động sản” THEN Nợ xấu (nhóm 5) + If khách hàng “Luôn trả nợ hạn”AND “Thời gian quan hệ với VIB năm ” AND “Số tiền vay lớn 50 triệu ” AND “Mục đích vay sửa nhà” AND “Vị trí cơng tác: Cấp quản lý” AND “Thời gian lưu trú>14 năm” AND “Xếp hạng tín dụng BBB” THEN ln trả hạn (nhóm1) + If khách hàng “Thời gian quan hệ với VIB năm” AND “Số tiền vay nhỏ 30 triệu” AND “Mục đích vay sửa nhà” AND “Vị trí cơng tác: Công nhân” AND “Thời gian công tác lĩnh vực chuyên môn năm” AND “Thời gian lưu trú >14 năm” AND “Thu nhập thấp 14 triệu” THEN Thuộc nhóm nợ cần ý (nhóm 2) + If khách hàng “Thời gian quan hệ với VIB năm” AND “Số tiền vay 300 triệu” AND “Mục đích vay đầu tư khác” AND “Vị trí cơng tác: nhân viên” AND “Nguồn trả nợ từ lương kinh doanh” AND “Thời gian lưu trú >5 năm” AND “Thu nhập thấp 14 triệu” THEN Thuộc nhóm nợ cần ý (nhóm 2) 3.3 Phân lớp sử dụng thuật toán SVM Vẫn sử dụng liệu tiền xử lý bước nhiên thuật toán SVM ta phải thêm bước xử lý liệu thuộc tính kiểu Nominal Phải chuyển đổi liệu kiểu Nomial sang kiểu Numeric Xử lý liệu kiểu Nominal sang kiểu Numeric để phù hợp với toán phân lớp SVM cách mở tệp liệu traning sử dụng chức chuyển đổi liệu từ Nominal sang Binary sau: Sử dụng chức Filter liệu Weka Explore chọn Nominal to Binary, Sau chuyển đội từ liệu với 29 thuộc tính trở thành liệu có 100 thuộc tính với kiểu Numeric để sử dụng thuật tốn SVM 57 Hình 24: Chuyển đổi liệu từ Nominal sang Binary Chọn tham số cho thuật toán: Chọn phương pháp test: Cross Validation =10 Tham số thuật toán: SVM type= C-SVM (Classification) Sử dụng hàm nhân: Gaussian RBF gama=0.5 cost(C) =0.5 Kết xây dựng hình phân lớp định tập liệu training 14158 mẫu Thời gian xây dựng mơ hình 476s Số mẫu phân lớp 9591/14158= 67.7426% Số mẫu phân lớp sai 4567/14158= 32.2574% Bảng 4: Bảng kết xây dựng mơ hình phân lớp SVM 58 Hình 25: Minh họa kết mơ hình SVM Weka Ma trận kết phân lớp tập test 14158 mẫu a b c d e a = Nhóm 9085 16 0 b = Nhóm 175 0 c = Nhóm 4290 14 331 0 d = Nhóm 140 1 0 e = Nhóm 90 0 Bảng 5: Ma trận kết phân lớp SVM với tập training Đánh giá mơ hình Hiệu phân lớp dự báo mô hình dựa nhiều tiêu chí độ hồi tưởng (recall), độ xác (precision) cách tính tiêu chí sau: Dữ liệu thực Lớp Ci Dự đốn Thuộc lớp Ci Không thuộc lớp Ci Thuộc lớp Ci TPi TNi Không thuộc lớp Ci FPi FNi Bảng 6: Đánh giá mơ hình phân lớp 59 Trong TPi (true positives): số lượng ví dụ dương thuật tốn phân vào lớp Ci -TNi (true negatives): số lượng ví dụ âm thuật toán phân vào lớp Ci -FPi (false positives): số lượng ví dụ dương thuật toán phân sai vào Ci -FNi (false negatives): số lượng ví dụ âm thuật tốn phân sai vào Ci Độ xác Precision lớp Ci tỷ lệ số ví dụ dương thuật tốn phân lớp cho giá trị tổng số ví dụ thuật toán phân lớp vào lớp Ci: 𝑃𝑟 = 𝑇𝑃𝑖 𝑇𝑃𝑖 + 𝑇𝑁𝑖 Độ hồi tưởng Recall lớp Ci tỷ lệ số ví dụ dương thuật tốn phân lớp cho giá trị tổng số ví dụ dương thực thuộc lớp Ci: 𝑃𝑟 = 𝑇𝑃𝑖 𝑇𝑃𝑖 + 𝐹𝑃𝑖 Kết mơ hình xây dựng định sử dụng thuật toán C4.5 sau +Với mơ hình xây dựng định C4.5 Bảng số đánh giá dựa tập liệu test 14158 mẫu Class TP Rate FP Rate Precision Recall Nhóm 0.838 0.684 0.688 0.838 Nhóm 0.912 0.002 0.864 0.912 Nhóm 0.268 0.163 0.444 0.268 Nhóm 0.099 0.004 0.206 0.099 Nhóm 0.011 0.001 0.067 0.011 0.64 0.494 0.602 0.64 Weighted Avg Bảng 7: Các số đánh giá phân lớp C4.5 +Với mơ hình dựa thuật tốn SVM Bảng số đánh giá dựa tập liệu test 14158 mẫu 60 Class TP Rate FP Rate Precision Recall Nhóm 0.998 0.896 0.667 0.998 Nhóm 0.967 0.002 0.893 0.967 Nhóm 0.071 0.002 0.943 0.071 Nhóm 0 0 Nhóm 0 0 0.677 0.577 0.749 0.677 Weighted Avg Bảng 8: Các số đánh giá mơ hình phân lớp SVM So sánh thuật tốn Với thuật tốn có kết tương tự tổng sốmẫu dự đoán (xấp xỉ 9000 mẫu so với tổng 14158 mẫu training tương đương 60% phân lớp Về thời gian xây dựng mơ hình training thuật tốn sử dụng định cho kết vượt trội mà cần sử dụng giây kết xây dựng mơ hình thuật tốn sử dụng SVM 400 giây để xây dựng mơ hình từ tập liệu Kết cho thấy thuật toán SVM cho kết phân lớp tốt lớp so với thuật toán định Cụ thể kết thuật tốn SVM có lớp có độ tin cậy tương đối cao phù hợp với phân bố liệu thuật toán định có lớp có độ tin cậy cao 61 CHƯƠNG 5: KẾT LUẬN Luận văn đạt kết sau Giới thiệu khái niệm lý thuyết hoạt động tín dụng ngân hàng, tầm quan trọng tín dụng ngân hàng rủi ro hoạt động tín dụng Ảnh hưởng rủi ro tín dụng đến ngân hàng hệ thống ngân hàng Đồng thời nêu trạng ngân hàng VIB nhu cầu cần thiết phải áp dụng công nghệ vào quản trị rủi ro Trình bày khái quát khai phá liệu, bước trình khai phá liệu phương pháp khai phá liệu Chính từ ý nghĩa thực tế khai phá liệu nên luận văn đưa toán, lĩnh vực mà ngành ngân hàng áp dụng áp dụng khai phá liệu quản trị rủi ro ngân hàng, áp dụng phát gian lận, kinh doanh, … Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng Để chứng minh tính thực tế, luận văn đề xuất toán phân lớp dự báo để dự báo rủi ro tín dụng Việc áp dụng thuật tốn phân lớp vào tốn thực tế có nhiều thuật tốn song thời lượng luận văn có hạn luận văn đề cập phương pháp phân lớp thường sử dụng sử dụng định C4.5 thuật tốn SVM Từ sâu tìm hiểu thuật toán Song song với nghiên cứu tìm hiểu lý thuyết luận văn tìm hiểu quy trình hệ thống có VIB để áp dụng lý thuyết tìm hiểu việc khai phá liệu dự báo rủi ro tín dụng VIB Hướng tiếp cận tương lai Với nhiều ứng dụng thực tế khai phá liệu ngành tài ngân hàng, đặc biệt phân tích dự báo rủi ro tín dụng Với thời gian có hạn luận văn nghiên cứu thực nghiệm thuật tốn, yêu cầu với toán tương lai áp dụng thuật toán khác hồi quy dự báo, áp dụng mạng noron xây dựng mơ hình dự báo…Với ứng dụng rộng rãi khai phá liệu ngành tài ngân hàng trình bày cịn nhiều tốn tìm hiểu nghiên cứu thêm tương lai 62 TÀI LIỆU THAM KHẢO Tiếng Việt [1] GS TS Nguyễn Văn Tiến, Quản trị rủi ro kinh doanh ngân hàng, NXB Thống kê [2] PGS.TS Hà Quang Thụy, Bài giảng Khai phá liệu, Đại học Công NghệĐại Học Quốc gia Hà Nội [3] Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Khai phá liệu Web, Nhà xuất Giáo dục, 2009 [4] TS Nguyễn Minh Kiều, Nghiệp vụ ngân hàng, Trường Đại Học Kinh Tế TPHCM Nhà xuất Thống Kê, tháng 12-2005 [5] Lê Thùy Dương , Khóa luận tốt nghiệp “Bài toán phân lớp văn áp dụng phân lớp liệu tài ngân hàng”- Đại học công nghệ, ĐHQGHN, K50 [6] Lê Thị Thùy Linh, Khóa luận tốt nghiệp “Nghiên cứu thuật tốn phân lớp liệu dựa định” - Đại học công nghệ, ĐHQGHN, K46 Tiếng Anh [7] Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Second Edition [8] Carlo Vercellis, Business Intelligence: Data Mining and Optimization for Decision Making, 2009 John Wiley & Sons, Ltd ISBN: 978-0-470-51138-1 [9] Charlie Berger, Oracle Corporation, Oracle Data Mining - In-Database Data Mining Made Easy [10] Christopher M Bishop, Pattern Recognition and Machine Learning, Springer (2007) [11] Ron Kohavi, J Ross Quinlan, Decision Tree Discovery, 1999 [12] Tom M Mitchell (1997), Machine Learning, McGraw-Hill [13] Dejan Sarka, Matija Lah, Grega Jerkic, Implementing a Data Warehouse with MicrosoftSQL Server 2012, Microsoft [14] J M Zytkow and W Klosgen, Handbook of Data Mining and Knowledge Discovery, Oxford University Press; edition (June 15, 2002) 63 [15] Ian H Witten, Eibe Frank, Data Mining Practical Machine Learning Tools and Techniques, 3rd Edition, Mark A Hall [16] Bernhard Schăolkopf, Alexander J Smola, Learning with Kernels, The MIT Press Cambridge, Massachusetts London, England, 2001 [17] BingLiu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, 2007 [18] CorinnaCortes, VladimirVapnik, Support-VectorNetworks, Machine Learning, AT&T Bell Labs, Holmdel, NJ 07733, USA, 1995 [19] S.Prabhu, N.Venkatesan, Data mining and warehouse, New Age International (P) Limited Publishers, 2007 64 ... PHÂNHàTÍCH DỮ 5LIỆU NGÂN HÀNG NHẰM PHÁT HIỆN RỦI RO VÀ HỖ TRỢ RA QUYẾT ĐỊNH TRONG QUẢN TRỊ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã s? ?: 604 8010 3 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG... việc quản trị rủi ro hỗ trợ việc định cần thiết 13 CHƯƠNG 2: KHAI PHÁ DỮ LIỆU TRONG HỆ THỐNG THÔNG TIN NGÂN HÀNG Khái niệm khai phá liệu 1.1 Tại lại khai phá liệu Với phát triển công nghệ thông. .. việc khai thác phân tích liệu ngân hàng quốc tế Việt Nam nhằm phát rủi ro để hỗ trợ nhà quản trị định Luận văn tổ chức thành chương gồm: Chương 1: Trình bày hoạt động tín dụng ngân hàng, tầm

Ngày đăng: 23/09/2020, 22:12

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan