Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
581,27 KB
Nội dung
ÁP DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO TRONG XÂY DỰNG MƠ HÌNH CHẤM ĐIỂM TÍN DỤNG Ths Trần Thị Huế – Học viện Ngân hàng Ths Nguyễn Thanh Thụy - Học viện Ngân hàng Tóm tắt: Rủi ro tín dụng thách thức lớn ngành tài ngân hàng, thường đánh giá thơng qua điểm tín dụng Đây việc phân tích liệu lớn để tìm đặc điểm tín dụng khách hàng Các mơ hình chấm điểm tín dụng có sử dụng kỹ thuật xử lý lĩnh vực trí tuệ nhân tạo có độ xác ngày cao Trong báo xem xét phương pháp xây dựng dựa kết hợp nhiều kỹ thuật sử dụng Máy học hỗ trợ vector (Support Vector Machine –SVM), mạng thần kinh (Neron Network – NN) định (Decision Tree – DT) kỹ thuật sở dùng để so sánh với độ xác phương pháp Vì cải tiến nhỏ giảm thiệt hại đáng kể mà ngân hàng gặp phải Kết cho thấy mơ hình kết hợp có tỷ lệ xác tốt so với mơ hình xây dựng phương pháp khác I Giới thiệu Ngân hàng ngành đặc biệt, tạo lợi nhuận từ việc giao dịch tiền tệ Sự thành công ngân hàng bị ảnh hưởng trực tiếp việc quản lý kiểm soát rủi ro liên quan Các ngân hàng đối mặt với nhiều loại rủi ro nói rủi ro nguy hiểm rủi ro tín dụng Cuộc khủng hoảng tài năm gần khiến tổ chức tài chính, ngân hàng trọng nhiều vào việc đánh giá rủi ro tín dụng Rủi ro tín dụng vấn đề nghiên cứu nhiều từ trước tới nay, có ảnh hưởng tới định cho vay lợi nhuận ngân hàng Đối với tất ngân hàng, tín dụng mang lại nguồn lợi lớn cho họ lại hoạt động mang lại rủi ro lớn, rủi ro khó khăn để bù đắp Rủi ro tín dụng có nghĩa việc khách hàng khơng thể tuân thủ cam kết tài họ tương lai việc họ trả tiền chậm trả tiền cho ngân hàng [1] Việc áp dụng kỹ thuật thống kê trí tuệ nhân tạo việc đánh giá rủi ro tín dụng phá sản nghiên cứu từ năm 70 kỷ trước Thông thường, phương pháp tiếp cận dựa số liệu khả trả nợ (có khơng) đặc điểm tài khách hàng [2] Điểm tín dụng trở thành công cụ hữu hiệu để tổ chức tài đánh giá rủi ro tương lai Mục tiêu việc chấm điểm tín dụng phân loại khách hàng thành hai nhóm: nhóm tín dụng tốt nhóm tín dụng xấu Các khách hàng thuộc nhóm tốt hồn tồn có khả thực nghĩa vụ tài mình, khi, khách hàng thuộc nhóm xấu có khả khơng trả nợ Q trình chấm điểm tín dụng q trình đánh giá độc lập Những khách hàng có điểm tín dụng cao có nghĩa chấp nhận cấp tín dụng cho họ khả gặp rủi ro ngân hàng thấp Điểm tín dụng sử dụng nhà đầu tư trái phiếu, tổ chức phát hành nợ viên chức phủ thước đo lực tài cơng ty mà họ xem xét đầu tư đánh giá Việc tính điểm tín dụng xác quan trọng lợi nhuận tổ chức tài ngân hàng Chỉ cần độ xác tăng thêm 1% tránh lượng tổn thất lớn cho ngân hàng Các mơ hình chấm điểm tín dụng xác định tiêu tài có sức mạnh giải thích mang tính thống kê việc phân loại khách hàng từ tổng thể chung Những lợi ích thu từ hệ thống tính điểm đáng tin cậy bao gồm [4]: - Giảm chi phí phân tích tín dụng; - Cho phép định nhanh hơn; - Giảm thiểu nguy xảy Điểm tín dụng ban đầu đánh giá cách chủ quan theo kinh nghiệm cá nhân sau dựa năm tiêu chuẩn: đặc điểm tiêu dùng, vốn, tài sản chấp, lực điều kiện kinh tế Nhưng với gia tăng mạnh mẽ số lượng khách hàng, việc chấm điểm tín dụng khơng thể tiến hành thủ cơng Nhiều tổ chức tín dụng phát triển mơ hình chấm điểm để hỗ trợ định tín dụng mình, nhiều khách hàng xứng đáng cấp tín dụng đồng nghĩa lợi nhuận họ tăng lên Mơ hình chấm điểm tín dụng xây dựng Alman, từ năm 1968 [5] Các mơ hình chấm điểm tín dụng chia làm hai loại: mơ hình truyền thống đại Các mơ hình truyền thống xây dựng dựa kỹ thuật phổ biến phân tích phân biệt hồi quy Logistic [6, 7, 8] Điểm yếu phương pháp phân tích phân biệt giả định mối quan hệ tuyến tính biến, thực tế biến thường có mối quan hệ phi tuyến Phương pháp hồi quy Logistic dự đốn mối quan hệ tuyền tính biến dạng hàm mũ Bởi thiếu hụt mối quan hệ phi tuyến biến nên hai phương pháp phân tích phân biệt hồi quy Logistic ghi nhận có thiếu xác [9] Gần , phương pháp tiếp cận áp dụng để phát triển hệ thống chấm điểm hiệu Các nghiên cứu gần kỹ thuật lĩnh vực trí tuệ nhân tạo định (Decision Tree – DT), máy hỗ trợ vector (SVM), thuật toán di truyền (GA) mạng thần kinh (Neuron Network –NN) thuận lợi cho mơ hình thống kê tối ưu hóa để đánh giá rủi ro tín dụng Khơng giống kỹ thuật thống kê, kỹ thuật trí tuệ nhân tạo khơng giả định liệu phải tuân theo phân phối định Những kỹ thuật tự động lấy kiến thức từ mẫu huấn luyện Theo nghiên cứu trước đây, phương pháp sử dụng kỹ thuật trí tuệ nhân tạo tốt kỹ thuật thống kê việc đánh giá rủi ro tín dụng doanh nghiệp, đặc biệt mơ hình phi tuyến Ứng dụng kỹ thuật nói điều tra số nghiên cứu [10, 12, 13] Baesens et al [10] tiến hành nghiên cứu xây dựng mơ hình chấm điểm tín dụng từ 17 kỹ thuật phân loại khác tám liệu thực tế, kết cho thấy SVM có thứ hạng cao tỷ lệ xác Ngồi ra, nghiên cứu Abdou et al [14, 15] mơ hình xây dựng từ kỹ thuật NN cho tỷ lệ xác cao nhóm nghiên cứu họ tiến hành nghiên cứu Ý Ai Cập Mặc dù gần tất kỹ thuật sử dụng để đánh giá rủi ro tín dụng, nhiên số phương pháp xây dựng dựa kết hợp kỹ thuật cho kết cao sử dụng kỹ thuật để tính tốn Trong học máy, phương pháp kết hợp tạo lĩnh vực nghiên cứu nhằm cải thiện hoạt động phân loại dự đoán hiệu suất qua phương pháp học Có thể lấy ví dụ mơ hình phân loại cấu thành từ máy học khơng có giám sát để tiền xử lý liệu đào tạo máy học có giám sát để tìm hiểu kết phân nhóm Trong [16], Huang et al xây dựng mơ hình kết hợp SVM NN, tương tự [17], mơ hình kết hợp SVM giải thuật di truyền xây dựng Bài viết muốn giới thiệu phương pháp học tập hợp (ensemble learning) kết hợp từ kỹ thuật SVM, NN DT Phần lại viết tổ chức sau: Phần II giới thiệu tổng quan phương pháp học tập hợp, Phần III giới thiệu chi tiết kết cấu thí nghiệm sử dụng, Phần IV trình bày kết thực nghiệm áp dụng phương pháp này, Phần V trình bày kết luận chung II Tổng quan phương pháp học tập hợp (ENSEMBLE LEARNING) Học tập hợp phương pháp học máy sử dụng nhiều nhóm học để giải vấn đề Ngược với cách tiếp cận phương pháp học thông thường cố gắng tìm hiểu giả thuyết từ liệu huấn luyện, phương pháp học tập hợp xây dựng tập giả thuyết kết hợp chúng để sử dụng [18] Phương pháp dùng để cải thiện hiệu xuất độ xác việc phân loại Hệ thống phân loại chia làm nhiều lớp dựa kết hợp tập phân loại hợp chúng để đạt hiệu suất cao Ý tưởng hầu hết phương pháp học tập hợp sửa đổi tập liệu huấn luyện , xây dựng n tập đào tạo Trong mơ hình học tập hợp lỗi sai lệch phận bù đắp thành viên khác toàn tập hợp Khả tổng quát hóa phương pháp tập hợp thường mạnh nhiều so với phân loại đơn Dietterich [19] đưa ba lý cách xem chất máy học tìm kiếm khơng gian cho giả thuyết xác Lý liệu huấn luyện không cung cấp đủ thông tin lựa chọn phân loại tốt Lý thứ hai q trình tìm kiếm thuật tốn phân lớp khơng hồn hảo Lý thứ ba khơng gian giả thuyết tìm kiếm khơng chứa hàm đích thực Như tập hợp phương pháp bù đắp cho điều khơng hồn hảo q trình tìm kiếm quy luật III Thiết kế phương pháp Khơng có kỹ thuật lĩnh vực trí tuệ nhân tạo cho tốt xây dựng mơ hình chấm điểm tín dụng, mà tốt phụ thuộc vào chi tiết vấn đề, cấu trúc liệu, đặc điểm sử dụng, mức độ mà tách riêng lớp học cách sử dụng đặc điểm mục tiêu việc phân loại Trong viết trình bày mơ hình sử dụng hai kỹ thuật học: kỹ thuật phân cụm (clustering) kỹ thuật phân lớp (classification) Kỹ thuật phân cụm sử dụng phương pháp C – trung bình mờ (fuzzy CMean – FCM), kỹ thuật phân lớp sử dụng phương pháp phân loại phổ biến: SVM, NN, DT Toàn trình bao gồm phân cụm C- trung bình mờ , chuẩn hóa, xây dựng nhánh phân loại cuối xác định phương pháp kết hợp kết tạo nhánh Trong viết này, 10 lớp phân loại sử dụng thành viên tập hợp Mục tiêu mơ hình đề xuất sử dụng đầy đủ kiến thức trí tuệ lớp nhóm để thực định hợp lý tập tiền xác định tiêu chí Mỗi phần mơ hình chấm điểm kết hợp mô tả ngắn gọn mục nhỏ Hình 1: Mơ hình đề xuất A Phân cụm (Clustering) Giai đoạn mô hình phân cụm mờ tập liệu, giai đoạn trình trước xây dựng nhánh phân lớp có tính tương tự Q trình tiền xử lý dẫn đến nhánh có tính huấn luyện tốt kết là, mơ hình phân loại tốt thực xác suất sai sót giảm xuống so với việc sử dụng tập liệu ban đầu Đôi khi, với mơ hình phân loại xác, với trường hợp bị hạn chế hạn chế thường phát sinh từ liệu huấn luyện Do liệu huấn luyện có chất lượng cao nhánh phân loại xác Mơ hình sử dụng phân cụm mờ C – trung bình để tạo 10 cụm tương ứng với 10 nhánh phân loại Phân cụm mờ C- trung bình phương pháp cho phép phần liệu thuộc hai hay nhiều cụm Phương pháp thường sử dụng nhận dạng mẫu Nó kết tối thiểu hóa hàm mục tiêu sau: Trong m số thực lớn 1, uij bậc thành viên xi lớp j, xi liệu đo chiều thứ i d chiều, ci tâm d chiều cụm ||*|| chuẩn bất tương đương việc đo liệu tâm Việc phân chia tập mờ thực thơng qua việc tối ưu hóa lặp lặp lại hàm mục tiêu m, với cập nhật thành viên uij cụm c j bởi: Vòng lặp dừng Thuật toán bao gồm bước sau đây: Khởi tạo ma trận U uij , ta có U (0) Tại bước thứ k : Tính tốn vector trung tâm C (k) [c j ] theo U ( k ) Cập nhật U ( k ) , U ( k 1) theo công thức uij xi c j xi ck k 1 c m 1 Nếu U (k 1) U (k) dừng, ngược lại quay lại bước B Chuẩn hóa Dữ liệu cần chuẩn hóa để đưa vào nhánh Các biến kiểu số đại diện cho thuộc tính định lượng có giá trị nằm khoảng biến động lớn, giai đoạn chuẩn hóa giá trị biến đưa nằm khoảng [0,1] Điều thực sau: Chúng ta tìm giá trị lớn biến thực việc chia giá trị biến quan sát cho giá trị lớn Đây bước chuẩn hóa bình thường hiệu C Phân lớp Như đề cập, ba kỹ thuật phân lớp sử dụng so sánh viết bao gồm SVM, NN DT trình bày cụ thể phía C1 Máy hỗ trợ Vector (SVM) SVM kỹ thuật phân lớp lĩnh vực trí tuệ nhân tạo, tính hiệu kỹ thuật chứng minh nhiều nghiên cứu phân loại văn bản, rủi ro tín dụng dự báo phá sản SVM dựa ý tưởng cấu trúc giảm thiểu rủi ro để xây dựng SVM sử dụng mơ hình tuyến tính để thực ranh giới lớp phi tuyến thông qua đồ phi tuyến để vạch ranh giới tuyến tính vector đầu vào thành khơng gian đặc trưng có số chiều lớn Trong khơng gian nhiều chiều này, yếu tố lợi nhuận đặt lên hàng đầu Hỗ trợ vector định nghĩa ví dụ huấn luyện gần gũi với tính tốn lợi nhuận SMV kỹ thuật tối ưu hóa lỗi dự báo độ phức tạp mơ hình đồng thời giảm thiểu C2 Mạng thần kinh (NN) Mạng thần kinh ( Neuron Network – NN) định nghĩa vi xử lý song song lớn, có xu hướng bảo tổn kiến thức thực nghiệm cho phép tiếp tục sử dụng NN mơ não người với mục đích thu thập chứng thực nghiệm trình học tập, kết nối liên thần kinh (sysnapse) sử dụng để lưu trữ tri thức Một tính quan trọng khác NN ngồi khả học tập, NN có khả khái quát hóa kiến thức học Hiện nay, có nhiều cấu trúc thuật tốn học NN Trong lĩnh vực kinh tế, NN sử dụng chủ yếu trường hợp biến có mối quan hệ phi tuyến Một mạng thần kinh bao gồm nút thần kinh liên kết với nút trọng số Mỗi nút mơ tả tế bào thần kinh Các mạng thần kinh phổ biến bao gồm ba lớp: lớp đầu vào, lớp ẩn lớp đầu Ba lớp kết nối với tạo thành hệ thần kinh bền vững C3 Cây định (Decision Tree –DT) Một định (DT) mơ hình liệu phân nhánh Gốc định khơng chứa cạnh vào cả, nút khác có cạnh vào hữu hạn cạnh ra, nút khơng có cạnh gọi nút lá, nút lại gọi nút nội Mỗi nút gán nhãn tương ứng với lớp, nút nội gán nhãn với thuộc tính, gọi thuộc tính chia tách Bạn thực q trình phân lớp việc sử dụng thuộc tính phân tách bạn gặp nút lá, thiết bị đầu Tập hợp luật đường từ nút gốc tới nút xác định cho luật định mà hàm mục tiêu trả giá trị mức độ rủi ro tương ứng với khách hàng Một DT chuyển đổi thành quy tắc sử dụng cho nhiệm vụ dự đốn sức mạnh tài khả phá sản D Nhánh tổng hợp Biểu đại đa số phương pháp sử dụng phổ biến để kết hợp kết nhánh thành viên mơ hình tập hợp Ưu điểm phương pháp cho phép kết hợp xác thành viên nên kết phân loại tốt Mỗi nhánh thành viên đánh trọng số IV Phân tích thực nghiệm Để kiểm tra hiệu mơ hình báo này, số liệu thực tế UCI sử dụng kết trình phần mục nhỏ phía sau: A Tập liệu thực tế Bỗ liệu lấy từ kho liệu học máy UCI Bộ liệu chứa 1000 quan sát, có 700 trường hợp cấp tín dụng, 300 trường hợp bị từ chối Mỗi quan sát đặc trưng 20 thuộc tính, có thuộc tính định lượng 13 thuộc tính định tính B Kết thực nghiệm Các tiêu chí dùng để đánh giá xác mơ hình bao gồm độ xác loại I, loại II tổng thể tính tốn theo cơng thức sau: Độ xác loại I = 𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 đượ𝑐 𝑝ℎâ𝑛 𝑣à𝑜 𝑙ớ𝑝 𝑥ấ𝑢 Độ xác loại II = 𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 𝑙à 𝑥ấ𝑢 𝑡ℎậ𝑡 𝑠ự 𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 đượ𝑐 𝑝ℎâ𝑛 𝑣à𝑜 𝑙ớ𝑝 𝑡ố𝑡 Độ xác tổng thể = 𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 𝑙à 𝑡ố𝑡 𝑡ℎậ𝑡 𝑠ự 𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 đượ𝑐 𝑝ℎâ𝑛 𝑙ớ𝑝 đú𝑛𝑔 Kết thu sau: 𝑆ố 𝑙ượ𝑛𝑔 𝑞𝑢𝑎𝑛 𝑠á𝑡 𝑡ổ𝑛𝑔 𝑡ℎể Bảng 2: So sánh độ xác phương pháp Khi so sánh độ xác mơ hình xây dựng, thấy mơ hình trình bày viết có kết lạc quan so với mơ hình xây dựng kỹ thuật khác V Kết luận Trong báo này, mơ hình kết hợp trình bày theo phương pháp học tập hợp Mơ hình sử dụng kết hợp ba kỹ thuật sở lĩnh vực trí tuệ nhân tạo: Phân cụm mờ C – trung bình, SVM, NN DT Đây kỹ thuật phổ biến sử dụng để xây dựng mô hình chấm điểm Và kết hợp chúng với tạo mơ hình có kết tốt so sánh với mơ hình sử dụng kỹ thuật đơn lẻ để xây dựng Tài liệu tham khảo [1] P Ya-qiong, “ A study on evaluation of consumer credit's risks of commercial banks,” Proc International Conference on Wireless Communications (WiCom 2007), IEEE, pp 4531-4534, Sept 2007, doi: 10.1109/WICOM.2007.1115 [2] L Yu, S A Wang, and K K Lai, “Credit risk assessment with a multistage neural network ensemble learning approach,”Expert systems with applications, vol 34, pp 1434-1444, Feb 2008, doi: 10.1016/j.eswa.2007.01.009 [3] L Yu, S Wang, and K K Lai,“An intelligent-agent-based fuzzy group decision making model for financial multicriteria decision support: the case of credit scoring,” European journal of operational research, vol 195, pp 942-959, June 2009, doi: 10.1016/j.ejor.2007.11.025 [4] C.-f Tsai, and J.-w Wu, “ Using neural network ensembles for bankruptcy prediction and credit scoring,” Expert systems with applications, vol 34, pp 2639-2649, May 2008, doi: 10.1016/j.eswa.2007.05.019 [5] I E Altman, “ Financial ratios,discriminant analysis and the prediction of corporate banlruptcy,” The journal of finance, vol 23, pp 589-611, 1968 [6] B Baesens, R Setiono, C Mues, and J Vanthienen, “Using neural network rule extraction and decision tables for credit-risk evaluation,” Management science, vol 49, pp 312-329, March 2003, doi: 10.1287/mnsc.49.3.312.12739 [7] Lee, T S., and I F Chen, “A two-stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines” Expert sysytems with application, vol 28, pp 743-752, May 2005, doi: 10.1016/j.eswa.2004.12.031 [8] D West, “ Neural network credit scoring models,” Computers and operations research, vol 27, pp 1131-1152, Oct 2000, doi: 10.1016/S0305-0548(99)00149-5 [9] M Sustersic, D Mramor, and J Zupan,” Consumer credit scoring models with limited data,” Expert system with application, vol 36, pp 4736-4744, April 2009, doi: 10.1016/j.eswa.2008.06.016 [10] B Baesens, T Van Gestel, S Viaene, M Stepanova, J Suykens, and J Vanthienen,” Benchmarking state-of-art classification algorithm for credit scoring,” Journal of operational research society, vol 54, June 2003, pp 627-635, doi: 10.1057/palgrave.jors.2601545 [11] K B Schebesch, and R Stecking,” Support vector machine for classifying and describing credit applicants: Detecting typical and critical regions,” Journal of the operational research society, vol 56, Sep 205, pp 1082-1088, doi: 10.1057/palgrave.jors.2602023 [12] K S Shin, T S Lee, and H Kim,” An application of support vector machines in bankruptcy prediction model” Exper systems with pplications, vol 28, Jan 2005, pp 127-135, doi: 10.1016/j.eswa.2004.08.009 [13] T V Gestel, B Baesens, J A Suykens, D Van den Poel, D.-E Baestaens, and B Willekens,” Bayesian kernel based classification for financial distress detection,” European journal of operational research, vol 172, Aug 2006, pp 979-1003, doi: 10.1016/j.ejor.2004.11.009 [14] H Abdou, J Pointon, and A Elmasry,” Neural Nets Versus Conventional Techniques in Credit Scoring in Egyptian Banking,” J Expert systems with applications, vol 35, no 3, pp 1275-1292, Oct 2008, doi: http://dx.doi.org/10.1016/j.eswa.2007.08.030 [15] E Angelini, G D Tollo, and A Roil,” A Neural Network Approach for Credit Risk Evaluation,” The quarterly review of economics and finance, vol 48, no 4, pp 733-755, Nov 2008, doi: 10.1016/j.qref.2007.04.001 [16] C L Huang, M C Chen, and C J Wang,” Credit scoring with a data mining approach based on support vector machines,” Expert systems with applications, vol 33, Nov 2007, pp 847-856, 10.1016/j.eswa.2006.07.007 [17] D Zhang, M Hifi, Q Chen, and W Y,” A hybrid credit scoring model based on genetic programming and support vector machines,” Proc The fourth international conference on natural computation, (ICNC 2008), IEEE, Oct 2008, pp 8-12, doi: 10.1109/ICNC.2008.205 [18] G Wang, J Hao, J Ma, and H Jiang,” A comparative assessment of ensemble learning for credit scoring,” Expert systems with applications, vol 38, Jan 2011, pp 223230, doi: 10.1016/j.eswa.2010.06.048 [19] T G Dietterich, “Machine learning research: Four current directions,” AI Magazine, vol 18, no.4, pp 97–136 [34] J C Bezdek,,” Pattern recognition with fuzzy objective function algorithm,” Newyork: Plenum press ... 10.1109/WICOM.2007.1115 [2] L Yu, S A Wang, and K K Lai, “Credit risk assessment with a multistage neural network ensemble learning approach,”Expert systems with applications, vol 34, pp 1434-1444, Feb 2008,... hành nghiên cứu Ý Ai Cập Mặc dù gần tất kỹ thuật sử dụng để đánh giá rủi ro tín dụng, nhiên số phương pháp xây dựng dựa kết hợp kỹ thuật cho kết cao sử dụng kỹ thuật để tính tốn Trong học máy, phương... hết phương pháp học tập hợp sửa đổi tập liệu huấn luyện , xây dựng n tập đào tạo Trong mơ hình học tập hợp lỗi sai lệch phận bù đắp thành viên khác toàn tập hợp Khả tổng quát hóa phương pháp tập