PHẦN MỞ ĐẦU 1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực của đề tài ở trong và ngoài nước 1 1 Ngoài nước Bài toán phân loại lần đầu tiên được đưa ra bởi Fisher (1936) giải quyết cho trường hợp hai[.]
PHẦN MỞ ĐẦU Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài nước 1.1 Ngồi nước Bài tốn phân loại lần đưa Fisher (1936) giải cho trường hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt thiết lập ma trận hiệp phương sai hai tổng thể Năm 1948, Rao mở rộng cho trường hợp nhiều hai tổng thể, sở giả thiết ma trận hiệp phương sai tổng thể Một phương pháp khác, phương pháp thống kê Kendall (1973) đề nghị Nhưng phương pháp mang tính chất thủ công, phức tạp mà thực tế gần thực Mặc dù đề xuất muộn phân loại cho hai tổng thể phương pháp hồi quy logistic sử dụng phổ biến Trong năm gần đây, phương pháp phân loại sử dụng phân loại vector hỗ trợ SVM quan tâm sử dụng nhiều lĩnh vực phân loại nhận dạng Thuật toán SVM xây dựng Vladimir Vapink hình thức chuẩn lề mềm đề nghị Corinna Cortes Vladimir Vapnik SVM dạng chuẩn lấy tập hợp liệu đầu vào dự báo liệu đầu vào ứng với lớp số hai lớp mà liệu có khả rơi vào Một phương pháp phân loại khác nhà thống kê đặc biệt quan tâm phương pháp Bayes Phương pháp phân loại cho hai hay nhiều hai tổng thể không bị ràng buộc giả thiết phân phối chuẩn, phương sai tổng thể nên có xác suất sai lầm phân loại nhỏ phương pháp Fisher Các kết nghiên cứu năm gần toán phân loại chủ yếu tập trung xung quanh phương pháp Bayes Rất nhiều cơng trình nghiên cứu phương pháp xuất bản, phải kể đến cơng trình Fukunaga (1990), McLachlan (1992), Webb (2002), T.Pham-Gia, Turkan (2006,2008), Tuy nhiên phương pháp vấn đề tính tốn cho tốn ứng dụng thực tế với mẫu lớn cịn gặp nhiều khó khăn [1] Martinez, W.L and Martinez, A.R., Computational statistics handbook with Matlab, Chapman & Hall/CRC, Boca Raton, 2008 [2] Pham–Gia,T and Turkkan, N., Baysian analysis in the L1– norm of the mixing proportion using discriminant analysis, Metrika, 64(1),2006, 1–22 [3] Pham–Gia, T., Turkkan, N and Bekker, A., Bounds for the Bayes error in clssification: A Bayesian approach using discriminant analysis, Statistical Methods and Applications,16, 2006, - 26 [4] Pham–Gia, T Turkkan, N and Tai, Vovan.,The maximum function in statistical discrimination analysis",Commun.in Stat–Simulation computation,37(2), 2008, 320 – 336 [5] Scott, David W , Mutivariate density estimation:Theory,practice and visualization visualization, John Wiley&Son, New York, 1992 [6] Webb, A., Statistical pattern recognition, John Wiley & Sons, New York, 2000 1.2 Trong nước Trong nước chúng tơi chưa tìm thấy đóng góp mặt lý thuyết cho toán phân loại, nhiên vấn đề ứng dụng cho toán quan tâm nhiều, lĩnh vực kinh tế Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008) áp dụng toán phân loại kinh tế Một số tác giả khác áp dụng toán phân loại y học với việc xem xét bệnh viêm não Nhật Bản, nguy gãy xương,… Tuy nhiên ứng dụng nước sử dụng phương pháp phân loại Logistic mà chưa xem xét kết hợp với phương pháp khác để có mơ hình phân loại tối ưu [1] Vương Qn Hồng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp thống kê xây dựng mơ hình định mức tín nhiệm khách hàng nhân, Tạp chí ứng dụng tốn học 4(2), tr 1-16 [2] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), Sai số Bayes khoảng cách hai hàm mật độ xác suất phân loại hai tổng thể, Tạp chí phát triển khoa học cơng nghệ, Đại học Quốc gia TPHCM, 11(6), tr 23 – 37 [3] Tơ Cẩm Tú, Nguyễn Huy Hồng (2003), Phân tích số liệu nhiều chiều, NXB Khoa học Kỹ thuật, Hà Nội Lý chọn đề tài Trong hoạt động ngân hàng, cung cấp tín dụng nói hoạt động quan trọng Nếu khắc khe việc cho vay, ngân hàng để khách hàng tiềm năng, ngược lại phải đương đầu với vấn đề nợ xấu Hiện nước ta, tình hình nợ xấu ngân hàng nghiêm trọng đến mức ngân hàng nhà nước đưa nhiệm vụ trọng tâm năm 2013, 2014, 2015 việc giảm tỷ lệ nợ xấu Đảm bảo hợp lý việc cung cấp tín dụng ln tốn khó, có tính chiến lược mà ngân hàng phải đương đầu kịp thời giải muốn phát triển Phân loại việc gán phần tử cụ thể vào tổng thể biết trước cách hợp lý dựa vào biến quan sát trở thành công cụ định lượng cung cấp tín dụng.Trên giới có nhiều cơng trình vận dụng toán phân loại để đánh giá khả trả nợ vay khách hàng cụ thể Ở nước ta có cơng trình nghiên cứu việc đánh giá khả trả nợ vay khách hàng từ hồ sơ tín dụng Đó là cơng trình đối tượng khách hàng ngân hàng BIDV, TechcomBank, …Tuy nhiên qua tìm hiểu, thấy nghiên cứu dựa vào mô hình hồi qui logistic mà khơng có so sánh với phương pháp khác Theo chủ quan chúng tơi, vấn đề tính tốn phức tạp phương pháp phân loại khác Fisher, SVM, Bayes trở ngạy việc vận dụng số liệu lớn thực tế Do khơng có so sánh với phương pháp khác, nên mơ hình đánh giá khả trả nợ vay khách hàng chưa thể tối ưu Hiện tốn phân loại có nhiều cải tiến mặt lý thuyết cơng cụ tính toán kết hợp lý Những kết chưa vận dụng nước ta Cập nhật kết lý thuyết mới, giải vấn đề tính tốn phương pháp phân loại từ số liệu rời rạc, để tìm mơ hình tối ưu đánh giá khả trả nợ vay khách hàng vấn đề đặt thực tế nước ta Mục tiêu đề tài Giải vấn đề tính tốn phương pháp phân loại với số liệu lớn, nhiều chiều để tìm mơ hình tối ưu đánh giá khả trả nợ vay khách hàng Phương pháp nghiên cứu - Tổng hợp tài liệu phương pháp phân loại, phân tích, vận dụng giải vấn đề thực tế với số liệu lớn - Sử dụng phần mềm thống kê R, phần mềm thống kê SPSS, phần mềm Weka phần mềm Matlab thực việc xử lý số liệu tính tốn - Sử dụng tiêu chuẩn xác suất sai lầm phân loại để lựa chọn mơ hình phù hợp Đối tượng phạm vi nghiên cứu a/ Đối tượng nghiên cứu: Các phương pháp phân loại, vấn đề tính toán áp dụng ngân hàng b/ Phạm vi nghiên cứu: Sử dụng phương pháp phân loại Fisher, Logistic, SVM Bayes với số liệu thứ cấp thu thập khả vay trả nợ khách hàng Vietcombank Kết đề tài 6.1 Kết báo cáo phân tích Các kết trình bày gồm nội dung sau: - Các phương pháp phân loại tiêu chuẩn để lựa chọn mơ hình tối ưu - Xây dựng ba chương trình phân loại theo phương pháp Bayes từ số liệu rời rạc (ước lượng hàm mật độ xác suất, phân loại phần tử mới, tính sai số Bayes) - Tìm mơ hình phân loại khả trả nợ vay ngân hàng Vietcombank tốt mơ hình xây dựng qua phương pháp phân loại Fisher, logistic, SVM Bayes - Một số nhận xét liên quan đến khả trả nợ vay khách hàng ngân hàng Vietcombank 6.2 Kết đào tạo Hỗ trợ luận văn đại học, bảo vệ thành công 6.3 Hiệu nghiên cứu Kết đề tài hướng nghiên cứu triển vọng ứng dụng thống kê kinh tế, đặt biệt phương pháp phân loại Và mở rộng lĩnh vực khác như: giáo dục, y học, nông nghiệp, vấn đề xã hội,… Đề tài thực cách hiểu để vận dụng kiến thức thống kê học vận dụng vào thực tế lĩnh vực khách địa phương đất nước sau Đề tài tài liệu tham khảo hữu ích đào tạo hướng nghiên cứu khoa học cho sinh viên ngành Toán ứng dụng trường Đại học Cần Thơ CHƯƠNG ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY CỦA KHÁCH HÀNG NGÂN HÀNG VIETCOMBANK 3.1 GIỚI THIỆU 3.1.1 Mơ hình ứng dụng tốn phân loại ngân hàng Bài toán phân loại áp dụng cho nhiều lĩnh vực khác nhau, đặc biệt ngân hàng Khi khách hàng (cá nhân, doanh nghiệp,…) đến vay vốn, cán tín dụng khơng có khả đánh giá thơng tin có nhìn lệch lạc khách hàng dẫn đến sai lầm cấp tín dụng: cho vay khách hàng có rủi ro lại từ chối khách hàng tốt, cấp tín dụng vượt nhu cầu thật tạo điều kiện cho khách hàng sử dụng vốn sai mục đích, bị khách hàng lừa đảo Trong năm qua, hệ thống ngân hàng Việt Nam phát triển mạnh nợ xấu tăng nhanh chóng, gây rủi ro lớn cho hoạt động ngân hàng Nhu cầu đánh giá khả trả nợ khách hàng vay trở thành nhiệm vụ quan trọng ngân hàng Mỗi khách hàng đến vay vốn ngân hàng xác định thông tin (do khách hàng cung cấp, kết hợp với điều tra từ cán tín dụng) Thơng tin khách hàng véc tơ n chiều gồm biến định tính định lượng Với n biến này, cán tín dụng cần phân loại khách hàng thuộc nhóm nào, từ định cho khách hàng vay hay khơng với mức sai lầm thấp 3.1.2 Bài toán áp dụng Trong phần áp dụng phương pháp phân loại trình bày chương 2, chương chương để thực cho áp dụng cụ thể thực tế Đó việc đánh giá khả trả nợ vay khách hàng ngân hàng Vietcombank 3.2 TỔNG QUAN VIỆC THỰC HIỆN 3.2.1 Số liệu Số liệu thứ cấp thông tin cá nhân khách hàng ngân hàng Vietcombank Cần Thơ Số liệu trích dẫn từ luận văn cao học thuộc lĩnh vực tài ngân hàng năm 2014 (Phụ lục) Số liệu thông tin 165 doanh nghiệp hoạt động lĩnh vực quan trọng: Nông nghiệp, cơng nghiệp, thương mại Trong có 24 doanh nghiệp có nợ hạn (Y = 1) 141 doanh nghiệp khơng có nợ q hạn (Y = 0) Theo ý kiến ban đầu chuyên gia ngân hàng, doanh nghiệp đánh giá biến Các biến giải thích sau: i) Y: Tình trạng nợ doanh nghiệp Y = 0: Khách hàng khơng có nợ Y = 1: Khách hàng có nợ Theo trung tâm thơng tin tín dụng tình trạng nợ khách hàng chia thành nhóm: Nhóm 1: Dư nợ đủ tiêu chuẩn, khoản nợ có khả thu hồi gốc lẫn lãi thời hạn q hạn khơng q 10 ngày Nhóm 2: Dư nợ cần ý, khoản nợ hạn từ 10 ngày đến 90 ngày Nhóm 3: Dư nợ tiêu chuẩn, khoản nợ hạn không trả Nhóm 4: Dư nợ có nghi ngờ, khoản nợ hạn khó trả Nhóm 5: Dư nợ có khả vốn, khoản nợ hạn khơng trả Các khách hàng nhóm nhóm có giá trị Y = 0, khách hàng nhóm 3, nhóm nhóm có giá trị Y = ii) X1: Quy mơ doanh nghiệp X1 = 0: Doanh nghiệp siêu nhỏ, nhỏ vừa X1 = 1: Doanh nghiệp lớn Các tiêu chí để phân loại doanh nghiệp lĩnh vực kinh doanh (nông lâm nghiệp thủy sản, công nghiệp xây dựng, thương mại dịch vụ), số lao động, tổng nguồn vốn iii) X2: Ngành hàng doanh nghiệp X2 = 0: Các ngành khác X2 = 1: Lương thực, thủy sản iv) X3: Kinh nghiệm quản lý Đợn vị tính năm v) X4: Tỷ suất sinh lời chủ sỡ hữu (ROE – Return On Equity) ROE = Lợi nhuận sau thuế × 100% Vốn chủ sở hữu ROE có giá trị dương doanh nghiệp kinh doanh có lãi, doanh nghiệp bị lỗ REO có giá trị âm, hoạt động kinh doanh doanh nghiệp tốt ROE lớn vi) X5: Địn bẫy tài (FL – Financial Leverage) FL = Tốc độ thay đổi lợi nhuận ròng Tốc độ thay đổi EBIT FL đo lường thay đổi lợi nhuận ròng (lợi nhuận sau thuế) trước thay đổi thu nhập trước thuế lãi vay (EBIT – Earnings Before Interst and Tax) FL phụ thuộc vào đòn cân nợ (RD) tức tỷ lệ nợ chiếm tổng tài sản FL xem tỷ lệ thay đổi tỷ suất lợi nhuận sau thuế vốn chủ sở hữu phát sinh thay đổi lợi nhuận trước thuế lãi vay vii) X6: Vòng quay tài sản (Total Assets Turnover Ratio) Vòng quay tài sản (R A ) = Doanh thu Tổng tài sản bình qn Vịng quay tổng tài sản giúp đánh giá hiệu sử dụng tài sản, tỷ lệ phản ánh giá trị đồng tài sản tham gia vào trình kinh doanh tạo đồng doanh thu Hiệu sử dụng tài sản lớn số lớn ngược lại viii) X7: Thanh toán hành (Current Ratio) Tỷ số toán hành (R C ) = Giá trị tài sản ngắn hạn (lưu động) Giá trị nợ ngắn hạn Tài sản ngắn hạn (còn gọi tải sản lưu động) loại tài sản bảng cân đối, dự kiến bán sử dụng hết tương lai gần, thường vòng năm chu kỳ kinh doanh tùy dài Tỷ số toán hành cho biết: Cứ đồng nợ ngắn hạn mà doanh nghiệp giữ có đồng tài sản ngắn hạn sử dụng để tốn Khi tỷ số nhỏ có nghĩa doanh nghiệp khơng đủ tài sản sử dụng để toán khoản nợ ngắn hạn sặp đáo hạn Độ lớn tỷ số thường phụ thuộc vào ngành nghề kinh doanh ix) X8: Thanh toán nhanh (Quick Ratio) Tỷ số toán nhanh (R Q ) = Tiền khoản tương đương tiền Giá trị nợ hạn giá trị nợ tới hạn Tỷ số toán nhanh phản ánh khả trả nợ doanh nghiệp, thông thường độ lớn tỷ số phụ thuộc vào ngành nghề kinh doanh x) X9: Thời gian quan hệ tín dụng Đơn vị năm 3.2.2 Thống kê mô tả liệu Một số thống kê theo nhóm có nợ (Y = 1) Bảng 3.1 Một số thống kê theo nhóm có nợ (Y = 1) Descriptive Statistics N Mean Std Deviation X1 24 58 504 X2 24 50 511 X3 24 7.79 4.809 X4 24 -.032263 3091944 X5 24 7.138750 16.6789371 X6 24 1.095833 8735033 X7 24 1.198333 1.6063208 X8 24 639167 1.1234106 X9 24 6.04 3.805 Valid N (listwise) 24 Thống kê mơ tả theo nhóm khơng có nợ (Y = 0) Bảng 3.2 Một số thống kê theo nhóm khơng có nợ (Y = 0) Descriptive Statistics N Mean Std Deviation X1 141 50 502 X2 141 30 462 X3 141 11.22 6.290 X4 141 135348 3150944 X5 141 2.800426 6.4963286 X6 141 3.857660 6.0162646 X7 141 1.776312 2.2289820 X8 141 2.590142 19.0265347 X9 141 6.40 4.931 Valid N (listwise) 141 Nhận xét: Nhìn vào kết hai bảng 3.1 bảng 3.2 ta thấy kinh nghiệm quản lý (biến X3) nhóm Y = cao nhóm Y = 1, vòng quay tài sản (biến X6) nhóm Y = cao nhóm Y = Kiểm định trung bình hai nhóm: Bảng 3.3 Các bảng kiểm định trung bình hai nhóm Ranks Y X1 X2 X3 X4 X5 X6 X7 X8 X9 N Mean Rank Sum of Ranks 141 81.96 11556.00 24 89.13 2139.00 Total 165 141 80.66 11373.00 24 96.75 2322.00 Total 165 141 87.06 12275.00 24 59.17 1420.00 Total 165 141 87.80 12379.50 24 54.81 1315.50 Total 165 141 80.76 11387.50 24 96.15 2307.50 Total 165 141 89.85 12669.50 24 42.73 1025.50 Total 165 141 88.63 12496.50 24 49.94 1198.50 Total 165 141 87.90 12394.00 24 54.21 1301.00 Total 165 141 82.86 11683.00 24 83.83 2012.00 Total 165 Bảng 3.9 Bảng tổng hợp tất trường hợp phân loại phương pháp Logistic Trường hợp biến biến biến Chi – -2 Log Sig Khả phân Square likelihood (Model) loại (%) X2 2.960 105.822 0.850 85.6 X3 9.191 99.590 0.002 85.6 X6 19.762 89.019 0.000 84.8 X2,X3 15.135 93.647 0.001 85.6 X2,X6 25.454 83.328 0.000 87.9 X3,X6 26.025 82.756 0.000 86.4 X2,X3,X6 33.468 75.313 0.000 88.6 Biến Nhận xét: Bảng 3.9 Cho ta cụ thể sau: Khả phân loại trường hợp ba biến lớn 88.6% Ta thấy trường hợp mô hình biến X2 có giá trị Sig = 0.85 > 5% nên mơ hình xây dựng khơng có ý nghĩa thống kê Các mơ hình cịn lại có Sig < 5% nên có ý nghĩa thống kê Giá trị -2Log likelihood trường hợp ba biến X2, X3 X6 nhỏ giá trị Chi-Square lớn mơ hình hồi qui Logistic với biến xem phù hợp c) Khảo sát trường hợp tối ưu Tiến hành phân tích cụ thể phương pháp hồi quy Logistic cho trường hợp biến X2, X3 X6 phần mềm SPSS ta có bảng kết sau: Bảng 3.10 Các bảng phân tích hồi quy Logistic cho ba biến X2, X3 X6 Omnibus Tests of Model Coefficients Chi-square Step df Sig Step 33.468 000 Block 33.468 000 Model 33.468 000 Model Summary Step -2 Log likelihood Cox & Snell R Nagelkerke R Square Square 75.313a 224 399 a Estimation terminated at iteration number because parameter estimates changed by less than 001 Classification Tablea Predicted Observed Y Percentage Step Correct 110 97.3 12 36.8 Y Overall Percentage 88.6 a The cut value is 500 Variables in the Equation B S.E Wald df Sig Exp(B) 95% C.I.for EXP(B) Lower Step 1a Upper X2 1.643 622 6.983 008 5.169 1.529 17.482 X3 -.226 104 4.730 030 798 651 978 X6 -1.340 403 11.046 001 262 119 577 1.429 937 2.326 127 4.174 Constant a Variable(s) entered on step 1: X2, X3, X6 Từ Bảng 3.10 ta có nhận xét sau: Mơ hình hồi quy logistic thiết lập là: p y ln 1.643 X 0.226 X 1.340 X 1.429 p Kiểm định Chi bình phương cho giá trị quan sát 33.468: Mơ hình có biến độc lập tồn mối liên hệ tuyến tính với khả trả nợ khách hàng với mức ý nghĩa 5% Với giá trị -2 Log likehood = 75.313 lần cho thấy có tồn mối tương quan biến độc lập xác suất trả nợ khách hàng mức tương đối chấp nhận Dựa vào số Classification Tabel cho thấy mức độ xác tồn mơ hình 88.6% Trong đó, với 19 trường hợp doanh nghiệp có nợ mơ hình dự đốn trường hợp, tỷ lệ 36.8% Còn 113 trường hợp doanh nghiệp khơng có nợ mơ hình dự đốn 110 trường hợp, tỷ lệ 97.3% Kiểm định Wald ý nghĩa hệ số hồi quy tổng thể biến X2, X3 X6 có ý nghĩa với mức 5% nên ta bác bỏ giả thuyết H, có nghĩa hệ số hồi quy có ý nghĩa mơ hình sử dụng tốt Khi yếu tố khác khơng đổi, biến X2 có tương quan tỷ lệ thuận với khả trả nợ khách hàng với mức ý nghĩa 1% Với Exp(B) = 5.169 cho thấy doanh nghiệp có qui mơ lớn khả trả nợ khách hàng tăng lên 5.169 lần Khi yếu tố khác không đổi, biến X3 có tương quan tỷ lệ nghịch với khả trả nợ khách hàng với mức ý nghĩa 5% Với Exp(B) = 0.798 biến X3 ngành lương thực, thủy sản khả trả nợ khách hàng giảm 0.798 lần Khi yếu tố khác khơng đổi, biến X6 có tương quan nghịch với khả trả nợ khách hàng với mức ý nghĩa 1% Với Exp(B) = 0.262 biến X6 tăng lên 01 đơn vị khả trả nợ khách hàng giảm 0.262 lần Có cách khác để đánh giá khả dự báo mơ hình thông qua đồ thị phân phối xác suất, cụ thể qua đồ thị sau: Step number: Observed Groups and Predicted Probabilities 40 + + I I I I F I0 I R 30 +0 + E I0 I Q I0 I U I0 I E 20 +0 + N I0 I C I0 I Y I0 I 10 +0 + I000 I I000000 0 I0000000 000010 I 0 01 I Predicted -+ -+ -+ -+ -+ -+ -+ -+ -+ -Prob: Group: 0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111 Predicted Probability is of Membership for The Cut Value is 50 Symbols: - - Each Symbol Represents 2.5 Cases Hình 3.1 Đồ thị phân phối xác suất Theo đồ thị trên, trục hoành biểu diễn xác suất doanh nghiệp có nợ hay khơng có nợ nhận từ giá trị (khơng có nợ) đến (có nợ) Trục tung cho thấy tần số trường hợp Đồ thị có phân bố lý tưởng xác suất doanh nghiệp khơng có nợ (hoặc có nợ) tụ lại bên trái (hoặc phải) trục hồnh theo lý thuyết mơ hình có xác suất dự báo gần với cho kết dự báo tốt trường hợp xác suất tập trung quanh điểm phân cách 0.5 Từ đến 0.5 trường hợp doanh nghiệp khơng có nợ ngược lại từ 0.5 đến có nợ Trong phạm vi đồ thị phía cho thấy trường hợp dự báo sai số xuất phía bên trái điểm phân cách (doanh nghiệp có nợ cuối dự báo khơng có nợ) ngược lại số xuất bên phải điểm phân cách (doanh nghiệp khơng có nợ cuối dự báo có nợ) Kết nghiên cứu này, thành công mô hình thể chỗ xác suất dự báo cho trường hợp doanh nghiệp khơng có nợ doanh nghiệp có nợ 80% Tóm lại: Mơ hình sử dụng để đánh giá khả trả nợ doanh nghiệp có nợ khơng có nợ mức độ tốt Ba biến X2, X3 X6 tác động nhiều đến khả 3.3.4 Phương pháp Fisher a) Khảo sát mơ hình phân loại Thực phần mềm SPSS ta bảng tóm tắt sau: Bảng 3.11 Bảng tổng hợp tất trường hợp phân loại phương pháp Fisher Trường hợp Biến X2 biến X3 X6 X2,X3 biến X2,X6 X3,X6 biến X2,X3,X6 Hàm phân biệt D0(x0)=1.415X2 – 0.919 D1(x0)=2.338X2 – 1.308 D0(x0)=0.318X3 – 2.501 D1(x0)=0.211X3 – 1.488 D0(x0)=1.154X6 – 1.993 D1(x0)=0.486X6 – 0.924 D0(x0)=0.678X2 + 0.308X3 – 2.551 D1(x0)=1.902X2 + 0.182X3 – 1.880 D0(x0)=0.872X2 + 1.105X6 – 2.076 D1(x0)=2.159X2 + 0.363X6 – 1.434 D0(x0)=0.291X3 + 1.007X6 – 3.476 D1(x0)=0.200X3 + 0.384X6 – 1.630 D0(x0)=0.239X2 + 0.287X3 + 0.995X6 – 3.842 D1(x0)=1.771X2 + 0.176X3 + 0.296X6 – 1.962 Khả phân loại (%) 65.9 50 63.6 76.5 72 65.9 75 Nhận xét: Ta thấy mơ hình hai biến X2, X3 có xác suất phân loại cao (76.5%) mơ hình bảng 3.11 Vì ta chọn mơ hình để phân tích chi tiết b)Khảo sát trường hợp tối ưu Tiến hành phân tích chi tiết cho trường hợp biến X2 X3 SPSS ta có kết sau: Bảng 3.12 Các bảng phân tích phương pháp Fisher cho hai biến X2 X3 Group Statistics Valid N (listwise) Y Total Mean Std Deviation Unweighted Weighted X2 32 468 113 113.000 X3 11.35 6.275 113 113.000 X2 53 513 19 19.000 X3 7.53 3.533 19 19.000 X2 35 478 132 132.000 X3 10.80 6.099 132 132.000 Covariance Matricesa Y X2 Total X3 X2 219 458 X3 458 39.374 X2 263 1.041 X3 1.041 12.485 X2 229 436 X3 436 37.198 a The total covariance matrix has 131 degrees of freedom Pooled Within-Groups Matricesa X2 X3 X2 225 538 X3 538 35.651 X2 1.000 190 X3 190 1.000 Covariance Correlation a The covariance matrix has 130 degrees of freedom Prior Probabilities for Groups Cases Used in Analysis Y Prior Unweighted Weighted 500 113 113.000 500 19 19.000 1.000 132 132.000 Total Classification Function Coefficients Y X2 678 1.902 X3 308 182 -2.551 -1.880 (Constant) Fisher's linear discriminant functions Classification Resultsa Predicted Group Membership Y Original Count % Total 85 28 113 16 19 75.2 24.8 100.0 15.8 84.2 100.0 a 76.5% of original grouped cases correctly classified Từ bảng 3.12 ta có nhận xét sau đây: Bảng Group Statistics: Cho ta biết trung bình độ lệch chuẩn tổng thể Theo trên, ta có: 0.468 0.513 0.32 0.17 1 ; 2 ; 1 ; 2 6.275 3.533 11.35 0.54 Bảng Covariance matrices: Cho biết ma trận hiệp phương sai trùng với phương sai Theo trên, ta có: 0.129 0.458 0.263 1.041 ; S2 22 S1 12 0.458 39.374 1.041 12.485 Bảng Pooled within-Group matrices: Cho ta biết hiệp phương sai gộp: S 113S1 19S2 0.225 0.538 132 0.538 35.651 Bảng Classification Function Coefficents: Cho ta biết hệ số hàm phân biệt Fisher Theo trên, ta có: Hàm phân biệt tổng thể w0 d0 x0 0.678 X 0.308X3 2.551 Hàm phân biệt tổng thể w1 d1 x0 1.902 X 0.182 X 1.880 Bảng Prior Probabilities for Groups: Cho ta biết xác suất tiên nghiệm chọn cho nhóm Ở đây, ta có q1 = q2 = 0.5 Bảng Classification Results: Cho ta xác suất phân loại phần tử: Có 113 quan sát thuộc tổng thể w0 mơ hình phân loại 85 quan sát, chiếm 75.2% Có 19 quan sát thuộc tổng thể w1 mơ hình phân loại 16 quan sát, chiếm 84.2 % Như ta có xác suất phân loại mơ hình ((85+16)/132)*100 =76.5% Ngồi ta có hình đây: Hình 3.2 Bộ số liệu với kết phân tích Fisher lưu lại Trong Cột Dis_1 (Predicted Group): Kết phân loại, Cột Dis1_1 (Discriminant Scores): Điểm phân biệt, Cột Dis1_2 (Probabilities of Members in Group 0): Xác suất phân loại quan sát vào nhóm “Doanh nghiệp khơng có nợ”, Cột Dis2_2 (Probabilities of Members in Group 1): Xác suất phân loại quan sát vào nhóm “Doanh nghiệp có nợ” Chẳng hạn xét quan sát số xác suất để rơi vào nhóm 0,86364 rơi vào nhóm 0.13636 Vậy quan sát số tiên đốn vào nhóm “Doanh nghiệp khơng có nợ” Giả sử khách hàng có 𝑥0 = [ ] doanh nghiệp thuộc nhóm nào? Sử dụng 10 hàm phân biệt ta có: d0(x0) = 0.678 + 3.08 – 2.551 = 1.207 d1(x0) = 1.902 + 1.82 – 1.880 = 1.842 Vì d0(x0) < d1(x0) nên quan sát xếp vào nhóm “Doanh nghiệp có nợ” 3.3.5 Phương pháp SVM a) Khảo sát mơ hình phân loại Thực phần mềm Weka ta bảng tóm tắt sau: Bảng 3.13 Bảng tổng hợp tất trường hợp phân loại phương pháp SVM Trường hợp biến biến Xác suất phân loại Biến MAE RMSE X2 0.1439 0.3794 85.61 X3 0.1439 0.3794 85.61 X6 0.1439 0.3794 85.61 X2, X3 0.1439 0.3794 85.61 X2, X6 0.1439 0.3794 85.61 X3, X6 0.1439 0.3794 85.61 (%) biến X2, X3, X6 0.1439 0.3794 85.61 Nhận xét: Bảng 3.13 cho ta cụ thể sau: Khả phân loại tất trường hợp Vì ta chọn mơ hình biến X2, X3 X6 để phân loại tốt b) Khảo sát trường hợp tối ưu Tiến hành phân tích cụ thể phương pháp SVM cho trường hợp biến X2, X3 X6 phần mềm Weka ta có kết sau: === Run information === Scheme: weka.classifiers.functions.LibSVM -S -K -D -G 0.0 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.001 -P 0.1 -model D:\Weka\Weka-3-8 -seed Relation: caohuyetap-weka.filters.unsupervised.attribute.Remove-R1,4-5,7-8- weka.filters.unsupervised.attribute.NumericToNominal-R1,4 Instances: 132 Attributes: x2 x3 x6 phanloai Test mode: 10-fold cross-validation === Classifier model (full training set) === LibSVM wrapper, original code by Yasser EL-Manzalawy (= WLSVM) Time taken to build model: 0.14 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic 113 85.6061 % 19 14.3939 % Mean absolute error 0.1439 Root mean squared error 0.3794 Relative absolute error 57.4032 % Root relative squared error 108.0147 % Total Number of Instances 132 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 1.000 1.000 0.856 1.000 0.922 0.000 0.500 0.856 0.000 0.000 0.000 0.000 0.000 0.000 0.500 0.144 Weighted Avg 0.856 0.856 0.733 0.856 0.790 0.000 0.500 0.754 === Confusion Matrix === a b < classified as 113 | a = 19 | b = Ta có nhận xét từ kết trên: - Trong khung Summary đưa thông tin độ xác mơ hình: Correctly Classified Instances: Số quan sát phân loại 113 với xác suất phân loại 85.6061%, Incorrectly Classified Instances: Số quan sát phân loại sai 19 xác suất phân loại sai 14.3939% Vì vậy, áp dụng phương pháp SVM Linear trường hợp với biến X2, X3 X6 cho ta mơ hình tốt - Trong khung Detalied Accuracy By Class đưa kết cụ thể mơ hình: TP Rate: Độ xác mơ hình phân loại quan sát vào lớp 1, lớp Trung bình 0.856 Precision: Độ xác mơ hình tốt với trung bình 0.733 F-Measure: Độ đo F biểu thị tính xác mơ hình F-Measure cao tính xác cao, mơ hình xét có trung bình 0.790 - Trong khung Confusion Matrix: Với cột biểu diễn lớp biểu diễn lớp thật Ta phân tích sau: Dịng đầu ma trận cho ta biết quan sát thuộc tổng thể (doanh nghiệp khơng có nợ), mơ hình phân loại 113, phân loại sai Dòng thứ hai ma trận cho ta biết quan sát thuộc tổng thể (doanh nghiệp có nợ), mơ hình phân loại 0, phân loại sai 19 Tóm lại: Mơ hình sử dụng để đánh giá khả trả nợ doanh nghiệp có nợ khơng có nợ mức độ tốt, với ba biến X2, X3 X6 3.3.6 Phương pháp Bayes Thực phần mềm Matlab ta bảng tóm tắt sau: Bảng 3.14 Bảng tổng hợp tất trường hợp phân loại phương pháp Bayes Phương pháp Biến BayesU BayesP BayesL BayesC X2 79.18 93.47 93.18 93.57 X3 66.58 87.93 87.42 95.19 X6 75 86.79 86.20 93.82 X2, X3 84.60 94.50 94.31 94.50 X2, X6 88.23 94 93.78 94.71 X3, X6 80.53 89.31 88.96 92.47 X2, X3, X6 90.88 95.15 95.03 95.51 Nhận xét: Từ bảng 3.14 ta thấy phần trăm phân loại BayesC trường hợp biến lớn Và trường hợp tỷ lệ phần trăm phân loại BayesC mơ hình X2, X3 X6 có tỷ lệ cao (95.51%) Vì ta chọn trường hợp ba biến X2, X3 X6 tốt 3.4 KẾT QUẢ THỰC HIỆN TRÊN TẬP KIỂM TRA Trong phần này, chúng tơi sử dụng mơ hình tối ưu từ phương pháp xác định mục để tiến hành phân loại cho phần tử tập huấn luyện Đếm số phần tử phân loại phân loại sai phương pháp ta có bảng tổng hợp sau: Bảng 3.15 Tỷ lệ phân loại cho tập kiểm tra Phương pháp Số phần tử phân loại Số phần tử phân loại Tỷ lệ phân loại đúng sai (%) Hồi quy Logistic 28 84.85 Fisher 26 78.79 SVM 28 84.85 BayesC 31 93.94 Nhận xét: Kết phân loại bảng 3.15 cho thấy phương pháp BayesC cho kết tốt phương pháp Logistic, Fisher SVM KẾT LUẬN VÀ KIẾN NGHỊ HƯỚNG NGHIÊN CỨU A KẾT LUẬN Đề tài nghiên cứu thực nội dung sau: Tổng hợp tương tối đầy đủ, có hệ thống phương pháp phân loại sử dụng: Phương pháp hồi quy Logistic, phương pháp Fisher, phương pháp SVM phương pháp Bayes Trình bày vấn đề tính toán toán phân loại phương pháp Logistic, phương pháp Fisher, phương pháp SVM phương pháp Bayes Các chương trình phần mềm SPSS (chương trình phân loại phần tử phương pháp Logistic phương pháp Fisher), chương trình phần mềm Weka (chương trình phân loại phần tử phương pháp SVM) Xây dựng 03 chương trình viết phần mềm Matlab (chương trình ước lượng hàm mật độ xác suất n chiều, chương trình tính xác suất tiên nghiệm, chương trình tính sai số Bayes, chương trình phân loại phần tử phương pháp Bayes) Khảo sát việc đánh giá khả trả nợ vay phương pháp phân loại khách hàng ngân hàng Vietcombank phương pháp, qua lựa chọn biến có ý nghĩa thống kê đưa mơ hình mơ hình phù hợp cho phương pháp Qua nhóm chúng em tìm mơ hình phân loại theo phương pháp BayesC (phân loại Bayes với xác suất tiên nghiệm FCM) tốt ngân hàng Vietcombank phân loại khách hàng Việc thực cho toán phân loại với số liệu cụ thể đề tài áp dụng tương tự cho nhiều ứng dụng nhiều lĩnh vực khác B KIẾN NGHỊ Để có mơ hình phân loại phù hợp phải tham khảo ý kiến chuyên gia thuộc lĩnh vực tài ngân hàng, qua đưa biến cần thiết có ý nghĩa để việc phân loại tốt Hiện có nhiều phương pháp phân loại nhóm chúng tơi lựa chọn bốn phương pháp phổ biến Logistic, Fisher, SVM Bayes để thực so sánh phương pháp với Kết cho thấy phương pháp Bayes có khả phân loại cao phương pháp khác, cịn giai đốn phát triển, nên nhóm đưa bốn cách tính xác suất tiên nghiêm phân loại Bayes Xét thấy phương pháp Bayes có nhiều ưu điểm khơng ngừng phát triển, nên nhóm mong muốn sau tiến hành nghiên cứu tiếp tục như: Cải tiến số tham số để làm tối ưu phương pháp Bayes cấp độ mờ, xác suất tiên nghiệm, tham số ước lượng mật độ xác suất (pdf) tối ưu để sai số Bayes phương pháp đề nghị nhỏ thuật toán tồn