đánh giá khả năng trả nợ vay ngân hàng bằng mô hình bài toán phân loại

70 638 0
đánh giá khả năng trả nợ vay ngân hàng bằng mô hình bài toán phân loại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƢỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN BỘ MÔN TOÁN -------------- LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY NGÂN HÀNG BẰNG MÔ HÌNH BÀI TOÁN PHÂN LOẠI GIÁO VIÊN HƢỚNG DẪN SINH VIÊN THỰC HIỆN Ts. VÕ VĂN TÀI NGUYỄN THỊ THÙY DƢƠNG MSSV: 1107514 NGÀNH: TOÁN ỨNG DỤNG K36 CẦN THƠ – 12/2014 LỜI CẢM ƠN ---------Luận văn bảng tổng hợp kết thu đƣợc qua trình nghiên cứu lý thuyết. Tuy nhiên, để có đƣợc nhƣ riêng cá nhân em. Sự thành công luận văn kết trình học đại học, kết dìu dắt dạy dỗ Thầy, Cô môn Toán khoa Khoa học Tự Nhiên trƣờng Đại học Cần Thơ, giúp đỡ bạn bè, ủng hộ gia đình. Đầu tiên thông qua luận văn này, em xin bày tỏ lòng biết ơn sâu sắc đến Thầy T.S: Võ Văn Tài, ngƣời Thầy tận tâm, tận lực, nhiệt tình hƣớng dẫn, truyền đạt kinh nghiệm quý báo để em thực luận văn này. Xin chân thành cảm ơn quý Thầy, quý Cô khoa Khoa học Tự Nhiên trƣờng Đại học Cần Thơ truyền dạy kiến thức, kinh nghiệm, kỹ suốt trình học đại học để em cảm thấy trƣởng thành vững vàng sống. Xin cảm ơn Thầy CVHT Th.s: Trần Phƣớc Lộc tận tình hƣớng dẫn, động viên giúp đỡ em suốt thời gian học. Xin cảm ơn anh, chị trƣớc bạn tôi, ngƣời sát cánh, ủng hộ, giúp đỡ, chia sẻ kinh nghiệm giúp đỡ thời gian làm đề tài, nhƣ tháng ngày học Đại học. Con xin cảm ơn gia đình, chỗ dựa vững chắc, hỗ trợ, động viên, quan tâm, tạo điều kiện tốt cho có đƣợc nhƣ ngày hôm nay. Mặc dù cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên luận tránh khỏi thiếu sót, mong nhận đƣợc đóng góp quý báu quý Thầy Cô bạn để luận văn đƣợc hoàn thiện hơn. Trên lời cảm ơn chân thành cá nhân giúp đỡ quý Thầy Cô, anh chị, bạn bè gia đình. Chúc Thầy Cô, anh chị bạn bè đạt nhiều sức khỏe thành công sống! Cần Thơ, ngày …. Tháng … năm 2014 NGUYỄN THỊ THÙY DƢƠNG i DANH MỤC BẢNG Trang Bảng 1.1. Một số hàm hạt nhân thông dụng. . Bảng 3.1. Các biến độc lập đƣợc khảo sát. 38 Bảng 3.2. Hệ số tƣơng quan cặp biến định lƣợng đƣa vào mô hình. 39 Bảng 3.3. Bảng xác suất dự báo loại bỏ biến Income. 40 Bảng 3.4. Bảng xác suất dự báo loại bỏ biến Saving. . 40 Bảng 3.5. Bảng phân tích hồi quy Logistic cho 23 biến. . 41 Bảng 3.6. Bảng tổng hợp tất trƣờng hợp phân loại phƣơng pháp Logistic. . 41 Bảng 3.7. Các bảng phân tích hồi quy Logistic cho biến Renting (H), High_rank (K) High_rank (N). . 42 Bảng 3.8. Bảng tổng hợp tất trƣờng hợp phân loại phƣơng pháp Fisher. 46 Bảng 3.9. Phân loại phƣơng pháp Fisher cho biến H N. . 47 Bảng 3.10. Bảng tổng hợp sai số trƣờng hợp phân loại phƣơng pháp Bayes. . 51 Bảng 3.11. Bảng tổng hợp khả phân loại phƣơng pháp. 54 ii DANH MỤC HÌNH Trang Hình 3.1: Kết kiểm định tính xác mô hình biến. . 45 Hình 3.2. Bảng liệu sau chạy chƣơng trình SPSS cho biến Renting (H) DAB_ac (N). . 50 Hình 3.3 Đồ thị hàm mật độ xác suất biến H N. . 54 iii MỤC LỤC Trang LỜI GIỚI THIỆU PHẦN MỞ ĐẦU . I. LÝ DO CHỌN ĐỀ TÀI . II. MỤC ĐÍCH NGHIÊN CỨU III. PHƢƠNG PHÁP NGHIÊN CỨU IV. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU Chƣơng 1: KIẾN THỨC CHUẨN BỊ 1.1 PHÂN PHỐI XÁC SUẤT 1.1.1 Véctơ trung bình ma trận hiệp phƣơng sai 1.1.2 Phân phối xác suất chiều . 1.1.3 Phân phối xác suất nhiều chiều . 1.1.4 Phân phối chuẩn 1.2 ƢỚC LƢỢNG HÀM MẬT ĐỘ XÁC SUẤT THEO PHƢƠNG PHÁP HẠT NHÂN . 1.2.1 Phƣơng pháp . 1.2.2 Chƣơng trình Matlab . 10 1.3 TÍNH TÍCH PHÂN BẰNG PHƢƠNG PHÁP MONCTE-CARLO 11 1.3.1 Phƣơng pháp . 11 1.3.2 Sai số . 12 1.4 HỒI QUY TUYẾN TÍNH BỘI . 12 1.4.1 Mô hình . 12 1.4.2 Lựa chọn biến đánh giá đƣờng hồi quy . 15 Chƣơng 2: BÀI TOÁN PHÂN LOẠI . 18 2.1 TỔNG QUAN CỦA BÀI TOÁN PHÂN LOẠI . 18 2.1.1 Giới thiệu 18 2.1.2 Sơ lƣợc phát triển toán phân loại . 18 2.2 PHÂN LOẠI BẰNG PHƢƠNG PHÁP FISHER . 19 iv 2.2.1 Trƣờng hợp hai tổng thể 19 2.2.2 Trƣờng hợp nhiều hai tổng thể 20 2.2.3 Phân loại Fisher với phần mềm SPSS . 21 2.3 PHƢƠNG PHÁP BAYES . 22 2.3.1 Trƣờng hợp hai tổng thể . 22 2.3.2 Trƣờng hợp nhiều hai tổng thể 23 2.3.3 Sai số Bayes 25 2.3.4 Chƣơng trình tính sai số Bayes . 26 2.4 PHƢƠNG PHÁP HỒI QUY LOGISTIC . 28 2.4.1 Khái niệm 28 2.4.2 Hồi quy Logistic đơn 29 2.4.3 Hồi quy Logistic bội . 31 2.4.4 Vấn đề phân loại . 32 2.4.5 Sử dụng phần mềm SPSS hồi quy Logistic 33 Chƣơng 3: ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY TẠI NGÂN HÀNG ĐÔNG Á 35 3.1 GIỚI THIỆU 35 3.1.1 Bài toán phân loại đánh giá khả trả nợ vay khách hàng 35 3.1.2 Một số nghiên cứu liên quan nƣớc 35 3.2 TỔNG QUAN VIỆC THỰC HIỆN 37 3.2.1 Số liệu 37 3.2.2 Phƣơng pháp thực 38 3.2.3 Vấn đề tính toán 39 3.3 KẾT QUẢ THỰC HIỆN 39 3.3.1 Theo phƣơng pháp hồi quy Logistic . 39 3.3.2 Phƣơng pháp Fisher 46 3.3.3 Phƣơng pháp Bayes 51 3.4 KẾT LUẬN 54 v KẾT LUẬN . 56 TÀI LIỆU THAM KHẢO . 57 PHỤ LỤC 58 vi LỜI GIỚI THIỆU ---------Nhận dạng thống kê hƣớng phát triển quan trọng thống kê ứng dụng. Ngƣời ta chia nhận dạng thống kê thành loại: Nhận dạng đƣợc giám sát nhận dạng không đƣợc giám sát. Trong nhận dạng đƣợc giám sát ta có toán cụ thể: Bài toán phân loại toán phân biệt. Phân loại việc gán phần tử thích hợp vào k tổng thể biết trước dựa vào biến quan sát nó. Bài toán phân loại đời nhu cầu thực tế nhiều lĩnh vực khác nhƣ kinh tế, xã hội, y học, . lĩnh vực mà nhu cầu phân loại đƣợc đòi hỏi. Hiện nhu cầu áp dụng toán phân loại mạnh lĩnh vực y học tài chính. Cấu trúc luận văn gồm có phần mở đầu, phần nội dụng, phần kết luận tài liệu tham khảo. Phần nội dung gồm chƣơng: Chƣơng 1: KIẾN THỨC CHUẨN BỊ Trình bày bƣớc tính toán cần phải thực phƣơng pháp phân loại vấn đề liên quan đến toán phân loại. Ở có trình bày chƣơng trình liên quan đến việc tính cho phƣơng pháp phân loại phần mềm Matlab. Đó chƣơng trình ƣớc lƣợng hàm mật độ xác suất chiều n chiều để sử dụng cho phân loại phƣơng pháp Bayes chƣơng 2. Chƣơng 2: BÀI TOÁN PHÂN LOẠI Trình bày phƣơng pháp phân loại tồn đƣợc sử dụng nay. Đó phƣơng pháp thống kê tuần tự, phƣơng pháp Fisher, phƣơng pháp Bayes, phƣơng pháp hồi quy Logistic . Ở chƣơng trình bày phƣơng pháp tính, chƣơng trình phân loại tính sai số phƣơng pháp Bayes. Trong chƣơng trình bày số đóng góp luận văn sai số Bayes. Chƣơng 3: ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY TẠI NGÂN HÀNG ĐÔNG Á Trình bày việc nâng cao lực đánh giá khả trả nợ khách hàng từ lâu trở thành đề tài nghiên cứu phổ biến giới. Sử dụng mô hình thống kê cho vấn đề đƣợc quan tâm tính hiệu từ thực tế ngân hàng lớn giới. Với số liệu có luận văn thực việc đánh giá khả trả nợ khách hàng theo phƣơng pháp: Fisher, Logistic Bayes. Trong phƣơng pháp tiến hành đánh giá tính hợp lý biến phụ thuộc với tất biến độc lập để lựa chọn mô hình phù hợp nhất. PHẦN MỞ ĐẦU ---------I. LÝ DO CHỌN ĐỀ TÀI Ngày thống kê có vai trò quan trọng nghiên cứu khoa học tất lĩnh vực, lĩnh vực thực nghiệm. Nó có đóng góp thiếu việc hoạch định chiến lƣợc phát triển kinh tế xã hội địa phƣơng quốc gia. Vai trò thống kê không tổng hợp số mà điều quan trọng từ số ta dự đoán đƣợc xu hƣớng phát triển tƣơng lai. Hiện việc dự báo có ý nghĩa quan trọng lĩnh vực. Không phủ định việc dự báo đem lại lợi ích lớn phát triển kinh tế xã hội. Dự báo tốt giúp tổ chức hoạch định hƣớng nhƣ xây dựng đƣợc chiến lƣợc phát triển phù hợp. Cho đến dự báo môn khoa học vô phức tạp, đòi hỏi nhiều kinh nghiệm kiến thức liên quan. Trong kinh tế, đặc biệt từ sau gia nhập WTO, ngân hàng thƣơng mại với vai trò cung ứng tín dụng có đóng góp quan trọng phát triển đội ngũ doanh nghiệp góp phần đẩy nhanh tiến trình công nghiệp hóa đại hóa đất nƣớc. Tuy nhiên từ năm 2005 trở lại đây, nợ xấu toàn ngành ngân hàng gia tăng nhanh. Các khách hàng vay đa dạng ngành nghề đòi hỏi nhân viên cho vay phải có nhìn cho vay. Vì sinh viên ngành Toán ứng dụng đƣợc chuẩn bị kiến thức thống kê làm em muốn chọn đề tài “ĐÁNH GIÁ KHẢ NĂNG TRẢ NỢ VAY NGÂN HÀNG BẰNG MÔ HÌNH BÀI TOÁN PHÂN LOẠI” cho luận văn tốt nghiệp mình. Trong luận văn đánh giá khả trả nợ khách hàng giúp ngân hàng mở rộng cho vay tới hầu hết phân khúc thị trƣờng, định cho vay kịp thời khách quan hơn, qua dự đoán đƣợc rủi ro phát sinh góp phần nâng cao hiệu hoạt động cho ngân hàng. II. MỤC ĐÍCH NGHIÊN CỨU Dựa số liệu thực tế khách hàng vay vốn ngân hàng Đông Á để phân loại khách hàng. Qua việc phân tích giúp ngân hàng nhận định khách hàng cách xác hiệu hơn. III. PHƢƠNG PHÁP NGHIÊN CỨU Phân tích, tổng hợp phân loại phƣơng pháp Fisher, phƣơng pháp Bayes, phƣơng pháp hồi quy Logistic. a Pooled Within-Groups Matrices Cov ariance Correlation Renting .125 -.032 1.000 -.191 Renting DAB_ace Renting DAB_ace DAB_ace -.032 .222 -.191 1.000 a. The cov ariance matrix has 134 degrees of f reedom. Bảng 3.9.c Classificati on Function Coefficients Y .446 .440 -.721 Renting DAB_ace (Constant) 2.049 2.712 -1.593 Fisher's linear discriminant f unctions Bảng 3.9.d Prior Probabilities for Groups Y Total Cases Used in Analy sis Unweighted Weighted 24 24.000 112 112.000 136 136.000 Prior .500 .500 1.000 Bảng 3.9.e Classificati on Resul tsa Original Count % Y 1 Predicted Group Membership 21 39 73 87.5 12.5 34.8 65.2 Total a. 69.1% of original grouped cases correctly classif ied. Bảng 3.9.f 48 24 112 100.0 100.0  Giải thích bảng đọc kết Bảng Group Statistics: Cho ta biết trung bình độ lệch chuẩn tổng thể. Theo trên, ta có 0 1 Bảng Covariance matrices: Cho ta biết ma trận phƣơng sai tổng thể. Nhƣng tổng thể chiều nên ma trận hiệp phƣơng sai trùng với phƣơng sai. Theo trên, ta có 1. Bảng Pooled within-Group matrices: Cho ta biết hiệp phƣơng sai gộp Bảng Classification Function Coefficents: Cho ta biết hệ số hàm phân biệt Fisher.Theo trên, ta có Hàm phân biệt tổng thể ( ) . Hàm phân biệt tổng thể ( ) . Bảng Prior Probabilities for Groups: Cho biết xác suất tiên nghiệm đƣợc chọn cho nhóm. Ở đây, ta có . Bảng Classification Results: Do bƣớc nên sau phân tích, SPSS tiến hành tiên đoán lại phần tử thuộc tổng thể nào? Và tính xác suất phân loại cho phần tử đó. Theo bảng việc phân loại 69.1%. Độc giả để ý thấy bảng liệu lúc có thêm cột (xem hình 3.2) 49 Hình 3.2. Bảng liệu sau chạy chƣơng trình SPSS cho biến Renting (H) DAB_ac (N). Trong Cột Dis_1 (Predicted Group): Tiên đoán phân loại phân tử vào nhóm, Cột Dis1_1 (Discriminant Scores), Cột Dis1_2 (Probabilities of Members in Group 0): Xác suất phân loại phần tử vào nhóm “KHKTN”, Cột Dis2_2 (Probabilities of Members in Group 1): Xác suất phân loại phần tử vào nhóm “KHTN”. Cụ thể, xét phần tử số ta thấy xác suất để phần tử rơi vào nhóm 0.04731, xác suất phần tử số rơi vào nhóm 0.95269. Vậy phần tử số đƣợc tiên đoán thuộc nhóm “KHKTN” (nhóm 0). Bây giờ, ta trở lại toán đầu đề. Cho khách hàng có ngƣời thuộc nhóm nào? Sử dụng hàm phân biệt ta có ( ) ( ) Nhƣ vậy, ta có ( ) . Do đó, ta xếp ngƣời có nhóm “KHTN”. 50 vào 3.3.3 Phƣơng pháp Bayes a) Phƣơng pháp thực Lần lƣợt thực việc phân loại cho trƣờng hợp biến, hai biến ba biến. Mỗi trƣờng hợp việc tính toán đƣợc sử dụng chƣơng trình viết phần mềm Matlab để thực hiện. Trong ba trƣờng hợp hàm mật độ xác suất đƣợc ƣớc lƣợng theo phƣơng pháp hàm hạt nhân với tham số trơn đƣợc chọn theo Scott (1992) hàm hạt nhân đƣợc chọn dạng chuẩn. b) Kết thực Từ số liệu phụ lục, sử dụng chƣơng trình 1.1 để ƣớc lƣợng hàm mật độ xác suất chiều với biến H, K N; sử dụng chƣơng trình 1.2 để ƣớc lƣợng hàm mật độ xác suất hai chiều với biến H K, H N, K N; sử dụng chƣơng trình 1.2 để ƣớc lƣợng xác suất ba chiều cho biến H, K N. Sử dụng chƣơng trình tính sai số Bayes mục 2.3.4 với hàm mật độ xác suất ƣớc lƣợng ta có bảng tóm tắt sau: Bảng 3.10. Bảng tổng hợp sai số trƣờng hợp phân loại phƣơng pháp Bayes. Trƣờng hợp H K biến N H K H N biến K N biến H, K N Sai số 0.3957 0.4486 0.3760 0.3927 0.2720 0.3354 0.2810 Nhận xét: Qua bảng 3.10 ta thấy sử dụng phương pháp Bayes để phân loại khách hàng trường hợp sử dụng hai biến H N có sai số Bayes thấp nhất. Phân tích cụ thể trƣờng hợp nhƣ sau:  Tính thủ công bƣớc Giả sử , - Tính giá trị hàm trơn biến Renting (H) DAB_ac (N) ( ) ( ) 51 ( ) ( ) Tính giá trị hàm mật độ xác suất ( ) ∑ ( ) ( ∑ ( . . / / ) ( ) ( . . / ) / ) Tính giá trị hàm phân biệt ( ) ( ) Vì ( ) (KHTN). ( ) nên phần tử , - thuộc vào tổng thể thứ hai  Sử dụng phân mềm Matlap Giả sử , - chạy phần mềm Matlap ta có kết sau: >> KHKTN >> KHTN >> f1=uocluongnc([dl H1],[dl N1]) f1=8085435079814064366505879554548690069998120360173/2923003274 661805836407369665432566039311865085952*exp(633825300114114700748351602688/46141450019609422880092309369*x1 ^2)*exp(40564819207303340847894502572032/564931840240086634740584109060 1*x2^2)+385020718086384017452660931168985241428481921913/292300 3274661805836407369665432566039311865085952*exp(1/2*(1125899906842624/214805609842037*x11125899906842624/214805609842037)^2)*exp(52 40564819207303340847894502572032/564931840240086634740584109060 1*x2^2)+385020718086384017452660931168985241428481921913/146150 1637330902918203684832716283019655932542976*exp(633825300114114700748351602688/46141450019609422880092309369*x1 ^2)*exp(-1/2*(9007199254740992/2376829485344051*x29007199254740992/2376829485344051)^2) >> f2=uocluongnc([dl H2],[dl N2]) f2=337867902722493749304835725401853582171989042849/29230032746 61805836407369665432566039311865085952*exp(1/2*(18014398509481984/4935511278422515*x118014398509481984/4935511278422515)^2)*exp(1/2*(18014398509481984/6524945503687065*x218014398509481984/6524945503687065)^2)+1385258401162224372149826 4741475996869051550756809/2338402619729444669125895732346052831 4494920687616*exp(162259276829213363391578010288128/24359271579435848379426858925 225*x1^2)*exp(162259276829213363391578010288128/42574913826086046373509448314 225*x2^2)+17231263038847181214546621995494532690771441185299/23 384026197294446691258957323460528314494920687616*exp(162259276829213363391578010288128/24359271579435848379426858925 225*x1^2)*exp(-1/2*(18014398509481984/6524945503687065*x218014398509481984/6524945503687065)^2)+3716546929947431242353192 979420389403891879471339/23384026197294446691258957323460528314 494920687616*exp(-1/2*(18014398509481984/4935511278422515*x118014398509481984/4935511278422515)^2)*exp(162259276829213363391578010288128/42574913826086046373509448314 225*x2^2) 53 Sử dụng phần mềm Matlap ta vẽ đƣợc đồ thị sau: Hình 3.3 Đồ thị hàm mật độ xác suất biến H N. >> phanloai(f1,f2,0,0) ans =2.7663 1.0000 , Kết phân loại phần tử với sai số 0.2720. - thuộc tổng thể f1 (KHKTN), 3.4 KẾT LUẬN Từ phƣơng pháp thực cho liệu, có kết luận sau: i) Trong 24 biến đƣợc khảo sát có biến H, N K có nhiều ảnh hƣởng đến khả trả nợ khách hàng ngân hàng Đông Á, biến có ý nghĩa thống kê 5% đƣa vào mô hình. ii) Khả phân loại phƣơng pháp trƣờng hợp đƣợc cho bảng tóm tắt sau: Bảng 3.11. Bảng tổng hợp khả phân loại phƣơng pháp. Phƣơng pháp Hồi quy Logistic Fisher Bayes Khả phân loại biến biến biến 82.4% 82.4% 82.4% 60.3% 69.1% 69.1% 62.4% 82.8% 81.9% Bảng 3.11 cho ta thấy, phân loại sử dụng biến mô hình hồi quy Logistic cho ta xác suất phân loại cao nhất, sử dụng biến để phân loại mô hình Bayes cho ta xác suất phân loại tốt sử dụng biến 54 để phân loại xác suất phân loại cao sử dụng mô hình Logistic. Tất mô hình cho xác suất phân loại 80%. Nhƣ so với phƣơng pháp Fisher, phƣơng pháp hồi quy Logistic phƣơng pháp Bayes có nhiều ƣu điểm hơn. Khả phân loại hai phƣơng pháp Bayes Logistic chênh lệch nhiều, khả phân loại cao 82.8% cho trƣờng hợp sử dụng biến biến Renting (H) High_rank (N) phƣơng pháp Bayes. 55 KẾT LUẬN ---------Luận văn thực đƣợc công việc sau: Tổng hợp tƣơng đối đầy đủ, có hệ thống phƣơng pháp phân loại đƣợc sử dụng: Phƣơng pháp hồi quy Logistic, phƣơng pháp Fisher phƣơng pháp Bayes. Trình bày vấn đề tính toán toán phân loại phƣơng pháp Bayes phƣơng pháp Fisher. Với chƣơng trình đƣợc viết phần mềm Matlab (chƣơng trình ƣớc lƣợng hàm mật độ xác suất n chiều, chƣơng trình tính sai số Bayes, chƣơng trình phân loại phần tử phƣơng pháp Bayes) tính toán phức tạp khó khăn hai phƣơng pháp đƣợc giải quyết. Các chƣơng trình phần mềm SPSS (chƣơng trình phân loại phần tử phƣơng pháp Fisher phƣơng pháp hồi quy Logistic) sở để ta thực đƣợc toán phân loại từ số liệu rời rạc lớn thực tế. Khảo sát việc đánh giá khả trả nợ vay khách hàng ngân hàng Đông Á phƣơng pháp, qua lựa chọn đƣợc biến có ý nghĩa thống kê đƣa vào mô hình mô hình phù hợp cho phƣơng pháp. Việc thực cho toán phân loại với số liệu cụ thể luận văn áp dụng tƣơng tự cho nhiều ứng dụng nhiều lĩnh vực khác. 56 TÀI LIỆU THAM KHẢO A. Tiếng Việt [1] Võ Văn Tài, Trần Phƣớc Lộc (2012), Giáo trình Nhận Dạng Thống Kê, NXB Đại học Cần Thơ [2] Hoàng Trọng, Chu Nguyễn Mộng Ngọc (2008), Phân tích liệu nghiên cứu với SPSS (tập 1,2), NXB Hồng Đức. [3] Tô Cẩm Tú, Nguyễn Huy Hoàng (2003), Phân tích số liệu nhiều chiều, NXB Khoa học Kỹ thuật, Hà Nội. [4] Phan Thanh Tao (2004), Giáo trình Matlab, NXB Đà Nẵng. [5] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), Ƣớc lƣợng Bayes cho tỷ lệ trộn phân loại nhận dạng hai tổng thể, Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(1), tr 21 – 30. B. Tếng Anh [6] Andrews, H.C. (1972), Introduction to mathematical techniques in pattern recognition, Wiley, New York. [7] Pham–Gia, T. Turkkan, N. and Tai, Vovan., (2008), "The maximum function in statistical discrimination analysis",Commun. in Stat–Simulation computation 37(2). [8] Tai Vovan, NgocTu, Classification by Bayesian method, Journal applied Statistics (submitted 4/2012). C. Trang Web [9] http://www.ebook.edu.vn [10] http://www.tailieu.com.vn 57 PHỤ LỤC STT A 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 B 1 1 1 1 1 0 0 1 1 1 C 25 41 33 30 32 29 28 28 34 35 30 33 53 36 26 27 26 27 32 29 27 25 51 27 30 D E F G H 0 0 1 0 1 1 1 1 1 1 0 0 0 1 0 1 0 1 0 1 1 1 1 1 1 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 1 1 1 1 1 I 360 108 48 24 36 312 12 296 12 336 84 108 120 24 12 24 240 36 84 24 72 24 12 J 120 17 36 28 18 16 113 12 168 12 180 375 204 21 6 21 24 55 25 147 53 63 K 0 0 0 0 0 0 0 0 0 0 0 L 1 0 0 0 0 0 1 0 0 M 0 1 0 1 0 1 1 0 1 1 N O P Q 0 1 0 1 0 1 0 1 0 0 1 0 0 0 0 1 0 1 0 1 2 0 1 2 0 1 0 58 R 2.400 2.500 23.000 5.800 6.900 4.300 2.100 7.300 7.000 4.000 3.400 3.700 10.000 5.000 4.500 3.400 4.600 4.300 17.000 5.000 3.300 5.600 5.200 5.000 4.500 S .000 .500 17.000 1.800 2.900 1.300 .100 4.300 2.500 .000 1.400 .700 .000 2.000 2.500 1.400 .000 1.300 10.000 3.500 .300 .000 2.200 3.000 .500 T U .00 11.90 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 V 0 0 0 0 0 0 0 0 0 0 0 W 0 1 1 0 1 0 0 0 X 0 1 0 0 0 0 0 0 0 0 0 1 Y 1 1 1 1 1 1 1 1 1 1 1 1 Z 52.3 67.0 91.4 73.0 72.8 63.1 58.3 70.9 73.4 67.9 60.8 63.6 82.9 75.1 62.6 56.8 64.4 67.9 78.4 70.9 58.8 68.2 75.8 72.0 66.1 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 1 0 0 1 0 1 0 0 0 0 0 1 1 1 1 0 1 1 1 1 1 1 42 56 35 35 34 31 34 33 32 37 32 30 31 29 27 26 32 35 28 31 28 28 25 25 35 31 41 34 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 2 0 0 1 0 0 2 1 1 1 1 0 1 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 120 360 72 0 108 36 272 84 360 36 60 120 120 60 24 96 12 216 24 120 12 24 36 24 60 120 120 168 120 48 75 24 14 120 39 30 66 43 132 30 60 21 26 37 37 23 24 105 13 163 39 51 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 0 0 1 1 0 1 0 0 0 1 0 1 59 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 3 1 1 2 1 1 5.000 15.000 9.600 11.000 5.700 9.600 8.000 26.700 100.000 16.000 5.000 7.000 6.500 15.000 6.000 .000 9.600 17.000 10.000 4.200 4.600 4.600 6.000 12.100 15.000 18.000 30.000 6.000 .000 .000 2.600 .000 .000 2.600 5.000 20.700 50.000 10.000 1.000 4.000 3.000 10.000 2.000 .000 5.600 12.000 5.000 2.200 2.600 3.400 2.000 7.100 10.000 11.000 15.000 3.000 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 20.00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 1 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 75.6 84.3 81.3 80.5 72.2 77.6 72.7 93.5 90.3 83.0 68.4 71.6 73.4 78.1 66.7 59.5 79.6 88.7 73.2 69.3 67.3 68.4 72.9 78.8 83.9 85.9 94.0 75.3 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 51 35 30 28 27 29 34 31 47 47 48 35 33 34 30 29 29 29 28 28 30 27 24 26 35 32 28 31 1 1 1 1 1 1 1 1 1 1 1 1 0 2 0 0 0 0 1 1 0 1 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 1 1 0 0 0 0 1 0 0 0 600 48 24 72 36 12 120 12 45 168 360 120 48 84 12 18 60 24 24 120 60 48 12 24 360 128 25 29 42 21 120 24 276 48 180 72 83 33 75 78 102 17 26 15 72 25 37 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 1 1 0 1 0 0 1 1 1 1 0 1 1 0 60 0 1 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 2 2 2 1 2 1 1 2 10.000 6.000 10.000 4.446 6.200 5.500 15.000 5.000 4.000 4.000 3.000 10.000 12.000 7.896 5.300 7.000 13.000 5.560 13.000 7.000 11.000 5.700 10.000 4.500 6.500 6.000 9.600 30.000 6.000 3.500 .000 1.946 3.700 2.500 .000 1.000 -2.000 1.000 1.000 5.000 10.000 2.896 2.300 2.000 10.000 1.060 7.000 .000 5.000 3.700 5.000 2.500 4.000 3.000 6.800 20.000 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 83.3 74.7 82.1 63.8 72.4 64.8 81.3 64.8 73.6 74.5 68.3 77.2 75.2 75.0 72.1 72.9 81.0 69.2 77.5 70.4 73.9 67.7 78.3 67.1 77.2 71.1 73.4 86.3 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 1 1 1 1 1 0 1 0 0 0 0 1 0 1 1 1 0 1 1 1 1 1 1 29 50 50 51 46 49 51 46 45 44 46 46 54 36 37 44 45 28 37 37 34 28 29 38 31 51 34 50 1 1 1 1 1 1 1 0 0 1 0 3 2 2 2 2 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 24 120 588 228 528 120 168 36 528 180 156 60 72 60 144 36 48 324 144 432 12 24 324 432 168 216 156 312 77 384 120 288 96 289 96 180 313 124 132 18 96 33 147 124 40 79 12 139 18 180 16 240 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 61 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 2 2 2 2 1 11.300 10.000 4.500 8.000 150.000 25.000 4.000 20.000 5.000 15.000 9.100 5.000 15.300 12.200 6.000 12.000 8.000 6.000 5.200 5.200 6.000 6.400 5.000 11.000 6.277 15.000 7.200 6.861 6.300 6.000 1.000 3.000 50.000 10.000 .000 20.000 2.000 7.000 .000 1.500 8.304 8.200 4.000 6.000 4.000 .000 1.200 3.200 3.500 5.000 2.000 6.000 3.277 7.500 2.200 3.861 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 1 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 0 0 0 0 74.1 84.6 68.4 80.0 91.9 91.3 76.2 86.3 72.1 78.6 82.8 69.5 91.6 85.4 78.1 77.9 78.0 77.5 73.4 75.9 67.8 72.5 70.3 78.5 76.9 79.0 71.4 71.6 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 0 0 0 0 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 61 46 39 50 38 31 46 39 31 30 63 29 46 31 52 56 46 43 35 31 50 38 47 42 41 57 56 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 3 2 2 0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 144 15 37 12 180 528 24 12 180 12 144 10 12 24 72 396 30 24 120 48 12 168 223 32 12 147 10 25 72 52 84 72 156 60 163 120 162 60 192 194 180 28 0 0 0 0 1 1 1 0 1 1 1 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 1 62 1 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 1 1 1 2 1 1 1 30.000 25.000 4.648 2.648 12.820 4.823 9.500 .000 5.000 3.000 14.000 10.000 13.500 7.500 30.000 23.000 10.000 4.000 4.000 .000 110.000 70.000 26.000 14.000 80.000 50.000 18.000 12.000 36.000 20.000 4.300 2.800 13.400 .000 30.000 10.000 15.000 10.000 16.000 5.000 35.000 15.000 20.000 10.000 50.000 40.000 300.000 100.000 20.000 10.000 15.000 5.000 30.000 15.000 .00 .00 .00 .00 .00 .00 .00 .00 21.15 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 .00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 0 1 0 0 1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 87.2 67.8 82.2 73.5 70.6 76.5 83.9 90.8 76.7 69.6 86.0 90.7 88.0 85.4 92.8 71.8 84.1 91.4 83.9 83.3 96.3 87.8 93.4 93.6 86.1 82.5 94.0 Với KH KH Officer M Điểm TD Z Vip A DAB_ac N Gender B OtherB O Age C Debt P EH D DAB_Re Q Dependant E Income R Marrital F Saving S 63 Owned G Assets T Renting H Gov U LengthS I For V WorkT J Finance W HighR K CompVN X MediumR L Y Y [...]... càng nhỏ thì hình càng phù hợp Giá trị càng nhỏ thì hình càng phù hợp Giá trị càng nhỏ thì hình càng phù hợp Giá trị càng nhỏ thì hình càng phù hợp Giá trị càng nhỏ thì hình càng phù hợp Giá trị càng nhỏ thì hình càng phù hợp Giá trị càng nhỏ thì hình càng phù hợp Giá trị càng nhỏ thì hình càng phù hợp Giá trị càng lớn thì hình càng phù hợp mô mô mô mô mô mô mô mô Giá trị càng nhỏ thì mô hình càng phù... tiến: Bắt đầu với mô hình một biến sau đó lần lƣợt thêm dần từng biến một cho đến khi tìm đƣợc mô hình thích hợp 17 Chƣơng 2 BÀI TOÁN PHÂN LOẠI 2.1 TỔNG QUAN CỦA BÀI TOÁN PHÂN LOẠI 2.1.1 Giới thiệu Phân loại là việc gán một phần tử mới thích hợp nhất vào các tổng thể đã đƣợc biết trƣớc dựa vào biến quan sát của nó Hiện tại có ba phƣơng pháp chính đƣợc đƣa ra để giải quyết bài toán phân loại: Phƣơng pháp... dựng mô hình hồi quy là rất quan trọng Trong một nghiên cứu thông thƣờng với một biến số phụ thuộc, có nhiều biến số độc lập, giữa một biến độc lập và một biến phụ thuộc cũng có thể có nhiều mô hình hồi quy khác nhau đƣợc thiết lập Nhƣ vậy một vấn đề dự báo bằng mô hình hồi quy sẽ có nhiều mô hình khác nhau có thể đƣợc thiết lập Trong các mô hình thiết lập, mô hình nào đƣợc xem là phù hợp nhất? Mô hình. .. kết quả đạt đƣợc của bài toán phân loại 18 Trong các tài liệu này hồi quy Logistic đƣợc đề cập nhƣ một phƣơng pháp phân loại hiệu quả Dựa vào thống kê Bayes, phƣơng pháp phân loại Bayes đã ra đời Phƣơng pháp này cho đến hiện tại đƣợc xem có nhiều ƣu điểm nhất vì đã giải quyết đƣợc yêu cầu đặt ra của bài toán phân loại: Tìm ra thuật toán, đồng thời đƣa ra biểu thức tính sai số phân loại Hiện nay các kết... đƣợc các ̂ ̂ ̂ ̂ ̂ đƣợc mô hình hồi quy của mẫu ̂ ̂ , nên xây dựng 1.4.2 Lựa chọn biến và đánh giá đƣờng hồi quy a) Đánh giá đƣờng hồi quy Trong thực tế, cùng một biến phụ thuộc và tập các biến độc lập ta có thể xây dựng đƣợc nhiều mô hình hồi quy khác nhau Việc lựa chọn mô hình tối ƣu nhất thông thƣờng căn cứ vào các tiêu chuẩn đánh giá Từ số liệu mẫu chọn đƣợc ( xây dựng đƣợc mô hình hồi quy ̂ ) ( (... thiết phân phối chuẩn và phƣơng sai bằng nhau của các tổng thể nên có xác suất sai lầm trong phân loại nhỏ hơn phƣơng pháp Fisher Các kết quả nghiên cứu mới trong những năm gần đây về bài toán phân loại chủ yếu tập trung xung quanh phƣơng pháp Bayes Xác suất sai lầm trong phân loại bằng phƣơng pháp Bayes đƣợc gọi là sai số Bayes Sai số Bayes đã đƣợc chứng minh là xác suất sai lầm nhỏ nhất trong bài toán. .. bài toán phân loại Nghiên cứu về sai số Bayes đã đƣợc rất nhiều nhà thống kê quan tâm Một số kết quả mới rất có ý nghĩa về phƣơng pháp Bayes đã đƣợc trình bày trong những năm gần đây bởi các bài báo 2.1.2 Sơ lƣợc sự phát triển của bài toán phân loại Bài toán phân loại lần đầu tiên đƣợc đƣa ra bởi Fisher (1936) giải quyết cho trƣờng hợp hai tổng thể với hàm phân biệt tuyến tính Fisher Hàm phân biệt... đƣợc một mô hình ƣu việt theo một tiêu chuẩn nhƣng lại không ƣu việt theo tiêu chuẩn khác Ví dụ, tiêu chuẩn Schwarz coi trọng về tính phức tạp của mô hình hơn là các yếu tố khác và vì vậy có thể dẫn đến một kết luận khác Một mô hình tốt hơn một mô hình khác theo một số tiêu chuẩn sẽ đƣợc ƣa chuộng hơn Khi lựa chọn mô hình hồi quy Logistic, luận văn sử dụng tiêu chuẩn Log-likelihood để đánh giá 16 mô b)... của ƣớc lƣợng của tích phân là √ ( ̂) ( ) 1.4 HỒI QUY TUYẾN TÍNH BỘI 1.4.1 Mô hình a) Xây dựng mô hình hồi quy tuyến tính bội Mô hình hồi quy tuyến tính bội là sự mở rộng tự nhiên của mô hình hồi quy tuyến tính đơn Trong thực tế, ta thƣờng gặp không chỉ có biến ảnh hƣởng đến biến mà còn các biến khác ảnh hƣởng đến biến Y Do đó trong trƣờng hợp biến cùng ảnh hƣởng đến thì mô hình hồi quy không thỏa... đánh giá đã trình bày ở trên tốt nhất sẽ đƣợc chọn Để làm việc này ta thƣờng dùng phƣơng pháp phân tích hồi quy bậc thang Hai nguyên tắc xây hồi quy bậc thang thƣờng đƣợc sử dụng là Nguyên tắc lùi: Bắt đầu với mô hình hồi quy có chứa tất cả các biến độc lập Sau đó lần lƣợt loại trừ dần từng biến (dựa trên các tiêu chuẩn đánh giá) cho đến khi tìm đƣợc mô hình thích hợp Nguyên tắc tiến: Bắt đầu với mô . TỔNG QUAN VIỆC THỰC HIỆN 37 3.2.1 Số liệu 37 3.2.2 Phƣơng pháp thực hiện 38 3.2.3 Vấn đề tính toán 39 3.3 KẾT QUẢ THỰC HIỆN 39 3.3.1 Theo phƣơng pháp hồi quy Logistic 39 3.3.2 Phƣơng pháp Fisher.     Các hàm hạt nhân phổ biến đƣợc chọn theo đề suất của Silverman ( 198 6) và Scott ( 199 2) trong bảng sau: 9 Bảng 1.1. Một số hàm hạt nhân thông dụng. Hàm hạt nhân Biểu thức. phát triển của bài toán phân loại 18 2.2 PHÂN LOẠI BẰNG PHƢƠNG PHÁP FISHER 19 v 2.2.1 Trƣờng hợp hai tổng thể 19 2.2.2 Trƣờng hợp nhiều hơn hai tổng thể 20 2.2.3 Phân loại Fisher với phần

Ngày đăng: 21/09/2015, 18:52

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan