6. CẤU TRÚC CỦA LUẬN VĂN
3.3.2 Phương pháp Fisher
a) Phương pháp thực hiện
Lần lượt thực hiện việc phân loại cho trường hợp 1 biến, 2 biến và 3 biến. Dựa vào khả năng phân loại đúng để lựa chọn mơ hình phù hợp nhất. Việc thực hiện dựa trên phần mềm SPSS.
b) Kết quả thực hiện
Thực hiện việc phân tích trên phần mềm SPSS ta cĩ bảng tĩm tắt sau:
Bảng3.6. Tổng hợp các trường hợp phân loại bằng phương pháp Fisher. Trường
hợp Biến Hàm phân biệt
Khả năng phân loại đúng 1 biến X2 d x1( )0 0.751 2 2.837X 2( )0 0.946 2 4.095 d x X 63.1% X5 d x1( )0 0.290 5 1.331X 2( )0 0.452 5 2.241 d x X 61.5% X7 d x1( )0 8.904 7 20.935X 2( )0 9.653 7 24.481 d x X 58.5% 2 biến X2, X5 d x1( )0 0.691 2 0.127 5 2.946X X 2( )0 0.825 2 0.258 5 4.541 d x X X 65.1% X2, X7 d x1( )0 0.291 2 8.675 7 21.242X X 2( )0 0.453 2 9.295 7 25.227 d x X X 62.1% X5, X7 d x1( )0 0.463 5 9.163 7 22.540X X 2( )0 0.641 5 10.011 7 27.556 d x X X 66.7% 3 biến X2, X5, X7 1( )0 0.057 2 0.449 5 9.110 7 22.550 d x X X X 2( )0 0.137 2 0.606 5 9.883 7 27.616 d x X X X 66.2%
Nhận xét: Dựa vào bảng 3.6 ta thấy trường hợp sử dụng 2 biến X5, X7 và trường hợp 3 biến X2, X5, X7 cĩ xác suất phân loại đúng cao nhất. Vì vậy ta chọn 1 trong 2 trường hợp để phân tích chi tiết. Ta tiến hành phân tích chi tiết cho truờng hợp 2 biến X5 và X7.
Sử dụng chương trình SPSS
SPSS đưa ra khá nhiều bảng. Ở đây, chúng ta quan tâm một số bảng quan trọng sau:
53
Bảng 3.7. Phân loại bằng phương pháp Fisher cho 2 biến H và N. Bảng 3.7.a
Group Statistics
Kha nang tiep can von tin
chap Mean Std. Deviation
Valid N (listwise) Unweighted Weighted Khong Kinh nghiem (nam) 4.392 3.7046 97 97.000
Trinh do hoc van 4.546 .9577 97 97.000 Co Kinh nghiem (nam) 6.842 4.0637 98 98.000 Trinh do hoc van 4.929 .3290 98 98.000 Total Kinh nghiem (nam) 5.623 4.0689 195 195.000
Trinh do hoc van 4.738 .7380 195 195.000
Bảng 3.7.b
Covariance Matricesa
Kha nang tiep can von tin chap Kinh nghiem (nam) Trinh do hoc van Total Kinh nghiem (nam) 16.556 -.049
Trinh do hoc van -.049 .545
a. The total covariance matrix has 194 degrees of freedom.
Bảng 3.7.c
Pooled Within-Groups Matricesa
Kinh nghiem (nam) Trinh do hoc van Covariance Kinh nghiem (nam) 15.126 -.285
Trinh do hoc van -.285 .511 a. The covariance matrix has 193 degrees of freedom.
Bảng 3.7.d
Classification Function Coefficients
Kha nang tiep can von tin chap
Khong Co
Kinh nghiem (nam) .463 .641
Trinh do hoc van 9.163 10.011
(Constant) -22.540 -27.556
54
Bảng 3.7.e
Prior Probabilities for Groups
Kha nang tiep can von tin chap Prior Cases Used in Analysis Unweighted Weighted Khong .500 97 97.000 Co .500 98 98.000 Total 1.000 195 195.000 Bảng 3.7.f Classification Resultsa
Kha nang tiep can von tin chap
Predicted Group Membership
Total Khong Co Original Count Khong 68 29 97 Co 36 62 98 % Khong 70.1 29.9 100.0 Co 36.7 63.3 100.0
a. 66.7% of original grouped cases correctly classified.
Giải thích các bảng và đọc kết quả
Bảng Group Statistics: Cho ta biết các trung bình và độ lệch chuẩn của từng tổng thể. Theo trên, ta cĩ: 1 2 1 2 4.392 6.842 , 4.546 4.929 3.705 4.064 , 0.958 0.329
Ma trận hiệp phương sai chung của các tổng thể và ma trận nghịch đảo của nĩ
15.126 0.285
0.285 0.511
S
Bảng Classification Function Coefficents: Cho ta biết các hệ số của các hàm phân biệt Fisher.Theo trên, ta cĩ
Hàm phân biệt của tổng thể w1 là
1( )0 0.463 5 9.163 7 22.540
55 Hàm phân biệt của tổng thể w2 là
2( )0 0.641 5 10.011 7 27.556
d x X X .
Bảng Prior Probabilities for Groups: Cho biết xác suất tiên nghiệm được chọn cho từng nhĩm. Ở đây, ta cĩ q1 q1 0.5
Bảng Classification Results: Do bước 5 nên sau khi phân tích, SPSS tiến hành tiên đốn lại các phần tử sẽ thuộc tổng thể nào? Và tính xác suất phân loại cho từng phần tử đĩ.Theo bảng này thì việc phân loại đúng 66.7%.
Hình 3.3. Bảng dữ liệu sau khi chạy chương trình SPSS cho biến X5 và X7.
trong đĩ,
Cột Dis_1 (Predicted Group): Tiên đốn phân loại các phân tử vào các nhĩm,
Cột Dis1_1 (Discriminant Scores): Điểm phân loại,
Cột Dis1_2 (Probabilities of Members in Group 0): Xác suất phân loại các phần tử vào nhĩm “KVTC”,
Cột Dis2_2 (Probabilities of Members in Group 1): Xác suất phân loại các phần tử vào nhĩm “VTC”.
Cụ thể, xét phần tử số 1 thì ta thấy xác suất để phần tử này rơi vào nhĩm 0 là 0.3048, cịn xác suất phần tử số 1 rơi vào nhĩm 1 là 0.6952. Vậy, phần tử số 1 được tiên đốn là thuộc nhĩm “VTC” (nhĩm 1).
56 Giả sử một người cĩ 0 1
1
x
thì người này thuộc nhĩm nào? Sử dụng hàm phân biệt ta cĩ
1( )0 0.463 9.163 22.540 12.914
d x
2( )0 0.641 10.011 27.556 16.904
d x
Như vậy, ta cĩ d x1( )0 12.914 . Do đĩ, ta cĩ thể xếp người này cĩ 0 1 1 x vào nhĩm “KVTC”. 3.3.3 Phương pháp Bayes a) Phương pháp thực hiện
Lần lượt thực hiện việc phân loại cho trường hợp một biến, hai biến và ba biến. Mỗi trường hợp việc tính tốn sẽ được sử dụng các chương trình đã viết trên phần mềm Matlab để thực hiện. Trong cả ba trường hợp hàm mật độ xác suất được ước lượng theo phương pháp hàm hạt nhân với tham số trơn được chọn theo Scott (1992) và hàm hạt nhân được chọn dạng chuẩn.
b) Kết quả thực hiện
Từ số liệu trong phụ lục, sử dụng chương trình 1 để ước lượng hàm mật độ xác suất một chiều với các biến X2, X5 và X7; sử dụng chương trình 2 để ước lượng hàm mật độ xác suất 2 chiều với các biến X2 và X5, X2 và X7, X5 và X7; sử dụng chương trình 2 để ước lượng xác suất 3 chiều cho các biến X2, X5 và X7. Sử dụng chương trình tính sai số Bayes ở mục 2.4.3 với các hàm mật độ xác suất ước lượng ta cĩ bảng tĩm tắt sau:
Bảng 3.8. Bảng tổng hợp sai số các trường hợp phân loại. Trường hợp Sai số 1 biến X2 0.3731 X5 0.2300 X7 0.1894 2 biến X2 và X5 0.4960 X2 và X7 0.5430 X5 và X7 0.3320 3 biến X2, X5 và X7 0.2350
Nhận xét: Qua bảng 3.8 ta thấy khi sử dụng phương pháp Bayes để phân loại khách hàng thì trường hợp sử dụng 1 biến X7 sẽ cĩ sai số Bayes thấp nhất.
57 0 1 2 3 4 5 6 7 8 9 10 0 0.5 1 1.5 2 2.5 3
Hình 3.4 Đồ thị hàm mật độ xác suất của biến X7. 3.4 KẾT LUẬN
Từ 3 phương pháp đã thực hiện cho dữ liệu, chúng ta cĩ những kết luận sau: i) Trong 9 biến được khảo sát chỉ cĩ 3 biến X2, X5, X7 cĩ nhiều ảnh hưởng đến khả năng vay tín chấp của khách hàng, 3 biến này cĩ ý nghĩa thống kê 5% khi đưa vào mơ hình.
ii) Khả năng phân loại đúng của các phương pháp trong các trường hợp được cho bởi bảng tĩm tắt sau:
Bảng 3.9. Bảng tổng hợp khả năng phân loại đúng của 3 phương pháp.
Phương pháp Khả năng phân loại đúng 1 biến 2 biến 3 biến Hồi quy Logistic 63.1% 67.2% 66.7% Fisher 63.1% 66.7% 66.2% Bayes 79.8% 66.8% 76.5%
Bảng 3.9 cho ta thấy, khi phân loại sử dụng 1 biến, 2 biến và 3 biến thì mơ hình Bayes cho ta xác suất phân loại tốt nhất.
Như vậy so với phương pháp Fisher, phương pháp hồi quy Logistic thì phương pháp Bayes cĩ nhiều ưu điểm hơn. Khả năng phân loại đúng của hai phương pháp Fisher và Logistic khơng cĩ sự chênh lệch nhiều, trong đĩ khả năng phân loại đúng cao nhất là 79.8% cho trường hợp sử dụng 1 biến trình độ học vấn
58 (X7) bằng phương pháp Bayes.
59
KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU
1. KẾT LUẬN
Luận văn đã làm được những cơng việc sau:
- Tổng kết một cách cĩ hệ thống các phương pháp phân loại: phương pháp Fisher, phương pháp hồi quy Logistic và phương pháp Bayes.
- Ứng dụng các phương pháp phân loại vào việc đánh giá khả năng tiếp cận vốn vay tín chấp tại địa bàn tỉnh Hậu Giang.
2. ĐỊNH HƯỚNG NGHIÊN CỨU
Trong thời gian tới em sẽ tiếp tục nghiên cứu những vấn đề sau:
- Tìm hiểu kỹ hơn về lý thuyết liên quan đến các phương pháp phân loại, tìm hiểu thêm các phương pháp phân loại khác.
- Ứng dụng các phương pháp phân loại vào các bài tốn khác nhau của thực tế cĩ yêu cầu.
60
TÀI LIỆU THAM KHẢO A. Tiếng Việt
[1] Vương Quân Hồng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp thống kê xây dựng mơ hình định mức tín nhiệm khách hàng thế nhân, Tạp chí ứng dụng tốn học 4(2), tr 1-16.
[2] Võ Văn Tài và Tơ Anh Dũng (2009), Sử dụng hàm cực đại trong bài tốn nhận dạng, Tạp chí phát triển khoa học cơng nghệ, Đại học Quốc gia TPHCM, số 12(7): 21 – 30.
[3] Võ Văn Tài và Tơ Anh Dũng (2012), Khoảng cách L1 trong phân tích phân biệt, Tạp chí ứng dụng tốn học, số 1:15 – 36.
[4] Võ Văn Tài và Trần Phước Lộc (2012), Giáo trình Nhận dạng thống Kê, NXB Đại học Cần Thơ. 148 trang.
[5] Hồng Trọng và Chu Nguyễn Mộng Ngọc (2008), Phân tích dữ liệu nghiên cứu với SPSS (tập 1), NXB Hồng Đức. 295 trang.
[6] Hồng Trọng và Chu Nguyễn Mộng Ngọc (2008), Phân tích dữ liệu nghiên cứu với SPSS (tập 2), NXB Hồng Đức. 197 trang.
[7] Tơ Cẩm Tú và Nguyễn Huy Hồng (2003), Phân tích số liệu nhiều chiều, NXB Khoa học và Kỹ thuật, Hà Nội. 520 trang.
B. Tếng Anh
[8] Andrew. W (2002), Statistical pattern recognition, John Wiley & Sons, pp.490
[9] Glick, N. (1973), Separation and probability of correct classification among two or more distributions, Annals Inst. Stat Math., 25, pp.373–382.
[10] Pham–Gia,T. and Turkkan, N., Baysian analysis in the L1– norm of the mixing proportion using discriminant analysis, Metrika, 64(1),2006, pp.1–22. [11] Pham–Gia,T.,Turkkan, N. and Bekker,A. (2006), Bounds for the Bayes error in classification: A Bayesian approach using discriminant analysis,
Statistical Methods Statistical Methods and Applications,16:pp.7 – 26.
[12] Pham–Gia, T. Turkkan, N. and Tai, Vovan (2008), The maximum function in statistical discrimination analysis, Commun. in Stat –Simulation computation,
37(2):pp. 320 – 336.
[13] Richard.O.D, E.H.Peter and G.S.David (2001), Pattern classification, John Wiley & Sons,pp.654.