Phương pháp xử lý và phân tích dữ liệu

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ NGHIÊN CỨU CÓ LIÊN QUAN

3.4. Phương pháp xử lý và phân tích dữ liệu

Trong nghiên cứu này sử dụng phần mềm SPSS để hỗ trợ việc xử lý và phân tích dữ liệu thu thập được từ điều tra thực tế, sau đó sử dụng các phương pháp để đánh giá.

3.4.2. Phương pháp thống kê mô tả

Phương pháp này được vận dụng để mô tả phân tích tổng quát tình hình, khái quát về những đặc trưng trên địa bàn nghiên cứu; sử dụng các dữ liệu thống kê trên cơ sở những dữ liệu có sẵn và số liệu thu thập được để tiến hành phân tích, đánh giá về.

3.4.3. Phương pháp phân tích hồi quy

Trên cơ sở thiết lập phương trình, tiến hành hồi quy, kiểm định ý nghĩa các biến độc lập, từ đó nghiên cứu, phân tích các yếu tố ảnh hưởng đến khả năng trả nợ đúng hạn của khách hàng cá nhân tại Vietcombank Bình Dương

3.4.3.1. Mô hình hồi quy Binary Logistic (Logit)

Để tiến hành đo lường các yếu tố ảnh hưởng đến khả năng trả nợ đúng hạn của khách hàng cá nhân tại Vietcombank Bình Dương, đề tài tiến hành dựa trên mô hình hồi quy Binary Logistic để phân tích mối liên hệ giữa biến phụ thuộc với các biến độc lập.

Theo Hoàng Trọng và Chu Nguyễn Mộng Ngọc (2008), với mô hình hồi quy Binary Logistic, thông tin cần thu thập về biến phụ thuộc Y và biến độc lập X. Đây là mô hình định lượng với biến phụ thuộc Y là biến giả, chỉ nhận hai giá trị là 0 và 1, với giá trị bằng 0 là không xảy ra sự kiện và bằng 1 là có xảy ra.

Mô hình hồi quy Binary Logistic (hoặc mô hình Logit) là một mô hình toán học hồi quy để xem xét mối liên hệ giữa biến phụ thuộc Y và tất cả các biến độc lập (Xi), có dạng như sau:

Pi = E (Y = 1/Xi) = ( )

1 ( )

Trong công thức này Pilà kỳ vọng xác suất Y=1 với điều kiện Xixảy ra. Xi

là biến độc lập. Khi đó, xác suất không xảy ra sự kiện là:

P(Y=0) = 1 – P(Y=1)

Áp dụng phương pháp tuyến tính hóa, mô hình được viết thành:

Loge P

1 t P = 1 1

Ý nghĩa của mô hình: Trong điều kiện các yếu tố khác không đổi, khi biến độc lập Xithay đổi 1 đơn vị thì biến phụ thuộc Y sẽ thay đổi 1 lượng βi so với ban đầu. Nếu hệ số hồi quy βi dương thì nhân tố Xi sẽ có tác động cùng chiều và ngược lại nếu hệ số hồi quy βiâm thì nhân tố Xisẽ có tác động ngược chiều.

Ngoài ra, để đảm bảo mô hình không bị mắc các khuyết tật về dữ liệu và sai lệch, đề tài sẽ tiến hành kiểm định tự tương quan, đa cộng tuyến và phương sai thay đổi (nếu có), từ đó sẽ tiến hành điều chỉnh nhằm mang lại kết quả chính xác hơn cho đề tài.

3.4.3.2. Các kiểm định

Trước khi chính thức thực hiện hồi quy Binary Logistic, nghiên cứu tiến hành một số kiểm định ban đầu như: Phân tích tương quan để xem xét mối tương quan giữa các biến với nhau, đặc biệt là kiểm định xem có mối tương quan giữa

biến phụ thuộc và các biến độc lập trong mẫu quan sát, hiện tượng đa cộng tuyến để kiểm tra vi phạm các biến độc lập trong mô hình có phụ thuộc lẫn nhau hay không. Khi các kiểm định này thỏa mãn, các kiểm định về mức độ phù hợp của mô hình và kiểm định thêm về tính nội sinh của mô hình với các giả thiết về hệ số hồi quy sẽ được tiến hành và phân tích.

 Kiểm định tương quan Pearson

Mục đích chạy tương quan Pearson nhằm kiểm tra mối tương quan tuyến tính chặt chẽ giữa biến phụ thuộc với các biến độc lập, vì điều kiện để hồi quy là trước nhất phải tương quan (sig.< 0,05). Phân tích này dựa trên kết quả hệ số tương quan trong ma trận hệ số tương quan giữa các biến trong mô hình nghiên cứu.

 Kiểm định đa cộng tuyến

Để dò tìm và phát hiện hiện tượng đa cộng tuyến, nghiên cứu sử dụng công cụ phóng đại phương sai (VIF – Variance Inflation Factor), quy tắc là khi VIF vượt quá 10 thì mô hình xảy ra hiện tượng đa cộng tuyến (Hoàng Trọng và Chu Nguyễn Mộng Ngọc, 2008).

Một biện pháp dò tìm khác cũng khá hiệu quả đó là xem xét các hệ số tương quan tuyến tính giữa các biến giải thích trong ma trận hệ số tương quan.

Nếu tồn tại mỗi quan hệ tương quan mạnh giữa các biến độc lập với nhau thì mô hình có khả năng xảy ra hiện tượng đa cộng tuyến.

Trường hợp nếu mô hình nghiên cứu có xảy ra hiện tượng đa cộng tuyến, đề tài sử dụng phương pháp loại bỏ bớt biến giải thích ra khỏi mô hình, cụ thể như sau:

- Bước 1: Xem cặp biến nào có quan hệ chặt chẽ. Giả sử X2, X3, . . . Xklà các biến độc lập, Y là biến phụ thuộc và X2, X3 có tương quan chặt chẽ với nhau.

- Bước 2: Tính R2đối với các hàm hồi quy: Có mặt cả hai biến; không có mặt một trong hai biến.

- Bước 3: Loại biến mà giá trị R2tính được khi không có mặt biến đó là lớn hơn.

 Kiểm định mức độ phù hợp của mô hình

Kiểm định độ phù hợp tổng quát: Đối với kiểm định này, hồi quy Logistic sử dụng kiểm định Chi-square để xem các biến số đưa vào mô hình thực sự có ý nghĩa trong việc giải thích cho biến phụ thuộc hay không. Kết luận được đánh giá dựa vào mức ý nghĩa quan sát mà SPSS đưa ra trong bảng Omnibus Tests of Model Coefficients. Nếu sig. Nhỏ hơn mức ý nghĩa đưa ra thì có thể khẳng định tồn tại mối tương quan giữa các biến độc lập và biến phụ thuộc trong mô hình nghiên cứu.

Đo lường sự phù hợp của mô hình hồi quy Logistic còn được dựa trên chỉ tiêu -2LL (viết tắt của -2 log likelihood), thước đo này càng nhỏ càng tốt vì -2LL càng nhỏ thì càng thể hiện độ phù hợp của mô hình cao. Giá trị nhỏ nhất của - 2LL là 0 (tức là không có sai số), khi đó mô hình có độ phù hợp hoàn hảo.

Ngoài ra, ta cũng có thể xác định được mô hình dự đoán tốt đến đâu qua bảng phân loại Clasification Table do SPSS đưa ra, bảng này sẽ so sánh số thực và số dự đoán cho từng biểu hiện và tính tỷ lệ đoán đúng.

 Kiểm định ý nghĩa của các hệ số (kiểm định Wald)

Trong hồi quy Logistic, kiểm định Wald sẽ được sử dụng để kiểm định ý nghĩa thống kê của các hệ số hồi quy tổng thể.

Cách thức sử dụng mức ý nghĩa sig. Cho kiểm định Wald cũng theo nguyên tắc thông thường, nếu sig. nhỏ hơn mức ý nghĩa đưa ra thì kết luận có ý nghĩa về mặt thống kê và ngược lại.

 Kiểm định Hosmer và Lemeshow

Kiểm định Hosmer-Lemeshow (1980) là kiểm định sự phù hợp của hàm hồi quy với biến độc lập là biến nhị phân. Kiểm định này được sử dụng rất phổ biến nhưng bên cạnh đó vẫn còn nhiều điểm chưa được phù hợp.

Thông thường, để đánh giá mức độ giải thích (predict power) của biến độc lập cho biến phụ thuộc người ta dùng R2. Chỉ số này cho biết những biến độc lập giải thích được bao nhiêu % sự thay đổi của biến phụ thuộc. Ngược lại, goodness-of-fit (GOF) tests cho biết liệu mô hình đã chọn có chính xác hay không. Nếu p-value thấp (<0.05) loại bỏ mô hình, p-value cao thì chấp nhận mô hình.

Mô hình với biến phụ thuộc là nhị phân, thông thường phải dùng link function (logit, probit, log-log hay hàm gì đó) tức là mô hình không trực tiếp dự báo xác suất. Vì vậy, kể cả trường hợp tuyến tính hay phi tuyến, vẫn có thể có trường hợp R2 cao, nhưng mô hình phân loại không chính xác và ngược lại R2 thấp nhưng mô hình lại phân loại chính xác.

TÓM TẮT CHƯƠNG 3

Chương 3, tác giả đã xây dựng mô hình nghiên cứu cùng các giả thuyết nghiên cứu. Đồng thời tác giả trình bày các phương pháp xử lý dữ liệu với mô hình Binary Logistics cũng như các kiểm định giả thuyết thống kê nhằm khẳng định tính thích hợp của mô hình. Ở chương tiếp theo sẽ đề cập tác giả sẽ lượng hóa các yếu tố ảnh hưởng đến khả năng trả nợ của khách hàng cá nhân, và mức độ ảnh hưởng của các yếu tố này đến nợ quá hạn, nợ xấu của Chi nhánh.

Phương pháp xử lý và phân tích dữ liệu

Các nghiên cứu trên thế giới

Các nghiên cứu trong nước