Kiểm tra cỡ mẫu có phù hợp để chạy thống kê hay không? Theo Schwab (2007) điều kiện tiên quyết để có thể chạy thống kê là tỷ lệ tối thiếu của cỡ mẫu so với số biến độc lập là 10:1 (tức là cỡ mẫu tối thiểu phải gấp 10 lần tổng số biến độc lập có trong mô hình) và tỷ lệ cho kết quả tốt hơn là 20:1.
Mô hình ban đầu có cỡ mẫu: 379 quan sát; tổng số biến độc lập: 23 biến. Tỷ lệ (cỡ mẫu: tổng số biến độc lập) là (16,5:1), thỏa mãn yêu cầu tỷ lệ tối thiểu (10:1). Nhƣ vậy, chúng tôi có thể tiến hành chạy hồi quy logistic.
Chạy hồi quy, trong lần chạy ban đầu này, chúng tôi cần tính toán thêm 2 giá trị: (1) phần dƣ đƣợc chuẩn hóa (standardized residual) của từng quan sát để tìm ra các quan sát ngoại lai21 (outliers); (2) cook’s distance của từng quan sát để tìm ra các trƣờng hợp ảnh hƣởng22 (influential cases). Mục tiêu của việc tìm ra các quan sát có tính chất trên là để loại bớt các quan sát này ra khỏi mẫu để có kết quả chạy hồi qui tốt hơn. Theo Schwab (2007) thì các quan sát có giá trị
21 Quan sát ngoại lai: là quan sát có giá trị cách xa trung tâm quan sát một cách bất thƣờng giá trị.
lớn hơn 3 đƣợc xem là quan sát ngoại lai và quan sát có cook’s distance lớn hơn 1 đƣợc cho là quan sát có ảnh hƣởng.
Kết quả chạy bộ dữ liệu ban đầu cho kết quả về tỷ lệ chính xác phân loại23 (classification accuracy rate) là 85,8%
Bảng 4.16. Tỷ lệ chính xác phân loại (dữ liệu ban đầu)
Quan sát
Dự đoán
Doanh nghiệp có EC? Tỷ lệ chính xác
0 1
Doanh nghiệp có EC? 0 289 11 96,3
1 43 36 45,6
Tỷ lệ chính xác tổng thể 85,8
Nguồn dữ liệu: Kết quả chạy hồi quy binary logistic từ bộ dữ liệu ban đầu.