- Bộ dữ liệu có các thơng tin khảo sát bao gồm : o Gender : giới tính ( 1: Nam , 0 : Nữ)
o Married : Tình trạng hơn nhân ( 1: Đã kết hơn, 2: Chưa kết hôn)
o Undergraduate GPA : Điểm trung bình tích lũy khi chưa tốt nghiệp đại học
o Plan to attend graduate school : Có dự định học bậc sau đại học ( 1: Có, 0: Khơng)
Gender Married Undergraduate
GPA Plan to attend graduate school 1 1 2.9 1 1 1 3.1 1 1 0 3 0 1 0 3.5 1 1 0 3.2 1
27 Phân tích dữ liệu kinh doanh – IS403.M22
1 1 3.7 1 1 0 2.8 0 1 1 2.6 1 1 1 3.3 0 1 0 3.3 1 1 0 3.5 1 1 1 3.2 0 1 0 2.9 1 1 0 4 1 1 1 4 1 0 0 3.6 1 0 0 3.3 1 0 1 2.9 1 0 0 3.4 1 0 1 3 0 0 1 3.2 0 0 0 4 1 0 1 3 0 0 1 2.5 0 0 1 4 1 0 0 4 1 0 1 2.7 0 0 0 3.7 1 0 1 3.2 0 0 1 2.8 0
Bảng 2. Dữ liệu của Graduate School Survey
28 Phân tích dữ liệu kinh doanh – IS403.M22
- Biến độc lập : Gender, Married, Undergraduate GPA - Biến phụ thuộc: Plan to attend graduate school.
Câu hỏi đặt ra : Các biến trong khảo sát : giới tính (Gender), tình trạng hơn nhân ( Married), điểm trung bình tích lũy khi chưa tốt nghiệp đại học (Undergraduate GPA) có liên quan như thế nào với dự định học bậc sau đại học?
Cần tìm ra mức độ ảnh hưởng, liên quan giữa các biến độc lập (Gender, Married, Undergraduate GPA) tới biến phụ thuộc ( Plan to attend graduate school) - Vì biến phụ thuộc (Plan to attend graduate school) là một biến nhị phân nhận giá
trị 1 cho việc có dự định học sau đại học và 0 người khơng có dự định nên chúng ta khơng thể áp dụng mơ hình hồi quy tuyến tính ( mơ hình hồi quy tuyến tính áp dụng cho các biến phụ thuộc là biến liên tục).
Để tìm mối liên hệ giữa biến phụ thuộc và biến độc lập trong trường hợp này chúng ta sử dụng mơ hình hồi quy logistic.
Tiến hành phân tích
Gọi Y là dự định học bậc sau đại học Y = 1: Có dự định học bậc sau đại học
Y = 0 : Khơng có dự định học bậc sau đại học
Gọi p là xác xuất một người có dự định học bậc sau đại học. Ta có p = Pr( Y = 1).
Odds là khả năng của một người có dự định học bậc sau đại học được định nghĩa bằng tỉ số xác suất một người có dự định học bậc sau đại học trên xác suất một người khơng có dự định học bậc sau đại học. Ta có:
29 Phân tích dữ liệu kinh doanh – IS403.M22
Odds ratio là tỷ số của 2 odds
odds(x = x + 1)
odds(x = x ) =
e∝ ( )
e∝ = e
Ước lượng mơ hình logit
- Để ước lượng tham số chúng ta sử dụng phương pháp hợp lý tối đa ( Maximum likelihood). Phần mềm thống kê Exel có hỗ trợ phương pháp này.
- Chúng ta sẽ sử dụng package Real Statistics Resource Pack của Exel
Bước 1: Chọn Adds-in => Real Satistics => Data Analysis Tool => Reg => Chọn Logistics and probit regression => OK
Hình 19. Hộp thoại Real Statistics
30 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 20. Hộp thoại Logistic Regression
31 Phân tích dữ liệu kinh doanh – IS403.M22
32 Phân tích dữ liệu kinh doanh – IS403.M22
Diễn giải kết quả
Hình 4.Kết quả phân tích Real Statistics
- Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPA cps p_value < alpha(=0.05)
Biến có ý nghĩa thống kê và có mối liên quan đến biến dự định học bậc sau đại học.
- Ngược lại hệ số các biến giới tính (Gender) và tình trạng hơn nhân ( Married) có p-value > alpha
Khơng có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biến dự định học bậc sau đại học, nên loại bỏ chúng khỏi mơ hình.
Sau khi loại bỏ biến khơng liên qua ta có dữ liệu mới như sau: Undergraduate GPA Plan to attend graduate school 2.9 1 3.1 1 3 0 3.5 1 3.2 1 3.7 1
33 Phân tích dữ liệu kinh doanh – IS403.M22
2.8 0 2.6 1 3.3 0 3.3 1 3.5 1 3.2 0 2.9 1 4 1 4 1 3.6 1 3.3 1 2.9 1 3.4 1 3 0 3.2 0 4 1 3 0 2.5 0 4 1 4 1 2.7 0 3.7 1 3.2 0 2.8 0
34 Phân tích dữ liệu kinh doanh – IS403.M22
- Kết quả phân tích
35 Phân tích dữ liệu kinh doanh – IS403.M22
Diễn giải kết quả
Từ kết quả ta được phương trình hồi quy sau: Ta có:
log 𝑝
1 − 𝑝 = −10.9095 + 3.593 ∗ 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 + 𝜀
= 𝑒−10.9095+3.593∗𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴
Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt : - là Odd
- Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 0) => 𝑂𝑑𝑑 = 𝑒 . - Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 1) => 𝑂𝑑𝑑 = 𝑒 . , - Tỉ số = . . , ≈ 36,359
Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA) Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359 lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên 3,6359 lần.
Cách tính các hệ số bằng Exel Solver
- Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA
- Sau đó tiến hành tính các giá trị:
36 Phân tích dữ liệu kinh doanh – IS403.M22
o p =
- Ta được kết quả như sau:
Hinh 23. Kết quả của L, p và LL
- Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi nhấn Solve.
Kết quả thu được là giá trị các hệ số trong mơ hình. Giá trị đúng với giá trị được tính bằng real statisitc.
37 Phân tích dữ liệu kinh doanh – IS403.M22
Hinh 24. Các hệ số được tính bằng Exel Solver
Standard Error
Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy. Các giá trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui hơn.
- Bước 1 : Tính Cov :
Đường chéo của ma trận là phương sai của các biến
Hình 23. Ma trận Covariance
- Bước 2: Tìm Standard Error thông qua công thức 𝑆𝐸 = 𝑉𝑎𝑟(𝐵 )
38 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 24. Kết quả Standard Error
Wald và p-values
- Dùng để kiểm tra hệ số hồi quy Wald test: 𝑊𝑎𝑙𝑑 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 =
P – Values = CHISQ.DIST.RT(Wald Statistic, 1)
Hình 25. Kết quả của Wald, p-value
Exp(b) – tỷ số odds
- Là tỷ số odds : ( )
39 Phân tích dữ liệu kinh doanh – IS403.M22
Những thước đo về sự phù hợp của mơ hình
Hình 26. Kết quả của LL statistics của mơ hình
- Log likelihood với mơ hình có đầy đủ biến giải thích (LL)
40 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 27. Kết quả của LL và LL0
Pearson’s chi square (Chi-sq) và Df
- Chi-sq có giá trị càng thấp mơ hình càng phù hợp với dữ liệu - Df là số các biến giải thích trong mơ hình : k= 1
Pseudo R
Phản ánh mức độ phù hợp của mơ hình. Pseudo R càng cao, mơ hình càng phù hợp với dữ liệu. Pseudo R luôn nằm trong khoảng [0; 1]. Giá trị Pseudo R luôn tăng khi thêm các biến mới vào một mơ hình. Do đó Pseudo R chỉ có thể
41 Phân tích dữ liệu kinh doanh – IS403.M22
so sánh giữa các mơ hình có cùng số lượng biến và định dạng dữ liệu giữa các biến. 𝑅 = 1 − 𝐿𝐿 𝐿𝐿 𝑅 = 1 − 𝑒 ( ) 𝑅 = 𝑅 1 − 𝑒 Ta được kết quả như sau
Hình 28. Kết quả
Ta thấy 𝑅 = 0.3854 có nghĩa là biến Plan to attend graduate school được giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các yếu tố khác.
AIC, BIC
Dùng để so sánh các mơ hình khác nhau. Giá trị AIC, BIC càng nhỏ mơ hình càng phù hợp với dữ liệu.
𝐴𝐼𝐶 = −2 ∗ 𝐿𝐿 + 2 ∗ 𝑘 𝐵𝐼𝐶 = −2 ∗ 𝐿𝐿 + ln(𝑁) ∗ 𝑘 với k là số biến quan sát được, N tổng số các quan sát
42 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 29. Kết quả
Đường cong ROC
Đo lường khả năng phân loại của 1 mơ hình bằng giá trị AUC ( area under curve -diện tích dưới đường cong). Ta có bảng phân loại sau:
\
Hình 30. Bảng phân loại của mơ hình
- Bảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại đúng/sai như thế nào. Ta thấy số lượng người được khảo sát có dự định học bậc sau đại học là 19 người và trong số 19 người đó mơ hình dự đốn 15 người có dự định học và dự đốn 4 người khơng có dự định học.
- Cịn số lượng người được khảo sát khơng có dự định học bậc sau đại học là 11 người trong đó mơ hình dự đốn 4 người có dự định học và dự đốn 7 người khơng có dự định học.
- Từ bảng phân loại ta tính được giá trị True Positive Rate(TPR) và Fale Positve Rate(FPR), Accuracy
43 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 31. Bảng giá trị True Positive và Fale Positve
- Giá trị AUC = 0.827 có nghĩa là trong 100 người thì có 83 cặp quan sát (1 người có dự định học bậc sau đại học và 1 người khơng có dự định học) có xác suất dự báo của người có dự định học bậc sau đại học lớn hơn xác suất của người khơng có dự định học AUC dùng để đánh giá mơ hình có phân loại hiệu quả hay không. Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mơ hình dự báo phân loại khơng tốt.
44 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 32. Bảng diễn giải ý nghĩa AUC
● Kết luận: Từ những kết quả trên chúng tơi cũng có thể thấy điểm trung bình tích
lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học.