Ví dụ minh họ a: Graduate School Survey

- Bộ dữ liệu có các thơng tin khảo sát bao gồm : o Gender : giới tính ( 1: Nam , 0 : Nữ)

o Married : Tình trạng hơn nhân ( 1: Đã kết hơn, 2: Chưa kết hôn)

o Undergraduate GPA : Điểm trung bình tích lũy khi chưa tốt nghiệp đại học

o Plan to attend graduate school : Có dự định học bậc sau đại học ( 1: Có, 0: Khơng)

Gender Married Undergraduate

GPA Plan to attend graduate school 1 1 2.9 1 1 1 3.1 1 1 0 3 0 1 0 3.5 1 1 0 3.2 1

27 Phân tích dữ liệu kinh doanh – IS403.M22

1 1 3.7 1 1 0 2.8 0 1 1 2.6 1 1 1 3.3 0 1 0 3.3 1 1 0 3.5 1 1 1 3.2 0 1 0 2.9 1 1 0 4 1 1 1 4 1 0 0 3.6 1 0 0 3.3 1 0 1 2.9 1 0 0 3.4 1 0 1 3 0 0 1 3.2 0 0 0 4 1 0 1 3 0 0 1 2.5 0 0 1 4 1 0 0 4 1 0 1 2.7 0 0 0 3.7 1 0 1 3.2 0 0 1 2.8 0

Bảng 2. Dữ liệu của Graduate School Survey

28 Phân tích dữ liệu kinh doanh – IS403.M22

- Biến độc lập : Gender, Married, Undergraduate GPA - Biến phụ thuộc: Plan to attend graduate school.

 Câu hỏi đặt ra : Các biến trong khảo sát : giới tính (Gender), tình trạng hơn nhân ( Married), điểm trung bình tích lũy khi chưa tốt nghiệp đại học (Undergraduate GPA) có liên quan như thế nào với dự định học bậc sau đại học?

 Cần tìm ra mức độ ảnh hưởng, liên quan giữa các biến độc lập (Gender, Married, Undergraduate GPA) tới biến phụ thuộc ( Plan to attend graduate school) - Vì biến phụ thuộc (Plan to attend graduate school) là một biến nhị phân nhận giá

trị 1 cho việc có dự định học sau đại học và 0 người khơng có dự định nên chúng ta khơng thể áp dụng mơ hình hồi quy tuyến tính ( mơ hình hồi quy tuyến tính áp dụng cho các biến phụ thuộc là biến liên tục).

 Để tìm mối liên hệ giữa biến phụ thuộc và biến độc lập trong trường hợp này chúng ta sử dụng mơ hình hồi quy logistic.

 Tiến hành phân tích

Gọi Y là dự định học bậc sau đại học Y = 1: Có dự định học bậc sau đại học

Y = 0 : Khơng có dự định học bậc sau đại học

Gọi p là xác xuất một người có dự định học bậc sau đại học. Ta có p = Pr( Y = 1).

Odds là khả năng của một người có dự định học bậc sau đại học được định nghĩa bằng tỉ số xác suất một người có dự định học bậc sau đại học trên xác suất một người khơng có dự định học bậc sau đại học. Ta có:

29 Phân tích dữ liệu kinh doanh – IS403.M22

Odds ratio là tỷ số của 2 odds

odds(x = x + 1)

odds(x = x ) =

e∝ ( )

e∝ = e

 Ước lượng mơ hình logit

- Để ước lượng tham số chúng ta sử dụng phương pháp hợp lý tối đa ( Maximum likelihood). Phần mềm thống kê Exel có hỗ trợ phương pháp này.

- Chúng ta sẽ sử dụng package Real Statistics Resource Pack của Exel

Bước 1: Chọn Adds-in => Real Satistics => Data Analysis Tool => Reg => Chọn Logistics and probit regression => OK

Hình 19. Hộp thoại Real Statistics

30 Phân tích dữ liệu kinh doanh – IS403.M22

Hình 20. Hộp thoại Logistic Regression

31 Phân tích dữ liệu kinh doanh – IS403.M22

32 Phân tích dữ liệu kinh doanh – IS403.M22

 Diễn giải kết quả

Hình 4.Kết quả phân tích Real Statistics

- Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPA cps p_value < alpha(=0.05)

 Biến có ý nghĩa thống kê và có mối liên quan đến biến dự định học bậc sau đại học.

- Ngược lại hệ số các biến giới tính (Gender) và tình trạng hơn nhân ( Married) có p-value > alpha

 Khơng có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biến dự định học bậc sau đại học, nên loại bỏ chúng khỏi mơ hình.

Sau khi loại bỏ biến khơng liên qua ta có dữ liệu mới như sau: Undergraduate GPA Plan to attend graduate school 2.9 1 3.1 1 3 0 3.5 1 3.2 1 3.7 1

33 Phân tích dữ liệu kinh doanh – IS403.M22

2.8 0 2.6 1 3.3 0 3.3 1 3.5 1 3.2 0 2.9 1 4 1 4 1 3.6 1 3.3 1 2.9 1 3.4 1 3 0 3.2 0 4 1 3 0 2.5 0 4 1 4 1 2.7 0 3.7 1 3.2 0 2.8 0

34 Phân tích dữ liệu kinh doanh – IS403.M22

- Kết quả phân tích

35 Phân tích dữ liệu kinh doanh – IS403.M22

 Diễn giải kết quả

Từ kết quả ta được phương trình hồi quy sau: Ta có:

log 𝑝

1 − 𝑝 = −10.9095 + 3.593 ∗ 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 + 𝜀

 = 𝑒−10.9095+3.593∗𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴

Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt : - là Odd

- Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 0) => 𝑂𝑑𝑑 = 𝑒 . - Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 1) => 𝑂𝑑𝑑 = 𝑒 . , - Tỉ số = . . , ≈ 36,359

 Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA) Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359 lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên 3,6359 lần.

 Cách tính các hệ số bằng Exel Solver

- Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA

- Sau đó tiến hành tính các giá trị:

36 Phân tích dữ liệu kinh doanh – IS403.M22

o p =

- Ta được kết quả như sau:

Hinh 23. Kết quả của L, p và LL

- Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi nhấn Solve.

 Kết quả thu được là giá trị các hệ số trong mơ hình. Giá trị đúng với giá trị được tính bằng real statisitc.

37 Phân tích dữ liệu kinh doanh – IS403.M22

Hinh 24. Các hệ số được tính bằng Exel Solver

 Standard Error

 Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy. Các giá trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui hơn.

- Bước 1 : Tính Cov :

Đường chéo của ma trận là phương sai của các biến

Hình 23. Ma trận Covariance

- Bước 2: Tìm Standard Error thông qua công thức 𝑆𝐸 = 𝑉𝑎𝑟(𝐵 )

38 Phân tích dữ liệu kinh doanh – IS403.M22

Hình 24. Kết quả Standard Error

 Wald và p-values

- Dùng để kiểm tra hệ số hồi quy Wald test: 𝑊𝑎𝑙𝑑 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 =

P – Values = CHISQ.DIST.RT(Wald Statistic, 1)

Hình 25. Kết quả của Wald, p-value

 Exp(b) – tỷ số odds

- Là tỷ số odds : ( )

39 Phân tích dữ liệu kinh doanh – IS403.M22

 Những thước đo về sự phù hợp của mơ hình

Hình 26. Kết quả của LL statistics của mơ hình

- Log likelihood với mơ hình có đầy đủ biến giải thích (LL)

40 Phân tích dữ liệu kinh doanh – IS403.M22

Hình 27. Kết quả của LL và LL0

 Pearson’s chi square (Chi-sq) và Df

- Chi-sq có giá trị càng thấp mơ hình càng phù hợp với dữ liệu - Df là số các biến giải thích trong mơ hình : k= 1

 Pseudo R

Phản ánh mức độ phù hợp của mơ hình. Pseudo R càng cao, mơ hình càng phù hợp với dữ liệu. Pseudo R luôn nằm trong khoảng [0; 1]. Giá trị Pseudo R luôn tăng khi thêm các biến mới vào một mơ hình. Do đó Pseudo R chỉ có thể

41 Phân tích dữ liệu kinh doanh – IS403.M22

so sánh giữa các mơ hình có cùng số lượng biến và định dạng dữ liệu giữa các biến. 𝑅 = 1 − 𝐿𝐿 𝐿𝐿 𝑅 = 1 − 𝑒 ( ) 𝑅 = 𝑅 1 − 𝑒 Ta được kết quả như sau

Hình 28. Kết quả

Ta thấy 𝑅 = 0.3854 có nghĩa là biến Plan to attend graduate school được giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các yếu tố khác.

 AIC, BIC

Dùng để so sánh các mơ hình khác nhau. Giá trị AIC, BIC càng nhỏ mơ hình càng phù hợp với dữ liệu.

𝐴𝐼𝐶 = −2 ∗ 𝐿𝐿 + 2 ∗ 𝑘 𝐵𝐼𝐶 = −2 ∗ 𝐿𝐿 + ln(𝑁) ∗ 𝑘 với k là số biến quan sát được, N tổng số các quan sát

42 Phân tích dữ liệu kinh doanh – IS403.M22

Hình 29. Kết quả

 Đường cong ROC

Đo lường khả năng phân loại của 1 mơ hình bằng giá trị AUC ( area under curve -diện tích dưới đường cong). Ta có bảng phân loại sau:

Hình 30. Bảng phân loại của mơ hình

- Bảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại đúng/sai như thế nào. Ta thấy số lượng người được khảo sát có dự định học bậc sau đại học là 19 người và trong số 19 người đó mơ hình dự đốn 15 người có dự định học và dự đốn 4 người khơng có dự định học.

- Cịn số lượng người được khảo sát khơng có dự định học bậc sau đại học là 11 người trong đó mơ hình dự đốn 4 người có dự định học và dự đốn 7 người khơng có dự định học.

- Từ bảng phân loại ta tính được giá trị True Positive Rate(TPR) và Fale Positve Rate(FPR), Accuracy

43 Phân tích dữ liệu kinh doanh – IS403.M22

Hình 31. Bảng giá trị True Positive và Fale Positve

- Giá trị AUC = 0.827 có nghĩa là trong 100 người thì có 83 cặp quan sát (1 người có dự định học bậc sau đại học và 1 người khơng có dự định học) có xác suất dự báo của người có dự định học bậc sau đại học lớn hơn xác suất của người khơng có dự định học AUC dùng để đánh giá mơ hình có phân loại hiệu quả hay không. Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mơ hình dự báo phân loại khơng tốt.

44 Phân tích dữ liệu kinh doanh – IS403.M22

Hình 32. Bảng diễn giải ý nghĩa AUC

● Kết luận: Từ những kết quả trên chúng tơi cũng có thể thấy điểm trung bình tích

lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học.

Ví dụ minh họ a: Graduate School Survey

Giải thích và kết luận