Odds ratio là tỷ số của 2 odds odds
odds((xx == xx ++11))odds odds
odds((xx == xx)) == ee∝∝((ee∝∝)) == ee
Ước lượng mơ hình logitƯớc lượng mơ hình logit
-- Để ước lượng tham số chúng ta sử dụng phương pháp hợp lý tối đa ( MaximumĐể ước lượng tham số chúng ta sử dụng phương pháp hợp lý tối đa ( Maximum likelihood). Phần mềm thống kê Exel có hỗ trợ
likelihood). Phần mềm thống kê Exel có hỗ trợ phương pháp này.phương pháp này. -- Chúng ta sẽ sử dụng package Real Statistics Resource Pack của ExelChúng ta sẽ sử dụng package Real Statistics Resource Pack của Exel
Bước
Bước 1: 1: Chọn Chọn Adds-in Adds-in => => Real Real Satistics Satistics => => Data Data Analysis Analysis Tool Tool => => Reg Reg => => ChọnChọn Logistics and probit regression => OK
Logistics and probit regression => OK
Hình 19. Hộp thoại Real Statistics
Hình 19. Hộp thoại Real Statistics
Bước 2 : Chọn Input Range => OK Bước 2 : Chọn Input Range => OK
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Hình 20. Hộp thoại Logistic Regression
Hình 20. Hộp thoại Logistic Regression
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Hình 21.1,2,3. Kết quả phân tích Real Statistics
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Diễn giải kết quảDiễn giải kết quả
Hình 4.Kết quả phân tích Real Statisti Hình 4.Kết quả phân tích Real Statisticscs
-- Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPATừ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPA cps
cps p_value p_value < < alpha(=0.05)alpha(=0.05)
Biến có ý nghĩa Biến có ý nghĩa thống kê và có mối lithống kê và có mối liên quan đến biến dự định học bậc sau đên quan đến biến dự định học bậc sau đạiại học.
học.
-- Ngược lại Ngược lại hệ số hệ số các biếcác biến giới n giới tính (Gender) tính (Gender) và tình và tình trạng hơn trạng hơn nhân ( nhân ( Married)Married) có p-value > alpha
có p-value > alpha
Khơng có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biếnKhơng có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biến dự định học bậc sau đại học,
dự định học bậc sau đại học, nên loại bỏ chúng khỏi mơ hình.nên loại bỏ chúng khỏi mơ hình. Sau khi loại bỏ biến khơng liên qua ta có dữ liệu mới như sau:
Sau khi loại bỏ biến khơng liên qua ta có dữ liệu mới như sau: Undergraduate Undergraduate GPA GPA Plan to attend Plan to attend graduate school graduate school 2.9 1 2.9 1 3.1 1 3.1 1 3 3 00 3.5 1 3.5 1 3.2 1 3.2 1 3.7 1 3.7 1
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
2.8 0 2.8 0 2.6 1 2.6 1 3.3 0 3.3 0 3.3 1 3.3 1 3.5 1 3.5 1 3.2 0 3.2 0 2.9 1 2.9 1 4 4 11 4 4 11 3.6 1 3.6 1 3.3 1 3.3 1 2.9 1 2.9 1 3.4 1 3.4 1 3 3 00 3.2 0 3.2 0 4 4 11 3 3 00 2.5 0 2.5 0 4 4 11 4 4 11 2.7 0 2.7 0 3.7 1 3.7 1 3.2 0 3.2 0 2.8 0 2.8 0
Bảng 3. Dữ liệu của Graduate School Survey sau khi lược bỏ các biến khơng có ý nghĩa thống kê
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Diễn giải kết quảDiễn giải kết quả
Từ kết quả ta được phương trình hồi quy sau: Từ kết quả ta được phương trình hồi quy sau: Ta có: Ta có: log log 11 −− = −10.9095+3.593∗+ = −10.9095+3.593∗+ == −10.9095+3.593∗−10.9095+3.593∗
Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt : Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt :
-- là là OddOdd -- VớiVới ( ( =0)=0) => => == .. -- VớiVới ( ( =1)=1) => => == .,., -- Tỉ sốTỉ số == .,.,.. ≈≈ 36,359 36,359
Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA)Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA) Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359 Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359 lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên 3,6359 lần.
3,6359 lần.
Cách tính các hệ số bằng Exel SolverCách tính các hệ số bằng Exel Solver
-- Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPAChọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA
-- Sau đó tiến hành tính các giá trị:Sau đó tiến hành tính các giá trị:
o
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
o
o p = p =
-- Ta được kết quả như sau:Ta được kết quả như sau:
Hinh 23. Kết quả của L, p và LL
Hinh 23. Kết quả của L, p và LL
-- Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồiTiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi nhấn Solve.
nhấn Solve.
Kết quả thu được là giá trị các Kết quả thu được là giá trị các hệ số trong mơ hình. Giá trị đúng với giá trị đượchệ số trong mơ hình. Giá trị đúng với giá trị được tính bằng real statisitc.
Hinh 24. Các hệ số được tính bằng Exel Solver
Hinh 24. Các hệ số được tính bằng Exel Solver
Standard Error Standard Error
Standard Error (Sai số tiêu chuẩn của Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn củahồi quy): Sai số tiêu chuẩn của hồihồi quy
quy còn được gọi là sai số tiêu chuẩn của còn được gọi là sai số tiêu chuẩn của ước lượngước lượng , thể hiện khoảng , thể hiện khoảng cách
cách trung bìnhtrung bình mà các giá trị quan sát rơ mà các giá trị quan sát rơi khỏi đường hồi i khỏi đường hồi quy. quy. Các giáCác giá trị càng nhỏ sẽ càng tốt
trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ vì các biến quan sát sẽ nằm gần đường hồi quinằm gần đường hồi qui hơn.
hơn.
-- Bước 1 : Tính Cov :Bước 1 : Tính Cov :
Đường chéo của ma trận là phương sai của các biến Đường chéo của ma trận là phương sai của các biến
Hình 23. Ma trận Covariance
Hình 23. Ma trận Covariance
-- Bước 2: Tìm Standard Error thơng qua cơng Bước 2: Tìm Standard Error thơng qua cơng thứcthức
=(=()) =())
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Hình 24. Kết quả Standard Error
Hình 24. Kết quả Standard Error
Wald và p-valuesWald và p-values
-- Dùng để kiểm tra hệ số hồi quyDùng để kiểm tra hệ số hồi quy Wald test:
Wald test: ==
P – Values = CHISQ.DIST.RT(Wald Statistic, 1) P – Values = CHISQ.DIST.RT(Wald Statistic, 1)
Hình 25. Kết quả của Wald, p-value
Hình 25. Kết quả của Wald, p-value
Exp(b) – tỷ số oddsExp(b) – tỷ số odds
-- Là tỷ số odds :Là tỷ số odds : (())
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Những thước đo về sự phù hợp của mơ hìnhNhững thước đo về sự phù hợp của mơ hình
Hình 26. Kết quả của LL statistics của mơ hình
Hình 26. Kết quả của LL statistics của mơ hình -- Log likelihood với mơ hình có đầy đủ biến giải thích (LL)Log likelihood với mơ hình có đầy đủ biến giải thích (LL)
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Hình 27. Kết quả của
Hình 27. Kết quả của LL và LL0LL và LL0
Pearson’s chi square (Chi-sq) và DfPearson’s chi square (Chi-sq) và Df
-- Chi-sq có giá trị càng thấp mơ hình Chi-sq có giá trị càng thấp mơ hình càng phù hợp với dữ liệucàng phù hợp với dữ liệu -- Df là số các biến giải tDf là số các biến giải thích trong mơ hình : k= 1hích trong mơ hình : k= 1
Pseudo RPseudo R
Phản ánh mức độ phù hợp của mơ hình. Pseudo R càng cao, mơ hình càng Phản ánh mức độ phù hợp của mơ hình. Pseudo R càng cao, mơ hình càng phù hợp với dữ liệu. Pse
phù hợp với dữ liệu. Pseudo R luôn nằm trong khoảng udo R luôn nằm trong khoảng [0; 1]. [0; 1]. Giá trị Pseudo RGiá trị Pseudo R luôn tăng khi thêm các biến mới vào một mơ hình. Do đó Pseudo R chỉ có thể ln tăng khi thêm các biến mới vào một mơ hình. Do đó Pseudo R chỉ có thể
so sánh giữa các mơ hình có cùng số lượng biến và định dạng dữ liệu giữa các so sánh giữa các mơ hình có cùng số lượng biến và định dạng dữ liệu giữa các biến. biến. == 11−− = 1 − = 1 − (( )) == 1 1 −− Ta được kết quả như sau
Ta được kết quả như sau
Hình 28. Kết quả
Hình 28. Kết quả Ta thấy
Ta thấy =0.3854=0.3854 có nghĩa là biến Plan to attend graduacó nghĩa là biến Plan to attend graduate school đượcte school được giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các yếu tố khác.
yếu tố khác.
AIC, BICAIC, BIC
Dùng để so sánh các
Dùng để so sánh các mơ hình khác nhau. Giá trị AIC, BIC cmơ hình khác nhau. Giá trị AIC, BIC càng nhỏ mơàng nhỏ mơ hình càng phù hợp với dữ liệu.
hình càng phù hợp với dữ liệu.
= = −2−2 ∗∗ ++ 22∗∗
= −= −22∗∗ ++llnn(()) ∗∗ với k là số biến quan sát được, với k là số biến quan sát được,
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Hình 29. Kết quả
Hình 29. Kết quả
Đường cong ROCĐường cong ROC
Đo lường khả năng phân loại của 1 mơ hình bằng giá trị AUC ( area under Đo lường khả năng phân loại của 1 mơ hình bằng giá trị AUC ( area under curve -diện tích dưới đường cong). Ta có bảng
curve -diện tích dưới đường cong). Ta có bảng phân loại sau:phân loại sau:
\\
Hình 30. Bảng phân loại của mơ hình
Hình 30. Bảng phân loại của mơ hình
-- Bảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loạiBảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại đúng/sai như thế nào. Ta thấy số lượng người được khảo sát
đúng/sai như thế nào. Ta thấy số lượng người được khảo sát có dự định học bậccó dự định học bậc sau đại học là 19 người và trong số 19 người đó mơ hình dự đốn 15 người có sau đại học là 19 người và trong số 19 người đó mơ hình dự đốn 15 người có dự định học v
dự định học và dự đoán à dự đoán 4 người k4 người khơng có dự định họhơng có dự định học.c.
-- Cịn số lượng người được khảo sát khơng có dự định học bậc sau đại học là 11Còn số lượng người được khảo sát khơng có dự định học bậc sau đại học là 11 người trong đó mơ hình dự đốn 4 người có dự định học và dự đốn 7 người người trong đó mơ hình dự đốn 4 người có dự định học và dự đốn 7 người khơng có dự định học.
khơng có dự định học.
-- Từ bảng phân loại Từ bảng phân loại ta tính được ta tính được giá trị True Posigiá trị True Positive Rate(TPR) và Fale Posittive Rate(TPR) và Fale Positveve Rate(FPR), Accuracy
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Hình 31. Bảng giá trị
Hình 31. Bảng giá trị True Positive và Fale PositveTrue Positive và Fale Positve
-- Giá trị AUC = 0.827 có nghĩa là trong 100 ngưGiá trị AUC = 0.827 có nghĩa là trong 100 người thì có 83 cặp quan sát (1 ời thì có 83 cặp quan sát (1 ngườingười có dự định học bậc sau đại học và 1 người khơng có dự định học) có xá
có dự định học bậc sau đại học và 1 người khơng có dự định học) có xác suất dực suất dự báo của
báo của người có người có dự định dự định học bậc sau học bậc sau đại học lớn đại học lớn hơn xác hơn xác suất của người suất của người khơngkhơng có dự định học AUC dùng để đánh giá mơ hình có phân loại hiệu quả hay khơng. có dự định học AUC dùng để đánh giá mơ hình có phân loại hiệu quả hay không. Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mơ hình dự báo phân loại khơng Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mơ hình dự báo phân loại khơng tốt.
Báo cáo Lab 3 – Nhóm 14 Báo cáo Lab 3 – Nhóm 14
Hình 32. Bảng diễn giải ý nghĩa AUC
Hình 32. Bảng diễn giải ý nghĩa AUC
●
● Kết luận:Kết luận: Từ những kết quả trên chúng tơi cũng có thể Từ những kết quả trên chúng tơi cũng có thể thấy điểm trung bình tíchthấy điểm trung bình tíchlũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học. lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học. lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học.
4.