Odds((xx == xx ++11)) odds

Một phần của tài liệu PHÂN TÍCH dữ LIỆU KINH DOANH đề tài báo cáo LAB 3 (Trang 32 - 47)

Odds ratio là tỷ số của 2 odds odds

odds((xx == xx ++11))odds odds

odds((xx == xx)) == ee∝∝((ee∝∝)) == ee  

   Ước lượng mơ hình logitƯớc lượng mơ hình logit

--   Để ước lượng tham số chúng ta sử dụng phương pháp hợp lý tối đa ( MaximumĐể ước lượng tham số chúng ta sử dụng phương pháp hợp lý tối đa ( Maximum likelihood). Phần mềm thống kê Exel có hỗ trợ

likelihood). Phần mềm thống kê Exel có hỗ trợ phương pháp này.phương pháp này. --   Chúng ta sẽ sử dụng package Real Statistics Resource Pack của ExelChúng ta sẽ sử dụng package Real Statistics Resource Pack của Exel

Bước

Bước 1: 1: Chọn Chọn Adds-in Adds-in => => Real Real Satistics Satistics => => Data Data Analysis Analysis Tool Tool => => Reg Reg => => ChọnChọn Logistics and probit regression => OK

Logistics and probit regression => OK

 Hình 19. Hộp thoại Real Statistics

 Hình 19. Hộp thoại Real Statistics  

Bước 2 : Chọn Input Range => OK Bước 2 : Chọn Input Range => OK

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 20. Hộp thoại Logistic Regression

 Hình 20. Hộp thoại Logistic Regression

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 21.1,2,3. Kết quả phân tích Real Statistics

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

   Diễn giải kết quảDiễn giải kết quả

 Hình 4.Kết quả phân tích Real Statisti  Hình 4.Kết quả phân tích Real Statisticscs  

--   Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPATừ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPA cps

cps p_value p_value < < alpha(=0.05)alpha(=0.05)

  Biến có ý nghĩa Biến có ý nghĩa thống kê và có mối lithống kê và có mối liên quan đến biến dự định học bậc sau đên quan đến biến dự định học bậc sau đạiại học.

học.

--    Ngược lại  Ngược lại hệ số hệ số các biếcác biến giới n giới tính (Gender) tính (Gender) và tình và tình trạng hơn trạng hơn nhân ( nhân ( Married)Married) có p-value > alpha

có p-value > alpha

   Khơng có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biếnKhơng có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biến dự định học bậc sau đại học,

dự định học bậc sau đại học, nên loại bỏ chúng khỏi mơ hình.nên loại bỏ chúng khỏi mơ hình. Sau khi loại bỏ biến khơng liên qua ta có dữ liệu mới như sau:

Sau khi loại bỏ biến khơng liên qua ta có dữ liệu mới như sau: Undergraduate Undergraduate GPA GPA Plan to attend Plan to attend graduate school graduate school 2.9 1 2.9 1 3.1 1 3.1 1 3 3 00 3.5 1 3.5 1 3.2 1 3.2 1 3.7 1 3.7 1

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

2.8 0 2.8 0 2.6 1 2.6 1 3.3 0 3.3 0 3.3 1 3.3 1 3.5 1 3.5 1 3.2 0 3.2 0 2.9 1 2.9 1 4 4 11 4 4 11 3.6 1 3.6 1 3.3 1 3.3 1 2.9 1 2.9 1 3.4 1 3.4 1 3 3 00 3.2 0 3.2 0 4 4 11 3 3 00 2.5 0 2.5 0 4 4 11 4 4 11 2.7 0 2.7 0 3.7 1 3.7 1 3.2 0 3.2 0 2.8 0 2.8 0

 Bảng 3. Dữ liệu của Graduate School Survey sau khi lược bỏ các biến khơng có ý nghĩa thống kê

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

   Diễn giải kết quảDiễn giải kết quả

Từ kết quả ta được phương trình hồi quy sau: Từ kết quả ta được phương trình hồi quy sau: Ta có: Ta có: log log 11 −− = −10.9095+3.593∗+  = −10.9095+3.593∗+         == −10.9095+3.593∗−10.9095+3.593∗  

Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt : Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt :

--       là là OddOdd --   VớiVới  ( ( =0)=0) => =>  == ..   --   VớiVới  ( ( =1)=1) => =>  == .,.,   --   Tỉ sốTỉ số    == .,.,..   ≈≈ 36,359 36,359 

  Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA)Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA) Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359 Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359 lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên 3,6359 lần.

3,6359 lần.

   Cách tính các hệ số bằng Exel SolverCách tính các hệ số bằng Exel Solver

--   Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPAChọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA

--   Sau đó tiến hành tính các giá trị:Sau đó tiến hành tính các giá trị:

o

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

o

o    p = p =  

  

--   Ta được kết quả như sau:Ta được kết quả như sau:

 Hinh 23. Kết quả của L, p và LL

 Hinh 23. Kết quả của L, p và LL

--   Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồiTiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi nhấn Solve.

nhấn Solve.

  Kết quả thu được là giá trị các Kết quả thu được là giá trị các hệ số trong mơ hình. Giá trị đúng với giá trị đượchệ số trong mơ hình. Giá trị đúng với giá trị được tính bằng real statisitc.

 Hinh 24. Các hệ số được tính bằng Exel Solver

 Hinh 24. Các hệ số được tính bằng Exel Solver

  

Standard Error Standard Error

   Standard Error (Sai số tiêu chuẩn của Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn củahồi quy): Sai số tiêu chuẩn của hồihồi quy

quy còn được gọi là sai số tiêu chuẩn của còn được gọi là sai số tiêu chuẩn của ước lượngước lượng , thể hiện khoảng , thể hiện khoảng cách

cách trung bìnhtrung bình mà các giá trị quan sát rơ mà các giá trị quan sát rơi khỏi đường hồi i khỏi đường hồi quy. quy. Các giáCác giá trị càng nhỏ sẽ càng tốt

trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ vì các biến quan sát sẽ nằm gần đường hồi quinằm gần đường hồi qui hơn.

hơn.

--   Bước 1 : Tính Cov :Bước 1 : Tính Cov :

Đường chéo của ma trận là phương sai của các biến Đường chéo của ma trận là phương sai của các biến

 Hình 23. Ma trận Covariance

 Hình 23. Ma trận Covariance

--   Bước 2: Tìm Standard Error thơng qua cơng Bước 2: Tìm Standard Error thơng qua cơng thứcthức

=(=())   =())  

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 24. Kết quả Standard Error

 Hình 24. Kết quả Standard Error

   Wald và p-valuesWald và p-values

--   Dùng để kiểm tra hệ số hồi quyDùng để kiểm tra hệ số hồi quy Wald test:

Wald test:    ==         

P – Values = CHISQ.DIST.RT(Wald Statistic, 1) P – Values = CHISQ.DIST.RT(Wald Statistic, 1)

 Hình 25. Kết quả của Wald, p-value

 Hình 25. Kết quả của Wald, p-value

   Exp(b) – tỷ số oddsExp(b) – tỷ số odds

--   Là tỷ số odds :Là tỷ số odds : (()) 

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

   Những thước đo về sự phù hợp của mơ hìnhNhững thước đo về sự phù hợp của mơ hình

 Hình 26. Kết quả của LL statistics của mơ hình

 Hình 26. Kết quả của LL statistics của mơ hình --   Log likelihood với mơ hình có đầy đủ biến giải thích (LL)Log likelihood với mơ hình có đầy đủ biến giải thích (LL)

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 27. Kết quả của

 Hình 27. Kết quả của LL và LL0LL và LL0

   Pearson’s chi square (Chi-sq) và DfPearson’s chi square (Chi-sq) và Df

--   Chi-sq có giá trị càng thấp mơ hình Chi-sq có giá trị càng thấp mơ hình càng phù hợp với dữ liệucàng phù hợp với dữ liệu --   Df là số các biến giải tDf là số các biến giải thích trong mơ hình : k= 1hích trong mơ hình : k= 1

   Pseudo RPseudo R

Phản ánh mức độ phù hợp của mơ hình. Pseudo R càng cao, mơ hình càng Phản ánh mức độ phù hợp của mơ hình. Pseudo R càng cao, mơ hình càng  phù hợp với dữ liệu. Pse

 phù hợp với dữ liệu. Pseudo R luôn nằm trong khoảng udo R luôn nằm trong khoảng [0; 1]. [0; 1]. Giá trị Pseudo RGiá trị Pseudo R luôn tăng khi thêm các biến mới vào một mơ hình. Do đó Pseudo R chỉ có thể ln tăng khi thêm các biến mới vào một mơ hình. Do đó Pseudo R chỉ có thể

so sánh giữa các mơ hình có cùng số lượng biến và định dạng dữ liệu giữa các so sánh giữa các mơ hình có cùng số lượng biến và định dạng dữ liệu giữa các  biến.  biến.  == 11−−     = 1 − = 1 − (( ))    ==   1 1 −−     Ta được kết quả như sau

Ta được kết quả như sau

 Hình 28. Kết quả

 Hình 28. Kết quả Ta thấy

Ta thấy  =0.3854=0.3854 có nghĩa là biến Plan to attend graduacó nghĩa là biến Plan to attend graduate school đượcte school được giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các yếu tố khác.

yếu tố khác.

   AIC, BICAIC, BIC

Dùng để so sánh các

Dùng để so sánh các mơ hình khác nhau. Giá trị AIC, BIC cmơ hình khác nhau. Giá trị AIC, BIC càng nhỏ mơàng nhỏ mơ hình càng phù hợp với dữ liệu.

hình càng phù hợp với dữ liệu.

 

  = = −2−2 ∗∗  ++ 22∗∗   

 = −= −22∗∗  ++llnn(()) ∗∗  với k là số biến quan sát được, với k là số biến quan sát được,

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 29. Kết quả

 Hình 29. Kết quả

   Đường cong ROCĐường cong ROC

Đo lường khả năng phân loại của 1 mơ hình bằng giá trị AUC ( area under Đo lường khả năng phân loại của 1 mơ hình bằng giá trị AUC ( area under curve -diện tích dưới đường cong). Ta có bảng

curve -diện tích dưới đường cong). Ta có bảng phân loại sau:phân loại sau:

\\

 Hình 30. Bảng phân loại của mơ hình

 Hình 30. Bảng phân loại của mơ hình

--   Bảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loạiBảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại đúng/sai như thế nào. Ta thấy số lượng người được khảo sát

đúng/sai như thế nào. Ta thấy số lượng người được khảo sát có dự định học bậccó dự định học bậc sau đại học là 19 người và trong số 19 người đó mơ hình dự đốn 15 người có sau đại học là 19 người và trong số 19 người đó mơ hình dự đốn 15 người có dự định học v

dự định học và dự đoán à dự đoán 4 người k4 người khơng có dự định họhơng có dự định học.c.

--   Cịn số lượng người được khảo sát khơng có dự định học bậc sau đại học là 11Còn số lượng người được khảo sát khơng có dự định học bậc sau đại học là 11 người trong đó mơ hình dự đốn 4 người có dự định học và dự đốn 7 người người trong đó mơ hình dự đốn 4 người có dự định học và dự đốn 7 người khơng có dự định học.

khơng có dự định học.

--   Từ bảng phân loại Từ bảng phân loại ta tính được ta tính được giá trị True Posigiá trị True Positive Rate(TPR) và Fale Posittive Rate(TPR) và Fale Positveve Rate(FPR), Accuracy

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 31. Bảng giá trị

 Hình 31. Bảng giá trị True Positive và Fale PositveTrue Positive và Fale Positve  

--   Giá trị AUC = 0.827 có nghĩa là trong 100 ngưGiá trị AUC = 0.827 có nghĩa là trong 100 người thì có 83 cặp quan sát (1 ời thì có 83 cặp quan sát (1 ngườingười có dự định học bậc sau đại học và 1 người khơng có dự định học) có xá

có dự định học bậc sau đại học và 1 người khơng có dự định học) có xác suất dực suất dự  báo của

 báo của người có người có dự định dự định học bậc sau học bậc sau đại học lớn đại học lớn hơn xác hơn xác suất của người suất của người khơngkhơng có dự định học AUC dùng để đánh giá mơ hình có phân loại hiệu quả hay khơng. có dự định học AUC dùng để đánh giá mơ hình có phân loại hiệu quả hay không. Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mơ hình dự báo phân loại khơng Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mơ hình dự báo phân loại khơng tốt.

 Báo cáo Lab 3 – Nhóm 14  Báo cáo Lab 3 – Nhóm 14  

 Hình 32. Bảng diễn giải ý nghĩa AUC

 Hình 32. Bảng diễn giải ý nghĩa AUC

●   Kết luận:Kết luận: Từ những kết quả trên chúng tơi cũng có thể  Từ những kết quả trên chúng tơi cũng có thể thấy điểm trung bình tíchthấy điểm trung bình tíchlũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học. lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học. lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học.  

4.

Một phần của tài liệu PHÂN TÍCH dữ LIỆU KINH DOANH đề tài báo cáo LAB 3 (Trang 32 - 47)