Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
5,51 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN ! TIỂU LUẬN Mơn học: Phân tích liệu kinh doanh Giảng viên hướng dẫn: PGS.TS Nguyễn Đình Thn Lớp: Phân tích liệu kinh doanh – IS403.K22.HTCL Nhóm Thành viên: Nguyễn Minh Nhựt - 17520867 Hoàng Thụy Trinh - 17521162 Trần Quang Phúc - 17520912 Nguyễn Thị Nhật Hằng - 17520437 Lê Ngọc Long 17520710 TP Hồ Chí Minh tháng 05 năm 2020 MỤC LỤC NHẬN XÉT CỦA GIÁO VIÊN CHƯƠNG ĐẶT VẤN ĐỀ CHƯƠNG THỰC HIỆN TIỂU LUẬN ĐÁNH GIÁ MƠ HÌNH HỒI QUI 1.1 Các tiêu chí dựa sai số tuyệt đối 1.1.1 MAE: trung bình sai số tuyệt đối .3 1.1.2 MEDAE: trung vị sai số tuyệt đối 1.1.3 SAE: tổng sai số tuyệt đối 1.1.4 MAPE: trung bình phần trăm sai số tuyệt đối 1.2 Các tiêu chí dựa vào bình phương sai số 1.2.1 MSE: trung bình bình phương sai số 1.2.2 MEDSE: trung vị bình phương sai số 1.2.3 SSE: tổng bình phương sai số 1.2.4 RMSE: bậc trung bình bình phương sai số 1.2.5 MSLE: trung bình bình phương sai số logarithmic 1.2.6 RMSLE: bậc trung bình bình phương sai số logarithmic .5 1.3 Dựa vào R square Khảo sát sai số tương đối mơ hình 1.3.1 RRSE: bật sai số bình phương tương đối .6 1.3.2 RAE : Sai số tuyệt đối tương đối 1.3.3 Dựa vào R square: 1.4 Các tiêu chí đánh giá mối tương quan giá trị thực tế dự đoán 1.4.1 Kendall’s Tau 1.4.2 Rho Spearman 1.4.3 Pearson’r 1.5 Thực với R HỒI QUI PHI TUYẾN 13 2.1 Hàm đa thức: 13 2.2 Hàm Logarithm: 14 HỒI QUI LOGISTIC 16 3.1 Định nghĩa phân tích hồi qui logistic gì? 16 3.2 Phân tích hồi qui logistic đơn biến 17 3.3 Phân tích hồi qui logistic đa biến .21 3.4 Hồi quy logistic đơn biến ngôn ngữ R 23 CHƯƠNG PHÂN CÔNG CÔNG VIỆC .26 CHƯƠNG TÀI LIỆU THAM KHẢO .27 Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 NHẬN XÉT CỦA GIÁO VIÊN ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… ……………………………………………………………………………………………………………………………………… Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 CHƯƠNG ĐẶT VẤN ĐỀ Đối với doanh nghiệp, việc kinh doanh muốn đạt hiệu quả, tăng trưởng doanh, doanh số, lợi nhuận, … cần thiết phải có phân tích liệu kinh doanh (Business Analytics) doanh nghiệp Phân tích liệu kinh doanh góp phần quan trọng để giúp doanh nghiệp đưa định đắn trường hợp doanh nghiệp muốn biết số lượng giá sản phẩm tăng hay giảm tháng tới để đưa định tăng giảm nguồn cung cấp Nội dung tiểu luận: Thực hành tìm phương pháp đánh giá mơ hình hồi qui, mơ hình hồi qui phi tuyến đánh giá mơ hình hồi qui phi tuyến, tìm hiểu cách giải tốn hồi qui logistic Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh CHƯƠNG THỰC HIỆN TIỂU LUẬN ĐÁNH GIÁ MƠ HÌNH HỒI QUI 1.1 Các tiêu chí dựa sai số tuyệt đối 1.1.1 MAE: trung bình sai số tuyệt đối n å fi - yi i MAE = n 1.1.2 MEDAE: trung vị sai số tuyệt đối MEDAE = Meadian( fi - yi ) 1.1.3 SAE: tổng sai số tuyệt đối n SAE = å fi - yi i 1.1.4 MAPE: trung bình phần trăm sai số tuyệt đối Phân tích liệu kinh doanh 08/06/2020 Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh n å( i MAPE = 08/06/2020 yi - fi ) yi n Các tiêu chí gần tốt, lớn sai số lớn Ba tiêu chí đầu đo lường sai biệt thực tế dự đốn mơ hình, giá trị tuyệt đối dung để tránh sai lầm trường hợp mơ hình đồng thời có nguy đánh giá cao thấp, dẫn đến việc sai số >0 0.5 chấp nhận mơ hình R2 = SSM SSR å(f i - y) å(yi - f i )2 = 1= = SSE SSE å (yi - y )2 å (yi - y )2 1.4 Các tiêu chí đánh giá mối tương quan giá trị thực tế dự đoán Bản chất tiêu chí phương pháp tính hệ số tương quan thống kê cổ điển 1.4.1 Kendall’s Tau Được ước tính cách tìm cặp số (x, y) “song hành" với Một cặp (x, y) song hành định nghĩa hiệu (độ khác biệt) trục hồnh có dấu hiệu (dương hay âm) với hiệu trục tung Nếu hai biến số x y khơng có liên hệ với nhau, số cặp song hành hay tương đương với số cặp không song hành 1.4.2 Rho Spearman Hệ số ước tính cách biến đổi hai biến số x y thành thứ bậc (rank), xem độ tương quan hai dãy số bậc Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 HỒI QUI PHI TUYẾN • Đối với toán hồi quy phi tuyến ta thực việc đánh giá mơ hình tương tự tốn tuyến tính thay đổi thành hàm phi tuyến thay tuyến tính 2.1 Hàm đa thức: • Từ ý tưởng hàm bậc 2, ta mở rộng thành hàm đa thức tổng quát: • Trong R ta dùng hàm poly() để thể số bậc mơ hình Chẳng hạn với bậc ta code sau: Hình 4.5 Câu lệnh dùng để gọi hàm hồi quy dạng đa thức • Kết mơ hình hồi quy : Hình 4.6 Kết mơ hình hồi qui dạng Poly Square Feet • R square = 0.5347à Có 53,47% liệu phù hợp với mơ hình • R square Adjusted = 0,5109à R square > 50% nghiên cứu đánh giá tốt Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 • Vì giá trị p-Value = 3.311e-07 < 0.05 Từ chối H0 Nên mô hình hồi qui phù hợp với tổng thể • Dựa vào bảng kết Coefficients o Ta có Model có sig >0.05 Nên ta không chấp nhận poly(square.Feet, 2) bậc 2.2 Hàm Logarithm: Một cách khác để quy cách hàm số phi tuyến dùng hàm logarithm lên biến Y/(và)X • Trường hợp 1: Logarithm X, mơ hình trở thành: o Trong R ta dùng hàm log() để thể logarithm: Hình 4.7 Câu lệnh dùng để gọi hàm hồi quy dạng Logarithm Hình 4.8 Kết mơ hình hồi qui dạng Logarithm o R square = 0.5305à Có 53,05% liệu phù hợp với mơ hình o R square Adjusted = 0,5187 R square > 50% nghiên cứu đánh giá tốt o Vì giá trị p-Value = 4.573e-08 < 0.05 Từ chối H0 Nên mô hình hồi qui phù hợp với tổng thể o Dựa vào bảng kết Coefficients Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh o 08/06/2020 Ta có Model có sig < 0.05 Nên ta chấp nhận tất model o Ta có mơ hình: Market.Value = -380884 +63671*ln(Square.Feet) • Trường hợp 2: Logarithm Y, mơ hình trở thành: Hình 4.9 Câu lệnh dùng để gọi hàm hồi quy dạng Logarithm dạng Hình 4.10 Kết mơ hình hồi qui dạng Logarithm dạng o R square = 0.5392à Có 53,92% liệu phù hợp với mơ hình o R square Adjusted = 0,5276 R square > 50% nghiên cứu đánh giá tốt o Vì giá trị p-Value = 3.125-08 < 0.05 Từ chối H0 Nên mơ hình hồi qui phù hợp với tổng thể o Dựa vào bảng kết Coefficients § Ta có Model có sig < 0.05 Nên ta chấp nhận tất model § Ta có mơ hình: ln(Market.Value) = (1,08e+01) + (3,649e-04)*SquareFeet • Trường hợp 3: Logarithm X Y, mơ hình trở thành: Hình 4.11 Câu lệnh dùng để gọi hàm hồi quy dạng Logarithm dạng Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 Hình 4.12 Kết mơ hình hồi qui dạng Logarithm dạng o R square = 0.5392à Có 53,92% liệu phù hợp với mơ hình o R square Adjusted = 0,5277 R square > 50% nghiên cứu đánh giá tốt o Vì giá trị p-Value = 3.115-08 < 0.05 Từ chối H0 Nên mơ hình hồi qui phù hợp với tổng thể o Dựa vào bảng kết Coefficients § Ta có Model có sig < 0.05 Nên ta chấp nhận tất model § Ta có mơ hình: ln(Market.Value) = (6,47834) + (0,66584)*ln(SquareFeet) HỒI QUI LOGISTIC 3.1 Định nghĩa phân tích hồi qui logistic gì? • Phân tích hồi qui logistic phương pháp, kỹ thuật thống kê dùng để đánh giá mối liên hệ biến độc lập (biến số phân loại) với biến dạng nhị phân ( 1) • Dạng tuyến tính phương trình hồi logistic là, với biến độc lập Y biến phụ thuộc X biểu diễn qua phương trình sau đây: Y =a +b X +e • Trong phương trình Y biến độc lập với giá trị nhị phân (không tham gia bảo hiểm) (tham gia bảo hiểm) Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 • Nếu p xác suất biến cố xảy (xác suất tham gia bảo hiểm), – p xác suất biến cố không xảy (xác suất không tham gia bảo hiểm) dạng phương trình hồi qui logistic biểu diễn qua phương trình sau đây: ỉ p log ỗ ữ =a +b X +e ố1 - p ø • Từ phương trình ta tính xác suất p theo giá trị X p= ea +b X + ea +b X 3.2 Phân tích hồi qui logistic đơn biến • Nghiên cứu liên hệ điểm GPA tiên lượng có kế hoạch tham dự lễ tốt nghiệp trường Dữ liệu Graduate School Survey.xlsx Hình 4.13 Import liệu Graduate School Survey vào SPSS • Tính xác suất p có kế hoạch tham gia chương trình lễ tốt nghiệp Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 • Bước 1: Chọn Analyze Regression Binary Logistic Hình 4.14 Chọn trường Logistic Regression • Bước 2: Chọn thuộc tính nhị phân (phụ thuộc) biến độc lập (biến bao gồm) Hình 4.15 Chọn biến Dependent Covariates • Bước 3: Nhấn nút save chọn giá trị cần dự đốn Probabilities Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 Hình 4.16 Chọn Predicted Values • Bước 4: Nhấn continue sau nhấn options… nhấn chọn CI for exp(B) (Khoảng tin cậy hệ số B = tỉ số odds) Hình 4.17 Chọn Khoảng tin cậy số B • Bước 5: Chọn Continue nhấn OK để đưa kết cuối Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 Hình 4.18 Bảng kết dự báo xác suất có kế hoạch tham dự chương trình tốt nghiệp • Cột PRE_1 có ý nghĩa xác suất có kế hoạch tham dự chương trình tốt nghiệp • BẢNG PHÂN TÍCH KẾT QUẢ NHƯ HÌNH MINH HỌA Hình 4.19 Kết phân tích mơ hình hồi qui logistic đơn biến Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 • Bảng Model Summary có số -2 Log Likelihood (Viết tắt -2LL) mô hình có số tốt Chỉ số có ý nghĩa có so sánh mơ hình • Hai giá trị Cox&Snell R Squre Negelkerke R Square giống -2LL dùng để so sánh mơ hình hồi quy, hai mơ hình số Cox&Snell R Squre Negelkerke R Square cao tốt • Bảng Classification Table o Trong trường hợp plan to attend graduate school = có trường hợp 11 trường hợp quan sát có kế hoạc tham dự nên ta có 7/11 = 63,6% o Trong trường hợp plan to attend graduate school = trường hợp có 15 trường hợp 19 trường hợp quan sát • Từ bảng ta có phương trình hồi qui logistic sau: ỉ p log ỗ ữ = -10,909 +3,593*( UndergraduateGPA) +e ố1 - p ø ỉ p -10,909 +3,593*( undergraduateGPA) Ta đặt hệ số p/(1-p) odd ÷= e è 1- p ứ ã Ta cú ỗ 10,909 ã t Odd0 undergraduateGPA = Odd = e • Đặt Odd1 undergraduateGPA = Odd = e • Tỉ số 10,909+3,593 Odd1 e -10,909 +3,593 = » 36,359 Odd0 e-10,909 • Giá trị cột Exp(B) bảng Variables in the Equation • Lúc ta diễn dịch, điểm undergraduateGPA lên đơn vị khả dự tốt nghiệp tăng lên tỉ lệ có kế hoạch tham dự lễ tốt nghiệp tăng lên 36,359 lần, tăng 0,1 điểm GPA tỉ lệ tham dự lễ tốt nghiệp tăng lên 3,6359 lần 3.3 Phân tích hồi qui logistic đa biến • Tương tự hồi qui logistic đơn biến, đa biến tương tự biến covariates từ giá trị trở lên • Tập liệu: Insurance Survey Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 Hình 4.20 Tập liệu Insurance Survey • Các bước tương tự hồi qui Logistic đơn biến • Chọn thuộc tính: YearsEmployed, Statisfaction ,PremiumDeductible: Trả chi phí bảo hiểm thấp để lấy khấu trừ cao • Phát biểu tốn Hình 4.21 Chọn thuộc tính • Ta kết hình minh họa: Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 Hình 4.22 Bảng kết phân tích hồi qui đa biến • Chỉ số -2LL số dùng để so sánh mơ hình (chỉ độ phù hợp mơ hình) • Phương trình hồi quy logistic có dng nh sau: ổ p log ỗ ữ = -0,552 -0,207 *( Satisfaction) +0,025*( YearsEmployed) è1 - p ø • Tỉ số odd dựa vào bảng Variable in the Equation o Tỉ số odd satisfaction e-0,207 = 0,813 o Tỉ số odd Years Employed e0,025 = 1,025 o Vậy ta kết luận Year Employed lớn trả có xác suất trả bảo hiểm thấp (Y) cao với OddYear Employed = 1,025 3.4 Hồi quy logistic đơn biến ngôn ngữ R • Bước 1: Import liệu đính liệu Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 Hình 4.23 Thêm liệu Graduate School Survey • Bước 2: Dùng glm() để phân tích hồi quy logistic Hình 4.24 Kết hồi qui logistic đơn biến ngơn ngữ R Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 • Từ bảng ta có phương trình hồi qui logistic nh sau: ổ p log ỗ ữ = -10,909 +3,593*( UndergraduateGPA) +e è1 - p ø æ p ö -10,909 +3,593*( undergraduateGPA) Ta đặt hệ số p/(1-p) l odd ữ= e ố 1- p ứ ã Ta cú ỗ 10,909 ã t Odd0 v undergraduateGPA = Odd = e -10,909+3,593 • Đặt Odd1 undergraduateGPA = Odd = e • Tỉ số Odd1 e -10,909 +3,593 = » 36,359 Odd0 e-10,909 • Lúc ta diễn dịch, điểm undergraduateGPA lên đơn vị khả dự tốt nghiệp tăng lên tỉ lệ có kế hoạch tham dự lễ tốt nghiệp tăng lên 36,359 lần, tăng 0,1 điểm GPA tỉ lệ tham dự lễ tốt nghiệp tăng lên 3,6359 lần Phân tích liệu kinh doanh Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 CHƯƠNG PHÂN CƠNG CƠNG VIỆC Thành viên Nguyễn Minh Cơng việc Thực Nhựt Hoàng Thụy Trần Quang Lê Ngọc Nguyễn Thị (Nhóm Trinh Phúc Long Nhật Hằng x x x x trưởng) phần hồi quy x logistic Thực phần hồi quy x phi tuyến Thực phần phương pháp x x đánh giá mơ hình hồi qui Tìm tài liệu Phân tích liệu kinh doanh x x Nhóm Tiể u lu ậ n – PT d ữ li ệ u kinh doanh 08/06/2020 CHƯƠNG TÀI LIỆU THAM KHẢO Tài liệu ngôn ngữ giảng viên cung cấp Phương pháp hồi Logistic đa biến, https://bvag.com.vn/wp- content/uploads/2013/01/k2_attachments_PHAN-TICH-HOI-QUY-LOGISTIC-DON-VA-DABIEN.pdf Các tiêu chí đánh giá mơ hình hồ i qui, http://rstudio-pubs- static.s3.amazonaws.com/445130_e065fc3cceaf4393ba8011e3d7e106b5.html?fbclid=IwAR32 Ev3cWxamrlmrM30AmsMTdqTW-uFK08gaeWNFxKHMLgCO-CzsTDh44Co TÀI LIỆU VỀ ĐÁNH GIÁ HỒI QUI LOGISTIC, https://www.youtube.com/watch?v=FcxYCheb6Y&list=UU21dOPe-YHO3Gw6BRbyeotQ&index=20 https://weka.8497.n7.nabble.com/How-are-quot-Relative-absolute-error-quot-and-quot-Rootrelative-squared-error-quot-computed-td4588.html http://www.bomonnoiydhue.edu.vn/upload/file/lstk15_logistic.pdf Phân tích liệu kinh doanh