Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 92 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
92
Dung lượng
7,74 MB
Nội dung
Báo cáo Lab – Nhóm 14 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA HỆ THỐNG THƠNG TIN PHÂN TÍCH DỮ LIỆU KINH DOANH Đề tài: BÁO CÁO LAB Giảng viên: PGS Nguyễn Đình Thuân KS Nguyễn Minh Nhựt Lớp: IS403.M22 Nhóm 14: Lê Thị Ái Nhi - 19521963 Lê Hữu Thắng - 19522200 Trịnh Thị Thanh Trúc - 19521059 Đặng Vũ Phương Uyên - 19520345 Nguyễn Thị Thu Phương - 19522066 TP.HCM, ngày 24 tháng 04 năm 2022 Báo cáo Lab – Nhóm 14 MỤC LỤC Hồi quy tuyến tính đa biến a Khái niệm hồi quy b Khái niệm hồi quy tuyến tính c Khái niệm hồi quy tuyến tính đơn biến d Khái niệm hồi quy tuyến tính đa biến e Ví dụ minh họa Hồi qui phi tuyến đa biến 18 a Định nghĩa 18 b Ví dụ minh họa 19 Hồi qui logistic 24 c Định nghĩa: 24 d Đặt vấn đề: 25 e Các bước thực 25 f Ví dụ minh họa : Graduate School Survey 26 Colleges and Universities 44 a Tính Excel 48 b Tính R 56 c Tính Python 59 Hồi quy phi tuyến đa biến với liệu thực tế tùy chọn về/của Việt Nam 62 a Phát biểu chung 62 b Thực phép tính Hồi quy phi tuyến đa biến MS Excel 64 c Thực phép tính Hồi quy phi tuyến đa biến R 68 d Thực phép tính Hồi quy phi tuyến đa biến Python 74 Hồi quy Logistic với liệu thực tế tùy chọn về/của Việt Nam 77 a Phát biểu toán (hay vấn đề) cần giải 77 b Excel 79 c Bằng R 83 d Bằng Python 84 e Giải thích kết luận 85 Báo cáo Lab – Nhóm 14 Bảng phân cơng cơng việc 89 Báo cáo Lab – Nhóm 14 Hồi quy tuyến tính đa biến a Khái niệm hồi quy Phân tích hồi quy (regression analysis) kỹ thuật thống kê dùng để ước lượng phương trình phù hợp với tập hợp kết quan sát biến phụ thuộc biến độc lập Nó cho phép đạt kết ước lượng tốt mối quan hệ chân thực biến số Từ phương trình ước lượng này, người ta dự báo biến phụ thuộc (chưa biết) dựa vào giá trị cho trước biến độc lập (đã biết) b Khái niệm hồi quy tuyến tính Linear Regression (Hồi quy tuyến tính) thuật tốn phổ biến Supervised Learning (Học có giám sát), đầu dự đốn liên tục Thuật tốn thích hợp để dự đốn giá trị đầu đại lượng liên tục doanh số hay giá thay cố gắng phân loại chúng thành đại lượng rời rạc màu sắc chất liệu quần áo, hay xác định đối tượng ảnh mèo hay chó, … c Khái niệm hồi quy tuyến tính đơn biến Phân tích hồi quy tuyến tính đơn biến: Chỉ liên quan đến biến độc lập, dùng để xác định giá trị trung bình tổng thể biến phụ thuộc thay đổi giá trị biến độc lập thay đổi d Khái niệm hồi quy tuyến tính đa biến Phân tích hồi quy tuyến tính đa biến: phần mở rộng hồi quy tuyến tính đơn biến với nhiều biến độc lập Giả sử, ta có n biến độc lập n≥1 xem xét ảnh hưởng n biến độc lập tới biến phụ thuộc Y , ta có phương trình sau: 𝑌 = 𝛽 + 𝛽 𝑋 + 𝛽 𝑋 +⋯ + 𝛽 𝑋 + 𝜀 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Trong đó: Ký hiệu Ý nghĩa Y Biến phụ thuộc X Biến độc lập Tung độ gốc (Hệ số tự 𝛽 do) Hệ số gốc riêng phần 𝛽 , … 𝛽 𝛽 : ước lượng cho thay đổi Y ứng với gia tang đơn vị 𝑋 tất biến độc laapk giữ không đổi Sai số ngẫu nhiên 𝜀 𝑒 = (𝑌 − 𝑌 ) Trong đó: Ký hiệu Ý nghĩa 𝑌 Biến tiên lượng 𝑒 Phần dư Các giả thuyết thống kê ● Kiểm định ý nghĩa phương trình hồi quy ▪ Giả thuyết: - 𝐻 = 𝛽 =0 - 𝐻 = 𝛽 ≠0 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 ▪ Gía trị kiểm định 𝑡= ▪ 𝐵 𝑆𝑒 𝐵 Quy tắc kiểm định o Cách 1: 𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑡 < −𝑡 , ( ) ℎ𝑜ặ𝑐 𝑡 > 𝑡 , ( ) o Cách 2: 𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑝 − 𝑣𝑎𝑙𝑢𝑒 > 0.05 ● Kiểm định độ phù hợp phương trình hồi quy ▪ Giả thuyết: - 𝐻 = 𝛽 = ⋯ = 𝛽 = (𝑅 = 0) - 𝐻 = 𝛽 ▪ Gía trị kiểm định +⋯+ 𝛽 ≠ (𝑅 ≠ 0) 𝐹= 𝑀𝑆𝑅 𝑀𝑆𝐸 Trong đó: Ký hiệu 𝑘 ▪ Ý nghĩa Số lượng tham số Quy tắc kiểm định o Cách 1: 𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝐹 > 𝐹 , , ( ) o Cách 2: Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0.05 ● Khoảng tin cậy 𝐵 với I thuộc (1, 2, …, k): ▪ 𝐵 𝑡ℎ𝑢ộ𝑐 ( 𝐵 * 𝑡 , ( ) ∗ 𝑠𝑒 (𝐵 )) e Ví dụ minh họa Một Công ty phần mềm thu thập liệu mẫu gồm 20 lập trình viên Người ta đề nghị sử dụng phân tích hồi qui để xác định xem lương có mối liên hệ với số năm kinh nghiệm điểm thi khiếu lập trình cơng ty tổ chức hay khơng? Số năm kinh nghiệm, điểm thi khiếu Và mức lương hàng năm ($1000s) 20 lập trình viên trình bày bảng sau: Experience (yrs) Score Salary ($K) 78 24 100 43 86 24 82 34 86 36 10 84 38 75 22 80 23 83 30 91 33 88 38 73 27 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 10 75 36 81 32 74 29 87 34 79 30 94 34 70 28 89 30 Bảng 1: Dữ liệu sử dụng Trong đó: - Lương nhân viên phụ thuộc vào: ● Experience: Số năm kinh nghiệm ● Score: Điểm thi khiếu lập trình cơng ty tổ chức ⇨ Biến độc lập: Experience, Score ⇨ Biến phụ thuộc: Salary - Yêu cầu toán: Mức độ ảnh hưởng số năm kinh nghiệm điểm thi khiếu lập trình cơng ty tổ chức đến lương - Mơ hình hồi quy mẫu: 𝑆𝑎𝑙𝑎𝑟𝑦 = 𝛽 + 𝛽 𝐸𝑥𝑝𝑒𝑟𝑖𝑒𝑛𝑐𝑒 + 𝛽 𝑆𝑐𝑜𝑟𝑒 - Mối quan hệ giữ biến phụ thuộc biến độc lập: ● Mối quan hệ Experience Salary: Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 1: Mối quan hệ Experience Salary Nhận xét: Khi số năm kinh nghiệm lập trình viên tăng lên lương nhân viên tăng theo nên mối quan hệ giữ hai thuộc tính đồng biến, tức hệ số dự đoán Experience mang giá trị dương ● Mối quan hệ Score Salary: Hình 2: Mối quan hệ Score Salary Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Nhận xét: Khi số điểm đánh giá lực lập trình viên tăng lên lương nhân viên tăng theo nên mối quan hệ giữ hai thuộc tính đồng biến, tức hệ số dự đoán Score mang giá trị dương - Dùng cơng cụ Data Analysis Excel ta được: Hình 3: Tính cơng cụ Excel thơng qua Data Analysis - Tính tốn lại giải thích giá trị: ● Khái niệm: ● SSR: tổng bình phương biến thiên độ lệch tiên lượng giá trị trung bình 𝑆𝑆𝑅 = 𝑌− 𝑌 ● SSE: tổng bình phương biến thiên độ lệch tiên lượng quan sát 𝑆𝑆𝐸 = 𝑌− 𝑌 ● SST: tổng bình phương biến thiên độ lệch quan sát giá trị trung bình Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 - Bước 5: Dùng hàm Linear Regression() thư viện sklearn() để đưa mơ hình theo biến X Y - Bước 6: Lấy giá trị thơng dụng mơ hình hồi quy tuyến tính ● Hệ số chắn ● Hệ số thành phần ● Giá trị R-squared - Bước 7: Xuất kết Cú pháp xây dựng bảng thống kê 75 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 ● Kết quả: ● Bước 8: Kết luận: ● Kết tính tốn Python giống với R Excel ● Ta có mơ hình: GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi) 76 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 ● Kết luận: Từ kết luận đưa yếu tố người sở vật chất bệnh viện có liên quan ảnh hưởng đến Cho nên để có chất lượng tốt cải thiện số lượng giường bệnh bệnh viện, nên tăng số lượng đội ngũ y tế bác sĩ, y sĩ… Hồi quy Logistic với liệu thực tế tùy chọn về/của Việt Nam a Phát biểu toán (hay vấn đề) cần giải Mặc dù cộng đồng giới nói chung Việt Nam nói riêng cho thấy tín hiệu ổn định trở lại đại dịch Covid-19, nhiên mối nguy hiểm từ dịch bệnh chưa dừng lại, cụ thể số người tử vong trung bình bảy ngày qua Việt Nam ghi nhận số người Hình 64: Bảng số liệu thống kê số người tử vong Việt Nam vòng tháng, với số liệu trung bình ghi nhận ngày gần Dù vậy, nhịp sống tù động Covid khơng phần nguy hiểm ảnh hưởng gián tiếp đến kinh tế xã hội đất nước Vì thế, Việt Nam có nhiều sách bình thường hóa: Vừa làm trực tiếp vừa làm online, cho mở cửa siêu thị chợ khuyến khích dịch vụ đặt đồ nhà, vừa học online vừa học offline Mặc dù hiển nhiên, hoạt động diễn https://www.google.com/search?sxsrf=APq-WBsC6BvixJIW9Nw16BojY_2X7bviQ:1650720995255&q=s%E1%BB%91+ng%C6%B0%E1%BB%9Di+t%E1%BB%AD+v%E1%BB%8 Dng+covid+vi%E1%BB%87t+nam+h%C3%B4m+nay&lco=en:1&lr=lang_en&lrs=0&sa=X&ved=2ahUKEwjamK70pqr3 AhUYyYsBHTC4A8QQ-PEFKAB6BAgCEDQ 77 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 nhà online cịn nhiều bất cập khiến hiệu suất công việc lẫn kết bị nhiều ảnh hưởng, nhiên, lo sợ tính mạng người rào cản lớn cho định cá nhân tổ chức Vậy vấn đề đặt nhận biết người thuộc dạng có nguy cơ, xác suất tử vong cao ta có sở vững để đưa định sai lầm Vì nghiên cứu nhóm tiến hành xem xét tác động tuổi tác tử vong người Việt Nam Trước hết thực với quy mô nhỏ dựa liệu ca mắc Covid-19 Đà Nẵng ghi nhận lần cuối vào lúc 9h - 23/9/2020 Cổng dịch vụ liệu thành phố Đà Nẵng2 Về cơng cụ, chúng tơi phân tích hồi quy logistic số tuổi ca Covid ghi nhận xem xét xác suất tử vong độ tuổi Vì liệu lọc xử lý để tạo thành hai cột cần thiết tuổi (Age), tình trạng tử vong/đã khỏi bệnh (Status) Hình 65: Một số mẫu liệu https://congdulieu.vn/dulieuchitiet/23242# 78 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Nêu bước tiến hành tính lại giá trị bảng kết b Excel Hình 66: Đầu tiên ta chọn Data Analysis, sau chọn Regression Hình 67: Tư bảng kết quả, ta lấy kết hai hệ số intercept/age làm hệ số khởi tạo cho phương trình tuyến tính hàm log 79 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính kết cho cột C Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa phương trình tuyến tính khởi tạo Hình 10: Tiếp theo ta tính số xác suất Likelihood dựa nhãn thực tế biết 80 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 71: Tiếp theo ta tính log likelihood Hình 72: Sau ta tính tổng tất giá trị dịng log likelihood Hình 73: Ta dùng công cụng Solver Analysis Data để cập nhật lại hệ số từ hai hệ số khởi tạo 81 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 74: Dịng “Set Objective” ta bỏ vào giá trị tổng giá trị log likelihood, dòng "By Changing Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần cập nhật Hình 75: Hai hệ số hàm Logistic cập nhật thành 0;0 Chi tiết phân tích trình bày phần sau 82 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 c Bằng R Hình 76: Đầu tiên ta đọc file csv đính kèm giá trị vừa đọc vào chương trình lệnh attach Hình 77: Tiếp theo ta dùng hàm glm để thực hồi quy logistic, với biến phụ thuộc Status biến độc lập Age Sau ta dùng lệnh summary để in bảng kết Hình 78: Bảng kết sau thực hồi quy logistic Hình 79: Dùng lệnh sau để vẽ đường cong logistic theo hệ số vừa tìm 83 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 80: Biểu diễn điểm liệu đường cong logistic d Bằng Python Hình 81: Cài đặt thư viện cần thiết đọc file liệu vào chương trình Hình 82: Đọc liệu vào biến dạng numpy array Ta phải tiến hình reshape liệu biến độc lập thành mảng hai chiều để phù hợp với đầu vào thuật toán 84 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 83: Tạo model hàm LogisticRegression, sau tiến hành huấn luyện lệnh fit với hai đối số X y Hình 84: Sau ta in hai giá trị hệ số mơ hình học e Giải thích kết luận Trước hết ta có hàm logistic dùng để tính xác suất sảy biến cố dựa biến số Trong tốn này, chúng tơi xét biến cố người có tử vong hay không dữa biến số tuổi tác họ Vậy hàm logistic tính xác suất phát biểu sau: 𝑒 𝑝= 1+𝑒 Với 𝑎 + 𝑏 𝑥 phương trình tuyến tính có x giá trị tuổi người mắc Covid 𝑎, 𝑏 hai hệ số cần tìm Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu hệ số với a (intercept) -6,43021 b (age) 0.08 85 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 85: Bảng kết thực nghiệm ngôn ngữ R Khi thao tác với Python, nhận thấy với giá trị C khác ta thu hệ số khác sau: Hình 86: Hệ số tìm đặt giá trị C =10.0 86 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 2: Hệ số tìm đặt giá trị C =20.0 Hình 87: Hệ số đặt C 90 gần giống với kết thực nghiệm R Theo tìm hiểu, C hệ số đảo ngược regularization Trong đó, regularization dạng tham số phạt mô hình máy học giúp hạn chế tình trạng overfitting mơ hình đầu Overfitting tình trạng mơ hình sau huấn luyện thể tốt liệu huấn luyện lại thể liệu thực tế Tiếp theo xét giá trị hệ số tìm cách thực nghiệm Excel, cụ thể nhận hai giá trị Chúng tiến hành áp thử hai hệ số tìm hai phương pháp thực nghiệm ngôn ngữ R Python vào liệu bảng excel để xem xét Sau nhìn nhận xác suất trả giá trị tuổi, nhận định trường hợp hệ số trả mơ hình (0,0) giải thích liệu mà mơ hình bị cần nặng nề Cụ thể tất độ tuổi thu thập (từ đến 95) đến tận số tuổi 84 có xác suất tử vong vượt ngưỡng 50 có 8/247 mẫu vượt qua ngưỡng Vậy nên dựa liệu đưa vào excel, mơ hình đầu kết luận hai hệ số (0,0) tương đương 87 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 với việc độ tuổi đưa vào khả tử vong hợp lý liệu có Bởi có 8/247 trường hợp (theo hệ số mượn từ hai phương pháp trên) bị phán đoán sai mà thơi cịn lại 239 trường hợp xem mơ hình có hệ số (0,0) Hình 88: Giá trị xác suất tử vong hay không phụ thuộc vào giá trị tuổi áp dụng hệ số từ hai phương pháp trước Trong đó, dịng tơ màu đỏ dịng vượt ngưỡng 50%, dịng xanh dương dịng thử nghiệm chúng tơi đưa vào để xem mức tuối có khả 90% mắc covid tử vong Từ kết luận đưa giải pháp để tăng tính khách quan độ xác mơ hình đầu sau: xem xét hệ số phạt (regularization) để tránh tình trạng mơ hình nhìn trường hợp cụ thể liệu mà khơng có tính khách quan liệu thực tế; hai ta phải cố gắng thu thập nhiều mẫu liệu để mơ hình khơng bị giới hạn phạm vi đặc tính cụ thể 88 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 89: Khi tăng tuổi khả ta bị tử vong covid tăng 1,08 lần Bảng phân công công việc Ái Nhi Câu 3a Câu 3b Câu 3c Câu 4d Câu 4e Câu 4f Phương Uyên X Thu Phương Thanh Trúc Hữu Thắng X X X X X X X X X 89 Phân tích liệu kinh doanh – IS403.M22 ... 1 3. 1 1 3. 5 1 3. 2 26 Phân tích liệu kinh doanh – IS4 03. M22 Báo cáo Lab – Nhóm 14 1 3. 7 1 2.8 1 2.6 1 3. 3 3. 3 1 3. 5 1 3. 2 2.9 1 1 0 3. 6 0 3. 3 1 2.9 0 3. 4 1 0 3. 2 0 1 0 2.5 0 0 1 2.7 0 3. 7 1 3. 2... có liệu sau: Undergraduate Plan to attend GPA graduate school 2.9 3. 1 3. 5 3. 2 3. 7 32 Phân tích liệu kinh doanh – IS4 03. M22 Báo cáo Lab – Nhóm 14 2.8 2.6 3. 3 3. 3 3. 5 3. 2 2.9 4 3. 6 3. 3 2.9 3. 4 3. 2... Range => OK 29 Phân tích liệu kinh doanh – IS4 03. M22 Báo cáo Lab – Nhóm 14 Hình 20 Hộp thoại Logistic Regression - Ta kết phân tích sau 30 Phân tích liệu kinh doanh – IS4 03. M22 Báo cáo Lab – Nhóm