Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
4,77 MB
Nội dung
Báo cáo Lab – Nhóm 14 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA HỆ THỐNG THƠNG TIN PHÂN TÍCH DỮ LIỆU KINH DOANH Đề tài: BÁO CÁO LAB Giảng viên: PGS Nguyễn Đình Thuân KS Nguyễn Minh Nhựt Lớp: IS403.M22 Nhóm 14: Lê Thị Ái Nhi Lê Hữu Thắng Trịnh Thị Thanh Trúc Đặng Vũ Phương Uyên Nguyễn Thị Thu Phương TP.HCM, ngày 24 tháng 04 năm 2022 Báo cáo Lab – Nhóm 14 MỤC LỤC Hồi quy tuyến tính đa biến a Khái niệm hồi quy b Khái niệm hồi quy tuyến tính c Khái niệm hồi quy tuyến tính đơn biến d Khái niệm hồi quy tuyến tính đa biến e Ví dụ minh họa Hồi qui phi tuyến đa biến 18 a Định nghĩa 18 b Ví dụ minh họa 19 Hồi qui logistic 24 c Định nghĩa: 24 d Đặt vấn đề: 25 e Các bước thực 25 f Ví dụ minh họa : Graduate School Survey 26 Colleges and Universities 44 a Tính Excel 48 b Tính R 56 c Tính Python 59 Hồi quy phi tuyến đa biến với liệu thực tế tùy chọn về/của Việt Nam 62 a Phát biểu chung 62 b Thực phép tính Hồi quy phi tuyến đa biến MS Excel 64 c Thực phép tính Hồi quy phi tuyến đa biến R 68 d Thực phép tính Hồi quy phi tuyến đa biến Python 74 Hồi quy Logistic với liệu thực tế tùy chọn về/của Việt Nam 77 a Phát biểu toán (hay vấn đề) cần giải 77 b Excel 79 c Bằng R 83 d Bằng Python 84 e Giải thích kết luận 85 Báo cáo Lab – Nhóm 14 Bảng phân cơng cơng việc 89 Báo cáo Lab – Nhóm 14 Hồi quy tuyến tính đa biến a Khái niệm hồi quy Phân tích hồi quy (regression analysis) kỹ thuật thống kê dùng để ước lượng phương trình phù hợp với tập hợp kết quan sát biến phụ thuộc biến độc lập Nó cho phép đạt kết ước lượng tốt mối quan hệ chân thực biến số Từ phương trình ước lượng này, người ta dự báo biến phụ thuộc (chưa biết) dựa vào giá trị cho trước biến độc lập (đã biết) b Khái niệm hồi quy tuyến tính Linear Regression (Hồi quy tuyến tính) thuật toán phổ biến Supervised Learning (Học có giám sát), đầu dự đốn liên tục Thuật tốn thích hợp để dự đoán giá trị đầu đại lượng liên tục doanh số hay giá thay cố gắng phân loại chúng thành đại lượng rời rạc màu sắc chất liệu quần áo, hay xác định đối tượng ảnh mèo hay chó, … c Khái niệm hồi quy tuyến tính đơn biến Phân tích hồi quy tuyến tính đơn biến: Chỉ liên quan đến biến độc lập, dùng để xác định giá trị trung bình tổng thể biến phụ thuộc thay đổi giá trị biến độc lập thay đổi d Khái niệm hồi quy tuyến tính đa biến Phân tích hồi quy tuyến tính đa biến: phần mở rộng hồi quy tuyến tính đơn biến với nhiều biến độc lập Giả sử, ta có n biến độc lập n≥1 xem xét ảnh hưởng n biến độc lập tới biến phụ thuộc Y , ta có phương trình sau: =+ + + + + Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Trong đó: Ký hiệu Y X , … : ước lượng cho thay đổi Y ứng với gia tang đơn biến độc laapk giữ không đổi Sai số ngẫu nhiên =( − ) Trong đó: Ký hiệu Ý nghĩa Các giả thuyết thống kê ● Kiểm định ý nghĩa phương trình hồi quy ▪ Giả thuyết: - = =0 = ≠0 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 ▪ Gía trị kiểm định = ▪ Quy tắc kiểm định o ỏ o Cách 1: ếế , ( ) Cách 2: ỏ ● , ếế − > 05 Kiểm định độ phù hợp phương trình hồi quy Giả thuyết: ▪ - = =⋯= =+⋯+≠0( ≠0) ▪ Gía trị kiểm định Trong đó: Ký hiệu ▪ Quy tắc kiểm định o Cách 1: ỏ o ếế > Cách 2: Phân tích liệu kinh doanh – IS403.M22 , , ( ) Báo cáo Lab – Nhóm 14 ỏ ● ếế − < 05 Khoảng tin cậy với I thuộc (1, 2, …, k): ▪ ộ ( * , ( ) ∗ ( )) e Ví dụ minh họa Một Công ty phần mềm thu thập liệu mẫu gồm 20 lập trình viên Người ta đề nghị sử dụng phân tích hồi qui để xác định xem lương có mối liên hệ với số năm kinh nghiệm điểm thi khiếu lập trình cơng ty tổ chức hay khơng? Số năm kinh nghiệm, điểm thi khiếu Và mức lương hàng năm ($1000s) 20 lập trình viên trình bày bảng sau: Experience (yrs) 10 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 10 3 Trong đó: Lương nhân viên phụ thuộc vào: ● Experience: Số năm kinh nghiệm ● Score: Điểm thi khiếu lập trình công ty tổ chức ⇨ Biến độc lập: Experience, Score ⇨ Biến phụ thuộc: Salary - Yêu cầu toán: Mức độ ảnh hưởng số năm kinh nghiệm điểm thi khiếu lập trình cơng ty tổ chức đến lương - Mơ hình hồi quy mẫu: =+ - + Mối quan hệ giữ biến phụ thuộc biến độc lập: ● Mối quan hệ Experience Salary: Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 1: Mối quan hệ Experience Salary Nhận xét: Khi số năm kinh nghiệm lập trình viên tăng lên lương nhân viên tăng theo nên mối quan hệ giữ hai thuộc tính đồng biến, tức hệ số dự đoán Experience mang giá trị dương ● Mối quan hệ Score Salary: Hình 2: Mối quan hệ Score Salary Phân tích liệu kinh doanh – IS403.M22 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 nhà online cịn nhiều bất cập khiến hiệu suất công việc lẫn kết bị nhiều ảnh hưởng, nhiên, lo sợ tính mạng người cịn rào cản lớn cho định cá nhân tổ chức Vậy vấn đề đặt nhận biết tuýp người thuộc dạng có nguy cơ, xác suất tử vong cao ta có sở vững để đưa định sai lầm Vì nghiên cứu nhóm chúng tơi tiến hành xem xét tác động tuổi tác tử vong người Việt Nam Trước hết thực với quy mô nhỏ dựa liệu ca mắc Covid-19 Đà Nẵng ghi nhận lần cuối vào lúc 9h - 23/9/2020 Cổng dịch vụ liệu thành phố Đà Nẵng Về công cụ, chúng tơi phân tích hồi quy logistic số tuổi ca Covid ghi nhận xem xét xác suất tử vong độ tuổi Vì liệu chúng tơi lọc xử lý để tạo thành hai cột cần thiết tuổi (Age), tình trạng tử vong/đã khỏi bệnh (Status) Hình 65: Một số mẫu liệu 2https://congdulieu.vn/dulieuchitiet/23242# Phân tích liệu kinh doanh – IS403.M22 78 Báo cáo Lab – Nhóm 14 Nêu bước tiến hành tính lại giá trị bảng kết b Excel Hình 66: Đầu tiên ta chọn Data Analysis, sau chọn Regression Hình 67: Tư bảng kết quả, ta lấy kết hai hệ số intercept/age làm hệ số khởi tạo cho phương trình tuyến tính hàm log 79 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính kết cho cột C Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa phương trình tuyến tính khởi tạo Hình 10: Tiếp theo ta tính số xác suất Likelihood dựa nhãn thực tế biết 80 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 71: Tiếp theo ta tính log likelihood Hình 72: Sau ta tính tổng tất giá trị dòng log likelihood Hình 73: Ta dùng cơng cụng Solver Analysis Data để cập nhật lại hệ số từ hai hệ số khởi tạo 81 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 74: Dịng “Set Objective” ta bỏ vào giá trị tổng giá trị log likelihood, dòng "By Changing Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần cập nhật Hình 75: Hai hệ số hàm Logistic cập nhật thành 0;0 Chi tiết phân tích trình bày phần sau 82 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 c Bằng R Hình 76: Đầu tiên ta đọc file csv đính kèm giá trị vừa đọc vào chương trình lệnh attach Hình 77: Tiếp theo ta dùng hàm glm để thực hồi quy logistic, với biến phụ thuộc Status biến độc lập Age Sau ta dùng lệnh summary để in bảng kết Hình 78: Bảng kết sau thực hồi quy logistic Hình 79: Dùng lệnh sau để vẽ đường cong logistic theo hệ số vừa tìm 83 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 80: Biểu diễn điểm liệu đường cong logistic d Bằng Python Hình 81: Cài đặt thư viện cần thiết đọc file liệu vào chương trình Hình 82: Đọc liệu vào biến dạng numpy array Ta phải tiến hình reshape liệu biến độc lập thành mảng hai chiều để phù hợp với đầu vào thuật tốn 84 Báo cáo Lab – Nhóm 14 Hình 83: Tạo model hàm LogisticRegression, sau tiến hành huấn luyện lệnh fit với hai đối số X y Hình 84: Sau ta in hai giá trị hệ số mơ hình học e Giải thích kết luận Trước hết ta có hàm logistic dùng để tính xác suất sảy biến cố dựa biến số Trong tốn này, chúng tơi xét biến cố người có tử vong hay khơng dữa biến số tuổi tác họ Vậy hàm logistic tính xác suất phát biểu sau: = + 1+ Với phương trình tuyến tính có x giá trị tuổi người mắc Covid hai hệ số cần tìm , Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu hệ số với a (intercept) -6,43021 b (age) 0.08 85 Phân tích liệu kinh doanh – IS403.M22 Báo cáo Lab – Nhóm 14 Hình 85: Bảng kết thực nghiệm ngôn ngữ R Khi thao tác với Python, nhận thấy với giá trị C khác ta thu hệ số khác sau: Hình 86: Hệ số tìm đặt giá trị C =10.0 86 Báo cáo Lab – Nhóm 14 Hình 2: Hệ số tìm đặt giá trị C =20.0 Hình 87: Hệ số đặt C 90 gần giống với kết thực nghiệm R Theo tìm hiểu, C hệ số đảo ngược regularization Trong đó, regularization dạng tham số phạt mơ hình máy học giúp hạn chế tình trạng overfitting mơ hình đầu Overfitting tình trạng mơ hình sau huấn luyện thể q tốt liệu huấn luyện lại thể liệu thực tế Tiếp theo xét giá trị hệ số tìm cách thực nghiệm Excel, cụ thể nhận hai giá trị Chúng tiến hành áp thử hai hệ số tìm hai phương pháp thực nghiệm ngôn ngữ R Python vào liệu bảng excel để xem xét Sau nhìn nhận xác suất trả giá trị tuổi, nhận định trường hợp hệ số trả mơ hình (0,0) giải thích liệu mà mơ hình bị cần nặng nề Cụ thể tất độ tuổi thu thập (từ đến 95) đến tận số tuổi 84 có xác suất tử vong vượt ngưỡng 50 có 8/247 mẫu vượt qua ngưỡng Vậy nên dựa liệu đưa vào excel, mơ hình đầu kết luận hai hệ số (0,0) tương đương 87 Báo cáo Lab – Nhóm 14 với việc độ tuổi đưa vào khả tử vong hợp lý liệu có Bởi có 8/247 trường hợp (theo hệ số mượn từ hai phương pháp trên) bị phán đốn sai mà thơi cịn lại 239 trường hợp xem mơ hình có hệ số (0,0) Hình 88: Giá trị xác suất tử vong hay không phụ thuộc vào giá trị tuổi áp dụng hệ số từ hai phương pháp trước Trong đó, dịng tơ màu đỏ dịng vượt ngưỡng 50%, dòng xanh dương dòng thử nghiệm đưa vào để xem mức tuối có khả 90% mắc covid tử vong Từ kết luận đưa giải pháp để tăng tính khách quan độ xác mơ hình đầu sau: xem xét hệ số phạt (regularization) để tránh tình trạng mơ hình nhìn trường hợp cụ thể liệu mà khơng có tính khách quan liệu thực tế; hai ta phải cố gắng thu thập nhiều mẫu liệu để mơ hình khơng bị giới hạn phạm vi đặc tính cụ thể 88 Phân tích liệu kinh doanh – IS403 M22 Báo cáo Lab – Nhóm 14 Hình 89: Khi tăng tuổi khả ta bị tử vong covid tăng 1,08 lần Bảng phân công công việc Ái Nhi Câu 3a Câu 3b Câu 3c Câu 4d Câu 4e Câu 4f Phương Uyên X Thu Thanh Phương Trúc Hữu Thắng X X X X X X X X X 89 Phân tích liệu kinh doanh – IS403 M22 ... khơng liên qua ta có liệu sau: 32 Phân tích liệu kinh doanh – IS4 03. M22 Báo cáo Lab – Nhóm 14 2.8 2.6 3. 3 3. 3 3. 5 3. 2 2.9 4 3. 6 3. 3 2.9 3. 4 3. 2 2.5 4 2.7 3. 7 3. 2 2.8 Bảng Dữ liệu Graduate School... kê 33 Phân tích liệu kinh doanh – IS4 03. M22 Báo cáo Lab – Nhóm 14 - Kết phân tích Hình 22.1,2 ,3 Kết phân tích Real Statistics sau loại bỏ biến khơng có ý nghĩa thống kê 34 Phân tích liệu kinh doanh. .. Range => OK Phân tích liệu kinh doanh – IS4 03. M22 29 Báo cáo Lab – Nhóm 14 Hình 20 Hộp thoại Logistic Regression - Ta kết phân tích sau 30 Phân tích liệu kinh doanh – IS4 03. M22 Báo cáo Lab – Nhóm