1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN TÍCH dữ LIỆU KINH DOANH đề tài báo cáo LAB 3

92 53 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 2,76 MB

Nội dung

     Báo cáo Lab – Nhóm 14  ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN PHÂN TÍCH DỮ LIỆU KINH DOANH Đề tài: BÁO CÁO LAB 3  3  Giảng viên: PGS Nguyễn Đình Thuân KS Nguyễn Minh Nhựt  Nhựt  Lớp: IS403.M22 IS403.M22    Nhóm 14: 14: Lê Thị Ái Nhi - 19521963 Lê Hữu Thắng - 19522200 Trịnh Thị Thanh Trúc - 19521059 Đặng Vũ Phương Uyên - 19520345 Nguyễn Thị Thu Phương - 19522066 TP.HCM, ngày 24 tháng 04 năm 2022    Báo cáo Lab – Nhóm 14   MỤC LỤC 1.  Hồi quy tuyến tính đa biến   a Khái niệm hồi quy b Khái niệm hồi quy tuyến tính c Khái niệm hồi quy tuyến tính tính đơn biến d Khái niệm hồi quy tuyến tính tính đa biến e Ví dụ minh họa   2.  Hồi qui phi tuyến t uyến đa biến 18   a Định nghĩa 18 b Ví dụ minh họa 19 3.  Hồi qui logistic 24   c Định nghĩa: 24 d Đặt vấn đề: 25 e Các bước thực 25  f Ví dụ minh họa : Graduate School Survey 26 4.  Colleges and Universities Universities 44  a Tính Excel 48 b Tính R 56 c Tính Python 59 5.  Hồi quy phi tuyế tuyến n đa biến với liệu thực thự c tế tùy chọn về/của Việt Nam 62   a Phát biểu chung 62 b Thực hiệ n phép tính Hồi H ồi quy phi tuyến tuyế n đa biến trê n MS Excel 64 c Thực phép tính Hồi quy phi tuyến đa biến R 68 d Thực phép tính Hồi quy phi tuyến tuyến đa biến Python 74 6.  Hồi quy Logistic với liệu thực tế tùy chọn về/của Việt Nam 77   a Phát biểu toán (hay vấn đề) cần giải 77 b Excel 79 c Bằng R R 83 d Bằng Python 84 e Giải thích kết luận 85    Báo cáo Lab – Nhóm 14   7.  Bảng phân công công việc 89      Báo cáo Lab – Nhóm 14   1.  Hồi quy tuyến tính đa biến a.  Khái niệm hồi quy Phân tích hồi quy (regression analysis) kỹ thuật thống kê dùng để ước lượng  phương trình phù hợp nhấ t với tập hợp kết quan sát biến phụ thuộc  biến độc lập Nó cho phép đạt kết ước lượng tố tốtt mối quan hệ chân thực biến số Từ phương trình ước lượng này, người ta dự báo biến phụ thuộc (chưa biết) dựa vào giá trị cho trước biến độc lập (đã biết) b.  Khái niệm hồi quy tuyến tính Linear Regression (Hồi quy tuyến tính) thuật toán phổ biến Supervised Learning (Học có giám sát), đầu dự đoán liên tục Thuật toán thích hợp để dự đốn giá trị đầu đại lượng liên tục doanh số hay giá thay cố gắng phân loại chúng thành đại lượng rời rạc màu sắc chất liệu quần áo, hay xác định đối tượng ảnh mèo hay chó, … c.  Khái niệm hồi quy tuyến tính đơn biến Phân tích hồi quy tuyến tính đơn biến: Chỉ liên quan đến biến độc lập, dùng để xác định giá trị trung bình tổng thể biến phụ thuộc thay đổi giá trị biến độc lập thay đổi d.  Khái niệm hồi quy tuyến tính đa biến Phân tích hồi quy tuyến tính đa biến: phần mở rộng hồi quy tuyến tính đơn  biến với nhiều biến độc lập Giả sử, ta có n biến biến độc lập n≥1 xem xét ảnh hưởng n biến độc lập nà y tới biến phụ thuộc Y , ta có phương trình sau:  =  +     +    +⋯ +     +   1   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14   Trong đó: Ký hiệu Ý nghĩa Y Biến phụ thuộc X Biến độc lập   Tung độ gốc (Hệ số tự do) , …   Hệ số gốc riêng phần  : ước lượng cho thay đổi Y ứng với gia tang m ột đơn vị    tất biến độc laapk giữ không đổi    Sai số ngẫu nhiên  = ( −   )  Trong đó: Ký hiệu        Các ●  Ý nghĩa Biến tiên lượng Phần dư giả thuyết thống kê Kiểm định ý nghĩa phương trình hồi quy ▪  Giả thuyết: -   =  = 0  -     =  ≠   Phân tích liệu kinh doanh – IS403.M22 2     Báo cáo Lab – Nhóm 14   ▪  Gía trị kiểm định ▪  Quy tắc kiểm định    =      Cách 1: o á ỏ  ế  ế  < − , ()  ℎ ℎặ  >  , ()     Cách 2: o á ỏ  ế  ế  −  > 0.05  ●  Kiểm định độ phù hợp phương trình hồi quy -  Giả =thuyết:  = ⋯ =  = ( = 0)   =  +⋯+  ≠ ( ≠ 0)  ▪  Gía trị kiểm định ▪  -   =    Trong đó: Ký hiệu   ▪  Ý nghĩa Số lượng tham số Quy tắc kiểm định   Cách 1: o á ỏ  ế  ế  > ,,()  o   Cách 2:  Phân tích liệu kinh doanh – IS403.M22 3     Báo cáo Lab – Nhóm 14   á ỏ  ế  ế  −  < 0.05  ●  Khoảng tin cậy   với I thuộc (1, 2, …, k):   *  ,() ∗  (()) ▪    ℎộ (  e.  Ví dụ minh họa Một Cơng ty phần mềm thu thập liệu mẫu gồm 20 lập trình viên  Người ta đề nghị sử dụng phân tích hồi qui để xác định xem lương có mối liên hệ với số năm kinh nghiệm điểm thi khiếu lập trình cơng ty tổ chức hay không? Số năm kinh nghiệm, điểm thi khiếu Và mức lương hàng năm ($1000s) 20 lập trình viên trình bày bảng sau: Experience (yrs) Score Salary ($K) 78 24 100 43 86 24 82 34 86 36 10 84 38 75 80 22 23 83 30 91 33 88 38 73 27 4   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14   10 75 36 81 32 74 29 87 34 79 30 94 34 70 28 89 30  Bảng 1: Dữ liệu sử dụng Trong đó: -  Lương nhân viên phụ thuộc vào: ●  Experience: Số năm kinh nghiệm ●  Score: Điểm thi khiếu lập trình cơng ty tổ chức ⇨  Biến độc lập: Experience, Score ⇨  Biến phụ thuộc: Salary -  Yêu cầu toán: Mức độ ảnh hưởng số năm kinh nghiệm điểm thi khiếu lập trình cơng ty tổ chức đến lương -  Mơ hình hồi quy mẫu: -  Mối quan hệ giữ biến phụ thuộc biến độc lập:  =  +  +   ●  Mối quan hệ Experience Salary: 5   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Hình 1: Mối quan hệ Experience Salary Nhận xét: Khi xét: Khi số năm kinh nghiệm lập trình viên tăng lên lương nhân viên tăng theo nên mối quan hệ giữ hai thuộc tính đồng biến, tức hệ số dự đoán Experience mang giá trị dương ●  Mối quan hệ Score Salary:  Hình 2: Mối quan hệ Score Salary 6   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Nhận xét: Khi số điểm đánh giá lực lập trình viên tăng lên lương lương nhân viên tăng theo nên mối quan hệ giữ hai thuộc tính đồng biến, tức hệ số dự đoán Score mang giá trị dương -  Dùng công cụ Data Analysis Excel ta t a được:  Hình 3: Tính cơng cụ Excel thơng qua Data Analysis -  Tính tốn lại giải thích giá trị: ●  Khái niệm: ●  SSR: tổng bình phương biến thiên độ lệch tiên lượng giá trị trung  bình  =     −    ●  SSE: tổng bình phương biến thiên độ lệch tiên lượng quan sát  =     −    ●  SST: tổng bình phương biến thiên độ lệch quan sát giá trị trung bình 7   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14   -  Bước 5: Dùng hàm Linear Regression() thư viện sklearn() để đưa mô hình theo biến X Y -  Bước 6: Lấy giá trị thơng dụng mơ hình hồi quy tuyến tính ●  Hệ số chắn ●  Hệ số thành phần ●  Giá trị R-squared -  Bước 7: Xuất kết Cú pháp xây dựng bảng thống kê 75   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14   ●  Kết quả: ●  Bước 8: Kết luận: ●  Kết tính tốn Python giống với R Excel ●  Ta có mơ hình: GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi) 76   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14   ●  Kết luận: Từ luận: Từ kết luận chúng đưa yếu tố người người sở vật chất bệnh viện có liên quan ảnh hưởng đến Cho nên để có chất lượng tốt cải thiện số lượng giường bệnh bệnh viện, nên tăng số lượng đội ngũ y tế bác sĩ, y sĩ…  6.  Hồi quy Logistic với liệu thực tế tùy chọn về/của Việt Nam a.  Phát biểu toán (hay vấn đề) cần giải Mặc dù cộng đồng giới nói chung Việt Nam nói riêng cho thấy tín hiệu ổn định trở lại đại dịch Covid-19, nhiên mối nguy hiểm từ dịch bệnh v ẫn chưa dừng lại, cụ thể số người tử vong trung bình  bảy ngày qua Việt Việt Nam ghi nhận số người  Hình 64: Bảng số liệu thống kê số người tử vong Việt Nam vịng tháng, với số liệu   trung bình ghi nhận ngày gần nhất 1 Dù vậy, nhịp sống tù động Covid không phần nguy hiểm ảnh hưởng gián tiếp đến kinh tế xã hội đất nước Vì thế, Việt Nam có nhiều sách bình thường hóa: Vừa làm trực tiếp vừa làm online, cho mở cửa siêu thị chợ khuyến khích dịch vụ đặt đồ nhà, vừa học online vừa học offline Mặc dù hiển nhiên, hoạt động diễn  https://www.google.com/search?sxsrf=APq-WBsC6Bvixhttps://www.google.com/search?sxsrf=APq-WBsC6BvixJIW9Nw16BojY_2X7bviQ:1650720995255&q=s%E1%BB%91+ng%C6%B0%E1%BB%9Di+t%E1%BB%AD+v%E1%BB%8 Dng+covid+vi%E1%BB%87t+nam+h%C3%B4m+nay&lco=en:1&lr=lang_en&lrs=0&sa=X&ved=2ahUKEwjamK70pqr3 AhUYyYsBHTC4A8QQ-PEFKAB6BAgCEDQ 77   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14   nhà online cịn nhiều bất cập khiến hiệu suất công việc lẫn kết bị nhiều ảnh hưởng, nhiên, lo sợ tính mạng người cịn rào cản lớn cho định cá nhân tổ chức Vậy vấn đề đặt nhận biết tuýp người thuộc dạng có nguy cơ, xác suất tử vong cao ta có sở vững để đưa định sai lầm Vì nghiên cứu nhóm chúng tơi tiến hành xem xét tác động tuổi tác tử t vong người Việt Nam Trước hết thực với quy mô nhỏ dựa liệu ca mắc Covid-19 Đà Nẵng ghi nhận lần cuối vào lúc 9h - 23/9/2020 Cổng dịch vụ liệu thành phố Đà Nẵng2 Về công cụ, chúng tơi phân tích hồi quy logistic số tuổi ca Covid ghi nhận xem xét xác suất tử vong độ tuổi Vì liệu chúng tơi lọc xử lý để tạo thành hai cột cần thiết tuổi (Age), tình trạng tử vong/đã khỏi bệnh (Status)  Hình 65: Một số mẫu liệu  https://congdulieu.vn/dulieuchitiet/23242# 78   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Nêu bước tiến hành hành tính lại giá trị bảng kết b.  Excel  Hình 66: Đầu tiên ta chọn Data Analysis, sau chọn Regression    Hình 67: Tư bảng kết quả, ta lấy kết hai hệ số intercept/age làm hệ số khởi tạo cho  phương trình tuyến tính hàm log   79   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính kết cho cột C    Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa phương trình tuyến tính   khởi tạo  Hình 10: Tiếp theo ta tính số xác suất Likelihood dựa nhãn thực tế biết   80   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Hình 71: Tiếp theo ta tính log likelihood    Hình 72: Sau ta tính tổng tất giá trị dịng log likelihood    Hình 73: Ta dùng công cụng Solver Analysis Data để cập nhật lại hệ số từ hai h hệ số khởi tạo   81   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Hình 74: Dịng “Set Objective” trị tổng giá trị log log likelihood, dòng dòng "By Changing Objective” ta bỏ vào giá trị Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần c ần cập nhật  Hình 75: Hai hệ số hàm Logistic cập nhật thành 0;0 Chi tiết phân tích trình bày phần sau   82   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14   c.  Bằng R  Hình 76: Đầu tiên ta ta đọc file csv đính kèm giá trị vừa đọc vào chương trình trình lệnh attach attach    Hình 77: Tiếp theo ta dùng hàm glm để thực hồi quy logistic, với biến phụ thuộc Status biến độc lập Age Sau ta dùng lệnh summary để in bảng kết      Hình 78: Bảng kết quả sau thực hồi quy quy logistic  Hình 79: Dùng lệnh sau để vẽ đường cong logistic theo hệ số vừa tìm   83   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Hình 80: Biểu diễn điểm liệu đường cong logistic   d.  Bằng Python  Hình 81: Cài đặt thư viện cần thiết đọc file liệu vào chương trình    Hình 82: Đọc liệu vào biến dạng numpy array Ta phải tiến hình reshape liệu biến độc lập thành mảng hai chiều để phù hợp với đầu vào thuật tốn  Phân tích liệu kinh doanh – IS403.M22   84     Báo cáo Lab – Nhóm 14    Hình 83: Tạo model hàm LogisticRegression, sau tiến hành huấn luyện lệnh fit với hai đối số X y    Hình 84: Sau ta in hai giá trị hệ số mơ hình học   e.  Giải thích kết luận Trước hết ta có hàm logistic dùng để tính xác suất sảy biến cố dựa biến số Trong tốn này, chúng tơi xét biến cố người có tử vong hay không dữa biến số tuổi tác họ Vậy hàm logistic tính xác suất phát biểu sau: .   = + .  +. là phương trình tuyến tính có x giá trị tuổi người mắc ,  là hai hệ số cần tìm Covid , Với Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu hệ số với a (intercept) -6,43021 b (age) 0.08 85   Phân tích liệu kinh doanh – IS403.M22    Báo cáo Lab – Nhóm 14    Hình 85: Bảng kết thực nghiệm ngôn ngữ R   Khi thao tác với Python, nhận thấy với giá trị C khác ta thu hệ số khác k hác sau:  Hình 86: Hệ số tìm đặt giá trị C =10.0 86   Phân tích liệu kinh doanh IS403.M22    Báo cáo Lab – Nhóm 14    Hình 2: Hệ số tìm kkhi hi đặt giá trị C =20.0  Hình 87: Hệ số đặt C 90 gần giống với kết thực nghiệm R Theo tìm hiểu, C hệ số đảo ngược regularization Trong đó, regularization dạng tham số phạt mơ hình máy học giúp hạn chế tình trạng overfitting mơ hình đầu Overfitting tình trạng mơ hình sau huấn luyện thể tốt liệu huấn luyện lại thể liệu thực tế Tiếp theo xét giá trị hệ số tìm cách thực nghiệm Excel, cụ thể nhận hai giá trị Chúng tiến hành áp thử hai hệ số tìm hai phương pháp thực nghiệm ngôn ngữ R Python vào liệu bảng excel để xem xét Sau nhìn nhận xác suất trả giá trị tuổi, nhận định trường hợp hệ số trả mơ hình (0,0) giải thích liệu mà mơ hình bị cần nặng nề Cụ thể tất độ tuổi thu thập (từ đến 95) đến tận số tuổi 84 có xác suất tử vong vượt ngưỡng 50 có 8/247 mẫu vượt qua ngưỡng Vậy nên dựa liệu đưa vào excel, mơ hình đầu kết luận hai hệ số (0,0) tương đương 87   Phân tích liệu kinh doanh IS403.M22    Báo cáo Lab – Nhóm 14   với việc độ tuổi đưa vào khả tử vong hợp lý liệu có Bởi có 8/247 trường hợp (theo hệ số mượn từ hai  phương pháp trên) bị phán đốn sai mà thơi cịn lại 239 trường t rường hợp xem mơ hình có hệ số (0,0)  Hình 88: Giá trị xác suất tử vong hay khơng phụ thuộc vào giá trị tuổi áp dụng hệ số từ hai phương pháp trước Trong đó, dịng tơ màu đỏ dịng vượt ngưỡng 50%, dịng  xanh dương dịng thử nghiệm chúng tơi đưa vào để xem mức tuối có khả 90% mắc covid tử vong   Từ kết luận đưa giải pháp để tăng tính khách quan độ xác mơ hình đầu sau: l xem xét hệ số phạt (regularization) để tránh tình trạng mơ hình nhìn trường hợp cụ thể liệu mà khơng có tính khách quan liệu thực tế; hai ta phải cố gắng thu thập nhiều mẫu liệu để mơ hình khơng bị giới hạn  phạm vi đặc tính cụ thể 88   Phân tích liệu kinh doanh IS403.M22    Báo cáo Lab – Nhóm 14    Hình 89: Khi tăng tuổi khả ta bị tử vong covid tăng 1,08 lần   7.  Bảng phân công công việc Ái Nhi Câu 3a Câu 3b Câu 3c Câu 4d Câu 4e Câu 4f Phương Uyên X Thu Phương Thanh Trúc Hữu Thắng X X X X X X X X X 89  ... 3. 1 1 3. 5 1 3. 2 26  ? ?Phân tích liệu kinh doanh – IS4 03. M22   ? ?Báo cáo Lab – Nhóm 14   1 3. 7 1 2.8 1 2.6 1 3. 3 3. 3 1 3. 5 1 3. 2 2.9 1 1 0 3. 6 0 3. 3 0 2.9 3. 4 1 0 3. 2 0 1 0 2.5 0 0 2.7 0 3. 7 1 3. 2... có liệu sau: Undergraduate GPA Plan to attend graduate school 2.9 3. 1 3. 5 3. 2 3. 7 32   ? ?Phân tích liệu kinh doanh – IS4 03. M22   ? ?Báo cáo Lab – Nhóm 14   2.8 2.6 3. 3 3. 3 3. 5 3. 2 2.9 4 3. 6 3. 3 2.9... OK ? ?Phân tích liệu kinh doanh – IS4 03. M22 29    ? ?Báo cáo Lab – Nhóm 14    Hình 20 Hộp thoại Logistic Regression -  Ta kết phân tích sau 30   ? ?Phân tích liệu kinh doanh – IS4 03. M22   ? ?Báo cáo Lab

Ngày đăng: 02/12/2022, 22:51

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w