1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo lab 03 môn học phân tích dữ liệu kinh doanh

43 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hồi quy Tuyến Tính Đa Biến
Tác giả Lê Thị Thanh Hằng, Ngô Tất Tố, Nguyễn Nhật Phương Huy, Lê Xuân Thạch, Hồ Quang Đỉnh
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Phân tích Dữ liệu Kinh doanh
Thể loại Báo cáo Lab
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 43
Dung lượng 6,09 MB

Cấu trúc

  • I. Câu 1 (3)
  • II. Câu 2 (16)
  • III. Phân công công việc (42)
  • IV. Link drive của nhóm (42)

Nội dung

Phương trình hồi quy tuyến tính: Nếu gọi y và x là các giá trị quan sát được của chỉ tiêu kết quả và chỉ tiêu nguyên nhân cóthể xây dựng được phương trình hồi quy đường thẳng như sau: Đị

Câu 1

Câu 1 a Đề bài: Giải thích “Hồi quy tuyến tính đa biến” (Multivariable Linear Regression) và đưa ra ví dụ

Phương trình hồi quy tuyến tính:

Nếu gọi y và x là các giá trị quan sát được của chỉ tiêu kết quả và chỉ tiêu nguyên nhân có thể xây dựng được phương trình hồi quy đường thẳng như sau:

~y x =a+bx Trong đó: a và b là các hệ số của phương trình

Mô hình hồi quy tuyến tính được sử d5ng để dự đoán giá trị của một biến ph5 thuộc dựa trên các biến độc lập Nó dựa trên giả định rằng mối quan hệ giữa các biến là tuyến tính. Định nghĩa của Hồi quy Tuyến tính Đa biến:

Hồi quy tuyến tính đa biến là một phương pháp thống kê được sử d5ng để hiểu mối quan hệ giữa hai hoặc nhiều biến độc lập và một biến ph5 thuộc duy nhất Nó giả định một mối quan hệ tuyến tính giữa các biến độc lập và biến ph5 thuộc.

Trong kỹ thuật này, m5c tiêu là tìm ra phương trình tuyến tính phù hợp nhất để mô tả mối quan hệ giữa các biến Phương trình có thể được biểu diễn như sau:

Phương trình hồi qui tuyến tính đa biến là phương trình mô tả mối quan hệ giữa biến ph5 thuộc y với các biến độc lập x1, x2, xp y=b 0 +b 1 x 1i +b 2 x 2i +b 3 x 3i +… … … …+ +b k x ki +e i

• x1 , x2 , … , x i : là các biến độc lập

• b 1 , b 2 , … , b i : là các hệ số của phương trình hồi quy Đại diện cho mối quan hệ giữa các biến độc lập và biến ph5 thuộc.

• ε là biến ngẫu nhiên gọi là số hạng sai số, đại diện cho sự khác biệt giữa giá trị dự đoán và giá trị thực tế của.

Tuy nhiên, trong thí nghiệm y thường là một biến ước lượng Do đó, y có thể được viết dưới dạng yˆ như sau

- Các hệ số thu hồi b 1 , b 2 , … , b i có thể được ước tính bằng phương pháp bình phương tối thiểu (OLS).

Cách thực hiện Hồi quy Tuyến tính Đa biến:

Công thức tính hệ số thu hồi bằng phương pháp OLS như sau: β=(X T X) −1 X T Y

- X T là ma trận chuyển vị của ma trận X.

- (X X T ) −1 là ma trận nghịch đảo của tích vô hướng X T X.

- X T Y là tích vô hướng của ma trận chuyển vị X T với vector Y

M5c tiêu của tìm phương trình hồi quy tìm bộ số b 1 , b 2 , … , b i là tối ưu nhất với phương trình hàm mất mát

Các kết quả từ công c5 Hồi quy có cùng định dạng như chúng ta đã thấy đối với hồi quy tuyến tính đơn giản Tuy nhiên, có một số khác biệt chính tồn tại Multiple R và R Square (or R 2 ) được gọi là hệ số tương quan và hệ số xác định tương ứng, trong bối cảnh hồi quy đa biến Chúng chỉ ra mức độ liên kết giữa các biến ph5 thuộc và biến độc lập Tương tự như hồi quy tuyến tính đơn biến, yếu tố nào có R 2 càng lớn thì mối quan hệ giữa yếu tố đó và biến y càng chặt chẽ.

- SST = Tổng bình phương toàn phần

- SSR = Tổng bình phương hồi qui

Việc giải thích phần ANOVA khá khác so với phần hồi quy tuyến tính đơn biến Đối với hồi quy tuyến tính đa biến, ANOVA kiểm tra tầm quan trọng của toàn bộ mô hình Nghĩa là, nó tính toán thống kê F để kiểm tra các giả thuyết:

Giả thuyết H0 cho rằng không có mối quan hệ tuyến tính nào tồn tại giữa biến ph5 thuộc và bất kỳ biến độc lập nào, trong khi giả thuyết thay thế cho rằng biến ph5 thuộc có mối quan hệ tuyến tính với ít nhất một biến độc lập Nếu giả thuyết không có bị bác bỏ, chúng ta không thể kết luận rằng có mối quan hệ tồn tại với mỗi biến độc lập cá thể. Đầu ra của hồi quy tuyến tính đa biến cũng cung cấp thông tin để kiểm tra các giả thuyết về từng hệ số hồi quy cá nhân C5 thể, chúng ta có thể kiểm tra giả thuyết không có rằng b0 (hệ số chặn) hoặc bất kỳ bi nào bằng không Nếu chúng ta bác bỏ giả thuyết không có rằng độ dốc được liên kết với biến độc lập i bằng không, H0: bi = 0, thì chúng ta có thể tuyên bố rằng biến độc lập i có ý nghĩa trong mô hình hồi quy; tức là, nó đóng góp vào việc giảm biến thiên của biến ph5 thuộc và cải thiện khả năng của mô hình trong việc dự đoán biến ph5 thuộc tốt hơn Tuy nhiên, nếu chúng ta không thể bác bỏ H0, thì biến độc lập đó không có ý nghĩa và có thể không nên được bao gồm trong mô hình

Tại sao sử dụng Hồi quy Tuyến tính Đa biến?

- Nhiều Yếu tố: Nó cho phép chúng ta xem xét nhiều yếu tố đồng thời khi mô hình hóa mối quan hệ với biến ph5 thuộc, thường cung cấp một biểu diễn thực tế hơn về các tình huống trong thế giới thực.

- Khả năng Giải thích: Bằng cách ước lượng các hệ số β1,β2,…,βn, chúng ta có thể hiểu tác động của từng biến độc lập lên biến ph5 thuộc trong khi kiểm soát các biến khác.

- Dự báo chính xác hơn: Thông qua sử d5ng nhiều biến độc lập, mô hình hồi quy tuyến tính đa biến có thể cung cấp dự báo chính xác hơn về giá trị của biến ph5 thuộc dựa trên các điều kiện của các biến độc lập.

- Phân tích ảnh hưởng đa biến: Một lợi thế quan trọng của hồi quy tuyến tính đa biến là khả năng phân tích tác động đa biến, tức là xem xét tác động của các biến độc lập đồng thời đến biến ph5 thuộc Điều này cho phép tìm hiểu các mối quan hệ phức tạp hơn giữa các biến

Ví dụ về hồi quy tuyến tính đa biến:

- Phát biểu bài toán: Giải sử chúng ta muốn dự đoán giá nhà với việc được xây dựng bao nhiêu lâu và bao nhiêu mét vuông.

Market Value=b0+b1House Age+b2Square Feet

Kết quả hồi quy đa biến cho Home Market Value data:

Market ValueG331.38 825.161− ∗House Age+40.91107∗Square Feet

Theo giá trị R Square (0,55), các biến độc lập này chiếm 55% độ biến thiên của biến ph5 thuộc Ở mức ý nghĩa 5% trong phân tích phương sai (ANOVA) cho mô hình hồi quy, giả H0 bị bác bỏ vì p-value là < 0.05 vì vậy có thể bác bỏ H0 Nghĩa là có bằng chứng mạnh mẽ để kết luận rằng ít nhất một trong các biến độc lập có tác động có ý nghĩa thống kê đến biến ph5 thuộc trong mô hình hồi quy.

Câu 1 b Đề bài: Giải thích “Hồi quy phi tuyến đa biến” (Multivariable Nonlinear Regression) và đưa ra ví dụ

Hồi quy phi tuyến đa biến là gì:

Hồi quy phi tuyến đa biến là một phương pháp trong thống kê và hồi quy dùng để mô hình hóa mối quan hệ giữa biến m5c tiêu (ph5 thuộc) và các biến độc lập, trong đó mối quan hệ không được giả định là tuyến tính Điều này có nghĩa là mô hình không giới hạn trong việc biểu diễn mối quan hệ giữa các biến, cho phép các mối quan hệ phức tạp và phi tuyến tính được phản ánh trong mô hình.

Làm thế nào để sử dụng hồi quy phi tuyến đa biến? Để tính toán, ta đầu tiên tìm hiểu sự khác biệt giữa hàm phi tuyến đã phù hợp và mỗi điểm Y dữ liệu trong tập hợp Sau đó, mỗi sự khác biệt đó được bình phương Cuối cùng, tất cả các giá trị đã bình phương được cộng lại Giá trị tổng của những con số đã bình phương này càng nhỏ, hàm số sẽ phù hợp tốt hơn với các điểm dữ liệu trong tập hợp. Một mô hình hồi quy phi tuyến đơn giản:

- X: một vector gồm p biến dự đoán

- β: một vector gồm k tham số

Tại sao chúng ta cần sử dụng hồi quy phi tuyến đa biến

- Để mô hình hóa mối quan hệ phi tuyến: Hồi quy tuyến tính chỉ có thể mô hình hóa các mối quan hệ tuyến tính giữa biến ph5 thuộc và các biến độc lập Tuy nhiên, nhiều mối quan hệ trong thực tế là phi tuyến Ví d5, mối quan hệ giữa giá của một sản phẩm và lượng sản phẩm được yêu cầu thường là phi tuyến Khi giá của một sản phẩm tăng lên, lượng sản phẩm được yêu cầu thường giảm, nhưng mối quan hệ này không phải lúc nào cũng là tuyến tính Hồi quy phi tuyến đa biến cho phép bạn mô hình hóa những mối quan hệ phi tuyến này.

Câu 2

Câu 2a Đề bài: Sử dụng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện “Hồi quy tuyến tính đa biến” ( Multivariable Linear Regression) với dữ liệu : Colleges and Universities

Phát biểu bài toán: xác định xem điểm trung bình SAT (MedianSat) có mối liên hệ với tỷ lệ tốt nghiệp hay không?

H0: Tỷ lệ tốt nghiệp(Graduation %) không có ảnh hưởng đến điểm trung bình SAT (Median SAT)

H1: Tỷ lệ tốt nghiệp(Graduation %) có ảnh hưởng đến điểm trung bình SAT (Median SAT)

- ANOVA: df SS MS F Significane F

Total n-1 SST Áp d5ng các công thức trên ta có kết quả: df SS MS F Significane F

Bước 1: Tính Standard Error for Slope thông qua công thức:

Bước 2: Tìm Standard Error of Intercept thông qua công thức:

- t Stat: Tính theo công thức:

- P-value: theo hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value

Ta có kết quả là:

Bước 1: Import và kiểm tra dữ liệu

Bước 3: Dùng hàm lm và chọn các giá trị để biểu diễn mô hình hồi quy tuyến tính

Bước 4: Vẽ mô hình hồi quy tuyến tính

Bước 1: Import các thư viện cần thiết

Bước 2: Import và in ra dữ liệu:

Bước 3: Lấy ra biến ph5 thuộc Median SAT và biến độc lập Graduation

Bước 4: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mô hình theo biến X và Y

Bước 5: Lấy các giá trình thông d5ng của mô hình hồi quy tuyến tính (thứ tự trong hình là hệ số chắn, hệ số thành phần, giá trị R-squared)

Bước 6: Xây dựng bảng thống kê

Vì giá trị p-value (Graduation %) là 2.4259E-05 rất nhỏ so với mức ý nghĩa α = 0.05 Do đó chúng ta bác bỏ H0 và chấp nhận H1.

Câu 2b Đề bài: Sử dụng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện “Hồi quy phi tuyến đa biến” ( Multivariable Nonlinear Regression) với dữ liệu thực tùy chọn về Việt Nam

Sử d5ng dữ liệu thời tiết của tỉnh Bạc Liêu từ năm 2019 đến 2021 để tìm phương trình hồi quy phi tuyến đa biến dự đoán nhiệt độ cao nhất (max) dựa trên độ ẩm (humidity) và sức gió (wind).

2 Thực hiện trên Excel bằng phương pháp Gauss-Newton:

- Tạo thêm 1 cột dữ liệu mới chứa giá trị là tổng của 2 cột ‘Wind’ và ‘Humidity’

- Chọn giá trị ban đầu cho b0 là 54,0139 và b1 là 0,0059

- Thực hiện tính toán với x = wind + humidity, y = max. y=b 0 e −b 1 x r i =y i −b e 0 −b1x i

Công thức ma trận Jacobian:

- Tính các giá trị cần thiết trong công thức sau:

( B B 0new 1new ) = ( B B 0old 1old ) − ( J T J ) −1 J T r ( B B 0old 1old )

- Tính giá trị của tích 2 ma trận chuyển vị J T và ma trận J bằng hàm MMULT().

- Tính giá trị nghịch đảo của (J T J) −1 bằng hàm MINVERSE().

- Tính giá trị của ( J T J ) −1 J T r bằng hàm MMULT().

- Ta thấy B 0new lần 1 có chênh lệch so với B 0old , nên tiếp t5c thực hiện phương pháp Gauss-Newton để tìm B 0new lần 2, lần 3 bằng B 0new lần 1.

- Sau 3 lần tính toán, nhận thấy các giá trị mới không thay đổi quá nhiều so với giá trị nên ta dừng thuận toán.

Kết luận: phương trình hồi quy phi tuyến đa biến:

- Chuẩn bị dữ liệu cần thiết.

- Tìm được giá trị C1 = 53,8840 và C2 = 0.0059

Kết luận: phương trình hồi quy phi tuyến đa biến:

- Đồ thị tương quan giữa dữ liệu thực tế và dữ liệu dự đoán:

- Nhận xét: Các điểm dữ liệu thực tế phân tán hơn so với các điểm dự liệu dự đoán, điều này cho thấy mô hình hồi quy phi tuyến đa biến này chưa hoàn toàn phù hợp với tập dữ liệu này Vì có thể ta chưa sử d5ng hết các thuộc tính của tập dữ liệu như Pressure, Min nên kết quả dự đoán còn sai lệch so với dữ liệu gốc.

4 Thực hiện trên ngôn ngữ R:

- Đọc dữ liệu từ tệp CSV:

- Lấy dữ liệu cần thiết ở các cột cần tính toán và tạo một DataFrame mới chứa các dữ liệu này Dữ liệu bao gồm max (nhiệt độ cao nhất), humidity (độ ẩm), wind (sức gió).

- Phù hợp mô hình phi tuyến đa biến với biến ph5 thuộc là Y_Max, biến độc lập gồm X_Humidity và Z_Wind, tham số ‘start’ chứa các giá trị ước lượng ban đầu cho Y0 và k.

Kết luận: phương trình hồi quy phi tuyến đa biến:

Câu 2c Đề bài: Sử d5ng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện hồi quy logistic với dữ liệu thực tùy chọn về/của Việt Nam. a Phát biểu bài toán:

Dữ liệu có liên quan đến các chiến dịch tiếp thị trực tiếp (các cuộc gọi điện thoại) của một tổ chức ngân hàng Việt Nam M5c tiêu phân loại là dự đoán liệu khách hàng có đăng ký gửi tiền có kỳ hạn hay không.

Link tập dữ liệu: https://www.kaggle.com/datasets/tomculihiddleston/bank-customer-data-in-vietnam

Dữ liệu thu thập trên 42639 khách hàng như sau:

Chúng ta sẽ quan tâm đến hai cột: duration và term_deposit.

- Duration: thời lượng liên lạc cuối cùng, tính bằng giây (số).

- Term_deposit: khách hàng có đăng ký gửi tiền có kỳ hạn không? (0: khách hàng không đăng ký, 1: khách hàng có đăng ký).

Phương trình hồi quy có dạng:

Y: là biến ph5 thuộc - term_deposit.

X: là biến độc lập - duration. b Các bước tiến hành

Tạo file csv gồm 2 cột duration và term_deposit

Bước 1: Khởi tạo hai biến b0 và b1, gán giá trị ban đầu là 0 Bước 2: Thêm cột LOGIT với công thức: b0 + b1 * duration

Bước 3: Thêm cột e LOGIT bằng hàm EXP(LOGIT)

Bước 4: Thêm cột Probability với công thức = e LOGIT

Bước 5: Thêm cột Likelihood với công thức =IF (y = 1, Probability, 1 – Probability)

Bước 6: Thêm cột log(Likelihood) với công thức =log(Likelihood)

Bước 7: Tính tổng các log(Likelihood)

Bước 8: Phân tích bằng Data Solver của Excel ta được kết quả

Bước 1: Import file csv vào RStudio

Bước 2: Attach() và dùng hàm glm() để phân thích hồi quy logistic

Bước 1: Import thư viện cần thiết

Bước 2: Import file dữ liệu

Bước 3: Lấy biến ph5 thuộc Y và biến độc lập X

Bước 4: Dùng hàm LogisticRegression() để đưa ra mô hình theo biến x và y

Bước 5: Lấy ra các giá trị thông d5ng của hồi quy Logistic

Từ các kết quả trên, ta thu được phương trình Hồi quy như sau: log(1− p p ) = -3.58769 + 0.0037 * duration + e

Ta suy ra được kết quả như sau: p

Ta đặt hệ số 1−p p là Odd: Đặt Odd0 và duration = 0 thì Odd0 = e –3.58769 Đặt Odd1 và duration = 1 thì Odd1 = e –3.59139

Lúc này ta có thể kết luận rằng, cứ thời lượng cuộc gọi tăng thêm 1 giây thì tỉ lệ khả năng khách hàng đăng ký dịch v5 tăng lên 0.9963 lần, nếu tăng 0.1 giây thì tỉ lệ khả năng khách hàng đăng ký dịch v5 tăng lên 0.09963 lần.

Phân công công việc

Link drive của nhóm

https://drive.google.com/drive/u/3/folders/1CGtiutzw-VU6cd5p21bJ4WxQXXA2zY42

Ngày đăng: 08/10/2024, 16:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN