PHÂN TÍCH dữ LIỆU KINH DOANH đề tài báo cáo LAB 3

Hồi quy tuyến tính đa biến

Phân tích hồi quy (regression analysis) là kỹ thuật thống kê dùng để ước lượng phương trình phù hợp nhất với các tập hợp kết quả quan sát của biến phụ thuộc và biến độc lập Nó cho phép đạt được kết quả ước lượng tốt nhất về mối quan hệ chân thực giữa các biến số Từ phương trình ước lượng được này, người ta có thể dự báo về biến phụ thuộc (chưa biết) dựa vào giá trị cho trước của biến độc lập (đã biết) b Khái niệm hồi quy tuyến tính

Linear Regression (Hồi quy tuyến tính) là một trong những thuật toán cơ bản và phổ biến nhất của Supervised Learning (Học có giám sát), trong đó đầu ra dự đoán là liên tục Thuật toán này thích hợp để dự đoán các giá trị đầu ra là các đại lượng liên tục như doanh số hay giá cả thay vì cố gắng phân loại chúng thành các đại lượng rời rạc như màu sắc và chất liệu của quần áo, hay xác định đối tượng trong một bức ảnh là mèo hay chó, … c Khái niệm hồi quy tuyến tính đơn biến

Phân tích hồi quy tuyến tính đơn biến: Chỉ liên quan đến một biến độc lập, dùng để xác định rằng giá trị trung bình tổng thể của biến phụ thuộc thay đổi khi giá trị của biến độc lập thay đổi d Khái niệm hồi quy tuyến tính đa biến

Phân tích hồi quy tuyến tính đa biến: là phần mở rộng của hồi quy tuyến tính đơn biến với nhiều biến độc lập Giả sử, ta có n biến độc lập n≥1 và xem xét ảnh hưởng của n biến độc lập này tới biến phụ thuộc Y , ta có phương trình sau:

Phân tích dữ liệu kinh doanh – IS403.M22

Tung độ gốc (Hệ số tự do)

, … Hệ số gốc riêng phần

: là một ước lượng cho sự thay đổi của

Y ứng với sự gia tang của một đơn vị khi tất cả các biến độc laapk được giữ không đổi.

Biến tiên lượng Phần dư

Các giả thuyết thống kê

● Kiểm định ý nghĩa của phương trình hồi quy ▪ Giả thuyết:

▪ Quy tắc kiểm định o Cách 1: á ỏ ếế < − , ( ) ặặ > , ( ) o Cách 2: á ỏ ếế − > 0 05

● Kiểm định độ phù hợp của phương trình hồi quy

▪ Quy tắc kiểm định o Cách 1: á ỏ ếế > , , ( ) á ỏ ếế − < 0 05

● Khoảng tin cậy của với I thuộc (1, 2, …, k):

Một Công ty phần mềm thu thập dữ liệu của một mẫu gồm 20 lập trình viên Người ta đề nghị sử dụng phân tích hồi qui để xác định xem lương có mối liên hệ với số năm kinh nghiệm và điểm thi năng khiếu về lập trình do công ty tổ chức hay không? Số năm kinh nghiệm, điểm thi năng khiếu Và mức lương hàng năm ($1000s) của 20 lập trình viên được trình bày ở bảng sau:

Phân tích dữ liệu kinh doanh – IS403.M22 4

Bảng 1: Dữ liệu được sử dụng

- Lương của nhân viên phụ thuộc vào:

● Experience: Số năm kinh nghiệm

● Score: Điểm thi năng khiếu về lập trình do công ty tổ chức

⇨ Biến độc lập: Experience, Score.

- Yêu cầu bài toán: Mức độ ảnh hưởng của số năm kinh nghiệm và điểm thi năng khiếu về lập trình do công ty tổ chức đến lương

- Mô hình hồi quy mẫu:

- Mối quan hệ giữ các biến phụ thuộc và biến độc lập:

● Mối quan hệ giữa Experience và Salary:

Hình 1: Mối quan hệ giữa Experience và Salary

Nhận xét: Khi số năm kinh nghiệm của lập trình viên tăng lên thì lương của nhân viên cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến, tức là hệ số được dự đoán của Experience mang giá trị dương

● Mối quan hệ giữa Score và Salary:

Hình 2: Mối quan hệ giữa Score và Salary Phân tích dữ liệu kinh doanh – IS403.M22 6

Nhận xét: Khi số điểm đánh giá năng lực của lập trình viên tăng lên thì lương của nhân viên cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến, tức là hệ số được dự đoán của Score mang giá trị dương

- Dùng công cụ Data Analysis trong Excel ta được:

Hình 3: Tính bằng công cụ Excel thông qua Data Analysis

- Tính toán lại và giải thích các giá trị:

● SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung bình

● SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát

● SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình

● Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó cũng được dùng tương tự như R Square Trong thực tế người ta dùng

Adjusted R Square nhiều R Square Vì Adjusted R Square có thêm các tham số n và k nên độ chính xác sẽ cao hơn R Square Adjusted R Square càng gần 1 thì mô hình hồi qui càng phù hợp

● MSR: trung bình chênh lệch tổng bình phương sai số giải thích được bằng mô hình

● MSE: trung bình chênh lệch tổng bình phương các phần dư

● Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy Các giá trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui hơn

● Anova df SS MS F Significane F

Total n - 1 SST df SS MS F Significane F

- Tìm phương trình hồi quy ● Ma trận X

Hình 5: Ma trận Y bằng hàm Transpose trong Excel

Hình 6: Ma trận bằng hàm Mmult trong Excel

● Bước 3: Tính ( ) bằng hàm Minverse trong Excel

● Bước 4: Tính ( ) bằng hàm Mmult trong Excel

● Bước 5: Tính ( ) bằng hàm Mmult trong Excel Hình 11: Ma trận ( )

● Ta thu được kết quả

=1.404 : Lương sẽ tăng trung bình 1.404 $k/ năm đối với mỗi một năm kinh nghiệm tăng thêm, với giả sử cùng một mức điểm đánh giá năng lực đầu vào

▪ 2 =0.251 : Lương sẽ tăng trung bình 0.251 $k/ năm đối với , với giả sử cùng số năm kinh nghiệm

Hình 12: Đường chéo của ma trận là phương sai của các biến

● Bước 2: Tìm Standard Error thông qua công thức

Hình 13: Kết quả khi căn bậc hai các phương sai

● Bước 1: Tính t-Stat bằng công thức

● Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value

Coefficients Standard Error t Stat p-value Intercept 3.17393627 6.156067 0.083751 0.612789 Experience 1.403902485 0.198567 35.606 1.88E-06

● R 2 = 0.8342: 83.42% biến động của lương được giải thích bởi số năm kinh nghiệm và điểm đánh giá năng lực

● Trong bài toán trên, 2 biến độc lập đưa vào ảnh hưởng 81.467% sự thay đổi của biến phụ thuộc, còn lại 18.533% là do các biến ngoài mô hình và sai số ngẫu nhiên.

- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong mô hình.

= 2.11 trong bảng phân phối Student

Ta kiểm tra bằng excel thông qua hàm T.INV(

Cách 2: p-value < 0.05 nên chấp nhận

▪ Có đủ bằng chứng để kết luận số năm kinh nghiệm (experience) và điểm thi (score) có ảnh hưởng đến lương (salary) với mức ý nghĩa

- Khoảng ước lượng của các tham số hồi quy trong mô hình

▪ Khi biến experience hoặc score tăng thì salary cũng tăng

- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không?

▪ : = = 0 ( = 0) : hệ số của số năm kinh nghiệm, điểm thi đánh giá không giải thích cho biến lương

▪ : + ≠ 0 ( ≠ 0) : hệ số của số năm kinh nghiệm, điểm thi đánh giá giải thích cho biến lương

⇨ Ta kiểm tra bằng excel thông qua hàm F.INV(1 - , , − ( + 1)

Hình 17: Tra F thông qua excel

▪ Cách 2: p-value < 0.05 nên chấp nhận

▪ Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay có ít nhất một biến độc lập tác động đến biến phụ thuộc Y (lương).

Hồi qui phi tuyến đa biến

- Hồi quy phi tuyến là một dạng phân tích hồi quy trong đó dữ liệu quan sát được mô hình hóa bằng một hàm là một sự kết hợp phi tuyến tính của các tham số mô hình và phụ thuộc vào một hay nhiều biến độc lập Hồi quy tuyến tính đơn giản liên hệ hai biến (X và Y) với một đường thẳng (y = mx + b), trong khi hồi quy phi tuyến tính liên hệ hai biến trong một mối quan hệ phi tuyến (cong).

- Hồi quy đa biến là một phần mở rộng của hồi quy tuyến tính đơn giản Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá trị của hai hoặc nhiều biến khác Biến chúng ta muốn dự đoán được gọi là biến phụ thuộc (hoặc đôi khi, biến kết quả, mục tiêu hoặc biến tiêu chí)

Các biến chúng ta đang sử dụng để dự đoán giá trị của biến phụ thuộc được gọi là biến độc lập Hồi quy đa biến cũng cho phép chúng ta xác định mức độ đóng góp nhiều, ít, không đóng góp của từng nhân tố vào sự thay đổi của biến phụ thuộc

- Từ đó ta có thể hiểu Hồi quy phi tuyến đa biến là một dạng phân tích hồi quy trong đó dữ liệu quan sát được mô hình hóa bằng một hàm (có thể là hàm mũ, hàm logarit, hàm căn bậc hai, hàm đa thức, ) là một sự kết hợp phi tuyến tính của các tham số mô hình và phụ thuộc vào nhiều biến độc lập

- Trong hồi quy phi tuyến tính, một mô hình thống kê ở dạng: y ~ f( ,β))

Liên quan đến mộc véctơ các biến độc lập, x, và các biến phụ thuộc liên quan được quan sát của nó, y Hàm f là phi tuyến tính ở các thành phần của các tham số của véctơ β), nhưng không phải là hàm tùy ý

Các hàm hồi quy phi tuyến tính gồm hàm mũ, hàm tăng trưởng logarit, hàm lượng giác, hàm lũy thừa, gàm Gauss, và đường cong Lorenz Một vài hàm, chẳng hạn như các hàm lũy thừa và logarit, có thể chuyển đổi thành dạng tuyến tính Khi chuyển đổi, hồi quy tuyến tính tiêu chuẩn có thể được thực hiện nhưng phải thận trọng khi áp dụng b Ví dụ minh họa

Nghiên cứu về quan hệ giữa số giường bệnh với số bác sĩ cũng như y sĩ của bệnh viện.

Dữ liệu được trình bày như sau:

Hình 19: Dữ liệu số bác sĩ, y sĩ và giường bệnh của các tỉnh năm 2014

Số giường của bệnh viện phụ thuộc vào:

=> Biến độc lập: Số bác sĩ, Số y sĩ

=> Biến phụ thuộc: Số giường bệnh

- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh

- Mối liên hệ giữa các biến độc lập và biến phụ thuộc:

Mối quan hệ giữa Số lượng bác sĩ và Số lượng giường bệnh:

Hình 20: Mối quan hệ giữa bác sĩ và giường bệnh Nhận xét: Khi số lượng bác sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh mang giá trị dương

Mối quan hệ giữa Số lượng Y sĩ và Số lượng giường bệnh:

Hình 21: Mối quan hệ giữa Y sĩ và giường bệnh Nhận xét: Khi số lượng y sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh mang giá trị dương.

Hình 22: Kết quả dữ liệu được tính bằng công cụ Data Analysis trong Excel

- Từ bảng kết quả ta có các nhận xét rút ra như sau:

R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình

R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá tốt.

Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 Nên mô hình hồi quy phù hợp với tổng thể

GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)

- Tìm phương trình hồi quy : Ma trận X:

Hình 23: Ma trận X (số bác sĩ, số y sĩ)

Hình 24: Ma trận Y (số giường bệnh) Bước 1: Tính bằng hàm Transpose trong Excel

Hình 25: Ma trận Bước 2: Tính bằng hàm Mmult trong Excel

Bước 3: Tính ( ) bằng hàm Minverse trong Excel

Bước 4: Tính ( ) bằng hàm Mmult ( tro ) ng Excel

Bước 5: Tính ( ) bằng hàm Mmult trong Excel

Ta thu được kết quả:

GiuongBenh = 0.678821 + 0.785919*ln(BacSi) + 0.209315*ln(YSi)

Hồi qui logistic

Phân tích hồi qui logistic là một kỹ thuật thống kê để xem xét mối liên hệ giữa biến độc lập (biến số hoặc biến phân loại) với biến phụ thuộc là biến nhị phân(0 hoặc 1).

Dạng biến độc lập x và biến phụ thuộc y liên hệ qua phương trình:

+ là biến phụ thuộc nhị phân.

+ là biến độc lập. d Đặt vấn đề:

- Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với dạng hồi quy thông thường vì sẽ vi phạm các giả định, dễ thấy nhất là khi biến phụ thuộc chỉ có hai biểu hiện như:

Có gia đình/ chưa có gia đình, có việc làm/ thất nghiệp, hút thuốc/ không hút thuốc… thì không phù hợp khi giả định rằng phần dư có phân phối chuẩn, mà thay vào đó nó sẽ có phân phối nhị thức, điều này sẽ làm mất hiệu lực thống kê của các kiểm định trong phép hồi quy thông thường e Các bước thực hiện

- Nếu gọi P là xác suất để một biến cố A xảy ra, thì 1-p là xác suất để biến cố A không xảy ra, theo luật phân phối nhị thức ta được :

Nếu ODDs > 1 xác suất biến cố A xảy ra khả năng cao hơn biến cố đối của nó.

Nếu ODDs Real Satistics => Data Analysis Tool => Reg => Chọn Logistics and probit regression => OK

Hình 19 Hộp thoại Real Statistics Bước 2 : Chọn Input Range => OK

Hình 20 Hộp thoại Logistic Regression

- Ta được kết quả phân tích như sau

Hình 21.1,2,3 Kết quả phân tích Real Statistics

Hình 4.Kết quả phân tích Real Statistics

- Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy

( Undergraduate GPA cps p_value < alpha(=0.05)

Biến có ý nghĩa thống kê và có mối liên quan đến biến dự định học bậc sau đại học.

- Ngược lại hệ số các biến giới tính (Gender) và tình trạng hôn nhân ( Married) có p-value > alpha

Không có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biến dự định học bậc sau đại học, nên loại bỏ chúng khỏi mô hình

Sau khi loại bỏ biến không liên qua ta có dữ liệu mới như sau:

Bảng 3 Dữ liệu của Graduate School Survey sau khi lược bỏ các biến không có ý nghĩa thống kê

Từ kết quả ta được phương trình hồi quy sau:

= −10.9095+3.593 Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt :

Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA) Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359 lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên 3,6359 lần Cách tính các hệ số bằng Exel Solver

- Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA

- Sau đó tiến hành tính các giá trị: o L = + ∗

- Ta được kết quả như sau:

Hinh 23 Kết quả của L, p và LL

- Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi nhấn Solve.

Kết quả thu được là giá trị các hệ số trong mô hình Giá trị đúng với giá trị được tính bằng real statisitc.

Hinh 24 Các hệ số được tính bằng Exel Solver

Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy Các giá trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui hơn

- Bước 1 : Tính Cov : Đường chéo của ma trận là phương sai của các biến

- Bước 2: Tìm Standard Error thông qua công thức

Hình 24 Kết quả Standard Error

- Dùng để kiểm tra hệ số hồi quy

P – Values = CHISQ.DIST.RT(Wald Statistic, 1)

Hình 25 Kết quả của Wald, p-value Exp(b) – tỷ số odds

Những thước đo về sự phù hợp của mô hình

Hình 26 Kết quả của LL statistics của mô hình

- Log likelihood với mô hình có đầy đủ biến giải thích (LL)

- Log likelihood với mô hình không có biến giải thích (LL0)

Hình 27 Kết quả của LL và LL0 Pearson’s chi square (Chi-sq) và Df

- Chi-sq có giá trị càng thấp mô hình càng phù hợp với dữ liệu

- Df là số các biến giải thích trong mô hình : k= 1

Phản ánh mức độ phù hợp của mô hình Pseudo R càng cao, mô hình càng phù hợp với dữ liệu Pseudo R luôn nằm trong khoảng [0; 1] Giá trị Pseudo R luôn tăng khi thêm các biến mới vào một mô hình Do đó Pseudo R chỉ có thể so sánh giữa các mô hình có cùng số lượng biến và định dạng dữ liệu giữa các biến.

Ta được kết quả như sau

Ta thấy =0.3854 có nghĩa là biến Plan to attend graduate school được giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các yếu tố khác.

Dùng để so sánh các mô hình khác nhau Giá trị AIC, BIC càng nhỏ mô hình càng phù hợp với dữ liệu.

= −2 ∗ + lln( ) ∗ với k là số biến quan sát được, N tổng số các quan sát

Hình 29 Kết quả Đường cong ROC Đo lường khả năng phân loại của 1 mô hình bằng giá trị AUC ( area under curve -diện tích dưới đường cong) Ta có bảng phân loại sau:

\ Hình 30 Bảng phân loại của mô hình

- Bảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại đúng/sai như thế nào Ta thấy số lượng người được khảo sát có dự định học bậc sau đại học là 19 người và trong số 19 người đó mô hình dự đoán 15 người có dự định học và dự đoán 4 người không có dự định học

- Còn số lượng người được khảo sát không có dự định học bậc sau đại học là 11 người trong đó mô hình dự đoán 4 người có dự định học và dự đoán 7 người không có dự định học

- Từ bảng phân loại ta tính được giá trị True Positive Rate(TPR) và Fale Positve Rate(FPR), Accuracy

Hình 31 Bảng giá trị True Positive và Fale Positve

- Giá trị AUC = 0.827 có nghĩa là trong 100 người thì có 83 cặp quan sát (1 người có dự định học bậc sau đại học và 1 người không có dự định học) có xác suất dự báo của người có dự định học bậc sau đại học lớn hơn xác suất của người không có dự định học AUC dùng để đánh giá mô hình có phân loại hiệu quả hay không Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mô hình dự báo phân loại không tốt

Hình 32 Bảng diễn giải ý nghĩa AUC

Colleges and Universities

Mô hình thu thập dữ liệu của một mẫu gồm 49 dòng dữ liệu về điểm của các trường Người ta đề nghị sử dụng phân tích hồi quy để xác định xem điểmtrung bình SAT (Median SAT) có mối liên hệ với tỷ lệ tốt nghiệp hay không? Điểm trung bình SAT và tyr lệ tốt nghiệp được trình bày trong file Colleges and Universities được trình bày ở bảng sau:

Hình 33 Bảng diễn giải ý nghĩa AUC Trong đó:

- Điểm trung bình SAT phụ thuộc vào tỷ lệ tốt nghiệp Biến độc lập: Graduation %

Biến phụ thuộc: Median SAT

- Yêu cầu bài toán: Xác định mức độ ảnh hưởng của tỷ lệ tốt nghiệp đến điểm thi trung bình của SAT.

Mô hình hồi quy mẫu:

- Mối quan hệ giữ các biến phụ thuộc và biến độc lập:

Mối quan hệ giữa Graduation % và Median SAT:

Hình 34: Mối quan hệ giữa Graduation % và Median SAT

Nhận xét: Khi tỷ lệ tốt nghiệp ở các trường đại học tăng lên điểm trung bình SAT cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến, tức là hệ số được dự đoán của Graduation % mang giá trị dương.

Hình 35: Tính bằng công cụ Excel thông qua Data Analysis

- Tính toán lại và giải thích các giá trị:

SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung bình

SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát

SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình

Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó cũng được dùng tương tự như R Square Trong thực tế người ta dùng Adjusted R Square nhiều R Square Vì Adjusted R Square có thêm các tham số n và k nên độ chính xác sẽ cao hơn R Square Adjusted R Square càng gần 1 thì mô hình hồi qui càng phù hợp

MSR: trung bình chênh lệch tổng bình phương sai số giải thích được bằng mô hình

MSE: trung bình chênh lệch tổng bình phương các phần dư

47 nb 0 b n i 1 b 0 x i b 1 i 1 y i x i y i ax by e cx dy f a b e

Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy Các giá trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui hơn a Tính bằng Excel

Significane F F.DIST.RT(F;k;n- (k+1)) df SS Regressio 1 n =

- Tìm phương trình hồi quy

Hình 36: Tính toán bằng ma trận

Ta thu được kết quả

Trong đó: β) =4.747 : Lương sẽ tăng trung bình 4.747 điểm đối với mỗi phần tram tỉ lệ tốt nghiệp tăng thêm

Bước 1: Tính Standard Error for Slope thông qua công thức:

Hình 37: Tính Standard Error for Slope.

Bước 2: Tìm Standard Error of Intercept thông qua công thức

Hình 38: Kết quả khi tính Standard error của hệ số gốc

Bước 1: Tính t-Stat bằng công thức

Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value

Coefficients Standard Error t Stat p-value

R 2 = 0.3182: 31.82% biến động của lương được giải thích bởi số năm kinh nghiệm và điểm đánh giá năng lực

Trong bài toán trên, biến độc lập đưa vào ảnh hưởng 34.82% sự thay đổi của biến phụ thuộc, còn lại 68.18% là do các biến ngoài mô hình và sai số ngẫu nhiên.

Ta kiểm tra bằng excel thông qua hàm T.INV(

Hình 41: Tìm T.INV Trị thống kê:

Cách 1: t và t nằm ngoài khoảng (−2.012, 2.012) nên bác bỏ

Có đủ bằng chứng để kết luận tỷ lệ tốt nghiệp (Graduation %) có ảnh hưởng 0.05 đến điểm tủng bình SAT (Median SAT) với mức ý nghĩa α =

Khi biến Graduation % tăng thì Median SAT cũng tăng.

- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không? Đặt giả thuyết:

H : β) = 0 (R = 0) : hệ số của tỷ lệ tốt nghiệp không giải thích cho biến điểm trung bình SAT

H : β) ≠ 0 (R ≠ 0) : hệ số của tỷ lệ tốt nghiệp giải thích cho biến lương

Trị giới hạn: α df = k df = n − ( k + 1 )

Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α ,k,n − (k + 1) = 4.047

Hình 43: Tính F Quy tắc bác bỏ :

Cách 1: FH> F , , nên bác bỏ H

Cách 2: p-value < 0.05 nên chấp nhận H Kết luận:

Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay biến Graduation % tác động đến biến Median SAT b Tính bằng R

Bước 2: Kiểm tra dữ liệu vừa đọc

Hình 44: Kiểm tra dữ liệu

Bước 3: Dùng hàm lm và chọn các giá trị phù hợp để biểu diễn mô hình hồi quy tuyến tính

Hình 45: Lập bảng thông số trên R

Nhìn vào Coefficients ta thấy Pr(>|t|) của các biến Graduation < 0.05 nên ta không cần loại bỏ các đặc trưng ảnh hưởng đến ý nghĩa của mô hình.

Nhìn vào độ tương quan R-squared và Adjusted R-squared, ta thấy cả hai giá trị đều nhỏ hơn 0.5 nên mô hình sau yếu

Bước 5: Mô hình hồi quy tuyến tính

Hình 46: Mô hình hồi quy tuyến tính của trên R Bước 6: Kết luận:

Kết quả tính toán trên R giống với Excel c Tính bằng Python

Bước 1: Import các thư viện cần thiêt

Hình: Các thư viện cần dùng Bước 2: Import dữ liệu

Hình: Đọc dữ liệu từ dataset Bước 3: Kiểm tra dữ liệu

Hình 47: Hiển thị 5 dòng đầu tiên của tập dữ liệu

Bước 4: Lấy ra biến phụ thuộc Median SAT và biến độc lập Graduation %

Hình: Tạo biến độc lập và biến phụ thuộc

Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mô hình theo biến X và Y.

Hình 48: Xây dựng mô hình với biến độc lập Graduation % và biến phụ thuộc Median SAT

Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính Hệ số chắn

Hình 50: Hệ số gốc riêng phần Giá trị R-squared

Hình 51: Giá trị R-squaredBước 7: Bảng thống kê

Hình 52: Cú pháp xây dựng bảng thống kê

Hình 53: Kết quả Bước 8: Kết luận:

Kết quả tính toán của Python giống với R và Excel.

Hồi quy phi tuyến đa biến với dữ liệu thực tế tùy chọn về/của Việt Nam 62 a Phát biểu chung

Cho đến giờ ta mặc định hàm hồi quy là tuyến tính, nghĩa là tham số nghiêng của hàm hồi quy là hằng số Điều này hàm ý, ảnh hưởng lên YY của một đơn vị thay đổi của XX không phụ thuộc vào giá trị của XX Nếu ảnh hưởng này thật sự phụ thuộc vào giá trị của XX, ta cần phải sử dụng hàm hồi quy phi tuyến

Ai sinh ra trên đời cũng đều có riêng cho mình những mục đích sống khác nhau, nhưng dù là mục đích, lý tưởng gì thì chúng ta đều cần có sức khỏe mới thực hiện được Đó là lý do vì sao chúng ta có thể nói sức khỏe là quan trọng nhất đối với cuộc sống mỗi người Đặc biệt không chỉ thế giới mà chính đất nước chúng ta cũng đã trải qua một cuộc đại dịch kéo dài nhiều năm từ trước đến nay Có thể thấy được là tầm quan trọng của đội ngũ y tế cũng như cơ sở vật chất khi điều trị cho một số lượng bệnh nhân lớn vào những ngày thường Và trong lúc đại dịch vừa qua số lượng giường bệnh và đội ngũ y tế không đủ để chữa trị cho bệnh nhân Cũng vì nếu không có đủ số lượng đội ngũ thì sẽ không thể nhiều số lượng giường bệnh để chăm sóc cho bệnh nhân Cho nên, nhóm đã chọn dữ liệu số bác sĩ, y sĩ và giường bệnh của tổng cộng và từng tỉnh thành của Việt Nam vào năm 2014

Phát biểu bài toán: Với độ tin cậy là 95% có thể tìm ra mối quan hệ giữa số giường bệnh với số bác sĩ cũng như y sĩ của bệnh viện được hay không? Dữ liệu được trình bày ở dưới:

- Số giường bệnh của bệnh viện phụ thuộc vào:

⇨ Biến độc lập: Bác sĩ, Y sĩ.

⇨ Biến phụ thuộc: Số giường bệnh

- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh viện đến số lượng giường bệnh.

- Mô hình hồi quy mẫu:

Với độ tin cậy 95% nên có mức ý nghĩa ∝ = 0.05

Giả thuyết :: Mô hình hồi quy phi tuyến không phù hợp Đối thuyết :: Mô hình hồi quy phi tuyến phù hợp

63 b Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel

-Bước 1 : Từ dữ liệu về y tế của Việt Nam năm 2014, ta tiến hành tính giá trị ln() cho các biến độc lập BacSi, Ysi bằng hàm log() để thể hiện logarithm.- Bước 2: Chọn Data -> Data analyst Tiếp đó chọn

Regression Nhập các giá trị X, Y đầu vào và vị trí hiện đáp án như sau

Hình 55: Cách nhập dữ liệu vào Excel

- Bước 3: Nhấn OK Kết quả hiện ra như sau.

● R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình

● R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá tốt

● Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 Nên mô hình hồi quy phù hợp với tổng thể.

Có đủ bằng chứng để kết luận hàm hồi quy phi tuyến phù hợp hay có hai biến độc lập tác động đến biến phụ thuộc Y (Số giường bệnh)

● Mối quan hệ giữa Bác sĩ và giường bệnh

Hình 57: Mối quan hệ giữa bác sĩ và giường bệnh

● Nhận xét: Khi số lượng bác sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh mang giá trị dương

● Mối quan hệ giữa Bác sĩ và giường bệnh

Hình 58: Mối quan hệ giữa y sĩ và giường bệnh

● Nhận xét: Khi số lượng y sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh mang giá trị dương.

0.05 68 t , = 1.9955 trong bảng phân phối Student

Ta kiểm tra bằng excel thông qua hàm T.INV( )

Error BacSi 12576.02998 5940.571333 2.116973146 0.0379234 YSi 12527.92038 6151.036997 2.036716798 0.045574357 Quy tắc bác bỏ :

Cách 1: và t nằm ngoài khoảng (−1.9955,1.9955) nên bác bỏ H tH

Cách 2: p-value < 0.05 nên chấp nhận Kết luận:

Có đủ bằng chứng để kết luận BacSi và Ysi có ảnh hưởng đến số GiuongBenh với mức ý nghĩa α=0 05

Khi biến BacSi hoặc YSi tăng thì GiuongBenh cũng tăng.

- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không? Đặt giả thuyết:

H : β) = β) = 0 (R = 0) : hệ số của số năm kinh nghiệm, điểm thi đánh giá không giải thích cho biến lương

H : β) + β) ≠ 0 (R ≠ 0) : hệ số của số năm kinh nghiệm, điểm thi đánh giá giải thích cho biến lương

0.05 F , , α = 3.13 trong bảng df = k 2 68 df = n − ( k + 1 ) phân phối F

Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α ,k,n − (k + 1) = 3.13

Cách 2: p-value < 0.05 nên chấp nhận H

Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay có ít nhất một biến độc lập tác động đến biến phụ thuộc GiuongBenh c Thực hiện phép tính Hồi quy phi tuyến đa biến trên R.

Một cách khác để quy cách hàm số phi tuyến là dùng hàm logarithm lên biến Y/(và)X.

● Trường hợp 1: Logarithm X, mô hình trở thành: o Trong R ta dùng hàm log() để thể hiện logarithm:

Hình 59: Kết quả mô hình hồi quy dạng Logarithm o R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình o R square Adjusted = 0,569 => R square > 50% nghiên cứu được đánh giá tốt. o Vì giá trị p-Value = 0.0379 < 0.05 và giá trị p-Value = 0.0356 <

0.05 => Từ chối H 0 Nên mô hình hồi quy phi tuyến phù hợp với tổng thể. o Dựa vào bảng kết quả Coefficients o Ta có mỗi Model đều có sig < 0.05 Nên ta chấp nhận tất cả các model

⇨ Kết luận: Chỉ cần tăng thêm 1 bác sĩ và y sĩ sẽ tăng được trung bình 12551 giường bệnh

● Trường hợp 2: Logarithm Y, mô hình trở thành: o o

Hình 60: Kết quả mô hình hồi quy dạng Logarithm dạng 2

R square = 0.5752 => Có 57,52% dữ liệu phù hợp với mô hình

R square Adjusted = 0,5627 => R square > 50% nghiên cứu được đánh giá tốt. o Vì giá trị p-Value = 0.00775 < 0.05 và giá trị p-Value = 0.22033

< 0.05 => Từ chối H 0 Nên mô hình hồi quy phi tuyến phù hợp với tổng thể. o Dựa vào bảng kết quả Coefficients

▪ Ta có mỗi Model đều có sig < 0.05 Nên ta chấp nhận tất cả các model.

▪ Ta có mô hình: ln(GiuongBenh) = (8.162e+00) + (1.941e- 04)*BacSi +( - 8.650e-05)*Ysi

● Trường hợp 3: Logarithm X và Y, mô hình trở thành:

Hình 61: Kết quả mô hình hồi quy dạng Logarithm dạng 3 o R square = 0.9667 => Có 96,67% dữ liệu phù hợp với mô hình o R square Adjusted = 0,9657 => R square > 50% nghiên cứu được đánh giá tốt. o Vì giá trị p-Value < 2e-16 và giá trị p-Value =

0.00026 Từ chối H 0 Nên mô hình hồi quy phi tuyến phù hợp với tổng thể. o Dựa vào bảng kết quả Coefficients

▪ Ta có mỗi Model đều có sig < 0.05 Nên ta chấp nhận tất cả các model.

▪ Ta có mô hình: ln(GiuongBenh) = (1.56304) + (0.78592)*ln(BacSi) +(0.20932)*ln(YSi)

Hình 62: Mối quan hệ giữa bác sĩ và giường bệnh

● Vẽ hình mối quan hệ giữa y sĩ và giường bệnh

Hình 63: Mối quan hệ giữa y sĩ và giường bệnh d Thực hiện phép tính Hồi quy phi tuyến đa biến trong Python

- Bước 2: Nhập dữ liệu vào.

- Bước 3: Tính hàm log cho các biến độc lập như BacSi và Ysi.

- Bước 4: Lấy ra biến phụ thuộc GiuongBenh và biến độc lập BacSi và YSi

- Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mô hình theo biến X và Y.

- Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính

- Bước 7: Xuất ra kết quả Cú pháp xây dựng bảng thống kê.

● Kết quả tính toán của Python giống với R và Excel.

● Kết luận: Từ kết luận trên chúng tôi cũng đưa ra được là các yếu tố về con người và cơ sở vật chất của bệnh viện đều có liên quan và ảnh hưởng đến nhau Cho nên để có một chất lượng tốt hơn cũng như là cải thiện số lượng giường bệnh tại bệnh viện, chúng ta nên tăng số lượng về đội ngũ y tế như là bác sĩ, y sĩ…

Hồi quy Logistic với dữ liệu thực tế tùy chọn về/của Việt Nam

a Phát biểu bài toán (hay vấn đề) cần giải quyết

Mặc dù cộng đồng thế giới nói chung cũng như Việt Nam nói riêng đã cho thấy những tín hiệu ổn định trở lại trong đại dịch Covid-19, tuy nhiên mối nguy hiểm từ dịch bệnh này vẫn chưa dừng lại, cụ thể số người tử vong trung bình trong bảy ngày qua tại Việt Nam ghi nhận con số là 7 người

Hình 64: Bảng số liệu thống kê số người tử vong tại Việt Nam trong vòng 6 tháng, với số liệu trung bình ghi nhận trong 7 ngày gần nhất 1

Dù vậy, nhịp sống tù động do Covid cũng không kém phần nguy hiểm bởi nó ảnh hưởng gián tiếp đến nền kinh tế và xã hội của đất nước Vì thế, Việt Nam cũng đã có nhiều chính sách bình thường hóa: Vừa đi làm trực tiếp vừa đi làm online, cho mở cửa các siêu thị chợ nhưng vẫn khuyến khích các dịch vụ đặt đồ tại nhà, vừa đi học online vừa đi học offline Mặc dù hiển nhiên, các hoạt động diễn ra tại nhà và online còn nhiều bất cập khiến hiệu suất công việc lẫn kết quả sẽ bị nhiều ảnh hưởng, tuy nhiên, sự lo sợ về tính mạng con người vẫn còn là một rào cản lớn cho các quyết định của cá nhân hoặc tổ chức

Vậy vấn đề đặt ra nếu chúng ta có thể nhận biết được tuýp người thuộc dạng nào thì có nguy cơ, xác suất tử vong cao ta sẽ có cơ sở vững chắc hơn để đưa ra quyết định ít sai lầm hơn.

Vì thế trong nghiên cứu này nhóm chúng tôi tiến hành xem xét tác động của tuổi tác đối với sự tử vong của người Việt Nam Trước hết chúng tôi thực hiện với quy mô nhỏ dựa trên dữ liệu các ca mắc Covid-19 của Đà Nẵng được ghi nhận lần cuối vào lúc 9h - 23/9/2020 tại Cổng dịch vụ dữ liệu của thành phố Đà Nẵng 2 Về công cụ, chúng tôi sẽ phân tích hồi quy logistic trên số tuổi của các ca Covid được ghi nhận và xem xét xác suất tử vong của từng độ tuổi là bao nhiêu Vì thế trong dữ liệu chúng tôi đã lọc và xử lý để tạo thành hai cột cần thiết là tuổi (Age), tình trạng tử vong/đã khỏi bệnh (Status).

Hình 65: Một số mẫu dữ liệu

Nêu các bước tiến hành và tính lại các giá trị trong bảng kết quả b Excel

Hình 66: Đầu tiên ta chọn Data Analysis, sau đó chọn Regression

Hình 67: Tư bảng kết quả, ta lấy kết quả của hai hệ số intercept/age làm hệ số khởi tạo cho phương trình tuyến tính của hàm log

Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính ra kết quả cho cột C

Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa trên phương trình tuyến tính được khởi tạo

Hình 10: Tiếp theo ta tính con số xác suất Likelihood dựa trên nhãn thực tế đã biết

Hình 71: Tiếp theo ta tính log của likelihood

Hình 72: Sau đó ta tính tổng của tất cả giá trị của dòng log likelihood này

Hình 73: Ta dùng công cụng Solver trong Analysis trong Data để cập nhật lại hệ số từ hai hệ số đã khởi tạo

Hình 74: Dòng “Set Objective” ta bỏ vào giá trị của tổng giá trị log likelihood, dòng

"By Changing Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần cập nhật

Hình 75: Hai hệ số của hàm Logistic đã được cập nhật thành 0;0 Chi tiết phân tích sẽ trình bày ở phần sau c Bằng R

Hình 76: Đầu tiên ta đọc file csv và đính kèm giá trị vừa đọc vào chương trình bằng lệnh attach

Hình 77: Tiếp theo ta dùng hàm glm để thực hiện hồi quy logistic, với biến phụ thuộc là Status và biến độc lập là Age Sau đó ta dùng lệnh summary để in ra bảng kết quả

Hình 78: Bảng kết quả sau khi thực hiện hồi quy logistic

Hình 79: Dùng các lệnh sau để vẽ đường cong logistic theo các hệ số vừa tìm được

Hình 80: Biểu diễn các điểm dữ liệu và đường cong logistic d Bằng Python

Hình 81: Cài đặt các thư viện cần thiết và đọc file dữ liệu vào chương trình

Hình 82: Đọc dữ liệu vào một biến dạng numpy array Ta cũng phải tiến hình reshape dữ liệu của biến độc lập thành mảng hai chiều để phù hợp với đầu vào của thuật toán

Hình 83: Tạo model bằng hàm LogisticRegression, sau đó tiến hành huấn luyện bằng lệnh fit với hai đối số là X và y

Hình 84: Sau đó ta in hai giá trị hệ số của mô hình đã học ra e Giải thích và kết luận

Trước hết ta có hàm logistic dùng để tính xác suất sảy ra của một biến cố dựa trên một biến số nào đó Trong bài toán này, chúng tôi đang xét biến cố một người có tử vong hay không dữa trên biến số là tuổi tác của họ Vậy hàm logistic tính xác suất trên được phát biểu như sau:

= 1 + Với + là phương trình tuyến tính có x là giá trị tuổi của người mắc Covid và , là hai hệ số cần tìm.

Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu được hệ số với a (intercept) là -6,43021 và b (age) là 0.08.

Hình 85: Bảng kết quả khi thực nghiệm trên ngôn ngữ R

Khi thao tác với Python, chúng tôi nhận thấy với mỗi giá trị

C khác nhau ta thu được các hệ số khác nhau như sau:

Hình 86: Hệ số tìm được khi đặt giá trị C 0

Hình 2: Hệ số tìm được khi đặt giá trị C 0

Hình 87: Hệ số khi đặt C bằng 90 sẽ gần giống với kết quả khi thực nghiệm trên R

Theo tìm hiểu, C sẽ là hệ số đảo ngược của regularization Trong đó, regularization là một dạng tham số phạt trong các mô hình máy học giúp hạn chế tình trạng overfitting của mô hình đầu ra Overfitting là tình trạng mô hình sau khi được huấn luyện thể hiện quá tốt trên dữ liệu được huấn luyện trong khi đó lại thể hiện quá kém trên dữ liệu thực tế

Tiếp theo xét về giá trị hệ số tìm được bằng cách thực nghiệm trên Excel, cụ thể chúng tôi nhận về hai giá trị đều bằng 0 Chúng tôi tiến hành áp thử hai hệ số đã tìm được trong hai phương pháp thực nghiệm bằng ngôn ngữ R và Python ở trên vào dữ liệu bảng của excel để xem xét Sau khi nhìn nhận về xác suất trả về của từng giá trị tuổi, chúng tôi nhận định trường hợp hệ số trả về của mô hình là (0,0) này có thể giải thích do dữ liệu mà mô hình bị mất cần bằng nặng nề Cụ thể trong tất cả độ tuổi thu thập được (từ 1 đến 95) thì đến tận số tuổi là 84 mới có xác suất tử vong vượt ngưỡng 50 và chỉ có 8/247 mẫu vượt qua ngưỡng này Vậy nên dựa trên dữ liệu đưa vào excel, mô hình đầu ra kết luận hai hệ số là (0,0) tương đương

87 với việc bất kì độ tuổi nào đưa vào khả năng tử vong cũng bằng 0 là khá hợp lý trên những gì dữ liệu có được Bởi chỉ có 8/247 trường hợp (theo hệ số mượn từ hai phương pháp trên) bị phán đoán sai mà thôi còn lại

239 trường hợp vẫn được xem là đúng trên mô hình có hệ số là (0,0) này

Hình 88: Giá trị xác suất tử vong hay không phụ thuộc vào giá trị tuổi khi được áp dụng hệ số từ hai phương pháp trước Trong đó, dòng tô màu đỏ là dòng đầu tiên vượt ngưỡng 50%, dòng xanh dương là dòng thử nghiệm chúng tôi đưa vào để xem ở mức tuối nào có khả năng 90% mắc covid sẽ tử vong

Từ kết luận trên chúng tôi cũng đưa ra được giải pháp để tăng tính khách quan cũng như độ chính xác của mô hình đầu ra như sau: một là xem xét hệ số phạt (regularization) để tránh được tình trạng mô hình chỉ nhìn được các trường hợp cụ thể trên dữ liệu mà không có tính khách quan trên dữ liệu thực tế; hai là ta phải cố gắng thu thập nhiều mẫu dữ liệu nhất có thể để mô hình không bị giới hạn trong một phạm vi đặc tính cụ thể nào cả

Hình 89: Khi tăng 1 tuổi khả năng ta bị tử vong do covid sẽ tăng 1,08 lần

7 Bảng phân công công việc Ái Nhi Phương

Tiêu đề	Phân tích dữ liệu kinh doanh
Tác giả	Lê Thị Ái Nhi, Lê Hữu Thắng, Trịnh Thị Thanh Trúc, Đặng Vũ Phương Uyên, Nguyễn Thị Thu Phương
Người hướng dẫn	PGS. Nguyễn Đình Thuân, KS. Nguyễn Minh Nhựt
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Hệ thống thông tin
Thể loại	Báo cáo Lab
Năm xuất bản	2022
Thành phố	TP.HCM

Định dạng
Số trang	101
Dung lượng	4,77 MB