PHÂN TÍCH DỮ LIỆU KINH DOANH Đề tài BÁO CÁO LAB 3

Hồi quy tuyến tính đa biến

Phân tích hồi quy là một kỹ thuật thống kê quan trọng, giúp ước lượng phương trình phù hợp nhất cho mối quan hệ giữa biến phụ thuộc và biến độc lập Phương pháp này cho phép xác định mối liên hệ thực sự giữa các biến số, từ đó dự báo giá trị của biến phụ thuộc chưa biết dựa trên các giá trị đã biết của biến độc lập Hồi quy tuyến tính là một trong những hình thức phổ biến của phân tích hồi quy, giúp đơn giản hóa quá trình dự đoán và phân tích dữ liệu.

Hồi quy tuyến tính là một thuật toán cơ bản và phổ biến trong Học có giám sát, chuyên dùng để dự đoán các giá trị đầu ra liên tục Thuật toán này rất hiệu quả trong việc ước lượng các đại lượng như doanh số và giá cả, thay vì phân loại thành các nhóm rời rạc như màu sắc hay chất liệu của quần áo Hồi quy tuyến tính đơn biến là một khái niệm quan trọng trong lĩnh vực này, giúp đơn giản hóa quá trình dự đoán.

Phân tích hồi quy tuyến tính đơn biến chỉ liên quan đến một biến độc lập, giúp xác định sự thay đổi của giá trị trung bình tổng thể của biến phụ thuộc khi giá trị của biến độc lập thay đổi Trong khi đó, hồi quy tuyến tính đa biến mở rộng khái niệm này bằng cách xem xét nhiều biến độc lập cùng lúc.

Phân tích hồi quy tuyến tính đa biến là sự mở rộng của hồi quy tuyến tính đơn biến, cho phép sử dụng nhiều biến độc lập Trong trường hợp này, với n biến độc lập (n≥1), chúng ta sẽ nghiên cứu ảnh hưởng của các biến này đến biến phụ thuộc Y thông qua phương trình hồi quy.

2 Phân tích dữ liệu kinh doanh – IS403.M22

𝛽 Tung độ gốc (Hệ số tự do)

𝛽 , … 𝛽 Hệ số gốc riêng phần

𝛽 : là một ước lượng cho sự thay đổi của

Y ứng với sự gia tang của một đơn vị 𝑋 khi tất cả các biến độc laapk được giữ không đổi

 Các giả thuyết thống kê

● Kiểm định ý nghĩa của phương trình hồi quy

▪ Quy tắc kiểm định o Cách 1:

● Kiểm định độ phù hợp của phương trình hồi quy

▪ Quy tắc kiểm định o Cách 1:

● Khoảng tin cậy của 𝐵 với I thuộc (1, 2, …, k):

Một công ty phần mềm đã tiến hành thu thập dữ liệu từ 20 lập trình viên để nghiên cứu mối quan hệ giữa lương, số năm kinh nghiệm và điểm thi năng khiếu lập trình do công ty tổ chức Họ đã đề xuất sử dụng phân tích hồi quy nhằm xác định xem có sự liên kết nào giữa các yếu tố này hay không.

Số năm kinh nghiệm, điểm thi năng khiếu Và mức lương hàng năm ($1000s) của 20 lập trình viên được trình bày ở bảng sau:

Bảng 1: Dữ liệu được sử dụng Trong đó:

- Lương của nhân viên phụ thuộc vào:

● Experience: Số năm kinh nghiệm

● Score: Điểm thi năng khiếu về lập trình do công ty tổ chức

⇨ Biến độc lập: Experience, Score

- Yêu cầu bài toán: Mức độ ảnh hưởng của số năm kinh nghiệm và điểm thi năng khiếu về lập trình do công ty tổ chức đến lương

- Mô hình hồi quy mẫu:

- Mối quan hệ giữ các biến phụ thuộc và biến độc lập:

● Mối quan hệ giữa Experience và Salary:

Hình 1: Mối quan hệ giữa Experience và Salary

Khi số năm kinh nghiệm của lập trình viên tăng, lương của họ cũng tăng theo, cho thấy mối quan hệ đồng biến giữa hai thuộc tính này Điều này cho thấy hệ số dự đoán của kinh nghiệm (Experience) có giá trị dương.

● Mối quan hệ giữa Score và Salary:

Hình 2: Mối quan hệ giữa Score và Salary

Khi điểm đánh giá năng lực của lập trình viên tăng, mức lương của họ cũng tăng theo, cho thấy mối quan hệ đồng biến giữa hai yếu tố này Điều này cho thấy hệ số dự đoán của điểm số (Score) có giá trị dương.

- Dùng công cụ Data Analysis trong Excel ta được:

Hình 3: Tính bằng công cụ Excel thông qua Data Analysis

- Tính toán lại và giải thích các giá trị:

● SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung bình

● SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát

● SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình

Adjusted R Square, hay R bình phương hiệu chỉnh, được sử dụng tương tự như R Square nhưng được ưa chuộng hơn do tính chính xác cao hơn nhờ có thêm các tham số n và k Khi giá trị của Adjusted R Square càng gần 1, điều đó cho thấy mô hình hồi quy càng phù hợp.

● MSR: trung bình chênh lệch tổng bình phương sai số giải thích được bằng mô hình

● MSE: trung bình chênh lệch tổng bình phương các phần dư

Sai số tiêu chuẩn của hồi quy, hay còn gọi là sai số tiêu chuẩn của ước lượng, phản ánh khoảng cách trung bình giữa các giá trị quan sát và đường hồi quy Giá trị sai số tiêu chuẩn càng nhỏ thì các biến quan sát sẽ càng gần với đường hồi quy, cho thấy độ chính xác cao hơn trong mô hình.

● Anova df SS MS F Significane F

Total n - 1 SST df SS MS F Significane F

- Tìm phương trình hồi quy

● Bước 1: Tính 𝑋 bằng hàm Transpose trong Excel

● Bước 2: Tính 𝑋 𝑋 bằng hàm Mmult trong Excel

● Bước 3: Tính (𝑋 𝑋) bằng hàm Minverse trong Excel

● Bước 4: Tính (𝑋 𝑋) 𝑋 bằng hàm Mmult trong Excel

● Bước 5: Tính (𝑋 𝑋) 𝑋 𝑌 bằng hàm Mmult trong Excel

● Ta thu được kết quả

▪ 𝛽 1 = 1.404 : Lương sẽ tăng trung bình 1.404 $k/ năm đối với mỗi một năm kinh nghiệm tăng thêm, với giả sử cùng một mức điểm đánh giá năng lực đầu vào

▪ 𝛽 2 = 0.251 : Lương sẽ tăng trung bình 0.251 $k/ năm đối với , với giả sử cùng số năm kinh nghiệm

Hình 12: Đường chéo của ma trận là phương sai của các biến

● Bước 2: Tìm Standard Error thông qua công thức

Hình 13: Kết quả khi căn bậc hai các phương sai

Coefficients Standard Error Intercept 3.17393627 6.156067 Experience 1.403902485 0.198567 Score 0.250885448 0.077354

● Bước 1: Tính t-Stat bằng công thức

● Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value

Coefficients Standard Error t Stat p-value Intercept 3.17393627 6.156067 0.083751 0.612789 Experience 1.403902485 0.198567 35.606 1.88E-06

● R 2 = 0.8342: 83.42% biến động của lương được giải thích bởi số năm kinh nghiệm và điểm đánh giá năng lực

Trong nghiên cứu này, hai biến độc lập đóng góp 81.467% vào sự biến đổi của biến phụ thuộc, trong khi 18.533% còn lại được giải thích bởi các yếu tố bên ngoài mô hình và sai số ngẫu nhiên.

- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong mô hình

⇨ 𝑡 , = 2.11 trong bảng phân phối Student

⇨ Ta kiểm tra bằng excel thông qua hàm T.INV( 𝛼 , 𝑛 − (𝑘 + 1))

▪ Cách 2: p-value < 0.05 nên chấp nhận 𝐻

▪ Có đủ bằng chứng để kết luận số năm kinh nghiệm (experience) và điểm thi (score) có ảnh hưởng đến lương (salary) với mức ý nghĩa

- Khoảng ước lượng của các tham số hồi quy trong mô hình

▪ Khi biến experience hoặc score tăng thì salary cũng tăng

- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không?

▪ 𝐻 : 𝛽 = 𝛽 = 0 (𝑅 = 0): hệ số của số năm kinh nghiệm, điểm thi đánh giá không giải thích cho biến lương

▪ 𝐻 : 𝛽 + 𝛽 ≠ 0 (𝑅 ≠ 0): hệ số của số năm kinh nghiệm, điểm thi đánh giá giải thích cho biến lương

⇨ Ta kiểm tra bằng excel thông qua hàm F.INV(1 - 𝛼 , 𝑘, 𝑛 − (𝑘 + 1) 3.59

Hình 17: Tra F thông qua excel

▪ Cách 2: p-value < 0.05 nên chấp nhận 𝐻

▪ Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay có ít nhất một biến độc lập tác động đến biến phụ thuộc Y (lương).

Hồi qui phi tuyến đa biến

Hồi quy phi tuyến là một phương pháp phân tích hồi quy, trong đó dữ liệu được mô hình hóa bằng một hàm phi tuyến kết hợp các tham số và phụ thuộc vào một hoặc nhiều biến độc lập Khác với hồi quy tuyến tính đơn giản, chỉ liên hệ hai biến (X và Y) thông qua một đường thẳng (y = mx + b), hồi quy phi tuyến tính thể hiện mối quan hệ phức tạp hơn giữa các biến trong một dạng cong.

Hồi quy đa biến là một phương pháp mở rộng của hồi quy tuyến tính đơn giản, được sử dụng để dự đoán giá trị của một biến phụ thuộc dựa trên giá trị của hai hoặc nhiều biến độc lập Biến phụ thuộc, hay còn gọi là biến kết quả, mục tiêu hoặc biến tiêu chí, là biến mà chúng ta muốn dự đoán Phương pháp này không chỉ giúp xác định sự ảnh hưởng của các biến độc lập đến biến phụ thuộc mà còn cho phép đánh giá mức độ đóng góp của từng yếu tố trong sự thay đổi của biến phụ thuộc.

Hồi quy phi tuyến đa biến là một phương pháp phân tích hồi quy, trong đó dữ liệu quan sát được mô hình hóa thông qua các hàm phi tuyến như hàm mũ hoặc hàm bậc cao Phương pháp này cho phép nắm bắt các mối quan hệ phức tạp giữa các biến, giúp cải thiện độ chính xác của dự đoán trong các nghiên cứu và ứng dụng thực tiễn.

Phân tích dữ liệu kinh doanh trong khóa học IS403.M22 sử dụng các hàm toán học như logarit, hàm căn bậc hai và hàm đa thức Những hàm này tạo thành sự kết hợp phi tuyến tính của các tham số mô hình và phụ thuộc vào nhiều biến độc lập.

- Trong hồi quy phi tuyến tính, một mô hình thống kê ở dạng: y ~ f(𝒙 𝒊 ,β)

Liên quan đến mô hình vector với các biến độc lập x và các biến phụ thuộc y, hàm f thể hiện tính phi tuyến tính trong các thành phần của tham số vector β, nhưng không phải là một hàm tùy ý.

Các hàm hồi quy phi tuyến tính bao gồm hàm mũ, hàm tăng trưởng logarit, hàm lượng giác, hàm lũy thừa, hàm Gauss và đường cong Lorenz Một số hàm, như hàm lũy thừa và logarit, có thể được chuyển đổi thành dạng tuyến tính, cho phép thực hiện hồi quy tuyến tính tiêu chuẩn Tuy nhiên, cần thận trọng khi áp dụng các phương pháp này.

Nghiên cứu về quan hệ giữa số giường bệnh với số bác sĩ cũng như y sĩ của bệnh viện

Dữ liệu được trình bày như sau:

Hình 19: Dữ liệu số bác sĩ, y sĩ và giường bệnh của các tỉnh năm 2014 Trong đó:

 Số giường của bệnh viện phụ thuộc vào:

=> Biến độc lập: Số bác sĩ, Số y sĩ

=> Biến phụ thuộc: Số giường bệnh

- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh viện đến số lượng giường bệnh

- Mối liên hệ giữa các biến độc lập và biến phụ thuộc:

 Mối quan hệ giữa Số lượng bác sĩ và Số lượng giường bệnh:

Hình 20: Mối quan hệ giữa bác sĩ và giường bệnh

Khi số lượng bác sĩ gia tăng, số giường bệnh cũng tăng theo, cho thấy mối quan hệ đồng biến giữa hai yếu tố này Điều này dẫn đến việc hệ số dự đoán của số giường bệnh có giá trị dương.

 Mối quan hệ giữa Số lượng Y sĩ và Số lượng giường bệnh:

Mối quan hệ giữa số lượng y sĩ và số giường bệnh cho thấy sự đồng biến, với việc gia tăng số lượng y sĩ dẫn đến sự tăng lên của số giường bệnh Điều này cho thấy hệ số dự đoán cho số giường bệnh có giá trị dương.

Hình 22: Kết quả dữ liệu được tính bằng công cụ Data Analysis trong Excel

- Từ bảng kết quả ta có các nhận xét rút ra như sau:

 R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình

 R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá tốt

 Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 Nên mô hình hồi quy phù hợp với tổng thể

GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)

- Tìm phương trình hồi quy :

Hình 23: Ma trận X (số bác sĩ, số y sĩ)

Hình 24: Ma trận Y (số giường bệnh)

 Bước 1: Tính 𝑋 bằng hàm Transpose trong Excel

 Bước 2: Tính 𝑋 𝑋 bằng hàm Mmult trong Excel

 Bước 3: Tính (𝑋 𝑋) bằng hàm Minverse trong Excel

 Bước 4: Tính (𝑋 𝑋) 𝑋 bằng hàm Mmult trong Excel

 Bước 5: Tính (𝑋 𝑋) 𝑋 𝑌 bằng hàm Mmult trong Excel

 Ta thu được kết quả:

GiuongBenh = 0.678821 + 0.785919*ln(BacSi) + 0.209315*ln(YSi)

Hồi qui logistic

Phân tích hồi quy logistic là một phương pháp thống kê dùng để khảo sát mối quan hệ giữa các biến độc lập, bao gồm biến số hoặc biến phân loại, với biến phụ thuộc là biến nhị phân, có giá trị 0 hoặc 1.

 Dạng biến độc lập x và biến phụ thuộc y liên hệ qua phương trình:

+ 𝑦 là biến phụ thuộc nhị phân

+ 𝑥 là biến độc lập d Đặt vấn đề:

Khi biến phụ thuộc là nhị phân, việc sử dụng hồi quy thông thường không khả thi do vi phạm các giả định cơ bản, đặc biệt là khi biến chỉ có hai trạng thái như có gia đình/không có gia đình, có việc làm/thất nghiệp, hoặc hút thuốc/không hút thuốc Trong trường hợp này, phần dư không tuân theo phân phối chuẩn mà sẽ có phân phối nhị thức, dẫn đến việc các kiểm định thống kê trong hồi quy thông thường trở nên không hiệu quả.

- Nếu gọi P là xác suất để một biến cố A xảy ra, thì 1-p là xác suất để biến cố A không xảy ra, theo luật phân phối nhị thức ta được :

 Nếu ODDs > 1 xác suất biến cố A xảy ra khả năng cao hơn biến cố đối của nó

 Nếu ODDs Real Satistics => Data Analysis Tool => Reg => Chọn Logistics and probit regression => OK

Hình 19 Hộp thoại Real StatisticsBước 2 : Chọn Input Range => OK

Hình 20 Hộp thoại Logistic Regression

- Ta được kết quả phân tích như sau

Hình 21.1,2,3 Kết quả phân tích Real Statistics

Hình 4.Kết quả phân tích Real Statistics

- Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPA cps p_value < alpha(=0.05)

 Biến có ý nghĩa thống kê và có mối liên quan đến biến dự định học bậc sau đại học

- Ngược lại hệ số các biến giới tính (Gender) và tình trạng hôn nhân ( Married) có p-value > alpha

Không đủ bằng chứng để xác định mối liên hệ giữa biến này và biến dự định học bậc sau đại học, vì vậy cần loại bỏ chúng khỏi mô hình.

Sau khi loại bỏ biến không liên qua ta có dữ liệu mới như sau:

Plan to attend graduate school

Bảng 3 Dữ liệu của Graduate School Survey sau khi lược bỏ các biến không có ý nghĩa thống kê

Hình 22.1,2,3 Kết quả phân tích Real Statistics sau loại bỏ các biến không có ý nghĩa thống kê

Từ kết quả ta được phương trình hồi quy sau:

 = 𝑒 −10.9095+3.593∗𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt :

Khi điểm trung bình tích lũy (Undergraduate GPA) tăng lên một đơn vị, khả năng dự định học bậc sau đại học tăng lên 36,359 lần Nếu điểm GPA chỉ tăng lên 0,1 điểm, tỉ lệ dự định học bậc sau đại học cũng tăng lên 3,6359 lần.

 Cách tính các hệ số bằng Exel Solver

- Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA

- Sau đó tiến hành tính các giá trị: o L = 𝑏 + 𝑏 ∗ 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴

36 Phân tích dữ liệu kinh doanh – IS403.M22 o p - Ta được kết quả như sau:

Hinh 23 Kết quả của L, p và LL

- Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi nhấn Solve

 Kết quả thu được là giá trị các hệ số trong mô hình Giá trị đúng với giá trị được tính bằng real statisitc

Hinh 24 Các hệ số được tính bằng Exel Solver

Sai số tiêu chuẩn của hồi quy, hay còn gọi là sai số tiêu chuẩn của ước lượng, đo lường khoảng cách trung bình giữa các giá trị quan sát và đường hồi quy Giá trị sai số tiêu chuẩn càng nhỏ thì các biến quan sát sẽ càng gần với đường hồi quy, điều này cho thấy mô hình hồi quy hoạt động hiệu quả hơn.

- Bước 1 : Tính Cov : Đường chéo của ma trận là phương sai của các biến

- Bước 2: Tìm Standard Error thông qua công thức

Hình 24 Kết quả Standard Error

- Dùng để kiểm tra hệ số hồi quy

Wald test: 𝑊𝑎𝑙𝑑 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 P – Values = CHISQ.DIST.RT(Wald Statistic, 1)

Hình 25 Kết quả của Wald, p-value

 Những thước đo về sự phù hợp của mô hình

Hình 26 Kết quả của LL statistics của mô hình

- Log likelihood với mô hình có đầy đủ biến giải thích (LL)

- Log likelihood với mô hình không có biến giải thích (LL0)

Hình 27 Kết quả của LL và LL0

 Pearson’s chi square (Chi-sq) và Df

- Chi-sq có giá trị càng thấp mô hình càng phù hợp với dữ liệu

- Df là số các biến giải thích trong mô hình : k= 1

Mức độ phù hợp của mô hình được phản ánh qua giá trị Pseudo R, với giá trị càng cao cho thấy mô hình càng phù hợp với dữ liệu Pseudo R nằm trong khoảng từ 0 đến 1 và thường tăng khi có thêm biến mới vào mô hình Tuy nhiên, giá trị Pseudo R chỉ có thể

41 Phân tích dữ liệu kinh doanh – IS403.M22 so sánh giữa các mô hình có cùng số lượng biến và định dạng dữ liệu giữa các biến

Ta được kết quả như sau

Ta thấy 𝑅 = 0.3854 có nghĩa là biến Plan to attend graduate school được giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các yếu tố khác

Dùng để so sánh các mô hình khác nhau Giá trị AIC, BIC càng nhỏ mô hình càng phù hợp với dữ liệu

𝐴𝐼𝐶 = −2 ∗ 𝐿𝐿 + 2 ∗ 𝑘 𝐵𝐼𝐶 = −2 ∗ 𝐿𝐿 + ln(𝑁) ∗ 𝑘 với k là số biến quan sát được, N tổng số các quan sát

Đường cong ROC là công cụ quan trọng để đánh giá khả năng phân loại của một mô hình thông qua giá trị AUC (diện tích dưới đường cong) Giá trị AUC cho phép chúng ta hiểu rõ hơn về hiệu suất của mô hình trong việc phân loại các đối tượng.

\ Hình 30 Bảng phân loại của mô hình

Bảng phân loại cung cấp cái nhìn rõ ràng về việc phân loại đúng và sai của các điểm dữ liệu Trong khảo sát, có 19 người dự định theo học bậc sau đại học, trong đó mô hình dự đoán chính xác 15 người có ý định học và 4 người không có ý định học.

Trong số những người được khảo sát, có 11 người không có kế hoạch học bậc sau đại học Mô hình dự đoán cho thấy 4 người trong số đó có ý định học tiếp, trong khi 7 người không có dự định theo học.

- Từ bảng phân loại ta tính được giá trị True Positive Rate(TPR) và Fale Positve Rate(FPR), Accuracy

Hình 31 Bảng giá trị True Positive và Fale Positve

Giá trị AUC đạt 0.827 cho thấy trong 100 người, có 83 cặp quan sát (một người có dự định học bậc sau đại học và một người không) có xác suất dự đoán của người có dự định học cao hơn người không có dự định AUC là chỉ số quan trọng để đánh giá hiệu quả phân loại của mô hình.

Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mô hình dự báo phân loại không tốt

Hình 32 Bảng diễn giải ý nghĩa AUC

Kết luận cho thấy rằng điểm trung bình tích lũy tại đại học có mối liên hệ chặt chẽ và ảnh hưởng đáng kể đến ý định theo học bậc sau đại học.

Colleges and Universities

Mô hình thu thập dữ liệu bao gồm 49 dòng dữ liệu về điểm của các trường học, với mục tiêu sử dụng phân tích hồi quy để xác định mối liên hệ giữa điểm trung bình SAT (Median SAT) và tỷ lệ tốt nghiệp Dữ liệu về điểm trung bình SAT và tỷ lệ tốt nghiệp được trình bày trong file Colleges and Universities, như thể hiện trong bảng dưới đây.

Hình 33 Bảng diễn giải ý nghĩa AUC Trong đó:

- Điểm trung bình SAT phụ thuộc vào tỷ lệ tốt nghiệp

 Biến phụ thuộc: Median SAT

- Yêu cầu bài toán: Xác định mức độ ảnh hưởng của tỷ lệ tốt nghiệp đến điểm thi trung bình của SAT

- Mối quan hệ giữ các biến phụ thuộc và biến độc lập:

 Mối quan hệ giữa Graduation % và Median SAT:

Hình 34: Mối quan hệ giữa Graduation % và Median SAT

Khi tỷ lệ tốt nghiệp tại các trường đại học gia tăng, điểm trung bình SAT cũng có xu hướng tăng theo, cho thấy mối quan hệ đồng biến giữa hai yếu tố này Điều này chỉ ra rằng hệ số dự đoán của tỷ lệ tốt nghiệp (Graduation %) có giá trị dương.

Hình 35: Tính bằng công cụ Excel thông qua Data Analysis

- Tính toán lại và giải thích các giá trị:

 SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung bình

 SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát

 SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình

 Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó cũng được dùng tương tự như R Square Trong thực tế người ta dùng Adjusted R Square nhiều

Adjusted R Square có độ chính xác cao hơn R Square nhờ vào việc tính thêm các tham số n và k Khi giá trị của Adjusted R Square càng gần 1, mô hình hồi quy càng cho thấy sự phù hợp tốt hơn.

 MSR: trung bình chênh lệch tổng bình phương sai số giải thích được bằng mô hình

 MSE: trung bình chênh lệch tổng bình phương các phần dư

Sai số tiêu chuẩn của hồi quy, hay còn gọi là sai số tiêu chuẩn của ước lượng, phản ánh khoảng cách trung bình giữa các giá trị quan sát và đường hồi quy Giá trị sai số càng nhỏ cho thấy các biến quan sát nằm gần đường hồi quy hơn, điều này càng tốt cho mô hình Để tính sai số tiêu chuẩn của hồi quy, bạn có thể sử dụng Excel.

 Anova df SS MS F Significane F

49 Phân tích dữ liệu kinh doanh – IS403.M22 df SS MS F Significane F

- Tìm phương trình hồi quy

Hình 36: Tính toán bằng ma trận

 Ta thu được kết quả

Median SAT = 867.932 + 4.747 ∗ Graduation % Trong đó:

 β = 4.747 : Lương sẽ tăng trung bình 4.747 điểm đối với mỗi phần tram tỉ lệ tốt nghiệp tăng thêm

 Bước 1: Tính Standard Error for Slope thông qua công thức:

Hình 37: Tính Standard Error for Slope

 Bước 2: Tìm Standard Error of Intercept thông qua công thức

Hình 38: Kết quả khi tính Standard error của hệ số gốc

Coefficients Standard Error Intercept 867.931512 84.69323628 Graduation % 4.747084068 1.013432224

 Bước 1: Tính t-Stat bằng công thức

 Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value

Coefficients Standard Error t Stat p-value

Standard Error Standard Error = √MSE √2735.08337624306 52.2980245921685

 R 2 = 0.3182: 31.82% biến động của lương được giải thích bởi số năm kinh nghiệm và điểm đánh giá năng lực

Biến độc lập trong bài toán này ảnh hưởng đến 34.82% sự thay đổi của biến phụ thuộc, trong khi 68.18% còn lại là do các yếu tố bên ngoài mô hình và sai số ngẫu nhiên.

 Ta kiểm tra bằng excel thông qua hàm T.INV( , n − (k + 1))

 Cách 1: t và t nằm ngoài khoảng (−2.012, 2.012) nên bác bỏ

 Có đủ bằng chứng để kết luận tỷ lệ tốt nghiệp (Graduation %) có ảnh hưởng đến điểm tủng bình SAT (Median SAT) với mức ý nghĩa α 0.05

 Khi biến Graduation % tăng thì Median SAT cũng tăng

 H : β = 0 (R = 0): hệ số của tỷ lệ tốt nghiệp không giải thích cho biến điểm trung bình SAT

 H : β ≠ 0 (R ≠ 0): hệ số của tỷ lệ tốt nghiệp giải thích cho biến lương

 Trị giới hạn: α df = k df = n − (k + 1)

 Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α , k, n − (k + 1) 4.047

 Cách 2: p-value < 0.05 nên chấp nhận H

 Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay biến Graduation % tác động đến biến Median SAT b Tính bằng R

 Bước 2: Kiểm tra dữ liệu vừa đọc

Hình 44: Kiểm tra dữ liệu

 Bước 3: Dùng hàm lm và chọn các giá trị phù hợp để biểu diễn mô hình hồi quy tuyến tính

Hình 45: Lập bảng thông số trên R

 Nhìn vào Coefficients ta thấy Pr(>|t|) của các biến Graduation < 0.05 nên ta không cần loại bỏ các đặc trưng ảnh hưởng đến ý nghĩa của mô hình

 Nhìn vào độ tương quan R-squared và Adjusted R-squared, ta thấy cả hai giá trị đều nhỏ hơn 0.5 nên mô hình sau yếu

 Bước 5: Mô hình hồi quy tuyến tính

Hình 46: Mô hình hồi quy tuyến tính của trên R

 Kết quả tính toán trên R giống với Excel

59 Phân tích dữ liệu kinh doanh – IS403.M22 c Tính bằng Python

 Bước 1: Import các thư viện cần thiêt

Hình: Các thư viện cần dùng

Hình: Đọc dữ liệu từ dataset

 Bước 3: Kiểm tra dữ liệu

Hình 47: Hiển thị 5 dòng đầu tiên của tập dữ liệu

 Bước 4: Lấy ra biến phụ thuộc Median SAT và biến độc lập Graduation %

Hình: Tạo biến độc lập và biến phụ thuộc

 Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mô hình theo biến X và Y

Hình 48: Xây dựng mô hình với biến độc lập Graduation % và biến phụ thuộc

 Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính

Hình 50: Hệ số gốc riêng phần

Hình 52: Cú pháp xây dựng bảng thống kê

 Kết quả tính toán của Python giống với R và Excel

Hồi quy phi tuyến đa biến với dữ liệu thực tế tùy chọn về/của Việt Nam

Hàm hồi quy thường được coi là tuyến tính, với tham số nghiêng là hằng số, điều này có nghĩa là ảnh hưởng lên YY từ một đơn vị thay đổi của XX không phụ thuộc vào giá trị của XX Tuy nhiên, nếu ảnh hưởng này thực sự phụ thuộc vào giá trị của XX, chúng ta cần áp dụng hàm hồi quy phi tuyến để phản ánh đúng mối quan hệ này.

Sức khỏe là yếu tố quan trọng nhất trong cuộc sống của mỗi người, vì nó giúp chúng ta thực hiện những mục đích và lý tưởng riêng Đặc biệt, trong bối cảnh đất nước đã trải qua một đại dịch kéo dài, tầm quan trọng của đội ngũ y tế và cơ sở vật chất trở nên rõ ràng hơn bao giờ hết Trong thời gian cao điểm của đại dịch, số lượng giường bệnh và nhân viên y tế không đủ để đáp ứng nhu cầu điều trị cho bệnh nhân Do đó, nhóm nghiên cứu đã chọn dữ liệu về số lượng bác sĩ, y sĩ và giường bệnh tại từng tỉnh thành của Việt Nam vào năm 2014 để phân tích và đưa ra những giải pháp cần thiết.

Với độ tin cậy 95%, bài toán đặt ra là xác định mối quan hệ giữa số giường bệnh và số bác sĩ, y sĩ tại bệnh viện Dữ liệu liên quan sẽ được trình bày dưới đây để phục vụ cho việc phân tích này.

- Số giường bệnh của bệnh viện phụ thuộc vào:

⇨ Biến độc lập: Bác sĩ, Y sĩ

⇨ Biến phụ thuộc: Số giường bệnh

- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh viện đến số lượng giường bệnh

- Với độ tin cậy 95% nên có mức ý nghĩa ∝ = 0.05

- Giả thuyết 𝐻 : Mô hình hồi quy phi tuyến không phù hợp

- Đối thuyết 𝐻 : Mô hình hồi quy phi tuyến phù hợp

64 Phân tích dữ liệu kinh doanh – IS403.M22 b Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel

Để phân tích dữ liệu y tế Việt Nam năm 2014, bước đầu tiên là tính giá trị ln() cho các biến độc lập BacSi và Ysi bằng hàm log() Tiếp theo, chọn Data -> Data analyst, sau đó chọn Regression Nhập các giá trị X và Y vào, cùng với vị trí hiển thị kết quả.

Hình 55: Cách nhập dữ liệu vào Excel

- Bước 3: Nhấn OK Kết quả hiện ra như sau

Hình 56: Kết quả dữ liệu

● R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình

● R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá tốt

● Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 Nên mô hình hồi quy phù hợp với tổng thể

Có đủ bằng chứng để kết luận hàm hồi quy phi tuyến phù hợp hay có hai biến độc lập tác động đến biến phụ thuộc Y (Số giường bệnh)

● Mối quan hệ giữa Bác sĩ và giường bệnh

Khi số lượng bác sĩ gia tăng, số giường bệnh cũng tăng theo, cho thấy mối quan hệ đồng biến giữa hai thuộc tính này Điều này có nghĩa là hệ số dự đoán cho số giường bệnh sẽ có giá trị dương.

● Mối quan hệ giữa Bác sĩ và giường bệnh

Hình 58: Mối quan hệ giữa y sĩ và giường bệnh

Khi số lượng y sĩ gia tăng, số giường bệnh cũng tăng theo, cho thấy mối quan hệ giữa hai yếu tố này là đồng biến Điều này có nghĩa là hệ số dự đoán cho số giường bệnh sẽ có giá trị dương.

 t , = 1.9955 trong bảng phân phối Student

 Ta kiểm tra bằng excel thông qua hàm T.INV( , n − (k + 1))

 Cách 1: t và t nằm ngoài khoảng (−1.9955, 1.9955) nên bác bỏ H

 Có đủ bằng chứng để kết luận BacSi và Ysi có ảnh hưởng đến số GiuongBenh với mức ý nghĩa α = 0.05

 Khi biến BacSi hoặc YSi tăng thì GiuongBenh cũng tăng

 H : β = β = 0 (R = 0): hệ số của số năm kinh nghiệm, điểm thi đánh giá không giải thích cho biến lương

 H : β + β ≠ 0 (R ≠ 0): hệ số của số năm kinh nghiệm, điểm thi đánh giá giải thích cho biến lương

 Trị giới hạn: α df = k df = n − (k + 1)

 Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α , k, n − (k + 1) 3.13

Có đủ bằng chứng cho thấy hàm hồi quy mẫu phù hợp và ít nhất một biến độc lập ảnh hưởng đến biến phụ thuộc GiuongBenh Để xác định mối quan hệ này, cần thực hiện phép tính hồi quy phi tuyến đa biến trên phần mềm R.

Một cách khác để quy cách hàm số phi tuyến là dùng hàm logarithm lên biến

● Trường hợp 1: Logarithm X, mô hình trở thành: o Trong R ta dùng hàm log() để thể hiện logarithm:

Mô hình hồi quy dạng Logarithm cho kết quả R square đạt 0.5813, cho thấy 58,13% dữ liệu phù hợp với mô hình Giá trị R square Adjusted là 0,569, cho thấy nghiên cứu được đánh giá tốt khi R square > 50% Hơn nữa, giá trị p-Value là 0.0379 và 0.0356, đều nhỏ hơn 0.05, khẳng định tính ý nghĩa thống kê của mô hình.

Dựa vào bảng kết quả Coefficients, với mức ý nghĩa sig < 0.05 cho mỗi mô hình, chúng ta có thể từ chối giả thuyết H0 và chấp nhận tất cả các mô hình hồi quy phi tuyến phù hợp với tổng thể.

⇨ Kết luận: Chỉ cần tăng thêm 1 bác sĩ và y sĩ sẽ tăng được trung bình

● Trường hợp 2: Logarithm Y, mô hình trở thành:

Mô hình hồi quy Logarithm cho kết quả R square đạt 0.5752, cho thấy 57,52% dữ liệu phù hợp với mô hình Giá trị R square Adjusted là 0.5627, cho thấy nghiên cứu được đánh giá tốt khi R square > 50% Ngoài ra, với p-Value = 0.00775 < 0.05, mô hình này có ý nghĩa thống kê, trong khi giá trị p-Value = 0.22033 cho thấy không có ý nghĩa rõ ràng.

< 0.05 => Từ chối H 0 Nên mô hình hồi quy phi tuyến phù hợp với tổng thể o Dựa vào bảng kết quả Coefficients

▪ Ta có mỗi Model đều có sig < 0.05 Nên ta chấp nhận tất cả các model

▪ Ta có mô hình: ln(GiuongBenh) = (8.162e+00) + (1.941e-04)*BacSi +( - 8.650e-05)*Ysi

● Trường hợp 3: Logarithm X và Y, mô hình trở thành:

Kết quả mô hình hồi quy Logarithm dạng 3 cho thấy R square đạt 0.9667, tức là 96,67% dữ liệu phù hợp với mô hình R square Adjusted là 0,9657, cho thấy nghiên cứu được đánh giá tốt khi giá trị này vượt 50% Hơn nữa, với p-Value < 2e-16 và p-Value = 0.00026 < 0.05, kết quả này khẳng định tính khả thi của mô hình.

Từ chối H 0 Nên mô hình hồi quy phi tuyến phù hợp với tổng thể o Dựa vào bảng kết quả Coefficients

▪ Ta có mỗi Model đều có sig < 0.05 Nên ta chấp nhận tất cả các model

▪ Ta có mô hình: ln(GiuongBenh) = (1.56304) + (0.78592)*ln(BacSi) +(0.20932)*ln(YSi)

● Vẽ hình mối quan hệ giữa bác sĩ và giường bệnh trong R

● Vẽ hình mối quan hệ giữa y sĩ và giường bệnh

Hình 63: Mối quan hệ giữa y sĩ và giường bệnh

74 Phân tích dữ liệu kinh doanh – IS403.M22 d Thực hiện phép tính Hồi quy phi tuyến đa biến trong Python

- Bước 2: Nhập dữ liệu vào

- Bước 3: Tính hàm log cho các biến độc lập như BacSi và Ysi

- Bước 4: Lấy ra biến phụ thuộc GiuongBenh và biến độc lập BacSi và YSi

- Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mô hình theo biến X và Y

- Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính

- Bước 7: Xuất ra kết quả Cú pháp xây dựng bảng thống kê

● Kết quả tính toán của Python giống với R và Excel

Kết luận cho thấy rằng các yếu tố con người và cơ sở vật chất của bệnh viện có mối liên hệ chặt chẽ và ảnh hưởng lẫn nhau Để nâng cao chất lượng dịch vụ và cải thiện số lượng giường bệnh, việc tăng cường đội ngũ y tế, bao gồm bác sĩ và y sĩ, là điều cần thiết.

Hồi quy Logistic với dữ liệu thực tế tùy chọn về/của Việt Nam

a Phát biểu bài toán (hay vấn đề) cần giải quyết

Mặc dù Việt Nam và thế giới đã có những dấu hiệu ổn định sau đại dịch Covid-19, nhưng mối nguy hiểm từ dịch bệnh vẫn chưa chấm dứt, với trung bình 7 ca tử vong mỗi ngày trong tuần qua tại Việt Nam.

Hình 64: Bảng số liệu thống kê số người tử vong tại Việt Nam trong vòng 6 tháng, với số liệu trung bình ghi nhận trong 7 ngày gần nhất 1

Nhịp sống tù động do Covid gây ra nhiều nguy hiểm, ảnh hưởng gián tiếp đến nền kinh tế và xã hội Việt Nam Để khắc phục tình trạng này, Việt Nam đã triển khai nhiều chính sách bình thường hóa, như kết hợp làm việc trực tiếp và online, mở cửa siêu thị nhưng vẫn khuyến khích dịch vụ giao hàng tận nhà, cũng như tổ chức học trực tuyến và trực tiếp.

1 https://www.google.com/search?sxsrf=APq-WBsC6Bvix-

Xin lỗi, nhưng tôi không thể truy cập nội dung từ liên kết mà bạn cung cấp Tuy nhiên, nếu bạn có thể chia sẻ nội dung cụ thể hoặc các điểm chính của bài viết, tôi sẽ rất vui lòng giúp bạn viết lại nó theo yêu cầu của bạn.

Phân tích dữ liệu kinh doanh trong bối cảnh IS403.M22 cho thấy rằng môi trường làm việc tại nhà và trực tuyến vẫn gặp nhiều khó khăn, ảnh hưởng đến hiệu suất công việc và kết quả Tuy nhiên, nỗi lo về sự an toàn của con người vẫn là một rào cản lớn đối với quyết định của cá nhân và tổ chức.

Nếu chúng ta có khả năng nhận diện được những tuýp người có nguy cơ tử vong cao, chúng ta sẽ có cơ sở vững chắc hơn để đưa ra những quyết định chính xác và giảm thiểu sai lầm.

Nghiên cứu này nhằm xem xét tác động của tuổi tác đối với tỷ lệ tử vong của người Việt Nam, tập trung vào dữ liệu ca mắc Covid-19 tại Đà Nẵng ghi nhận vào lúc 9h ngày 23/9/2020 Chúng tôi thực hiện phân tích hồi quy logistic để đánh giá xác suất tử vong theo từng độ tuổi của các ca Covid-19 Dữ liệu đã được lọc và xử lý, tạo thành hai cột quan trọng: tuổi (Age) và tình trạng tử vong/đã khỏi bệnh (Status).

Hình 65: Một số mẫu dữ liệu

Nêu các bước tiến hành và tính lại các giá trị trong bảng kết quả b Excel

Hình 66: Đầu tiên ta chọn Data Analysis, sau đó chọn Regression.

Hình 67: Tư bảng kết quả, ta lấy kết quả của hai hệ số intercept/age làm hệ số khởi tạo cho phương trình tuyến tính của hàm log.

Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính ra kết quả cho cột C.

Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa trên phương trình tuyến tính được khởi tạo.

Hình 10: Tiếp theo ta tính con số xác suất Likelihood dựa trên nhãn thực tế đã biết.

Hình 71: Tiếp theo ta tính log của likelihood.

Hình 72: Sau đó ta tính tổng của tất cả giá trị của dòng log likelihood này.

Hình 73: Ta dùng công cụng Solver trong Analysis trong Data để cập nhật lại hệ số từ hai hệ số đã khởi tạo.

Hình 74: Dòng “Set Objective” ta bỏ vào giá trị của tổng giá trị log likelihood, dòng "By Changing

Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần cập nhật

Hình 75: Hai hệ số của hàm Logistic đã được cập nhật thành 0;0 Chi tiết phân tích sẽ trình bày ở phần sau.

83 Phân tích dữ liệu kinh doanh – IS403.M22 c Bằng R

Hình 76: Đầu tiên ta đọc file csv và đính kèm giá trị vừa đọc vào chương trình bằng lệnh attach.

Để thực hiện hồi quy logistic, chúng ta sử dụng hàm glm với biến phụ thuộc là Status và biến độc lập là Age Kết quả được hiển thị bằng lệnh summary.

Hình 78: Bảng kết quả sau khi thực hiện hồi quy logistic.

Hình 79: Dùng các lệnh sau để vẽ đường cong logistic theo các hệ số vừa tìm được

Hình 80: Biểu diễn các điểm dữ liệu và đường cong logistic. d Bằng Python

Hình 81: Cài đặt các thư viện cần thiết và đọc file dữ liệu vào chương trình.

Để đọc dữ liệu vào một biến dạng numpy array, chúng ta cần tiến hành reshape dữ liệu của biến độc lập thành mảng hai chiều, nhằm đảm bảo tính tương thích với đầu vào của thuật toán.

Hình 83: Tạo model bằng hàm LogisticRegression, sau đó tiến hành huấn luyện bằng lệnh fit với hai đối số là X và y.

Hình 84: Sau đó ta in hai giá trị hệ số của mô hình đã học ra. e Giải thích và kết luận

Hàm logistic được sử dụng để tính xác suất xảy ra của một biến cố dựa trên một biến số cụ thể Trong bối cảnh này, chúng tôi nghiên cứu xác suất tử vong của một người dựa trên độ tuổi của họ Hàm logistic tính toán xác suất này như sau:

1 + 𝑒 Với 𝑎 + 𝑏 𝑥 là phương trình tuyến tính có x là giá trị tuổi của người mắc Covid và 𝑎, 𝑏 là hai hệ số cần tìm

Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu được hệ số với a (intercept) là -6,43021 và b (age) là 0.08

Hình 85: Bảng kết quả khi thực nghiệm trên ngôn ngữ R.

Khi thao tác với Python, chúng tôi nhận thấy với mỗi giá trị C khác nhau ta thu được các hệ số khác nhau như sau:

Hình 86: Hệ số tìm được khi đặt giá trị C 0

Hình 2: Hệ số tìm được khi đặt giá trị C 0

Hình 87: Hệ số khi đặt C bằng 90 sẽ gần giống với kết quả khi thực nghiệm trên R

C là hệ số đảo ngược của regularization, một tham số phạt trong các mô hình máy học nhằm hạn chế tình trạng overfitting Overfitting xảy ra khi mô hình thể hiện quá tốt trên dữ liệu huấn luyện nhưng lại kém hiệu quả trên dữ liệu thực tế.

Sau khi thực nghiệm trên Excel, chúng tôi nhận được hai giá trị hệ số bằng 0 Chúng tôi đã áp dụng hai hệ số này vào dữ liệu Excel bằng ngôn ngữ R và Python để kiểm tra Kết quả cho thấy, chỉ đến tuổi 84, xác suất tử vong mới vượt ngưỡng 50, với chỉ 8/247 mẫu đạt được điều này Do đó, kết luận từ mô hình cho thấy hai hệ số là (0,0) có thể được giải thích bởi sự thiếu hụt dữ liệu nghiêm trọng.

Phân tích dữ liệu kinh doanh – IS403.M22 cho thấy việc đưa ra khả năng tử vong bằng 0 cho bất kỳ độ tuổi nào là hợp lý, dựa trên dữ liệu hiện có Trong tổng số 247 trường hợp, chỉ có 8 trường hợp bị phán đoán sai, trong khi 239 trường hợp còn lại được xác định là đúng theo mô hình với hệ số (0,0).

Giá trị xác suất tử vong liên quan đến tuổi tác khi áp dụng hai phương pháp trước Dòng màu đỏ đại diện cho ngưỡng 50% đầu tiên, trong khi dòng màu xanh dương thể hiện thử nghiệm của chúng tôi nhằm xác định độ tuổi có khả năng 90% mắc COVID-19 sẽ dẫn đến tử vong.

Để nâng cao tính khách quan

Tiêu đề	Phân Tích Dữ Liệu Kinh Doanh
Tác giả	Lê Thị Ái Nhi, Lê Hữu Thắng, Trịnh Thị Thanh Trúc, Đặng Vũ Phương Uyên, Nguyễn Thị Thu Phương
Người hướng dẫn	PGS. Nguyễn Đình Thuân, KS. Nguyễn Minh Nhựt
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa Hệ thống thông tin
Thể loại	báo cáo
Năm xuất bản	2022
Thành phố	TP.HCM

Định dạng
Số trang	92
Dung lượng	7,74 MB