-Bước 1 : Từ dữ liệu về y tế của Việt Nam năm 2014, ta tiến hành tính giá trị ln() cho các biến độc lập BacSi, Ysi bằng hàm log() để thể hiện logarithm.- Bước 2: Chọn Data -> Data analyst. Tiếp đó chọn Regression. Nhập các giá trị X, Y đầu vào và vị trí hiện đáp án như sau.
Hình 55: Cách nhập dữ liệu vào Excel - Bước 3: Nhấn OK. Kết quả hiện ra như sau.
65 Phân tích dữ liệu kinh doanh – IS403.M22
● R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mơ hình
● R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá tốt.
● Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 . Nên mơ hình hồi quy phù hợp với tổng thể.
● Ta có mơ hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
● Kết luận:
Có đủ bằng chứng để kết luận hàm hồi quy phi tuyến phù hợp hay có hai biến độc lập tác động đến biến phụ thuộc Y (Số giường bệnh).
● Mối quan hệ giữa Bác sĩ và giường bệnh
Hình 57: Mối quan hệ giữa bác sĩ và giường bệnh
● Nhận xét: Khi số lượng bác sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh mang giá trị dương.
66 Phân tích dữ liệu kinh doanh – IS403.M22
● Mối quan hệ giữa Bác sĩ và giường bệnh
Hình 58: Mối quan hệ giữa y sĩ và giường bệnh
● Nhận xét: Khi số lượng y sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh mang giá trị dương.
Kiểm định fisher
- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong mơ hình. Giả thuyết: H : β = 0 H : β ≠ 0 Trị giới hạn α df = n − (k + 1) 0.05 68 t .
, = 1.9955 trong bảng phân phối Student
Ta kiểm tra bằng excel thông qua hàm T.INV( , n − (k + 1))
67 Phân tích dữ liệu kinh doanh – IS403.M22
Trị thống kê: Coefficients Standard Error t-stat p-value BacSi 12576.02998 5940.571333 2.116973146 0.0379234 YSi 12527.92038 6151.036997 2.036716798 0.045574357 Quy tắc bác bỏ H :
Cách 1: t và t nằm ngoài khoảng (−1.9955, 1.9955) nên bác bỏ H
Cách 2: p-value < 0.05 nên chấp nhận H
Kết luận:
Có đủ bằng chứng để kết luận BacSi và Ysi có ảnh hưởng đến số GiuongBenh với mức ý nghĩa α = 0.05
- Khoảng ước lượng của các tham số hồi quy trong mơ hình
BacSi: β ∈ ( 12576.02998 ± 1.9955 ∗ 5940.571333)
Khoảng tin cậy 721.62 < β < 24430.4
Score: β ∈ ( 12527.92038 ± 1.9955 ∗ 6151.036997)
Khoảng tin cậy 253.53< β <24802.31
Kết luận:
Khi biến BacSi hoặc YSi tăng thì GiuongBenh cũng tăng. - Với mức ý nghĩa 0.05, mơ hình có phù hợp hay khơng?
Đặt giả thuyết:
H : β = β = 0 (R = 0): hệ số của số năm kinh nghiệm, điểm thi đánh giá khơng giải thích cho biến lương.
H : β + β ≠ 0 (R ≠ 0): hệ số của số năm kinh nghiệm, điểm thi đánh giá giải thích cho biến lương.
Trị giới hạn:
α df = k df = n − (k + 1)
0.05 2 68
F . , , = 3.13 trong bảng phân phối F.
Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α , k, n − (k + 1) = 3.13
68 Phân tích dữ liệu kinh doanh – IS403.M22
Trị thống kê: F = = . . = 47.206 Quy tắc bác bỏ H : Cách 1: F > F . , , nên bác bỏ H Cách 2: p-value < 0.05 nên chấp nhận H Kết luận:
Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay có ít nhất một biến độc lập tác động đến biến phụ thuộc GiuongBenh. c. Thực hiện phép tính Hồi quy phi tuyến đa biến trên R.
Một cách khác để quy cách hàm số phi tuyến là dùng hàm logarithm lên biến Y/(và)X.
● Trường hợp 1: Logarithm X, mơ hình trở thành:
69 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 59: Kết quả mơ hình hồi quy dạng Logarithm
o R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mơ hình
o R square Adjusted = 0,569 => R square > 50% nghiên cứu được đánh giá tốt.
o Vì giá trị p-Value = 0.0379 < 0.05 và giá trị p-Value = 0.0356 < 0.05 => Từ chối H0. Nên mơ hình hồi quy phi tuyến phù hợp với
tổng thể.
o Dựa vào bảng kết quả Coefficients
o Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các model. ▪ Ta có mơ hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi) ⇨ Kết luận: Chỉ cần tăng thêm 1 bác sĩ và y sĩ sẽ tăng được trung bình
12551 giường bệnh.
70 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 60: Kết quả mơ hình hồi quy dạng Logarithm dạng 2
o R square = 0.5752 => Có 57,52% dữ liệu phù hợp với mơ hình
o R square Adjusted = 0,5627 => R square > 50% nghiên cứu được đánh giá tốt.
o Vì giá trị p-Value = 0.00775 < 0.05 và giá trị p-Value = 0.22033 < 0.05 => Từ chối H0. Nên mơ hình hồi quy phi tuyến phù hợp với tổng thể.
o Dựa vào bảng kết quả Coefficients
▪ Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các model.
▪ Ta có mơ hình:
ln(GiuongBenh) = (8.162e+00) + (1.941e-04)*BacSi +( - 8.650e-05)*Ysi
71 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 61: Kết quả mơ hình hồi quy dạng Logarithm dạng 3
o R square = 0.9667 => Có 96,67% dữ liệu phù hợp với mơ hình
o R square Adjusted = 0,9657 => R square > 50% nghiên cứu được đánh giá tốt.
o Vì giá trị p-Value < 2e-16 và giá trị p-Value = 0.00026<0.05 =>
Từ chối H0. Nên mơ hình hồi quy phi tuyến phù hợp với tổng
thể.
o Dựa vào bảng kết quả Coefficients
▪ Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các model.
▪ Ta có mơ hình:
ln(GiuongBenh) = (1.56304) + (0.78592)*ln(BacSi) +(0.20932)*ln(YSi)
72 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 62: Mối quan hệ giữa bác sĩ và giường bệnh ● Vẽ hình mối quan hệ giữa y sĩ và giường bệnh
73 Phân tích dữ liệu kinh doanh – IS403.M22
74 Phân tích dữ liệu kinh doanh – IS403.M22
d. Thực hiện phép tính Hồi quy phi tuyến đa biến trong Python - Bước 1: Import thư viện. - Bước 1: Import thư viện.
- Bước 2: Nhập dữ liệu vào.
- Bước 3: Tính hàm log cho các biến độc lập như BacSi và Ysi.
75 Phân tích dữ liệu kinh doanh – IS403.M22
- Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mơ hình theo biến X và Y.
- Bước 6: Lấy các giá trị thông dụng của mơ hình hồi quy tuyến tính ● Hệ số chắn
● Hệ số thành phần
● Giá trị R-squared
76 Phân tích dữ liệu kinh doanh – IS403.M22
● Kết quả:
● Bước 8: Kết luận:
● Kết quả tính tốn của Python giống với R và Excel.
● Ta có mơ hình:
77 Phân tích dữ liệu kinh doanh – IS403.M22
● Kết luận: Từ kết luận trên chúng tôi cũng đưa ra được là các yếu tố về con người
và cơ sở vật chất của bệnh viện đều có liên quan và ảnh hưởng đến nhau. Cho nên để có một chất lượng tốt hơn cũng như là cải thiện số lượng giường bệnh tại bệnh viện, chúng ta nên tăng số lượng về đội ngũ y tế như là bác sĩ, y sĩ…
6. Hồi quy Logistic với dữ liệu thực tế tùy chọn về/của Việt Nam
a. Phát biểu bài toán (hay vấn đề) cần giải quyết
Mặc dù cộng đồng thế giới nói chung cũng như Việt Nam nói riêng đã cho thấy những tín hiệu ổn định trở lại trong đại dịch Covid-19, tuy nhiên mối nguy hiểm từ dịch bệnh này vẫn chưa dừng lại, cụ thể số người tử vong trung bình trong bảy ngày qua tại Việt Nam ghi nhận con số là 7 người.
Hình 64: Bảng số liệu thống kê số người tử vong tại Việt Nam trong vịng 6 tháng, với số liệu trung bình ghi nhận trong 7 ngày gần nhất1.
Dù vậy, nhịp sống tù động do Covid cũng không kém phần nguy hiểm bởi nó ảnh hưởng gián tiếp đến nền kinh tế và xã hội của đất nước. Vì thế, Việt Nam cũng đã có nhiều chính sách bình thường hóa: Vừa đi làm trực tiếp vừa đi làm online, cho mở cửa các siêu thị chợ nhưng vẫn khuyến khích các dịch vụ đặt đồ tại nhà, vừa đi học online vừa đi học offline. Mặc dù hiển nhiên, các hoạt động diễn ra tại
1 https://www.google.com/search?sxsrf=APq-WBsC6Bvix-
JIW9Nw16BojY_2X7bviQ:1650720995255&q=s%E1%BB%91+ng%C6%B0%E1%BB%9Di+t%E1%BB%AD+v%E1%BB%8 Dng+covid+vi%E1%BB%87t+nam+h%C3%B4m+nay&lco=en:1&lr=lang_en&lrs=0&sa=X&ved=2ahUKEwjamK70pqr3 AhUYyYsBHTC4A8QQ-PEFKAB6BAgCEDQ
78 Phân tích dữ liệu kinh doanh – IS403.M22
nhà và online còn nhiều bất cập khiến hiệu suất công việc lẫn kết quả sẽ bị nhiều ảnh hưởng, tuy nhiên, sự lo sợ về tính mạng con người vẫn cịn là một rào cản lớn cho các quyết định của cá nhân hoặc tổ chức.
Vậy vấn đề đặt ra nếu chúng ta có thể nhận biết được tuýp người thuộc dạng nào thì có nguy cơ, xác suất tử vong cao ta sẽ có cơ sở vững chắc hơn để đưa ra quyết định ít sai lầm hơn.
Vì thế trong nghiên cứu này nhóm chúng tơi tiến hành xem xét tác động của tuổi tác đối với sự tử vong của người Việt Nam. Trước hết chúng tôi thực hiện với quy mô nhỏ dựa trên dữ liệu các ca mắc Covid-19 của Đà Nẵng được ghi nhận lần cuối vào lúc 9h - 23/9/2020 tại Cổng dịch vụ dữ liệu của thành phố Đà Nẵng2. Về công cụ, chúng tơi sẽ phân tích hồi quy logistic trên số tuổi của các ca Covid được ghi nhận và xem xét xác suất tử vong của từng độ tuổi là bao nhiêu. Vì thế trong dữ liệu chúng tơi đã lọc và xử lý để tạo thành hai cột cần thiết là tuổi (Age), tình trạng tử vong/đã khỏi bệnh (Status).
Hình 65: Một số mẫu dữ liệu.
79 Phân tích dữ liệu kinh doanh – IS403.M22
Nêu các bước tiến hành và tính lại các giá trị trong bảng kết quả
b. Excel
Hình 66: Đầu tiên ta chọn Data Analysis, sau đó chọn Regression.
Hình 67: Tư bảng kết quả, ta lấy kết quả của hai hệ số intercept/age làm hệ số khởi tạo cho phương trình tuyến tính của hàm log.
80 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính ra kết quả cho cột C.
Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa trên phương trình tuyến tính được khởi tạo.
81 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 71: Tiếp theo ta tính log của likelihood.
Hình 72: Sau đó ta tính tổng của tất cả giá trị của dịng log likelihood này.
Hình 73: Ta dùng cơng cụng Solver trong Analysis trong Data để cập nhật lại hệ số từ hai hệ số đã khởi tạo.
82 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 74: Dịng “Set Objective” ta bỏ vào giá trị của tổng giá trị log likelihood, dòng "By Changing Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần cập nhật
Hình 75: Hai hệ số của hàm Logistic đã được cập nhật thành 0;0. Chi tiết phân tích sẽ trình bày ở phần sau.
83 Phân tích dữ liệu kinh doanh – IS403.M22
c. Bằng R
Hình 76: Đầu tiên ta đọc file csv và đính kèm giá trị vừa đọc vào chương trình bằng lệnh attach.
Hình 77: Tiếp theo ta dùng hàm glm để thực hiện hồi quy logistic, với biến phụ thuộc là Status và biến độc lập là Age. Sau đó ta dùng lệnh summary để in ra bảng kết quả.
Hình 78: Bảng kết quả sau khi thực hiện hồi quy logistic.
84 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 80: Biểu diễn các điểm dữ liệu và đường cong logistic.
d. Bằng Python
Hình 81: Cài đặt các thư viện cần thiết và đọc file dữ liệu vào chương trình.
Hình 82: Đọc dữ liệu vào một biến dạng numpy array. Ta cũng phải tiến hình reshape dữ liệu của biến độc lập thành mảng hai chiều để phù hợp với đầu vào của thuật toán.
85 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 83: Tạo model bằng hàm LogisticRegression, sau đó tiến hành huấn luyện bằng lệnh fit với hai đối số là X và y.
Hình 84: Sau đó ta in hai giá trị hệ số của mơ hình đã học ra.
e. Giải thích và kết luận
Trước hết ta có hàm logistic dùng để tính xác suất sảy ra của một biến cố dựa trên một biến số nào đó. Trong bài tốn này, chúng tơi đang xét biến cố một người có tử vong hay khơng dữa trên biến số là tuổi tác của họ. Vậy hàm logistic tính xác suất trên được phát biểu như sau:
𝑝 = 𝑒
.
1 + 𝑒 .
Với 𝑎 + 𝑏. 𝑥 là phương trình tuyến tính có x là giá trị tuổi của người mắc Covid và 𝑎, 𝑏 là hai hệ số cần tìm.
Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu được hệ số với a (intercept) là -6,43021 và b (age) là 0.08.
86 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 85: Bảng kết quả khi thực nghiệm trên ngôn ngữ R.
Khi thao tác với Python, chúng tôi nhận thấy với mỗi giá trị C khác nhau ta thu được các hệ số khác nhau như sau:
87 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 2: Hệ số tìm được khi đặt giá trị C =20.0
Hình 87: Hệ số khi đặt C bằng 90 sẽ gần giống với kết quả khi thực nghiệm trên R.
Theo tìm hiểu, C sẽ là hệ số đảo ngược của regularization. Trong đó, regularization là một dạng tham số phạt trong các mơ hình máy học giúp hạn chế tình trạng overfitting của mơ hình đầu ra. Overfitting là tình trạng mơ hình sau khi được huấn luyện thể hiện quá tốt trên dữ liệu được huấn luyện trong khi đó lại thể hiện quá kém trên dữ liệu thực tế.
Tiếp theo xét về giá trị hệ số tìm được bằng cách thực nghiệm trên Excel, cụ thể chúng tôi nhận về hai giá trị đều bằng 0. Chúng tôi tiến hành áp thử hai hệ số đã tìm được trong hai phương pháp thực nghiệm bằng ngơn ngữ R và Python ở trên vào dữ liệu bảng của excel để xem xét. Sau khi nhìn nhận về xác suất trả về của từng giá trị tuổi, chúng tôi nhận định trường hợp hệ số trả về của mơ hình là (0,0) này có thể giải thích do dữ liệu mà mơ hình bị mất cần bằng nặng nề. Cụ thể trong tất cả độ tuổi thu thập được (từ 1 đến 95) thì đến tận số tuổi là 84 mới có xác suất tử vong vượt ngưỡng 50 và chỉ có 8/247 mẫu vượt qua ngưỡng này. Vậy nên dựa trên dữ liệu đưa vào excel, mơ hình đầu ra kết luận hai hệ số là (0,0) tương đương
88 Phân tích dữ liệu kinh doanh – IS403.M22
với việc bất kì độ tuổi nào đưa vào khả năng tử vong cũng bằng 0 là khá hợp lý trên những gì dữ liệu có được. Bởi chỉ có 8/247 trường hợp (theo hệ số mượn từ hai phương pháp trên) bị phán đốn sai mà thơi cịn lại 239 trường hợp vẫn được xem là đúng trên mơ hình có hệ số là (0,0) này.
Hình 88: Giá trị xác suất tử vong hay không phụ thuộc vào giá trị tuổi khi được áp dụng hệ số từ