Trước hết ta có hàm logistic dùng để tính xác suất sảy ra của một biến cố dựa trên một biến số nào đó. Trong bài tốn này, chúng tơi đang xét biến cố một người có tử vong hay khơng dữa trên biến số là tuổi tác của họ. Vậy hàm logistic tính xác suất trên được phát biểu như sau:
𝑝 = 𝑒
.
1 + 𝑒 .
Với 𝑎 + 𝑏. 𝑥 là phương trình tuyến tính có x là giá trị tuổi của người mắc Covid và 𝑎, 𝑏 là hai hệ số cần tìm.
Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu được hệ số với a (intercept) là -6,43021 và b (age) là 0.08.
86 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 85: Bảng kết quả khi thực nghiệm trên ngôn ngữ R.
Khi thao tác với Python, chúng tôi nhận thấy với mỗi giá trị C khác nhau ta thu được các hệ số khác nhau như sau:
87 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 2: Hệ số tìm được khi đặt giá trị C =20.0
Hình 87: Hệ số khi đặt C bằng 90 sẽ gần giống với kết quả khi thực nghiệm trên R.
Theo tìm hiểu, C sẽ là hệ số đảo ngược của regularization. Trong đó, regularization là một dạng tham số phạt trong các mơ hình máy học giúp hạn chế tình trạng overfitting của mơ hình đầu ra. Overfitting là tình trạng mơ hình sau khi được huấn luyện thể hiện quá tốt trên dữ liệu được huấn luyện trong khi đó lại thể hiện quá kém trên dữ liệu thực tế.
Tiếp theo xét về giá trị hệ số tìm được bằng cách thực nghiệm trên Excel, cụ thể chúng tôi nhận về hai giá trị đều bằng 0. Chúng tôi tiến hành áp thử hai hệ số đã tìm được trong hai phương pháp thực nghiệm bằng ngơn ngữ R và Python ở trên vào dữ liệu bảng của excel để xem xét. Sau khi nhìn nhận về xác suất trả về của từng giá trị tuổi, chúng tôi nhận định trường hợp hệ số trả về của mơ hình là (0,0) này có thể giải thích do dữ liệu mà mơ hình bị mất cần bằng nặng nề. Cụ thể trong tất cả độ tuổi thu thập được (từ 1 đến 95) thì đến tận số tuổi là 84 mới có xác suất tử vong vượt ngưỡng 50 và chỉ có 8/247 mẫu vượt qua ngưỡng này. Vậy nên dựa trên dữ liệu đưa vào excel, mơ hình đầu ra kết luận hai hệ số là (0,0) tương đương
88 Phân tích dữ liệu kinh doanh – IS403.M22
với việc bất kì độ tuổi nào đưa vào khả năng tử vong cũng bằng 0 là khá hợp lý trên những gì dữ liệu có được. Bởi chỉ có 8/247 trường hợp (theo hệ số mượn từ hai phương pháp trên) bị phán đốn sai mà thơi cịn lại 239 trường hợp vẫn được xem là đúng trên mơ hình có hệ số là (0,0) này.
Hình 88: Giá trị xác suất tử vong hay khơng phụ thuộc vào giá trị tuổi khi được áp dụng hệ số từ hai phương pháp trước. Trong đó, dịng tơ màu đỏ là dòng đầu tiên vượt ngưỡng 50%, dịng xanh dương là dịng thử nghiệm chúng tơi đưa vào để xem ở mức tuối nào có khả năng 90% mắc
covid sẽ tử vong.
Từ kết luận trên chúng tơi cũng đưa ra được giải pháp để tăng tính khách quan cũng như độ chính xác của mơ hình đầu ra như sau: một là xem xét hệ số phạt (regularization) để tránh được tình trạng mơ hình chỉ nhìn được các trường hợp cụ thể trên dữ liệu mà khơng có tính khách quan trên dữ liệu thực tế; hai là ta phải cố gắng thu thập nhiều mẫu dữ liệu nhất có thể để mơ hình khơng bị giới hạn trong một phạm vi đặc tính cụ thể nào cả.
89 Phân tích dữ liệu kinh doanh – IS403.M22
Hình 89: Khi tăng 1 tuổi khả năng ta bị tử vong do covid sẽ tăng 1,08 lần.
7. Bảng phân công công việc
Ái Nhi Phương Uyên Thu Phương Thanh Trúc Hữu Thắng Câu 3a X Câu 3b X Câu 3c X Câu 4d X X X X X Câu 4e X Câu 4f X