Mô tả chung về dữ liệuDữ liệu được sử dụng trong đề tài này là về các chỉ số chất lượng nguồn nước củacác mẫu nước ở các vùng khác nhau, với các thông tin chi tiết về dữ liệu như sau:Chủ
Trang 1ỨNG DỤNG HỒI QUY LOGISTIC
DỰ ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC
GVHD: PGS.TS Võ Hoàng HưngTrường Đại học Bách Khoa - ĐHQG-HCM
Tháng 11 năm 2023
Trang 3Nội dung trình bày
Trang 4Mô tả chung về dữ liệu
Dữ liệu được sử dụng trong đề tài này là về các chỉ số chất lượng nguồn nước củacác mẫu nước ở các vùng khác nhau, với các thông tin chi tiết về dữ liệu như sau:
Số lượng tổng thể: 325 mẫu nước (208 mẫu nước uống được và 117 mẫu
nước không uống được)
Số lượng biến: 10 tiêu chí, bao gồm: pH, độ cứng, hàm lượng chất rắn, chloramines, sulfate, tính dẫn điện, hàm lượng carbon hữu cơ,
trihalomethanes, độ đục và tính uống được
Trang 5Mô tả biến
Biến Loại dữ liệu
(rr = rời rạc, lt = liên tục)
Tiêu chuẩn Đơn vị Mô tả
pH x ∈ R| 0 ≤ x ≤ 14, rr 6.5 ≤ x ≤ 8.5 không có Đánh giá tính acid hay
base của nước
Độ cứng x ∈ R| 47.4 ≤ x ≤ 323, rr x ≤ 300 (TCVN) mg/L Khả năng nước tạo kếttủa với xà phòng
Chất rắn x ∈ R| 321 ≤ x ≤ 61.2 · 103, rr x ≤ 500 (mong muốn)
x ≤ 1000 (tối đa) ppm
Tổng lượng chất rắn hòa tan trong nước
Chloramines x ∈ R| 0.35 ≤ x ≤ 13.1, rr x ≤ 4 ppm Lượng Chloramines trongnước
Sulfate x ∈ R| 129 ≤ x ≤ 481, rr x ≤ 250 mg/L
Lượng ion Sulfate hòa tan chảy
Tính dẫn điện x ∈ R| 181 ≤ x ≤ 753, rr x ≤ 400 µS/cm Khả năng dẫn điện củanước
Carbon hữu cơ x ∈ R| 2.2 ≤ x ≤ 28.3, rr x ≤ 4 ppm
Tổng lượng carbon trong trong nước
Trihalomethanes x ∈ R| 0.74 ≤ x ≤ 124, rr x ≤ 80 µg/L
Tổng lượng trihalomethanes trong nước
Độ đục x ∈ R| 1.45 ≤ x ≤ 6.74, rr x ≤ 5 N T U Mức độ trong suốt củanước
Tính uống được x = 0 hoặc x = 1, rr
Mức độ an toàn khi uống nước (= 1 khi uống được, = 0 khi không uống được)
Trang 6Nội dung trình bày
Trang 7Các đặc trưng của đại lượng ngẫu nhiên
Kỳ vọng: là trung bình có trọng số của tất cả các giá trị cụ thể của biến ngẫu
nhiên, ký hiệu là E(X).
Trang 8Các đặc trưng của đại lượng ngẫu nhiên
Mốt: là số có khả năng nhất của biến ngẫu nhiên, ký hiệu là mod(X)
Nếu X là BNN rời rạc có xác suất p:
Trang 9Hồi quy logistic là gì?
Hồi quy logistic là một thuật toán được ứng dụng rộng rãi trong nhiều lĩnhvực
Hồi quy logistic được xem như là một kỹ thuật phân tích dữ liệu để tìm ramối quan hệ (mối tương quan)giữa hai yếu tố dữ liệu, sau đó từ mối quan
hệ này dự đoán giá trị của những yếu tố đó dựa trên các yếu tố còn lại
Dự đoán thường cho rakết quả hữu hạn, như có hoặc không
Trang 10Các loại hồi quy logistic
Có03 cáchtiếp cận phân tích hồi quy logistic dựa trên kết quả của biến phụ thuộc:
Hồi quy logistic nhị phân
Khi kết quả (hay biến phụ thuộc) mang bản chất nhị phân - tức là chỉ có2 kếtquảcó thể xảy ra (ví dụ: có và không, 0 và 1)
Dù hàm logistic tính toán một phạm vi giá trị giữa 0 và 1, mô hình hồi quy nhịphân vẫn sẽlàm tròn kết quảđến các giá trị gần nhất
Hồi quy logistic đa thức
Khi kết quả (hay biến phụ thuộc) có 3 hoặc nhiều kết quả có thể xảy ra; tuynhiên, các kết quảkhông có thứ tự cụ thể
Hồi quy logistic thứ tự
Khi kết quả (hay biến phụ thuộc) có 3 hoặc nhiều kết quả có thể xảy ra, nhưngtrong trường hợp này, các kết quảcó thứ tự xác định
Trang 11Xây dựng mô hình hồi quy logistic
Xây dựng mô hình hồi quy logistic là phương pháp nhằmxác định mối liên hệ
giữa các biến độc lập x với biến phụ thuộc y.
Cho một tần số biến cố x ghi nhận từ n đối tượng, chúng ta có thể tính xác suất
của biến cố đó là:
P = x n
P có thể xem là mộtchỉ số đo lường nguy cơ của một biến cố
Một cách thể hiện nguy cơ khác làodds (tạm dịch odds làkhả năng) Khả năngcủa một biến cố được định nghĩa đơn giản bằng tỉ số xác suất biến cố xảy ra trênxác suất biến cố không xảy ra:
Odds = P
1− P
Trang 12x1, x2, các biến cố độc lập (như pH, độ cứng, nồng độ sulfate, )
P (y = 1 |x1, x2, ) là xác suất để trường hợp nước uống được xảy ra trong các điều kiện x1, x2,
P (y = 0 |x1, x2, ) là xác suất để trường hợp nước không uống được xảy ra xuất hiện trong các điều kiện x1, x2,
Odds là tỉ lệ xác suất giữa trường hợp y = 1 (nước uống được) với y = 0 (nước không uống được) trong các điều kiện x1, x2,
Trang 13Nếu Odds > 1 thì khả năng xảy ra cao hơn khả năng không xảy ra.
Nếu Odds = 1 thì khả năng xảy ra bằng khả năng không xảy ra
Nếu Odds < 1 thì khả năng xảy ra thấp hơn khả năng không xảy ra
Trang 14Hàm logit của P
Hàm logit của P được định nghĩa là:
logit(P ) = log b (odds) = log b
(
P
1− P
)
Trong hầu hết mọi trường hợp, cơ số b thường được dùng là số e
Mô hình hồi quy logistic được phát biểu rằng logit(P ) phụ thuộc vào giá trị của các biến cố x1, x2, độc lập (có thể là liên tục hay không liên tục) thông qua hàm
số:
logit(P ) = β0+ β1x1+ β2x2+ + β n x n (1)Trong đó:
log(Odds) hay còn được gọi là logit(p)
x1, x2, , x n là các biến cố độc lập
β1, β2, , β n là hệ số tương quan giữa các biến cố độc lập x và biến phụ thuộc y
β là hệ số tự do
Trang 15Sử dụng mô hình hồi quy logistic để dự đoán kết quả
Bằng phép biến đổi ta có:
P (y = 1 |x1, x2, ) = 1
1 + e −(β0+β1x1+β2x2+ +β n x n) (2)
Biểu thức (2) dùng để dự đoán xác suất một sự kiện xảy ra, trong trường hợp này
là khả năng nước uống được trong các điều kiện x1, x2,
Hệ số β ứng với biến x:
β > 0 : x càng lớn, xác suất để y = 1 càng lớn
β < 0 : x càng lớn, xác suất để y = 1 càng nhỏ
Trang 16Sử dụng mô hình hồi quy logistic để dự đoán kết quả
Figure:Đồ thị hàm hồi quy logistic
Trang 17Sử dụng mô hình hồi quy logistic để dự đoán kết quả
Phương pháp
Hồi quy logistic sử dụng hàm phi tuyến tính để xác định xác suất của hai lớp 0 và1:
- Phép biến đổi nhằm dự báo giá trị xác suất luôn nằm trong đoạn [0;1]
- Mô hình hồi quy logistic ước lượng các hệ số cho từng biến độc lập, cho biếtmức độ tác động của từng biến đến xác suất dự đoán Các hệ số này đượcước lượng sao cho:
Dự báo xác suất lớn cho sự kiện đó xảy ra
Dự báo xác suất nhỏ cho sự kiện đó không xảy ra
Trang 20Ma trận nhầm lẫn (confusion matrix)
Ma trận nhầm lẫn (confusion matrix) là một bảng biểu thể hiện số lượng các
quan sát được phân loại đúng hoặc sai bởi một mô hình phân loại, so với cácnhãn thực tế của chúng
Thực tế Âm tính thực Dương tính giả
0 (TN - True Negative) (FP - False Positive)
Thực tế Âm tính giả Dương tính thực
1 (FN - False Negative) (TP - True Positive)
Trang 22Đường ROC (Receiver Operating Characteristic Curve)
Đường cong ROC là một biểu đồ biểu diễn độ nhạy (Sensitivity) và độ đặc hiệu
(Specificity) của một mô hình phân loại dựa trên các giá trị ngưỡng t khác nhau.
Trong hồi quy logistic, ROC được sử dụng đểxác định giá trị ngưỡng tốt nhất
nhằm dự đoán liệu một quan sát mới là “không xảy ra” (Y = 0) hay “có xảy ra” (Y = 1).
Figure:Đồ thị đường biểu diễn ROC
Trang 23Chỉ số AUC (Area Under the ROC Curve)
AUC là diện tích nằm dưới đường cong ROC AUC là một đánh giá tổng thể vềhiệu suất của mô hình phân loại
dsffdsFigure:AUC - diện tích nằm dưới đường cong ROC (phần tô màu)
Kết luận
Giá trị AUC càng gần 1 thì mô hình phân loại càng tốt
Trang 24Nội dung trình bày
Trang 26Xem cấu trúc dữ liệu
Sử dụng lệnhstrđể xem cấu trúc dữ liệu
Nhập: str(dulieu1)
Kết quả:
Figure:Cấu trúc của bộ dữ liệu
Trang 27Đặt tên biến và làm sạch dữ liệu
Đặt lại tên cho các biến
Để đơn giản trong việc gọi các biến, chúng ta đặt lại tên các biến
colnames(dulieu1 = c( "ph", "har", "TDS", "chl", "sul", "EC",
"TOC", "THMs", "tur", "Potability" )
Kiểm tra các dữ liệu khuyết
Để đảm bảo bộ dữ liệu không có dữ liệu khuyết, ta tiến hành kiểm tra bộ dữ liệu
colSums(is.na(dulieu1))
Figure:Kết quả kiểm tra dữ liệu
Như vậy dữ liệu không có giá trị khuyết, tiếp tục làm các bước khác
Trang 28Đặt biến phân loại
Sử dụng lệnhas.factorđể phân biệt biến phân loại Potability với các biến rờirạc khác
Nhập: as.factor(dulieu1 $Potability )
Kết quả:
Figure:Đặt biến phân loại
Trang 29Nội dung trình bày
Trang 30Tóm tắt dữ liệu
Để có cái nhìn rõ hơn về bộ dữ liệu, đầu tiên chúng ta biểu diễn tổng quan dữ liệucho các biến Hiển thị tổng quan về dữ liệu bằng cách sử dụng lệnhsummary
Trang 31Biểu đồ thống kê tần số cho biến Potability
Sau khi lập bảng tần số, ta vẽ được đồ thị thống kê:
Nhận xét: số mẫu nước không uống được chiếm tần suất thấp hơn khoảng 1.8
lần mẫu nước uống được Điều này cho thấy mẫu dữ liệu không cân bằng
Trang 32Đồ thị Boxplot thể hiện phân phối các biến
Trang 33Đồ thị Boxplot thể hiện phân phối các biến
Trang 34Đồ thị Boxplot thể hiện phân phối các biến
Trang 35Đồ thị Boxplot thể hiện phân phối các biến
Nhận xét:
Độ pH (biến ph), độ cứng của nước (biến har) có các yếu tố min, max, trung
vị lệch nhau lớn trong khả năng uống được và không uống được
Từ đây, ta nhận thấy đượckhoảng chỉ số của biến ph, và biến har để nhậnđịnh khả năng uống được và không uống được của nước
Các biến còn lại hầu như độ lệch của các yếu tố min, max, trung vị khá nhỏ,khó nhận xét được trong khoảng nào thì nước có khả năng uống được haykhông uống được
Trang 36Đồ thị Histogram thể hiện phân phối các biến
Trang 37Đồ thị Histogram thể hiện phân phối các biến
Trang 38Đồ thị Histogram thể hiện phân phối các biến
Trang 39Xác định mối tương quan giữa các biến
Figure:Ma trận tương quan giữa các biến
Nhận xét: các hệ số tương quan gần 0 hơn là 1 nên các biến cótương quantrung bình, với|r XY | < 0.8 nên các biến độc lậpkhông xảy ra hiện tượng đa cộngtuyến
Trang 40Xác định mối tương quan giữa các biến
Figure:Đồ thị corrplot của dữ liệu thể hiện hệ số tương quan giữa các biến
Trang 41Nội dung trình bày
Trang 42Xây dựng mô hình hồi quy logistic
Mục tiêu: xác định có những nhân tố nào và tác động như thế nào đến khả năng
uống được của mẫu nước
Xét mô hình hồi quy logistic bao gồm:
Biến phụ thuộc: Potability
Biến độc lập: ph, har, TDS, chl, sul, EC, TOC, THMs, tur
Mô hình được biểu diễn như sau:
logit(P ) = β0+ β1· pH + β2· har + β3· T DS + β4· chl + β5· sul + β6· EC +
β7· T OC + β8· T HMs + β9· tur
Trang 43Xây dựng mô hình hồi quy logistic
Chia dữ liệu ban đầu thành 2 bộ: MXDdùng để xây dựng mô hình (65%) vàMKDdùng để kiểm định mô hình (35%)
Trang 44Xây dựng mô hình hồi quy logistic
Sử dụng lệnhstepvà tiến hành xây dựng mô hình hồi quy tối ưu thông qua
Chỉ số AIC (Akaike information criterion)
AIC = Deviance + 2.(số thông số)Trong đó, Deviance =−2
p i là xác suất tiên lượng
Đây là một tiêu chí dùng để kiểm tra mô hình cóphù hợpvới dữ liệu quan sát
không (trong hàm glm còn được gọi là Residual Deviance).
Trang 45Xây dựng mô hình hồi quy logistic
Trang 46Xây dựng mô hình hồi quy logistic
Trang 47Xây dựng mô hình hồi quy logistic
Trang 48Xây dựng mô hình hồi quy logistic
Sau 8 bước tìm mô hình bằng câu lệnh trên, độ phù hợp của mô hình càng đượccải thiện khi lần lượt loại bỏ các biến không quan trọng nhất ra khỏi mô hình chođến khi một điều kiện dừng lại được đạt được
R dừng lại với mô hìnhgồm 2 biến har và TOCvì cógiá trị AIC thấp nhất.Xem tóm tắt kết quả bằng lệnhsummary:
Trang 49Xây dựng mô hình hồi quy logistic
Mô hình tối ưu có phương trình dạng:
logit(P ) = β0+ β1· har + β2· T OC
Từ kết quả phân tích ta thu được: ˆβ0= 63.03, ˆ β1=−0.29, ˆ β2=−0.19
Ta đưa ra giả thuyết kiểm định hệ số ˆβ i:
H0: ˆβ i = 0 với i = 0, 1, 2
H1: ˆβ i ̸= 0 với i = 0, 1, 2
Tiêu chuẩn kiểm định: z value = βˆi − 0
s × √ n P-value (mức ý nghĩa nhỏ nhất tại đó giả thiết H0bị bác bỏ): P (z value > |Z q s |)
Trang 50Xây dựng mô hình hồi quy logistic
Thông thường, nguyên tắc kiểm định1:
0, 1 ≤ P − value: thừa nhận H0
0, 05 ≤ P − value < 0, 1: cân nhắc cẩn thận trước khi bác bỏ H0
0, 01 ≤ P − value < 0, 05: nghiêng về hướng bác bỏ H0
0, 001 ≤ P − value < 0, 01: có thể ít băn khoăn khi bác bỏ H0
P − value < 0, 001: có thể hoàn toàn yên tâm khi bác bỏ H0
Nhận xét
Các giá trị P-value (Pr(>|z|)) của các hệ số ˆ β0, ˆ β1, ˆ β2lần lượt là 2.83 × 10 −7,
3.22 × 10 −7 , 0.0283 đều nhỏ hơn mức ý nghĩa α = 5% Như vậy có đủ bằng
chứng để kết luận rằngβˆi ̸= 0 hay ˆ β i đều có ý nghĩa thống kê
1
Trang 51Tìm khoảng tin cậy 95% của βi
cơ là mối quan hệtỷ lệ nghịch: xác suất nước uống được tăng khi độ cứng
và nồng độ carbon hữu cơ giảm
Khoảng tin cậy 95% của β0 là (42.567, 91.250), của β1 là (−0.424, −0.197)
và của β2 là (−0.376, −0.028).
Trang 52Tìm khoảng tin cậy 95% của Odds Ratio (OR)
Nhập: exp(cbind(OR = coef( mohinh ) , confint( mohinh )))
Nhận xét: Tỉ số odds (OR) của biếnharlà 0.747 nghĩa là khi độ cứng tăng lên 1
mg/L sẽ làm khả năng nước uống được giảm 1− 0.747 = 0.253 hay 25.3%.
Tương tự đối với biếnTOC
Trang 53Kiểm tra tính chính xác của mô hình
Chúng ta sử dụng mô hình tối ưu nhất thu được từ mẫu xây dựng để dự đoánbiến Potability của mẫu kiểm định
Trang 54Lập bảng so sánh kết quả dự đoán
Dòng Observation là dữ liệu quan sát từ thực tế, dòng Prediction là giá trị ướctính từ mô hình
Trang 55Đánh giá mô hình - Sử dụng ma trận nhầm lẫn
Trang 58Đánh giá mô hình - Sử dụng chỉ số AUC
Trang 59Đánh giá mô hình - Sử dụng chỉ số AUC
Nhận xét: đường cong ROC của mô hình này gần với đường ROC tối ưu nên có
thể dự đoán mô hình có hiệu suất cao Ta tính giá trị chỉ số AUC để có được kếtluận
Nhận xét
Giá trị AUC - phần diện tích phía dưới ROC là0.9736, cho thấy mô hình có khảnăng dự đoán cao
Trang 60Nội dung trình bày
Trang 61Kết luận
Một mô hình được xem là tối ưu khi đáp ứng ba tiêu chuẩn sau2:
Đơn giản (parsimonious model)
Mô hình nhóm tìm được đã thỏa các tiêu chuẩn trên cũng như các tiêu chí
để kiểm tra mô hình ở phần trước với kết quả tương đối cao
2Nguyễn Văn Tuấn, (2014) Phân tích dữ liệu với R NXB Tổng hợp TPHCM
Trang 62Đề xuất mở rộng nghiên cứu
Thu thập dữ liệu mới
Sử dụng dữ liệu từ các nguồn khác nhau
Thử nghiệm thêm tham số
Kết hợp mô hình logistic với các phương pháp khác
Trang 63Nội dung trình bày
Trang 64Tài liệu tham khảo
[1] Nguyễn Đình Huy, Đậu Thế Cấp, Lê Xuân Đại, Giáo trình xác suất và thống
kê, Nhà xuất bán Đại học Quốc gia TP Hồ Chí Minh, 2022.
[2] Hosmer, David W.; Lemeshow, Stanley, Applied Logistic Regression, New
York, 2013
[3] Dục Đoàn Trình, Logistic Regression trong R, 2022.
[4] Nguyễn Văn Tuấn, Phân tích hồi quy logistic.
[5] Peter Dalgaard, Introduction Statistics with R, Second Edition, Springer,
2008
[6] Applied Statistics with R, 2020.
[7] Dục Đoàn Trình, Confusion Matrix là gì? Các yếu tố quan trọng, 2021.
Trang 65Thank you for your attention!