Phương pháp này thường được sử dụng để dự đoán xác suất xảy ra của một sự kiện, dựa trên các biến độc lập independent variables.Cụ thể, hồi quy logistic thường được sử dụng khi chúng ta
TỔNG QUAN DỮ LIỆU
Ngữ cảnh dữ liệu
Hiện nay, môi trường nước trên toàn cầu đang phải đối mặt với nhiều vấn đề nghiêm trọng Sự ô nhiễm nước từ các nguồn gốc khác nhau như công nghiệp, nông nghiệp và sinh hoạt đô thị đã ngày càng trở thành vấn đề quan tâm lớn Các chất ô nhiễm như hóa chất độc hại, thuốc trừ sâu, phân bón hóa học thường xuyên được xả thải vào các dòng sông, hồ và biển, gây ảnh hưởng đến hệ sinh thái nước Sự thải ra môi trường của chất thải nhựa cũng đang tạo ra một vấn đề khác biệt lớn, ảnh hưởng đến sinh vật biển và cả con người Ngoài ra, sự mất rừng và biến đổi đất đai cũng làm giảm chất lượng và lượng nước ngầm, ảnh hưởng đến nguồn cung cấp nước sạch cho cộng đồng Biến đổi khí hậu, với tác động của nó đến tăng mực nước biển và mưa lớn,cũng đang tạo ra sự biến đổi nghiêm trọng trong môi trường nước.
Thu thập dữ liệu
Bằng hai phương pháp hồi quy logistic và ANOVA để phân tích “Chất lượng nước - Khả năng uống nước uống” (Water Quality - Drinking water potability).
Các biến trong dữ liệu
- ph: pH là một thông số quan trọng trong việc đánh giá cân bằng axit-bazơ của nước WHO đã khuyến nghị giới hạn pH tối đa cho phép là từ 6,5 đến 8,5 Phạm vi điều tra hiện tại là 6,52–6,83, nằm trong phạm vi tiêu chuẩn của WHO.
- Hardness: Độ cứng ban đầu được định nghĩa là khả năng của nước làm kết tủa xà phòng do Canxi và Magiê gây ra Tính bằng lượng miligram trên lít (mg/L).
- Solids (Total dissolved solids - TDS): Đây là thông số quan trọng cho việc sử dụng nước Nước có giá trị TDS cao chứng tỏ nước có độ khoáng hóa cao Giới hạn mong muốn đối với TDS là 500 mg/l và giới hạn tối đa là 1000 mg/l được quy định cho mục đích uống.
- Chloramines: Mức clo lên tới 4 miligam mỗi lít (mg/L hoặc 4 phần triệu (ppm)) được coi là an toàn trong nước uống Lượng Chloramines có trong nước, tính bằng ppm.
- Sulfate: Nồng độ sunfat trong nước biển là khoảng 2.700mg/L Nó dao động từ
3 đến 30 mg/L trong hầu hết các nguồn cung cấp nước ngọt, mặc dù nồng độ cao hơn nhiều (1000 mg/L) được tìm thấy ở một số vị trí địa lý Lượng lưu huỳnh hòa tan, tính bằng mg/L.
- Conductivity: Lượng chất rắn hòa tan trong nước quyết định độ dẫn điện Độ dẫn điện (EC) thực sự đo quá trình ion của dung dịch cho phép nó truyền dòng điện. Theo tiêu chuẩn của WHO, giá trị EC không được vượt quá 400 μS/cm
- Organic_carbon: Tổng lượng cacbon hữu cơ (TOC) là thước đo tổng lượng carbon trong các hợp chất hữu cơ trong nước tinh khiết Theo US EPA < 2 mg/L dưới dạng TOC trong nước đã qua xử lý/nước uống và < 4 mg/Lít trong nguồn nước được sử dụng để xử lý.
- Trihalomethanes (THM): THM là những hóa chất có thể tìm thấy trong nước được xử lý bằng clo Nồng độ THM trong nước uống thay đổi tùy theo mức độ chất hữu cơ trong nước, lượng clo cần thiết để xử lý nước và nhiệt độ của nước đang được xử lý Mức THM lên tới 80 ppm được coi là an toàn trong nước uống.
- Turbidity: Độ đục của nước phụ thuộc vào lượng chất rắn có ở trạng thái lơ lửng Nó là thước đo đặc tính phát sáng của nước và thử nghiệm được sử dụng để chỉ ra chất lượng xả thải đối với chất keo Thước đo đặc tính phát quang của nước đo bằng NTU (Nephelometric Turbidity Units) Giá trị độ đục trung bình thu được tại Cơ sở Wondo Genet (0,98 NTU) thấp hơn giá trị khuyến nghị của WHO là 5,00 NTU
- Potability: Cho biết nước có an toàn cho con người hay không với uống được là
1 và không uống được là 0.
KIẾN THỨC NỀN
Hồi quy logistic
Phương pháp hồi quy logistic là một phương pháp trong thống kê được sử dụng khi biến phụ thuộc (dependent variable) là một biến phân loại (categorical variable) hoặc biến đo lường ở mức độ thứ bậc (ordinal variable) Phương pháp này thường được sử dụng để dự đoán xác suất xảy ra của một sự kiện, dựa trên các biến độc lập (independent variables).
Cụ thể, hồi quy logistic thường được sử dụng khi chúng ta muốn dự đoán xác suất của một sự kiện như "có" hoặc "không có", "thành công" hoặc "không thành công", "được phân loại vào nhóm A" hoặc "nhóm B", v.v…
- Dự đoán xác suất một học sinh đậu (1) hoặc trượt (0) kỳ thi dựa vào số giờ học.
- Dự đoán xác suất một khách hàng mua sản phẩm (1) hoặc không mua (0) dựa vào độ tuổi, thu nhập, v.v.
Kết quả của mô hình hồi quy logistic thường là xác suất của biến phụ thuộc thuộc vào các giá trị của biến độc lập Mô hình này được sử dụng rộng rãi trong nghiên cứu y học, khoa học xã hội, kinh tế, và nhiều lĩnh vực khác để phân tích và dự đoán các sự kiện nhị phân, ví dụ như dự đoán bệnh lý, quyết định tín dụng, hoặc đánh giá tác động của các biến độc lập lên kết quả cụ thể.
Trong hồi quy logistic, phép biến đổi logit được áp dụng theo tỷ lệ cược (odds) - tức là xác suất thành công chia cho xác suất thất bại Đây còn được gọi là tỷ lệ log odds hoặc logarit tự nhiên của tỷ lệ cược (odds) và hàm logistic này được biểu thị bằng các công thức sau: logit ( p )= 1
1.2 Giải thích mô hình hồi quy logistic
Tỷ lệ log odds có thể khó hiểu trong quá trình phân tích dữ liệu hồi quy logistic.
Do đó, việc lũy thừa ước tính β là phổ biến để chuyển đổi kết quả thành tỷ lệ chênh lệch (odds ratio_OR), giúp dễ dàng giải thích kết quả OR biểu thị tỷ lệ cược (odds) rằng một kết quả sẽ xảy ra trong một sự kiện cụ thể, so với tỷ lệ cược(odds) xảy ra khi không có sự kiện đó
Nếu OR > 1 thì sự kiện đó có tỷ lệ tạo ra kết quả cụ thể cao hơn
Ngược lại, nếu OR < 1 thì sự kiện đó có tỷ lệ xảy ra kết quả đó thấp hơn
Dựa trên phương trình ở trên, việc giải thích tỷ lệ chênh lệch(odds ratio) có thể được biểu thị như sau: tỷ lệ thành công thay đổi theo exp(cB_1) lần cho mỗi lần tăng c-đơn vị trong x.
- Uớc tính khả năng tối đa (maximum likelihood estimation MLE) với Likelihood:
+ Xét mô hình hồi quy logictis dạng tổng quát: y i = E ( y i ) + ε i Trong đó y i là biến độc lập phân phối Bernoulli với tham số p i
1+ exp ( x i i β ) + Theo phân phối Bernoulli: p= f i ( y i ) = p i y i (1− p i ) 1 − y i ,i=1,2,3 ….n, y i =0 ℎ oặc 1
Lấy ln hai vế và rút gọn biểu thức: lnL=∑ i=1 n y i x i ' β − ∑ i=1 n ln [ 1+ exp ( x i ' β ) ]
Hay lnL( x i ' β )= ∑ i=1 n y i ln ( x i ' β)− ∑ i = 1 n ln [ 1+exp ( x i ' β ) ]
Lấy đạo hàm hai vế và xác định x i ' β sao cho đạo hàm bằng 0
Theo ước lượng cực đại để xác định ^ x i ' β sao cho hàm số L( x i ' β ¿ đạt giá trị cực đại.
Theo phân phối chuẩn: Giả sử biến ngẫu nhiên X 1 , X 2 ,…, X n tuân theo quy luận phân phối chuẩn N( μ,σ 2 ¿ f(X| μ,σ 2 ) = √ 2 1 π e ( X− μ)
Lấy ln hai vế và rút gọn biểu thức: lnL=∑ i=1 n ( − ln 2 π −lnσ − ( X 2 i − μ σ 2 ) 2 ) =− nln2 π − nlnσ − ∑ i=1 n ( X 2 i − μ σ 2 ) 2
Lấy đạo hàm hai vế theo μ,σ 2 và xác định sao cho đạo hàm bằng 0 Theo ước lượng cực đại để xác định μ,σ 2 sao cho hàm số L đạt giá trị cực đại.
- Nhận xét: Không có công thức tường minh cho ước lượng β như hồi quy tuyến tính Ước lượng sử dụng các thuật toán tối ưu hóa(Gradient Descent, Phương pháp Newton-Raphson, Solyer của Excel )
+Hệ số chặn (Intercept) β 0 tỉ lệ log odds khi tất các yếu tố dự đoán là 0.
+ β i chênh lệch trong tỉ lệ log odds (odds ratio): β i = log odds i+1 odds i =logOR
- Tỉ số odds về mặt xác xuất của bạn là 1− p p
- In của tỷ số odds là ln ( 1 − p p )
Với hàm hồi quy Logistic:
Ta có thể viết lại tỉ số Odds như sau:
Tỉ số Odds càng lớn, xác suất để y =1 càng lớn
Diễn giải của hệ số β ứng với biến x:
- Khi biến x tăng 1 đơn vị thì giá trị log(Odds) tăng β đơn vị
- Khi x tăng 1 đơn vị thì tỉ số Odds tang lên exp(β) lần
- β > 0: x càng lớn, xác suất để y =1 càng lớn
- β < 0: x càng lớn, xác suất để y = 1 càng nhỏ
1.3 Phân loại các mô hình hồi quy logistic
Có 3 loại mô hình hồi quy logistic, bao gồm:
Hồi quy logistic nhị phân (Binary Logistic Regression): là một phương pháp sử dụng để dự đoán xác suất của một biến phụ thuộc nhị phân (categorical variable có hai nhóm), dựa trên các biến độc lập (independent variables) Tức là nó chỉ có 2 kết quả “có” hoặc “không”, “0” hoặc “1”
Ví dụ như dự đoán xem một cái bánh có bị hỏng hay không hay dự đoán xem một người có bị tiểu đường hay không Trong hồi quy logistic, đây là cách tiếp cận được sử dụng phổ biến nhất và nói chung hơn, nó là một trong những cách phân loại phổ biến nhất để phân loại nhị phân.
Hồi quy logistic đa thức (Multinomial Logistic Regression): Là một phương pháp được sử dụng khi biến phụ thuộc là biến phân loại (categorical variable) có ba hoặc nhiều hơn hai nhóm (categories), không chỉ là biến nhị phân như trong hồi quy logistic nhị phân Mục tiêu của loại hồi quy này để dự đoán xác suất của mỗi nhóm (category) của biến phụ thuộc, dựa trên các biến độc lập, hay xác định mức độ ảnh hưởng của các biến độc lập đến xác suất của từng nhóm
Ví dụ: Giả sử chúng ta muốn dự đoán xác suất của mỗi loại sản phẩm (A, B, C) một khách hàng có thể mua dựa vào độ tuổi và thu nhập Chúng ta sử dụng mô hình hồi quy logistic đa thức để dự đoán xác suất mỗi loại sản phẩm mà khách hàng có thể mua Sau đó, chúng ta có thể đánh giá hiệu suất của mô hình bằng các phương pháp như đã nêu ở trên.
Hồi quy logistic theo thứ tự (Ordinal Logistic Regression): Là một phương pháp được sử dụng khi biến phụ thuộc là biến phân loại ở mức độ thứ bậc (ordinal variable), có thứ tự như "thấp", "trung bình", "cao" hoặc "rất không hài lòng", "không hài lòng", "hài lòng", "rất hài lòng" Hồi quy logistic thứ tự dùng để dự đoán xác suất của mỗi mức độ thứ bậc của biến phụ thuộc, dựa trên các biến độc lập hoặc xác định mức độ ảnh hưởng của các biến độc lập đến xác suất của từng mức độ
Ví dụ: Giả sử chúng ta muốn dự đoán mức độ hài lòng về một sản phẩm từ khách hàng, với các mức độ "rất không hài lòng", "không hài lòng", "hài lòng", "rất hài lòng" Chúng ta sử dụng mô hình hồi quy logistic thứ tự để dự đoán xác suất của mỗi mức độ dựa vào các biến độc lập như giá sản phẩm, chất lượng, v.v Sau đó, chúng ta có thể đánh giá hiệu suất của mô hình để hiểu rõ hơn về mức độ ảnh hưởng của các biến độc lập đến mức độ hài lòng của khách hàng.
Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi qui logistic đa biến là chọn một mô hình để có thể mô tả đầy đủ dữ liệu Một nghiên cứu với một biến phụ thuộc y và 3 biến độc lập x1, x2 và x3, chúng ta có thể có những mô hình sau đây để tiên đoán y: y= f ( x 1) , y= f ( x 2) , y =f ( x 3) , y=f ( x 1 ,x 2 ) , y= f ( x 1 ,x 3 ) , y=f ( x 2 , x 3 ) , và y =f ( x 1 ,x 2 ,x 3 ) trong đó f là hàm số Nói chung với k biến độc lập x1, x2, x3, , xk, chúng ta có rất nhiều mô hình (2k) để tiên đoán y Một mô hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây: Đơn giản: Một mô hình nên được thiết kế sao cho đơn giản nhất có thể mà vẫn giải quyết được vấn đề cụ thể Lý do chính là để tránh overfitting (quá khớp) và làm cho mô hình tổng quát hóa tốt hơn trên dữ liệu mới, không được sử dụng trong quá trình huấn luyện.
Mô hình ANOVA
Phương pháp ANOVA (Analysis of Variance) là một phương pháp thống kê được sử dụng để kiểm tra sự khác biệt trung bình giữa ba hoặc nhiều nhóm Nó cho phép chúng ta xác định xem liệu có sự khác biệt ý nghĩa giữa các nhóm này không, thông qua việc so sánh phương sai (variance) của các nhóm Với mục tiêu xác định xem có sự khác biệt ý nghĩa giữa ít nhất hai nhóm trung bình hay không hay Phát hiện và đánh giá ảnh hưởng của các biến độc lập đến biến phụ thuộc.
2.2 Giải thích mô hình ANOVA Đầu tiên, cấu trúc của mô hình ANOVA bao gồm: Biến phụ thuộc, biến độc lập, các nhóm
Biến Phụ Thuộc (Dependent Variable): Đây là biến mà chúng ta quan tâm đến sự khác biệt giữa các nhóm Ví dụ: điểm số, chiều cao, hoặc lượng chất lượng sản phẩm. Biến Độc Lập (Independent Variable): Đây là biến mà chúng ta muốn kiểm tra ảnh hưởng đến biến phụ thuộc Ví dụ: loại phương pháp điều trị, loại phân loại, hoặc nhóm đối tượng.
Các Nhóm (Groups): Là các phân loại, nhóm của biến độc lập mà chúng ta muốn so sánh Ví dụ: nhóm A, nhóm B, nhóm C.
Giả thiết trong ANOVA bao gồm 2 giả thiết: Giả thiết không có sự khác biệt và giả thiết có sự khác biệt Trong giả thiết không có sự khác biệt được thể hiện dưới dạng sau: H 0 : μ 1 ¿ μ 3 =…=μ k Vậy trong giả thiết không có sự khác biệt này thì trung bình tất cả các nhóm bằng nhau Tiếp đến, trong giả thiết có sự khác biệt: H 1 được hiểu là ít nhất một cặp trung bình khác nhau
Cách thức thực hiện phân tích phương sai (Variance Analysis): Tính toán phương sai giữa các nhóm (SSB) và phương sai bên trong các nhóm (SSW)
SSB: Độ biến động giữa các nhóm.
SSW: Độ biến động bên trong từng nhóm
F-Statistic: Sử dụng kiểm định F để so sánh tỉ lệ giữa SSB và SSW Giá trị
F lớn đồng nghĩa với sự khác biệt ý nghĩa giữa các nhóm
G-Giá Trị p (p-value):Giá trị p được sử dụng để xác định xem có đủ bằng chứng để bác bỏ giả thiết không có sự khác biệt hay không Nếu p-value nhỏ hơn mức ý nghĩa α đã chọn, ta bác bỏ giả thiết H0 và kết luận rằng có sự khác biệt trung bình giữa ít nhất hai nhóm.
2.3 Phân loại mô hình ANOVA
Có 3 loại mô hình ANOVA chính: ANOVA một nhân tố, ANOVA hai nhân tố, ANOVA MANOVA:
- Mô hình ANOVA một nhân tố: là một loại thử nghiệm thống kê so sánh phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét một yếu tố hoặc một biến độc lập Phương sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm phân loại để xác định xem có sự khác biệt giữa chúng hay không Trong mỗi nhóm nên có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh
Ví dụ như: Bạn có thể sử dụng phân tích phương sai một yếu tố để tìm hiểu liệu hiệu suất kiểm tra có khác nhau hay không dựa trên mức độ lo lắng giữa các học sinh (chia học sinh thành ba nhóm độc lập: học sinh thấp, trung bình và cao bị căng thẳng).
- Mô hình ANOVA hai nhân tố: là một phần mở rộng của phân tích phương sai một yếu tố Với một yếu tố, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc. Còn với hai nhân tố ANOVA, sẽ có 2 biến độc lập
Ví dụ: bạn có thể sử dụng phân tích ANOVA hai yếu tố để tìm hiểu liệu có sự tương tác giữa giới tính và trình độ học vấn đối với sự lo lắng kiểm tra giữa các sinh viên đại học Trong đó giới tính (nam / nữ) và trình độ học vấn (đại học / sau đại học) là các biến độc lập của bạn, và kiểm tra lo lắng là biến phụ thuộc của bạn.
- Mô hình ANOVA MANOVA (Multivariate Analysis of Variance) là một phương pháp thống kê mở rộng của ANOVA, được sử dụng khi có hai hoặc nhiều biến phụ thuộc (dependent variables) mà chúng ta muốn kiểm tra sự khác biệt trung bình giữa các nhóm Điều này có ý nghĩa rằng MANOVA cho phép chúng ta đánh giá sự ảnh hưởng của các biến độc lập đến nhiều biến phụ thuộc cùng một lúc Mục tiêu của mô hình này là xác định xem có sự khác biệt trung bình giữa các nhóm đối với tất cả các biến phụ thuộc hay không Đánh giá tác động đồng thời của các biến độc lập lên nhiều biến phụ thuộc Và tối ưu hóa sức mạnh thống kê và giảm độ biến thiên không cần thiết.
TIỀN XỬ LÝ SỐ LIỆU
Đọc dữ liệu
Đọc dữ liệu “water_potability.csv” Sau đó kiểm tra thử 10 dòng đầu tiên của dữ liệu water = read.csv(“D:/HK232/SXTK/water_potability.csv”) head(water,10)
Hình 3.1 Kết quả khi đọc dữ liệu và xem 10 dòng đầu tiên của dữ liệu
Làm sạch dữ liệu (Data cleaning)
Tạo một dữ liệu mới, giữ lại các biến và thay thế dữ liệu water cũ Kiểm tra dữ liệu khuyết trong water.
# làm sạch dữ liệu, giữ lại các biến chính cần thiết water