Với đề tài Dự đoán khả năng uống được của nước, chúng em đã có thêm nhiều kiến thức bổ ích và học thêm được sách sử dụng phần mềm RStudio- một phần mềm rất hữu dụng trong việc sự dụng ph
Trang 1ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT HÓA HỌC
II
BAO CAO BAI TAP LỚN Môn: Xác suất và thống kê
ĐÈ TÀI: DỰ ĐOÁN KHẢ NĂNG UỎNG ĐƯỢC CỦA NƯỚC
GVHD: TS Phan Thi Huong Lớp: L10 Nhóm: 17
Thành phố Hô Chí Minh-2023
Trang 3LỜI CẢM ƠN
Trong quá trình thực hiện Bài tập lớn, cũng như bài báo cáo và phần mềm lập trình RStudio, nhóm chúng em đã nhận được rất nhiều sự quan tâm, giúp đỡ của các anh chị khóa trước và các bạn sinh viên cùng khóa, đặc biệt là cô Phan Thị Hường,
giảng viên bộ môn Xác xuất thông kê, lớp L10 Dù lớp học có đến hàng trăm sinh viên
nhưng cô vẫn sẵn lòng dành chút thời gian quý báu của minh để hướng dẫn tận tình
cho từng nhóm, giúp nhóm định hướng bài làm Cũng vì thế mà nhóm chúng em đã
hiểu rõ hơn về dé tài mà nhóm đang tìm hiểu và có đủ kiến thức để vượt qua những rào
cản khi thực hiện Bài báo cáo để hoàn thành đúng tiến độ
Với đề tài Dự đoán khả năng uống được của nước, chúng em đã có thêm nhiều kiến thức bổ ích và học thêm được sách sử dụng phần mềm RStudio- một phần mềm rất hữu dụng trong việc sự dụng phân tích thống kê Qua quá trình làm việc nhóm, chúng em cũng học được cách làm việc cùng nhau, có trách nhiệm với nhiệm vụ được giao
Tuy đã cố gắng hết sức nhưng vì là công việc không chuyên nên chắc hắn không thể tránh khỏi những sơ sót khi viết bài báo cáo Mong cô xem xét và đóng góp
ý kiên đề bài báo cáo hoàn thiện hơn!
Trang 4MỤC LỤC
1 Giới thiệu đlữ HiỆu o 5-5 =5 nh mg 5
II; on .ÔÔ 5
2 Các biến chính trong bộ dữ liệu: 0 2222221211112 2111 2811212 5
3 Các bước thực hiện 0 2111 TT S TT g0 1111111111255 6
2 Thống kê suy diễn (infrential stantistic$) - 5s c2 2x2 7
3 Hồi quy logistic -.-s- + 2s 1111211211211 1122121212122 erag 10
HI Tiền xứ lý số liệu 2-2 se se se re seseerseeeree 11
2 Kiểm tra, xử lí đữ liệu khuyết 5 s1 S2 111111111 51111121122 xe 12
3 Tóm tắt đữ liệu - -: 222cc 2222112221112211112.1112.1112.1 1 re 13
IV Thống kê mô (ả -2 °-5°cs£ csCSe se Essereersetrersserseeersee 14
1 Đồ thi Histogram và Boxplot của các biến - 5 5c 22c 14
2 Hệ số tương quan giữa các biễn à 5 S1 11211201 1122121021116 18
1 Phân chia số liệu :+ 22+t222211222211222211221211.2111 112.011.1 19
2 Mô hình hồi quy logistic s5: 5 s9 221511211211 121111211212 1 2x6 20
3 Dự đoán cho dữ liệu “tesf” c1 1 HT HS ng n Ty 22
1 Một số mô hình mở rộng 2 S12 2211121111111 112111121121111 xe 23
ca na 25
3 Ưu điểm và nhược điểm của các phương pháp sử dụng - 25
VII Nguồn dữ liệu và nguồn ©ode - o° 2< se ccs se se ecs csesee 27
TÀI LIỆU THAM KHẢO - 5-2-2 se ceecsceseEsere ceeesereceerersee 28
Trang 5Gid tri quan trắc, các loại biến
Đồ thị hình hộp khả năng uống được theo pH
Đồ thị hình hộp khả năng uống được theo Hardness (Độ cứng)
Đồ thị hình hộp khả năng uống được theo Solids
Đồ thị hình hộp khả năng uống được theo Chloratmines
Đồ thị hình hộp khả năng uống được theo Sulfate
Đồ thị hình hộp khả năng uống được theo Conduetivity
Đồ thị hình hộp khả năng uống được theo Organic_carbon
Đồ thị hình hộp khả năng uống được theo Trihalomethanes
Đồ thị hình hộp khả năng uống được theo Turbidity
Trang 6L Giới thiệu dữ liệu
1 Bối cảnh:
Vấn đề tiếp cận nguồn nước uống an toàn là điều cần thiết cho sức khỏe, một quyền cơ bản của con người và là một phần của chính sách bảo vệ sức khỏe hiệu quả Đây là vấn đề quan trọng về sức khỏe và phát triển ở cấp quốc gia, khu vực và địa phương Ở một số vùng, người ta đã chứng minh rằng đầu tư vào cấp nước và vệ sinh
có thể mang lại lợi ích kinh tế ròng vì việc giảm các tác động tiêu cực đến sức khỏe và
chi phi chăm sóc sức khỏe lớn hơn chi phí thực hiện các biện pháp can thiệp
Tập tin “Water_potability.csv” chứa số liệu chất lượng nước cho 3276 vùng nước khác nhau Với dữ liệu gốc được cung cấp tại:
Giá trị pH thông số đánh giá sự cân băng
phép từ 6,5 đến 8,5)
Hardness Liên tục | mg/L
Canx1 va Magié gay ra
Khả năng hòa tan nhiều loại khoáng chất vô
natrI, ( mong muon la 500 mg/l; gidi han
tối đa là 1000 mg/])
nước (Mức clo an toàn lên tới 4 mg/L)
Là những chất xuất hiện tự nhiên trong khoáng chat, dat va da, ké ca trong không
thực phâm (ở các nguồn cung cấp nước ngọt dao động từ 3 đến 30 mø/L)
Conductivity Liéntuc | uS/cm | Quá trình lon của dung dịch cho phép nó
5
Trang 7
truyền dòng điện (giá trị EC không vượt quá
400 wS/cm)
Tổng lượng cacbon hữu cơ (TOC) trong nước nguôồn đến từ quá trình phân hủy chất
đã qua xử lý/nước uống và < 4 mg/Lít là nước được sử dụng để xử lý)
Những hóa chất có thể tìm thấy trong nước
Trihalomethanes | Liên tục ppm_ | được xử lý bằng clo ( Mức THM an toàn khi
lên tới 80 ppm trong nước uống )
Độ đục của nước (Giá trị độ đục khuyên
Turbidity Lién tuc NTU ;
nghi la 5,00 NTU)
Portability Phân loại (1 có nghĩa là có thê uống được; 0 có nghĩa
là không thê uống được)
e) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
Trang 8
Thống kê mô tả được sử dụng để tóm tắt và vẽ biểu đồ đữ liệu cho một nhóm mẫu đã chọn Quá trình này giúp hiểu rõ tập hợp các quan sát cụ thể đó Hiểu đơn giản
là bạn chỉ cần lấy một nhóm mẫu mà bạn quan tâm, ghi lại đữ liệu về các thành viên trong nhóm Sau đó sử dụng thống kê mô tả tóm tắt và dùng đỗ thị để trình bảy các thuộc tính của nhóm
Thống kê này được đảm bảo độ chính xác chắc chắn, vì chỉ mô tả những mẫu
mà bạn thực sự đo lường được mà không cần phải suy luận các thuộc tính về mẫu lớn hơn Quá trình này bao gồm việc lẫy một số lượng lớn các điểm dữ liệu có thể có trong mẫu và tạo nên biểu đồ tóm tắt có ý nghĩa Qua đó, giúp người đọc hiểu rõ và trực quan hóa đữ liệu hơn
Thống kê mô tả thường sử dụng các công cụ thống kê phổ biến sau để mô tả các nhóm
- Xw hướng tập trung: Sử dụng giá trị trung bình (mean) hoặc giá trị trung vị (median) dé dinh vị tâm của tập dữ liệu Thước đo này sẽ cho biết hầu hết các giá trị
giảm ở đâu
- Phân tán: Sử dụng phạm vị hoặc độ lệch chuân đề đo độ phân tán Độ phân tán
thấp chỉ ra rằng các giá trị tập trung chặt chẽ hơn xung quanh trung tâm Độ phân tán cao hơn biểu thị rằng các điểm đữ liệu rời xa trung tâm hơn
- Độ lệch: Thước đo cho biết liệu sự phân bố các giá trị là đối xứng hay sai lệch
Có thể trình bày các công cụ này bằng cách sử dụng số và đỗ thị Đây là những công cụ thống kê mô tả tiêu biểu, cũng có thế thực hiện những phân tích mô tả khác cho hợp lý Chắng hạn như đánh giá mối quan hệ của đữ liệu được ghép nổi bằng cách
sử dụng biểu đỗ tương quan và phân tán
2 Thống kê suy diễn (inferential stantistics)
Bao gồm các phương pháp ước lượng các đặc trưng của tông thế, phân tích mỗi liên hệ siữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên cơ sở thu thập thông tin từ kết quả quan sát mẫu
Thống kê suy diễn là tất cả về khái quát hóa từ mẫu đến quân thẻ, tức là lay dit liệu từ một mẫu và đưa ra các suy luận về quân thể lớn hơn mà từ đó mâu được rút
Trang 9ra Mục tiêu của thống kê này là rút ra kết luận từ một mẫu và khái quát hóa chúng thành một quân thê, và mẫu phải phản ánh chính xác quần thể đó Ở cấp độ rộng, cụ thé can phải làm như sau:
- Xác định quân thể chúng ta đang nghiên cứu
- Vẽ một mẫu đại diện từ quần thé do
- Sử dụng các phân tích kết hợp lấy mẫu lỗi
Lay mẫu ngẫu nhiên giúp chắc chắn rằng mẫu đại diện cho tông thể Đây là quá trình quan trọng tạo ra số liệu thống kê, chẳng hạn như giá trị trung bình, Tuy nhiên, việc thu thập một mẫu thực sự ngẫu nhiên có thể là một quá trình phức tạp Ngược lại, lây mẫu có sẵn sẽ đễ thu thập hơn, nhưng sẽ khó lấy mẫu đại diện và kết quả cũng ít chính xác hơn
Các phương pháp phổ biến nhất trong thống kê suy diễn là kiểm định giả thuyết, khoảng tin cậy và phân tích hồi quy Điều thú vị là các công cụ phân tích của thống kê này có thê tạo ra các giá trị tóm tắt tương tự như thống kê mô tả, chẳng hạn như giá trị trung bình và độ lệch chuẩn Tuy nhiên, sẽ có các cách sử dụng khác nhau khi đưa ra các kết luận, cụ thể như sau:
- Xác định quân thể chúng ta đang nghiên cứu
- Vẽ một mẫu đại điện từ quần thể đó
- Sử dụng các phân tích kết hợp lấy mẫu lỗi
Lay mẫu ngẫu nhiên giúp chắc chắn rang mau dai điện cho tổng thể Đây là quá trình quan trọng tạo ra số liệu thông kê, chẳng hạn như giá trị trung bình, Tuy nhiên, việc thu thập một mẫu thực sự ngẫu nhiên có thể là một quá trình phức tạp Ngược lại, lây mẫu có sẵn sẽ dễ thu thập hơn, nhưng sẽ khó lấy mẫu đại diện và kết quả cũng thiếu chính xác hơn
Các phương pháp phố biến nhất trong thống kê suy diễn là kiểm định giả thuyết, khoảng tin cậy và phân tích hồi quy Các công cụ phân tích của thống kê này
co thé tao ra các giá trị tóm tắt tương tự thống kê mô tả, chăng hạn như giá trị trung
binh và độ lệch chuân Tuy nhiên, sẽ có các cách sử dụng khác nhau khi đưa ra các kết luận, cụ thê:
Trang 10- Kiểm định giả thuyết
Phương pháp kiểm tra giả thuyết sử dụng dữ liệu mẫu trả lời các câu hỏi sau:
° Quan thể có ý nehĩa lớn hơn hay nhỏ hơn so với một g1á trị cụ thể?
® Là phương tiện của hai hoặc nhiều quần thể khác nhau?
Ví dụ: Nếu chúng ta nghiên cứu hiệu quả của một loại thuốc mới bằng cách so sánh kết quả trong nhóm điều trị và kiểm soát Các thử nghiệm giả thuyết có thể cho biết liệu tác dụng của thuốc mà chúng ta quan sát được trong mẫu có khả năng tổn tại trong toàn quân thế hay không
Tất nhiên, chúng ta không muốn sử dụng thuốc nếu nó chỉ có hiệu quả trong một mẫu cụ thể Thay vào đó, chúng ta cần bằng chứng cho thấy nó sẽ hữu ich trong toàn bộ bệnh nhân Các thử nghiệm giả thuyết cho phép chúng ta rút ra các loại kết luận này về toàn bộ quân thê
- Khoang tin céy (Cis)
Trong thống kê suy diễn, mục tiêu chính là ước tính các tham số quần thể Các
tham số này là các giá trị chưa biết trong toàn bộ tập hợp, chăng hạn như giá trị trung bình và độ lệch chuẩn Các giá trị tham số này hầu như không thê biết được Thông thường, nó không thể đo lường toàn bộ tham số Lấy mẫu lỗi tạo ra sự không chắc chăn hoặc sai sô xung quanh các ước tính
Giả sử xác định quần thé là tat cả cầu thủ bóng đá ở trường trung học Sau đó,
lây một mẫu ngẫu nhiên từ quân thê nảy và tính chiều cao trung bình là 181 cm Ước
tính mẫu này là 181cm là ước tính tốt nhất về chiều cao trung bình của quân thể Tuy nhiên, chắc chăn rắng ước tính này về tham sô quân thê có thê không chính xác
Khoảng tin cậy kết hợp sự không chắc chắn và mẫu lỗi để tạo ra một loạt các
giá trị Các giá trị nay là giá trị quan thể thực tế sẽ rơi vào bên trong Ví dụ: khoảng tin cậy [176: 186] chỉ ra rằng chắc chắn trung bình quân thể thực sự nằm trong phạm vi này
- Phân tích hoi quy
Phân tích hồi quy mô tả mối quan hệ giữa một tập hợp các biến độc lập và một biến phụ thuộc Phân tích này kết hợp các thử nghiệm giả thuyết giúp xác định xem
9
Trang 11các mối quan hệ quan sát được trong dữ liệu mẫu có thực sự tén tai trong quan thé hay khôn
3 Hoi quy logistic
a) Khái nệm
Hồi quy logistic là một kỹ thuật phân tích đữ liệu sử dụng toán học để tìm ra mỗi quan hệ giữa hai yếu tố dữ liệu Sau đó, kỹ thuật này sử dụng mỗi quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không
Vi du: gia st bạn muốn đoán xem khách truy cập trang web của bạn sẽ nhấp vào nút thanh toán trong giỏ hàng của họ hay không Phân tích hồi quy logistic xem xét hành vi của khách truy cập trước đây, chẳng hạn như thời gian đành cho trang web
và số lượng các mặt hàng trong øiỏ hàng Quá trình phân tích này xác định rằng, trước đây, nếu khách truy cập dành hơn năm phút trên trang web và thêm hơn ba mặt hàng vào giỏ hàng, họ sẽ nhấp vào nút thanh toán Nhờ vảo thông tin này, sau đó, hàm hồi quy logistic có thế dự đoán hành vi của một khách mới truy cập trang web
b) Mô hình hồi quy Logistic
Hàm hồi quy logistic: Hồi quy logistic là một mô hình thông kê sử dụng hàm logistic, hay ham logit trong toan hoc làm phương trình giữa x và y Hàm logit ánh xạ
y lam ham sigmoid cua x:
TT = +e
Néu vé phuong trinh héi quy logistic nay, ta sẽ có một đường cong hình chữ S như hình dưới đây:
Hinh 1: £6 thi hoi quy Logistic
10
Trang 12Có thê thay, ham logit chỉ trả về các giá trị giữa 0 và 1 cho biến phụ thuộc, dù giá trị của biến độc lập là gi Đây là cách hồi quy logistic ước tính giá trị của biến phụ
thuộc Và mốc xác suất để hàm logit trả về giá trị 0 hoặc 1 được gọi là giá trị ngưỡng
Có thể sử dụng một giá trị ngưỡng t|0<t<1]
Nếu P [y=1]>t: dự báo y=1Nếu P |y=0]<t: dự báo y=0 Thông thường chọnt= 0.5
Phương pháp hỏi quy logistic cũng lập mô hình phương trình giữa nhiều biến
độc lập và một biến phụ thuộc Trong nhiều trường hợp, nhiều biến giải thích ảnh
hưởng đến gia tri cua bién phụ thuộc Để lập mô hình các tập dữ liệu đầu vào như vậy, công thức hồi quy logistic phải giả định mối quan hệ tuyến tính giữa các biến độc lập khác nhau Có thê sửa đôi ham sigmoid và tính toán biến đầu ra cuối cùng như sau:
“
Le (Bot Bint Bact Boa]
f (Bot ByX + BoXp* nXnal=
Ky hiéu B dai dién cho hé s6 héi quy M6 hinh logit co thé dao nguge tinh toan
các giá trị hệ số này khi bạn cho nó một tập dữ liệu thực nghiệm đủ lớn có các giá trị
đã xác định của cả hai biến phụ thuộc và biến độc lập
HI Tiền xử lý số liệu
1 Đọc dữ liệu
Đầu tiên, chúng ta sẽ nhập những thư viện cần thiết sẽ sử dụng sau này: ggplot2, dplyr, plotly, cowplot, caret, ved, ResourceSelection, pROC, corrplot
Đọc dữ liệu bằng zezđ.csv và dùng lệnh #ezđ hiển thị dữ liệu lên màn hình để
kiểm tra xem đữ liệu có được nhập thành công hay không
11
Trang 13Hình 2: Code R va két quả sau khi đọc dữ liệu
2 Kiểm tra, xử lí dữ liệu khuyết
Hinh 3: Code R va két quả khi đọc đữ liệu khuyết
Sulfate
781 Potabi lity
Nhóm nhận thấy rằng tông số số đữ liệu khuyết rat lớn (>10%) nên nhóm xử lí
đữ liệu khuyết bằng cách thay dữ liệu khuyết bằng trung vị của từng cột
12
Trang 14+ Ttutate(ph new = case when(is.na(ph) ~ median(ph, nma.rm = TRUE), TRUE ~ ph)) -> df
- Thông kê dữ liệu
Đâu tiên, nhóm sẽ hiện thi tong quan ve di liệu bắng cách sử dụng summary(data)
> summary (df)
Trang 15Hình 7: Số giá tri quan trac, các loại bién
IV Thống kê mô tả
Chúng tôi sử dụng boxplot để biếu thị các biên liên tục bao gồm “pH”,
“Hardness”, “Solids”, “Chloramines”, “Sulfate”, “Conductivity”, “Oreanic carbon”,
“Irnihalomethanes”, “Turbidity” Các ô vuông này được sử dụng để hiển thị gia tri trung vị, xác định phạm vi liên vùng (IQR), phát hiện độ lệch, xác định các giá trị ngoại lệ và so sánh các phân phối
1 DO thi Histogram va Boxplot cua cac bién
9, pH tập trung cao nhất trong khoảng 7-§ với 1177 giá trị với giá trị trung vị 7,037
Khoảng trung bình 7,074 không lệch nhiều so với giá trị trung vị (phù hợp với khoảng tập trung của pH) Giá trị pH có tính tập trung
Hinh 9: Pé thi hình hộp khả năng uống được theo Hardness (Độ cứng) Nhận xét: CHã tri Hardness tập trung cao trong khoảng 160-220 ( mg/L), tập trung cao nhất 180-200 (mg/L) với 852 giá trị, giá trị trung vị 196,97 mg/L Gia tri
14