Báo cáo bài tập lớn môn xác suất và thống kê Đề tài dự Đoán khả năng uống Được của nước

Với đề tài Dự đoán khả năng uống được của nước, chúng em đã có thêm nhiều kiến thức bổ ích và học thêm được sách sử dụng phần mềm RStudio- một phần mềm rất hữu dụng trong việc sự dụng ph

Trang 1

ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KỸ THUẬT HÓA HỌC

II

BAO CAO BAI TAP LỚN Môn: Xác suất và thống kê

ĐÈ TÀI: DỰ ĐOÁN KHẢ NĂNG UỎNG ĐƯỢC CỦA NƯỚC

GVHD: TS Phan Thi Huong Lớp: L10 Nhóm: 17

Thành phố Hô Chí Minh-2023

Trang 3

LỜI CẢM ƠN

Trong quá trình thực hiện Bài tập lớn, cũng như bài báo cáo và phần mềm lập trình RStudio, nhóm chúng em đã nhận được rất nhiều sự quan tâm, giúp đỡ của các anh chị khóa trước và các bạn sinh viên cùng khóa, đặc biệt là cô Phan Thị Hường,

giảng viên bộ môn Xác xuất thông kê, lớp L10 Dù lớp học có đến hàng trăm sinh viên

nhưng cô vẫn sẵn lòng dành chút thời gian quý báu của minh để hướng dẫn tận tình

cho từng nhóm, giúp nhóm định hướng bài làm Cũng vì thế mà nhóm chúng em đã

hiểu rõ hơn về dé tài mà nhóm đang tìm hiểu và có đủ kiến thức để vượt qua những rào

cản khi thực hiện Bài báo cáo để hoàn thành đúng tiến độ

Với đề tài Dự đoán khả năng uống được của nước, chúng em đã có thêm nhiều kiến thức bổ ích và học thêm được sách sử dụng phần mềm RStudio- một phần mềm rất hữu dụng trong việc sự dụng phân tích thống kê Qua quá trình làm việc nhóm, chúng em cũng học được cách làm việc cùng nhau, có trách nhiệm với nhiệm vụ được giao

Tuy đã cố gắng hết sức nhưng vì là công việc không chuyên nên chắc hắn không thể tránh khỏi những sơ sót khi viết bài báo cáo Mong cô xem xét và đóng góp

ý kiên đề bài báo cáo hoàn thiện hơn!

Trang 4

MỤC LỤC

1 Giới thiệu đlữ HiỆu o 5-5 =5 nh mg 5

II; on .ÔÔ 5

2 Các biến chính trong bộ dữ liệu: 0 2222221211112 2111 2811212 5

3 Các bước thực hiện 0 2111 TT S TT g0 1111111111255 6

2 Thống kê suy diễn (infrential stantistic$) - 5s c2 2x2 7

3 Hồi quy logistic -.-s- + 2s 1111211211211 1122121212122 erag 10

HI Tiền xứ lý số liệu 2-2 se se se re seseerseeeree 11

2 Kiểm tra, xử lí đữ liệu khuyết 5 s1 S2 111111111 51111121122 xe 12

3 Tóm tắt đữ liệu - -: 222cc 2222112221112211112.1112.1112.1 1 re 13

IV Thống kê mô (ả -2 °-5°cs£ csCSe se Essereersetrersserseeersee 14

1 Đồ thi Histogram và Boxplot của các biến - 5 5c 22c 14

2 Hệ số tương quan giữa các biễn à 5 S1 11211201 1122121021116 18

1 Phân chia số liệu :+ 22+t222211222211222211221211.2111 112.011.1 19

2 Mô hình hồi quy logistic s5: 5 s9 221511211211 121111211212 1 2x6 20

3 Dự đoán cho dữ liệu “tesf” c1 1 HT HS ng n Ty 22

1 Một số mô hình mở rộng 2 S12 2211121111111 112111121121111 xe 23

ca na 25

3 Ưu điểm và nhược điểm của các phương pháp sử dụng - 25

VII Nguồn dữ liệu và nguồn ©ode - o° 2< se ccs se se ecs csesee 27

TÀI LIỆU THAM KHẢO - 5-2-2 se ceecsceseEsere ceeesereceerersee 28

Trang 5

Gid tri quan trắc, các loại biến

Đồ thị hình hộp khả năng uống được theo pH

Đồ thị hình hộp khả năng uống được theo Hardness (Độ cứng)

Đồ thị hình hộp khả năng uống được theo Solids

Đồ thị hình hộp khả năng uống được theo Chloratmines

Đồ thị hình hộp khả năng uống được theo Sulfate

Đồ thị hình hộp khả năng uống được theo Conduetivity

Đồ thị hình hộp khả năng uống được theo Organic_carbon

Đồ thị hình hộp khả năng uống được theo Trihalomethanes

Đồ thị hình hộp khả năng uống được theo Turbidity

Trang 6

L Giới thiệu dữ liệu

1 Bối cảnh:

Vấn đề tiếp cận nguồn nước uống an toàn là điều cần thiết cho sức khỏe, một quyền cơ bản của con người và là một phần của chính sách bảo vệ sức khỏe hiệu quả Đây là vấn đề quan trọng về sức khỏe và phát triển ở cấp quốc gia, khu vực và địa phương Ở một số vùng, người ta đã chứng minh rằng đầu tư vào cấp nước và vệ sinh

có thể mang lại lợi ích kinh tế ròng vì việc giảm các tác động tiêu cực đến sức khỏe và

chi phi chăm sóc sức khỏe lớn hơn chi phí thực hiện các biện pháp can thiệp

Tập tin “Water_potability.csv” chứa số liệu chất lượng nước cho 3276 vùng nước khác nhau Với dữ liệu gốc được cung cấp tại:

Giá trị pH thông số đánh giá sự cân băng

phép từ 6,5 đến 8,5)

Hardness Liên tục | mg/L

Canx1 va Magié gay ra

Khả năng hòa tan nhiều loại khoáng chất vô

natrI, ( mong muon la 500 mg/l; gidi han

tối đa là 1000 mg/])

nước (Mức clo an toàn lên tới 4 mg/L)

Là những chất xuất hiện tự nhiên trong khoáng chat, dat va da, ké ca trong không

thực phâm (ở các nguồn cung cấp nước ngọt dao động từ 3 đến 30 mø/L)

Conductivity Liéntuc | uS/cm | Quá trình lon của dung dịch cho phép nó

5

Trang 7

truyền dòng điện (giá trị EC không vượt quá

400 wS/cm)

Tổng lượng cacbon hữu cơ (TOC) trong nước nguôồn đến từ quá trình phân hủy chất

đã qua xử lý/nước uống và < 4 mg/Lít là nước được sử dụng để xử lý)

Những hóa chất có thể tìm thấy trong nước

Trihalomethanes | Liên tục ppm_ | được xử lý bằng clo ( Mức THM an toàn khi

lên tới 80 ppm trong nước uống )

Độ đục của nước (Giá trị độ đục khuyên

Turbidity Lién tuc NTU ;

nghi la 5,00 NTU)

Portability Phân loại (1 có nghĩa là có thê uống được; 0 có nghĩa

là không thê uống được)

e) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

Trang 8

Thống kê mô tả được sử dụng để tóm tắt và vẽ biểu đồ đữ liệu cho một nhóm mẫu đã chọn Quá trình này giúp hiểu rõ tập hợp các quan sát cụ thể đó Hiểu đơn giản

là bạn chỉ cần lấy một nhóm mẫu mà bạn quan tâm, ghi lại đữ liệu về các thành viên trong nhóm Sau đó sử dụng thống kê mô tả tóm tắt và dùng đỗ thị để trình bảy các thuộc tính của nhóm

Thống kê này được đảm bảo độ chính xác chắc chắn, vì chỉ mô tả những mẫu

mà bạn thực sự đo lường được mà không cần phải suy luận các thuộc tính về mẫu lớn hơn Quá trình này bao gồm việc lẫy một số lượng lớn các điểm dữ liệu có thể có trong mẫu và tạo nên biểu đồ tóm tắt có ý nghĩa Qua đó, giúp người đọc hiểu rõ và trực quan hóa đữ liệu hơn

Thống kê mô tả thường sử dụng các công cụ thống kê phổ biến sau để mô tả các nhóm

- Xw hướng tập trung: Sử dụng giá trị trung bình (mean) hoặc giá trị trung vị (median) dé dinh vị tâm của tập dữ liệu Thước đo này sẽ cho biết hầu hết các giá trị

giảm ở đâu

- Phân tán: Sử dụng phạm vị hoặc độ lệch chuân đề đo độ phân tán Độ phân tán

thấp chỉ ra rằng các giá trị tập trung chặt chẽ hơn xung quanh trung tâm Độ phân tán cao hơn biểu thị rằng các điểm đữ liệu rời xa trung tâm hơn

- Độ lệch: Thước đo cho biết liệu sự phân bố các giá trị là đối xứng hay sai lệch

Có thể trình bày các công cụ này bằng cách sử dụng số và đỗ thị Đây là những công cụ thống kê mô tả tiêu biểu, cũng có thế thực hiện những phân tích mô tả khác cho hợp lý Chắng hạn như đánh giá mối quan hệ của đữ liệu được ghép nổi bằng cách

sử dụng biểu đỗ tương quan và phân tán

2 Thống kê suy diễn (inferential stantistics)

Bao gồm các phương pháp ước lượng các đặc trưng của tông thế, phân tích mỗi liên hệ siữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trên cơ sở thu thập thông tin từ kết quả quan sát mẫu

Thống kê suy diễn là tất cả về khái quát hóa từ mẫu đến quân thẻ, tức là lay dit liệu từ một mẫu và đưa ra các suy luận về quân thể lớn hơn mà từ đó mâu được rút

Trang 9

ra Mục tiêu của thống kê này là rút ra kết luận từ một mẫu và khái quát hóa chúng thành một quân thê, và mẫu phải phản ánh chính xác quần thể đó Ở cấp độ rộng, cụ thé can phải làm như sau:

- Xác định quân thể chúng ta đang nghiên cứu

- Vẽ một mẫu đại diện từ quần thé do

- Sử dụng các phân tích kết hợp lấy mẫu lỗi

Lay mẫu ngẫu nhiên giúp chắc chắn rằng mẫu đại diện cho tông thể Đây là quá trình quan trọng tạo ra số liệu thống kê, chẳng hạn như giá trị trung bình, Tuy nhiên, việc thu thập một mẫu thực sự ngẫu nhiên có thể là một quá trình phức tạp Ngược lại, lây mẫu có sẵn sẽ đễ thu thập hơn, nhưng sẽ khó lấy mẫu đại diện và kết quả cũng ít chính xác hơn

Các phương pháp phổ biến nhất trong thống kê suy diễn là kiểm định giả thuyết, khoảng tin cậy và phân tích hồi quy Điều thú vị là các công cụ phân tích của thống kê này có thê tạo ra các giá trị tóm tắt tương tự như thống kê mô tả, chẳng hạn như giá trị trung bình và độ lệch chuẩn Tuy nhiên, sẽ có các cách sử dụng khác nhau khi đưa ra các kết luận, cụ thể như sau:

- Xác định quân thể chúng ta đang nghiên cứu

- Vẽ một mẫu đại điện từ quần thể đó

- Sử dụng các phân tích kết hợp lấy mẫu lỗi

Lay mẫu ngẫu nhiên giúp chắc chắn rang mau dai điện cho tổng thể Đây là quá trình quan trọng tạo ra số liệu thông kê, chẳng hạn như giá trị trung bình, Tuy nhiên, việc thu thập một mẫu thực sự ngẫu nhiên có thể là một quá trình phức tạp Ngược lại, lây mẫu có sẵn sẽ dễ thu thập hơn, nhưng sẽ khó lấy mẫu đại diện và kết quả cũng thiếu chính xác hơn

Các phương pháp phố biến nhất trong thống kê suy diễn là kiểm định giả thuyết, khoảng tin cậy và phân tích hồi quy Các công cụ phân tích của thống kê này

co thé tao ra các giá trị tóm tắt tương tự thống kê mô tả, chăng hạn như giá trị trung

binh và độ lệch chuân Tuy nhiên, sẽ có các cách sử dụng khác nhau khi đưa ra các kết luận, cụ thê:

Trang 10

- Kiểm định giả thuyết

Phương pháp kiểm tra giả thuyết sử dụng dữ liệu mẫu trả lời các câu hỏi sau:

° Quan thể có ý nehĩa lớn hơn hay nhỏ hơn so với một g1á trị cụ thể?

® Là phương tiện của hai hoặc nhiều quần thể khác nhau?

Ví dụ: Nếu chúng ta nghiên cứu hiệu quả của một loại thuốc mới bằng cách so sánh kết quả trong nhóm điều trị và kiểm soát Các thử nghiệm giả thuyết có thể cho biết liệu tác dụng của thuốc mà chúng ta quan sát được trong mẫu có khả năng tổn tại trong toàn quân thế hay không

Tất nhiên, chúng ta không muốn sử dụng thuốc nếu nó chỉ có hiệu quả trong một mẫu cụ thể Thay vào đó, chúng ta cần bằng chứng cho thấy nó sẽ hữu ich trong toàn bộ bệnh nhân Các thử nghiệm giả thuyết cho phép chúng ta rút ra các loại kết luận này về toàn bộ quân thê

- Khoang tin céy (Cis)

Trong thống kê suy diễn, mục tiêu chính là ước tính các tham số quần thể Các

tham số này là các giá trị chưa biết trong toàn bộ tập hợp, chăng hạn như giá trị trung bình và độ lệch chuẩn Các giá trị tham số này hầu như không thê biết được Thông thường, nó không thể đo lường toàn bộ tham số Lấy mẫu lỗi tạo ra sự không chắc chăn hoặc sai sô xung quanh các ước tính

Giả sử xác định quần thé là tat cả cầu thủ bóng đá ở trường trung học Sau đó,

lây một mẫu ngẫu nhiên từ quân thê nảy và tính chiều cao trung bình là 181 cm Ước

tính mẫu này là 181cm là ước tính tốt nhất về chiều cao trung bình của quân thể Tuy nhiên, chắc chăn rắng ước tính này về tham sô quân thê có thê không chính xác

Khoảng tin cậy kết hợp sự không chắc chắn và mẫu lỗi để tạo ra một loạt các

giá trị Các giá trị nay là giá trị quan thể thực tế sẽ rơi vào bên trong Ví dụ: khoảng tin cậy [176: 186] chỉ ra rằng chắc chắn trung bình quân thể thực sự nằm trong phạm vi này

- Phân tích hoi quy

Phân tích hồi quy mô tả mối quan hệ giữa một tập hợp các biến độc lập và một biến phụ thuộc Phân tích này kết hợp các thử nghiệm giả thuyết giúp xác định xem

9

Trang 11

các mối quan hệ quan sát được trong dữ liệu mẫu có thực sự tén tai trong quan thé hay khôn

3 Hoi quy logistic

a) Khái nệm

Hồi quy logistic là một kỹ thuật phân tích đữ liệu sử dụng toán học để tìm ra mỗi quan hệ giữa hai yếu tố dữ liệu Sau đó, kỹ thuật này sử dụng mỗi quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không

Vi du: gia st bạn muốn đoán xem khách truy cập trang web của bạn sẽ nhấp vào nút thanh toán trong giỏ hàng của họ hay không Phân tích hồi quy logistic xem xét hành vi của khách truy cập trước đây, chẳng hạn như thời gian đành cho trang web

và số lượng các mặt hàng trong øiỏ hàng Quá trình phân tích này xác định rằng, trước đây, nếu khách truy cập dành hơn năm phút trên trang web và thêm hơn ba mặt hàng vào giỏ hàng, họ sẽ nhấp vào nút thanh toán Nhờ vảo thông tin này, sau đó, hàm hồi quy logistic có thế dự đoán hành vi của một khách mới truy cập trang web

b) Mô hình hồi quy Logistic

Hàm hồi quy logistic: Hồi quy logistic là một mô hình thông kê sử dụng hàm logistic, hay ham logit trong toan hoc làm phương trình giữa x và y Hàm logit ánh xạ

y lam ham sigmoid cua x:

TT = +e

Néu vé phuong trinh héi quy logistic nay, ta sẽ có một đường cong hình chữ S như hình dưới đây:

Hinh 1: £6 thi hoi quy Logistic

10

Trang 12

Có thê thay, ham logit chỉ trả về các giá trị giữa 0 và 1 cho biến phụ thuộc, dù giá trị của biến độc lập là gi Đây là cách hồi quy logistic ước tính giá trị của biến phụ

thuộc Và mốc xác suất để hàm logit trả về giá trị 0 hoặc 1 được gọi là giá trị ngưỡng

Có thể sử dụng một giá trị ngưỡng t|0<t<1]

Nếu P [y=1]>t: dự báo y=1Nếu P |y=0]<t: dự báo y=0 Thông thường chọnt= 0.5

Phương pháp hỏi quy logistic cũng lập mô hình phương trình giữa nhiều biến

độc lập và một biến phụ thuộc Trong nhiều trường hợp, nhiều biến giải thích ảnh

hưởng đến gia tri cua bién phụ thuộc Để lập mô hình các tập dữ liệu đầu vào như vậy, công thức hồi quy logistic phải giả định mối quan hệ tuyến tính giữa các biến độc lập khác nhau Có thê sửa đôi ham sigmoid và tính toán biến đầu ra cuối cùng như sau:

“

Le (Bot Bint Bact Boa]

f (Bot ByX + BoXp* nXnal=

Ky hiéu B dai dién cho hé s6 héi quy M6 hinh logit co thé dao nguge tinh toan

các giá trị hệ số này khi bạn cho nó một tập dữ liệu thực nghiệm đủ lớn có các giá trị

đã xác định của cả hai biến phụ thuộc và biến độc lập

HI Tiền xử lý số liệu

1 Đọc dữ liệu

Đầu tiên, chúng ta sẽ nhập những thư viện cần thiết sẽ sử dụng sau này: ggplot2, dplyr, plotly, cowplot, caret, ved, ResourceSelection, pROC, corrplot

Đọc dữ liệu bằng zezđ.csv và dùng lệnh #ezđ hiển thị dữ liệu lên màn hình để

kiểm tra xem đữ liệu có được nhập thành công hay không

11

Trang 13

Hình 2: Code R va két quả sau khi đọc dữ liệu

2 Kiểm tra, xử lí dữ liệu khuyết

Hinh 3: Code R va két quả khi đọc đữ liệu khuyết

Sulfate

781 Potabi lity

Nhóm nhận thấy rằng tông số số đữ liệu khuyết rat lớn (>10%) nên nhóm xử lí

đữ liệu khuyết bằng cách thay dữ liệu khuyết bằng trung vị của từng cột

12

Trang 14

+ Ttutate(ph new = case when(is.na(ph) ~ median(ph, nma.rm = TRUE), TRUE ~ ph)) -> df

- Thông kê dữ liệu

Đâu tiên, nhóm sẽ hiện thi tong quan ve di liệu bắng cách sử dụng summary(data)

> summary (df)

Trang 15

Hình 7: Số giá tri quan trac, các loại bién

IV Thống kê mô tả

Chúng tôi sử dụng boxplot để biếu thị các biên liên tục bao gồm “pH”,

“Hardness”, “Solids”, “Chloramines”, “Sulfate”, “Conductivity”, “Oreanic carbon”,

“Irnihalomethanes”, “Turbidity” Các ô vuông này được sử dụng để hiển thị gia tri trung vị, xác định phạm vi liên vùng (IQR), phát hiện độ lệch, xác định các giá trị ngoại lệ và so sánh các phân phối

1 DO thi Histogram va Boxplot cua cac bién

9, pH tập trung cao nhất trong khoảng 7-§ với 1177 giá trị với giá trị trung vị 7,037

Khoảng trung bình 7,074 không lệch nhiều so với giá trị trung vị (phù hợp với khoảng tập trung của pH) Giá trị pH có tính tập trung

Hinh 9: Pé thi hình hộp khả năng uống được theo Hardness (Độ cứng) Nhận xét: CHã tri Hardness tập trung cao trong khoảng 160-220 ( mg/L), tập trung cao nhất 180-200 (mg/L) với 852 giá trị, giá trị trung vị 196,97 mg/L Gia tri

14

Tiêu đề	Dự Đoán Khả Năng Uống Được Của Nước
Người hướng dẫn	TS. Phan Thị Hương
Trường học	Đại Học Quốc Gia TPHCM
Chuyên ngành	Xác Suất Và Thống Kê
Thể loại	báo cáo
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	30
Dung lượng	3,61 MB