BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT VÀ THỐNG KÊ ĐỀ TÀI SỬ DỤNG MÔ HÌNH HỒI QUY ĐỂ CHUẨN ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC

41 3 0
BÁO CÁO BÀI TẬP LỚN MÔN XÁC SUẤT VÀ THỐNG KÊ ĐỀ TÀI SỬ DỤNG MÔ HÌNH HỒI QUY ĐỂ CHUẨN ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA

 BÁO CÁO BÀI TẬP LỚNMÔN XÁC SUẤT VÀ THỐNG KÊ

ĐỀ TÀI:

SỬ DỤNG MÔ HÌNH HỒI QUY ĐỂ

CHUẨN ĐOÁN CHẤT LƯỢNG NGUỒN NƯỚC Khoa Kỹ thuật hóa học

Lớp L11 - Nhóm 11 – HK 232GVHD: TS Nguyễn Bá Thi

Trang 2

BÁO CÁO KẾT QUẢ LÀM VIỆC NHÓM

3 Lý Khánh Linh 2211852 Chương 6Tổng hợp

Trang 3

1.2 Giải thích mô hình hồi quy logistic 3

1.3 Phân loại các mô hình hồi quy logistic 5

1.4 Mô hình tối ưu 6

2 Mô hình ANOVA 8

2.1Kháiniệm 8

2.2 Giải thích mô hình ANOVA 8

2.3 Phân loại mô hình ANOVA 9

CHƯƠNG 3: TIỀN XỬ LÝ SỐ LIỆU 10

1.Đọc dữ liệu 10

2.Làm sạch dữ liệu (Data cleaning) 10

CHƯƠNG 4: THỐNG KÊ MÔ TẢ 13

1.Làm rõ dữ liệu 13

2.Tạo bảng tần số và vẽ biểu đồ thống kê tần số cho biến “Potability” 13

3.Vẽ biểu đồ cho các biến liên tục 14

3.1 Biểu đồ Histogram 14

3.2 Biểu đồ hộp Boxplot 19

3.3 Thực hiện vẽ ma trận tương quan cho các yếu tố 23

CHƯƠNG 5: THỐNG KÊ SUY DIỄN 25

1 Mô hình hồi quy logistic 25

2 Mô hình ANOVA một nhân tố 31

2.1 Kiểm định tính phân phối chuẩn 31

2.2 Kiểm định tính đồng nhất của phương sai 31

CHƯƠNG 6: THẢO LUẬN VÀ MỞ RỘNG 33

TÀI LIỆU THAM KHẢO 35

Trang 4

DANH MỤC HÌNH ẢNH

Hình 3.1 Kết quả khi đọc dữ liệu và xem 10 dòng đầu tiên của dữ liệu 11

Hình 3.2 Code R và kết quả khi kiểm tra dữ liệu khuyết trong water 12

Hình 3.3 Code R và kết quả khi kiểm tra lại dữ liệu khuyết hay không 12

Hình 3.4 Code R và kiểm tra các cột số có âm hay không 13

Hình 4.1 Code R khi phân loại biến 14

Hình 4.2 Code R và kết quả sau khi tính các giá trị thống kê mô tả 14

Hình 4.3 Code R và kết quả sau khi tạo bảng tần số 14

Hình 4.4 Code R và biểu đồ thống kê tần số cho biến Potability 15

Hình 4.5 Biểu đồ histogram thể hiện phân phối của biến pH 16

Hình 4.6 Biểu đồ histogram thể hiện phân phối của biến Hardness 16

Hình 4.7 Biểu đồ histogram thể hiện phân phối của biến Solids 17

Hình 4.8 Biểu đồ histogram thể hiện phân phối của biến Chloramines 17

Hình 4.9 Biểu đồ histogram thể hiện phân phối của biến Sulfate 18

Hình 4.10 Biểu đồ histogram thể hiện phân phối của biến Conductivity 18

Hình 4.11 Biểu đồ histogram thể hiện phân phối của biến Organic_carbon 19

Hình 4.12 Biểu đồ histogram thể hiện phân phối của biến Trihalomethanes 19

Hình 4.13 Biểu đồ histogram thể hiện phân phối của biến Turbidity 20

Hình 4.14 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “ph” vào biến “Potability” 21

Hình 4.15 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Hardness” vào biến “Potability”21 Hình 4.16 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Solids” vào biến “Potability” 22

Hình 4.17 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Chloramines” vào biến “Potability” 22

Hình 4.18 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Sulfate” vào biến “Potability” 22

Hình 4.19 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Conductivity” vào biến

Hình 4.22 Biểu đồ boxplot thể hiện sự phụ thuộc của biến “Turbidity” vào biến “Potability”24 Hình 4.23 Kết quả kiểm tra ma trận tương quan giữa các yếu tố 24

Trang 5

Hình 4.24 Đồ thị ma trận tương quan giữa các yếu tố 25

Hình 5.1: Code R và tập dữ liệu train_data 26

Hình 5.2: Code R và tập dữ liệu test_data 26

Hình 5.3: Kết quả của mô hình hồi quy logistic 28

Hình 5.4 : Kết quả tổng quan của mô hình hồi quy logistic 28

Hình 5.5 : Kết quả khoảng tin cậy cho βi 29

Hình 5.6: Kết quả tỷ lệ chênh lệch và khoảng tin cậy cho tỷ lệ chênh lệch 29

Hình 5.7: Kết quả tập dự đoán Test_data 30

Hình 5.8: Kết quả đồ thị ROC dự đoán 31

Hình 5.9: Kết quả kiểm định tính phân phối chuẩn độ pH bằng Shapiro-Wilk 32

Trang 6

CHƯƠNG 1 : TỔNG QUAN DỮ LIỆU1 Ngữ cảnh dữ liệu

Hiện nay, môi trường nước trên toàn cầu đang phải đối mặt với nhiều vấn đề nghiêm trọng Sự ô nhiễm nước từ các nguồn gốc khác nhau như công nghiệp, nông nghiệp và sinh hoạt đô thị đã ngày càng trở thành vấn đề quan tâm lớn Các chất ô nhiễm như hóa chất độc hại, thuốc trừ sâu, phân bón hóa học thường xuyên được xả thải vào các dòng sông, hồ và biển, gây ảnh hưởng đến hệ sinh thái nước Sự thải ra môi trường của chất thải nhựa cũng đang tạo ra một vấn đề khác biệt lớn, ảnh hưởng đến sinh vật biển và cả con người Ngoài ra, sự mất rừng và biến đổi đất đai cũng làm giảm chất lượng và lượng nước ngầm, ảnh hưởng đến nguồn cung cấp nước sạch cho cộng đồng Biến đổi khí hậu, với tác động của nó đến tăng mực nước biển và mưa lớn, cũng đang tạo ra sự biến đổi nghiêm trọng trong môi trường nước.

2 Thu thập dữ liệu

Bằng hai phương pháp hồi quy logistic và ANOVA để phân tích “Chất lượng nước - Khả năng uống nước uống” (Water Quality - Drinking water potability).

3 Các biến trong dữ liệu

- ph: pH là một thông số quan trọng trong việc đánh giá cân bằng axit-bazơ của nước WHO đã khuyến nghị giới hạn pH tối đa cho phép là từ 6,5 đến 8,5 Phạm vi điều tra hiện tại là 6,52–6,83, nằm trong phạm vi tiêu chuẩn của WHO.

- Hardness: Độ cứng ban đầu được định nghĩa là khả năng của nước làm kết tủa xà phòng do Canxi và Magiê gây ra Tính bằng lượng miligram trên lít (mg/L).

- Solids (Total dissolved solids - TDS): Đây là thông số quan trọng cho việc sử dụng nước Nước có giá trị TDS cao chứng tỏ nước có độ khoáng hóa cao Giới hạn mong muốn đối với TDS là 500 mg/l và giới hạn tối đa là 1000 mg/l được quy định cho mục đích uống.

- Chloramines: Mức clo lên tới 4 miligam mỗi lít (mg/L hoặc 4 phần triệu (ppm)) được coi là an toàn trong nước uống Lượng Chloramines có trong nước, tính bằng ppm.

- Sulfate: Nồng độ sunfat trong nước biển là khoảng 2.700mg/L Nó dao động từ 3 đến 30 mg/L trong hầu hết các nguồn cung cấp nước ngọt, mặc dù nồng độ cao hơn

Trang 7

nhiều (1000 mg/L) được tìm thấy ở một số vị trí địa lý Lượng lưu huỳnh hòa tan, tính bằng mg/L.

- Conductivity: Lượng chất rắn hòa tan trong nước quyết định độ dẫn điện Độ dẫn điện (EC) thực sự đo quá trình ion của dung dịch cho phép nó truyền dòng điện Theo tiêu chuẩn của WHO, giá trị EC không được vượt quá 400 μS/cm

- Organic_carbon: Tổng lượng cacbon hữu cơ (TOC) là thước đo tổng lượng carbon trong các hợp chất hữu cơ trong nước tinh khiết Theo US EPA < 2 mg/L dưới dạng TOC trong nước đã qua xử lý/nước uống và < 4 mg/Lít trong nguồn nước được sử dụng để xử lý.

- Trihalomethanes (THM): THM là những hóa chất có thể tìm thấy trong nước được xử lý bằng clo Nồng độ THM trong nước uống thay đổi tùy theo mức độ chất hữu cơ trong nước, lượng clo cần thiết để xử lý nước và nhiệt độ của nước đang được xử lý Mức THM lên tới 80 ppm được coi là an toàn trong nước uống.

- Turbidity: Độ đục của nước phụ thuộc vào lượng chất rắn có ở trạng thái lơ lửng Nó là thước đo đặc tính phát sáng của nước và thử nghiệm được sử dụng để chỉ ra chất lượng xả thải đối với chất keo Thước đo đặc tính phát quang của nước đo bằng NTU (Nephelometric Turbidity Units) Giá trị độ đục trung bình thu được tại Cơ sở Wondo Genet (0,98 NTU) thấp hơn giá trị khuyến nghị của WHO là 5,00 NTU

- Potability: Cho biết nước có an toàn cho con người hay không với uống được là 1 và không uống được là 0.

Trang 8

CHƯƠNG 2 : KIẾN THỨC NỀN1 Hồi quy logistic

1.1 Khái niệm

Phương pháp hồi quy logistic là một phương pháp trong thống kê được sử dụng khi biến phụ thuộc (dependent variable) là một biến phân loại (categorical variable) hoặc biến đo lường ở mức độ thứ bậc (ordinal variable) Phương pháp này thường được sử dụng để dự đoán xác suất xảy ra của một sự kiện, dựa trên các biến độc lập (independent variables).

Cụ thể, hồi quy logistic thường được sử dụng khi chúng ta muốn dự đoán xác suất của một sự kiện như "có" hoặc "không có", "thành công" hoặc "không thành công", "được phân loại vào nhóm A" hoặc "nhóm B", v.v…

Ví dụ:

- Dự đoán xác suất một học sinh đậu (1) hoặc trượt (0) kỳ thi dựa vào số giờ học.

- Dự đoán xác suất một khách hàng mua sản phẩm (1) hoặc không mua (0) dựa vào độ tuổi, thu nhập, v.v.

Kết quả của mô hình hồi quy logistic thường là xác suất của biến phụ thuộc thuộc vào các giá trị của biến độc lập Mô hình này được sử dụng rộng rãi trong nghiên cứu y học, khoa học xã hội, kinh tế, và nhiều lĩnh vực khác để phân tích và dự đoán các sự kiện nhị phân, ví dụ như dự đoán bệnh lý, quyết định tín dụng, hoặc đánh giá tác động của các biến độc lập lên kết quả cụ thể.

Trong hồi quy logistic, phép biến đổi logit được áp dụng theo tỷ lệ cược (odds) - tức là xác suất thành công chia cho xác suất thất bại Đây còn được gọi là tỷ lệ log odds hoặc logarit tự nhiên của tỷ lệ cược (odds) và hàm logistic này được biểu thị

1.2 Giải thích mô hình hồi quy logistic

Tỷ lệ log odds có thể khó hiểu trong quá trình phân tích dữ liệu hồi quy logistic Do đó, việc lũy thừa ước tính β là phổ biến để chuyển đổi kết quả thành tỷ lệ chênh

Trang 9

lệch (odds ratio_OR), giúp dễ dàng giải thích kết quả OR biểu thị tỷ lệ cược (odds) rằng một kết quả sẽ xảy ra trong một sự kiện cụ thể, so với tỷ lệ cược(odds) xảy ra khi không có sự kiện đó

Nếu OR > 1 thì sự kiện đó có tỷ lệ tạo ra kết quả cụ thể cao hơn

Ngược lại, nếu OR < 1 thì sự kiện đó có tỷ lệ xảy ra kết quả đó thấp hơn

Dựa trên phương trình ở trên, việc giải thích tỷ lệ chênh lệch(odds ratio) có thể được biểu thị như sau: tỷ lệ thành công thay đổi theo exp(cB_1) lần cho mỗi lần tăng c-đơn vị trong x.

- Uớc tính khả năng tối đa (maximum likelihood estimation MLE) với Likelihood:

+ Xét mô hình hồi quy logictis dạng tổng quát: yi=E(yi)+εi Trong đó yi là biến độc lập phân phối Bernoulli với tham số pi

Lấy đạo hàm hai vế và xác định xi'β sao cho đạo hàm bằng 0

Theo ước lượng cực đại để xác định^xi'β sao cho hàm số L(xi'β¿ đạt giá trị cực đại.

xi'β=yin

Trang 10

Theo phân phối chuẩn: Giả sử biến ngẫu nhiên X1, X2,…, Xn tuân theo quy luận phân phối chuẩn N(μ,σ2¿. f(X|μ,σ2)= 1

Lấy đạo hàm hai vế theo μ,σ2 và xác định sao cho đạo hàm bằng 0 Theo ước lượng cực đại để xác định μ,σ2 sao cho hàm số L đạt giá trị cực đại.

- Nhận xét: Không có công thức tường minh cho ước lượng β như hồi quy tuyến tính Ước lượng sử dụng các thuật toán tối ưu hóa(Gradient Descent, Phương pháp Newton-Raphson, Solyer của Excel )

- Ước tính hệ số βi:

+Hệ số chặn (Intercept) β0 tỉ lệ log odds khi tất các yếu tố dự đoán là 0 + βi chênh lệch trong tỉ lệ log odds (odds ratio): βi=logoddsi+1

Trang 11

- Khi biến x tăng 1 đơn vị thì giá trị log(Odds) tăng β đơn vị - Khi x tăng 1 đơn vị thì tỉ số Odds tang lên exp(β) lần - β > 0: x càng lớn, xác suất để y =1 càng lớn

- β < 0: x càng lớn, xác suất để y = 1 càng nhỏ

1.3 Phân loại các mô hình hồi quy logistic

Có 3 loại mô hình hồi quy logistic, bao gồm:

Hồi quy logistic nhị phân (Binary Logistic Regression): là một phương pháp

sử dụng để dự đoán xác suất của một biến phụ thuộc nhị phân (categorical variable có hai nhóm), dựa trên các biến độc lập (independent variables) Tức là nó chỉ có 2 kết quả “có” hoặc “không”, “0” hoặc “1”

Ví dụ như dự đoán xem một cái bánh có bị hỏng hay không hay dự đoán xem một người có bị tiểu đường hay không Trong hồi quy logistic, đây là cách tiếp cận được sử dụng phổ biến nhất và nói chung hơn, nó là một trong những cách phân loại phổ biến nhất để phân loại nhị phân.

Hồi quy logistic đa thức (Multinomial Logistic Regression): Là một phương

pháp được sử dụng khi biến phụ thuộc là biến phân loại (categorical variable) có ba hoặc nhiều hơn hai nhóm (categories), không chỉ là biến nhị phân như trong hồi quy logistic nhị phân Mục tiêu của loại hồi quy này để dự đoán xác suất của mỗi nhóm (category) của biến phụ thuộc, dựa trên các biến độc lập, hay xác định mức độ ảnh hưởng của các biến độc lập đến xác suất của từng nhóm

Ví dụ: Giả sử chúng ta muốn dự đoán xác suất của mỗi loại sản phẩm (A, B, C) một khách hàng có thể mua dựa vào độ tuổi và thu nhập Chúng ta sử dụng mô hình hồi quy logistic đa thức để dự đoán xác suất mỗi loại sản phẩm mà khách hàng có thể mua Sau đó, chúng ta có thể đánh giá hiệu suất của mô hình bằng các phương pháp như đã nêu ở trên.

Hồi quy logistic theo thứ tự (Ordinal Logistic Regression): Là một phương

pháp được sử dụng khi biến phụ thuộc là biến phân loại ở mức độ thứ bậc (ordinal variable), có thứ tự như "thấp", "trung bình", "cao" hoặc "rất không hài lòng", "không hài lòng", "hài lòng", "rất hài lòng" Hồi quy logistic thứ tự dùng để dự đoán xác suất của mỗi mức độ thứ bậc của biến phụ thuộc, dựa trên các biến độc lập hoặc xác định mức độ ảnh hưởng của các biến độc lập đến xác suất của từng mức độ

Trang 12

Ví dụ: Giả sử chúng ta muốn dự đoán mức độ hài lòng về một sản phẩm từ khách hàng, với các mức độ "rất không hài lòng", "không hài lòng", "hài lòng", "rất hài lòng" Chúng ta sử dụng mô hình hồi quy logistic thứ tự để dự đoán xác suất của mỗi mức độ dựa vào các biến độc lập như giá sản phẩm, chất lượng, v.v Sau đó, chúng ta có thể đánh giá hiệu suất của mô hình để hiểu rõ hơn về mức độ ảnh hưởng của các biến độc lập đến mức độ hài lòng của khách hàng.

1.4 Mô hình tối ưu

Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi qui logistic đa biến là chọn một mô hình để có thể mô tả đầy đủ dữ liệu Một nghiên cứu với một biến phụ thuộc y và 3 biến độc lập x1, x2 và x3, chúng ta có thể có những mô hình sau đây để tiên đoán y:

y=f(x1), y=f(x2), y=f(x3), y=f(x1,x2), y=f(x1,x3), y=f(x2, x3),và y=f (x1,x2,x3)

trong đó f là hàm số Nói chung với k biến độc lập x1, x2, x3, , xk, chúng ta có rất nhiều mô hình (2k) để tiên đoán y Một mô hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây:

Đơn giản: Một mô hình nên được thiết kế sao cho đơn giản nhất có thể mà vẫn giải quyết được vấn đề cụ thể Lý do chính là để tránh overfitting (quá khớp) và làm cho mô hình tổng quát hóa tốt hơn trên dữ liệu mới, không được sử dụng trong quá trình huấn luyện.

Trang bị quá mức: Đây là hiện tượng khi mô hình quá phức tạp và "học nhớ" cụ thể từng điểm dữ liệu trong tập huấn luyện mà không tổng quát hóa được cho dữ liệu mới Điều này có thể dẫn đến kết quả dự đoán không chính xác khi áp dụng mô hình vào dữ liệu thực tế Một mô hình đơn giản có thể giúp giảm overfitting và cải thiện khả năng tổng quát hóa của mô hình.

Đầy đủ: Mô hình cần phải đủ mạnh để có khả năng giải quyết vấn đề được đặt ra Điều này có nghĩa là mô hình cần phải chứa đựng đủ thông tin và biến động của dữ liệu để có thể dự đoán và giải thích được kết quả một cách hiệu quả.

Trang bị đầy đủ: Ngược với trang bị quá mức, trang bị đầy đủ xảy ra khi mô hình quá đơn giản và không có đủ khả năng biểu diễn sự biến động trong dữ liệu Kết quả là mô hình không thể dự đoán và giải thích được dữ liệu Một mô hình đủ mạnh sẽ giúp

Trang 13

chúng ta tránh tình trạng underfitting và đảm bảo mô hình có khả năng giải quyết vấn đề được đặt ra.

Thực tế: Mô hình cần phải phản ánh một cách chân thực nhất có thể mối quan hệ giữa các biến và kết quả của mô hình trong thực tế Điều này đảm bảo rằng mô hình có thể được sử dụng để đưa ra dự đoán và quyết định hợp lý dựa trên những thông tin có sẵn.

Khả năng giải thích: Một mô hình thực tế cũng nên có khả năng giải thích được dự đoán của mình Điều này giúp người sử dụng hiểu được lý do vì sao mô hình đưa ra dự đoán cụ thể và cách các biến độc lập ảnh hưởng đến kết quả Khi một mô hình đơn giản, đầy đủ và thực tế, chúng ta có được một công cụ mạnh mẽ và hiệu quả để dự đoán, giải thích và đưa ra quyết định từ dữ liệu Điều này đồng thời cũng giúp tăng tính ứng dụng và tin cậy của mô hình trong thực tế.

2 Mô hình ANOVA2.1 Khái niệm

Phương pháp ANOVA (Analysis of Variance) là một phương pháp thống kê được sử dụng để kiểm tra sự khác biệt trung bình giữa ba hoặc nhiều nhóm Nó cho phép chúng ta xác định xem liệu có sự khác biệt ý nghĩa giữa các nhóm này không, thông qua việc so sánh phương sai (variance) của các nhóm Với mục tiêu xác định xem có sự khác biệt ý nghĩa giữa ít nhất hai nhóm trung bình hay không hay Phát hiện và đánh giá ảnh hưởng của các biến độc lập đến biến phụ thuộc.

2.2 Giải thích mô hình ANOVA

Đầu tiên, cấu trúc của mô hình ANOVA bao gồm: Biến phụ thuộc, biến độc lập, các nhóm

Biến Phụ Thuộc (Dependent Variable): Đây là biến mà chúng ta quan tâm đến sự khác biệt giữa các nhóm Ví dụ: điểm số, chiều cao, hoặc lượng chất lượng sản phẩm.

Biến Độc Lập (Independent Variable): Đây là biến mà chúng ta muốn kiểm tra ảnh hưởng đến biến phụ thuộc Ví dụ: loại phương pháp điều trị, loại phân loại, hoặc nhóm đối tượng.

Các Nhóm (Groups): Là các phân loại, nhóm của biến độc lập mà chúng ta muốn so sánh Ví dụ: nhóm A, nhóm B, nhóm C.

Trang 14

Giả thiết trong ANOVA bao gồm 2 giả thiết: Giả thiết không có sự khác biệt và giả thiết có sự khác biệt Trong giả thiết không có sự khác biệt được thể hiện dưới dạng sau: H0: μ1¿μ3=…=μk Vậy trong giả thiết không có sự khác biệt này thì trung bình tất cả các nhóm bằng nhau Tiếp đến, trong giả thiết có sự khác biệt: H1 được hiểu là ít nhất một cặp trung bình khác nhau

Cách thức thực hiện phân tích phương sai (Variance Analysis): Tính toán phương sai giữa các nhóm (SSB) và phương sai bên trong các nhóm (SSW)

Trong đó:

SSB: Độ biến động giữa các nhóm.

SSW: Độ biến động bên trong từng nhóm

F-Statistic: Sử dụng kiểm định F để so sánh tỉ lệ giữa SSB và SSW Giá trị F lớn đồng nghĩa với sự khác biệt ý nghĩa giữa các nhóm

G-Giá Trị p (p-value):Giá trị p được sử dụng để xác định xem có đủ bằng chứng để bác bỏ giả thiết không có sự khác biệt hay không Nếu p-value nhỏ hơn mức ý nghĩa α đã chọn, ta bác bỏ giả thiết H0 và kết luận rằng có sự khác biệt trung bình giữa ít nhất hai nhóm.

2.3 Phân loại mô hình ANOVA

Có 3 loại mô hình ANOVA chính: ANOVA một nhân tố, ANOVA hai nhân tố, ANOVA MANOVA:

- Mô hình ANOVAmột nhân tố: là một loại thử nghiệm thống kê so sánh

phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét một yếu tố hoặc một biến độc lập Phương sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm phân loại để xác định xem có sự khác biệt giữa chúng hay không Trong mỗi nhóm nên có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh

Ví dụ như: Bạn có thể sử dụng phân tích phương sai một yếu tố để tìm hiểu liệu

hiệu suất kiểm tra có khác nhau hay không dựa trên mức độ lo lắng giữa các học sinh (chia học sinh thành ba nhóm độc lập: học sinh thấp, trung bình và cao bị căng thẳng).

một yếu tố Với một yếu tố, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc.

Ví dụ: bạn có thể sử dụng phân tích ANOVA hai yếu tố để tìm hiểu liệu có sự tương tác giữa giới tính và trình độ học vấn đối với sự lo lắng kiểm tra giữa các sinh

Trang 15

viên đại học Trong đó giới tính (nam / nữ) và trình độ học vấn (đại học / sau đại học) là các biến độc lập của bạn, và kiểm tra lo lắng là biến phụ thuộc của bạn.

- Mô hình ANOVA MANOVA (Multivariate Analysis of Variance) là một

phương pháp thống kê mở rộng của ANOVA, được sử dụng khi có hai hoặc nhiều biến phụ thuộc (dependent variables) mà chúng ta muốn kiểm tra sự khác biệt trung bình giữa các nhóm Điều này có ý nghĩa rằng MANOVA cho phép chúng ta đánh giá sự ảnh hưởng của các biến độc lập đến nhiều biến phụ thuộc cùng một lúc Mục tiêu của mô hình này là xác định xem có sự khác biệt trung bình giữa các nhóm đối với tất cả các biến phụ thuộc hay không Đánh giá tác động đồng thời của các biến độc lập lên nhiều biến phụ thuộc Và tối ưu hóa sức mạnh thống kê và giảm độ biến thiên không cần thiết.

Trang 16

CHƯƠNG 3 : TIỀN XỬ LÝ SỐ LIỆU

Hình 3.1 Kết quả khi đọc dữ liệu và xem 10 dòng đầu tiên của dữ liệu

2 Làm sạch dữ liệu (Data cleaning)

Tạo một dữ liệu mới, giữ lại các biến và thay thế dữ liệu water cũ Kiểmtra dữ liệu khuyết trong water.

# làm sạch dữ liệu, giữ lại các biến chính cần thiết

Trang 17

Hình 3.2 Code R và kết quả khi kiểm tra dữ liệu khuyết trong water

Nhận xét: Dựa vào kết quả thu được khi kiểm tra dữ liệu khuyết trong water, tanhận thấy có 491 dữ liệu khuyết tại biến ph và có 781 dữ liệu khuyết tại biến Sulfate.

Vậy nên ta cần xử lý các dữ liệu khuyết đó.

Phương pháp xử lí được đề xuất là thay thế các dữ liệu bị khuyết bằng giá trị

Kiểm tra lại xem còn dữ liệu khuyết hay không

Hình 3.3 Code R và kết quả khi kiểm tra lại dữ liệu khuyết hay không.

Trang 18

Cần kiểm tra để đảm bảo các cột số không âm

Hình 3.4 Code R và kiểm tra các cột số có âm hay không

Nhận xét: Ta nhận thấy sau khi xử lí, không còn dữ liệu khuyết.

Trang 19

CHƯƠNG 4 : THỐNG KÊ MÔ TẢ1 Làm rõ dữ liệu

Đối với biến phân loại: biến “Potability” biểu thị khả năng uống được của nước

mang giá trị “0” và “1” Trong đó “0” là không uống được và “1” là uống được.

water$Potability = as.factor(water$Potability)

Hình 4.5 Code R khi phân loại biến

Đối với biến liên tục: bao gồm các biến: “ph”, “Hardness”, “Solids”,

“Chloramines”, “Sulfate”, “Conductivity”, “Organic_carbon”, “Trihalomethanes”, “Turbidity”.

# Tìm số liệu thống kê mô tả cho các biến liên tục

Hình 4.6 Code R và kết quả sau khi tính các giá trị thống kê mô tả

2 Tạo bảng tần số và vẽ biểu đồ thống kê tần số cho biến “Potability”

#Tạo bảng tần số cho biến phân loại

Hình 4.3 Code R và kết quả sau khi tạo bảng tần số #biểu đồ thống kê tần số cho biến “Potability”

barplot(table(water$Potability),xlab = "Potability", ylab = "Frequency",main = "Barplot of Potability", col = c("lightblue","lightpink"),ylim = c (0,2000))

Trang 20

Hình 4.4 Code R và biểu đồ thống kê tần số cho biến Potability

Nhận xét: Số mẫu nước không uống được là 1998 chiếm tần suất cao hơn

khoảng 1.5 lần so với số mẫu nước uống được là 1278.

3 Vẽ biểu đồ cho các biến liên tục

Ngày đăng: 24/04/2024, 09:46

Tài liệu cùng người dùng

Tài liệu liên quan