bài tập lớn môn xác suất thống kê cơ sở lý thuyết và tính toán các giá trị thống kê mô tả

Trong mô hình phân tích phương sai 1 yếu tố, chúng ta kiểm định so sánh trung bình của biến ngẫu nhiên X ở những tổng thể còn gọi là nhóm khác nhau dựa vào các mẫu quan sát lấy từ những

CƠ SỞ LÝ THUYẾT

Bài toán kiểm định

Giả thiết không H 0 : là giả thiết về yếu tố cần kiểm định của tổng thể ở trạng thái bình thường, không chịu tác động của các hiện tượng liên quan Yếu tố trong H0 phải được xác định cụ thể:

Giả thiết đối H 1 là một mệnh đề mâu thuẫn với H0 , H1 thể hiện xu hướng cần kiểm định

Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ,Xn , 0 ), xây dựng trên mẫu ngẫu nhiên W= ( X1 , X2 , , Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặt ra với thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định

Miền bác bỏ giả thiết RR là miền số thực thỏa P(GRR /H0 đúng) = 

 là một số khá bé, thường không quá 10% và được gọi là mức ý nghĩa của kiểm định Một ký hiệu khác của miền bác bỏ được dùng trong bài: W

Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ thể của tiêu chuẩn kiểm định, gọi là giá trị kiểm định thống kê: gqs = G(x1 , x2 , , xn , 0 ) Theo nguyên lý xác suất bé, biến cố G  RR có xác suất nhỏ nên với 1 mẫu thực nghiệm ngẫu nhiên, nó không thể xảy ra Do đó:

+ Nếu gqs  RR thì bác bỏ H0 , thừa nhận giả thiết H1

+ Nếu gqs  RR : ta chưa đủ dữ liệu khẳng định H0 sai Vì vậy ta chưa thể chứng minh được H1 đúng

2.1 Các bước giải bài toán kiểm định tỷ lệ 2 tổng thể:

Bước 1: Gọi p1, p2 là tỉ lệ tổng thể 1 và tổng thể 2

Bước 4: Tính tiêu chuẩn kiểm định 𝑍 = 𝑝 ̂− 𝑝 1 ̂ 2

Bước 5: Tra bảng 1.1 và kiểm tra xem có bác bỏ H0 hay không rồi kết luận theo yêu cầu đề bài

Bảng 1.1 Tiêu chuẩn kiểm định và miền bác bỏ H 0 (RR)

2.2 Các bước giải bài toán kiểm định trung bình 2 tổng thể:

Bước 1: Gọi μ1, μ 2 là tỉ lệ tổng thể 1 và tổng thể 2

Bước 4: Tính tiêu chuẩn kiểm định theo bảng 1.2 và 1.3

5 Bước 5: Tra bảng và kiểm tra xem có bác bỏ H0 hay không rồi kết luận theo yêu cầu đề bài

Bảng 1.2 Tiêu chuẩn kiểm định theo từng kiểu phân bố của tổng thể

Bảng 1.3 Tiêu chuẩn kiểm định theo từng kiểu phân bố của tổng thể(tt)

Anova một yếu tố

Phân tích phương sai là một mô hình dùng để xem xét sự biến động của một biến ngẫu nhiên định lượng X chịu tác động trực tiếp của một hay nhiều yếu tố nguyên

6 nhân (định tính) Trong mô hình phân tích phương sai 1 yếu tố, chúng ta kiểm định so sánh trung bình của biến ngẫu nhiên X ở những tổng thể (còn gọi là nhóm) khác nhau dựa vào các mẫu quan sát lấy từ những tổng thể này Các tổng thể được phân biệt bởi các mức độ khác nhau của yếu tố đang xem xét.

 Phân tích phương sai (phân tích anova) 1 yếu tố thực chất là bài toán kiểm định trung bình của nhiều tổng thể

− SSB (hay SSTr): Phần biến thiên của giá trị X do các mức độ của yếu tố đang xem xét tạo ra Tổng các độ lệch bình phương giữa các nhóm

− SSW (hay SSE): Phần biến thiên của giá trị X do các yếu tố nào đó không được đề cập đến tạo ra Tổng các độ lệch bình phương trong nội bộ nhóm

− SST: Tổng các biến thiên của X do tất cả các yếu tố tạo ra Tổng các độ lệch bình phương của toàn bộ tổng thể

− Hệ số xác định R 2 : được sử dụng để đo mức độ ảnh hưởng của yếu tố được xem xét trong mô hình

* Các giả định của mô hình anova gồm có:

− Cỏc tổng thể cú phõn phối chuẩn N(à i ;σ i 2 ) i = 1; 2; …; k k là số tổng thể (thông thường k ≥ 3)

− Phương sai các tổng thể bằng nhau (σ 1 2 = σ 2 2 =… =σ k 2 )

− Các mẫu quan sát (từ các tổng thể) được lấy độc lập

* Các bước giải bài toán phân tích anova 1 yếu tố:

Bước 1: Gọi μ1, μ2, μ3 là tỉ lệ tổng thể 1, tổng thể 2 và tổng thể 3

Bước 2: Đặt giả thiết {GT kiểm định H 0 : μ 1 = μ 2 = μ 3

Kích thước n 1 ∶ trung bình mẫu x̅ ; độ lệch chuẩn mẫu hiệu chỉnh s 1 1 2

N = n 1 + n 2 + n 3 = tổng số mẫu quan sát k= số tổng thể cần kiểm định

Bước 4: Tính tổng các độ lệch bình phương

Bước 5: Tính các trung bình của các độ lệch bình phương (phương sai)

Bước 6: Tính tiêu chuẩn kiểm định F= MSB

8 Hình 1.4 Miền bác bỏ với mức ý nghĩa 𝜶

Bảng 1.5 Công thức tính tổng bình phương chênh lệch và phương sai

Hệ số xác định R 2 = SSB

− Khi kết luận cho bài toán Anova, có 2 trường hợp xảy ra:

• Chưa bác bỏ được giả thiết H0, hay là chưa có bằng chứng về sự khác biệt của các trung bình

• Bác bỏ H0, chấp nhận H1 →Trung bình của các nhóm không bằng nhau (hay là sự khác biệt có ý nghĩa thống kê) => dùng phương pháp so sánh bội để so sánh sự khác biệt giữa các nhóm với nhau

− Phương pháp được trình bày dưới đây là Fisher’s LSD (Least Significant

Dùng LSD test: Kiểm định so sánh lần lượt tất cả các cặp trung bình của 2 nhóm khác nhau với các giả thuyết:

9 Giá trị thống kê kiểm định LSD ij =t α

Với √MSW ( 1 n i + 1 n j ) là sai số chuẩn của hiệu 2 trung bình mẫu giữa nhóm i và nhóm j Ký hiệu SE ij (= SE(x̅ − x i ̅)) j Giả thuyết H 0 bị bác bỏ khi |x̅ − x i ̅ | > LSD j ij

Dùng các khoảng tin cậy (LSD confidence intervals) để ước lượng các chênh lệch của trung bình 2 nhóm bất kỳ Từ đó tìm ra các cặp nhóm có trung bình khác biệt

Khoảng ước lượng LSD với độ tin cậy 1-α cho độ chênh lệch (μ i − μ j ) là:

* Dùng Posthoc cho phần mềm RStudio

Bên cạnh phương pháp LSD, nhóm lựa chọn sử dụng Posthoc cho việc phân tích hậu anova trong phần làm việc với Rstudio “Post-hoc” là một thuật ngữ trong thống kê được sử dụng để chỉ các phân tích thống kê được thực hiện sau khi đã kiểm định Khi sử dụng phương pháp này, ta có thể xác định sự khác biệt giữa các nhóm trong các mô hình thống kê - tối ưu nhất là TukeyHSD

Kết quả của Posthoc TukeyHSD là một danh sách các giá trị được sắp xếp theo từng nhóm được yêu cầu trong mô hình thống kê Trong đó:

• cột diff cho giá trị khác biệt giữa các trung bình quan sát

• lwr cho điểm cuối dưới của khoảng và upr cho điểm cuối trên

• p adj cho giá trị p sau khi điều chỉnh cho các so sánh nhiều lần

Hệ số tương quan (Correlation Coefficient)

Hệ số tương quan là chỉ số thống kê đo lường mức độ mạnh yếu của mối quan hệ giữa hai biến số Trong bài báo cáo này chúng em sử dụng hệ số tương quan pearson

2 Hệ số tương quan Pearson:

Chỉ số này đo lường sức mạnh và mối quan hệ tuyến tính giữa hai biến Nó không thể đo lường các mối quan hệ phi tuyến giữa hai biến và không thể phân biệt giữa các biến phụ thuộc và biến độc lập.

Đa cộng tuyến (multicollinearity)

1 Khái niệm: Đa cộng tuyến là hiện tượng các biến độc lập trong mô hình hồi quy phụ thuộc tuyến tính lẫn nhau, thể hiện dưới dạng hàm số

2 Dấu hiệu (Cách phát hiện)

− Để ta có thể dùng hệ số phóng đại phương sai VIF (Variance inflation factor) để xác định rõ ràng được mối quan hệ giữa các biến độc lập và của mối quan hệ này

− Tiêu chuẩn so sánh hệ số VIF như sau:

• VIF = 1 thì các biến không tương quan tức không có hiện tượng đa cộng tuyến

• VIF từ 1 đến 5 thì các biến có tương quan vừa phải tức có tồn tại hiện tượng đa cộng tuyến nhưng không quá nghiêm trọng

• VIF > 5 thì các biến có tương quan cao tức tồn tại đa cộng tuyến nghiêm trọng.

Phân tích hồi quy

Hồi quy (regression) là phương pháp thống kê toán học để ước lượng và kiểm định các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dự báo Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình

2 Phương trình hồi quy tuyến tính bội:

Giả định của mô hình hồi quy tuyến tính bội: biến phụ thuộc Y có liên hệ với k biến độc

11 lập 𝑥1, 𝑥2,…, 𝑥𝑘 có dạng như sau:

Hàm hồi quy tổng thể (PRF): (𝑌| 𝑥1, 𝑥2, …, 𝑥𝑘) = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽k𝑥k

Mô hình hồi quy tổng thể (PRM): 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽k𝑥k + ε

Trong đó ε là sai số ngẫu nhiên có phân phối chuẩn: 𝑁(0, 𝜎 2 )

Tuy nhiên vẫn tồn tại những yếu tố tác động đến biến phụ thuộc mà không được đưa vào mô hình vì nhiều lí do Do đó mô hình vẫn tồn tại sai số ngẫu nhiên ε đại diện cho các yếu tố khác ngoài các biến 𝑥 𝑖 (i=1, 2, 3,…k) có tác động đến Y nhưng không là biến số

Xét một mẫu ngẫu nhiên với n quan sát cụ thể, ta có hồi quy mẫu như sau:

𝑌̂ 𝑖 = 𝛽̂ 0 + 𝛽̂ 1 𝑥 1 + 𝛽̂ 2 𝑥 2 + +𝛽̂ 𝑘 𝑥 𝑘 + 𝜀 𝑖 Với 𝜀 𝑖 là phần dư tại quan sát I, được tính bởi công thức sau: 𝜀 𝑖 = 𝑌 𝑖 − 𝑌̂ 𝑖

3 Ý nghĩa các hệ số hồi quy:

Xuất phát từ hàm hồi quy tổng thể:

Tham số 𝛽0 được gọi là hệ số chặn (intercept) của mặt phẳng, nghĩa là 𝛽0 là giá trị của 𝑌 khi 𝑥1 = 𝑥2 = ⋯ = 𝑥𝑘 = 0

Các tham số 𝛽 𝑖 (i=1,2,3,…k) được gọi là hệ số hồi quy riêng, thể hiện sự thay đổi của Y theo mỗi đơn vị 𝑥 𝑖 khi các biến còn lại giữ nguyên

Có 3 khả năng có thể xảy ra với hệ số 𝛽 𝑖 :

• 𝛽 𝑖 > 0: khi đó mối quan hệ giữa 𝑌 và 𝑥 𝑖 là đồng biến

• 𝛽 𝑖 < 0: khi đó mối quan hệ giữa 𝑌 và 𝑥 𝑖 là nghịch biến

• 𝛽 𝑖 =0: khi đó không có mối quan hệ tương quan giữa 𝑌 và 𝑥 𝑖

4 Xác định giá trị các tham số trong mô hình hồi quy tuyến tính bội:

Có nhiều cách để xác định giá trị của các tham số, tuy nhiên, trong số đó, phương pháp bình phương cực tiểu (phương pháp OLS) là phương pháp thường được sử dụng nhất

Tương tự như mô hình hồi quy tuyến tính hai biến, phương pháp bình phương cực tiểu nhằm xác định các giá trị 𝛽̂ 𝑖 sao cho tổng bình phương các phần tư là nhỏ nhất:

Khi đó, các giá trị 𝛽̂ 0 , 𝛽̂ 1 , , 𝛽̂ 𝑘 sẽ là nghiệm của hệ gồm k phương trình sau:

𝜕𝛽 ̂ 𝑘 = -2∑ 𝑘 𝑖=1 𝑥 𝑖 Đơn giản hệ phương trình ta được

Vậy giải hệ phương trình tuyến tính này , ta sẽ thu được giá trị của 𝛽̂ 0 , 𝛽̂ 1 , 𝛽̂ 2 + 𝛽̂ 𝑘

Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tin để đánh giá tác động của biến độc lập đối với sự thay đổi của biến phụ thuộc thông qua ý nghĩa các hệ số hồi quy

5 Kiểm định giả thuyết thống kê trong mô hình hồi quy tuyến tính bội:

Bài kiểm định cho ý nghĩa của mô hình hồi quy là một bài kiểm định nhằm xác định mối quan hệ tuyến tính tồn tại giữa biến 𝑌 và một nhóm biến hồi quy 𝑥1 , 𝑥2 ,𝑥 3 ,… Khi đó giả thiết thống kê hợp lý là:

𝐻 1 : 𝛽 𝑖 ≠ 0 với ít nhất một i Bác bỏ 𝐻 0 đồng nghĩa với việc ta chấp nhận có ít nhất một trong các biến hồi quy 𝑥1 ,

𝑥2 ,𝑥 3 ,… có ảnh hưởng đáng kể đến mô hình

Có thể đánh giá điều đó qua hệ số xác định bội Ký hiệu 𝑅 2 Ý nghĩa: Hệ số xác định 𝑅 2 là tỉ lệ (hay tỉ lệ %) sự biến động của biến phụ thuộc được giải thích bởi các biến độc lập theo mô hình Với mô hình hồi quy k biến, 𝑅 2 có ý nghĩa như sau:

Với điều kiện 0 ≤ 𝑅 2 ≤ 1, ta có hai trường hợp đặc biệt đó là:

+ 𝑅 2 = 1 nghĩa là 100% sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình

+ 𝑅 2 = 0 nghĩa là các biến độc lập không giải thích được một chút nào đối với sự thay đổi của biến phụ thuộc

6.1 Mô hình hồi quy logistic:

- Hàm hồi quy logistic (hàm logit): Hồi quy logistic là một mô hình thống kê sử dụng hàm logistic, hay hàm logit trong toán học làm phương trình giữa x và y Hàm logit ánh xạ y làm hàm sigmoid của x:

Hình 1.6 Phương trình hồi quy logistic

Có thể thấy, hàm logit chỉ trả về các giá trị giữa 0 và 1 cho biến phụ thuộc Đây là cách hồi quy logistic ước tính giá trị của biến phụ thuộc Và mốc xác suất để hàm logit trả về giá trị 0 hoặc 1 được gọi là giá trị ngưỡng

Trong nhiều trường hợp, nhiều biến giải thích ảnh hưởng đến giá trị của biến phụ thuộc Để lập mô hình các tập dữ liệu đầu vào như vậy, công thức hồi quy logistic phải giả định mối quan hệ tuyến tính giữa các biến độc lập khác nhau Ta có thể sửa đổi hàm sigmoid và tính toán biến đầu ra cuối cùng như sau: y = f(β 0 + β 1 x 1 + β 2 x 2 + ⋯ β 𝑛 x n ) = 1

Ký hiệu β đại diện cho hệ số hồi quy Mô hình logit có thể đảo ngược tính toán các giá trị hệ số này khi ta cho nó một tập dữ liệu thực nghiệm đủ lớn có các giá trị đã xác

14 định của cả hai biến phụ thuộc và biến độc lập

6.2 Logarit tự nhiên của tỷ số Odds

- Mô hình logit cũng có thể xác định tỷ số thành công trên thất bại hay ln của tỷ số Odds

Tỷ số odds về mặt xác suất của là: 𝑃

1−𝑃 ln của tỷ số odds là: ln( 𝑃

1−𝑃 ) Với hàm hồi quy Logistic: P(y=1) = 1

Ta có thể viết lại tỉ số Odds như sau: Odds = P(y=1)

P(y=0) = ⅇ(β0 + β1x1 + β2x2+⋯ βnxn) ln(Odds) = β0 + β1x1 + β2x2+… βnxn => Tỉ số Odds càng lớn, xác suất để y=1 càng lớn

Diễn giải của hệ số β ứng với biến x:

• Khi biến x tăng 1 đơn vị thì giá trị log(Odds) tăng β đơn vị

• Khi x tăng 1 đơn vị thì tỉ số Odds tăng lên exp(β) lần

• β > 0: x càng lớn, xác suất để y =1 càng lớn

• β < 0: x càng lớn, xác suất để y = 1 càng nhỏ

6.3 Hồi quy logistic nhị thức

- Hồi quy logistic nhị phân phù hợp với các vấn đề phân lớp nhị phân chỉ có hai kết quả có thể xảy ra Biến phụ thuộc chỉ có thể có hai giá trị, chẳng hạn như có và không hoặc 0 và 1 Dù hàm logistic tính toán một phạm vi giá trị giữa 0 và 1, mô hình hồi quy nhị phân vẫn sẽ làm tròn kết quả đến các giá trị gần nhất Nói chung, kết quả dưới 0,5 sẽ được làm tròn thành 0 và kết quả trên 0,5 sẽ được làm tròn thành 1, do đó hàm logistic trả về một kết quả nhị phân

- Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi qui logistic đa biến là chọn một mô hình để có thể mô tả đầy đủ dữ liệu Một nghiên cứu với một biến phụ thuộc y và 3 biến độc lập x1, x2 và x3, chúng ta có thể có những mô hình sau đây để tiên đoán y: y = f(x1), y = f(x2), y = f(x3) y = f(x1, x2), y = f(x1, x3) y = f(x2, x3), và y = f(x1, x2, x3)

- Trong đó f là hàm số, nói chung với k biến độc lập x1, x2, x3, , xk, chúng ta có rất nhiều mô hình (2 k ) để tiên đoán y Một mô hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây:

- Chúng ta sẽ bàn qua tiêu chuẩn đơn giản và đầy đủ Một thước đo quan trọng và có ích để chúng ta quyết định một mô hình đơn giản và đầy đủ là Akaike

- Công thức tính trị số AIC: AIC = −2 × log(Likelihood) + 2 × k = 2[k - log(Likelihood)]

- Một mô hình đơn giản và đầy đủ phải là mô hình có trị số AIC càng thấp càng

Mô hình svm

SVM là một thuật toán giám sát, nó có thể sử dụng cho cả việc phân loại hoặc đệ quy Tuy nhiên nó được sử dụng chủ yếu cho việc phân loại Trong thuật toán này, chúng ta vẽ đồ thị dữ liệu là các điểm trong n chiều ( ở đây n là số lượng các tính năng bạn có) với giá trị của mỗi tính năng sẽ là một phần liên kết)

Support Vectors hiểu một cách đơn giản là các đối tượng trên đồ thị tọa độ quan sát, Support Vector Machine là một biên giới để chia hai lớp tốt nhất

+ Xử lý trên không gian số chiều cao

Trong trường hợp số lượng thuộc tính (p) của tập dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu (n) thì SVM cho kết quả khá tồi

Chưa thể hiện rõ tính xác suất

Mô hình ứng dụng Neural Network

1 Sơ lược về mô hình

Sơ lược khái quát: Neural Network, hay còn gọi là mạng nơ-ron nhân tạo hay mạng lưới thần kinh nhân tạo, là một mô hình toán học phức tạp được phát triển dựa theo các mạng nơ-ron sinh học Cụ thể hơn, Neural Network được xây dựng dựa theo mô hình hoạt động của các tế bào thần kinh của con người bằng cách sử dụng các thuật toán để xác định và phân tích mối quan hệ trong tệp dữ liệu mà chúng cần giải quyết

Cách thức hoạt động: Khi tiếp nhận thông tin từ bên ngoài thông qua lớp đầu vào, sau đó, các dữ liệu này sẽ đi qua một hoặc nhiều lớp ẩn để xử lý Thông thường, đây sẽ là những dữ liệu mà con người muốn tìm hiểu hoặc giải quyết Tại đây các con số sẽ được xử lý bằng các thuật toán và kết quả sẽ được xuất ra tại lớp đầu ra

Hình 1.7 Quy trình xử lý của Neural Network

Cơ chế của mạng nơ-ron nhân tạo là thông qua việc xử lý một lượng lớn thông tin, chúng có thể tự học và sẽ tự đưa ra giải pháp khi được nhận nguồn dữ liệu mới Ứng dụng của mô hình: Hiện nay, Neural Network được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh doanh, giáo dục, y tế, công nghệ blockchain, …

2 Ứng dụng mô hình trong R studio

Mô hình đóng vai trò dự đoán, phân loại, xử lí số liệu các biến ảnh hưởng hiệu suất mô hình một cách tốt nhất trong việc lập trình trong R studio

Các biến ảnh hưởng: Số lượng nút và hệ số suy giảm

Số lượng nút: Số lượng nút trong mỗi lớp ẩn của mạng neural ảnh hưởng đến khả năng mô hình hóa của mạng Nếu số lượng nút quá ít, mạng có thể không đủ phức tạp để mô hình hóa dữ liệu, dẫn đến hiện tượng underfitting Ngược lại, nếu số lượng nút quá nhiều, mạng có thể trở nên quá phức tạp và dễ dàng overfitting

Hệ số suy giảm (decay): Hệ số suy giảm thường được sử dụng trong quá trình tối ưu hóa để giúp mạng thoát khỏi các cực tiểu cục bộ và tăng tốc độ huấn luyện Tuy nhiên, nếu tốc độ huấn luyện vẫn lớn khi tiến gần đến điểm tối ưu, mạng có thể bị dao động và không hội tụ Do đó, việc giảm tốc độ huấn luyện theo thời gian (decay) có thể giúp mạng hội tụ tốt hơn

XỬ LÝ SỐ LIỆU

Mô tả dữ liệu data

Tên biến Phân loại biến Đơn vị Khái niệm ph { x ϵ R | 0 ≤ x ≤ 14 } - Thông số đánh giá độ axit- bazo của nước Hardness { x ϵ R | 41,4 ≤ x ≤ 323 } mg/L Độ cứng của nước Solids { x ϵ R | 321 ≤ x ≤ 61,2k } ppm Chất rắn có trong nước

Clo, chất khử trùng chính trong hệ thống nước công cộng

Conductivity { x ϵ R | 129 ≤ x ≤ 481 } mg/L Độ dẫn nhiệt

Sulfate { x ϵ R | 181 ≤ x ≤ 753 } μS/cm Sunfat là chất xuất hiện tự nhiên trong đất

Organic_carbon { x ϵ R | 2,2 ≤ x ≤ 28,3 } ppm Cacbon hữu cơ được phân hủy từ chất hữu cơ tự nhiên

Trihalomethanes { x ϵ R | 0,74 ≤ x ≤ 124 } μg/L THM, hóa chất có trong nước, được xử lý bởi Clo

Turbidity { x ϵ R | 1,45 ≤ x ≤ 6,74 } NTU Độ đục, phụ thuộc vào lượng chất rắn trong nước

Khả năng uống được, 1 là uống được và 0 là không uống được

Tiền xử lý dữ liệu

1 Đọc dữ liệu từ tệp:

Gán tên wp_csv cho file dữ liệu và đọc dữ liệu, sau đó xuất ra dữ liệu của 6 dòng đầu tiên

Hình 2.1 Đọc dữ liệu tệp

Sau đó đặt lại tên new_DF cho file dữ liệu ban đầu và xuất ra dữ liệu 6 dòng đầu

Hình 2.2 Đặt lại tên tệp

2 Kiểm tra các biến quan trắc:

Ta thực hiện việc kiểm tra việc nhập dữ liệu có sai sót hay không, cụ thể là các giá trị có bị âm không

Hình 2.3 Kiểm tra giá trị lỗi

Tiếp theo, ta thực hiện việc kiểm tra biến phân loại Potability có bị lẫn biến khác ngoài 0 và 1 hay không

Hình 2.4 Kiểm tra giá trị bị nhầm lẫn

Nhận xét: Qua kiểm tra thì việc nhập dữ liệu ban đầu không có sai sót

3 Kiểm tra biến ngoại lai: Đoạn code:

Hình 2.5 Kiểm tra biến ngoại lai

Hình 2.6 Mức độ biến ngoại lai của từng nhân tố

Từ kết quả trên, ta thấy được rằng biến ngoại lai trãi dài từ pH đến Turbidity Đặt biệt, biến pH chiếm 15,47%, biến Sulfate chiếm 24,36% và biến Trihalomethanes chiếm 5,31% Với tỉ lệ như trên ta không thể xóa bỏ các dòng dữ kiện chứ biến ngoại lai vì nó sẽ ảnh hưởng đến kết quả của các mô hình sẽ được xây dựng ở sau

4 Kiểm tra, xử lý dữ liệu khuyết:

Trong dataset, ngoài các giá trị cụ thể ra còn có rất nhiều giá trị khuyết theo hàng, có những hàng có 1 hay nhiều giá trị bị khuyết làm việc thống kê dữ liệu trở nên khó khăn Do đó, trước khi xử lý dữ liệu, ta cần tổng hợp số biến khuyết và xử lý chúng Để dễ quan sát, ta dùng thư viện DataExplorer cho việc vẽ biểu đồ

Hình 2.7 Tìm tổng biến khuyết

Sau khi gõ dòng code, ta được kết quả như sau:

Hình 2.8 Kết quả của biến khuyết theo từng nhân tố

Hình 2.9 Kết quả của biến khuyết theo từng nhân tố được biểu diễn dạng số

Có 491 NA ở tiêu chí pH, 781 NA ở tiêu chí Sunfate, 162 NA ở tiêu chí

Trihalomethanes Do số lượng biến ở 3 tiêu chí này khá lớn trong đó Trihalomethanes chiếm 4.95%, ph chiếm 14.99%, Sulfate chiếm 23.84% nên ta không lược bỏ mà lựa chọn thay thế cái biến NA thành các biến số cụ thể bằng lệnh mice với 5 phiên bản tối ưu và ta chọn cách thay thứ 1 vì khả năng thay thế biến khuyết tốt nhất

21 Kết quả sau khi xử lý:

Hình 2.11 Kết quả sau khi thay biến

Thống kê các tiêu chí theo 6 đại lượng đặc trưng cho dataset:

Hình 2.12 Các thông số đặc trưng cho từng nhân tố trong bảng dữ liệu

Trong đó có: Giá trị nhỏ nhất min và lớn nhất max

1st Qu , Median, 3rd Qu là Q1, Q2, Q3

Thống kê tổng số lượng giá trị Potability theo khả năng uống được và không uống được:

Hình 2.13 Thống kế biến uống được và không uống được

THỐNG KÊ MÔ TẢ

Biểu đồ Histogram

Histogram (Biểu đồ cột): Dùng cho các biến có số liệu xung quanh 1 giá trị xác định vì mỗi số liệu của một biến đều có 1 giá trị riêng biệt

1 Biểu đồ Histogram của biến ph:

Hình 3.1 Code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của ph

Nhận xét: Dựa trên biểu đồ histogram của biến ph, ta nhận thấy đồ thị có hình dạng phân phối chuẩn, ph tập trung phần lớn từ khoảng 4 đến 10, nhiều nhất ở khoảng từ 6 đến 8, thấp nhất ở khoảng < 2,5

2 Biểu đồ Histogram của biến “Solids” :

Hình 3.2 Code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của Solids

23 Nhận xét: Dựa trên biểu đồ histogram của biến Solids, ta nhận thấy đồ thị có hình dạng phân phối chuẩn, Solids tập trung phần lớn từ khoảng 10000 ppm đến 30000 ppm, nhiều nhất ở khoảng từ 13000 ppm đến 20000 ppm, thấp nhất ở khoảng > 50000 ppm

3 Biểu đồ Histogram của biến “Chloramines”:

Hình 3.3 Code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của

Nhận xét: Dựa trên biểu đồ histogram của biến Chloramines, ta nhận thấy đồ thị có hình dạng phân phối chuẩn, Chloramines tập trung phần lớn từ khoảng 6 ppm đến

9 ppm, nhiều nhất ở khoảng từ 7 ppm đến 8 ppm, thấp nhất ở khoảng > 12 ppm

4 Biểu đồ Histogram của biến “Organic_carbon”:

Hình 3.4 Code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của

Nhận xét: Dựa trên biểu đồ histogram của biến Organic_carbon, ta nhận thấy đồ thị có hình dạng phân phối chuẩn, Organic_carbon tập trung phần lớn từ khoảng

10 ppm -20 ppm, nhiều nhất ở khoảng từ 12,5 ppm -15 ppm, thấp nhất ở khoảng

Biểu đồ Barplot

Biểu đồ barplot (Biểu đồ thanh): Dùng cho biến có số liệu cụ thể như Potability

+ Mã hóa dữ liệu về dạng text để dễ theo dõi bằng cách gán các biến theo tên freq, midpoints

+ Lấy x=0 và x=1 làm điểm xác định cho không uống được và uống được + tương ứng với mỗi giá trị x là các giá trị y, đại diện cho số biến đếm được của dữ liệu không uống được và uống được

Hình 3.5 Code R và kết quả khi vẽ biểu đồ Barplot thể hiện phân phối của Potability

Biểu đồ mật độ

Density (biểu đồ đường, sử dụng ggplot): Dùng biểu đồ để thống kế tần suất xuất hiện của có khả năng uống được và không uống được của nước theo từng tiêu chí Để vẽ được biểu đồ này, ta cần đưa dataset về một hàm số, cụ thể ở đây là var_density Đoạn code được sử dụng:

Hình 3.6 Đoạn code cho biểu đồ mật độ của các biến

1 Biểu đồ mật độ cho biến ph:

Hình 3.7 Kết quả khi vẽ biểu đồ mật độ thể hiện phân phối của ph

Nhận xét: Biểu đồ cho thấy mật độ có dạng hình chuông => nhân tố pH tuân theo phân phối chuẩn Lượng nước uống được và không uống được nhiều nhất đều tại pH=7, khoảng pH được cho là an toàn và chênh lệch nhau 0,06 đơn vị Vẫn có phần nước không uống được ở đây là do pH không hoàn toàn quyết định độ uống được của nước, độ uống được còn bị ảnh hưởng bởi nhiều yếu tố khác

2 Biểu đồ mật độ cho biến Solids:

Hình 3.8 Kết quả khi vẽ biểu đồ mật độ thể hiện phân phối của Solids

Nhận xét: Mật độ tối đa của phần nước uống được khoảng 15.64 tại điểm có xấp xỉ

17000 chất rắn hoà tan trong khi của phần nước không uống được là 18,19 tại điểm gần như là 20000 chất rắn hoà tan

3 Biểu đồ mật độ cho biến Organic_carbon:

Hình 3.9 Kết quả khi vẽ biểu đồ mật độ thể hiện phân phối của Organic-carbon

Nhận xét: Dựa trên biểu đồ Density của biến Organic-carbon, ta nhận thấy đồ thị có hình dạng phân phối chuẩn, nhìn chung phần nước uống được chiếm số lượng lớn hơn, biến động nhiều hơn so với phần nước không uống được

4 Biểu đồ mật độ cho biến Chloramines:

Hình 3.10 kết quả khi vẽ biểu đồ mật độ thể hiện phân phối của Chloramines

Nhận xét: Dựa trên biểu đồ Density của biến Chloramines, ta nhận thấy đồ thị có hình dạng phân phối chuẩn, nhìn chung đa số nước đều uống được, nhưng từ khoảng 5,5 ppm đến 7,5 ppm thì nước lại không uống được.

Biểu đồ Boxplot cho các biến

Biểu đồ Boxplot: So sánh độ ảnh hưởng của từng nhân tố tới độ uống được của nước, trung vị của 2 yếu tố lệch càng nhiều thì mức ảnh hưởng của nhân tố đó đến Potability càng lớn Đoạn code được sử dụng sau:

Hình 3.11 code Hình boxplot cho yếu tố Potability và các yếu tố còn lại

Hình 3.12 Kết quả khi vẽ biểu đồ Boxplot cho biến ph và solids

Hình 3.13 Kết quả khi vẽ biểu đồ Boxplot cho biến Chloramines và Organic-carbon

Nhận xét: Từ biểu đồ boxplot, ta có thể thấy, không có yếu tố nào ảnh hưởng quá tuyệt đối đến độ uống được của nước mà mỗi yếu tố chỉ quyết định một phần nhỏ hay còn gọi là có mức độ ảnh hưởng như nhau đến nhân tố Potability

Mối tương quan giữa các biến

28 Correlation matrix: Được dùng để đánh giá mối tương quan giữa nhiều biến cùng một lúc Để thực hiện, ta dùng lệnh sd để tính độ lệch chuẩn Đồng thời tránh việc xuất hiện giá trị NA bằng cách loại bỏ các giá trị bị thiếu ra khỏi phép tính, ta thêm đối số na.rm = TRUE

Hình 3.14 code tính độ lệch chuẩn

Thông thường, phân tích tương quan được áp dụng cho một cặp biến số, đa phần ta sẽ sử dụng hệ số tương quan r của Pearson 𝑟 = 𝐶𝑜𝑣(𝑋𝑌)

𝜎 𝑋 𝜎 𝑌 Ta giản lược hơn bằng cách giữ lại những cặp tương quan có ý nghĩa thống kê (p < 0.05), chuyển những giá trị r thành biểu tượng và màu, để nhận diện nhanh hướng và độ mạnh tương quan bằng hàm corrplot

Hình 3.15 Hình ảnh biểu thị độ tương quan giữa các biến

Tương quan thuận được hiển thị bằng màu xanh lam và tương quan nghịch trong màu đỏ Cường độ màu và kích thước của hình tròn tỷ lệ với các hệ số tương quan Như vậy, ta có thể xem mối tương quan giữa các biến thường nhỏ Sự tương quan đáng kể là tương quan nghịch giữa Sulfate và Solids với chỉ số khoảng 0.2

2 Kiểm tra hiện tượng đa cộng tuyến:

Mô hình hồi quy xảy ra hiện tượng đa cộng tuyến sẽ khiến nhiều chỉ số bị sai lệch, dẫn đến kết quả của việc phân tích định lượng không còn mang lại nhiều ý nghĩa Để chắc chắn các biến không có mối tương quan mạnh đến nhau, ta kiểm tra bằng VIF

Hình 3.16 Kiểm tra đa cộng tuyến

Với kết quả VIF của các biến đều xấp xỉ bằng 1, ta đã có thể khẳng định các biến hầu như không có tương quan hay hiện tượng đa cộng tuyến không xảy ra trong vùng dữ liệu đang xét

THỐNG KÊ SUY DIỄN

Kiểm định một mẫu

Bài toán đặt ra: Kiểm định giá trị trung bình biến ph trong một mẫu ngẫu nhiên từ dữ liệu nguồn, biết theo tiêu chuẩn thì ph trung bình của mẫu nước là 7.6 Với mức ý nghĩa 0.1 có thể cho rằng ph trung bình của mẫu nước đạt tiêu chuẩn hay không

Step 1: Tạo biến mới Db và chuyển biến mới Db thành biến factor

Hình 4.1 Code và kết quả cho việc tạo và chuyển biến thành factor

Step 2: Tạo 2 tệp train và test với tập test chiếm 30% tổng số biến và có thể xem như là một mẫu dùng để kiểm định

Step 3: Chúng ta dùng Rstudio để kiểm tra dạng phân phối của tệp mẫu test bằng hình ảnh trực quan histogram và quan sát hình ảnh qqnorm và qqline của biến ph

Hình 4.3 Code kiểm định phân phối chuẩn biến “ph”

Ta được kết quả như sau:

Hình 4.4 kết quả của kiểm tra phân phối chuẩn biến “ph”

Step 4: Thực hiện việc kiểm định bài toán

Gọi à là giỏ trị ph trung bỡnh của mẫu nước

Theo đoạn code ta có: 𝑛 = 982, 𝑥 = 7.10619, 𝜇 0 = 7.6

Ta thấy mẫu có thể phân phối chuẩn, chưa biết 𝜎 2

𝑠 √𝑛 = −9.8723 Khoảng ước lượng của 𝑥 là (7.023837 ; 7.188543)

Step 5: Tìm miền bác bỏ RR cho bài toán

Hình 4.6 Tiêu chuẩn kiểm định t

Do 𝑇 𝑞𝑠 ∈ 𝑅𝑅 𝑛ê𝑛 𝑏á𝑐 𝑏ỏ 𝐻 0 , 𝑐ℎấ𝑝 𝑛ℎậ𝑛 𝐻 1 Xem như giá trị trung bình ph của mẫu nước khác với giá trị tiêu chuẩn.

Kiểm định 2 mẫu

Bài toán đặt ra: Kiểm định 2 giá trị trung bình của biến ph uống được và không uống được Với mức ý nghĩa 0.05 cho biết trung bình của nước uống được và không uống được có bằng nhau không

Gọi à1 là giỏ trị ph trung bỡnh của mẫu nước uống được à2 là giỏ trị ph trung bỡnh của mẫu nước khụng uống được

Ta cú giả thuyết: Giả thuyết H0 : à1 = à2 Đối thuyết H1 : à1 ≠ à2

Step 1: Chúng ta dùng Rstudio để kiểm tra dạng phân phối của biến ph uống được và ph không uống được bằng hình ảnh trực quan histogram và quan sát hình ảnh qqnorm và qqline của biến ph

Hình 4.6 Kiểm định dạng phân phối của biến Potability bị ảnh hưởng bởi Ph

Khi đó ta được kết quả như sau:

Hình 4.7 Kết quả kiểm định dạng phân phối

Nhận xét: Biểu đồ Histogram của 2 nhóm có dạng hình chuông và các điểm quan sát đa số nằm trên đường thẳng kỳ vọng của phân phối chuẩn Vì vậy giá trị trung bình của ph uống được và không uống được tuân theo phân phối chuẩn

Step 2: Tiếp theo ta kiểm tra phương sai tổng thể bằng lệnh levenTest

Hình 4.8 So sánh phương sai

Nhận xét: Với Pr(> 𝐹) < 0.05 → phương sai tổng thể 2 nhóm không đồng nhất

Ta thấy giá trị trung bình ph tuân theo phân phối chuẩn và chưa biết 𝜎 1 2 , 𝜎 2 2 và

𝜎 1 2 , ≠ 𝜎 2 2 nên nên ta áp dụng 𝑇 𝑞𝑠 cho bài toán trên

Hình 4.10 Thực hiện kiểm định 2 TB

Theo đoạn code ta có: 𝑥 1 = 7.112065, 𝑥 2 = 7.097002 𝑣à 𝑇 𝑞𝑠 = 𝑥 1 −𝑥 2

Khoảng ước lượng của 𝑇 𝑞𝑠 𝑙à (−0.1818978; 0.2120238) với độ tin cậy 95%

Hình 4.11 Tìm và xuất giá trị t

Do 𝑇 𝑞𝑠 ∉ 𝑅𝑅 𝑛ê𝑛 𝑐ℎư𝑎 𝑏á𝑐 𝑏ỏ 𝐻 0 Xem như giá trị trung bình ph của 2 mẫu nước tương đương nhau.

Phân tích phương sai (phân tích anova)

Bài toán đặt ra: Kiểm định trung bình lượng carbon hữu cơ có trong 4 nhóm được phân loại theo pH Với mức ý nghĩa 0.05 ta có kết luận được trung bình lượng carbon hữu cơ trong 4 nhóm nước là bằng nhau không

Step 1: Ta chọn 2 tiêu chuẩn để phân loại nguồn nước bằng anova là pH và

Carbon hữu cơ (TOC) Dựa vào ph, chia các dữ liệu thành 4 nhóm: Nước có tính axit, nước đóng chai thông thường, nước kiềm đóng chai, nước kiềm mạnh và lưu vào tập dataten

Hình 4.12 phân loại biến theo pH

Step 2: Tạo mẫu bằng cách lấy mẫu n 00 từ tập dataten

Gọi à1 là giỏ trị TOC trung bỡnh của mẫu nước tớnh axit à2 là giỏ trị TOC trung bỡnh của mẫu nước đúng chai thụng thường à3 là giỏ trị TOC trung bỡnh của mẫu nước kiềm đúng chai à4 là giỏ trị TOC trung bỡnh của mẫu nước kiềm mạnh

Ta có giả thuyết: Giả thuyết H0 : 𝜇 1 = 𝜇 2 = 𝜇 3 = 𝜇 4 Đối thuyết H1 : 𝜇 1 ≠ 𝜇 2 ≠ 𝜇 3 ≠ 𝜇 4

Step 3: Ta thực hiện việc kiểm tra phân phối chuẩn bằng biểu đồ hình ảnh qqnorm và qqline

Hình 4.13 Code kiểm tra dạng phân phối

Các biểu đồ nhận được:

Hình 4.14 Kết quả kiểm tra dạng phân phối

Nhận xét: Các điểm quan sát đa số nằm trên đường thẳng kỳ vọng của phân phối chuẩn Vì vậy giá trị trung bình của TOC của 4 nhóm nước tuân theo phân phối chuẩn

Step 4: Cũng như bài toán kiểm định 2 mẫu, chúng ta dùng leveneTest để so sánh phương sai

Hình 4.15 so sánh phương sai

Ta thấy với Pr(> 𝐹) > 0.05 → phương sai cả 4 nhóm đồng nhất

Step 5: Sau đó dùng lệnh aov để thực hiện tính toán các thông số trong anova

Hình 4.16 các thông số Anova

Từ đoạn code ta có 𝑘 − 1 = 4 − 1 = 3, 𝑁 − 𝑘 = 1000 − 4 = 996

Tổng bình phương giữa các nhóm 𝑆𝑆𝐵 = ∑ 4 𝑖=1 𝑛 𝑖 (𝑥̅ − 𝑥̅) 1 2 = 121

Trung bình bình phương chênh lệch (Phương sai) MSB = SSB k−1 = 40.38 Tổng bình phương nội bộ nhóm 𝑆𝑆𝑊 = ∑ 4 𝑖=1 𝑠 𝑖 2 (𝑛 𝑖 − 1) = 10196

Trung bình bình phương chênh lệch MSW = SSW

N−k = 10.24 Tổng chênh lệch bình phương toàn bộ: 𝑆𝑆𝑇 = 𝑆𝑆𝐵 + 𝑆𝑆𝑊 = 10317

Tiêu chuẩn kiểm định: F = MSB

Step 6: Sau đó, ta tìm miền bác bỏ H0 của bài toán

Hình 4.17 tìm tiêu chuẩn kiểm định F

Với mức ý nghĩa 5%: Miền bác bỏ là 𝑅𝑅 = (F α (k − 1; N − k); +∞) (F 0.05 (3; 996); +∞) = (2.613839; +∞)

Vì 𝐹 ∈ 𝑅𝑅 nên ta bác bỏ H0 có nghĩa là trung bình giá trị carbon hữu cơ giữa 4 nhóm nước là khác nhau Để tìm hiểu rõ hơn về sự khác biệt giữa các giá trị trung bình TOC này, ta cần đến một hàm khác có tên là TukeyHSD (HSD là Honesst Significant Differnce, tạm dịch là “khác biệt có ý nghĩa chính xác”)

Hình 4.18 Kiểm định sự khác biệt cụ thể giữa các nhóm

Như kết quả tìm được, ta có thể nói rằng nhóm 2 và nhóm 1 khác nhau khoảng 0.4846 đơn vị, với mức ý nghĩa 0.05 thì khoảng tin cậy là (-0.1841;1.1534) Tương tự cho các nhóm còn lại Biểu diễn trực quan bằng biểu đồ ta có:

Hình 4.19 Minh họa cho khoảng chênh lệch giữa các nhóm

Xây dựng mô hình hồi quy Logistic đa biến

1 Xây dựng mô hình hồi quy và tìm biến tối ưu: Đầu tiên, ta xây dựng mô hình hồi quy Logistic với biến Potability là biến độc lập theo 9 biến phụ thuộc còn lại với dữ liệu từ tập new_DF2 và lưu vào tập m1

Hình 4.20 Code R và kết quả khi xây dựng phương trình có đủ 9 biến

Nhận xét: Ta nhận thấy, với mức ý nghĩa 5% thì không có biến nào có giá trị Pr(> |𝑧|) < 0.05 nên cả 9 biến hầu như không có ý nghĩa thống kê đối với biến

39 Potability, riêng chỉ có duy nhất 2 biến là Organic-carbon với Solids là có khả năng có ý nghĩa thống kê

Tuy nhiên, ta có thể dùng một tiêu chuẩn khác để xác định lại các biến có ý nghĩa thống kê bằng phương pháp AIC (Akaike Information Criterion) Đầu tiên ta chạy AIC với 9 biến phụ thuộc

Hình 4.21 Kết quả khi xây dựng phương trình có đủ 9 biến

Hình 4.22 Kết quả khi bỏ biến Turbidity từ mô hình đầu

Ta tiếp tục chạy AIC đến khi được mô hình tối ưu cho bài toán

Hình 4.23 Kết quả khi bỏ biến Sulfate từ mô hình

40 Kết quả: Trong kết quả trên, R báo cáo cho chúng ta biết từng bước trong quá trình đi tìm một mô hình tối ưu Khởi đầu là mô hình với tất cả 9 biến, và trị số AIC 4391.3 Bước thứ hai gồm 8 biến (loại bỏ biến Turbidity) và AIC = 4389.28 Kết quả sau 7 bước tìm mô hình, R dừng lại với mô hình gồm 3 biến (Chloramines,

Organic_carbon và Solids) vì có giá trị AIC thấp nhất

Tiếp theo ta tìm hệ số ước lượng 𝛽 cho các biến phụ thuộc cho mô hình tối ưu nhất cả bài toán sau khi chạy AIC

Hình 4.24 Hệ số ước lượng beta theo AIC

Ta có Estimate là các hệ số ước lượng 𝛽 của hệ số chặn và các biến phụ thuộc Chloramines, Organic_carbon và Solids Đồng thời Std Error là sai số chuẩn của hệ số ước lượng và z value được tính bằng thương của Estimate cho Std Error

Vậy mô hình hồi logistic tối ưu nhất có dạng: ln ( 𝑝

Từ kết quả ta xác định hệ số β i ước lượng:

Với giá trị ước lượng xác suất p tính từ phương trình:

Kết luận: Sau khi chạy AIC, ta thấy giá trị Pr(> |𝑧|) dần khả quan hơn so với lúc 9 biến và giúp bài toán trở nên tinh gọn hơn với những biến thật sự mang ý nghĩa thống kê

41 Sau đó, ta tiếp tục tìm khoảng ước lượng cho Odds ratio của các biến phụ thuộc

Hình 4.25 Khoảng ước lượng cho Odds của các biến phụ thuộc

Ta có thể thực hiện tính lũy thừa các hệ số và diễn giải chúng dưới dạng tỉ số chênh lệch và tìm khoảng tin cậy cho tỉ số chênh lệch

1−𝑝) = ln (𝑜𝑑𝑑𝑠) Nếu gọi odd 0 khi Chloramines = 0 thì 𝑜𝑑𝑑 0 = ⅇ −0.6051

Và gọi odd 1 khi Chloramines tăng lên một đơn vị thì 𝑜𝑑𝑑 1 = ⅇ−0.6051+0.03362.1

→ Tỉ số của 2 odd chính là : 𝑜 𝑑𝑑 1

Như vậy Chloramines tăng 1 ppm thì khả năng uống được cũng tăng 1.0342 lần, và tương tự cho OR của Organic_carbon và OR của Solids Bên cạnh, ta cũng tìm được khoảng tin cậy 95% cho OR của các biến ảnh hưởng

2 Thực hiện dự đoán dựa trên mô hình: Đầu tiên, ta tạo ra dự đoán bằng mô hình fit với Db quan hệ tuyến tính với 9 biến phụ thuộc trong bài toán từ tập train và được huấn luyện theo phương pháp glm Tiếp theo, ta tạo ra dự đoán cho biến pred và predicted trong tập test bằng cách sử dụng mô hình fit

Hình 4.26 Hình kết quả sau khi dự đoán theo Logistic

Ta tiến hành dự đoán biến Potability cho tập test theo mô hình hồi quy Logistic Kết quả xuất ra được số lượng dự đoán và số lượng thực tế theo mô hình

Số lượng nước uống được dự đoán đúng: 1 mẫu

Số lượng nước uống được dự đoán sai: 382 mẫu

Số lượng nước không uống được dự đoán đúng : 596 mẫu

Số lượng nước không uống được dự đoán sai: 3 mẫu

Hình 4.27 Hình thông số chi tiết của mô hình Logistic

1 + 382= 0.002611 → mô hình phát hiện chính xác 0.2611% các mẫu uống được

596 + 3= 0.994992 → mô hình phát hiện chính xác 99.4992% các mẫu không uống được

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 0.6079 → số điểm dữ liệu dự đoán chính xác 60.79% trong số tất cả các biến dữ liệu Khoảng tin cậy 95% của độ chính xác mô hình là (0.5766 ; 0.6386)

Từ dự đoán trên, ta tiến hành tính ROC và vẽ biểu đồ cho mô hình

Hình 4.28 Hình ROC của mô hình Logistic

Dễ dàng nhận thấy rằng phần diện tích dưới đường cong ROC là 0.5258416 cho thấy mức độ chính xác của mô hình là khá kém và không nên sử dụng

MỞ RỘNG VÀ THẢO LUẬN

Đánh giá hiệu quả mô bằng các mô hình khác

1 Mô hình Support Vector Machine (SVM)

Ta thực hiện huấn luyện tập mfit được lấy từ tập train theo mô hình SVM theo phương pháp svmRadial

Sau đó tạo biến dự đoán predd cho tập test và biến predictedd theo mô hình mfit để dự đoán cho tập test

Tiếp theo, dùng ma trận nhầm lẫn để tiến hành dự đoán kết quả

Hình 5.1: Hình kết quả sau khi dự đoán theo SVM

Tiến hành dự đoán biến Potability cho tập test theo mô hình SVM Kết quả xuất ra được số lượng dự đoán và số lượng thực tế theo mô hình

Hình 5.2: Hình thông số chi tiết của mô hình SVM

111 + 272= 0.2898 → mô hình phát hiện chính xác 28.98% các mẫu uống được

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 0.6578 → số điểm dữ liệu dự đoán chính xác 65.78% trong số tất cả các biến dữ liệu Khoảng tin cậy 95% của độ chính xác mô hình là

Từ dự báo này, ta tiếp tục tính ROC và vẽ biểu đồ cho mô hình

Hình 5.3 Biểu đồ đánh giá mức độ chính xác của mô hình SVM

Theo quan sát từ biểu đồ, phần diện tích dưới đường cong ROC là 0.6667902 cho thấy mức độ chính xác của mô hình là tương đối tốt và có thể ứng dụng trong việc dự đoán

2 Mô hình Neural Network trong R studio

Ta thực hiện tạo lưới các giá trị để rà soát các biến ảnh hưởng tốt nhất là size và decay, đồng thời tính toán số lượng trọng số tối đa cho mô hình

Hình 5.4 Hình khai báo và kiểm soát các biến ảnh hưởng

Huấn luyện tập mmfit được lấy từ tập train theo mô hình Neural Network và thỏa các biến tối ưu mà code rà soát được

Hình 5.5 Hình chạy code mô hình Neural Network

Tạo biến dự đoán preddd cho tập test và biến predicteddd theo mô hình để dự đoán cho tập test

Hình 5.6 Hình kết quả sau khi dự đoán theo Neural Network Tiến hành dự đoán biến Potability cho tập test theo mô hình Neural Network Kết quả xuất ra được số lượng dự đoán và số lượng thực tế theo mô hình

Hình 5.7 Hình thông số chi tiết của mô hình Neural Network

111 + 272= 0.2898 → mô hình phát hiện chính xác 28.98% các mẫu uống được 𝑆𝑝ⅇ𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 519

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 0.6415 → số điểm dữ liệu dự đoán chính xác 64.15% trong số tất cả các biến dữ liệu Khoảng tin cậy 95% của độ chính xác mô hình là (0.6107 , 0.6716)

Hình 5.8 Hình hai thông số ảnh hưởng hiệu suất mô hình nhất

Hình 5.9 Hình đường cong ROC theo các biến kiểm soát

Nhận xét về hiệu suất của các mô hình sử dụng

Trong các cách giải quyết của bài toán phân loại nhị phân, việc sử dụng nhiều thuật toán cho dự đoán và so sánh vượt xa cách tiếp cận truyền thống chỉ dựa vào hồi quy logistic Trong phần này, chúng ta sẽ so sánh hiệu suất và sự phù hợp của thêm thuật toán thay thế đã được thực hiện trong bài code: Super Vector Machine (SVM), Deep Neural Networks (NN) Bằng cách so sánh các thuật toán này, chúng ta có thể khách quan chọn lựa mô hình phù hợp nhất cho bài toán

Mô hình Phương pháp Accuracy Chỉ số đánh giá

Mô hình Logistic Regression có độ chính xác thấp nhất trong 3 trong phương pháp được sử dụng Trong đó,mô hình này lại có tỉ lệ dương tính thật rất thấp hầu như bằng

0 chứng tỏ khả năng dự đoán của mô hình đối với các mẫu uống được không chính xác Vì vậy, mô hình thực sự không thể ứng dụng để dự đoán cho bài toán thực tế

Mô hình SVM và Neural Network có độ chính xác khá tốt và tương đương nhau Bên cạnh, tỉ lệ dương tính thật của mô hình cũng được cải thiện xấp xỉ 0.3 do vậy không làm sai lệch khả năng dự đoán cho bài toán quá nhiều và hai mô hình có khả năng dùng để giải quyết bài toán trên

Sau khi phân tích các thuật toán, tất cả các mô hình có độ chính xác không vượt trội lắm Do đó, không chỉ xem xét các mô hình làm căn cứ để dự đoán và phân loại chính mà còn phải kiểm soát lượng dữ liệu ít sai lệch và khách quan để lựa chọn các phương pháp phù hợp nhất trong công tác nghiên cứu thực tế

Tiêu đề	Xác Suất Thống Kê Cơ Sở Lý Thuyết Và Tính Toán Các Giá Trị Thống Kê Mô Tả
Tác giả	Huỳnh Kha Khôi, Trần Duy Khương, Phạm Gia Khiêm, Ngô Tấn Khôi, Nguyễn Thị Phương Nguyên
Người hướng dẫn	ThS. Nguyễn Kiều Dung
Trường học	ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA
Chuyên ngành	Xác Suất Thống Kê
Thể loại	Bài Tập Lớn
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	60
Dung lượng	4,23 MB