1. Trang chủ
  2. » Giáo Dục - Đào Tạo

đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê

39 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Tác giả Nguyễn Hà Anh Thư, Trần Yến Chi
Người hướng dẫn ThS. Nguyễn Kiều Dung
Trường học ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
Chuyên ngành XÁC SUẤT VÀ THỐNG KÊ
Thể loại BÁO CÁO BÀI TẬP LỚN
Năm xuất bản 2023– 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 39
Dung lượng 2,04 MB

Cấu trúc

  • 1. KIỂMĐỊNH GIẢTHIẾT THỐNGKÊ (7)
    • 1.1. Kiểmđịnh 1 mẫu (7)
    • 1.2. Kiểmđịnh 2 mẫu (7)
  • 2. BÀITOÁN TÌMKHOẢNGTIN CẬY(ƯỚC LƯỢNG) (8)
    • 2.1. Tìmkhoảng tin cậy cho tham số -Bài toán1mẫu (8)
    • 2.2. Tìmkhoảng tin cậy cho tham số -Bài toán2mẫu (8)
  • 3. MÔHÌNHHỒIQUY TUYẾNTÍNHĐƠN (8)
  • 4. MÔHÌNHHỒIQUY TUYẾNTÍNHĐABỘI (9)
  • 5. MÔHÌNHANOVA1 YẾU TỐ (11)
    • 5.1. Thếnào là mô hìnhAnovamột yếu tố (11)
    • 5.2. Giảthiết củabài toán Anovamột yếu tố (11)
    • 5.3. Cácbướcthựchiệnbài toán Anovamột yếu tố (11)
    • 5.4. Phântích sâu Anova một yếu tố (12)
  • 6. MÔHÌNHHỒIQUY LOGISTIC (13)
  • 1. TIỀNXỬ LÍDỮ LIỆU (14)
    • 1.1. Đọcdữliệu (14)
    • 1.2. Làmsạch dữliệu (14)
  • 2. THỐNGKÊTẢ (17)
    • 2.1. Thốngkêmô tảliên tục (17)
    • 2.2. Khảosát bảng tần sốcho biến phân loại (18)
    • 2.3. Vẽbiểu đồ cho biếnliên tục (18)
    • 2.4. Thốngkêsuy diễn (23)
  • 3. MỞRỘNG (34)
    • 3.1. Xétmô hình hồi quy logistic (34)
    • 3.2. Mộtsố tìm hiểu khác (37)

Nội dung

Vì vậy, mỗi nguồnnước cần phải được phân tích cụ thể chỉ số, nồngđộ của từng yếu tố liên quan để phân biệtđượcđâu là nguồn nướcuống an toàn cho con người.Dữ liệu này cung cấp mức độ phụ

KIỂMĐỊNH GIẢTHIẾT THỐNGKÊ

Kiểmđịnh 1 mẫu

Bàitoán kiểm địnhtỷ lệ p=p0 p≠p0 f−p 0 z qs = √p

Trongđó𝑧 𝛼và 𝑧𝛼được xác địnhược xác ịnhđược xác định từ bảnggiátrịhàmphânphốichuẩntắc Φ(x).

Kiểmđịnh 2 mẫu

2mẫu độclập có phân phốitùy ý, kích thướcmẫu lớn

Trongđó𝑧 𝛼v à 𝑧𝛼được xác địnhư ợ cxácđịnhtừbảnggiátrịhàmphânphốichuẩntắcΦ(x);v𝑡 𝛼 ;𝑣và

BÀITOÁN TÌMKHOẢNGTIN CẬY(ƯỚC LƯỢNG)

Tìmkhoảng tin cậy cho tham số -Bài toán1mẫu

Bảngtóm tắt cácdạng bàiđã sửdụngtìmkhoảng ướclượng với độtin cậy1-𝛼

Dạngbài Giảđịnh Khoảng tin cậy đốixứngvàngưỡngsais ố

Khoảng tincậy bên phảivàngưỡng sai số Tỷlệ Mẫulớn n ≥ 30

Tìmkhoảng tin cậy cho tham số -Bài toán2mẫu

Cáckhoảng ướclượngthông dụng vớiđộ tin cậyvới độ tin cậy1-𝛼

2 mẫu độc lập cóphân phối tùy ýMẫulớnn 1 ,n2≥30 Đãbiếthoặc chưa biết𝜎1,𝜎2

Trongđó𝑧 𝛼và 𝑧𝛼được xác địnhược xác ịnhđược xác định từ bảnggiátrịhàmphânphốichuẩntắc Φ(x).

MÔHÌNHHỒIQUY TUYẾNTÍNHĐƠN

Hồiquychínhlàmộtphươngphápthốngkêđểthiếtlậpmốiquanhệgiữamộtbiếnphụthuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với mộtbiếnđộclập đượcgọi làhồi quy đơn.

Hàmhồi quy tuyến tính đơncó dạng: fY( X ) =E(Y|X) =0+1X

Các bước thực hiện bài toán hồi quy tuyến tính đơnBước 1 : Tính cácđặctrưng mẫu

Bước2:Ướclượngcáchệsố0;v1c ủ ađườnghồiquytuyếntính(Tìmđườnghồiquytuyếntính mẫu củaY theo X):

Hàmy =a +bx làhồi quy tuyếntính mẫu Ytheo X nếuhàm 𝑛 ( 𝑦 −𝑦 )2

𝑖=1 𝑖 lànhỏnhất.Giátrịalàmộtướclượngchohệsốtựdo0.Giátrịblàmộtướclượngchohệsố số góc1, avàb đượcxácđịnh theo côngthức:

MÔHÌNHHỒIQUY TUYẾNTÍNHĐABỘI

Môhìnhvới mộtbiếnphụthuộcvớihaihoặcnhiềubiếnđộc lậpđược gọilàhồiquybội(haycòn gọi làhồi quy đabiến).

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:Y=β1+β2X2+β3X3+… +βkXk+u

Xi: biến độc lậpβ1: hệsố tựdo βi: cáchệsố hồi quy riêng

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩađược hiểu là tất cả các hệ số hồi quy riêng đều bằng 0 Khi đó, ứng dụng kiểm địnhWald(thườngđượcgọi làkiểmđịnh F) đượctiến hành.

MÔHÌNHANOVA1 YẾU TỐ

Thếnào là mô hìnhAnovamột yếu tố

Phân tích phương sai là một mô hình dùng để xem xét sự biến động của một biến ngẫunhiênđịnh lượng X chịu tácđộng trựctiếpcủamột haynhiều yếu tố nguyên nhân.

Trongmôhìnhphântíchphươngsai1yếutố,chúngtakiểmđịnhsosánhtrungbìnhcủabiếnngẫunhiê nXởnhữngtổngthể(còngọilànhóm)khácnhaudựavàocácmẫuquansátlấytừnhữngtổngthểnày.Cáctổng thểđượcphânbiệtbởicácmứcđộkhácnhaucủayếutốđangxemxét.

Giảthiết củabài toán Anovamột yếu tố

 CỏctổngthểcúphõnphốichuẩnN(à1;v𝜎2);v i= 1;v 2;v ;v k.k là số tổngthể(thông thường k ≥ 3).

 Cácmẫu quansát (từ cáctổngthể) đượclấy độclập.

Cácbướcthựchiệnbài toán Anovamột yếu tố

* TÍNH GIÁ TRỊ KIỂMĐỊNH THỐNGKÊ:

Tổng bình phươngchênhlệchtro ng nộibộ nhóm

Tổngbình phương chênhlệch Bậctựdo Phươngsai Tiêuchuẩnkiểmđịnh

 SST:Tổng cácbiến thiêncủaXdo tấtcảcácyếu tốtạo ra.

 HệsốxácđịnhR 2 củamôhìnhphântíchphươngsaiđượcsửdụngđểđomứcđộảnhhưởng của yếu tố được xem xét trong mô hình đối với sự biến động của các giá trịcủabiến ngẫu nhiên X quanh giá trị trung bình củanó.

 R 2 càng lớn thìmô hìnhcàng gọilàthích hợp.

Phântích sâu Anova một yếu tố

 Chưabácbỏ đượcH0, hay chưacó bằng chứng vềsựkhácbiệtcủacáctrung bình.

 Bácbỏ H0, chấpnhận H1=>Trungbình củacác nhómkhông bằngnhau

Nói chung, chúng ta không biết được sự khác biệt đó là từ một hay từ những nhóm nào,nhómnàocó trung bình lớn hơn, bằng, haynhỏ hơn sovới những nhóm khác.

Trong nhiều phương pháp thì Fisher’s LSD ( Least Significant Difference) chính là lựachọn phù hợp để giúp chúng ta xử lí vấn đề này thông qua việc kiểm định so sánh lần lượt tấtcảcáccặp trung bình của2 nhóm khácnhau với cácgiảthiết tương ứng:

GiảthiếtH0bị bácbỏ khi|X̅ i −X̅ j |>LSDi;vj

Dùng cáckhoảngtincậyđểước lượngcác chênhlệchcủatrung bình2nhómbấtkỳ.Từđótìm racáccặp nhóm có trung bình khácbiệt.

Khoảngướclượng LSD với độtin cậy1-αchođộchênh lệch(μi–μj)là:

Nếu một khoảng tin cậy không chứa số 0 thì ta nói có sự khác biệt giữa hai giá trị trungbình μ i và μj(hay là sự khác biệt có ý nghĩa thống kê) Cụ thể hơn, nếu khoảng tin cậy chỉ gồmcác số dương thì xem như μi> μj Ngược lại, ta nói μi< μjnếu khoảng tin cậy chỉ chứa các giátrịâm.Nếukhoảngtincậychứasố0thìtakhôngkếtluậnđượccósựkhácbiệtgiữavịμivàμj.

MÔHÌNHHỒIQUY LOGISTIC

MôhìnhhồiquyLogisticlàmộtphươngphápthốngkêđượcsửdụngđểmôhìnhhóavàdự đoán xác suất xảy ra Mô hình này được sử dụng rộng rãi trong nghiên cứu y học, khoa họcxãhội,kinhtế,vànhiềulĩnhvựckhácđểphântíchvàdựđoáncácsựkiệnnhịphân,vídụnhư:Dự đoán chất lượng nước uống được hay không uống được dựa trên các yếu tố như độ pH, độcứng,độ đục, … củanước.

Trongđó:X1,X2, ,Xkl àcácbiếnđộclập, cóthểlàliêntụchoặcphânloại(địnhtính);v β0,β1,β0, β𝑘làc á c h ệ s ố m ô h ì n h c ầ n đ ư ợ c ư ớ c t í n h v à z =β0+β1X1+β2X2+⋯

Mô hình hồi quy logistic ước lượng các hệ số cho từng biến độc lập, cho biết mức độ tácđộngcủatừng biến đến xácsuất dựđoán.

 Odds >1 thì khảnăng xảy racao hơn khảnăng không xảy ra.

 Odds=1 thì khảnăng xảy rabằng khảnăng không xảy ra.

 OddsMô hìnhhồi quy tuyến tính đơn biến phù hợp.

Anovamộtnhântố:ĐánhgiásựảnhhưởngcủapHđếnđộcứng(biếnHardness)củanước: newwater_data8,"Kiem_group","Trungtinh_group")) boxplot(Hardness~new_ph,data=newwater_data)

Hình 33 Đồthị boxplotthểhiện độcứng ở 3nhóm pH

Nhậnxét:Tadựđoáncósựkhácbiệtvềđộcứng3nhómph,cụthểlànhómKiemvàTrungtinhc ó độ cứng cao hơn sovới nhóm acid.

 Giảđịnh 1: Độ cứngở 3nhóm phtuân theophânphốichuẩn.

 Giảđịnh 2: Phương sai độcứng ở3 nhóm phbằng nhau.

Giảthiết H0:độ cứng ởnhóm Axit_group tuântheo phân phốichuẩn.

Giả thiết đối H1: độ cứng ở nhóm Axit_group không tuân theo phân phối chuẩn.Axit_group

Ngày đăng: 14/08/2024, 11:47

HÌNH ẢNH LIÊN QUAN

Hình 1.Bảngtómtổngquandữliệubiến str(water_data) - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 1. Bảngtómtổngquandữliệubiến str(water_data) (Trang 14)
Hình 9. Kết quả kiểm tra tính - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 9. Kết quả kiểm tra tính (Trang 17)
Hình 14.HìnhBoxplotmôtảChloramines,Sulfat,ConductivitycủaPotability - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 14. HìnhBoxplotmôtảChloramines,Sulfat,ConductivitycủaPotability (Trang 19)
Hình 18. Biểu đồ Histogram của - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 18. Biểu đồ Histogram của (Trang 21)
Hình 17. Biểu đồ Histogram của Chloramines, - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 17. Biểu đồ Histogram của Chloramines, (Trang 21)
Hình 25.KếtquảRstudiokiểmđịnhtrungbình1mẫu - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 25. KếtquảRstudiokiểmđịnhtrungbình1mẫu (Trang 27)
Hình 31.KếtquảcâulệnhModel - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 31. KếtquảcâulệnhModel (Trang 29)
Hình 32.Đồthịthểhiệnsaisốhồi quyứngvớidựbáo củabiếnPotabiltity - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 32. Đồthịthểhiệnsaisốhồi quyứngvớidựbáo củabiếnPotabiltity (Trang 30)
Hình 34.ĐồthịlệnhqqnormthểhiệnđộcứngởnhómAcid_group - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 34. ĐồthịlệnhqqnormthểhiệnđộcứngởnhómAcid_group (Trang 31)
Hình 38.KếtquảlệnhANOVA_model - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 38. KếtquảlệnhANOVA_model (Trang 33)
Hình 42.Biểuđồcorrplot - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 42. Biểuđồcorrplot (Trang 35)
Hình 43.Kết quảmô hìnhhồi quyLogistic - đề tài 3 khảo sát phân loại chất lượng nước thông qua một số mô hình thống kê
Hình 43. Kết quảmô hìnhhồi quyLogistic (Trang 36)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w