Nhằm góp phần làm phong phú nguồn tư liệu phục vụ nghiên cứu, học tập cho bạn đọc và sinh viên khoa Môi trường và Tài nguyên thiên nhiên Trường Đại học Cần Thơ, Nhà Xuất bản Đại học Cần Thơ ẩn hành và giới thiệu cùng bạn đọc giáo trình Tin học trong kỹ thuật môi trường do TS. Phạm Văn Toàn và ThS. Nguyễn Văn Tuyến biên soạn. Giáo trình gồm các nội dung chính: các vấn đề trong nghiên cứu môi trường và thống kê liên quan; phương pháp thống kê mô tả ứng dụng trong điển tra nghiên cứu môi trường; ước lượng và trắc nghiệm giả thuyết thống kẻ, phương pháp hồi qui và tương quan ứng dụng. Thêm vào đó, cuối mỗi chương còn có nhiều câu hỏi thảo luận cùng tài liệu tham khảo hữu ích cho bạn đọc. Giáo trình là tài liệu học tập có giá trị cho sinh viên ngành Kỹ thuật Môi trường. Nhà Xuất bản Đại học Cần Thơ chân thành cảm ơn các tác giả và sự đóng góp ý kiến của quý thầy cô trong Hội đồng thẩm định trường Đại học Cần Thơ để giáo trình Tin học trong kỹ thuật môi trường” được đến với bạn đọc. Nhà Xuất bản Đại học Cần Thơ trân trọng giới thiệu đến sinh viên, giảng viên và bạn đọc giảo trình này.
Trang 2(Bién soan) TS PHAM VĂN TỒN ( Chủ biên) ThS NGUYÊN VĂN TUYẾN
GIÁO TRÌNH
TIN HỌC
TRONG KỸ THUẬT MƠI TRƯỜNG
NHÀ XUẤT BẢN ĐẠI HỌC CAN THO
Trang 3
BIÊN MỤC TRƯỚC XUẤT BẢN THỰC HIỆN BỞI
TRUNG TAM HQC LIEU TRUONG DAL HQC CAN THO
Pham, io tn tn hoe trong kỹ thuật mỗi tường / Pham Van Ton, Nguyén Van Tuyén.~ Clin Tho in Toain Nxb- Dai hge Cin Tho, 2015 168 tr: mình họa +24 em
Sách cĩ danh mục tải liệu tham khảo
Trang 4LỜI GIỚI THIỆU
Nhằm gĩp phần làm phong phú nguồn tư liệu phục vụ nghiên cứu, học tập cho bạn đọc và sinh viên khoa Mơi trường và Tài nguyên thiên nhiên - Trường Đại học Cần Thơ, Nhà Xuất bản Đại học Cần Thơ ấn hành và giới thiệu cùng bạn đọc giáo trình “Tin học trong kỹ thuật mơi trường” do TS
Phạm Văn Tồn và Thể Nguyễn Văn Tuyến biên soạn
Giáo trình gồm các nội dung chính: các vấn để trong nghiên cứu mơi trường và thơng kê liên quan; phương pháp thơng kê mơ tả ứng dụng trong tra nghiên cứu mơi trường; ước lượng và trắc nghiêm giả thuyết thơng kê; phương pháp hồi qui và tương quan ứng dụng Thêm vào đĩ, cuối mỗi chương cịn cĩ nhiều câu hỏi thảo luận cùng tài liệu tham khảo hữu ích cho đọc Giáo trình là tài liệu học tập cĩ giá trị cho sinh viên ngành Kỹ thuật Mơi trường
Nhà Xuất bản Đại học Cần Thơ chân thành cám ơn các tác giả và sự đĩng gĩp ý kiên của quý thầy cơ trong Hội đồng thâm định trường Dai hoc Cần Thơ để giáo trình *Tin học trong kỹ thuật mơi trường” được đến với
bạn đọc
Nhà Xuất bản Đại học Cần Thơ trân trọng giới thiệu đến sinh viên,
giảng viên và bạn đọc giáo trình này
Trang 6LỜI NĨI ĐẦU
Ngày nay, với sự phát triển mạnh mẽ của khoa học kỹ thuật từ lý thuy đến ứng dụng, người ta càng quan tâm đến việc nghiên cứu: "Làm thé nao dé áp dụng thành cơng các cơng nghệ mới vào trong cuộc sống" Các nhà hĩa học, nhà sinh học nghiên cứu tìm nồng độ tối ưu của hĩa chát trong xử lý các vấn đề mơi trường, chat kích thích tăng trường cho cây trồng và gia súc, hoạt chất đề hạn chế hoặc tiêu điệt sâu bệnh Phương pháp chung cho các vấn đề này là khảo sát, bố trí thí nghiệm, thu mẫu phân tích hay đo các chỉ tiêu hoặc đặc điểm trên từng cá thẻ thí nghiệm, sau đĩ thống kê, đánh giá và kết luận Phương pháp này cĩ tên chung là thống kê ứng dụng Các lĩnh vực nghiên cứu chính của thơng kê ứng dụng cĩ thể được liệt kê như:
- _ Tổ chức thực hiện lấy mẫu, ~_ Mơ tả số liệu trên mẫu, -_ Ước lượng và kiểm định, ~_ Liên hệ tương quan - hồi quy, - Dự báo,
Giáo trình này được biên soạn bao hàm các nội dung liên quan đến các Tinh vực nêu trên Đây là một trong các giáo trình liên quan đến ứng dụng tin học để giải quyết các vấn đề thuộc lĩnh vực khoa học mơi trường Trong giáo trình này chỉ tập trung trình bày kiến thức liên quan đến thống kê ứng dung cơ
ản Ứng với từng vẫn đề, cơng cụ xử lý thống kê tương ứng dược gi
ngắn gọn Sau đĩ, người học sẽ được hướng đẫn thực hành trên máy vi tính thơng qua một giáo trình hướng dẫn thực hành riêng Trên cơ sở kiến thức và
kỹ năng đã được trang bị, người học tự nghiên cứu thơng qua tham khảo các tải liệu về thống kê khác, cũng như các phẩm mềm cĩ liên quan đến thống kê
Đây là giáo trình dé phục vụ cho sinh viên theo học các ngành học liên quan đến lĩnh vực mơi trường và đồng thời cũng là tài liêu tham khảo cho những ban đọc cản nắm các phương pháp cơ bản trong việc thu thập và xử lý dữ liệu Trong lần tải bản này tác giả cĩ bổ sung thêm phần kiểm định phi tham số, là phân được ứng dụng khá phổ biến đề xử lý các dữ liệu mơi trường
Mơng rằng quyển giáo trình này sẽ đáp ứng được một phẩn nhu cầu của bạn sinh viên, các độc giả trong những lĩnh vực cĩ liên quan Mặc dù đã cĩ rất nhiều cĩ găng trong lần tái bản nảy, tuy nhiên chắc chắn sẽ khơng thể tránh khỏi những thiêu sĩt Kính mong quý độc giả thơng cảm và gĩp ý cho
Xin tran trọng giới thiệu
Trang 8MỤC LỤC Chương 1 CÁC VẤN ĐÈ TRONG NGHIÊN CỨU MƠI TRƯỜNG
VA THONG KE LIEN QUAN 1 1.1 CAC KIEU NGHIÊN CỨU MỖI TRƯỜNG 1 1.2 MOT SO KHÁI NIỆM CƠ BẢN TRONG THONG KE 2 3 CAC GIAI DOAN TRONG DIEU TRA NGHIEN CUU MOI TRUGNG 7 1.3.1 Xác định nhiệm vụ, đối tượng, quần thể 7 1.3.2 Tính tốn số lượng đơn vị cần thu thập 8
1.3.3 Thu thập dữ kiện 8 1.3.4 Lưu trữ và xử lý số liệu 8
1.3.5 Phân tích kết quả và viết báo cáo 8 1.4 NHỮNG LOẠI BÀI TỐN THƯỜNG GẶP TRONG ĐIỀU TRA -
NGHIÊN CỨU MỖI TRƯỜNG
CÂU HỎI VÀ BÀI TẬP "
Chương 2 PHƯƠNG PHÁP THĨNG KÊ MƠ TẢ ỨNG DỤNG TRONG
DIEU TRA NGHIÊN CUU MOI TRUONG 12
2.1 CÁC PHƯƠNG PHÁP NGHIÊN CUU TRONG THONG KE UNG DUNG 12 2.2 CAC DAC TRUNG THONG KE THUONG DUNG: 3
2.2.1 Cae đặc trưng điễn đạt chiều hướng tập trung của dữ kiện l3 2.2.2 Các đặc trưng diễn đạt sự phân tán của dữ kiện 4
2.3 MƠ TẢ DỮ KIỆN MỖI TRƯỜNG 7 2.3.1 Phân bố của quần thể 17 2.3.2 Phân bố mẫt 17 2.3.3 Các phân bố xác suất thường gặp trong nghiên cứu mơi trường 18 CÂU HỎI VÀ BÀI TẬP 2 Chương 3 ƯỚC LƯỢNG VÀ TRAC NGHIEM GIA THUYET THĨNG KÊ 24 3.1 LY THUYET LAY MẪU THĂM DỊ 24
3.1.1 Tổng quan 4 3.1.2 Phan tich nhiệm vụ, định nghĩa đơn vị chọn mẫu, xác định quản thể
và lựa chọn phương pháp lây mẫu 25
3.2 MOT SO CO SG LY THUYET CỦA ƯỚC LƯỢNG DIEM VA
UGC LUQNG KHOANG TIN CAY 26
3.2.1 Ước lượng điểm 26
3.2.2 Ước lượng khoảng tin cậy 27
Trang 933 NHUNG KIEM BINH THONG SO THUONG GAP
3.3.1 Những nguyên lý chung về kiểm định giả thuyết
3.3.2 Các kiểm định tham số thường gặp trong nghiên cứu mơi trường 3.43 Mộ
kiểm định phi tham số thường gặp
CÂU HƠI VÀ BÀI TẬP
Chương 4 BỘ TRÍ THÍ NGHIỆM & 41
KHÁI NIỆM N TÍCH PHƯƠNG SAI
4.2 CÁC KHÁI NIỆM CĨ LIÊN QUAN ĐẾN THÍ NGHIỆM 43 44 45 4.2.1 Nghiệm thức và don vi thi nghiệm 4.2.2 Chọn lựa nghiệm thức 4.2.3 Lap lai
CAC GIAI DOAN THUC HIEN THi NGHIEM 43.1 Xéc dinh muc tiêu thí nghiệm 4.3.2 Bố trí kiểu thí nghiệm 4.3.3 Thu thập dữ liệu 4.3.4 Nhập và lưu trữ kết quả thí nghiệm 43.5 Xirh liệu thí nghiệm 4.3.6 Phân tích, đánh giá kết quả và trình bảy báo cáo về thí nghiệm THÍ NGHIỆM MỘT NHÂN TỎ
4.4.1 Bố trí kiểu hồn tồn ngẫu nhiên (Complete Randomized Design - CRD) 4.4.2 Bố trí khối hồn tồn ngẫu nhiên (Randomized Complete Block
Design - RCB)
4.4.3 Bố trí kiểu hình vuơng Lan (Latin'Square design - LS) BỒ TRÍ HAI NHÂN TƠ
4.5.1 Bổ trí Khối hồn tồn ngẫu nhiên
4.5.2 Bồ trí lơ phụ Split> Plot
CÂU HỎI VÀ BÀI TẬP
Chương 5 PHUONG PHAP HOI QUI & TƯƠNG QUAN ỨNG DỤN! 5.1 MO BAU
5.2 KHAINIEM VA VAN DE LIEN QUAN DEN NGHIEN CUU TAP HOP
THONG KE NHIBU YEU TO
5.2.1 Liên hệ tương quan - hồi quy
5.2.2 Các kiểu liên hệ tương quan
S.2.3 Phương pháp bình phương tối thiểu
5.2.4 Sự lạm dụng của phân tích hơi qui và tương quan
Trang 10
5.3.2 Tinh hệ số tương quan và hệ số xác định
5.3.3 Ước lượng khoảng tin cậy cho đường thẳng hồi quy 5.3.4 Kiểm định về sự tồn tại của hệ số
tương quan
5.3.5 Ước lượng khoảng tin cậy và kiểm định về sự tồn tại của hệ số i quy B
5.3.6 Kiểm định f trung bình bình phương của sai lệch
5.4 HƠI QUY VÀ TƯƠNG QUAN TUYỂN TÍNH ĐA BIẾN 5.4.1 Tính tốn các hệ số
5.4.2 Phân tích phương sai
5.4.3 Tính tổng bình phương điều kiện
5.5 HỘI QUY VÀ TƯƠNG QUAN PHI TUYẾN TÍNH ĐƠN BIẾN (SIMPLE NONLINEAR)
5.5.1 Biến đơi biến số 5.5.2 Tạo ra biến số mới
5.6 HỘI QUY VÀ TƯƠNG QUAN PHI TUYẾN TÍNH ĐA BIẾN (MULTIPLE NONLINEAR) 5.6.1 Tuyén tinh h
ig cach tao ra biến mới thay vào phương trình nhằm chuyển đổi tat cả các quan hệ thành tuyến tính
5.6.2 Sử dụng phương pháp tìm thơng số cho hồi quy phi tuyến tính CÂU HỎI VÀ BÀI TẬP
Chương 6 XỬ LÝ DỮ LIỆU CHUƠI THỜI GIAN 6.1 MƠ PHỊNG DỮ KIỆN BANG CAC HAM PHAN BO 6.2 CHUỒI THỜI GIAN
6.2.1 Khái niệm
6.2.2 Phân tích chuỗi thời gian CÂU HỎI VÀ BÀI TẬP
Trang 11DANH SÁCH HÌN|
Hinh 2.1 Đồ thị hàm phân bố xác suất của biến liên tục 19 Hinh 2.2 D6 thị hàm mật độ phân bố chuân //= 0, 1 20
Trang 12Bang 1.1 Bang 3.1 Bang 4.1 Bang 4.2 Bảng 4.3 Bảng 4.4 Bảng 4.5 Bang 4.6 Bảng 4.7 Bang 4.8 Bang 4.9 Bang 4.10 Bang 4.11 Bang 5.1 DANH SACH BANG
Các loại vấn đề và cơng cụ phân tích thơng kê liên quan 10 Các phép kiểm định tham số và kiểm định phi tham số 52 Bảng số ngẫu nhiên dùng đề bĩ trí ba nghiệm thức vào 16 đơn vị
thí nghiệm 70
Dữ liệu thu thập được từ bố trí thí nghiệm kiểu CRD
của 11 nghiệm thức, T4
'Bảng kết quả phân tích phương sai của kiểu bố trí thí nghiệm CRD 77 Dữ liệu thu thập được từ bố trí thí nghiệm kiểu RCB
của 6 nghiệm thức 82
Bang két quả phân tích phương sai của kiểu bổ trí thí nghiệm RCB 84 Dữ liệu thu thập được từ bố trí thí nghiệm kiểu LS của 4 nghiệm thức 88
Bảng kết quả phân tích phương sai của kiểu bổ trí thí nghiệm LS 91
Dữ liệu thu thập được từ bố trí thí nghiệm 2 nhân tế kiểu RCB 94 Bảng kết quả phân tích phương sai của kiêu bồ trí thí nghiệm RCB
2 nhân tố 97
Dữ liệu thu thập được từ bố tghiệm kiểu Split-Plot 101
Bảng kết quả phân tích phương sai của kiêu bố trí thí nghiệm kiểu Split-Plot 105
Trang 13DANH MUC TU VIET TAT
Từ viết tắt Nghĩa Tiếng Việt Nghia tiéng Anh
ANOVA Phân tích phương sai Analysis of variances
CRD Bố trí kiểu hồn tồn Complete randomized design ngẫu nhiên
cv Hệ số biến động Coefficient of variation
af Degree of freedom Kiếm định K hh Kruskal-Wallis, Kruskal-Wallis Test Kiém dinh U Mann- Whitney Mann- Whitney Test
Kiém dinh W h Wilcoxon Wilcoxon Test
Ls Bồ trí kiểu hình vuơng Latin Latin square design
MS Trung bình bình phương Mean sums of squares Phân bồ F Phan bé Fisher Fisher distribution
Phan bé P Phan bé Poisson Poisson distribution Phan bé t Phan bé Student Student distribution Phan bé chuan Bồ trí khối hồn tồn “Tổng bình phường Tổng bình phương sai số Tơng bình phương hồi quy “Tổng bình phương tổng cộng ‘Normal distribution Randomized complete block design Sum of squares Sum of squared errors Sum of squared regression
Total sum of squares
Trang 14
Chuong 1
ĐÈ TRONG NGHIÊN CU'U MOI TRU
VA THONG KE LIÊN QUAN
1.1 CAC KIEU NGHIEN CUU MOI TRUONG
Nghiên cứu về lĩnh vực mơi trường, nhất là khoa học và kỹ thuật mơi
trường, cĩ thê được chia thành hai k
~ Quan trắc mơi trường: Trong quá trình quan trắc, dữ liệu mơi trường được thu thập đề giám sát hoặc đẻ mơ tả nồng độ của một chất trong mơi „ hoặc đề kiểm sốt nồng độ của một chất
nhân gây ra hiện tượng mơi trườn diễn biến theo khơng gian hay thời theo những quy chuân về phát thải
hoạch đài hạn; Đề khẳng định với
đang được kiểm sốt hợp lý
- Nghiên cứu mơi trường: Dữ liệu trong phịng thí nghiệm và ở ngồi đồng được thu thập để nghiên cứu sự phát tán của chất ơ nhiễm trong mí trường thơng qua chuỗi thức ăn, hay để xác định mối quan hệ giữa nguyên nhân và hậu quả của sự biến đơi nồng độ ơ nhiễm theo khơng gian và thời gian
Hai kiểu nghiên cứu trên dẫn đến hàng loạt các vấn đẻ cần giải quyết, Phương pháp thống kê được áp dụng đề thu thập, tổng kết, trình bày, lý giải số liệu và sử dụng chúng đẻ kiểm định các giả thuyết liên quan đến vấn đề mơi trường (Gilbert, 1987) Khi số liệu mơi trường đã được thu thập, người nghiên cứu biết phải rằng cĩ nhiều phép thống kê để xử lý dữ liệu tùy theo mục đích Khi đĩ người nghiên cứu phải biết áp dụng phép thống kê nào cho phù hợp Chẳng hạn, khi dữ liệu mơi trường cĩ phân bĩ khơng đối xứng, cĩ xu hướng ch về phía nng độ cao, khi đĩ phép chuyển đổi dữ liệu phải được áp dụng và trong trường hợp này thì phương pháp thơng kê phi tham số sẽ là lựa chọn
Nhiều chương trình quan trắc mơi trường tạo ra dữ liệu rất lớn Trong những tình huống như vậy thì khả năng trữ, truy xuất và phân tích số liệu phải được lưu ý để dữ liệu cĩ thể được xử lý triệt để và phản ánh đúng thực tế
Trang 15
khơng đủ thơng tin d đạt được mục tiêu nghiên cứu Trong trường hợp này cần phải xác định rõ mục tiêu nghĩ tải nguyên cĩ thể đề thu thập dữ liệu và khả năng dự đốn dữ liệu để nghiên cứu cĩ thể được phát triển C thể thấy, dù nghiên cứu lớn hay nhỏ, ít hay nhiều dữ liệu, điều quan trọng nhất là phải định rõ độ đúng, độ chính xác của việc đánh giá 1.2 MOT SO KHAI NIEM CO BAN TRONG THONG KE
Quan thé (Population): 1a tập hợp những thơng tin về người sự vật
hoặc sự việc riêng biệt kết hợp với nhau trên cơ sở một đặc điểm chung nào đĩ mà người nghiên cứu đang quan tâm Một quần thê là một tập hợp rất lớn gồm N quan sát (hay giá trị đo đạc), mà từ đĩ mẫu của n quan sát cĩ thể được tgo ra
Ví dụ
~ Trong quan trắc đánh giá chất lượng nước của một con sơng thì quần
thể là tồn bộ nước của sơng Từ đĩ các mẫu nước đưc c lấy để xác định các
thơng số lý, hĩa hay sinh trong khoảng thời gian quan trắc
~ Một trạm xử lý nước thải đơ thị xã nước đã được xử lý vào một con sơng Một quan trắc thực hiện trong khoảng thời gian ba tháng được hình thành để đánh giá lượng chất lơ lửng trung bình và các chỉ tiêu chất lượng nước khác tại một khu vực dành cho sinh hoạt Khi đĩ, quả)
nước được lấy trong bình I-líCtại bất kỳ.vị trí hay,độ
với một khoảng cách xác định về phía thượng lưu tính từ khu vực được chọn đến nơi xả nước của trạm xử lý
Mẫu (Sample); là một bộ phận của quần thẻ, một tập hợp số liệu, được chọn ch ngẫu nhiên đẻ quan Sắt và thu thập dữ kiện, trên cơ sở đĩ sẽ suy rộng và khái quát về các đặc trưng của quản thể Như vậy mẫu là một nhĩm n quan sát cớ thể được lấy từ N quan sát của quần thể Mẫu được dùng để tính các thơng số thống kê, các thơng số này sẽ biểu thị cho các thơng số của quản thể chứa nĩ
Trong hai ví dụ trên người quan trắc chi cin chọn ra một số điểm trên sơng và tiến hành lấy mẫu, trữ, vận chuyển và phân tích, đo đạc các thơng số
đã chọn Từ đĩ dùng một số phương pháp thơng kê đề kết luận chất lượng
nước hay mức độ ơ nhiễm của nước chứ khơng cần xét đến tồn bộ nước trong sơng
Trang 16
Don yj théng ké (Statistical unit): 1a doi tượng cụ thể để đo đếm và thu nhập dữ kiện Một mẫu thăm đị sẽ cĩ nhiều đơn vị Mỗi đơn vị thống kê là
một phân tử của một mẫu điều tra khảo sát Cần phân biệt giữa đơn vị thống kê và hình thức thu thập mẫu trong trường hợp đổi tượng nghiên cứu là nước,
khơng khí
Mẫu ngẫu nhiên (Random sample): là mẫu được lấy từ quần thẻ mà các đơn vị đều cĩ cơ hội đồng đều nhau, nĩ mang tính khách quan trong thu thập dữ kiện Lấy mẫu hồn lại: là lấy mẫu xong đơn vị được trả lại và đơn vị đĩ cĩ thể được chọn lần thứ ha Lấy mẫu khơng hồn |: là cách thức lấy mẫu khơng trả lại, mỗi đơn vị chỉ chọn một lần
Cỡ mẫu (Sample size): cịn gọi là dung lượng mẫu trong một số tài liệu Đây là số don vi cần đo đếm trong một cuộc thăm dị Cỡ mẫu cảng lớn tức là nguồn thơng tin thu được càng nhiều thì mức độ chính xác cảng cao Tuy nhiên, trong một nghiên cứu nếu cờ mẫu lớn sẽ tốn nhiều thời gian, kinh phí và nhân lực Vì vậy tùy theo mục dích nghiên cứu mà cỡ mẫu sẽ được tính tốn và cĩ sự lựa chọn phủ hợp
Quan thể hữu hạn: quản thẻ cĩ số đơn vị đếm được
Quần thể vơ hạn: là quần thể cĩ đơn vị khơng giới hạn Trong thực tế quần thể hữu hạn nêu được lấy mẫu hồn lại thì cĩ thê xem như quan thé vơ hạn
Đặc tính quan sát (hay chỉ tiêu nghiên cứu): một đơn vị thơng kê trong, lĩnh vực mơi trường cĩ thể cĩ rất nhiều đặc tính quan sát Đặc tính quan sát của đơn vị điều tra khảo sát được phân thành hai nhĩm:
a) Đặc tính giĩng nhau:
Là các đặc tính khơng thay đơi từ đơn vị thống kê này đến đơn vị khác Các đặc tính này giúp định nghĩa và xác định quân thê trước khi tiền hành điều tra tính giống nhau được chia làm 3 nhĩm:
~ Đặc tính khơng gian,
Trang 17
b) Đặc tính biến thiên:
Là các đặc tính quan sát mà các đơn vị cĩ thể cĩ giá trị khác nhau Các đặc tính của đơn vị biến thiên từ đơn vị này đến đơn vị khác Các đặc tính biến thiên cĩ thể chia thành hai nhĩm: định tính và định lượng Cĩ hai loại đặc tính định tính, các đặc tính định tính cĩ thể cĩ tính chất cụ thé, tính chất thời gian hoặc khơng gian Các đặc tính biến thiên giúp xác định các thơng tin cần thu thập trong khi điều tra khảo sắt
Nắm vững ý nghĩa của các đặc tính quan sát giúp xác định đối tượng, phạm vĩ điều tra nghiên cứu mơi trường, đồng thời giúp cho việc thiết kế mẫu điều tra khi thu thập mẫu
Biến (Variables): là bắt kỳ đặc tính nào của đối tượng nghiên cứu mà
giá trị của nĩ cĩ thể thay đổi từ đơn vị thống kê nay sang đơn vị thống kê khác mà cuộc nghiên cứu quan tâm đến, cĩ 02 loại biến số
Biến liên tục: là biến mà giá trị là các số nguyên đương và thập phân
Các số đo về chiều dài, trọng lượng, thể tích là các biển liên tục
- Biến rời rạc: là các số nguyên dương Các biến biểu thị tính chất hay số đếm như tỷ lệ vi khuẩn sơng sĩt, số cây khơng bị nhiễm rầy là các bien roi rac Đếm số đơn vị: số cay con/m?, s6 chdiedy nhiễm bệnh trén mot géc,
Các thơng số của quần thể: là cát giá trị quan sát được của quần thẻ
và dùng để mơ tả đặc trưng của hiện tượng nghiên cứu: Ba thơng số của tổng thể thường gặp và ký hiệu như: trung bình (2), phương sai hay biến lượng
(), tỷ lệ (P), Ngồi ra cịn cĩ một:số thơng số và ký hiệu tương ứng khác sẽ
được giới thiệu trong các chương sau trong giáo trình
Các thơng số mẫu (Sample parameters): là giá trị tính tốn của một
mẫu, từ đĩ được đùng để suy rộng cho các thơng số của quân thẻ Về mặt xác suất thơng kê, thơng số mẫu là ước lượng điểm của thơng số quần thề Trong trường hợp tham số của quần thể chưa biết, thơng số của mẫu được sử dụng dé ước lượng thơng số của tổng thể Một vài thơng số của mẫu thường gặp như:
trung bình mẫu x, phương sai mẫu s-, tỷ lệ mẫu p
Sai số thí nghiệm (Experiment errors): là một thơng số thống kê để đánh giá mức độ phân tán của mẫu Một nguyên lý luơn được nhắc trong thống kê là kết quả đo đạc khi báo cáo phải kèm theo sai số Việc quan sit các đặc tính lý, hĩa hoặc sinh cĩ giá trị thực xác định Giá trị này sẽ khơng giống nhau giữa các lần quan sát mặc dù người nghiên cứu cĩ cĩ gắng điều chỉnh các điều kiện thí nghiệm giống nhau đến mức cĩ thể Mối quan hệ giữa giá trị
Trang 18
ác giá trị quan sát (đo đạc) được cĩ một sự s
giá trị e được gọi là sai số hay độ nhiễu
Sai số thí nghiệm phản ánh mức độ dao động hoặc mức độ khác nhau trong các quan sát cĩ lặp lại từ thí nghiệm này đến thí nghiệm khác (Brown, 2002) Trong phạm trù thống kê, sai số khơng ngụ ý cho sự thiểu sĩt, lỗi hay sai lâm, mà nĩ muốn kể đến sự biến động (variation) thường khơng thể tránh khỏi do các nhân tố như sự dao động trong quá trình đo đạc, do trình trạng của dụng cụ đo, sự khơng hồn hảo của việc lấy mẫu, sự biến động của điều kiện xung quanh, kỹ năng của người quan sát và nhiều yếu tố khác Cĩ thể thấy, sự khác nhau luơn tồn tại mặc dù nĩ cĩ thẻ được hạn chế tối đa trong một số trường hợp nhưng nĩ hồn tồn khơng được bỏ qua trong xử lý kết quả nghiên cứu
Độ chính xác (Accuraey), độ sai lệch (Bias), độ ding (Precision): Độ chính xác bao hàm cả độ sai lệch và độ đúng Độ sai lệch đo sự sai số cĩ hệ thống Độ đúng phản ánh độ phân tán của dữ liệu Các phép đo chính xác cĩ độ đúng rất tốt và độ sai lệch gần bằng khơng Các phép đo khơng chính xác cĩ thé cĩ độ đúng thấp, độ sai lệch khơng thể chấp nhận hoặc cả hai
Tính chuẩn (Norm: lập (Independency)
lity), tính ngẫu nhiên (Randomness), tính độc
Đây là ba tính chất quan trọng mà hầu hết các phép tính thống kê phải xét đến Trong đĩ tính chuẩn là tính chất mà mọi người làm cơng tác thống kê bồi rồi nhất, nhưng nĩ khơng lúc nào cũng quan trọng nhất
Tính chuẩn nghĩa là giới hạn sai số trong đo đạc được giả sử xuất phát từ phân bồ chuẩn, là phân bộ cĩ dạng hình chuơng đối xứng Cĩ một xu hướng đối với các phân bố của sai số là nĩ tạo ra từ nhiều sai số thành phân thêm vào dé trở thành sai số gần chuẩn Đây được gọi là ảnh hưởng giới hạn trung tâm Nĩ dựa trên giả sử rằng là cĩ nhiều nguồn sai số, khơng cĩ nguồn nao trội Sai số chung là một kết hợp tuyến tính của các phân bố độc lập Một số phép biến đơi cĩ thể áp dụng đề biến đơi các sai số khơng chuẩn trở nên chuẩn
Tính ngẫu nhiên nghĩa là các quan sát từ quần thẻ được thực hiện trong đĩ các đơn vị trong quần thể đĩ cĩ cơ hội được quan sát bằng nhau Ngẫu nhiên trong lấy mẫu là phương pháp hiệu quả nhất bảo đảm rằng các quan sát là độc lập
Tính độc lập muốn nĩi đến quy luật cấp số nhân đơn giản của xác suất
Theo luật này là xác suất của những sự xuất hiện chung của hai sự kiện được tính bởi tích xác suất của hai xuất hiện độc lập Trong tình huống cĩ một chuỗi các quan sát, giả sử rằng những nguyên nhân tạo ra sai số thí nghiệm khơng
Trang 19
xác định được, 1 à cao thì quan sát thứ hai cũng cao Trong trường hợp như thế, thì hai quan sát này khơng độc lập về mặt thống kê mà chúng được coi là phụ thuộc vào thời gian Thiếu tinh lập cĩ thể gây sai lầm trong đánh giá sự thay đơi Do đĩ làm cho báo cáo thống kê dựa vào tính chuẩn hay phân bồ t sẽ cĩ nhiều sai số
Tính độc lập thường thiểu trong dữ liệu mơi trường bởi vì quá trình lầy mẫu khơng thuận lợi hay khơng thể làm ngẫu nhiên hoặc khơng mong muốn
làm ngẫu nhiên trong lấy mẫu vi tính chu kỳ Do đĩ ta khơng thể giả sử một
ign rằng quan sát là độc lập Khi các quan sát khơng độc lập phải cin đến một số phương pháp giải thích sự trong quan của dữ liệu
_Khoảng tin ey (Confidential intervals): Khi kiểm tra một giả thuyết ĩ thể được thực hiện quá mức Khi đồ thường cĩ nhiều thơng tin được tong một khoảng nào đĩ mà trong phạm vi đĩ một thơng số được kỳ
vọng là được chứa Một khoảng tin cậy, I-z, của trung bình của quần thẻ được hình thành bằng cách sử dụng giá trị thích hợp của trị L #— Sex; SH < + sts/ phương ập hợp,
sai ø, và một khoảng tin cậy l- #¿# + s„f„/z được xây dựng từ mỗi
thì một tỷ lệ 1- ø của khoảng tin cậy này sẽ bao gồm giá trị ¿: cịn một tỷ lệ ø
cịn lại sẽ khơng chứa /
Các loại số liệu: cĩ bốn loại cũng như xử lý thống kê
iệu cần phái phân biệt để trình bày - Số liệu đặng tỷ số (Scale): là số liệu thỏa mãn hai điều kiện (1)
khoảng cách khơng đơi giữa 2 giá trị liên tiếp của đơn vị đo Ví dụ sai biệt
giữa I1 và 12 m thì cũng giống như sai biệt giữa 7 và 8 m; và (2) cĩ trị số 0 của thang đo và ý nghĩa vật lý của số 0 đĩ
Ví dụ: Con cá nặng 2 kg cĩ khối lượng gấp đơi con cá nặng I kg, trong ví dụ này 0kg cĩ ý nghĩa vật ly
- Số liệu dạng khoảng cách (Interval): là số liệu chỉ cĩ khoảng cách khơng đổi giữa 2 giá trị liên tiếp của đơn vị đo, nhưng trị số 0 khơng cĩ ý nghĩa vật lý
Ví dụ: trị số 0%C chỉ là qui ước; một vật ở 60%C khơng phải nĩng gắp đơi vật ở 30°C
Trang 20- Số liệu dạng thứ hạng (Ordinal): là số liệu chỉ định tính hơn kém tương đối Ví dụ: mức độ ơ nhiễm của nước mặt được xếp theo loại A1, A2, BI, B2
- Số liệu dạng định danh (Nominal): chăng hạn như giống đực, nước thải đen, xám, đỏ
Trong xử lý số liệu cĩ thể quy ước gán các trị số cho số liệu thứ hạng và liệu dạng định danh
1.3 CÁC GIẢI ĐOẠN TRONG ĐIỀU TRA NGHIÊN CỨU MƠI TRƯỜNG
Việc nhận thức rõ và phân biệt quần thể, mẫu, đơn vị thu thập cĩ ý nghĩa quan trọng trong việc vạch kế hoạch điều tra nghiên cứu và lập bảng ghi số liệu cần thu thập Khi lập kế hoạch điều tra nghiên cứu mơi trường phải trải
giai đoạn sau:
~ Xác định nhiệm vụ, xác định đối tượng, quân thể
~ Tính tốn số lượng đơn vị cần thu thập theo qui định thống kê
- Thu thập dữ kiện: đo đạc ngồi đồng hay phân tích trong phịng, thí nghiệm
- Lưu trữ và xử lý số liệu
~ Phân tích kết quả và viết báo cáo
1.3.1 Xác định nhiệm vụ, đối tượng, quần thể
hành thu thập dữ kiện, người nghiên cứu phải xác định xem mình muốn biết gì qua quá trình điều tra nghiên cứu Vì vậy xác định nhiệm vụ là bước đầu tiên trước khi thu thập dữ kiện
Ví dụ
Thực hiện quá trình đánh giá hiện trạng chất lượng khơng khí xung quanh một nhà máy Vậy nhiệm vụ là chỉ đánh giá xem khơng khí xung quanh nhà máy cĩ bị ơ nhiễm hay khơng Từ đĩ người nghiên cứu xác định được đ tượng là khơng khí xung quanh khu vực nhà máy; đơn vị thu thập mẫu là c; vị trí đo khác nhau xung quanh nhà máy, chỉ tiêu nghiên cứu là các thơng số chỉ thị chất lượng khơng khí như: CO›, SO, bụi
Trang 21
1.3.2 Tinh tốn số lượng đơn vị cần thu thập
Việc xác định số lượng đơn vị trong mẫu (hay cờ mẫu) cần thiết cho cuộc điều tra cĩ ảnh hướng hệ trọng đén kết quả đánh giá và suy diễn kết luận về quần thể thơng qua tập hợp mẫu Thu thập khơng đủ số lượng mẫu điều tra sẽ làm lệch sự suy điễn, phi khoa học và dẫn đến sự ngộ nhận gây ra những hau quả khơng lường được
Đề xác định cỡ mẫu, ta dựa vào cơng thức tính sai số khi ước lượng
khoảng tin cậy sẽ trình bảy chỉ tiết trong chương 3
1.3.3 Thu thập dữ kiện
Khi điều tra nghiên cứu mơi trường, phải thực hiện việc thu thập dữ kiện Cĩ những trường hợp dữ kiện phải được thu thập ngồi hiện trường và trong phịng thí nghiệm Trong khi thu thập dữ kiện phải thực hiện việc ghỉ chép thơng qua các bảng ghỉ số liệu khảo sát
1.3.4 Lưu trữ và xữ lý số liệu
Hình thức và phương pháp lưu trữ dữ kiệ hay kết quả phân tích trong phịng thí nghiệm r điều tra nghiên cứu Tuy nhiên cĩ thể khái quát như sau:
thu thập ngồi hiện trường đa dạng tùy theo mục đích ốc thực hiện lựu trữ dữ kiện
- Duéi dang bang tinh (worksheet) - Dưới dang cờ sở dữ liệu (đatabase)
~ Lưu trữ trực tiếp vào phần mềm xứ lý thống kê
1.3.5 Phân tích kết quả và viết báo cáo
Việc phân tích kết quả sẽ được thực hiện tùy theo loại cơng cụ xử lý
Trong phân này khái quát một số phương pháp trình bày kết quả xử lý thống kế cĩ thể áp dụng trong các báo cáo kết quả điều tra nghiên cứu mơi trường
Khi trình bày kết quả cản phân ra 2 loại dữ liệu:
- Loại dữ liệu nguồn là các dữ liệu thé (raw data) hay dữ liệu chưa được xử lý theo mục tiêu được thu thập hay phân tích từ phịng thí nghiệm
Trang 22
Một bảng thống kê kết quả chủ yếu gồm các thành phần sau: - Tựa đề của bảng,
~ Các đầu đề dữ kiện - Nguồn gốc dữ kiện
1.4 NHỮNG LOẠI BÀI TỐN THƯỜNG GẶP TRONG ĐIÊU TRA -
NGHIÊN CỨU MƠI TRƯỜNG
Trong nghiên cứu mơi trường, khi phân tích thống kê cĩ thể khái quát thành các loại bải tốn sau:
~ Phân tích dữ liệu điều tra các yếu tố mơi trường phục vụ cho việc đánh giá tác động mơi trường, phân tích hiện trạng mơi trường
- Kiểm định kết quả thu thập về các yếu tố mơi trường, cĩ nghĩa là so
sánh các chỉ tiêu thu thập với các tiêu chuẩn qui định hay so sánh kết quả của hai hoặc nhiều cơng nghệ xử lý
- Bồ trí thí nghiệm và phân tích kết quả của các thí nghiệm để tìm biện
pháp tối ưu
- Nghiên cứu mối liên hệ giữa hai yếu tổ mơi trường hoặc mỗi liên hệ nhân quả giữa các biện pháp và hậu quả về mơi trường
Trang 23
Bang 1.1 Các loại vấn đề và cơng cụ phân tích thơng kê liên quan
TT Loại vấn đề ¡ Cơng cụ phân tích thống kê chủ yếu |
1 Thiết kế thí nghiệm, bố trí thí / Phân tích phương sai và kiểm định các
nghiệm xử lý mơi trường giả thuyết thơng kê Phân tích điền biến mơi trường qua | Phân tích chuỗi thời gian
thời gian, dự báo mức độ ơ nhiễm 2 | dựa trên phân tích chuỗi số liệu
theo thời gian
Thơng kê mơ tả trình bày kết quả | Các phương pháp thơng kê mơ tả, lý
3 | điều tra mơi trường thuyết thăm dị (phương pháp số, phương pháp đồ thị)
Điều tra các yêu tơ vật lý, hĩa học, | Các phương pháp thơng kê mơ tả, lý
sinh học của mơi trường phục vụ ¡thuyết thăm đị ước lượng và kiểm 4 | danh gid higu quả của biện pháp xử | định giả thuyết thống kê
lý
Điều tra các yêu tơ vật lý, hĩa học, | Các phương pháp thống kê mơ tả, lý
„ | sinh học của mơi tường phục vụ thuyết thăm đồ ước lượng và kiểm đánh giá tác động của mơi trường _ định giả thuyết thống kê
@ |So sánh giữa các kết quả mơi Ước lượng, phân tích phương sai và trường của hai hay nhiều nhĩm _, kiềm định giả thuyếtthơng kê
7 | Mỗi liên hệ và tác động qua lại giữa ¡ Phân tích hồi đuy và tượng quan | các yêu tố trong cùng quân thể
Trang 24CÂU HỎI VÀ BÀI TẬP
1 Hãy nêu định nghĩa về quần thể, mẫu ngẫu nhiên?
2 Ha lặc tính quan sát trong nghiên cứu Mục đích của việc phân loại các loại đặc tính quan sát?
Cĩ các dạng số liệu nào trong xử lý thống kê?
4, Néng 46 cita phosphorus trong 20 miu nước thải được đo như bảng sau Với nơng độ thực được biết là 2 mg/L
18 22 21 23 21 22 221 21 18 19
24 20 19 19 22 23 22 23 221 22 Hãy tính các sai số của thí nghiệm Vẽ bi
diễn sự phân bố của chúng?
đồ các giá trị sai số để biểu
Trang 25
Chương 2
PHƯƠNG PHÁP THĨNG KÊ MƠ TẢ ỨNG DỤNG TRONG DIEU TRA NGHIÊN CỨU MƠI TRƯỜNG
2.1 CÁC PHƯƠNG PHÁP NGHIÊN CỨU TRONG THONG KE UNG
DỤNG
Cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật từ lý thuyết đến ứng dụng, con người cảng quan tâm hơn đến việc nghiên cứu và ứng dụng hệ mới tạo sự phát tiên xã hội Phương pháp nghiện cứu chung cho
điểm trên từng cá thé thí nghiệm, sau đĩ thống kê mỉnh họa và kết luận Phương pháp này cĩ tên chung là thống kê ứng dụng
thí nghiệm Do đĩ khả năng đáp ứng của quan thé cho một ứng dụng cĩ thể rất khác so với các kết quả của phịng thí nghiệm nên cần phải được tìm hiểu kỹ Đây cũng chính là mục tiêu nghiên cứu của thống kê ứng dụng
n cứu Chỉnh cúa thống kê ứng dụng gỗm:
_ - Thủ thập số liệu (Data collection): từ quá trình bố trí thí nghiệm hoặc tổ chức khảo sát lấy mẫu
~ Thống kế mơ tả (Descriptive statistics): sau khi đo lường, thu thập số liệu hoặc xác định các đặc điểm trên từng cá thẻ trong mẫu, kết quá sẽ được ghi nhận và cần được mơ tả để cĩ những nhận định đầu tiên cho thí nghiệm
- Ước lượng và kiểm định (Estimation and Test of hypothesis): các thơng số về quần thể hoặc của một mơ hình được ước lượng từ số liệu của mẫu Các ước lượng này sau đĩ sẽ được so sánh với các giá trị của lý thuyết Khoảng tin cậy của các ước lượng cũng cân được xác định với độ chính xác nào đĩ,
Trang 26
- Mơ phỏng (Simulation): các kết a
cho mơ phỏng tức là các hiện tượng thực Sau đĩ dựa vào kết quả mơ phỏng người ta của các ứng dụng đại trà ở mức độ
ra ước lượng sẽ được sử dụng ẽ được thực hiện bằng máy tính š đánh giá được sự thành cơng ẽ 2.2 CAC DAC TRUNG THONG KE THUONG DUNG
Trong thực tế nghiên cứu, dựa trên các số liệu thu thập người ta thường
mơ tá quân thể để cĩ các nhận định ban đầu bao quát và trực quan Đề trình
bảy và phân tích các thơng tin thống kê, hai phương pháp được sử dụng là
phương pháp diễn đạt định tính và diễn đạt định lượng
Các bảng (Frequence Table), biểu đồ tần số (Frequence Graphic), lược đồ tần số (Histogram) là các phương pháp diễn đạt định tính Mục đích của các phương pháp nà động trong quần
thể và từ đĩ cĩ thể đặt các giả thu) lệt hoặc tương đồng giữa các nhĩm cá thể trong quản thẻ Các giả thuyết này cần phải được kiểm định thống
kê dé xác định mức ý nghĩa của sai lầm hoặc độ tin cậy khi quyết định
Trong xử lý số liệu nghiên cứu, đơi khi phương pháp phân lớp được sử dụng Khi đĩ, quân thể được chia ra một số nhĩm (clusters) gồm các cá thé tương tự nhau dựa trên một số đặc điểm định tính hoặc định lượng nào đĩ Ví dụ: khi điều tra mức độ ơ nhiễm khơng khí của một khu cơng nghiệp, người ta cĩ thẻ cần phân lớp mức độ ơ nhiễm tương tự nhau dựa trên iễm về quy trình sản xuất, về loại thành phẩm, về mức độ ngăn ngừa ơ nhiễm của các nhà máy trong khu cơng nghiệp đĩ
đặc trưng thống ên đã thu thập
nh tốn Thơng tin cơ bản về các đặc trưng của một tập hợp thống kê cĩ thành hai nhĩm: các đặc trưng diễn đạt theo chiều hướng tập trung và theo chiều hướng phân tán của dữ kiện (Gineven, 2004) 2.2.1 Các đặc trưng diễn đạt chiều hướng tập trung của dữ kiện
Trang 27
Ng
người nghiên cứu: tyền, trung bình nhân tùy theo mục đích của Số trung vị (Median): Xếp dữ kiện quan trắc theo thứ tự tăng hoặc m dần, số trung vị là giá trị của chuỗi số liệu quan trắc sao cho giá trị này chia chuỗi quan trắc (hành hai chuỗi con cĩ số hạng bằng nhau Trong một số trường hợp, nếu dữ liệu cĩ sự biến động lớn thì số trung bình khơng đại diện cho quản thé vì các giá trị quá nhỏ hay quá lớn sẽ làm lệch kết quả của số trung bình, Khi đĩ số trung vị là một đại diện tốt cho tính bình quân của quan the
Trường hợp số lần quan trắc của đại lượng quan sát là lẻ, số trung vị dễ
đàng xác định theo định nghĩa trên
“huỗi số liệu {2, 4, 7, 9, 12, 15, 20} cĩ số trung vị bằng 9
Trường hợp số lần quan trắc là chin, chi định nghĩa được khoảng trung vị, trong khoảng này giá trị trung vị khơng xác định chính xác
Chuỗi số liệu {3, 6, 12, 15, 21, 28, 32, 38} cĩ số trung vị nằm trong khoảng 15 và 21
Trị thường gặp (Mode): là giá trị của biến tương ứng với số lần xuất hiện lớn nhất của phân phối Số Mo thể hiện tính phổ biến của hiện tượng Vi dụ: Phân phối xác suất: 5, 8, 6, 7, 8, 8; 9, 7,10'eổ Mode là 8 lới, chia dãy n dữ Phan tr vj (Quartile): Xép dữ kiện từ nhỏ làm 4 phần:
- Phần tư vị dưới (Eow quártile): lấy giá trị của đơn vị ở vị trí 1⁄4 (25%) của dãy dữ kiện
~ Phần tư vị trén (Upper quartile):
của dãy dữ kiện Y giá trị của đơn vị ở vị trí 3⁄4 (759) 2.2.2 Các đặc trưng diễn đạt sự phân tắn của dữ kiện
Trang 28thiêu Rx = Xanax - Xmin (2-2) R, cling lớn, dữ kiện sẽ cĩ xu hướng cảng phân tán và ngược lại
Phuong sai (Variance): 1a s6 binh quan số học của bình phương các độ lệch giữa các giá trị quan sát với giá trị trung bình số học của các giá trị quan sát đĩ, Hay phương sai là sai số trung bình bình phương giữa các giá trị quan sát và giá trị trung bình số học của các quan sát Cĩ thê tính phương sai theo hai phương pháp ước tính và ước lượng
Cách tính phương sai theo phương pháp ước tính: + _ Tính sơ bộ theo khoảng biến thiên:
S2 = {Rs /4}?
+ Theo phan tu viz
sẽ _ (Xe —Xz)+ (Xu —Xo
‘ 2
x25, Xso, X;s là các giá trị phân tư vị dưới, trung vị, phân tư vị trên của day
dữ kiện
Trang 29
Độ lệch chuẩn (Standard devia đại lượng để đối chiếu giữa
trung bình và phương sai Độ lệch chuẩn là một số đo về sự phân tán, độ trai rộng của dữ liệ + Độ lệch của mẫu: l§ —= (2-5) ủa quần thê: «= ae 06)
Sai số chuiin (Standard error): N6 là một thơng số thống kê đẻ đánh
giá mức độ phân tán của mẫu và chính nĩ biểu hiện sai số của số trung bình
Sai số ở đây là do sự chênh lệch cơ học cĩ hệ thơng của số liệu mà phương thức chọn mẫu là một trong những nguyên nhân chính gây nên (Nguyễn Văn Đức, 2002) Nĩ chính là tỷ lệ của độ lệch chuẩn của trung bình mẫu với căn bậc hai của cỡ mẫu + Độ lệch Ss al
Hệ số biến động (Coefficiént of variation): li % độ lệch tiêu chuẩn so với trung bình, để so:sánh đặc trưng phân tán thống kê giữa các tập hợp dit kiện khác số đo (đơn vị tính): e @-7) cv (2-8) x
Hệ số CV lớn thể hiện biến đổi lớn trong các mẫu, ngược lại hệ số này nhỏ (nhỏ hơn 0,2 hoặc nhỏ hơn) chỉ thị rằng giá trị trung bình # cĩ thể xem như là giá trị trung bình của quan thé zz cịn trong tập hợp mẫu thì giá trị S2
khơng phụ thuộc vào giá trị trung bình , cũng cĩ thể coi S2 như là giá trị phương sai của quản thể ø!, Hệ số CV thường được sử dụng để so sánh sự biển đơi của các dữ liệu được đo cĩ thứ nguyên khác nhau, Vi dụ như: feet so
với em, gallon so với lít
Ngồi ra trong thống kê cịn sử dụng các đặc trưng khác như độ nhọn
(Kurtosis), độ lệch (Skewness) của phân bố tần suất các mẫu thăm dị nhưng
ứng dụng khơng phỏ biển
Trang 30
Để tính tốn các đặc trưng thống kê nêu trên, trong các phần mềm
thống kê cĩ cơng cụ tương ứng được tỉ áp dụng Chẳng hạn, trong Excel thực hiện như sau: Tools >Data > Data Analysis —> Descriptive
Statistics
2.3 MO TA DU KIEN MOI TRUONG
Để diễn đạt tình trạng một mẫu dữ kiện thu thập được, cĩ hai cách
mơ tả:
- Diễn đạt định tính tỉnh trạng mẫu khảo sát bằng các giản đồ tần suất, dùng để mơ tả trang thái của mẫu như nặng - nhẹ, cao
- Diễn đạt định lượng thơng qua các đặc trưng thống kê như trung bình, phương sai, độ lệch tiêu chu 2.3.1 Phân bố của quần thể thành thé (tần số tuyệt suất) thuộc về mỗi lớp
Phân bố là một hình thức biểu thị sự sắp xếp dữ kiệt lớp hay nhĩm (khoảng trị của dữ kiện) và xác định số đối) hay tỷ lệ cá thể (tần số tương đối thường gọi là hay nhĩm
Phân bổ tằn số tuyệt đối hay tương đối cĩ thể trình bày dưới nhiều dang
như bảng tần số hay đồ thị dạng cột (Histogram), biểu đồ đa giác
(Erequency polygon) Phân bồ tần số của dữ kiện cĩ thể trình bày dưới dạng đồ thị để tiện việc đánh giá và phân tích dữ kiện
Bên cạnh đĩ, cĩ thẻ dùng các thơng số đặc trưng phản ánh sự phân bố
của quản thé:
- Các thơng số đặc trưng đo chiều hướng tập trung: trung binh (Mean),
trung vị (Median), trị thường gặp (Mode), quãng phần tr (Quartile), quang phần mười (Decile), quãng phân trăm (Percentile)
- Các thơng số đặc trưng đo độ phân tán: khoảng biến thiên (Range), phương sai (Varianee), sai số chuẩn (Standard error), độ lệch chuẩn (Standard deviation), hệ số biến động (Coefiicient of variation)
2.3.2 Phân bố mẫu
Đối với mỗi mẫu cỡ n lấy từ quần thể, chúng ta cĩ thể tính các đặ
trưng thống kê như trung bình z, độ lệch chuẩn S Các đặc trưng thống kê này sẽ thay đổi từ mẫu này sang mẫu khác Các trị trung bình hay sai số chuẩn
Trang 31này của các tập hợp mẫu tạo ra quản thẻ mẫu gồm các đơn vị là
Đây là tập hợp tất cả các trị mẫu cĩ thể tơ hợp từ quần thê nghiên cứu hay Su
Tương tự phân bĩ quần thẻ thơng thường, quần thẻ của các trung bình hay độ lệch chuẩn này cũng cĩ một quy luật phân bồ gọi là phân bố mẫu
Phân bố mẫu của các trung binh (sampling distribution of means) và độ
lệch chuân cĩ các đặc trưng thơng kê:
JA= VÀ đc
Phân tẫu của các tỷ lệ (sampling distribution of proportions)
Pp=p va a= [B= tt
Trong các tài liệu thống kê, độ lệch chuẩn của mẫu (Standard deviation) øc thường gọi là sai số chun (Standard error) 2.3.3 Các phân bố xác suất thường gặp trong ngi cứu mơi trường
Phân bố xác suất là một dạng phân bĩ tần suất tương đổi diễn đạt theo ngơn ngữ tốn học xác suất Trong thống kê cĩ 03 kiêu phân bĩ phỏ biến là phân bố chuẩn, phân bố nhị thức và phân bồ Poisson 2.3.3.1 Hàm xác suất Hàm xác suất là cơng thức biều thị xác xuất P của một sự kiện E; nào đĩ, ký hiệu là P(E;) như lã một hảm số của x: ~ Hàm mật độ Xဠsuất: P(X = x) = foo)
Trang 32Foo
Hình 2.1 Đồ thị hàm phân bố xác suất của
3.3.3.2 Phân bố chuẩn (Normal distribution)
Các quan sát được lặp lại thường cĩ nghiệm thường thay đổi so vớ
xuất cĩ dạng hình chuơng đi ỏ thường hơn
Cĩ nhiều biến số sau khi thực hiện phép biến đổi (ví dụ: dạng căn bậc hai, dạng hàm LogariL ) cĩ thể cọ như tuân theo qui luật phan bố chuẩn
Khi quần thể khơng theo phân bố chuẩn nhưng số trung bình của các mẫu rút từ quần thể đĩ cũng theo phân bố chuẩn Đây gọi là định lý giới hạn trung tâm trong thống kê
Trang 33
_ Phân bố chuẩn được lập sẵn thành bảng như Phụ lục 1 Tuy nhiên bảng lập sẵn này khơng phải dùng cho bắt kỳ phân bố chuẩn nào Bởi vì ta cĩ vơ số phân bố chuẩn được xác định bởi các giá trị khác nhau của ¿ và ø: Trong trường hợp phân bồ chuẩn với wz = 0 và ø = 1 thì phân bố chuẩn được đơi
thành phân bố chuẩn tắc Khi đĩ tất cả các BỊ nx tuân sung pe bộ chuẩn cĩ Z = 0 tương ứng với x= Z= | tuong img voi x= +o phân bố chuân ø= 0, ø= I
2.3.3.3 Phân bồ t (Student distribution)
Việc chuẩn hĩa một biến ngẫu nhiên nào đớ địi hỏi phải biết cả hai giá trị ¿và ø của quần thé, Tuy nhiên, trong (hức £6 khơng thể tính được biển Z vì iá trị ø của quần thẻ thường khơng được biết Do đĩ, chúng tá thường thay
¡ S, thay cho ơ, khi đĩ ta cĩ cơng thức: (2-10) gọi là phân bồ t
Giá trị „ + hoặc cĩ thể được giá định xây dựng một giả thuyết sẽ được g han như sự khác biệt giữa hai nghiệm thức được giả định là bằng 0) Khi đĩ phân bố t được gọi là phân bố student, được lập thành bảng như phụ lục 3
Phân bồ student cũng cĩ dạng hình chuơng và đối xứng như phân bố chuẩn nhưng hai đuơi của đỗ thị hàm phân bồ t rộng hơn các đuơi của phân bố chuẩn Độ rộng của phân bồ t phụ thuộc vào độ khơng biết rõ của S;2 được xác định bởi độ tự do dĩ Khi cỡ mẫu là vơ hạn (hay độ tự do khơng xác định) thì
Sy là khơng biết rõ vì lúc đĩ SẺ= ơ? và phân bồ t trở thành phân bố chuẩn
Khi cỡ mẫu nhỏ (df < 30) thì mức độ thay đổi của S.” tăng Điều này được thẻ
Trang 34
hiện bởi sự phân tán của phân bĩ t Sự phân tán của phân bĩ t tăng khi độ tự do của S2 giảm Diện tích của vùng đuơi bên dưới đường cong hình chuơng, của phân bố t là xác suất của t vượt quá một giá trị được cho (hay cịn gọi là mức ý nghĩa 2)
2.3.3.4 Phan bé nhj thite (Binomial distribution)
Một thí nghiệm cĩ dữ liệu phân bố dạng nhị thức khi: ~ Thí nghiệm gồm một loạt n phép thử,
Cá
phép thử này đồng nhất vị thể cho một trong hai kết quả là cĩ 0 t
(thất bại) của biến x, (thành cơng) hay khơng xuất sự xuất - Các phép thử độc lập, tức là kết quả của phép thử này khơng ảnh hưởng đến phép thử kia
~ Xác suất của phép thử thành cơng là khơng đổi và ký hiệu là p
_ Phân bố nhị thức thường gặp ở các dữ kiện thuộc loại diễn đạt một tính chất nào đĩ, cĩ hoặc khơng cĩ Hàm mật độ xác suất của phân bố; P&=k=———— Kln-k)! phú—p)tẺ (G110) trong đĩ: k: số lần xuất hiện của biển x trong mẫu khảo sát, x = 0,].2 n: cỡ mẫu khảo sát, n!: giai thừa n;
p: xác suất xảy ra biến x, 0<p <l Các đặc trưng chính: Độ lệch chun: o= mpd 2.3.3.5 Phin bé Poisson (Poisson distribution)
Phân bố này là trường hợp đặc biệt của phân bố nhị thức, thường gặp khi phân bố cĩ dạng một đỉnh lệch phải, xác suất xuất hiện của một sự kiệ nhỏ (Manly, 2009)
Trang 35Hàm mật độ xác suất của phân bĩ: (2-12) trong đĩ ^.: hằng số, 2 = m.p, À > 0 x : giá trị biến trong mẫu khảo sát, x = 0,1,2 2,71828 e Các đặc trưng chính: ‘Trung bình: m=2 Phương sai: ø°=2 Độ lệch chuẩn: ơ = VZ
2.3.3.6 Phan bé F (Fisher Distribution)
Giả sử cĩ hai mẫu độc lập lần lượt cĩ cỡ mẫu là n; và nz được lấy từ hai
quan thể cĩ phân bồ chuẩn: phương sai cúa hai quản thể VÀ phương sai của hai mẫu lần lượt là øẺ, øẺ và S.2¿ SjZ Khi đĩ, biến số E;
tir 1a ni-1 va be tyr do cia phân mẫu 1a m-1, Trị số F được x
ập thành bảng tra (phụ lục 5) với độ tự do của phần tử là các giá trị 6 hang thir nhất và độ tự do của phần mẫu là các giá trị ở cột thứ nhất của bảng
Trang 36
CÂU HỎI VÀ BÀI TẬP
Các lĩnh vực nghiên cứu chính của thống kê ứng dụng?
lặc trưng thống kê thường dùng trong nghiên cứu mơi trường là gi? Tai sao bên cạnh các đặc trưng diễn đạt sự tập trung của dữ kiện người ta
cịn sử dụng các đặc trưng diễn đạt sự phân tán?
4 Cĩ những cách nào để mơ tả dữ kiện mơi trường?
Hãy phân biệt sự khác nhau giữa phân bố chuẩn (phân bố Gaussian) và
phân bố (2
6, Bảng bên dưới là các giá trị đo được từ 8 mẫu ngẫu nÌ cĩ phân bố chuẩn với trung bình „ = 10 và độ mỗi cột, hãy tính trị trung bình và phương sai 1 2 3 4 5 91 91 8.9 12,1 11,7 95 90 92 T8 THỊ 10,1 10,4 11,2 10,4 10,4 oF 10,3 8.6 94 10,6 116
7 Nồng độ phospho đo được trong 20 mẫu nước thải với nồng độ được biết
trước là 2 mg/L như sau:
18 22 21 23 21 22 21 2,1 18 19 24 20 18 19 22 1X 17 XÃ 2A 22
a) Hãy tính sai số của thí nghiệm
b) Hãy tính giá trị t So sánh giá trị t tính với giá trị t tra bảng với œ=0,025 Cĩ thể suy ra điều gì từ kết quả so sánh?
Trang 37Chương 3
UGC LUQNG VA TRAC NGHIỆM GIA THUYET THONG KE
3.1 LY THUYET LAY MAU THAM DO
3.1.1 Téng quan
_ Ly thuyét ự mối quan hệ quần thể và mẫu được chọn Lấy mẫu cĩ liên quan đến nhiều lĩnh vực của thống kê và cĩ nhiều ứng dụng rộng rãi trong nghiên cứu mơi trường và các ngành khoa học khác như:
- Ước lượng các thơng số thơng qua các đặc trưng mẫu
- Kiểm định và lập giả thuyết thống kê làm cơ sở cho các quyết định suy đốn thống kê từ kết quả điều tra thăm đị,
- Chỉ ra độ chính xác của các suy đốn thống kê và hoạch định kế hoạch thăm dị nhăm đạt độ chính xác cần thiết
Trong điều tra nghiên cứu:phục vụ cho đánh giá tác động mơi trường, hay phục vụ cho nhiều vấn để nghiên cứu khoa học, việc thu thập số liệu thường phải được tiến hành thơng qua các tập hợp mẫu Sau đĩ phương pháp ước lượng hoặc kiêm định giả thuyết thơng kê được sử dụng để rút ra kết luận
chung cho cả quần thể
Ước lượng lã suy đốn các thơng số của quần thể từ các đặc trưng thống kê của mẫu thăm đị Ước lượng thơng kê là một ứng dụng của lý thuyết
lấy mẫu thăm dị, gồm cĩ các bước:
~ Phân tích nhiệm vụ, xác định quần thể, định nghĩa đơn vị chọn mẫu, lựa chọn phương pháp lầy mẫu
~ Tính tốn cỡ mẫu theo yêu cầu độ chính xác cân thiết
~ Thực hiện lấy mẫu và thu thập dữ kiện
Trang 38
Giả thuyết thống kê là phát biểu tạm thời về trị số các thơng số của
quan thê đề tìm cách bác bỏ hoặc chấp nhận các trị số đĩ
Trong phạm vỉ giáo trình này chỉ tập trung làm rõ về những vấn đề thống kê cĩ liên quan đến ước lượng và kiềm định giả thuyết thống kê, trong đĩ nghiên cứu các phương pháp ước lượng thường dùng trong lĩnh vực mơi trường như:
~ Ước lượng khoảng tin cậy cho trung bình của quan thé,
- Ước lượng khoảng tin cậy cho phương sai của quần thẻ
~ Ước lượng khoảng tin cậy của tần số tương đối suy diễn cho quần thể
ic nguyên lý chung về kiểm định giả thuyết thống kê:
- Kiểm định giả thuyết về trị trung bình của phân bồ chuất
=n
~ Kiểm định giả thuyết về sự khác biệt của hai trị trung bình: = se ~ Kiểm định t hai mẫu sánh đơi (bắt cặp)
3.12 Phân tích nhiệm vụ, định nghĩa đơn vị chọn mẫu, xác định quần thể và lựa chọn phương pháp lầy mẫu
3.1.2.1 Phân tích nhiệm vụ điều tra
Điều tra khảo sát trong mơi trường liên quan đến việc thu thập mẫu tại la điểm ở xa phịng thí nghiệm, mắt thời gian và gây tốn kém cho việc đi lại Vi vậy việc đâu tiên trước khi ra hiện trường thu thập là phải xác định rõ nhiệm vụ điều tra nghiên cứu Từ đĩ mới cĩ sự chuẩn bị đầy đủ, khơng phải đi
lại nhiều lần Phân tích nhiệm vụ cĩ thể dựa vào các yếu tổ sau đây: - Loại nhiệm vụ điều tra: thu thập một lần hay quan trắc theo thời gian dai
- Mục tiêu của cuộc điều tra khảo sát: để xác định chính xác mục tiêu cĩ thể đặt câu hỏi, chẳng hạn như: Chúng ta muốn biết điều gì trong cuộc điều tra? Đề thực hiện nghiên cứu chúng ta cân biết thơng qua những chỉ tiêu nào?
Để cĩ được các thơng tin phục vụ cho việc đánh giá chúng ta phải thu thập
trên những đối tượng nào?
3.1.2.2 Dinh nghĩa đơn vị chọn mẫu - xác định quần thể
Cách xác định đơn vị chọn mẫu như đã trình bày ở chương 1 Tập hợp các đơn vị lấy mẫu chính là quần thể của cuộc điều tra
Trang 393.1.2.3 Lựa chọn phương pháp lấy mẫu
Cĩ ba phương pháp chọn mẫu trong lĩnh vực mơi trường:
= Lay mẫu ngẫu nhiên: mẫu được chọn một cách ngẫu nhiên bằng cách rút thăm ngẫu nhiên n ph tần thể cĩ N đơn vị Đề xá ác vị trí ngẫu nhiên cho việc lây mẫu thì một bảng số ngẫu nhiên thường được áp dụng, Một khi tập hợp các mẫu ngẫu nhiên được thu thập và phân tích, tị trung bình được tính tốn Trung bình của tập hợp mẫu sẽ được đánh giá và cĩ thể suy diễn cho quần thẻ,
ột qui tắc đã được ~ Chọn mẫu hệ thống: mẫu được chọn tuân thủ theo n
u nhau xuyên suốt đưa ra trên hiện trường Các mẫu cĩ thể được l
chất lượng nước trong hồ: một ngẫu
„ mẫu được thu thập tại điểm đĩ Các mẫu tiếp theo được lấy tại các điểm sao cho điểm lấy sau cách điểm trước đĩ một khoảng cách 0,2 km về hướng tây Việc lấy mẫu cĩ hệ thống đễ thực hiện hơn so với phương pháp lấy mẫu ngẫu nhiên Tuy nhiên, nĩ cĩ điểm bất lợi hơn là nĩ sẽ khơng chính xác nếu cĩ hiện tượng lặp theo chu kỳ n được chọn làm điềm bi - Chọn mẫu điền hình: chọn định tiêu biểu, phụ thud
số đơn vị thống kê trong mẫu theo qui vào kinh nghiệm của người điều tra
3.2 MỘT SỐ CƠ SỞ LÝ THUYẾT CỦA ƯỚC LƯỢNG ĐIỂM VÀ ƯỚC LƯỢNG KHOANG TIN CAY-
3.2.1 Ước lượng điểm
Ước lượng điểm của một thơng số 6 là một số mà giá trị của nĩ được
xem như là giá trị của 8 Một ước lượng cĩ được từ một phép thống kê
nào đĩ và giá trị của nĩ cĩ thể được tính từ một tập hợp mẫu được chọn Phép thống kê được chọn được gọi là phép ước lượng điểm của 9
Hai thơng từ tập hợp mẫu là trung bình và phương sai qua phép ước lượng điêm Hai phương pháp ước lượng điểm quan trọng là phương pháp moment và phương pháp ước lượng hợp lý cực đại (Maximum likelihood) Tuy nhiên trong giáo trình này sẽ khơng phân tích s
~ Trung bình cộng:
Trang 40hoặc
trong đĩ:
n: _ số lần quan trắc hay cỡ mẫu,
xi giá trị quan trắc lần thứ ¡ của biến nghiên cứu,
nit tần số xuất hiện giá trị xi,
được xem là ước lượng cho trung bình của quản thể ø„
~ Phương sai mẫu:
Yo -9
được xem là ước lượng cho phương sai của quần thể để 3.2.2 Ước lượng khoảng tin cậy
Gọi 8 là thơng số của quần thẻ cần ước lượng, 8 cĩ thẻ là trung bình #;,
phương sai øẺ hay tỷ lệ Ð các đơn vị của quần thể cĩ một tính chất nào đĩ Chẳng hạn ta cần quan tâm đến nhiệt độ trung bình của nước thải ra từ một đây chuyển sản xuất Vấn đề đặt ra là ước lượng các thơng số của quan thé chưa biết từ các thơng số của dữ liệu mẫu thu thập được Giả sử từ mẫu quan sắt 2 biến ngẫu nhiên tìm được là A va B sao cho:
P(A<0<B)=l-a với I-ø là độ tin cậy