Giá trị cực đại (cực tiểu) của tập hợp mẫu được xác định bằng kết quả đo đạc, phân tích của mẫu có giá trị lớn nhất (nhỏ nhất). Giá trị cực đại hoặc cực tiểu được gọi chung là cực trị của tập hợp mẫu. Cực trị của tập hợp mẫu xác định mức độ biến động của tập hợp mẫu.
Giá trị cực đại và cực tiểu (tương ứng) được xác định bằng cách: Xmax = Max(X1, X2,… Xn)
Xmin = Min(X1, X2,… Xn)
Trong quan trắc môi trường, giá trị cực đại và cực tiểu cho biết thời điểm/vị trí xảy ra biến động môi trường lớn nhất trong tập hợp các vị trí hoặc thời điểm lấy mẫu. Với ví dụ trên, điểm M5 là điểm có nồng độ hữu cơ cao nhất cho thấy nguy cơ phú dưỡng cao nhất.
4.1.2.2. Phân bố số liệu thống kê
Khi các mẫu phân tích được tiến hành lặp lại trên cùng một mẫu, các kết quả phân tích giống nhau không thu được tương ứng với mỗi lần đo. Các kết quả giữa các lần đo có thể biểu diễn bằng đồ thị dưới dạng phân bố chuẩn. Số lượng lớn mẫu được đo lặp lại cho phép xây dựng đường cong phân bố, dạng của đường cong này thường được phân bố theo đường Gauss. Trở lại với ví dụ trên xây dựng được đồ thị phân bố trên. Đường cong phân bố thể hiện mối quan hệ giữa giá trị số học của kết quả phân tích và khả năng có thể xuất hiện. Sự phân bố sắc xuất lân cận khoảng tối đa là đối xứng. Đối với các phép đo lặp lại trên
cùng một mẫu và các kết quả đo đạc phân tích của phương pháp lấy mẫu ngẫu nhiên, hệ thống thì phân bố của kết quả phải là phân bố chuẩn.
Một phân bố được xem là phân bố chuẩn khi đảm bảo các điều kiện sau: – 68,26% giá trị đo đạc rơi vào khoảng giá trị trung bình ± một lần độ lệch chuẩn
– 95,44% các giá trị đo rơi vào khoảng giá trị trung bình ± hai lần độ lệch chuẩn
– 99,7%các giá trị đo rơi vào khoảng giá trị trung bình ± ba lần độ lệch chuẩn
– Tất cả các giá trị nằm ngoàix±3s được xem là không bình thường.
Hình 11.1. Biểu đồ phân bố tần suất xuất hiện của một khoảng giá trị
Trở lại với ví dụ trên, để phân bố là phân bố chuẩn, tức là giá trị đo đạc đúng và chính xác, không xảy ra các lỗi ngẫu nhiên hoặc lỗi hệ thống trong lấy mẫu và phân tích thì:
– 68% giá trị nằm trong khoảng 16,38 đến 23,62 mg/l – 95% giá trị nằm trong khoảng 12,75 đến 27,25 mg/l – 99,7% giá trị nằm trong khoảng 9,13 đến 30,87 mg/l
Tuy nhiên, kết quả phân tích thường không tuân theo phân bố chuẩn. Các phân bố khác được tính đến, ví dụ khi đánh giá số liệu của các nguồn nước phụ thuộc vào thời gian (ví dụ. nước sông, phân tích bao gồm nước lũ) hoặc sự đo đạc cùng một bởi nhiều phòng thí nghiệm khác nhau. Đặc tính của các đường cong phân bố (xiên phải = xiên dương, xiên trái = xiên âm) chỉ thị sự không phù hợp của thông tin thông kê, ví dụ các loại nước khác nhau, hoặc lỗi hệ thống trong khi đo. Trong những trường hợp này, các số liệu phải được kiểm tra thống kê riêng biệt, do giá trị trung bình và độ lệch chuẩn không cung cấp đủ các thông tin.
Đồ thị kiểm tra độ chính xác được xây dụng từ các lượng phát hiện được (%) trong các phân tích thông thường. Đồ thị kiểm tra sai số có thể được xây dụng trên cơ sở sự khác nhau phần trăm tương đối (RPD) của nồng độ phân tích trong mẫu và số liệu phân tích lặp lại. Từ ví dụ trên ta xây dựng được đồ thị kiểm tra độ chính xác như sau:
Khoảng giá trị nằm trong được xác định là giới hạn kiểm soát tại đây các giá trị đảm bảo độ tin cậy về tính đúng và tính chính xác. Khoảng giá trị nằm trong x đước xác định là giới hạn cảnh báo, giá trị nằm ngoài khoảng x ± 2s nhưng vẫn nằm trong khoảng x ± 3s được xác định là giá trị có vấn đề. Giá trị nằm ngoài khoảng x ± 3s không được chấp nhận cần phải được xác định và làm chính xác lại.
Hình 11.3. Đồ thị kiểm tra chất lượng kết quả đo
Lượng thu hồi tốt nhất là nằm trong giới hạn giữa x ± 2s gọi là giới hạn kiểm soát cận trên (nhận dấu (+)) và giới hạn kiểm soát cận dưới (nhận dấu (-)). Nếu có 7 số liệu liên tiếp nằm ở phía trên hoặc phía dưới giá trị từ trung bình sẽ
chứng tỏ có sai số trong phân tích. Cần thiết phải có 2/3 số điểm phân tích nằm trong phạm vi của độ lệch chuẩn quanh giá trị trung bình.
Đồ thị kiểm tra được trình bày ở trên xác định cả sai số và độ chính xác của phép phân tích, nhưng độ chính xác không được thể hiện rõ rệt, ví dụ khi đồ thị được xây dụng không chính xác. Tuy nhiên đồ thị kiểm tra là rất hữu ích trong đánh giá chất lượng số liệu.phân tích môi trường. Đồ thị kiểm tra sai số cũng có được xây dụng trên cơ sở các giá trị RPD từ kết quả phân tích lặp lại các mẫu. Giá trị trung bình và độ lệch chuẩn sẽ được xác định Các giới hạn UWL, LWL,UCL và LCL cũng được xác định tại ± 2S và ± 3S. Phương pháp này được coi như hình thức kiểm tra sai số bổ sung cùng với đồ thị kiểm tra lượng thu hồi ở trên. Các đồ thi kiểm tra là một phần quan trọng của chương trình kiểm tra chất lượng (QC programs) trong phân tích môi trường.
Như vậy, căn cứ vào đồ thị phân bố của kết quả đo đạc, phân tích có thể xác định được độ tin cậy của số liệu quan trắc. Khi một phân bố là phân bố chuẩn, ta hoàn toàn có đủ điều kiện để loại bỏ những giá trị bất thường trong tập hợp mẫu với những tập hợp mẫu có kích thước lớn (loại bỏ những giá trị không nằm trong khoảng giá trị trung bình ± ba lần độ lệch chuẩn. Tuy nhiên, trong trường hợp phân bố không chuẩn hoặc tập hợp mẫu không đủ lớn ta dùng DIXON test để loại bỏ số liệu bất thường. Ngoài ra có thể sử dụng kiểm định F test và t test để loại bỏ số liệu bất thường, tuy nhiên, phân bố của số liệu phải là phân bố chuẩn. Nếu số liệu chưa được đưa về dạng phân bố chuẩn thì có thể sử dụng hàm logarit để đưa về phân bố chuẩn. Sử dụng kiểm định để loại bỏ số liệu bất thường sẽ được đề cập đến trong phần sau.
4.11.2.3. Tương quan và hồi quya. Tương quan a. Tương quan
Khi nghiên cứu mối quan hệ giữa hai cặp số liệu đo đạc, cơ sở của sự khác biệt giữa hàm số và quan hệ thống kê nên được xem xét. Trong các mối quan hệ giữa số liệu đo đạc và quan trắc với nhau cũng như giá trị đo đạc với giá trị thực tế của yếu tố môi trường có thể có các kiểu quan hệ sau đây:
– Quan hệ phụ thuộc bao gồm tỉ lệ (thuận/nghịch), hàm mũ, hàm logarit, hàm lũy thừa
– Độc lập (không phụ thuộc)
a. Ngẫu nhiên r = 0 b. Tuyến tính r > 0 c. Tuyến tính r < 0
d. Phi tuyến e. Ngẫu nhiên phân lớp
Hình 11.4. Các dạng thống kê tương quan khác nhau đối với hai biến độc lập
Mối quan hệ giữa các biến số được xác lập bởi hệ số tương quan (r). r luôn nằm trong khoảng từ +1 đến -1. Khi r=0, sự đo đạc độc lập với yếu tố khác. Khi r = ±1, tương quan là một hàm tuyến tính (hàm thuận/hàm nghịch).
Hệ số tương quan (r) được xác định bằng công thức:
( )( )(∑− ) (∑ − ) (∑− ) (∑ − ) − − = 2 2 . y y x x y y x x r i i i i