18 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Chương 2 HÀM PHÂN PHỐI XÁC SUẤT VÀ CHUẨN THỐNG KÊ Hàm phân phối xác suất là quy luật tương quan của xác suất với mỗi giá trị của tập số thực Đặc trưng phân phối của một tập số liệu thực nghiệm là quy luật phân bố ngẫu nhiên của các số liệu thực nghiệm trên trục số thực Về mặt toán học, phân phối xác suất thường được biểu diễn bằng một hàm số và đồ thị tương ứng Mỗi tập số liệu kết quả nghiên cứu là một tập số thực rời rạc có những đặc trưng phân.
18 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC Chương HÀM PHÂN PHỐI XÁC SUẤT VÀ CHUẨN THỐNG KÊ Hàm phân phối xác suất quy luật tương quan xác suất với giá trị tập số thực Đặc trưng phân phối tập số liệu thực nghiệm quy luật phân bố ngẫu nhiên số liệu thực nghiệm trục số thực Về mặt toán học, phân phối xác suất thường biểu diễn hàm số đồ thị tương ứng Mỗi tập số liệu kết nghiên cứu tập số thực rời rạc có đặc trưng phân phối xác suất riêng, chúng thường tuân theo quy luật phân phối thống kê ngẫu nhiên phổ biến như: phân phối Student, phân phối Gauss, phân phối Fisher, Những phân phối hàm số mơ tả nhiều đặc trưng thống kê tập số liệu (giá trị thực, giá trị trung bình, phương sai, ) Tùy vào mục đích thống kê, đánh giá tập số liệu thực nghiệm mà người ta sử dụng hay nhiều hàm phân phối chuẩn thống kê cách phù hợp 2.1 Phân phối xác suất Gauss chuẩn Z 2.1.1 Cơ sở thống kê ứng dụng phân phối Gauss Hàm số phân phối Gauss (hay gọi phân phối chuẩn) biểu diễn phương trình tốn học: φ(x) = σ√2π × e − (x−μ)2 2σ2 (2.1) Trong đó: – x biến số ngẫu nhiên; – số, giá trị kỳ vọng biến ngẫu nhiên; – độ lệch chuẩn biến ngẫu nhiên Đặt Z = x−μ σ Thay vào phương trình 2.1 ta thu (2.2) Chương Hàm phân phối xác suất chuẩn thống kê φ(z) = √2π 19 z2 × e− (2.3) Z gọi chuẩn Z hay chuẩn Gauss Đồ thị hàm phân phối chuẩn có dạng hình 2.1 Hình 2.1 Đồ thị hàm phân phối xác suất Gauss Về ý nghĩa hình học đồ thị, diện tích giới hạn hàm phân phối với trục hồnh (tích phân hàm phân phối chuẩn) xác suất: +z ∫−z φ(Z) dz = P (xác suất hay tần suất dồn từ –Zσ đến +Zσ) Nếu lấy tích phân tồn z từ – đến + xác suất +∞ ∫−∞ φ(Z) dz = tần suất dồn từ – đến + Với giá trị cụ thể z ta có trường hợp đặc biệt sau: +1 – Với Z = 1, xác suất P = ∫−1 φ(Z) dZ = 68.3% +2 – Với Z = 2, xác suất P = ∫−2 φ(Z) dZ = 95.4% +3 – Với Z = 3, xác suất P = ∫−3 φ(Z) dZ = 99.7% Đối với tập số liệu thực nghiệm có giá trị trung bình x độ lệch chuẩn , tập số liệu đủ lớn để có phân bố ngẫu nhiên theo phân phối chuẩn, kết luận sau: 20 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HÓA HỌC – 68.3% giá trị tập nằm khoảng x – ≤ x ≤ x + , giá trị thực nằm khoảng x – ≤ x ≤ x + với độ tin cậy 68.3% – 95.4% giá trị tập nằm khoảng x – 2 ≤ x ≤ x + 2, giá trị thực nằm khoảng x – 2 ≤ x ≤ x + 2 với độ tin cậy 95.4% – 99.7% giá trị tập nằm khoảng x – 3 ≤ x ≤ x + 3, giá trị thực nằm khoảng x – 3 ≤ x ≤ x + 3 với độ tin cậy 99.7% Từ hàm phân phối chuẩn, cho giá trị Zi ta tính độ tin cậy thống kê Pi (ứng với diện tích Pi) Ngược lại, cho giá trị Pi tính giá trị Zi Có thể tra bảng sử dụng hàm Excel để biết Z biết giá trị P ngược lại Phân phối chuẩn chuẩn Z có ý nghĩa đặc biệt quan trọng kiểm định thống kê (Z–test), đánh giá tập số liệu thực nghiệm, ước lượng giá trị đo lường (tính ε), kiểm soát chất lượng hoạt động kiểm nghiệm (control chart), thử nghiệm thành thạo (Z–score), 2.1.2 Tính tốn phân phối Gauss hàm Excel Hàm phân phối chuẩn tính hàm Norm.dist Excel với cú pháp: fx=NORM.DIST(x, mean, standard_dev, cumulative) Trong đó: – x: giá trị cần xem xét tập số liệu – Mean: giá trị trung bình – Standard_dev: độ lệch chuẩn – Cumulative: giá trị logic, True trả giá trị phân phối tích lũy, False trả giá trị mật độ xác suất Đối với hàm phân phối tích lũy chuẩn tắc (là phân phối chuẩn có giá trị trung bình µ = độ lệch chuẩn σ = 1), giá trị hàm tính theo hàm Normsdist với cú pháp: fx=NORMSDIST(Z) Chương Hàm phân phối xác suất chuẩn thống kê 21 Ngược lại, biết giá trị độ tin cậy xác định, dùng hàm Excel tính tốn giá trị chuẩn Z theo hàm Normsinv với cú pháp: fx=NORMSINV(probability) Ví dụ 2.1: Tính giá trị vẽ đồ thị hàm phân phối tập số liệu thực nghiệm sau: 0.678 0.512 0.732 0.514 0.808 0.544 0.878 0.600 0.610 0.660 0.728 0.766 0.842 0.882 Giải: Để tính giá trị phân phối chuẩn φ(x) tập số liệu thực nghiệm ta thực nhập bảng số liệu xếp theo thứ tự từ nhỏ đến lớn (Data/sort/AZ) thực tính theo cú pháp ta thu kết đồ thị hình sau: Nếu chọn giá trị hàm phân phối dạng mật độ xác suất (khi cumulative False) kết đồ thị tương ứng thu có dạng sau: 22 XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH THỰC NGHIỆM HĨA HỌC Ví dụ 2.2: Một khảo sát mức độ ô nhiễm coliform nước thải công nghiệp cho kết trung bình 1100 mg/L với độ lệch chuẩn 150 mg/L (n > 30) Tính xác suất mẫu trường hợp: a) Lượng coliform nhỏ 1250 mg/L b) Lượng coliform lớn 1250 mg/L c) Lượng coliform có giá trị từ 950 – 1250 mg/L Giải: a) Sử dụng hàm NORM.DIST(x, mean, standard_dev, cumulative), với x= 1250; Sd = 150, cumulative # true cho xác suất mẫu có hàm lượng coliform