Kiểm tra tính phù hợp giữa phân phối xác suất lý thuyết vớ

Một phần của tài liệu Nghiên cứu lý thuyết mô phỏng hệ thống trên máy tính ứng dụng thiết kế mô hình lò điện hồ quang luyện thép siêu cao công suất.pdf (Trang 64 - 65)

dữ liệu thực tế

Kiểm tra tính phù hợp của các dữ liệu thực tế thu thập đƣợc (biểu đồ tần số) với phân phối mũ lý thuyết đã chọn là bƣớc tiếp theo của việc xử lý dữ liệu đầu vào. Kiểm tra tính phù hợp là phép kiểm định giả thuyết thống kê nhằm xác định rằng các dữ liệu quan sát đƣợc X1, X2,…X1,…XN có phải là các dữ liệu độc lập và là các mẫu của một phân phối xác suất hay không.

Nhƣ vậy kiểm tra tính phù hợp có thể đƣợc dùng để kiểm định giả thuyết không sau đây:

H0 : Tập dữ liệu X1 là các dữ liệu ngẫu nhiên độc lập có hàm phân phối F

Giả thuyết H0 là đúng nếu phân phối lý thuyết phù hợp với các dữ liệu đầu vào quan sát đƣợc.

Có hai phƣơng pháp thƣờng dùng để kiểm tra tính phù hợp là phƣơng pháp Pearson Chi – bình phƣơng 2 và phƣơng pháp Kolmogorov – Smirnov. Hạn chế của phƣơng pháp Kolmogorov – Smirnov là chỉ dùng cho phân phối liên tục vì vậy sau đây chúng ta sẽ nghiên cứu phƣơng pháp Chi – bình phƣơng

2

 .

Phươngpháp Chi – bình phương 2

Đểtính 2 cho phân phối liên tục cũng nhƣ gián đoạn ngƣời ta chia tập dữ liệu ra thành k khoảng (ao, a1), (a1, a2),… (aK-1, aK). Gọi Nj = số sự kiện xảy ra trong khoảng thứ j ((aJ-1, aJ) với j = 1,2…k (chú ý rằng 

  k j j n N 1 , trong đó n

là tổng các dữ liệu quan sát đƣợc). Xác định xác suất xuất hiện dữ liệu pJ của phân phối lý thuyết trong khoảng thứ j.

Đối với trƣờng hợp liên tục

   ai aj j f x dx p 1 ( )

Trong đó: f(x) là hàm mật độ phân phối lý thuyết. Đối với trƣờng hợp gián đoạn

 ( i)

j p x

Vậy Chi – bình phƣơng sẽ đƣợc tính nhƣ sau:       k j j j j np np N 1 2 2 

Trong đó: NJ là số các dữ liệu quan sát đƣợc trong khoảng thứ j.

npJ là số các dữ liệu nằm trong khoảng thứ j với giả thiết rằng các dữ liệu có phân phối theo phân phối lý thuyết, có nghĩa là giả thiết Ho là đúng.

Về thực chất2 là tổng bình phƣơng sai số giữa các dữ liệu quan sát đƣợc và dữ liệu của phân phối lý thuyết. Vì vậy nếu2càng nhỏ thì phân phối lý thuyết đã chọn càng gần với các dữ liệu đầu vào quan sát đƣợc.

Để thuận tiện cho việc kiểm định ngƣời ta đƣa ra giá trị tới hạn 2tới hạn.

Nếu các dữ liệu đầu vào là các số ngẫu nhiên độc lập thì 2sẽ có giá trị nhỏ hơn một giá trị tới hạn 2tới hạn xác định trƣớc (giá trị 2 tới hạn cho trƣớc). Nếu 2>2 tới hạn thì phải chọn lại thông số của hàm mật độ phân phối hoặc thậm chí phải chọn lại dạng của hàm phân phối lý thuyết. Nếu việc chọn lại cũng không đạt yêu cầu, điều đó chứng tỏ dữ liệu đầu vào không phải là những số ngẫu nhiên độc lập. Các dữ liệu đầu vào này phải thu thập mới.

Để tìm giá trị tới hạn của2cần xác định hai thông số là số bậc tự do của

2

 và xác suất để 2 nhỏ hơn hoặc bằng giá trị 2 tới hạn, y= P (2 ≤ 2 tới hạn). Số bậc tự do đƣợc tính nhƣ sau v = k – r – 1, trong đó k – số khoảng khảo sát, r – số thông số của phân phối lý thuyết.

Một phần của tài liệu Nghiên cứu lý thuyết mô phỏng hệ thống trên máy tính ứng dụng thiết kế mô hình lò điện hồ quang luyện thép siêu cao công suất.pdf (Trang 64 - 65)

Tải bản đầy đủ (PDF)

(109 trang)