bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao bài giảng thống kê nâng cao
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN Bài Giảng Môn Học TN 368 - TN 654 THỐNG KÊ NÂNG CAO Biên soạn : TS. TRẦN VĂN LÝ 2014 Mục lục 1 Lý thuyết mẫu 1.1 Mẫu và vấn đề lấy mẫu . . . . . . . . . . . . . . . . 1.1.1 Mẫu và tổng thể . . . . . . . . . . . . . . . . . 1.1.2 Vấn đề lấy mẫu . . . . . . . . . . . . . . . . . . 1.1.2.1 Lấy mẫu ngẫu nhiên . . . . . . . . . . 1.1.2.2 Lấy mẫu có suy luận . . . . . . . . . . 1.1.3 Lấy mẫu có hoàn lại và lấy mẫu không hoàn lại 1.1.3.1 Lấy mẫu có hoàn lại . . . . . . . . . . 1.1.3.2 Lấy mẫu không hoàn lại . . . . . . . . 1.1.3.3 Các ví dụ . . . . . . . . . . . . . . . . 1.2 Mẫu ngẫu nhiên và các đặc trưng mẫu . . . . . 1.2.1 Mẫu ngẫu nhiên . . . . . . . . . . . . . . . . . . 1.2.2 Các đặc trưng mẫu . . . . . . . . . . . . . . . . 1.2.2.1 Trung bình mẫu . . . . . . . . . . . . 1.2.2.2 Phương sai mẫu . . . . . . . . . . . . 1.2.2.3 Các mômen mẫu . . . . . . . . . . . . 1.3 Phân phối mẫu và ước lượng khảng tin cậy . . 1.3.1 Một số dạng phân phối mẫu . . . . . . . . . . . 1.3.2 Phương pháp khoảng tin cậy . . . . . . . . . . . 1.3.2.1 Đặt vấn đề . . . . . . . . . . . . . . . 1.3.2.2 Phương pháp . . . . . . . . . . . . . . 1.4 Phân phối thực nghiệm mẫu . . . . . . . . . . . . . 1.4.1 Phân phối thực nghiệm mẫu . . . . . . . . . . . 1.4.1.1 Mẫu dữ liệu đơn, biểu đồ dữ liệu . . . 1.4.1.2 Bảng tần số mẫu, đa giác tần số . . . 1.4.1.3 Hàm phân bố thực nghiệm . . . . . . 1.4.2 Ước lượng hạt nhân hàm mật độ . . . . . . . . 1.5 Bài tập chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 2 2 2 3 4 4 4 4 6 6 6 7 7 8 9 9 12 12 12 14 14 14 15 17 19 22 2 Lý thuyết ước lượng 2.1 Các dạng ước lượng . . . . . . . . 2.1.1 Ước lượng vững . . . . . . . . . 2.1.2 Ước lượng không chệch . . . . . 2.1.3 Ước lượng hiệu quả . . . . . . . 2.2 Các phương pháp ước lượng . . . 2.2.1 Ước lượng hợp lý tối đa . . . . 2.2.2 Phương pháp ước lượng momen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 26 26 26 26 27 27 27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Mục lục 2.2.2.1 2.2.2.2 2.3 Phương pháp . . . . . . . . . . . . . . . . . . Các momen lý thuyết cơ bản (kỳ vọng, phương sai) . . . . . . . . . . . . . . . . . . . . . . . Bài tập chương 2 . . . . . . . . . . . . . . . . . . . . . . . 3 Kiểm định phi tham số 3.1 Bài toán kiểm định và các khái niệm 3.1.1 Giới thiệu bài toán kiểm định . . . 3.1.2 Sai lầm loại I và sai lầm loại II . . 3.2 Kiểm định phi tham số . . . . . . . . . cơ . . . . . . bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 28 29 31 32 32 32 35 4 Hồi qui nâng cao 37 5 Phân tích cấu trúc nhiều chiều 39 6 Phân loại thống kê 41 Tài liệu tham khảo 43 Chương 1 Lý thuyết mẫu Mục lục 1.1 1.2 1.3 1.4 1.5 Mẫu và vấn đề lấy mẫu . . . . . . . . . . . . . . . . . . 2 1.1.1 Mẫu và tổng thể . . . . . . . . . . . . . . . . . . . . . 2 1.1.2 Vấn đề lấy mẫu . . . . . . . . . . . . . . . . . . . . . . 2 1.1.3 Lấy mẫu có hoàn lại và lấy mẫu không hoàn lại . . . . 4 Mẫu ngẫu nhiên và các đặc trưng mẫu . . . . . . . . 6 1.2.1 Mẫu ngẫu nhiên . . . . . . . . . . . . . . . . . . . . . 6 1.2.2 Các đặc trưng mẫu . . . . . . . . . . . . . . . . . . . . 6 Phân phối mẫu và ước lượng khảng tin cậy . . . . . 9 1.3.1 Một số dạng phân phối mẫu . . . . . . . . . . . . . . . 9 1.3.2 Phương pháp khoảng tin cậy . . . . . . . . . . . . . . 12 Phân phối thực nghiệm mẫu . . . . . . . . . . . . . . . 14 1.4.1 Phân phối thực nghiệm mẫu . . . . . . . . . . . . . . 14 1.4.2 Ước lượng hạt nhân hàm mật độ . . . . . . . . . . . . 19 . . . . . . . . . . . . . . . . . . . . . 22 Bài tập chương 1 2 Chương 1. Lý thuyết mẫu 1.1 1.1.1 Mẫu và vấn đề lấy mẫu Mẫu và tổng thể Dãy số liệu thống kê thường được gọi là mẫu. Nó có nguồn gốc từ một tập lớn hơn được gọi là tổng thể (hay tập nền hay tập đám đông). Mẫu sẽ mang thông tin nào đó về tổng thể, mặc dù các thông tin đó có thể khác nhau ở những mẫu khác nhau. Để cho xác định, ta giả sử mẫu và tổng thể đều là tập các số cùng bản chất, đặc trưng cho một số khía cạnh nào đó của đối tượng quan tâm. Các số đó chính là các giá trị khác nhau của một biến số. Nếu tập các giá trị có thể có của một biến số có số lượng hữu hạn, ta có biến rời rạc. Đối với biến liên tục, số lượng giá trị là vô hạn không đếm được và tập số liệu chỉ phản ánh tổng thể với một độ chính xác nhất định. Muốn có đầy đủ thông tin về đối tượng nào đó, ta phải làm việc với tổng thể. Tuy nhiên việc nghiên cứu tổng thể sẽ vô cùng khó khăn vì: do nó quá lớn dẫn đến đòi hỏi quá nhiều chi phí vật chất và thời gian; do trình độ tổ chức và nghiên cứu hạn chế của đội ngũ khi làm việc với qui mô lớn, không nắm bắt và kiểm soát được quá trình nghiên cứu; do nhiều khi không thể làm được do tổng thể biến động nhanh, các phần tử thay đổi thường xuyên, v.v. . . Như vậy việc nghiên cứu trên tổng thể, trừ các tập đủ nhỏ, thường không thể thực hiện được. Từ đó đặt ra vấn đề lấy mẫu. Nếu mẫu được lấy ngẫu nhiên và với số lượng đủ, chúng ta hy vọng rằng việc xử lý chúng sẽ cho ta kết quả vừa nhanh vưa đỡ tốn kém mà vẫn đạt được độ chính xác và tin cậy cần thiết. 1.1.2 Vấn đề lấy mẫu Ta mong muốn mẫu có tính đại diện tốt cho tổng thể, bởi vì việc nghiên cứu với mẫu như vậy cho ta độ tin cậy cao. Hiện nay có nhiều phương pháp khác nhau để chọn mẫu, nhưng khó có thể nói rằng phương pháp nào là tốt nhất. Việc chọn phương án lấy mẫu phù hợp phụ thuộc vào việc chọn chính tập đối tượng cụ thể. 1.1.2.1 Lấy mẫu ngẫu nhiên Trong phương pháp lấy mẫu ngẫu nhiên, mỗi phần tử của tổng thể đã có xác suất chọn xác định từ trước cả khi lấy mẫu. Mẫu ngẫu nhiên cho phép đánh giá khách quan hơn các đặc trưng của tổng thể. Có ba cách lấy mẫu như sau: a) Lấy mẫu ngẫu nhiên đơn giản là phương pháp lấy mẫu có tính chất: mọi mẫu cùng kích cỡ (cùng số phần tử) có cùng xác suất được chọn và mọi phần tử của tổng thể có đồng khả năng lọt vào mẫu. Có hai phương thức chọn cơ bản là chọn không hoàn lại (mỗi phần tử chỉ chọn một lần) 1.1. Mẫu và vấn đề lấy mẫu 3 và chọn có hoàn lại. Nếu số lượng phần tử của mẫu khá bé so với tổng thể thì kết quả lấy mẫu theo hai phương thức sai lệch không đáng kể. Do tính ngẫu nhiên nên mẫu có tính đại diện cao và tin cậy. b) Lấy mẫu phân nhóm: Đầu tiên ta chia tổng thể thành các nhóm tương đối thuần nhất, sau đó từ mỗi nhóm trích ra một mẫu ngẫu nhiên; tập hợp tất cả các mẫu đó cho ta một mẫu (ngẫu nhiên) phân nhóm. Người ta dùng phương pháp này khi trong nội bộ tổng thể có những sai khác lớn. Nhà nghiên cứu phải có hiểu biết nhất định về cấu trúc tổng thể để phân chia nhóm hợp lý. Sau này mỗi nhóm sẽ có vai trò khác nhau phụ thuộc vào độ quan trọng của chúng trong tổng thể. Hạn chế của phương pháp này là tính chủ quan khi phân chia nhóm. Nhưng nó vẫn hay được dùng do cánh thức đơn giản khi làm việc với các nhóm đã khá bé và thuần nhất. c) Lấy mẫu chùm: chính là chọn một mẫu ngẫu nhiên của các tập con của tổng thể, được gọi là các chùm. Ta cũng giả sử rằng các phần tử của mỗi chùm mang tính đại diện cho tổng thể. Ngoài ra ta cố gắng sao cho mỗi chùm vẫn có độ phân tán cao như tổng thể và đồng đều về qui mô. Chẳng hạn ta muốn nghiên cứu nhu cầu tiêu thụ một mặt hàng nào đó bằng phương pháp lấy mẫu chùm: đầu tiên ta chia thành phố thành các khu dân cư, sau đó chọn ra mộ số khu làm phần tử của mẫu, cuối cùng ta nghiên cứu tất cả các gia đình sống trong các khu đã chọn. Phương pháp này giúp ta tiết kiệm kinh phí và thời gian (vì không phải di chuyển trên toàn thành phố), nhưng sai số có thể lớn hơn hai phương pháp trên. 1.1.2.2 Lấy mẫu có suy luận Phương pháp lấy mẫu này dựa trên ý kiến các chuyên gia về đối tượng nghiên cứu. Tức là việc lấy mẫu dựa trên kinh nghiệm và hiểu biết của một vài nhà chuyên môn. Phương pháp có hạn chế cơ bản: khi không có sự tham gia của các công cụ thống kê vào việc lấy mẫu, tính khách quan rất khó được đảm bảo, từ đó kéo theo các kết luận mang nặng tính chủ quan. Tất nhiên điều đó không có nghĩa là không nên dùng các phương pháp chuyên gia. Rất rõ ràng chất lượng mẫu phụ thuộc nhiều vào trình độ của nhà nghiên cứu và kinh nghiệm của họ hy vọng trở thành một công cụ hữu hiệu. 4 Chương 1. Lý thuyết mẫu 1.1.3 Lấy mẫu có hoàn lại và lấy mẫu không hoàn lại 1.1.3.1 Lấy mẫu có hoàn lại Giả sử ta có tập U gồn N phần tử, ta muốn xét một đặc trưng nào đó của các phần tử của U , chẳng hạn như chiều dài, trọng lượng, v.v. . . Ta rút hú họa một phần tử của tập hợp U (giả sử ràng các phần tử của tập hợp U có cùng khả năng bị rút); sau đó xác định đặc trưng cần xét của phần tử đó (mà ta ký hiệu bằng ξ) và ta thu được giá trị x1 chẳng hạn. Trả phần tử đó về tập hợp U , xáo trộn đều các phần tử, sau đó lại rút ra một phần tử thứ hai và đo đặc trưng của phần tử này ta được giá trị x2 , rồi trả phần tử này về tập hợp U , . . . Tiếp tục quá trình đó n lần, ta được dãy các kết quả x1 , x2 , . . . , xn . Dãy này được gọi là một mẫu ngẫu nhiên đơn giản hoặc các số liệu thống kê hoặc là các quan trắc mẫu về đặc trưng ξ của các phần tử của tập hợp U . Phép lấy mẫu như vậy gọi là phép lấy mẫu có hoàn lại. 1.1.3.2 Lấy mẫu không hoàn lại Cùng với các giả thiết như Mục 1.1.3.1 nhưng sau mỗi lần rút một phần tử từ tập hợp U ra, ta không trả phần tử đó về tập hợp nữa. Như vậy sau n lần rút và đo đặc trưng cần xét ξ của n phần tử thu được, ta có dãy y1 , y2 , . . . , yn . Ta gọi dãy đó là một mẫu ngẫu nhiên hay các số liệu thống kê về đặc trưng ξ của các phần tử của tập hợp U theo phép lấy mẫu không hoàn lại. 1.1.3.3 Các ví dụ Ví dụ 1.1. Ví dụ về phép lấy mẫu có hoàn lại: Giả sử ta có một lô hàng gồm N sản phẩm trong đó có m sản phẩm xấu và N − m sản phẩm tốt. Gọi ξ là biến ngẫu nhiên đặc trưng cho chất lượng sản phẩm: ξ= 1, nếu sản phẩm tốt, 0, nếu sản phẩm xấu. Ta thực hiện phép thử ngẫu nhiên G như sau: lấy từ lô hàng một sản phẩm, kiểm tra chất lượng và ký hiệu kết quả thu được là X1 : X1 = 1, nếu sản phẩm tốt, 0, nếu sản phẩm xấu, sau đó trả sản phẩm đó về lô hàng. Lặp lại n lần phép thử G như trên ta thu được mẫu ngẫu nhiên đơn giản X1 , X2 , . . . , Xn . 1.1. Mẫu và vấn đề lấy mẫu 5 Thường để nghiên cứu chất lượng sản phẩm của lô hàng, ta tính xác suất sao cho trong n sản phẩm rút ra có đúng r sản phẩm xấu. Xác suất đó bằng: Pn (r) = Cnr m N r 1− m N n−r . (1.1) Ví dụ 1.2. Ví dụ về phép lấy mẫu không hoàn lại: Nếu trong Ví dụ 1.1 ta dùng phép lấy mẫu không hoàn lại thì xác suất để trong n sản phẩm rút ra có đúng r sản phẩm xấu (n ≤ N, r ≤ min(m, n)) là r CNn−r Cm −m . P (N, m, n, r) = n CN (1.2) Có thể viết (1.2) dưới dạng: P (N, m, n, r) =Cnr × m r m n−r 1 1− 1− N N m 1 n−r−1 1 − N −m . . . 1 − N −m 1− 1 N 1− 2 N ... 1 − n−1 N 1− 2 m ... 1 − r−1 N −m . Nếu trong biểu thức đó ta cho N, m cùng dần ra vô cùng, còn n, r vẫn cố định sao cho m = p, 0 < p < 1, lim m,N →∞ N thì ta được lim P (N, m, n, r) = Cnr pr (1 − p)n−r . m,N →∞ (1.3) Như vậy phân bố của số phế phẩm trong một mẫu ngẫu nhiên đơn giản có cỡ n thu được bằng cách lấy mẫu có hoàn lại có thể xem là giới hạn của phân bố tương ứng của một mẫu ngẫu nhiên thu được nhờ phép lấy mẫu không hoàn lại khi số phần tử của tập chính dần ra vô hạn và thỏa mãn một số điều kiện hạn chế nào đó. 6 1.2 1.2.1 Chương 1. Lý thuyết mẫu Mẫu ngẫu nhiên và các đặc trưng mẫu Mẫu ngẫu nhiên Trong Mục 1.1.3, ta đã xét phép lấy mẫu có hoàn lại từ một tập hợp có hữu hạn phần tử. Bây giờ ta sẽ mở rộng khái niệm mẫu ngẫu nhiên đơn giản cho trường hợp tập chính là tập hợp các giá trị của một biến ngẫu nhiên ξ nào đó có hàm phân bố F (x). Ta có thể hình dung một phép thử ngẫu nhiên G như sau: Quan sát giá trị của một biến ngẫu nhiên ξ xác định trên không gian xác suất (X, A, P ) có hàm phân bố là F (x), chẳng hạn ta được giá trị quan sát là X1 ; Lặp lại n lần phép thử ngẫu nhiên đó, ta được dãy các giá trị quan sát (X1 , X2 , . . . , Xn ). Đó chính là mẫu ngẫu nhiên đơn giản lấy từ tập hợp các giá trị của ξ hay từ họ có độ đo P hay từ họ có phân bố F (x). Trong mẫu đó mỗi Xi xem như một bản sao của ξ, tức là một biến ngẫu nhiên có cùng phân phối như ξ và các Xi (i = 1, . . . , n) đều độc lập với nhau. Từ đó ta có Định nghĩa 1.1. Mỗi mẫu ngẫu nhiên đơn giản cỡ n lấy ra từ tập hợp các giá trị của biến ngẫu nhiên ξ có hàm phân bố F (x) là một véctơ ngẫu nhiên n chiều (X1 , X2 , . . . , Xn ) có các thành phần độc lập với nhau và có cùng phân bố, với hàm phân bố đồng thời là Fn (u1 , . . . , un ) = F (u1 )F (u2 ) . . . F (un ). (1.4) Mẫu ngẫu nhiên (X1 , X2 , . . . , Xn ) được lập từ biến ngẫu nhiên ξ được ký hiệu bởi Mξn , ξ được gọi là biến ngẫu nhiên gốc của Mξn . Ta chú ý trong định nghĩa mẫu ngẫu nhiên đơn giản có hai tính chất quan trọng sau a) Các Xi (i = 1, . . . , n) độc lập với nhau, b) Các Xi có cùng phân bố với ξ. Từ nay về sau nếu không có gì lưu ý thêm, ta dùng từ “mẫu” để chỉ mẫu ngẫu nhiên đơn giản. Định nghĩa trên đây được mở rộng một cách tự nhiên cho trường hợp ξ là một véctơ ngẫu nhiên nhiều chiều. 1.2.2 Các đặc trưng mẫu Trong phần này ta luôn giả thiết mẫu Mξn = (X1 , X2 , . . . , Xn ) lấy được từ tập hợp giá trị của biến ngẫu nhiên ξ có hàm phân bố F (x), kỳ vọng E(ξ) = µ, phương sai V ar(ξ) = σ 2 . 1.2. Mẫu ngẫu nhiên và các đặc trưng mẫu 1.2.2.1 7 Trung bình mẫu Định nghĩa 1.2. Trung bình của mẫu ngẫu nhiên Mξn = (X1 , X2 , . . . , Xn ) ¯ và được xác định bởi: được ký hiệu là X ¯= 1 X n n Xj . (1.5) j=1 ¯ là một biến ngẫu nhiên có: Lưu ý X 1.2.2.2 ¯ = µ, E(X) (1.6) 2 ¯ =σ . V ar(X) n (1.7) Phương sai mẫu Định nghĩa 1.3. Phương sai của mẫu ngẫu nhiên Mξn = (X1 , X2 , . . . , Xn ) được ký hiệu là S 2 và được xác định bởi: 1 S = n n ¯ 2. (Xj − X) 2 (1.8) j=1 Cũng như trung bình mẫu, phương sai của mẫu ngẫu nhiên S 2 cũng là một biến ngẫu nhiên. Nếu ta xét kỳ vọng của S 2 , ta có: E(S 2 ) = n−1 2 σ , n (1.9) nên theo ngôn ngữ của lý thuyết ước lượng thì S 2 là một ước lượng chệch của σ 2 (theo định nghĩa là E(S 2 ) = σ 2 ). Vì vậy để thu được một ước lượng không chệch của σ 2 ta thường dùng đại lượng sau đây: Định nghĩa 1.4. S˜2 = 1 n−1 n ¯ 2, (Xj − X) (1.10) j=1 S˜2 được gọi là phương sai điêu chỉnh của mẫu ngẫu nhiên. Do S˜2 là ước lượng không chệch của σ 2 (E(S˜2 ) = σ 2 ) mà trong nhiều nội dung thống kê người ta đã dùng S˜2 thay cho phương sai mẫu. 8 Chương 1. Lý thuyết mẫu 1.2.2.3 Các mômen mẫu • Mômen mẫu bậc k tương ứng với mẫu Mξn là đại Định nghĩa 1.5. lượng αk∗ 1 = n n Xjk . (1.11) j=1 • Mômen mẫu trung tâm bậc k được xác định bởi mk = ¯= trong đó X 1 n n j=1 1 n n ¯ X −X k , (1.12) j=1 Xj . Kỳ vọng và phương sai của mômen mẫu bậc k: E(αk∗ ) = αk , V ar(αk∗ ) = α2k − αk2 , n (1.13) (1.14) trong đó αk = E(ξ k ), α2k = E(ξ 2k ). Chứng minh các kết quả (1.6), (1.7), (1.9), (1.13) và (1.14) được đề nghị như các bài tập. 1.3. Phân phối mẫu và ước lượng khảng tin cậy 9 1.3 Một số dạng phân phối mẫu và phương pháp ước lượng khoảng tin cậy 1.3.1 Một số dạng phân phối mẫu Trong mục này ta sẽ nêu một số phân bố mẫu thường gặp trong ứng dụng. Các kết quả ở đây là hệ quả trực tiếp của tính độc lập và cùng phân phối của các phần tử Xk của mẫu và của định lý dưới đây về hàm đặc trưng xác định duy nhất hàm phân phối. Định lý 1.1. Giả sử ta có mẫu từ họ hàm phân bố F (x) và hàm đặc trưng ¯ = X1 + X2 + · · · + Xn là (φ(t))n tương ứng là φ(t). Hàm đặc trưng của nX và hàm phân bố là: F ∗ F ∗ · · · ∗ F (x) = ... F (x−u−v · · ·−t)dF (u)dF (v) . . . dF (t). (1.15) n n−1 Định lý 1.2. Giả sử Mξn = (X1 , X2 , . . . , Xn ) là mẫu lấy từ họ có hàm phân ¯ = 1 n Xj bố F (x). Điều kiện cần và đủ để F (x) có phân bố chuẩn là X j=1 n ¯ 2. độc lập với S 2 = n1 nj=1 (Xj − X) Chứng minh các định lý này có thể tham khảo ở sách [1]. Các hệ quả dưới đây được rút ra trực tiếp từ hai định lý trên. Hệ quả 1.1. Nếu mẫu Mξn = (X1 , X2 , . . . , Xn ) được lấy từ họ có phân bố nhị thức ξ ∼ B(m; p), tức là hàm phân bố của họ có dạng nếu x ≤ 0, 0 k k m−k C p (1 − p) nếu 0 < x ≤ m, m F (x) = (1.16) k m. ¯ cũng có phân bố nhị thức nX ¯ ∼ B(nm; p). thì nX Hệ quả 1.2. Nếu mẫu Mξn = (X1 , X2 , . . . , Xn ) được lấy từ họ có phân bố ¯ cũng có phân bố Poisson nX ¯ ∼ P(nλ). Poisson ξ ∼ P(λ) thì nX Hệ quả 1.3. Nếu mẫu Mξn = (X1 , X2 , . . . , Xn ) được lấy từ họ có phân bố ¯ cũng có phân bố chuẩn X ¯ ∼ N µ, σ2 . chuẩn ξ ∼ N (µ, σ 2 ) thì X n Hệ quả 1.4. Nếu mẫu Mξn = (X1 , X2 , . . . , Xn ) được lấy từ họ có phân bố ¯ cũng có phân bố χ2 với nm bậc tự do χ2 với m bậc tự do ξ ∼ χ2 (m) thì nX ¯ ∼ χ2 (nm). nX 10 Chương 1. Lý thuyết mẫu Hệ quả 1.5. Nếu mẫu Mξn1 = (X1 , X2 , . . . , Xn ) được lấy từ họ ξ1 ∼ N (µ1 , σ12 ) và mẫu Mξm1 = (Y1 , Y2 , . . . , Ym ) được lấy từ họ ξ2 ∼ N (µ2 , σ22 ) độc lập với họ ¯ ± Y¯ có phân bố chuẩn X ¯ ± Y¯ ∼ N µ1 ± µ2 , σ12 + σ22 . ξ1 thì X n m Hệ quả 1.6. Cho các mẫu độc lập Mξn11 = (X1 , X2 , . . . , Xn1 ), Mξn22 = (Y1 , Y2 , . . . , Yn2 ), . . . , Mξnss = (Z1 , Z2 , . . . , Zns ) lần lượt được lấy từ các họ ξ1 , ξ2 , . . . , ξs cùng có phân phối chuẩn tắc N (0, 1) thì n1 n2 Xi2 + η= i=1 ns Yj2 + · · · + j=1 Zk2 k=1 sẽ có phân phối χ2 với n1 + n2 + · · · + ns bậc tự do. Hệ quả 1.7. Nếu mẫu Mξn = (X1 , X2 , . . . , Xn ) được lấy từ họ có phân bố chuẩn ξ ∼ N (µ, σ 2 ) thì biến ngẫu nhiên √ ¯ − µ) n − 1(X t= S có phân bố Student với n − 1 bậc tự do, trong đó S= 1 n n ¯ 2. (Xj − X) j=1 Hệ quả 1.8. Nếu mẫu Mξn1 = (X1 , X2 , . . . , Xn ) được lấy từ họ ξ1 ∼ N (µ1 , σ12 ) và mẫu Mξm2 = (Y1 , Y2 , . . . , Ym ) được lấy từ họ ξ2 ∼ N (µ2 , σ22 ) độc lập với họ ξ1 thì biến ngẫu nhiên √ ¯ − Y¯ )(µ1 − µ2 ) n + m − 2 (X t= 1/2 1 + m1 (nS12 + mS22 ) n có phân bố Student với n − 1 bậc tự do, trong đó S12 1 = n n ¯ 2; S 2 = 1 (Xj − X) 2 m j=1 m (Yk − Y¯ )2 . k=1 Hệ quả 1.9. Nếu Mξn1 = (X1 , X2 , . . . , Xn ) và Mξm2 = (Y1 , Y2 , . . . , Ym ) là các mẫu độc lập được lấy lần lượt từ các họ ξ1 , ξ2 có cùng phân bố chuẩn tắc N (0, 1) thì biến ngẫu nhiên F = n(m − 1)S12 m(n − 1)S22 có phân bố Fisher-Snedecor với n − 1 và m − 1 bậc tự do, trong đó S12 = 1 n n ¯ 2; S 2 = (Xj − X) 2 j=1 1 m m (Yk − Y¯ )2 . k=1 1.3. Phân phối mẫu và ước lượng khảng tin cậy 11 Cùng với các định lý và hệ quả trên, với các giả thiết tồn tại các giới hạn hoặc mômen tương ứng và dùng các kết quả của luật số lớn hoặc định lý giới ¯ là trung bình và S 2 là phương sai của hạn trung tâm, khi n → ∞, với X mẫu ngẫu nhiên Mξn = (X1 , X2 , . . . , Xn ) được lấy từ tập giá trị của biến ngẫu nhiên ξ (với E(ξ) = µ, V ar(ξ) = σ 2 ), ta có một số giới hạn thông dụng được trình bày ở Hệ quả 1.10. hcc Hệ quả 1.10. Trong các giới hạn dưới đây, khi n → ∞, ta sẽ ký hiệu “ −→” xs L cho sự hội tụ hầu chắc chắn, “ −→” cho sự hội tụ theo xác suất và “ −→” cho sự hội tụ theo luật phân bố: hcc hcc hcc ¯ −→ a) X µ; S 2 −→ σ 2 ; S˜2 −→ σ 2 , xs xs xs ¯ −→ từ đó suy ra X µ; S 2 −→ σ 2 ; S˜2 −→ σ 2 , ¯√ ¯√ L L b) µ−σX n −→ N (0; 1); µ−SX n −→ N (0; 1), 2 −σ 2 √ n µ4 −σ 4 c) √S 2 −σ 2 √ n µ4 −σ 4 L √S˜ −→ N (0; 1); √ L 1 d) (S˜ − σ) n −→ N 0; 2σ L −→ N (0; 1), µ4 − σ 4 . Các kết quả trên sẽ rất có ích trong thực hành vì không cần đến giả thiết chuẩn của biến ngẫu nhiên gốc ξ và trong nhiều trường hợp ta có thể chấp nhận kết quả với n không quá lớn. Chẳng hạn với n > 30, kết quả b) có thể chấp nhận được. Dưới đây ta phát biểu lại định lý luật số lớn và định lý giới hạn trung tâm đối với các biến ngẫu nhiên độc lập Xi (i = 1, 2, . . . , n) trong mẫu ngẫu nhiên Mξn = (X1 , X2 , . . . , Xn ) được lấy từ tập giá trị của biến ngẫu nhiên ξ. Chú ý là các biến ngẫu nhiên Xi (i = 1, 2, . . . , n) đều có cùng phân phối với biến ngẫu nhiên gốc ξ. Định lý 1.3. (Định lý luật số lớn) Nếu (X1 , X2 , . . . , Xn ) là một mẫu ngẫu nhiên được lấy từ tập giá trị của biến ngẫu nhiên ξ thì lim P n→∞ 1 n n i=1 1 Xi − n n E(Xi ) < ε = 1, ∀ε > 0 i=1 xs ¯ −→ µ khi n đủ lớn. ⇐⇒ X Định lý 1.4. (Định lý luật số lớn Bernoulli) Nếu ta có n phép thử Bernoulli với p = P (A) và m là số lần xuất hiên biến cố A trong dãy phép thử đó thì lim P n→∞ ⇐⇒ m − p < ε = 1, n ∀ε > 0 m xs −→ p khi n đủ lớn. n 12 Chương 1. Lý thuyết mẫu Định lý 1.5. (Định lý giới hạn trung tâm) Nếu (X1 , X2 , . . . , Xn ) là một mẫu ngẫu nhiên được lấy từ tập giá trị của biến ngẫu nhiên ξ thì ¯ √n µ−X ∼ N (0; 1), Zn = σ khi kích thước mẫu n đủ lớn. 1.3.2 Phương pháp khoảng tin cậy Định nghĩa 1.6. Cho mẫu nhiên Mξn = (X1 , X2 , . . . , Xn ) được lấy từ tập giá trị của biến ngẫu nhiên ξ, một hàm nào đó Y = g(X1 , X2 , . . . , Xn ) phụ thuộc vào tập giá trị của mẫu Mξn được gọi là một thống kê. ¯ và phương sai mẫu S 2 là các thống kê. Ví dụ 1.3. Trung bình mẫu X 1.3.2.1 Đặt vấn đề Giả sử biến ngẫu nhiên ξ có phân bố F (x) với tham số θ chưa biết. Để ước lượng tham số θ, phương pháp khoảng tin cậy xây dựng một thống kê nào đó có luật phân phối xác định không phụ thuộc vào θ (nhưng thống kê lại phụ thuộc). Dựa vào thống kê đó, ta tìm được khoảng giá trị (θ1 ; θ2 ) để ước lượng cho tham số θ. Khoảng ước lượng (θ1 ; θ2 ) còn được gọi là khoảng tin cậy của ước lượng. Điều kiện đặt ra đối với khoảng tin cậy (θ1 ; θ2 ) là phải chứa được tham số với một xác suất khá cao. Trong phương pháp này, người ta ấn định một số xác suất α khá bé và buộc xác suất để tham số θ rơi vào khoảng tin cậy (θ1 ; θ2 ) phải đạt bằng P (θ1 < θ < θ2 ) = 1 − α. (1.17) Giá trị xác suất cho trước α được gọi là mức ý nghĩa của ước lượng và 1 − α được gọi là độ tin cậy của ước lượng. 1.3.2.2 Phương pháp − Từ tập giá trị của biến ngẫu nhiên ξ, lấy mẫu nhiên Mξn = (X1 , X2 , . . . , Xn ). − Với mẫu ngẫu nhiên Mξn xây dựng một thống kê có chứa tham số cần ược lượng: U = g(X1 , X2 , ..., Xn , θ). Ngoài điều kiện phải chứa tham số θ, yêu cầu quan trọng đặt ra với thống kê U là có thể xấp xỉ về một trong những dạng phân phối thông dụng như phân phối chuẩn tắc, phân phối Student hay phân phối χ2 , . . . bằng cách xem xét dựa vào các hệ quả trong Mục 1.3.1. 1.3. Phân phối mẫu và ước lượng khảng tin cậy 13 − Khi biết được dạng phân phối của U , với mức ý nghĩa α cho trước có thể tìm được các giá trị u1 và u2 sao cho P (u1 < U < u2 ) = 1 − α. (1.18) − Biến đổi (1.18) đưa về dạng P (θ1 < θ < θ2 ) = 1 − α. Khi đó (θ1 ; θ2 ) là khoảng tin cậy cần tìm. 14 Chương 1. Lý thuyết mẫu 1.4 Phân phối thực nghiệm mẫu 1.4.1 Phân phối thực nghiệm mẫu 1.4.1.1 Mẫu dữ liệu đơn, biểu đồ dữ liệu Ở mục này ta xét mẫu dữ liệu thực kích thước n được lấy từ tổng thể ứng với tập giá trị của biến ngẫu nhiên ξ, ký hiệu wnξ = (x1 , x2 , . . . , xn ) hay wn = (x1 , x2 , . . . , xn ). Tập n giá trị dữ liệu như vậy gọi là một mẫu dữ liệu đơn. Thông thường người ta hay biểu diễn dữ liệu bằng đồ thị để quan sát và nghiên cứu trực giác hơn. Có hai dạng biểu diễn đồ thị hay dùng là biểu đồ và đa giác tần số. Đối với mẫu dữ liệu đơn wn = (x1 , x2 , . . . , xn ), ta thường biểu diễn ở dạng biểu đồ: • Tìm xmin = min(x1 , x2 , . . . , xn ), xmax = max(x1 , x2 , . . . , xn ). • Chia đoạn [xmin , xmax ] thành k đoạn có độ dài bằng nhau ∆ = bởi các điểm chia xmax −xmin k xmin = u0 < u1 < ... < uh < uh+1 < ... < uk = xmax , trong đó uh+1 = uh + ∆, h = 0, 1, . . . , k − 1. • Lập mẫu lớp dữ liệu: [u0 ; u1 ] (u1 ; u2 ] . . . (uk−1 ; uk ] Các lớp dữ liệu k Số lượng ni ( i=1 ni = n) n1 n2 ... nk Trong đó: · n1 là số lượng giá trị trong mẫu wn thuộc [u0 , u1 ], · ni là số lượng giá trị trong mẫu wn thuộc (ui−1 , ui ], i = 2, ..., k. Bảng 1.1: Mẫu lớp dữ liệu. • Biểu đồ của dữ liệu wn bao gồm các hình chữ nhật cạnh nhau, có đáy bằng nhau với trung điểm trùng với trung điểm của các lớp và chiều cao bằng số lượng ni tương ứng. Ví dụ 1.4. Mẫu dữ liệu điểm thi ξ (thang điểm 4) của 100 sinh viên như sau: ξ w100 = (1 2 1 2 1 1 1 2 3 2 2 3 1 3 2 1 1 3 2 3 1 1 3 1 3 2 2 2 2 2 2 2 2 4 114423323312214011234323233122213212202 3 1 3 1 1 1 3 2 3 2 3 4 1 2 2 0 3 1 3 2 4 2 3 1 1 2 4). Hãy lập mẫu lớp của ξ mẫu w100 với k = 5 lớp dữ liệu và lập biểu đồ tương ứng. 1.4. Phân phối thực nghiệm mẫu 15 ξ Lập lớp dữ liệu cho w100 : ξ ξ • max(w100 ) = 4, min(w100 ) = 0. • Chia đoạn [0; 4] thành k = 5 đoạn có độ dài bằng nhau ∆ = bởi các điểm chia [0; 0,8; 1,6; 2,4; 3,2; 4]. 4−0 5 = 0, 8 ξ nhận được như sau: • Mẫu 5 lớp dữ liệu của w100 Các lớp dữ liệu Số lượng ni [0; 0, 8] 3 (0, 8; 1, 6] 28 (1, 6; 2, 4] 36 (2, 4; 3, 2] 25 (3, 2; 4] 8 ξ Bảng 1.2: Mẫu lớp dữ liệu của w100 . Biểu đồ tương ứng của mẫu lớp trong Bảng 1.2 được biểu diễn ở Hình 1.1. Bieu do mau lop diem thi voi k = 5 lop 40 35 30 So luong 25 20 15 10 5 0 0 0,8 1,6 2,4 Cac lop diem thi 3,2 4 Hình 1.1: Biểu đồ mẫu lớp điểm thi. 1.4.1.2 Bảng tần số mẫu, đa giác tần số Nhiều khi trong mẫu dữ liệu đơn có nhiều giá trị giống nhau: chảng hạn giá trị x1 xuất hiện n1 lần, x2 xuất hiện n2 lần, . . . ,xk xuất hiện nk lần; khi đó 16 Chương 1. Lý thuyết mẫu n1 + n2 + · · · + nk = n. Trường hợp như vậy người ta hay sắp xếp mẫu lại dưới dạng bảng tần số mẫu. Giả sử mẫu dữ liệu đơn wn có k mức giá trị khác nhau x1 , x2 , . . . , xk ; số lần xuất hiện giá trị xi (i = 1, 2, . . . , k), ký hiệu ni , được gọi là tần số của giá trị xi . Sau khi sắp xếp số liệu theo thứ tự tăng của giá trị mẫu, ta trình bày ở dạng bảng tần số mẫu (Bảng 1.3). Các mức giá trị mẫu xi Tần số ni ( ki=1 ni = n) x1 n1 x2 n2 ... ... xk nk Bảng 1.3: Bảng tần số mẫu. Bảng tần số mẫu được biểu diễn đồ thị ở dạng đa giác tần số. Đa giác tần số là đường gấp khúc nối các điểm có hoành độ xi và tung độ ni (hoặc các điểm có hoành độ ở giữa lớp số liệu thứ i trong mẫu lớp dữ liệu, Bảng 1.1). Đa giác tần số dễ xây dựng hơn và dễ dùng hơn biểu đồ. Ngoài ra khi hiệu của hai hoành độ liên tiếp khá bé, đường gấp khúc sẽ càng ngày càng trơn và dần tiến tới dạng hàm mật độ xác xuất của biến ngẫu nhiên ξ (hàm mật độ xác suất của tổng thể). Tỷ số giữa tần số và kích thước mẫu được gọi là tần suất của giá trị tương ứng và được ký hiệu là fi = ni /n, (i = 1, 2, . . . , k). Bảng Bảng 1.4 được gọi là bảng tần suất mẫu. Các mức giá trị mẫu xi Tần suất fi ( ki=1 fi = 1) x1 f1 x2 f2 ... ... xk fk Bảng 1.4: Bảng tần suất mẫu. Rõ ràng là bảng tần suất mẫu rất giống với bảng phân bố xác xuất của biến ngẫu nhiên rời rạc, nó cho chúng ta một mức độ thông tin nào đó về bản chất phân bố xác suất của biến ngẫu nhiên ξ cảm sinh ra mẫu. Ví dụ 1.5. Hãy lập bảng tần số, bảng tần suất và đa giác tần suất của mẫu ξ trong Ví dụ 1.4. dữ liệu w100 Bảng 1.5 là bảng tần số, Bảng 1.6 là bảng tần suất điểm thi của mẫu dữ ξ . liệu w100 ξ được biểu diễn ở Hình 1.2. Đa giác tần suất của mẫu dữ liệu w100 1.4. Phân phối thực nghiệm mẫu Điểm thi Tần số 0 3 1 28 17 2 36 3 4 25 8 Bảng 1.5: Bảng tần số điểm thi. Điểm thi Tần suất 0 0,03 1 0,28 2 0,36 3 0,25 4 0,08 Bảng 1.6: Bảng tần suất điểm thi. Da giac tan so cua mau du lieu diem thi 40 35 30 Tan so 25 20 15 10 5 0 0 1 2 Cac muc diem thi 3 4 Hình 1.2: Đa giác tần số điểm thi. 1.4.1.3 Hàm phân bố thực nghiệm Định nghĩa 1.7. Xét mẫu dữ liệu đơn wnξ = (x1 , x2 , . . . , xn ). Ta gọi hàm Fn (x) là hàm phân bố thực nghiệm tương ứng với mẫu wnξ nếu hàm đó được cho bởi công thức 0, nếu x ≤ min(x1 , x2 , . . . , xn ), Fn (x) = nk , nếu có k phần tử trong mẫu bé hơn x, 1, nếu x > max(x1 , x2 , . . . , xn ). (1.19) 18 Chương 1. Lý thuyết mẫu Chú ý 1.1. Hàm phân phối thực nghiệm có các tính chất: Fn (x) là hàm bậc thang, không giảm, liên tục trái, có các điểm gián đoạn loại I tại các giá trị mẫu xi (i = 1, 2, . . . , n) và có bước nhảy bằng 1/n. Chú ý 1.2. Nếu mẫu dữ liệu được cho ở dạng mẫu tần suất ở Bảng 1.4 thì hàm phân bố được cho bởi: 0, nếu x ≤ x1 , h Fn (x) = (1.20) fi , nếu xh < x ≤ xh+1 , h = 1, 2, . . . , k − 1, i=1 1, nếu x > xk . ξ Ví dụ 1.6. Tìm hàm phân bố thực nghiệm của mẫu dữ liệu điểm thi w100 trong Ví dụ 1.4 qua bảng tần suất đã lập được ở Bảng 1.6. Dựa vào công thức (1.20), hàm phân bố thực nghiệm nhận được là 0 nếu x ≤ 0, 0, 03 nếu 0 < x ≤ 1, 0, 31 nếu 1 < x ≤ 2, (1.21) F100 (x) = 0, 67 nếu 2 < x ≤ 3, 0, 92 nếu 3 < x ≤ 4, 1, nếu x > 4. Hàm phân bố thực nghiệm F100 (x) nhận được có dạng hình bậc thang, không giảm, liên tục trái, có các điểm gián đoạn loại I tại 0, 1, 2, 3, 4; Đồ thị của F100 (x) được biểu diễn ở Hình 1.3. 1.4. Phân phối thực nghiệm mẫu 19 Ham phan bo thuc nghiem diem thi 1 0.9 0.8 0.7 F100(X) 0.6 0.5 0.4 0.3 0.2 0.1 0 −1 0 1 2 x 3 4 5 Hình 1.3: Hàm phân bố thực nghiệm điểm thi. Chú ý 1.3. Theo luật số lớn và định lý Glivenko dưới đây thì hàm phân bố thực nghiệm Fn (x) hội tụ theo xác suất về hàm phân bố F (x) của biến ngẫu nhiên gốc ξ (hàm phân bố của tổng thể). Như vậy hàm phân bố thực nghiệm mẫu có thể dùng để ước lượng (xấp xỉ) của hàm phân bố F (x) của biến ngẫu nhiên gốc ξ dựa trên mẫu wnξ . Định lý 1.6. (Định lý Glivenko) Nếu wnξ là một mẫu dữ liệu được lấy từ tập giá trị của biến ngẫu nhiên ξ với hàm phân bố F (x) thì hàm phân bố thực nghiệm Fn (x) tương ứng với mẫu wnξ thỏa mãn hệ thức: P sup |Fn (x) − F (x)| → 0, n → ∞ = 1. −∞ 1. 0 15 (1 16 2 2 −u ) 3 (1 4 nếu |u| ≤ 1, nếu |u| > 1. 0 2 − u ) nếu |u| ≤ 1, nếu |u| > 1. 0 K(u) = Chuẩn 0 1 − |u| nếu |u| ≤ 1, K(x) = Tam giác Biểu thức 1 nếu |u| ≤ 1, 2 √1 2π 2 exp − u2 . Bảng 1.7: Các dạng hàm hạt nhân thường dùng. Chú ý 1.5. Khi tham số trơn h nhỏ thì hàm số ước lượng sẽ kém trơn, khi h càng lớn thì tính trơn sẽ tăng lên nhưng sẽ kém chính xác trong ước lượng. Tùy theo trường hợp sử dụng, dạng hàm hạt nhân được sử dụng mà người ta lựa chọn tham số làm trơn phù hợp. Nếu hàm hạt nhân sử dụng có dạng chuẩn thì theo B.W. Silverman (1998), lựa chọn tối ưu cho tham số làm trơn h là: h= 4s5 3n 1 5 ≈ 1, 06sn−1/5 , trong đó s là độ lệch chuẩn và n là kích thước của mẫu dữ liệu. (1.23) 1.4. Phân phối thực nghiệm mẫu 21 Ví dụ 1.7. Sử dụng hàm hạt nhân dạng chuẩn, tìm ước lượng hàm mật độ hạt nhân từ mẫu dữ liệu trong Ví dụ 1.4. Mẫu dữ liệu có độ lệch chuẩn s = 0, 9824. Sử dụng công thức (1.23), ta tính được h = 0, 4146 (với n = 100). Ước lượng hàm mật độ hạt nhân nhận được qua công thức (1.22) (sử dụng hàm ksdensity trong MATLAB) có đồ thị được biểu diễn ở Hình 1.4. Uoc luong ham mat do hat nhan 0.4 0.35 0.3 f(x) 0.25 0.2 0.15 0.1 0.05 0 −2 −1 0 1 2 x 3 4 5 6 Hình 1.4: Hàm mật độ điểm thi được ước lượng bằng phương pháp hạt nhân. 22 Chương 1. Lý thuyết mẫu 1.5 Bài tập chương 1 1. Trong 1 ca làm việc một máy tự động sản xuất được 100 sản phẩm. Xác suất để 1 sản phẩm được sản xuất ra bị hư là 0,1. Giả thiết rằng quá trình máy sản xuất ra các sản phẩm là độc lập với nhau. a) Tìm quy luật phân phối xác suất của số phế phẩm trong ca. b) Tìm số phế phẩm trung bình, số phế phẩm tin chắc nhất và độ lệch chuẩn của số phế phẩm trong ca. 2. Một xạ thủ bắn vào bia với xác suất trúng là 0,6. Tìm xác suất sao cho trong 100 phát bắn vào bia có: a) 50 phát trúng bia. b) Không quả 50 phát trúng bia. 3. Xác suất sinh con trai ở 1 nhà hộ sinh là 0,51. Tìm xác suất sao cho trong 1000 ca đến sinh số bé trai bé hơn số bé gái. 4. Trong một kho chứa bóng đèn tỷ lệ bóng hoỏng là 50/00 . Xếp các bóng đèn thành từng lô 1000 bóng. a) Tính xác suất sao cho trong mỗi lô có không quá 1 bóng đèn bị hỏng. b) Tìm số bóng hỏng tin chắc nhất trong lô. 5. Từ 1 lô hàng gồm 400 sản phẩm, trong đó có 100 sản phẩm loại A, lấy ngẫu nhiên 80 sản phẩm. Tính số sản phẩm loại A trung bình và độ lệch chuẩn của số sản phẩm loại A có trong 80 sản phẩm lấy ra. 6. Trong 1 lô hàng gồm 10000 sản phẩm (trong đó có 4000 sản phẩm loại 1). Lấy ngẫu nhiên không hoàn lại từ lô ra 10 sản phẩm. Tìm các xác suất sau đây: a) Có 3 sản phẩm loại 1 trong 10 sản phẩm lấy ra. b) Có ít nhất 1 sản phẩm loại 1 trong 10 sản phẩm lấy ra. 7. Trọng lượng của 1 loại trái cây là đại lượng ngẫu nhiên phân phối theo quy luật chuẩn với trung bình là 250g và phương sai là 25. Quả được gọi là loại 1 nếu có trọng lượng từ 255g trở lên. Tìm tỷ lệ quả loại 1 của loại trái cây đó. 8. Chiều cao nam giới đã trưởng thành là một đại lượng ngẫu nhiên phân phối theo quy luật chuẩn N (160;36). Tìm xác suất để khi chọn ngẫu nhiên 4 nam thì có ít nhất 1 người có chiều cao nằm trong khoảng (158;162). 1.5. Bài tập chương 1 23 9. Một chi tiết máy được gọi là đạt tiêu chuẩn kỹ thuật nếu như đường kính của nó sai lệch so với đường kính thiết kế (đường kính trung bình) không quá 0,33 cm về giá trị tuyệt đối. Cho biết đường kính của loại chi tiết máy đó là đại lượng ngẫu nhiên phân phối xác suất theo quy luật chuẩn với độ lệch tiêu chuẩn là 0,3. Tìm số chi tiết máy đạt tiêu chuẩn trung bình khi sản xuất 100 chi tiết máy. 10. Biết trọng lượng của một loại sản phẩm là biến ngẫu nhiên ξ(kg) phân phối theo luật chuẩn có phương sai V ar(ξ) = σ 2 . Để ước lượng trọng lượng trung bình µ = E(ξ) của các sản phẩm, người ta kiểm tra một mẫu gồm n sản phẩm và tính được trọng lượng trung bình trong mẫu ¯ Hãy xây dựng khoảng tin cậy (µ1 , µ2 ) của trọng lượng trung này là X. bình µ với mức ý nghĩa α. ¯ = 5, 2kg và α = 0, 01. Áp dụng với σ 2 = 0, 01kg 2 ; n = 25; X 11. Trọng lượng của các gói mì ăn liền là biến ngẫu nhiên ξ(g) có trung bình µ = E(ξ). Dựa vào một mẫu kiểm tra ngẫu nhiên gồm n sản phẩm với ¯ hãy xây dựng khoảng tin cậy (µ1 , µ2 ) của µ với mức ý trung bình X, nghĩa α. Áp dụng với α = 0, 02 và mẫu kiểm tra cụ thể như sau: Khoảng trọng lượng (g) Số gói mì [70;75) 11 [75;80) 32 [80;85) 44 [85;90) 13 12. Cho biết đường kính của các viên bi là biến ngẫu nhiên ξ(mm) phân phối theo luật chuẩn không đánh giá được phương sai. Để ước lượng đường kính trung bình µ = E(ξ) của các viên bi, người ta kiểm tra một mẫu gồm n viên bi và tính được đường kính trung bình trong mẫu này ¯ Hãy xây dựng khoảng tin cậy (µ1 , µ2 ) của trọng lượng trung bình là X. µ với mức ý nghĩa α. Áp dụng với α = 0, 05 và mẫu kiểm tra cụ thể như sau: Đường kính xi (mm) Số bi ni 6,5 1 7,0 7 7,5 12 8,0 3 8,5 2 13. Tỷ lệ p các sản phẩm bị hư trong kho đồ hộp là một tham số chưa biết. Lấy mẫu kiểm tra n sản phẩm, số bị hư đếm được trong mẫu là m. Dựa vào thông tin mẫu này, xây dựng khoảng tin cậy (p1 ; p2 ) để ước lượng cho tỷ lệ p với mức ý nghĩa α. Áp dụng với α = 0, 05; n = 200 và m = 8. 24 Chương 1. Lý thuyết mẫu 14. Để tham khảo độ chính xác của một dụng cụ đo chiều dài người ta đo trên cùng một mục tiêu n lần bằng dụng cụ ấy, tính được phương sai của mẫu khảo sát là S 2 . Kết quả nhận được sˆ2 = 0,05. Hãy xây dựng khoảng ước lượng cho độ phân tán sai số (σ12 ; σ22 ) của dụng cụ đó với mức ý nghĩa α. Cho biết đại lượng đo cho sai số ngẫu nhiên có dạng phân phối chuẩn. Áp dụng với n = 30; S 2 = 0, 05 và độ tin cậy là 1 − α = 0, 95. 15. Cho biết khối lượng của một loại sản phẩm là đại lượng ξ phân phối theo luật chuẩn với kỳ vọng E(ξ) = µ. Cân thử từng sản phẩm của một mẫu ngẫu nhiên gồm n đơn vị sản phẩm, ta có kết quả ở dạng dưới đây: Trọng lượng xi (kg) Số sản phẩm ni x1 n1 x2 n2 ... ... xk nk k ni = n. Trong đó i=1 Với độ tin cậy 1−α hãy tìm khoảng tin cậy cho phương sai V ar(ξ) = σ 2 . Áp dụng với độ tin cậy 95%; µ = 30 và mẫu khảo sát như sau: Trọng lượng xi (kg) Số sản phẩm ni 29, 3 4 29, 7 5 30 8 30, 5 5 30, 7 . 3 Chương 2 Lý thuyết ước lượng Mục lục 2.1 2.2 2.3 . . . . . . . . . . . . . . . . . . . 26 2.1.1 Ước lượng vững . . . . . . . . . . . . . . . . . . . . . . 26 2.1.2 Ước lượng không chệch . . . . . . . . . . . . . . . . . 26 2.1.3 Ước lượng hiệu quả . . . . . . . . . . . . . . . . . . . . 26 Các phương pháp ước lượng . . . . . . . . . . . . . . . 27 Các dạng ước lượng 2.2.1 Ước lượng hợp lý tối đa . . . . . . . . . . . . . . . . . 27 2.2.2 Phương pháp ước lượng momen . . . . . . . . . . . . . 27 . . . . . . . . . . . . . . . . . . . . . 29 Bài tập chương 2 26 Chương 2. Lý thuyết ước lượng 2.1 2.1.1 Các dạng ước lượng Ước lượng vững Định nghĩa 2.1. Một hàm n biến Y = θ(X1 , X2 , . . . , Xn ) phụ thuộc vào tập giá trị của mẫu ngẫu nhiên Mξn = (X1 , X2 , . . . , Xn ) được gọi là một thống kê. Định nghĩa 2.2. Thống kê θ được gọi là ước lượng vững của tham số θ nếu lim P n→∞ θ − θ < ε = 1, ∀ε > 0. Trong đó, θ là một tham số nào đó của biến ngẫu nhiên gốc ξ. 2.1.2 Ước lượng không chệch Định nghĩa 2.3. Thống kê θ được gọi là ước lượng không chệch của tham số θ nếu E(θ) = θ. Định nghĩa 2.4. Cho θ là một ước lượng của tham số θ. • θ − θ được gọi là sai số hệ thống nếu E(θ − θ) = 0. • θ − θ được gọi là sai số ngẫu nghiên nếu E(θ − θ) = 0. 2.1.3 Ước lượng hiệu quả Định nghĩa 2.5. Thống kê θ được gọi là ước lượng hiệu quả của tham số θ nếu nó là ước lượng không chệch có phương sai bé nhất. Định lý 2.1. (Định lý về nghịch đảo của lượng thông tin Fischer) θ là ước lượng hiệu quả của θ ⇐⇒ V ar(θ) = In1(θ) . Trong đó: • In (θ) = nE ∂ ln f (x,θ) ∂θ 2 được gọi là lượng thông tin Fischer về tham số θ chứa trong mẫu kích thước n. • f (x, θ) là hàm mật độ của biến ngẫu nhiên gốc. 2.2. Các phương pháp ước lượng 2.2 2.2.1 27 Các phương pháp ước lượng Ước lượng hợp lý tối đa Định nghĩa 2.6. Thống kê θ là ước lượng hợp lý tối đa của tham số θ nếu θ làm cực đại hàm mật độ đồng thời của mẫu ngẫu nhiên Mξn = (X1 , X2 , . . . , XN ): n L(Mξn , θ) = f (Xi , θ). i=1 Trong đó, f (X, θ) là hàm mật độ xác suất của biến ngẫu nhiên gốc ξ. Chú ý 2.1. L(Mξn , θ) đạt cực đại tại θ ⇐⇒ ln L(Mξn , θ) đạt cực đại tại θ. Chú ý 2.2. Các bước tìm ước lượng hợp lý tối đa: 1. Tìm biểu thức hàm mật độ f (X, θ) của biến ngẫu nhiên gốc ξ. 2. Lập hàm hợp lý (hàm mật độ đồng thời): n L(Mn , θ) = f (Xi , θ). i=1 3. Tính các đạo hàm cấp 1 và cấp 2 theo θ của L(Mξn , θ) hoặc ln L(Mξn , θ): ∂L ∂ 2 L ln L ∂ 2 ln L , ∂θ2 (hoặc ∂ ∂θ , ∂θ2 ). ∂θ 4. Điều kiện cần: giải phương trình ∂L = 0 (hoặc ∂θ giá trị có khả năng làm cực đại hàm hợp lý. ∂ ln L ∂θ = 0) tìm nghiệm θ, 5. Kiểm tra điều kiện đủ: ∂ 2L ∂θ2 θ=θ ∂ 2 ln L < 0 hoặc ∂θ2 θ=θ [...]... giá trị của mẫu Mξn được gọi là một thống kê ¯ và phương sai mẫu S 2 là các thống kê Ví dụ 1.3 Trung bình mẫu X 1.3.2.1 Đặt vấn đề Giả sử biến ngẫu nhiên ξ có phân bố F (x) với tham số θ chưa biết Để ước lượng tham số θ, phương pháp khoảng tin cậy xây dựng một thống kê nào đó có luật phân phối xác định không phụ thuộc vào θ (nhưng thống kê lại phụ thuộc) Dựa vào thống kê đó, ta tìm được khoảng giá trị... Phương pháp ước lượng momen 27 29 Bài tập chương 2 26 Chương 2 Lý thuyết ước lượng 2.1 2.1.1 Các dạng ước lượng Ước lượng vững Định nghĩa 2.1 Một hàm n biến Y = θ(X1 , X2 , , Xn ) phụ thuộc vào tập giá trị của mẫu ngẫu nhiên Mξn = (X1 , X2 , , Xn ) được gọi là một thống kê Định nghĩa 2.2 Thống kê θ được gọi là ước lượng vững của tham số θ nếu lim P n→∞ θ − θ ... tham số θ, phương pháp khoảng tin cậy xây dựng thống kê có luật phân phối xác định không phụ thuộc vào θ (nhưng thống kê lại phụ thuộc) Dựa vào thống kê đó, ta tìm khoảng giá trị (θ1 ; θ2 ) để ước... gọi thống kê Định nghĩa 2.2 Thống kê θ gọi ước lượng vững tham số θ lim P n→∞ θ − θ < ε = 1, ∀ε > Trong đó, θ tham số biến ngẫu nhiên gốc ξ 2.1.2 Ước lượng không chệch Định nghĩa 2.3 Thống kê. .. Chương Hồi qui nâng cao Chương Phân tích cấu trúc liệu nhiều chiều Chương Phân loại thống kê Tài liệu tham khảo [1] Nguyễn Văn Hữu (chủ biên); Đào Hữu Hồ; Hoàng Hữu Như Thống Kê Toán NXB ĐẠI