Luận văn thạc sĩ Phân tích liên tiếp

Mục lục 1 MỞ ĐẦU 5 1.1 Giới thiệu về phân tích liên tiếp . . . . . . . . . . . . . . . . . . 5 1.2 Thí dụ: Kiểm tra sản phẩm . . . . . . . . . . . . . . . . . . . . 7 1.2.1. Phân phối cỡ mẫu . . . . . . . . . . . . . . . . . . . . . 7 2 PHÂN TÍCH LIÊN TIẾP: KIỂM ĐỊNH GIẢ THIẾT ĐƠN 11 2.1 Tiêu chuẩn liên tiếp tỉ số xác suất(SPRT) . . . . . . . . . . . . 11 2.2 SPRT: Kết thúc hữu hạn và bị chặn . . . . . . . . . . . . . . . . 13 2.3 Hàm OC (θ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.4 Số trung bình mẫu . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5 Đồng nhất thức cơ bản của Wald . . . . . . . . . . . . . . . . . 28 2.5.1. Ứng dụng của đồng nhất thức cơ bản . . . . . . . . . . . 28 2.6 Các cận trên và cận dưới của số trung bình mẫu . . . . . . . . . 31 3 PHÂN TÍCH LIÊN TIẾP: KIỂM ĐỊNH CHO GIẢ THIẾT HỢP 35 3.1 Phương pháp hàm trọng lượng . . . . . . . . . . . . . . . . . . . 35 3.1.1. Ứng dụng của phương pháp hàm trọng lượng . . . . . . . 36 3.2 Tiêu chuẩn liên tiếp t và t 2 . . . . . . . . . . . . . . . . . . . . . 37 3.2.1. Sự khai triển tiệm cận đều và sự nghịch đảo của tích phân 40 3.2.2. Tiệm cận chuẩn của thống kê T . . . . . . . . . . . . . . 41 3.2.3. Tiêu chuẩn liên tiếp t . . . . . . . . . . . . . . . . . . . . 45 1 3.2.4. Tiêu chuẩn liên tiếp t 2 (tiêu chuẩn hai phía) . . . . . . . 46 4 ƯỚC LƯỢNG LIÊN TIẾP 49 4.1 Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2 Tính đủ và hoàn toàn đầy đủ . . . . . . . . . . . . . . . . . . . 50 4.3 Cận dưới Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . 59 4.4 Quy trình hai bước . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4.1. Quy trình Stein cho ước lượng trung bình của một phân phối chuẩn với phương sai chưa biết . . . . . . . . . . . . 64 4.4.2. Quy trình ước lượng hiệu của hai trung bình . . . . . . . 68 4.4.3. Quy trình cho ước lượng trung bình chung . . . . . . . . 70 4.4.4. Khoảng tin cậy chiều dài cố định dựa trên SPRT . . . . 75 KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 2 Lời nói đầu Ngày nay đi cùng với sự phát triển của xã hội là sự gia tăng nhu cầu về việc ứng dụng các phương pháp thống kê toán để phân tích các số liệu thống kê thu được trong các lĩnh vực của khoa học tự nhiên, kinh tế và xã hội. Trong luận văn này tác giả sẽ trình bày về thống kê liên tiếp, được dùng để xử lí dữ liệu khi số lượng các quan trắc là không cố định. Luận văn được chia thành bốn chương: Chương 1: Mở đầu. Chương này giới thiệu chung về phương pháp phân tích liên tiếp trong thống kê, đặc điểm cơ bản của phân tích liên tiếp, và ứng dụng của nó trong kiểm tra sản phẩm. Chương 2: Phân tích liên tiếp: kiểm định giả thiết đơn. Nội dung của chương này là sử dụng phân tích liên tiếp để kiểm định bài toán giả thiết đơn, đối thiết đơn. Đưa ra cách xây dựng tiêu chuẩn liên tiếp tỉ số xác suất (SPRT) và các ví dụ minh họa, chỉ ra tính hữu hạn, bị chặn của SPRT. Sau đó xét các hàm OC, hàm ASN, và đồng nhất thức cơ bản của Wald. Chương 3: Phân tích liên tiếp: kiểm định cho giả thiết hợp. Nội dung chương này là ứng dụng của SPRT trong kiểm định giả thiết hợp, đưa ra phương pháp hàm trọng lượng ( Phân phối tiên nghiệm ) để xây dựng một SPRT tối ưu và các ứng dụng của phương pháp hàm trọng lượng. Chương này cũng đưa ra các tiêu chuẩn liên tiếp t và t 2 và các tính chất của nó. Chương 4: Ước lượng liên tiếp. Chương này bao gồm các khái niệm cơ bản trong ước lượng liên tiếp, nghiên cứu tính đủ và đầy đủ, cận dưới Cramer - Rao, quy trình hai bước. Và cách xác định khoảng tin cậy độ dài cố định dựa trên SPRT. Luận văn này được thực hiện tại trường Đại Học Khoa Học Tự Nhiên - Đại Học Quốc Gia Hà Nội, dưới sự hướng dẫn nhiệt tình của GS.TSKH. Đặng Hùng Thắng. Thầy đã dành nhiều thời gian hướng dẫn cũng như giải đáp các thắc 3 mắc của tôi trong suốt quá trình làm luận văn. Tôi muốn bày tỏ lòng biết ơn sâu sắc đến thầy. Qua đây, tôi xin gửi tới quý thầy cô Khoa Toán-Cơ-Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, cũng như các thầy cô đã tham gia giảng dạy khóa cao học 2011- 2013, lời cảm ơn sâu sắc nhất đối với công lao dạy dỗ trong suốt quá trình học tập của tôi tại Nhà trường. Tôi xin cảm ơn gia đình, bạn bè và các bạn đồng nghiệp thân mến đã quan tâm, tạo điều kiện và cổ vũ, động viên tôi để tôi hoàn thành tốt nhiệm vụ của mình. Hà Nội, tháng 08 năm 2014 Tác giả luận văn Lê Thị Bích Ngọc 4 Chương 1 MỞ ĐẦU 1.1 Giới thiệu về phân tích liên tiếp Phân tích liên tiếp khác với các quy trình thống kê khác trong đó cỡ mẫu là không cố định trước. Người thí nghiệm chọn một dãy các quan sát (hoặc một số cố định các quan sát) ở một thời điểm và quyết định xem: ngừng lấy mẫu và đưa ra một quyết định hoặc là tiếp tục lấy mẫu và đưa ra quyết định sau. Những bài toán ra quyết định mà trong đó người thí nghiệm có thể liên tục thay đổi phương pháp xử lí thì sẽ ở mức khó hơn, và gọi là bài toán thiết kế liên tiếp. Chẳng hạn xét bài toán sau Bài toán 1.1: Nếu ta muốn so sánh vài loại thuốc khác nhau hoặc các phương pháp điều trị(như trong kiểm tra liên tiếp các loại thuốc ung thư)để biết có nên giảm một số loại thuốc ra khỏi giai đoạn đầu của cuộc thử nghiệm, nếu như kết quả những loại thuốc này là kém hơn so với các loại thuốc khác Vậy một nét đặc trưng cơ bản của phân tích liên tiếp đó là số quan sát cần tìm để kết thúc thí nghiệm là một biến ngẫu nhiên. Vì nó phụ thuộc vào kết quả của các quan sát. Phương pháp liên tiếp giúp ta có thể đưa ra dự đoán sớm hơn là dùng phương pháp cỡ mẫu cố định. Trong thí nghiệm liên tiếp ta cần xác định: 1 . Kích cỡ mẫu ban đầu. 5 2 . Một quy tắc cho sự kết thúc thí nghiệm. 3 . Số lượng các quan sát được làm thêm nếu thí nghiệm tiếp tục. 4 . Một quy tắc quyết định cuối cùng. Trong những thí nghiệm này chỉ có số lượng các quan sát là phụ thuộc liên tiếp, đòi hỏi định lý đơn giản và sẽ áp dụng chung, hơn nữa trong bài toán thiết kế liên tiếp không chỉ có số phép thử mà cả số phương pháp xử lí cũng phụ thuộc liên tiếp. Nếu thí nghiệm vẫn tiếp tục cho đến khi chúng ta quan sát X 1 , . . . , X n , một tiêu chuẩn liên tiếp là hoàn toàn xác định bởi các tập rời nhau R 0 m , R 1 m và R c m ∈ R n - không gian Euclid m chiều với m = 1,2 nếu X 1 , . . . , X n phụ thuộc vào R 0 m , ta chấp nhận giả thiết H, bác bỏ H khi nó phụ thuộc vào R 1 m . Và ta tiếp tục lấy mẫu nếu nó nằm trong R c m . Bởi vì các tập trên là rời nhau và hợp của chúng là R m suy ra chỉ cần xác định hai tập bất kì trong ba tập đó. Vấn đề cơ bản là lựa chọn một tập thích hợp trong hai tập này. Tiêu chuẩn lựa chọn tập được quyết định bởi đặc trưng sử dụng(OC) và cỡ mẫu trung bình(ASN), những hàm này sẽ được xây dựng như sau: Giả sử rằng hàm phân bố cơ bản là được chỉ ra bởi một tham số giá trị thực và giả sử các nhà thống kê có thể lựa chọn giữa hai giả thiết H 0 và H 1 . Hàm OC(θ) là xác suất chấp nhận H 0 . khi θ là giá trị thực của tham số. Với mong muốn rằng hàm OC phải là các giá trị cao của θ sao cho phù hợp với H 0 và giá trị thấp của θ sao cho phù hợp với H 1 . Ví dụ người ta có thể yêu cầu OC(θ) ≥ 1−α, ∀θ ∈ H 0 và OC(θ) ≤ β, ∀θ ∈ H 1 , trong đó α và β là các xác suất phạm sai lầm. Một tiêu chuẩn liên tiếp S được gọi là chấp nhận được nếu hàm OC của nó thỏa mãn tiêu chuẩn trên. Như đã nói ở trên số lượng các quan sát cần tìm trong phân tích liên tiếp là một biến ngẫu nhiên và quan trọng hơn là giá trị kì vọng của nó khi θ là một tham số giá trị thực. Giá trị kì vọng này là hàm điển hình của θ và được gọi là hàm ASN(hàm cỡ mẫu trung bình). Với mong muốn có một hàm ASN nhỏ với α, β cho trước, và cỡ mẫu dự kiến là nhỏ hơn so với quy trình cỡ mẫu cố định. Cho ν(θ|D) là kí hiệu của cỡ mẫu kì vọng của quy trình D khi θ là giá trị thực. Nếu D 0 là chấp nhận được và ν(θ|D) = Min D ν(θ|D) khi đó D 0 được xem là một tiêu chuẩn tốt đều nhất . Tuy nhiên, nói chung là không tồn tại tiêu chuẩn 6 tốt đều nhất. Tiêu chuẩn này có thể tìm thấy trong một phân tích liên tiếp tối ưu, khi H 0 và H 1 là những giả thiết đơn. Phép kiểm định theo tỉ số xác suất liên tiếp của Wald cho ASN nhỏ nhất với cả hai H 0 và H 1 . Hiệu quả của quy trình D tại θ được xác định bằng tỉ lệ số lượng mẫu dự kiến nhỏ nhất của D tại θ với số lượng mẫu dự kiến của D tại θ. Wald’s SPRT có hiệu quả bằng 1 với cả hai giả thiết H 0 và H 1 . 1.2 Thí dụ: Kiểm tra sản phẩm Phân tích liên tiếp sớm nhất là phương pháp lấy mẫu đôi của Dodge và Romig trong kiểm tra chất lượng sản phẩm. Lấy n sản phẩm và bác bỏ mẫu này nếu như số lượng phế phẩm trong mẫu ≥ c (và chấp nhận nếu < c ). Một phương pháp khác đó là : lấy mỗi sản phẩm một cách riêng biệt tại các thời điểm khác nhau, bác bỏ những mẫu mà số lượng phế phẩm trong mẫu ≥ c, và chấp nhận những mẫu mà số lượng thành phẩm trong mẫu ≥ n −c + 1, cỡ mẫu cần thiết ít nhất là c và nhiều nhất là n. Phương pháp này gọi là kiểm tra rút ngắn. 1.2.1. Phân phối cỡ mẫu Kí hiệu N là cỡ mẫu ngẫu nhiên cần thiết để kết thúc thí nghiệm, khi đó: P θ (N = c và bác bỏ H 0 ) = θ c (1.1) P θ (N = c + r và bác bỏ H 0 ) =  c + r − 1 c −1  θ c (1 −θ) r (1.2) với r = 1, 2, n − c P θ (N = n −c + 1 + s và chấp nhận H 0 ) =  n −c + s s  θ s (1 −θ) n−c+1 (1.3) với s = 0, 1, c − 1 bây giờ : E θ (N) = n  m=1 mP m trong đó P m là xác suất mà một quyết định đạt được tại lần thử thứ m. 7 Kí hiệu : P (N = m| bác bỏ H 0 ) = 0 với m < c và P (N = m| chấp nhận H 0 ) = 0 với m < n − c + 1 hơn nữa: P m = P 0 (bác bỏ tại giai đoạn m) + P (chấp nhận tại giai đoạn m, m ≥ c) =  m −1 c −1  θ c (1 −θ) m−c +  m −1 n −c  (1 −θ) n−c+1 θ m−(n−c+1) (1.4) Do đó: E θ (N) =c θ c n  m=1  m c  (1 −θ) m−c + (n − c + 1) (1 − θ) n−c+1 n  m=n−c+1  m n −c + 1  θ m−(n−c+1) (1.5) =c θ c n=c  r=0  r + c c  (1 −θ) r + (n − c + 1) (1 − θ) n−c+1 c−1  r=0  n −c + 1 + r r  θ r (1.6) Người ta thường ưa dùng kế hoạch lấy mẫu rút ngắn hơn là kế hoạch lấy mẫu đơn tương đương bởi vì E(N|θ)của kế hoạch lấy mẫu rút ngắn là nhỏ hơn cỡ mẫu của kế hoạch lấy mẫu đơn. Xét trường hợp c = 1: E (N|θ) = θ n−1  r=0 (r + 1) (1 − θ) r + n (1 − θ) n = (1 −y) n−1  r=0 (r + 1) y r + ny r , y = 1 −θ = n−1  r=0 (r + 1) y r − n  j=1 jy j + ny n = n−1  r=0 (r + 1) y r − n−1  j=0 jy j = n−1  r=0 y r = 1 −y n 1 −y (1.7) 8 E (N|θ) tăng với y do đó E (N|θ) giảm với θ khi c = 1. Tuy nhiên điều này không đúng với c > 1. Cho P 1 (θ) = P (chấp nhận mẫu sử dụng quy trình mẫu cố định|θ) = c−1  r=0  n r  θ r (1 −θ) n−r (1.8) và P 2 (θ) = P (chấp nhận mẫu sử dụng luật liên tiếp|θ) = n  m=n−c+1 P (chấp nhận mẫu vàN = m|θ) = n  m=n−c+1  m −1 n −c  θ m−1−(n−c) (1 −θ) n−c (1 −θ) = (1 −θ) n−c+1 n−1  r=n−c  r n −c  θ r−(n−c) = (1 −θ) n−c+1 c−1  r=0  r + n − c r  θ r (1.9) Khi đó chúng ta có bổ đề sau: Bổ đề 1.2.1. P 1 (θ) = P 2 (θ) ∀ n,c Chứng minh. cho c=1,P 1 (θ) = P 2 (θ) = (1 −θ) n cho c = 2,P 1 (θ) = P 2 (θ) = (1 −θ) n + nθ(1 −θ) n−1 Giả sử đúng với mọi c và xét trường hợp c + 1 giả sử c−1  k=0  n k  θ k (1 −θ) n−k = (1 −θ) n−c+1 c−1  r=0  r + n − c r  θ r (1.10) ta cần chứng minh: c−1  k=0  n k  θ k (1 −θ) n−k = (1 −θ) n−c c  r=0  r + n − c − 1 r  θ r (1.11) 9 trừ (1.11) cho (1.10), sau đó chia cả 2 vế cho (1 − θ) n−c ta được:  n c  θ c = c  r=0  r + n − c − 1 r  θ r − (1 − θ) c−1  r=0  r + n − c r  ⇔  n c  θ c =  n −1 c  θ c + c−1  r=0  r + n − c − 1 r  −  r + n − c r  θ r + θ r+1 c−1  r=0  r + n − c r  ⇔  n c  −  n −1 c  θ c = c−1  r=0  r + n − c − 1 r  −  r + n − c r  θ r = c−1  r=0  r + n − c r  θ r+1 ⇔  n −1 c −1  θ c = − c−1  r=0  r + n − c − 1 r − 1  θ r + c  s=1  s + n −c −1 s −1  θ s ⇔ 0 = − c−1  r=0  r + n − c − 1 r − 1  θ r + c−1  s=1  s + n −c −1 s −1  θ s Điều này luôn đúng. 10 [...]... tiến một trong số chúng Cho X1 , X2 , là dãy biến ngẫu nhiên độc lập, cùng phân phối Các biến ngẫu nhiên có hàm mật độ f (nó có thể được chỉ ra bởi tham số θ) Xét tiêu chuẩn liên tiếp cho α (hoặc β) là xác suất phạm sai lầm khi: f = f0 (hoặc f1 ) N là thời điểm dừng của tiêu chuẩn liên tiếp Định lí 2.6.2 Cho tiêu chuẩn liên tiếp kết thúc với xác suất 1 dưới mỗi f0 , f1 , f2 Giả sử rằng E2 (N ) < ∞... đếm được của SPRT và nếu hệ số góc là vô tỉ thì là một số không đếm được 2.2 SPRT: Kết thúc hữu hạn và bị chặn Lý do ta dùng một phân tích liên tiếp đó là : ta có thể kết thúc thí nghiệm sớm hơn là dùng quy trình cỡ mẫu cố định Khi đó chúng ta cần đảm bảo rằng quy trình liên tiếp sẽ kết thúc hữu hạn với xác suất 1 Ta có kết quả của Stein(1946) và Wald(1947) Định lí 2.2.1 Cho Z = ln f (X,θ1 ) f (X,θ0... c > 0 Và G(z) là hàm phân phối của Z Trường hợp đặc biệt 1: Nếu Z là phân phối chuẩn với giá trị trung bình µ, Var Z = σ 2 khi đó ta có thể đặt c = 2/3 và k = 2σ − µ Trường hợp đặc biệt 2: Nếu Z là một phân phối mũ bình phương tiêu chuẩn (standard double exponential distribution), khi đó ta có thể đặt: c = 1, k = 1 Tiếp theo xét cận dưới cho ASN cần tìm, bởi một tiêu chuẩn liên tiếp bất kỳ Cho X1 ,...Chương 2 PHÂN TÍCH LIÊN TIẾP: KIỂM ĐỊNH GIẢ THIẾT ĐƠN 2.1 Tiêu chuẩn liên tiếp tỉ số xác suất(SPRT) Neyman và Pearson (1933) đã cung cấp một phương pháp xây dựng tiêu chuẩn mạnh nhất để kiểm định giả thiết đơn, đối thiết đơn Giả sử ta có hàm... (2.20) 388,3 187,0 111,1 46,6 17,8 34 Chương 3 PHÂN TÍCH LIÊN TIẾP: KIỂM ĐỊNH CHO GIẢ THIẾT HỢP 3.1 Phương pháp hàm trọng lượng Cho f (x; θ) là hàm mật độ xác suất của X, được biểu thị bởi tham số θ chưa biết Nhìn chung, ta muốn kiểm định giả thiết hợp H0 : θ ∈ ω0 |H1 : θ ∈ ω1 Kí hiệu S1 là biên của ω1 Wald(1947)đã đưa ra một phương pháp của "hàm trọng lượng" (phân phối tiên nghiệm) như một phương tiện... (2/5) 1 − (2/5) và bảng sau: h -1 0 1 ∞ θ 1 0,8 0,661 0,5 0 OC 2.4 −∞ 0 0,01 0,5 0,99 1 Số trung bình mẫu Cỡ mẫu cần thiết để quyết định kế hoạch lấy mẫu liên tiếp hoặc lấy mẫu đôi là một biến ngẫu nhiên N Sự phân phối của biến ngẫu nhiên này phụ thuộc vào phân phối thực của các quan sát trong suốt quá trình lấy mẫu Đặc biệt, ta quan tâm đến ước lượng E(N), cỡ mẫu trung bình (ASN) Trong mục (2.2) đã chỉ... K và chấp nhận H0 nếu Λn < K.Với K được xác định bởi mức ý nghĩa 11 Wald đưa ra tiêu chuẩn liên tiếp tỉ số xác suất: chọn hai hằng số A, B sao cho: 0 < B < A 0, θ > 0 ta muốn kiểm định: H0 : θ = θ0 |H1 :... D là ký hiệu của một phế phẩm và G là một thành phẩm Miền tiếp tục lấy mẫu là: n ln(5/2) n ln(5/2) −1 θ0 ) xác định bởi hai hằng số A và B n−m θm (1 − θ1 ) Λn = 1 n−m m θ0 (1 − θ0 ) Sau n quan sát ta tiếp tục lấy mẫu nếu: n−m m θ1 (1 − θ1 ) B< m n−m < A θ0 . không cố định. Luận văn được chia thành bốn chương: Chương 1: Mở đầu. Chương này giới thiệu chung về phương pháp phân tích liên tiếp trong thống kê, đặc điểm cơ bản của phân tích liên tiếp, và ứng. Phân tích liên tiếp: kiểm định giả thiết đơn. Nội dung của chương này là sử dụng phân tích liên tiếp để kiểm định bài toán giả thiết đơn, đối thiết đơn. Đưa ra cách xây dựng tiêu chuẩn liên tiếp. vụ của mình. Hà Nội, tháng 08 năm 2014 Tác giả luận văn Lê Thị Bích Ngọc 4 Chương 1 MỞ ĐẦU 1.1 Giới thiệu về phân tích liên tiếp Phân tích liên tiếp khác với các quy trình thống kê khác trong

Định dạng
Số trang	83
Dung lượng	476,79 KB