1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu

99 69 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các Phương Pháp Lấy Mẫu Và Xử Lý Mẫu
Tác giả Mai Thị Hương
Người hướng dẫn PGS. TS. Đào Hữu Hồ
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Lý Thuyết Xác Suất Và Thống Kê Toán Học
Thể loại luận văn thạc sĩ
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 99
Dung lượng 644,49 KB

Cấu trúc

  • Lời nói đầu

  • Mẫu ngẫu nhiên đơn giản từ một lô hữu hạn phần tử

    • Định nghĩa và ký hiệu

    • Tính chất của ước lượng

    • Phương sai của ước lượng

    • Ước lượng sai số tiêu chuẩn từ một mẫu

    • Giới hạn tin cậy

    • Mẫu ngẫu nhiên có hoàn lại

    • Ước lượng tỷ số

    • Tỷ lệ mẫu

    • Ưu điểm và nhược điểm của lấy mẫu ngẫu nhiên đơn giản

  • Lấy mẫu ngẫu nhiên phân tầng và lấy mẫu hệ thống

    • Lấy mẫu ngẫu nhiên phân tầng

      • Tính chất ước lượng

      • Phương sai ước lượng và giới hạn tin cậy

      • Số lượng tối ưu

      • Độ chính xác tương đối giữa mẫu ngẫu nhiên phân tầng và mẫu ngẫu nhiên đơn giản

      • Ước lượng cỡ mẫu với số liệu liên tục

      • Ước lượng mẫu cho tỷ lệ trong mẫu phân tầng

      • Hiệu quả của độ lệch từ số lượng tối ưu

      • Hiệu quả của sai số theo cỡ tầng

      • Ưu điểm và nhược điểm của mẫu ngẫu nhiên phân tầng

    • Mẫu hệ thống

      • Mô tả

      • Phương sai của trung bình ước lượng

  • Mẫu chùm

    • Mẫu chùm với các chùm cùng cỡ

    • Mẫu chùm với các chùm không cùng cỡ

      • Mẫu ngẫu nhiên đơn giản của các chùm: Ước lượng không chệch

      • Mẫu ngẫu nhiên đơn giản của các chùm: Ước lượng dạng tỷ số

      • Lấy mẫu với xác suất tỷ lệ theo cỡ chùm

  • Phương pháp lấy mẫu con và lấy mẫu cặp

    • Lấy mẫu con với các tập có cùng cỡ

      • Lấy mẫu hai giai đoạn

      • Trung bình và phương sai trong lấy mẫu hai giai đoạn

      • Phương sai của trung bình ước lượng trong lấy mẫu hai giai đoạn

      • Ước lượng mẫu của phương sai

      • Ước lượng tỷ lệ

      • Cỡ mẫu tối ưu và mẫu con

      • Ước lượng của mopt từ cuộc khảo sát thí điểm

      • Kỹ thuật lấy mẫu ba giai đoạn

    • Lấy mẫu con với các tập không cùng cỡ

      • Các phương pháp lấy mẫu khi n=1

      • Phương pháp lấy mẫu khi n > 1

    • Kỹ thuật lấy mẫu cặp

      • Lấy mẫu cặp phân tầng

      • Số lượng tối ưu

      • Phương sai ước lượng trong lấy mẫu cặp phân tầng

      • Ước lượng hồi quy

      • Ước lượng phương sai trong lấy mẫu cặp hồi quy

  • Kết luận

  • Tài liệu tham khảo

Nội dung

Định nghĩa và ký hiệu

Lấy mẫu ngẫu nhiên đơn giản là phương pháp chọn ra n phần tử trong số

Trong một tập hợp N phần tử, mỗi mẫu trong C N n mẫu phân biệt đều có khả năng được chọn ra như nhau Các phần tử trong tổng thể được đánh số từ 1 đến N Do đó, dãy số ngẫu nhiên từ 1 đến N có thể được rút ra từ bảng số ngẫu nhiên hoặc từ một chương trình máy tính tạo ra bảng số này.

Tất cả các mẫu phân biệt C N n đều có khả năng được chọn ra theo phương pháp này Cụ thể, khi xem xét một mẫu gồm n phần tử đã được xác định, xác suất để một phần tử nào đó trong số n phần tử đó được chọn ở lần rút đầu tiên là 1/n.

N Ở lần rút thứ hai xác suất để phần tử nào đó trong (n−1) phần tử ấn định còn lại được rút ra sẽ là n−1

N −1, Do đó xác suất để tất cả n phần tử ấn định được lựa chọn sau n lần rút sẽ là n

C N n Bởi vì các phần tử đã được rút ra sẽ không trả lại tổng thể nên phương pháp này được gọi là lấy mẫu ngẫu nhiên không hoàn lại.

Lấy mẫu ngẫu nhiên có hoàn lại là phương pháp trong đó các phần tử được rút ra sẽ được trả lại tổng thể trước khi thực hiện lần rút tiếp theo Điều này đảm bảo rằng trong mỗi lần rút, tất cả các phần tử đều có khả năng được chọn như nhau, bất kể chúng đã được rút ra hay chưa Các công thức tính phương sai và ước lượng phương sai thường đơn giản hơn khi áp dụng cho lấy mẫu có hoàn lại so với lấy mẫu không hoàn lại Chính vì lý do này, lấy mẫu có hoàn lại thường được sử dụng trong các phương pháp lấy mẫu phức tạp hơn so với lấy mẫu không hoàn lại.

Trong nghiên cứu mẫu, chúng ta chú trọng vào việc đo lường và ghi lại các tính chất hoặc đặc trưng của từng phần tử được chọn Các giá trị của một đặc trưng cụ thể trong N phần tử của tổng thể được ký hiệu là y₁, y₂, , yN Tương ứng, các giá trị của các phần tử trong mẫu được ký hiệu là y₁, y₂, , yn.

1 y i n Trong mục này ta sẽ quan tâm đến ước lượng của ba đại lượng: trung bình tổng thể Y¯

, tổng của tổng thể (Y) và tỷ số của 2 tổng hoặc 2 trung bình tổng thể

Để đơn giản hóa, chúng ta gọi các đặc trưng tổng thể là đặc trưng lý thuyết và sử dụng ký hiệu “ˆ” để chỉ ước lượng của đặc trưng tổng thể từ mẫu Trung bình lý thuyết được ký hiệu là Y¯ và được ước lượng từ trung bình mẫu ¯y.

Tính chất của ước lượng

Trong luận văn này, phương pháp ước lượng được xem là vững khi giá trị ước lượng trùng khớp với giá trị tổng thể khi kích thước mẫu n bằng N, tức là khi mẫu bao gồm toàn bộ tổng thể.

Mẫu ngẫu nhiên đơn giản y¯ và Ny¯ tương ứng cung cấp ước lượng vững cho trung bình lý thuyết và tổng lý thuyết Một phương pháp ước lượng được coi là không chệch nếu giá trị trung bình của ước lượng từ tất cả các mẫu có thể bằng chính xác giá trị tổng thể chân thực Ký hiệu E được sử dụng để đại diện cho trung bình trên tất cả các mẫu có thể Theo định lý 1.1, trung bình mẫu y¯ là ước lượng không chệch cho Y¯.

Chứng minh Theo định nghĩa ta có:

Công thức P(y 1 +y 2 + +y n ) n[N!/n! (N −n)!] được sử dụng để ước lượng tổng của tất cả các mẫu C N n Để xác định số lượng mẫu có giá trị y i cụ thể, cần lưu ý rằng có (N −1) phần tử khác nhau cho tất cả các phần tử còn lại và (n−1) vị trí khác để lấp đầy mẫu.

N = ¯Y Định lý được chứng minh.

Hệ quả 1.2 Yb =Ny¯ là ước lượng không chệch của tổng lý thuyết Y.

Phương sai của ước lượng

Phương sai của y i trong một tổng thể hữu hạn thường được xác định như sau: σ 2 N

N −1 (1.3) Định lý 1.3 Phương sai của trung bình mẫu y¯ là

N = S 2 n (1−f), (1.4) trong đó f = n/N là tỷ suất lấy mẫu.

Sử dụng cách chứng minh đối xứng đã sử dụng, ta suy ra rằng:

Trong (1.7), các tổng của các tích được tính từ tất cả các cặp phần tử trong mẫu và tổng thể tương ứng Tổng bên trái có n(n−1)/2 số hạng, trong khi tổng bên phải có N(N − 1)/2 số hạng Bằng cách bình phương (1.5) và lấy trung bình trên toàn bộ mẫu ngẫu nhiên đơn giản, ta sử dụng (1.6) và (1.7) để thu được n^2 E(ȳ−Ȳ)^2.

Số hạng thứ 2 có giá trị bằng 0 vì

1 y i = NY¯ Chia cho n 2 ta được:

N Định lý được chứng minh.

Hệ quả 1.4 Sai số của tiêu chuẩn y¯ là σ y ¯ = S

Hệ quả 1.5 Phương sai của Yb = Ny¯ là

Hệ quả 1.6 Sai số tiêu chuẩn của Yb là σ Y ˆ = N S

Đối với mẫu ngẫu nhiên đơn giản có kích thước n từ một tổng thể vô hạn, ta biết rằng DX¯ = σ²/n Tuy nhiên, khi tổng thể có số lượng phần tử hữu hạn, cần phải điều chỉnh công thức này bằng cách thêm vào một thừa số N - n.

N đối với phương sai và rN −n

Sự hiệu chỉnh lô hữu hạn liên quan đến sai số tiêu chuẩn Theo Định lý 1.8, nếu y i và x i là cặp biến xác định cho từng phần tử trong tổng thể, cùng với ȳ và x̄ là trung bình tương ứng của mẫu ngẫu nhiên đơn giản kích thước n, thì covarian giữa chúng có thể được tính toán.

Nếu y i = x i trong mọi thành phần thì ta thu được định lý 1.3.

Chứng minh Áp dụng định lý 1.3 cho biến u i = y i +x i , trung bình lý thuyết của u i là U¯ = ¯Y + ¯X, ta được:

Khai triển các số hạng bình phương trong cả 2 vế, áp dụng định lý 1.3, ta có:

Do đó 2 số hạng này triệt tiêu ở vế trái và vế phải của (1.12) Điều này dẫn đến kết quả của định lý (hệ thức (1.11)).

Ước lượng sai số tiêu chuẩn từ một mẫu

Định lý 1.9 Với mẫu ngẫu nhiên đơn giản, s 2 n

(y i −y)¯ 2 n−1 là ước lượng không chệch của S 2 N

N −1 Chứng minh Ta có thể viết s 2 = 1 n−1 n

Lấy trung bình trên toàn bộ các mẫu ngẫu nhiên đơn giản cỡ n Bằng cách chứng minh đối xứng sử dụng trong định lý 1.3 và áp dụng (1.6) dẫn đến

N S 2 , (theo định nghĩa của S 2 ) Hơn nữa, sử dụng định lý 1.3, ta được:

= S 2 (n−1)N [n(N −1)−(N −n)] =S 2 Định lý được chứng minh.

Hệ quả 1.10 Ước lượng không chệch của phương sai của y¯ và Yb = Ny¯ là v(¯y) = s 2 y ¯ = s 2 n

= N 2 s 2 n (1−f). Với sai số tiêu chuẩn ta có s y ¯ = s

Xin lưu ý ký hiệu được dùng để chỉ phương sai thực và phương sai ước lượng của ước lượng Chẳng hạn với y¯ ta viết

Giới hạn tin cậy

Giả sử các ước lượng y¯ và Yb tuân theo phân phối chuẩn với các giá trị tổng thể tương ứng, giới hạn tin cậy cho trung bình lý thuyết và tổng lý thuyết được xác định như sau: Trung bình.

2 là giá trị của độ lệch chuẩn tương ứng với xác suất tin cậy

Nếu cỡ mẫu nhỏ hơn 50, các giá trị uα

Có thể lấy giá trị từ bảng phân phối Student t với (n−1) bậc tự do, tương ứng với bậc tự do trong việc ước lượng phương sai s² Phân phối t được áp dụng chính xác khi các quan sát y i tuân theo phân phối chuẩn và số lượng mẫu N là vô hạn.

Mẫu ngẫu nhiên có hoàn lại

Khi lấy mẫu có hoàn lại, phần tử thứ i có thể xuất hiện từ 0 đến n lần trong mẫu Số lần xuất hiện của phần tử thứ i được ký hiệu là t i Do đó, giá trị trung bình ¯ y được tính bằng công thức 1/n.

Vì xác suất để phần tử thứ i được rút ra là 1

N trong mỗi lần rút nên biến t i có phân phối nhị thức của số lần thành công trong n phép thử với p = 1

(1.14) Đồng thời các biến t i lại tuân theo phân phối đa thức, nên:

Sử dụng (1.13),(1.14),(1.15) với mẫu ngẫu nhiên hoàn lại, ta có:

Ước lượng tỷ số

Tỷ lệ lý thuyết R được ước lượng bằng công thức Rˆ = y¯ ¯ x Theo định lý 1.11, nếu các biến y i và x i được đo trên mỗi phần tử của mẫu ngẫu nhiên đơn giản với kích thước n đủ lớn, thì sai số bình phương trung bình (MSE) và phương sai của Rˆ = y¯ ¯ x sẽ có xấp xỉ.

N −1 , (1.18) trong đó R = ¯YX¯ là tỷ số của các trung bình lý thuyết và f =n/N.

Khi n lớn, giá trị trung bình x¯ sẽ gần giống với X¯ Để đơn giản hóa việc xử lý phân phối tỷ số giữa hai biến ngẫu nhiên (¯y−R¯x) và x¯, chúng ta có thể thay thế x¯ bằng X¯ trong mẫu số của công thức (1.19) như một phương pháp xấp xỉ.

Lấy trung bình trên tất cả các mẫu ngẫu nhiên đơn giản cỡ n,

X¯ = 0, vì R = ¯YX¯ Chứng tỏ rằng Rb là ước lượng không chệch của R Từ (1.20) ta thu được kết quả sau:

X¯ 2 E(¯y−R¯x) 2 , (1.21) trong đó y¯− R¯x là trung bình mẫu của biến d i = y i − Rx i có trung bình lý thuyết D¯ = ¯Y −RX¯ = 0 Do đó ta có thể tìm V

Rˆ bằng việc áp dụng định lý 1.3 cho phương sai của trung bình của mẫu ngẫu nhiên đơn giản đối với biến d i và chia cho X¯ 2 , dẫn đến,

N −1 (1.23) Định lý đã được chứng minh.

Tỷ lệ mẫu

Đôi khi, chúng ta cần ước lượng tổng số, tỷ lệ hoặc phần trăm của các phần tử trong tổng thể có những đặc điểm hoặc thuộc tính nhất định Giả định rằng mỗi phần tử trong tổng thể thuộc về một trong hai lớp C và C0.

Số phần tử thuộc C của tổng thể là A.

Số phần tử thuộc C của mẫu là a.

Khi đó: Tỷ lệ lý thuyết các phần tử trong C là P = A

Tỷ lệ mẫu các phần tử trong tập C được biểu thị bằng p = a/n Ước lượng mẫu của P là p, trong khi ước lượng mẫu của A có thể được tính là Np hoặc Na/n Để đơn giản hóa, chúng ta áp dụng kết quả đã trình bày trước đó Đối với bất kỳ phần tử nào trong mẫu hoặc tổng thể, ta xác định y_i bằng 1 nếu phần tử đó thuộc tập C.

0 nếu nó trong C 0 Rõ ràng,

Ước lượng A và P là hai khái niệm quan trọng, đại diện cho ước lượng tổng và trung bình của tổng thể, trong đó mỗi giá trị y i có thể nhận giá trị 1 hoặc 0 Để áp dụng định lý đã nêu ở phần 1.1, trước tiên cần biểu diễn S 2 và s 2 thông qua các tham số P và p.

Áp dụng định lý 1.1, 1.3 và 1.9 cho tổng thể, ta có phương sai của các ước lượng mẫu p và Ab = Np đối với mẫu ngẫu nhiên đơn giản đã phân loại Theo định lý 1.12, tỷ lệ lấy mẫu p = a/n là ước lượng không chệch của tỷ lệ tổng thể P = A/N Định lý 1.13 cung cấp phương sai của p, cho thấy sự ổn định của ước lượng này trong nghiên cứu thống kê.

Hệ quả 1.14 Phương sai của Ab=N p (ước lượng cho tổng số các thành phần trong lớp C ) là

(1.27) Định lý 1.15 Ước lượng không chệch của phương sai của p v(p) = s 2 p = N −n

Chứng minh Theo hệ quả của định lý 1.9 chỉ ra rằng với biến y i ước lượng không chệch của phương sai của trung bình mẫu y¯ là v(¯y) = s 2 n

Với tỷ lệ, P thay thế cho y¯ , và trong (1.25) ta có s 2 = n n−1pq.

Hệ quả 1.16 Ước lượng không chệch của phương sai của Ab= N p , (ước lượng cho tổng số các phần tử thuộc C trong tổng thể) là v

Ưu điểm và nhược điểm của lấy mẫu ngẫu nhiên đơn giản

Mẫu xác suất là phương pháp lấy mẫu trong đó mọi phần tử trong lô đều có khả năng được chọn với xác suất đã được xác định một cách chính xác, trái ngược với mẫu không theo xác suất, nơi mà khả năng chọn lựa không được tính toán rõ ràng.

Để ước lượng tổng thu nhập của tất cả người trưởng thành trong một phố, ta cần thăm từng hộ gia đình và xác định tất cả người lớn đang sống tại đó Sau đó, từ mỗi hộ, ta chọn ngẫu nhiên một người lớn Việc này giúp tạo ra một mẫu đại diện cho toàn bộ dân số trưởng thành trong khu vực.

Trong quá trình phỏng vấn, chúng ta sẽ chọn người có số lớn nhất trong mỗi hộ gia đình Đối với những cá nhân sống độc thân, họ sẽ được chọn chắc chắn và thu nhập của họ sẽ được cộng vào ước lượng tổng Tuy nhiên, trong hộ gia đình có hai người lớn, chỉ một người sẽ được chọn, và thu nhập của người được chọn sẽ được tính gấp đôi trong tổng ước lượng.

Trong mẫu xác suất, không phải tất cả mọi người đều có xác suất chọn như nhau, mà xác suất của từng cá nhân đã được xác định Khi tất cả các phần tử trong lô đều có cùng xác suất chọn, chúng ta gọi đó là mẫu xác suất chọn như nhau.

Mẫu xác suất sẽ được dùng trong các loại lấy mẫu mà ta xét trong luận văn này.

Mẫu không xác suất là phương pháp lấy mẫu trong đó một số phần tử trong lô không có khả năng được chọn, hoặc xác suất chọn không được xác định chính xác Do tính chất không ngẫu nhiên của việc chọn lựa, mẫu không xác suất không cho phép ước lượng sai số lấy mẫu Ví dụ, khi phỏng vấn người đầu tiên trả lời ở cửa ra vào của từng nhà trong một phố, mẫu này trở thành không xác suất, vì người trả lời có thể không đại diện cho toàn bộ hộ gia đình Các loại mẫu không xác suất bao gồm mẫu tình cờ, mẫu hạn ngạch và mẫu chủ tâm.

Trở lại mẫu ngẫu nhiên đơn giản với kích thước đã xác định, mỗi phần tử trong mẫu sẽ có xác suất chọn bằng nhau, giúp giảm thiểu độ chệch và đơn giản hóa quá trình phân tích kết quả Đặc biệt, phương sai giữa các kết quả trong mẫu là chỉ số hữu ích để đánh giá phương sai của toàn bộ lô.

Mẫu ngẫu nhiên đơn giản có thể gây sai số mẫu do sự ngẫu nhiên trong việc lựa chọn không phản ánh cấu trúc của lô Ví dụ, một mẫu gồm 10 người từ một làng có thể dự kiến là 5 nam và 5 nữ, nhưng thực tế có thể chỉ chọn quá nhiều giới tính này và quá ít giới tính khác Để khắc phục vấn đề này, kỹ thuật lấy mẫu hệ thống và phân tầng sẽ được trình bày trong chương sau, giúp tạo ra mẫu có tính đại diện tốt hơn.

Mẫu ngẫu nhiên đơn giản có thể trở nên chậm chạp và kém hiệu quả khi lấy mẫu từ lô lớn, dẫn đến sự nhàm chán do độ dài của mẫu Để khắc phục tình trạng này, cần thiết phải chia lô thành các nhóm con Mẫu phân tầng sẽ giúp giải quyết những hạn chế của mẫu ngẫu nhiên đơn giản trong trường hợp này.

Mẫu ngẫu nhiên đơn giản luôn là mẫu với xác suất chọn như nhau, nhưng điều ngược lại không phải luôn đúng.

Lấy mẫu ngẫu nhiên phân tầng và lấy mẫu hệ thống

Lấy mẫu ngẫu nhiên phân tầng

Tính chất ước lượng

Để ước lượng cho trung bình tổng thể trong mẫu phân tầng ta dùng y st (st là viết tắt của stratified) y st L

W h y h với N = N 1 +N 2 + +N L Ước lượng y st nói chung không phải là trung bình mẫu y: y L

Hiển nhiên ta thấyy trùng với y st khi n h n = N h

N hoặc f h = f cho mọi h, cho thấy tỷ suất lấy mẫu đồng nhất trong tất cả các tầng Sự phân tầng này được mô tả là phân tầng với số lượng n h tỷ lệ.

Nó đưa đến một mẫu có trọng số riêng Nếu thực hiện ước lượng bằng số thì một mẫu có trọng số riêng sẽ tiết kiệm thời gian.

Các tính chất của ước lượng y st được trình bày qua các định lý, trong đó Định lý 2.1 khẳng định rằng nếu ước lượng mẫu y h không chệch trong mọi tầng, thì y st sẽ là ước lượng không chệch cho kỳ vọng lý thuyết Y.

W h Y h , vì ước lượng y h không chệch trong mọi tầng Mà

W h Y h Định lý được chứng minh. Định lý 2.2 Nếu các mẫu được thực hiện hoàn toàn độc lập trong các tầng khác nhau thì:

W h 2 V(y h ), (2.1) trong đó: V(y st ) là phương sai của y h trên những mẫu lặp từ tầng h.

W h y h , (2.2) y st là hàm tuyến tính của y h với trọng số cố định W h Áp dụng kết quả trong thống kê cho phương sai một hàm tuyến tính.

Do các mẫu xác định độc lập trong các tầng khác nhau, tất cả các số hạng hiệp phương sai đều triệt tiêu, dẫn đến kết quả như được nêu trong (2.1).

Định lý 2.1 và 2.2 khẳng định rằng nếu y h là ước lượng không chệch của Y h trong mọi tầng và việc lấy mẫu trong các tầng độc lập, thì y st sẽ là ước lượng không chệch của Y với phương sai xác định.

W h 2 V(y h ). Định lý 2.3 Với mẫu ngẫu nhiên phân tầng, phương sai của ước lượng y st ,

Chứng minh Theo định lý 1.3 áp dụng cho từng tầng riêng lẻ,

Vì y h là ước lượng không chệch của Y h nên thế vào kết quả của định lý 2.2, ta thu được:

W h 2 S h 2 n h (1−f h ). Chứng minh được hoàn thành.

Hệ quả 2.4 Nếu tỷ suất lấy mẫu n h /N h bỏ qua được trong tất cả các tầng thì

Hệ quả 2.5 Với số lượng tỷ lệ, ta thay n h = nN h

Hệ quả 2.6 Nếu mẫu là tỷ lệ và phương sai trong tất cả các tầng có giá trị giống nhau, S w 2 , ta thu được kết quả đơn giản sau:

(2.6) Định lý 2.7 Nếu Yˆ st = N y st là ước lượng của tổng lý thuyết Y, khi đó

N h (N h −n h )S h 2 n h (2.7) Điều này suy ra ngay từ định lý 2.3.

Bảng 2.1 trình bày số dân của 64 thành phố lớn tại Mỹ trong các năm 1920 và 1930 Dữ liệu được thu thập từ các thành phố xếp hạng từ 5 đến 68 dựa trên tổng số dân cư năm 1920.

Các thành phố được sắp xếp trong 2 tầng, tầng đầu tiên gồm 16 thành phố lớn nhất và tầng thứ hai gồm 48 thành phố còn lại.

Tổng số dân trong tất cả 64 thành phố trong năm 1930 được ước lượng từ một mẫu cỡ 24 Tìm sai số tiêu chuẩn của ước lượng tổng đối với:

1) Một mẫu ngẫu nhiên đơn giản.

2) Một mẫu ngẫu nhiên phân tầng với số lượng tỷ lệ.

3) Một mẫu ngẫu nhiên phân tầng với 12 phần tử được rút ra từ mỗi tầng.

Dưới đây là các tổng phân tầng và tổng bình phương, chỉ sử dụng số liệu năm 1930 cho ví dụ này Tổng thể đầy đủ trong năm 1930 cho thấy những thông tin quan trọng Số liệu năm 1920 sẽ được trình bày trong ví dụ tiếp theo.

Chú ý 2.9 Các thành phố được sắp xếp theo thứ tự giống nhau trong cả 2 năm.

Ba ước lượng của Y ký hiệu là: Yˆ ran , Yˆ prop và Yˆ equal

1 Với mẫu ngẫu nhiên đơn giản:

Từ hệ quả 1.6 của định lý 1.3 sai số tiêu chuẩn là: σ( ˆY ran ) = 2365.

2 Với các tầng riêng lẻ phương sai là: S 1 2 = 53.843, S 2 2 = 5581 (Để ý rằng tầng với các thành phố lớn nhất có phương sai gần gấp 10 lần tầng kia).

Trong số lượng tỷ lệ, ta có n 1 = 6, n 2 = 18 Từ (2.5), nhân với N 2 ta có:

3 Với n 1 = n 2 = 12 ta sử dụng công thức tổng quát (2.7):

Trong ví dụ này, việc sử dụng mẫu có cùng kích thước ở hai tầng là chính xác hơn so với mẫu số lượng tỷ lệ Cả hai phương pháp này đều hiệu quả hơn so với việc lấy mẫu ngẫu nhiên đơn giản.

Số dân năm 1920 (x hi ) Số dân năm 1930 (y hi )

Bảng 2.1: Số dân của 64 thành phố (đơn vị là 1000 người) trong năm 1920 và 1930.

Tổng và tổng bình phương

Phương sai ước lượng và giới hạn tin cậy

Nếu một mẫu ngẫu nhiên đơn giản được lấy từ mỗi tầng, ước lượng không chệch của S h 2 (từ định lý 1.9) là: s 2 h = 1 n h −1 n h

Do đó ta thu được định lý dưới đây. Định lý 2.10 Với mẫu ngẫu nhiên phân tầng, ước lượng không chệch của phương sai của y st là: v(y st ) = s 2 (y st ) = 1

(Số hạng thứ hai trong (2.9) là sự rút gọn nhờ sự hiệu chỉnh lô hữu hạn (fpc)).

Các công thức giới hạn tin cậy như sau:

Kỳ vọng lý thuyết: y st ±us(y st ) Tổng lý thuyết: N y st ±uN s(y st ).

Các công thức này cần giả thiết rằng y st có phân phối chuẩn và s(y st ) được xác định, u được lấy từ bảng phân phối chuẩn.

Số lượng tối ưu

Trong mẫu phân tầng giá trị, cỡ mẫu n h trong từng tầng được chọn bởi bộ lấy mẫu nhằm tối ưu hóa chi phí và phương sai Có hai cách tiếp cận: tối thiểu hóa phương sai V(y st ) với chi phí xác định hoặc tối thiểu hóa chi phí với phương sai xác định Hàm chi phí đơn giản nhất được biểu diễn dưới dạng: cost = C = c 0 + X c h n h, trong đó c h là chi phí trong tầng h và c 0 là chi phí cố định Định lý 2.11 chỉ ra rằng, trong mẫu ngẫu nhiên phân tầng với hàm chi phí tuyến tính, phương sai của trung bình ước lượng y st là nhỏ nhất với chi phí xác định C, và ngược lại, chi phí là nhỏ nhất với phương sai xác định V(y st ) Tỉ lệ n h tỷ lệ với W h S h /√ c h, cho thấy sự tương quan giữa cỡ mẫu, trọng số và độ biến thiên.

Bài toán đặt ra là lựa chọn n h để tối thiểu hóa V với C đã cho, hoặc chọn n h để tối thiểu hóa C với V đã cho Khi tách riêng các bước cuối cùng, hai bài toán này có chung một lời giải Việc chọn n h để tối thiểu hóa C với V cố định hoặc chọn C với V cố định tương đương với việc tối thiểu hóa tích.

Năm 1954, Stuart đã chỉ ra rằng (2.12) có thể đạt giá trị cực tiểu thông qua việc áp dụng bất đẳng thức Cauchy-Schwarz Nếu a h và b h là hai tập hợp thuộc tập số dương L, bất đẳng thức này được phát triển từ một đồng nhất thức.

(X a 2 h )(X b 2 h )≥(X a h b h ) 2 (2.14) Xảy ra dấu “=” khi và chỉ khi b h /a h là hằng số với mọi h Trong (2.12) cho: a h = W h S h

Từ bất đẳng thức (2.14) đưa đến

Do đó, không thể chọn được n h làm V 0 C 0 nhỏ hơn (P

W h S h √ c h ) 2 Giá trị nhỏ nhất đạt được khi: b h a h = n h √ c h

W h S h = const, như trong định lý.

Trong ngôn ngữ của cỡ mẫu n h trong tầng, ta có: n h n = W h S h /√ c h

Hệ thức (2.16) xác định n phụ thuộc vào các yếu tố như tổng phí tổn C hoặc phương sai V Nếu phí tổn là cố định, ta có thể thay thế giá trị tối ưu của n h vào hàm phí tổn (2.10) để giải n, dẫn đến công thức: n = (C − c0)P.

Nếu V cố định, thay thế giá trị tối ưu n h trong công thức cho V(y st ) Ta thấy: n= (P

W h S h 2 , (2.18) trong đó: W h = N h /N. Định lý 2.12 Trong mẫu ngẫu nhiên phân tầng V(y st ) nhỏ nhất với tổng cỡ mẫu n cố định nếu: n h =n W h S h

Sự phân bổ này được gọi là phân bổ Neyman.

Công thức cho phương sai nhỏ nhất với n cố định thu được bằng phép thế giá trị của n h trong (2.19) vào công thức tổng quát của V(y st ) Kết quả là:

(Số hạng thứ hai ở vế phải chính là sự hiệu chỉnh lô hữu hạn).

Độ chính xác tương đối giữa mẫu ngẫu nhiên phân tầng và mẫu ngẫu nhiên đơn giản

tầng và mẫu ngẫu nhiên đơn giản

Đối với ước lượng trung bình, mẫu phân tầng thường mang lại phương sai nhỏ hơn so với mẫu ngẫu nhiên đơn giản Tuy nhiên, nếu kích thước mẫu n h không đạt giá trị tối ưu, thì ước lượng từ mẫu phân tầng có thể dẫn đến phương sai cao hơn.

Ký hiệu phương sai của các trung bình ước lượng tương ứng là V ran, V prop và V opt cho các mẫu ngẫu nhiên đơn giản, mẫu ngẫu nhiên phân tầng với số lượng tỷ lệ và mẫu ngẫu nhiên phân tầng với số lượng tối ưu Theo định lý 2.13, nếu số hạng 1/N h có thể được bỏ qua, nghĩa là nó khá nhỏ so với các số hạng khác, thì điều này có thể được xem xét trong các phân tích thống kê.

V opt ≤V prop ≤V ran , trong đó số lượng tối ưu là ứng với n cố định, tức là n h ∝ N h S h

Từ các đẳng thức đại số cơ bản đối với phân tích phương sai của tổng thể phân tầng, ta có:

Nếu các số hạng 1/N h bỏ qua được và do đó 1/N bỏ qua được, (2.23) đưa đến

Theo định nghĩa của V opt , ta phải có V prop ≥ V opt Từ (2.21) và (2.22) độ chênh lệch là

W h S h là trung bình có trọng số của S h

Từ (2.24) và (2.25) với các thành phần 1/N h bỏ qua được.

Trong hệ thức (2.26), phương sai giảm khi chuyển từ mẫu ngẫu nhiên đơn giản sang mẫu tối ưu, nhờ vào hai thành phần chính Thành phần đầu tiên liên quan đến giới hạn độ lệch giữa các trung bình tầng, trong khi thành phần thứ hai thể hiện ảnh hưởng của độ lệch giữa các độ lệch tiêu chuẩn tầng Đặc biệt, thành phần thứ hai cho thấy sự khác biệt về phương sai giữa số lượng tối ưu và số lượng tỷ lệ Nếu không thể bỏ qua các số hạng 1/N h, việc thay thế S² từ (2.23) sẽ dẫn đến kết quả đáng chú ý.

(thay cho (2.24)) Điều đó suy ra rằng phân tầng tỷ lệ cho phương sai lớn hơn mẫu ngẫu nhiên đơn giản nếu:

Giả thiết rằng tất cảS h 2 bằng S w 2 , sao cho số lượng tỷ lệ là tối ưu theo nghĩa Neyman Khi đó (2.27) trở thành

Kết quả từ phân tích phương sai cho thấy mối quan hệ ẩn giữa các tầng, trong đó trung bình bình phương giữa các tầng nhỏ hơn trung bình bình phương bên trong tầng, dẫn đến tỷ số F nhỏ hơn 1.

Ước lượng cỡ mẫu với số liệu liên tục

Trong phần này, chúng ta sẽ xác định cỡ mẫu n cho một số trường hợp đặc biệt, với giả thiết rằng phương sai ước lượng được xác định là V Chúng ta sẽ tập trung vào ước lượng của trung bình lý thuyết Y.

Giả sửs h là ước lượng của S h và n h = w h n, ở đów h đã cho,V(y st ) (từ định lý 2.3) là:

XW h s 2 h , với W h = N h /N Điều này đưa đến công thức tổng quát cho n: nPW h 2 s 2 h w h

Nếu sự hiệu chỉnh lô hữu hạn (fpc) bỏ qua được, ta có xấp xỉ sau: n 0 = 1 V

X W h 2 s 2 h w h Nếu n 0 /N không bỏ qua được, ta có thể tính n như sau: n = n 0

Số lượng tối ưu theo giả thiết (với n cố định): w h ∝W h s h n= (P

Số lượng tỷ lệ: w h = W h =N h /N. n 0 PW h s 2 h

1 + n 0 N Ước lượng tổng lý thuyết:

Nếu V( ˆY st ) là V, các công thức được cho như sau:

Tối ưu theo giả thiết (với n cố định): n= (PN h s h ) 2

Bài báo của Cornell (1947) mô tả một mẫu gồm 196 trường sư phạm tại Mỹ vào năm 1946, nhằm ước lượng tuyển sinh cho năm học 1946 - 1947 Các trường được phân loại thành 7 tầng, trong đó có 1 tầng nhỏ bị bỏ qua; năm tầng đầu tiên sắp xếp theo cỡ trường, và tầng thứ 6 chỉ gồm các trường nữ Ước lượng s h của S h được tính từ dữ liệu năm học 1943 - 1944, với tổng số tuyển sinh là 56.472 Hệ số biến thiên 5% dẫn đến sai số tiêu chuẩn dự kiến là 2.824, và từ đó, phương sai dự kiến cũng được xác định.

Bảng 2.2 trình bày các giá trị đã biết của N h, s h và N h s h trước khi xác định n Công thức xấp xỉ cho n được biểu diễn qua (2.29) Với chỉ 196 phần tử trong tổng thể, việc bỏ qua điều chỉnh lô hữu hạn (fpc) là không chắc chắn Tuy nhiên, để minh họa, xấp xỉ đầu tiên sẽ không tính đến fpc, dẫn đến n 0 = (PN h s h ) 2.

Với n xác định chính xác như (2.29), ta có: n = n 0

Cỡ mẫu 56 đã được chọn Các n h đối với các tầng cụ thể được chỉ ra ở cột cuối cùng của bảng 2.2.

Bảng 2.2: Số liệu cho ước lượng cỡ mẫu

Ước lượng mẫu cho tỷ lệ trong mẫu phân tầng

Để ước lượng tỷ lệ các phần tử trong tổng thể nghiên cứu thuộc lớp C, việc phân tầng lý tưởng là cần thiết Điều này có thể đạt được bằng cách đưa tất cả các phần tử thuộc lớp C vào tầng đầu tiên và các phần tử không thuộc lớp C vào tầng thứ hai Mục tiêu là xây dựng các tầng sao cho tỷ lệ trong lớp được phản ánh chính xác.

C thay đổi nhiều nhất có thể khi từ tầng này sang tầng khác.

Giả sử A h : số các phần tử thuộc lớp C trong tầng thứ h, a h : số phần tử trong mẫu từ tầng h và

Tỷ lệ của các phần tử thuộc lớp C trong tầng thứ h được ký hiệu là p h, và tỷ lệ tổng thể có thể ước lượng từ mẫu phân tầng ngẫu nhiên bằng công thức p st = X N h p h.

N Định lý 2.15 Với mẫu ngẫu nhiên phân tầng, phương sai của p st là:

P h Q h n h Chứng minh Đây là trường hợp riêng của định lý tổng quát đối với phương sai của trung bình ước lượng Từ định lý 2.3 ta có:

Giả sử y hi là một biến có giá trị 1 khi nó thuộc C và bằng 0 nếu ngược lại.

Từ hệ thức (1.24) ta có kết quả cho biến này là:

N h −1P h Q h Định lý đã được chứng minh.

Hệ quả 2.16 Khi sự hiệu chỉnh lô hữu hạn (fpc) bỏ qua được,

Hệ quả 2.17 Với sự phân bố tỷ lệ,

Với ước lượng mẫu của phương sai, ta thayp h q h /(n h −1)choP h Q h /n h chưa biết cho các công thức ở trên.

Lựa chọn tốt nhất n h để cực tiểu V(p st ) sẽ suy ra từ lý thuyết tổng quát ở mục 2.1.3.

Hiệu quả của độ lệch từ số lượng tối ưu

Giả thiết rằng mẫu phân tầng được thiết kế với số lượng tối ưu và với n cho trước Cỡ mẫu n 0 h trong tầng h sẽ là: n 0 h = n(W h S h )

Từ hệ thức (2.20), phương sai nhỏ nhất sẽ là:

XW h S h 2 (2.31) Nếu nˆ h là cỡ mẫu sử dụng trong tầng h, phương sai thu được từ (2.3) là:

Sự gia tăng phương sai gây ra bởi số lượng không hoàn chỉnh là:

Số hạng đầu tiên ở vế phải ta thay W h S h theo n 0 h theo hệ thức (2.30) Điều này đưa đến kết quả sau:

Trở lại hệ thức (2.31), nếu sự hiệu chỉnh lô hữu hạn (fpc) (số hạng cuối bên phải) bỏ qua được, ta thấy rằng:

Do đó độ tăng tỷ lệ phương sai thu được từ độ lệch do số lượng tối ưu là:

Trong công thức (2.32), cỡ mẫu chân thực được ký hiệu là nˆ h và cỡ mẫu tối ưu trong tầng h là n 0 h Nếu hiệu chỉnh lô hữu hạn (fpc) không thể bỏ qua, dấu "=" trong (2.32) sẽ thay đổi.

Giả sử g h = |ˆn h −n 0 h |/ˆn h là sự sai khác tuyệt đối về cỡ mẫu trong tầng h, (g h được biểu diễn như một tỷ số của cỡ mẫu thực n h ), khi đó (2.32) trở thành:

Giá trị X h=1 ˆ n h n g h 2 đại diện cho trung bình có trọng số của g h 2 Giới hạn trên của tỷ lệ (V − V min )/V min là g 2, trong đó g là sai khác tỷ lệ lớn nhất trong bất kỳ tầng nào Nếu g = 0,2 (hay 20%), thì mức tăng tỷ lệ phương sai không vượt quá 4% Trong trường hợp g = 30%, mức tăng tỷ lệ phương sai sẽ không lớn hơn 9%.

Bảng 2.3 đưa ra một ví dụ với 3 tầng với n = 340 Số lượng tối ưu đòi hỏi cỡ mẫu là 200, 100 và 40, trong khi cỡ mẫu sử dụng thực tế lại là 150, 120, 70.

Với giá trị g bằng 0,43 ở tầng thứ 3, việc làm tròn cho thấy độ tăng tỷ lệ phương sai không vượt quá 18% Trong khi đó, từ cột ngoài cùng, độ tăng thực tế được ghi nhận là

Bảng 2.3: Hiệu quả của độ lệch từ số lượng tối ưu

Hiệu quả của sai số theo cỡ tầng

Khi thực hiện phân tầng mong muốn, tổng tầng N h có thể không được xác định chính xác do dữ liệu điều tra đã cũ Thay vì sử dụng tỷ lệ tầng chân thực W h, chúng ta sẽ áp dụng ước lượng w h để thay thế.

Nhìn chung, kết quả của việc sử dụng trọng số có sai số được cho như sau:

1) Ước lượng mẫu là chệch Vì chệch nên ta đo độ chính xác của ước lượng bởi sai số bình phương trung bình về Y hơn là bởi phương sai của nó xung quanh giá trị trung bình riêng của nó.

2) Độ chệch vẫn còn là hằng số khi cỡ mẫu tăng Bởi vậy, luôn có một cỡ mẫu để ước lượng ít chính xác hơn so với mẫu ngẫu nhiên đơn giản, và tất cả độ chính xác thu được từ sự phân tầng đã mất đi.

3) Ước lượng thông thường s(y st ) đánh giá thấp sai số chân thực của y st vì nó không đóng góp độ chệch vào sai số. Để thỏa mãn các mệnh đề đó, chú ý rằng trong mẫu lặp lại, giá trị trung bình của ước lượng là P w h Y h Do đó độ chệch trở thành: P

(w h −W h )Y h Nó không phụ thuộc vào cỡ mẫu Sai số bình phương trung bình (MSE) của ước lượng là:

Biểu diễn này được Stephan giới thiệu vào năm 1941 Công thức thông thường cho s²(y st) là một ước lượng không chệch cho số hạng đầu tiên trong (2.33), theo các định lý 2.10 và 2.3.

Ví dụ 2.18 Ví dụ này minh họa sự hao tổn độ chính xác từ trọng số không chỉnh khi phân tầng là a) hiệu quả thấp b) hiệu quả cao.

Xét một quần thể nghiên cứu rộng lớn với S 2 = 1, chia thành hai tầng với

W 1 = 0,9, W 2 = 0,1 Ta giả sử S 1 = S 2 = S h Khi đó bỏ qua 1/N h , ta được

Trường hợp a) ta lấy: Y 1 −Y 2 = 1 Khi đó S h 2 = 0,91, và phân tầng tỷ lệ với trọng số chân thực làm giảm phương sai đến 9% so với mẫu ngẫu nhiên đơn giản.

Trường hợp b) ta lấy: Y 1 − Y 2 = 3 dẫn đến S h 2 = 0,19, làm giảm phương sai đến hơn 80%.

Đối với mô hình hai tầng với trọng số không chỉnh, độ chệch có thể được biểu diễn bằng công thức (w 1 −W 1 )(Y 1 −Y 2 ), trong đó (w 1 −W 1 ) = −(w 2 −W 2 ) Nếu giả định trọng số ước lượng là w 1 = 0,92 và w 2 = 0,08, tổng độ chệch sẽ là (0,02)(1) = 0,02 trong trường hợp a) và 0,06 trong trường hợp b) Từ đó, chúng ta có thể so sánh MSE dựa trên cỡ mẫu n.

Mẫu ngẫu nhiên đơn giản: V(y) = 1 n. Mẫu ngẫu nhiên phân tầng: a) M SE(y st ) = 0,91 n + 0,0004. b) M SE(y st ) = 0,19 n + 0,0036.

Bảng 2.4 chỉ ra việc lấy mẫu ngẫu nhiên đơn giản bắt đầu tốt hơn ở trường hợp a) với n = 300 Tuy nhiên lên tới n= 1000 có ít lựa chọn giữa hai phương pháp.

Trong trường hợp b), mẫu phân tầng cho thấy hiệu quả vượt trội khi kích thước mẫu n = 200 Tuy nhiên, khi n vượt quá 300, hiệu quả của phân tầng rõ ràng giảm sút so với mẫu ngẫu nhiên đơn giản Việc ước lượng chính xác của W h trở nên đặc biệt quan trọng khi phân tầng đạt hiệu quả cao hoặc trong các nghiên cứu có cỡ mẫu lớn.

Bảng 2.4: So sánh giá trị của M SE(y)

Trong một vài nghiên cứu, cỡ mẫu ban đầu lớn n 0 dùng để ước lượng W h

Kỹ thuật này được gọi là lấy mẫu kép hay lấy mẫu hai pha Với mẫu kép, ta có xấp xỉ sau:

So sánh MSE với S²/n theo hệ thức (2.34) cho thấy hầu hết các kết quả từ phân tầng vẫn được duy trì khi n₀ lớn hơn nhiều so với n.

2.1.9 Ưu điểm và nhược điểm của mẫu ngẫu nhiên phân tầng

Mẫu phân tầng mang lại nhiều lợi ích quan trọng Đầu tiên, việc chia tổng thể thành các tầng độc lập giúp rút ra các kết luận cụ thể về các nhóm con mà có thể bị bỏ lỡ trong mẫu ngẫu nhiên tổng quát Thứ hai, phương pháp lấy mẫu phân tầng thường cho ước lượng thống kê hiệu quả hơn Ngay cả khi không tăng hiệu quả, mẫu phân tầng vẫn không kém hơn mẫu ngẫu nhiên đơn giản, miễn là tỷ lệ giữa các tầng tương ứng với cỡ nhóm trong tổng thể Thứ ba, trong trường hợp đã có dữ liệu sẵn có cho từng tầng, mẫu phân tầng sẽ tiện lợi hơn Thứ tư, mỗi tầng có thể được xem như một tổng thể độc lập, cho phép áp dụng các phương pháp lấy mẫu khác nhau, từ đó chọn phương pháp phù hợp nhất cho từng nhóm con Cuối cùng, sự đồng nhất trong mỗi tầng giảm thiểu sự chênh lệch giữa các cá thể nghiên cứu, nâng cao tính đại diện và khả năng khái quát cho tầng đó, đồng thời giúp tìm kiếm đối tượng nghiên cứu dễ dàng hơn Tầng có kích cỡ lớn hơn cũng tạo cơ hội cho nhiều cá thể được chọn vào mẫu hơn.

Mặc dù phương pháp phân tầng mang lại nhiều lợi ích, nhưng cũng tồn tại một số nhược điểm Đầu tiên, việc sử dụng các tầng đồng nhất và thực hiện lấy mẫu phân tầng có thể làm tăng chi phí và độ phức tạp trong quá trình chọn mẫu Thứ hai, các tiêu chuẩn bội của biến phân tầng có thể chỉ liên quan đến một tầng nhất định, dẫn đến việc giảm tính thiết thực của các tầng khác Cuối cùng, trong một số trường hợp, mẫu phân tầng có thể yêu cầu kích thước mẫu lớn hơn so với các phương pháp lấy mẫu khác Tóm lại, để đạt hiệu quả tối ưu, phương pháp lấy mẫu phân tầng cần đáp ứng ba điều kiện quan trọng.

1 Sự thay đổi trong tầng là nhỏ nhất.

2 Sự thay đổi giữa các tầng là lớn nhất.

3 Các biến mà dựa vào nó để phân tầng là tương quan chặt với các biến độc lập. Ưu điểm so với các phương pháp khác:

• Tập trung vào phần quan trọng và phớt lờ các phần không thích hợp.

• Cho phép dùng các kỹ thuật lấy mẫu khác nhau đối với mỗi phần con.

• Có thể cải tiến độ chính xác, độ hiệu quả của ước lượng.

Cho phép cân bằng tốt hơn giữa các lực lượng của tiêu chuẩn phân biệt trong việc so sánh giữa các tầng lấy mẫu có kích thước đồng đều và các tầng lấy mẫu có kích thước thay đổi.

• Đòi hỏi lựa chọn biến phân tầng hợp lý và đó có thể là khó thực hiện.

• Sẽ không tốt khi không có các nhóm con đồng nhất.

• Khi thực hiện có thể phải chi phí cao.

Mẫu hệ thống

Mô tả

Mẫu hệ thống là phương pháp chọn mẫu trong đó N phần tử được đánh số từ 1 đến N, và một mẫu gồm n phần tử được lấy bằng cách chọn ngẫu nhiên một phần tử từ k phần tử đầu tiên, sau đó lấy mọi phần tử cách nhau k phần tử Ví dụ, nếu k = 15 và phần tử đầu tiên là 13, các phần tử tiếp theo sẽ là 28, 43, 58, v.v Việc chọn phần tử đầu tiên xác định toàn bộ mẫu, và phương pháp này được gọi là mẫu hệ thống “mọi phần tử thứ k” hay “mẫu nhảy cách quãng k” Mẫu hệ thống, với công thức tính = (cỡ lô)/cỡ mẫu, là một dạng mẫu xác suất và có ưu điểm so với mẫu ngẫu nhiên đơn giản.

• Dễ dàng hơn trong việc rút ra một mẫu và dễ thực hiện mà không có sai sót.

• Mẫu được lấy trải ra trong toàn lô.

• Lấy mẫu hệ thống có khả năng chính xác hơn lấy mẫu ngẫu nhiên đơn giản.

• Lấy mẫu hệ thống bị chệch hơn và không phải mọi phần tử có khả năng được chọn như nhau.

• Lấy mẫu hệ thống có thể dẫn đến đại diện quá mức hoặc đại diện yếu của một mẫu đặc biệt nào đó.

Mẫu hệ thống là phương pháp phân tầng tổng thể thành nhiều tầng, trong đó mỗi tầng chứa k phần tử Khác với mẫu ngẫu nhiên phân tầng, mẫu hệ thống có các phần tử ở vị trí tương đối giống nhau trong từng tầng, trong khi mẫu ngẫu nhiên phân tầng xác định vị trí ngẫu nhiên cho mỗi tầng Điều này khiến mẫu hệ thống phân bố đều hơn trên tổng thể, dẫn đến độ chính xác cao hơn so với mẫu ngẫu nhiên phân tầng.

Hình 2.1: Mẫu hệ thống và mẫu phân tầng

Một phương án trong mẫu hệ thống là lựa chọn phần tử nằm ở vị trí trung tâm của tầng Thay vì khởi đầu dãy bằng cách chọn ngẫu nhiên từ 1 đến k, chúng ta bắt đầu từ (k + 1)/2 nếu k là số lẻ, hoặc từ k/2 hoặc (k + 2)/2 nếu k là số chẵn.

N không phải là một bội số nguyên của k, và các mẫu hệ thống khác nhau từ cùng một tổng thể hữu hạn có thể thay đổi bởi một thành phần trong k phần tử đầu Với N = 23 và k = 5, số lượng phần tử trong 5 mẫu hệ thống được trình bày trong bảng 2.5, trong đó ba mẫu đầu tiên có n = 5 và hai mẫu cuối có n = 4 Phương pháp của Lahiri (1952) đề xuất rằng với N phần tử sắp xếp quanh một vòng tròn, k là số nguyên gần N/n nhất Bằng cách chọn một số ngẫu nhiên giữa 1 và N, ta có thể lấy tất cả các phần tử cách nhau k phần tử cho đến khi đạt được n phần tử mong muốn Ví dụ, với n = 5 và N = 25, nếu số ngẫu nhiên là 19, các phần tử sẽ là 19, 1, 6, 11, 16, cho thấy mọi phần tử có cùng xác suất lựa chọn Nếu muốn n = 4 phần tử với N = 23, ta có k = 6 Một cách khác để xem xét mẫu hệ thống là với N = nk, k mẫu hệ thống có thể được trình bày trong các cột của bảng 2.6.

21 22 23 Bảng 2.5: Các mẫu hệ thống có thể có với N = 23, k = 5 chia thành k mẫu, mỗi mẫu gồm n phần tử.

Bảng 2.6: Các phần tử của k mẫu hệ thống

Một mẫu hệ thống là một mẫu ngẫu nhiên đơn giản mà mỗi phần tử của mẫu là một chùm.

Phương sai của trung bình ước lượng

Ký hiệu trung bình mẫu của hệ thống là y sy Ba công thức dưới đây áp dụng cho việc lấy mẫu chùm bất kỳ, trong đó mỗi chùm chứa n phần tử và mẫu bao gồm nhiều chùm Trong các công thức này, ta giả định N = nk Dễ dàng nhận thấy y sy là ước lượng không chệch cho giá trị Y.

Ký hiệu y_ij đại diện cho thành phần thứ j trong mẫu của hệ thống thứ i, với j từ 1 đến n và i từ 1 đến k Trung bình của mẫu thứ i được ký hiệu là y_i Theo Định lý 2.19, phương sai của trung bình mẫu hệ thống được tính toán như sau.

Phương sai giữa các phần tử trong các mẫu hệ thống giống nhau được tính bằng công thức (y ij −y i ) 2 Mẫu số của phương sai này là k(n−1), được thiết lập theo quy tắc thông thường trong phân tích phương sai, trong đó mỗi mẫu k đóng góp (n−1) bậc tự do vào tổng bình phương ở tử số.

Chứng minh Bằng cách đồng nhất của phân tích phương sai

Từ định nghĩa ta có

(N −1)S 2 =nkV(y sy ) +k(n−1)S wsy 2 Dẫn đến điều phải chứng minh.

Hệ quả 2.20 Trung bình của mẫu hệ thống chính xác hơn trung bình của mẫu ngẫu nhiên đơn giản khi và chỉ khi S wsy 2 > S 2

Chứng minh Nếu y là trung bình của một mẫu ngẫu nhiên đơn giản cỡ n thì

Từ (2.35), V(y sy )< V(y) khi và chỉ khi

Kết quả quan trọng từ nhận xét 2.21 cho thấy rằng trong việc lấy mẫu chùm, nếu phương sai trong mẫu hệ thống lớn hơn phương sai lý thuyết, thì lấy mẫu hệ thống sẽ mang lại độ chính xác cao hơn so với lấy mẫu ngẫu nhiên đơn giản.

Một ước lượng khác của phương sai được cho trong định lý 2.22 dưới đây. Định lý 2.22.

N [1 + (n−1)ρ w ], (2.36) ở đó ρ w là hệ số tương quan giữa các cặp phần tử trong cùng một mẫu hệ thống. ρ w = E(y ij −Y)(y iu −Y)

Trong công thức E(y ij −Y) 2, tử số biểu thị trung bình của tất cả các cặp khác nhau kn(n−1)/2, trong khi mẫu số là trung bình của toàn bộ N giá trị y ij Với mẫu số được tính là (N−1)S 2 /N, giá trị ρ w sẽ bằng 2.

Kết quả từ phân tích cho thấy rằng sự tương quan dương giữa các phần tử trong cùng một mẫu có khả năng làm tăng phương sai trung bình mẫu Ngay cả một mức tương quan dương nhỏ cũng có thể tạo ra ảnh hưởng đáng kể do nó được nhân với n−1.

Định lý 2.19 và 2.22 cho thấy rằng V(y sy) phụ thuộc vào phương sai của mẫu ngẫu nhiên đơn giản Tương tự, định lý 2.24 chỉ ra rằng V(y sy) cũng phụ thuộc vào phương sai của mẫu ngẫu nhiên phân tầng, trong đó các tầng được hình thành từ k phần tử đầu tiên, k phần tử thứ hai, và tiếp tục như vậy Chỉ số j trong y ij biểu thị cho tầng, và trung bình tầng được ký hiệu là y j.

Phương sai giữa các phần tử trong cùng một tầng được tính bằng công thức (y ij −y j ) 2 Mỗi tầng n sẽ đóng góp (k-1) bậc tự do với số chia n(k −1) Ngoài ra, công thức ρ wst = E(y ij −y j )(y iu −y u) cũng được sử dụng để thể hiện mối quan hệ giữa các biến.

E(y ij −y j ) 2 Đại lượng này là tương quan giữa các độ lệch so với các trung bình tầng của các cặp đặc trưng trong cùng một mẫu hệ thống ρ wst = 2 n(n−1)(k−1) k

S wst 2 Chứng minh tương tự định lý 2.22.

Hệ thống mẫu có độ chính xác tương đương với mẫu ngẫu nhiên phân tầng tại một phần tử trên mỗi tầng khi ρ wst = 0, dẫn đến kết quả quen thuộc được thể hiện trong công thức (2.6).

Ví dụ 2.26 Số liệu trong bảng 2.7 về một tổng thể nhân tạo nhỏ có N = 40, k = 10, n = 4 Mỗi cột biểu diễn một mẫu hệ thống, và các hàng là các tầng.

Trong mẫu đầu tiên, mỗi số trong bốn số 0, 6, 18 và 26 đều nhỏ hơn trung bình của các tầng mà nó thuộc Điều này cũng đúng với năm mẫu hệ thống đầu tiên, trong khi năm mẫu cuối cho thấy độ lệch trung bình tầng chủ yếu là dương Do đó, các số hạng tích chéo trong ρ wst chủ yếu là dương Từ định lý 2.24, chúng ta hy vọng rằng việc lấy mẫu hệ thống sẽ kém chính xác hơn so với việc lấy mẫu ngẫu nhiên phân tầng với một phần tử trong mỗi tầng.

Phương sai V(y sy ) được tính trực tiếp từ tổng mẫu hệ thống như sau:

Khi sử dụng phương pháp lấy mẫu ngẫu nhiên đơn giản và phân tầng, cần phân tích phương sai tổng thể thành "phương sai giữa các hàng" và "phương sai trong các hàng" Điều này được thể hiện rõ trong bảng 2.7, từ đó cho thấy phương sai của các trung bình ước lượng từ mẫu ngẫu nhiên đơn giản và mẫu phân tầng ngẫu nhiên.

Cả mẫu ngẫu nhiên phân tầng và mẫu ngẫu nhiên hệ thống đều cho thấy hiệu quả vượt trội so với mẫu ngẫu nhiên đơn giản, với các giá trị lần lượt là 3,04, 11,63 và 30,66 Đồng thời, mẫu ngẫu nhiên hệ thống cũng cho thấy độ chính xác kém hơn so với mẫu ngẫu nhiên phân tầng.

Bảng 2.9 trình bày dữ liệu tương tự như bảng 2.7 nhưng có sự thay đổi thứ tự ở tầng thứ 2 và tầng thứ 4, dẫn đến ρ wst âm do phần lớn các tích chéo giữa độ lệch từ trung bình tầng âm trong cùng mẫu hệ thống Cụ thể, trong mẫu hệ thống đầu tiên, độ lệch từ trung bình tầng là −4,1, +4,8, −5,3, +4,9, trong đó có 4 tích âm trong tổng số 6 tích của các cặp độ lệch Sự thay đổi này không ảnh hưởng đến V ran và V st, và bảng 2.9 sẽ cung cấp mẫu hệ thống mới.

Bảng 2.7: Số liệu cho 10 mẫu hệ thống với n = 4, N = kn= 40. df ss ms

Giữa các hàng (tầng) 3 4828,3 Trong tầng 36 485,5 13,49 = S wst 2

Bảng 2.8: Phân tích phương sai

Bảng 2.9: Số liệu trong bảng 2.7 với thứ tự đảo ngược trong tầng II và IV

Nghĩa là với mẫu hệ thống bảng 2.9 đưa đến độ chính xác tăng lên rất nhiều so với bảng 2.7 (0,46 0, việc lấy mẫu chùm sẽ kém chính xác hơn so với cỡ mẫu cố định Ngược lại, khi ρ < 0, việc lấy mẫu chùm có thể chính xác hơn Định lý 3.1 là một sự mở rộng đơn giản của định lý 2.22 trong chương trước.

Một biểu thức khác của ρđược cho như sau Đặt S b 2 ký hiệu phương sai giữa các tổng chùm Khi đó:

Hệ thức (3.4) có thể viết như sau:

Giá trị bình phương trung bình trong chùm

Bằng phân tích phương sai một dấu hiệu

N M S 2 (1−ρ)≈S 2 (1−ρ). Ước lượng tỷ lệ từ mẫu chùm

Giả sử có M phần tử trong một chùm phân loại thành 2 lớp, trong đó tỷ lệ p i = a i /M biểu thị tỷ lệ trong lớp C của chùm thứ i Một mẫu ngẫu nhiên đơn giản với n chùm được rút ra và trung bình p của các p i trong mẫu được sử dụng để ước lượng tỷ lệ tổng thể P.

Ngược lại, nếu ta lấy một mẫu ngẫu nhiên đơn giản gồm nM phần tử, phương sai của p thu được bởi lý thuyết nhị thức như sau:

P Q nM, nếu N lớn, do đó

Tỷ số này chỉ ra sự thay đổi tương đối trong phương sai do sử dụng mẫu chùm. Nếu cỡ chùm M i thay đổi, ước lượng p = P a i /P

M i là ước lượng tỷ số. Phương sai của ước lượng tỷ số xấp xỉ bởi công thức

M i /N là trung bình cỡ mẫu của mẫu chùm.

Nếu mẫu này so sánh với một mẫu ngẫu nhiên đơn giản của nM phần tử, ta lại nhận được kết quả mở rộng của (3.5),

Mẫu chùm với các chùm không cùng cỡ

Mẫu ngẫu nhiên đơn giản của các chùm: Ước lượng không chệch

Tổng của một đặc trưng nào đó đối với chùm thứ i được biểu diễn bằng công thức P i=1 y ij = M i y i Khi lấy mẫu ngẫu nhiên đơn giản với kích thước n từ N chùm, theo hệ quả của định lý 1.1, ta có thể xác định ước lượng không chệch cho Y.

X i=1 y i Áp dụng định lý 1.3, phương sai của nó là

N −1 , (3.6) trong đó Y = Y /N là trung bình lý thuyết trên các chùm.

Mẫu ngẫu nhiên đơn giản của các chùm: Ước lượng dạng tỷ số

M i là tổng số các phần tử trong tổng thể, và khi biết M i cùng với M 0, ta có thể ước lượng tỷ số mà M i được coi là biến hỗ trợ x i.

= M 0 (trung bình mẫu theo các phần tử).

Theo ký hiệu, ước lượng tỷ số lý thuyết R= Y /X = Y /M 0 =Y, trung bình lý thuyết trên các phần tử Theo định lý 6.1 trong [19], giả thiết số các chùm là lớn thì,

Như vậy, V( ˆY R )phụ thuộc vào sự thay đổi trọng số các trung bình theo các phần tử và thường được chỉ ra phương sai của Yˆ R nhỏ hơn V( ˆY).

Lấy mẫu với xác suất tỷ lệ theo cỡ chùm

Phương pháp lựa chọn chùm do Hansen và Hurwitz phát triển vào năm 1943 cho phép chọn các chùm với xác suất tỷ lệ thuận với kích thước M i Một ví dụ minh họa cho phương pháp này là việc chọn một chùm đơn từ tổng thể nhỏ với N = 7 chùm.

Trong bài viết này, chúng ta đã trình bày tổng cộng dồn của các M i Để lựa chọn một chùm, một số ngẫu nhiên được chọn trong khoảng từ 1 đến M 0 = 30, ví dụ như số 19 Trong tổng cộng dồn, số 19 nằm trong chùm thứ tư, bao gồm các số từ 16 đến 21 Phương pháp này đảm bảo rằng xác suất chọn mỗi chùm tỷ lệ thuận với kích thước của nó.

Phương pháp lựa chọn một chùm này chỉ hiệu quả khi N đủ lớn hoặc trong mẫu phân tầng khi N h vừa đủ hoặc nhỏ Tuy nhiên, việc cộng dồn các M i có thể tốn nhiều thời gian nếu N lớn, ví dụ như N = 20.000 Để giải quyết vấn đề này, Lahiri đã đề xuất một phương pháp vào năm 1951 nhằm tránh việc cộng dồn, trong đó M max được xác định là giá trị lớn nhất của M i, và một số ngẫu nhiên được chọn trong khoảng từ 1 đến M max.

N, giả sử i Bây giờ chọn một số ngẫu nhiên khác m giữa 1 và M max Nếu m nhỏ hơn hoặc bằng M i thì chùm thứ i được chọn Ngược lại thì thử với cặp số ngẫu nhiên khác Một cách tự nhiên, phương pháp này chứng tỏ sự hao tổn ít nhất khi M i không khác nhiều so với cỡ chùm.

Trong phương pháp lấy mẫu có hoàn lại, việc lựa chọn chùm thứ hai được thực hiện bằng cách chọn một số ngẫu nhiên từ 1 đến 30, cho phép chọn lại chùm thứ tư ở lần thứ hai Điều này khác với lấy mẫu không hoàn lại, nơi không thể chọn lại chùm đã được chọn Xác suất lựa chọn tỷ lệ thuận với kích thước chùm ở mỗi lần chọn, và một lợi ích của phương pháp này là công thức tính phương sai chân thực và ước lượng phương sai trở nên đơn giản hơn.

3.2.3.1 Lấy mẫu với xác suất không bằng nhau và có hoàn lại

Giả sử chùm thứ i được chọn với xác suất M i /M 0 và có hoàn lại, trong đó

M i Khi đó ước lượng không chệch của tổng lý thuyết Y là

= M 0 (trung bình của các trung bình chùm trên các phần tử). Ước lượng này được ký hiệu bởi Yˆ pps , và

Cũng giống như Yˆ R , V( ˆY pps ) phụ thuộc vào sự thay đổi của các trung bình chùm Với chùm có cỡ M i 0 và xác suất lựa chọn tương ứng là z i = M i 0 /M 0 0 , ở đó

M i 0 và z i là các số dương có tổng bằng 1 Khi đó Yˆ ppz = 1 n n

P i=1 y i z i là ước lượng không chệch của Y với phương sai

Đặt \( t_i \) là số lần xuất hiện của thành phần thứ \( i \) trong một mẫu xác định có kích thước \( n \), với \( t_i \) có thể nhận giá trị từ 0 đến \( n \) Phân phối của \( t_i \) có những đặc điểm quan trọng sau đây:

E(t i ) = nz i , V(t i ) =nz i (1−z i ), cov(t i t j ) = −nz i z j (3.8) Định lý 3.3 Nếu mẫu gồm n chùm được rút ra với xác suất z i và có hoàn lại, khi đó

X i=1 y i z i là ước lượng không chệch của Y với phương sai

Chứng minh Ta có thể viết

Trong bài viết này, chúng ta xem xét công thức X i=1 t i y i z i, trong đó tổng mở rộng được thực hiện trên tất cả các chùm trong tổng thể Trong quá trình lấy mẫu lặp lại, t i được coi là biến ngẫu nhiên, trong khi y i và z i là tập hợp các số đã biết.

Do đó, vì E(t i ) = nz i (theo (3.8)),

Do đó Yˆ ppz là không chệch Lại có,

(vì P z i = 1) Hoàn thành chứng minh.

Lấy z i = M i /M 0 trong định lý 3.3 đưa đến kết quả tương ứng đối với lấy mẫu với xác suất tỷ lệ với cỡ chùm.

Một biểu thức khác cho V( ˆY ppz ) Từ (3.10), nV( ˆY ppz ) N

Vì(1−z i )bằng tổng tất cả cácz i khác trong tổng thể, hệ số của y i 2 /z i trong (3.11) chứa số hạng z j với j 6= i Tương tự, hệ số củay i 2 /z j chứa số hạng z i Do đó,

. Định lý 3.4 Nếu một mẫu có hoàn lại gồm n chùm với xác suất tỷ lệ với z i thì ước lượng không chệch của V( ˆY ppz ) là, ∀n > 1 v( ˆY ppz ) n

Chứng minh Bằng phép đồng nhất đại số, n

−nV( ˆY ppz ), (theo định nghĩa của V( ˆY ppz )) Ta lại có, n(n−1)E[v( ˆY ppz )] =E

=n(n−1)V( ˆY ppz ),(sử dụng (3.9) trong định lý 3.3) Hoàn thành chứng minh. Định lý 3.5 Nếu một mẫu có hoàn lại n chùm với xác suất tỷ lệ với cỡ chùm, z i =M i /M 0 và

(y i ) =M 0 y, ở đó y là trung bình không trọng số của các trung bình chùm, là ước lượng không chệch của Y với phương sai

Kết quả này suy ra ngay từ định lý 3.3, vì y i = y i /M i và Y = Y /M 0 Định lý 3.6 Vẫn các điều kiện của định lý 3.5, ước lượng mẫu không chệch của V( ˆY pps ) là v( ˆY pps ) = M 0 2 n

Kết quả này thu được từ việc thay thế z i = M i /M 0 trong (3.12) và vì y i =y i /M i và Yˆ ppz =M 0 y.

3.2.3.2 Độ chính xác của ba phương pháp Ở mục này ta so sánh độ chính xác của ba phương pháp ước lượng tổng lý thuyết với các chùm có cỡ không bằng nhau đã nêu ở trên (giả thiết rằng M i đã biết nếu phương pháp đòi hỏi).

1 Chọn các chùm với xác suất bằng nhau Ước lượng: Yˆ u

2 Chọn các chùm với xác suất bằng nhau Ước lượng: Yˆ R

3 Chọn các chùm với xác suất tỷ lệ cỡ chùm Ước lượng: Yˆ pps

Không có quy tắc nào xác định phương pháp chính xác nhất trong ước lượng Kết quả ước lượng phụ thuộc vào mối quan hệ giữa y_i và M_i, cũng như vào phương sai của y_i như một hàm số của M_i Đối với ước lượng dạng tỷ số và ước lượng PPS, trường hợp thích hợp là khi y_i không liên quan đến M_i.

Yˆ u là tổng chùm y i không liên quan đến M i, và một số chỉ dẫn có thể được rút ra khi biểu diễn phương sai của ba ước lượng theo dạng so sánh Giả sử rằng (N−1) gần bằng N.

Ta cũng giả sử rằng độ chệch của Yˆ R có thể bỏ qua được.

Với Yˆ u , từ (3.6) ta có nV( ˆY u ) = N 2 (1−f)E(y i −Y) 2 = (1−f)E(N y i −Y) 2 (3.14) Với Yˆ R , từ (3.7) ta có nV( ˆY R ) =N 2 (1−f)EM i 2 (y i −Y) 2

Từ (3.13) với Yˆ pps , nV( ˆY pps ) = N M 0 EM i (y i −Y) 2

Từ (3.14), (3.15) và (3.16), ta thấy rằng V( ˆY u ) phụ thuộc vào độ chính xác của ước lượng N y i = N M i y i được xem như là ước lượng của Y, trong khi đó

V( ˆY R )vàV( ˆY pps )phụ thuộc vào độ chính xác của lượngM 0 y i =M 0 y i /M i được xem như là ước lượng của Y Nếu y i không liên quan với M i , ta mong muốn

M 0 y i sẽ chính xác hơn N M i y i khi y i không liên quan đến M i Liên quan đến Yˆ R và Yˆ pps, từ (3.15) và (3.16) cho thấy rằng V( ˆY R ) có trọng số lớn hơn đối với chùm lớn so với V( ˆY pps ).

Số hạng hiệu chỉnh lô hữu hạn (fpc) mang lại lợi ích quan trọng, đặc biệt trong trường hợp kích thước mẫu nhỏ (ví dụ, n h = 2, N h = 10) Điều này đã thúc đẩy sự phát triển của các phương pháp lựa chọn không hoàn lại với xác suất không đồng đều Công thức (3.15) chỉ được áp dụng cho Yˆ R trong các tình huống có cỡ mẫu lớn.

3.2.3.3 Lấy mẫu với xác suất không bằng nhau và không hoàn lại

Giả sử có hai phần tử được lấy từ một tầng, trong đó phần tử đầu tiên được chọn với xác suất z_j, tỷ lệ với kích cỡ của nó Nếu phần tử thứ i đã được chọn, xác suất để chọn một phần tử còn lại ở lần lấy thứ hai là z_j /(1−z_j) Do đó, xác suất tổng π_i mà phần tử thứ i được lựa chọn, dù là ở lần đầu hay lần thứ hai, được tính bằng công thức π_i = z_i +

, (3.18) trong đó A= P z j /(1−z j ) được lấy trên tất cả N phần tử.

Giả sử rằng π i = 2z i, xác suất chọn các thành phần còn lại tỷ lệ thuận với kích thước z i Ước lượng đơn giản này được đề xuất bởi Horvitz và Thompson.

Phương sai của Yˆ HT sẽ bằng 0 khi z i tỷ lệ với y i, vì z i được xác định là y i /Y, dẫn đến ước lượng chân thực y i /z i = Y Tuy nhiên, trong công thức (3.18), z 0 i = π i /2 luôn gần hơn z i ban đầu do ảnh hưởng của yếu tố thứ hai trong (3.18) Ví dụ từ Yates và Grundy năm 1953 cho thấy với N = 4, n = 2, các giá trị z i là 0,1; 0,2; 0,3 và 0,4, trong khi z i 0 tìm được lần lượt là 0,1173; 0,2206; 0,3042; 0,3579.

Lấy mẫu con với các tập có cùng cỡ

Lấy mẫu hai giai đoạn

Trong nghiên cứu, mỗi tập lớn có thể được chia thành các tập nhỏ hơn, gọi là tập con Khi các tập con trong một tập cho kết quả tương tự, việc đo lường toàn bộ tập trở nên không kinh tế Do đó, người ta thường lựa chọn và đo đạc một mẫu từ các tập con trong tập đã chọn Phương pháp này được gọi là lấy mẫu con, vì không đo toàn bộ tập mà chỉ lấy mẫu Mahalanobis cũng đề xuất thuật ngữ lấy mẫu hai giai đoạn, với bước đầu tiên là chọn mẫu từ các tập nguyên bản, và bước thứ hai là chọn mẫu từ các tập con trong mỗi tập đã chọn ở bước đầu.

Trong phần này, chúng ta sẽ xem xét các trường hợp đơn giản nhất, trong đó mỗi tập hợp bao gồm M tập con và sẽ có m phần tử được chọn khi lấy mẫu con Hình 4.1 minh họa biểu đồ của mẫu hai giai đoạn với M = 9 và m = 2, trong đó các ô vuông có dấu nhân biểu thị các phần tử trong mẫu.

Hình 4.1: Biểu diễn biểu đồ của mẫu hai giai đoạn với M = 9 và m= 2

Trung bình và phương sai trong lấy mẫu hai giai đoạn

Trong phương pháp hai giai đoạn, đầu tiên chúng ta chọn một tập mẫu, sau đó từ mỗi tập mẫu đã chọn, tiến hành lấy ra một số xác định các tập con Để tính toán trung bình và phương sai của ước lượng, cần lấy trung bình trên tất cả các mẫu có thể phát sinh từ quy trình hai giai đoạn này Cách tính trung bình bao gồm việc lấy trung bình ước lượng từ tất cả các lựa chọn ở giai đoạn 2 được rút ra từ một tập cố định trong n tập đã chọn, sau đó tiếp tục lấy trung bình trên tất cả các lựa chọn khả thi của n tập Phương pháp này có thể được biểu diễn cho ước lượng θ như sau.

E(ˆθ) = E 1 [E 2 (ˆθ)], trong đó E đại diện cho giá trị trung bình trên toàn bộ các mẫu Ký hiệu E 2 biểu thị việc tính trung bình trên tất cả các lựa chọn khả thi ở bước thứ hai từ một tập cố định, trong khi E 1 là trung bình trên tất cả các lựa chọn ở bước thứ nhất.

Với V(ˆθ) phương pháp này đưa đến kết quả dễ nhớ sau

V(ˆθ) = V 1 [E 2 (ˆθ)] + E 1 [V 2 (ˆθ)], trong đó V 2 (ˆθ) biểu thị phương sai trên tất cả các lựa chọn mẫu con từ một tập hợp đã cho Để làm rõ hơn, giả sử θ = E(ˆθ), lưu ý rằng θ không nhất thiết phải là giá trị mà θˆ ước lượng cho nó, vì θˆ có thể là ước lượng không chệch.

= [E 2 (ˆθ)] 2 +V 2 (ˆθ)−2θE 2 (ˆθ) +θ 2 Bây giờ lấy trung bình trên các lựa chọn ở giai đoạn 1 Vì E 1 E 2 (ˆθ) = θ nên

Công thức (4.1) được mở rộng một cách tự nhiên cho 3 hoặc nhiều giai đoạn. Với mẫu ba giai đoạn:

Phương sai của trung bình ước lượng trong lấy mẫu hai

Ta sẽ dùng các ký hiệu sau:

• y ij = giá trị nhận được đối với tập con thứj trong tập nguyên thủy (ban đầu) thứ i.

P j=1 y ij m = trung bình mẫu đối với tập con trong tập ban đầu thứ i.

P i=1 y i n = trung bình mẫu trên tất cả các tập con.

N −1 = phương sai giữa các trung bình tập ban đầu.

N(M −1) = phương sai giữa các tập con của các tập ban đầu.

Y được ký hiệu là tổng của tất cả các tập con trong tập thứ i Định lý 4.1 khẳng định rằng nếu có n tập và m tập con được chọn ngẫu nhiên từ mỗi tập, thì y sẽ là ước lượng không chệch của Y, với phương sai tương ứng.

S 2 2 mn. Chứng minh Với lấy mẫu ngẫu nhiên đơn giản ở cả hai giai đoạn,

Với V(y), sử dụng (4.1) ta có

Trong một mẫu ngẫu nhiên đơn giản một giai đoạn của n tập, số hạng đầu tiên trong vế phải được xác định là phương sai của trung bình trên tập con Do đó, chúng ta có thể áp dụng định lý 1.3 để tính toán.

P i=1 y i /n và mẫu ngẫu nhiên đơn giản được sử dụng ở giai đoạn thứ hai

(y ij − Y i )/(M −1) là phương sai giữa các tập con của tập ban đầu thứ i Khi ta lấy trung bình trên các mẫu giai đoạn đầu, n

S 2i 2 /n sẽ có trung bình tới

Từ (4.3) và cộng vế với vế của (4.4) và (4.5) ta được điều phải chứng minh.

Nếu f 1 = n/N và f 2 =m/M là tỷ lệ lấy mẫu trong bước thứ nhất và bước thứ hai, ta có công thức khác của V(y)

Ước lượng mẫu của phương sai

Định lý 4.2 Vẫn các điều kiện của định lý 4.1, ước lượng không chệch của

V(y) là v(y) = 1−f 1 n s 2 1 + f 1 (1−f 2 ) mn s 2 2 , (4.7) trong đó f 1 = n/N và f 2 = m/M và s 2 1 n

Y i /n Số hạng cuối cùng ở vế phải được thỏa mãn bởi vì mẫu con độc lập trong các tập khác nhau và y n

Nhân với (1−f 1 )/n(n−1) và lấy trung bình trên giai đoạn đầu tiên của lấy mẫu ngẫu nhiên đơn giản,

So sánh với (4.6) cho V(y), chú ý rằng số hạng trong S 2 2 quá nhỏ bởi tổng f 1 (1−f 2 )S 2 2 /mn Vì E 1 E 2 (s 2 2 ) = S 2 2 nên ước lượng không chệch của V(y) là v(y) = 1−f 1 n s 2 1 + f 1 (1−f 2 ) mn s 2 2

Hệ quả 4.3 Một kết quả thu được từ (4.8)

Nó chỉ ra rằng ước lượng không chệch của S 1 2 là s 2 1 − s 2 2 (1−f 2 ) m

Nếu m = M nghĩa là f 2 = 1, công thức (4.7) áp dụng cho việc lấy mẫu ngẫu nhiên đơn giản từ các tập Khi n = N, công thức này trở thành phương pháp lấy mẫu ngẫu nhiên phân tầng tỷ lệ, trong đó các tập nguyên thủy được coi là các tầng được lấy mẫu đầy đủ Do đó, lấy mẫu hai giai đoạn có thể được xem là một dạng phân tầng không đầy đủ với các tập là các tầng.

Khi f 1 =n/N có thể bỏ qua được, ta nhận được kết quả đơn giản v(y) = s 2 1 n n

Ước lượng tỷ lệ

Khi các tập con được chia thành hai lớp, ta có thể ước lượng tỷ lệ phần tử thuộc lớp thứ nhất bằng cách xác định y ij bằng 1 nếu phần tử thuộc lớp này và bằng 0 nếu ngược lại Đặt p i = a i /m là tỷ lệ phần tử thuộc lớp đầu tiên trong mẫu con từ tập thứ i Hai phương sai ước lượng s 2 1 và s 2 2 trong định lý 4.2 sẽ được tính toán như sau: s 2 1 n.

X i=1 p i q i , trong đó p= P p i /n Áp dụng định lý 4.2, v(p) = 1−f 1 n(n−1) n

Ví dụ 4.5 Trong một nghiên cứu các cây bị bệnh, các cây được trồng trong

Trong một nghiên cứu, 160 mảnh đất được khảo sát, mỗi mảnh gồm 9 cây Từ đó, một mẫu ngẫu nhiên gồm 40 mảnh đất được chọn, và 3 cây trong mỗi mảnh được kiểm tra để phát hiện bệnh Kết quả cho thấy có 22 mảnh đất không có cây bị bệnh, 11 mảnh có 1 cây bị bệnh, 4 mảnh có 2 cây bị bệnh, và 3 mảnh có 3 cây bị bệnh Tần số của các mảnh đất không có cây bệnh được ký hiệu là φ = 22.

11, 4, 3 Hãy ước lượng tỷ lệ cây mắc bệnh và độ lệch tiêu chuẩn của nó.

Để tính toán s²₁ và s²₂, chúng ta bắt đầu với số cây bị bệnh (3pᵢ) và số cây khỏe mạnh (3qᵢ), trong đó pᵢ là xác suất cây bị bệnh ở mảnh đất loại i Số cây bị bệnh trung bình trong 3 cây được chọn là 3pᵢ, trong khi 9pᵢqᵢ đại diện cho số cây bị bệnh trung bình trong 3 cây nhân với số cây không bị bệnh trung bình trong 3 cây.

Tỷ lệ cây bị bệnh là 0,233 với độ lệch tiêu chuẩn là 0,045 Công thức xấp xỉ s 1 /√ n từ công thức (4.10) trong trường hợp f 1 = n

N bỏ qua được dẫn đến kết quả 0,049 Đó là lý do ước lượng tốt khi f 1 = 1

Cỡ mẫu tối ưu và mẫu con

Mối quan hệ giữa cỡ mẫu tối ưu và mẫu con phụ thuộc vào các dạng hàm phí tổn Khi phí vận chuyển giữa các tập con không quan trọng, một dạng hàm phí tổn đã được chứng minh là hữu ích.

Số hạng đầu tiên của phí tổn, c1n, tỷ lệ với số tập ban đầu trong mẫu, trong khi số hạng thứ hai, c2nm, tỷ lệ với tổng số của các phần tử giai đoạn hai, theo định lý 4.1, V(y) có thể được viết dưới dạng kết hợp tuyến tính của hai số hạng này.

Số hạng cuối cùng ở vế phải không bị ảnh hưởng bởi lựa chọn biến Việc tìm cực tiểu của V với C cố định, hoặc cực tiểu của C với V cố định, tương đương với việc tối thiểu hóa tích.

Sử dụng bất đẳng thức Cauchy – Schwarz, giá trị tối ưu m opt được tính bằng công thức m opt = S 2 pS 1 2 −S 2 2 /M pc 1 /c 2, với điều kiện S 1 2 > S 2 2 /M Sau khi tính toán, cần làm tròn m opt tới số nguyên gần nhất Nếu m là số nguyên và thỏa mãn m < m opt < m + 1, quy tắc làm tròn sẽ là: làm tròn lên nếu m 2 opt > m(m + 1), ngược lại làm tròn xuống Trường hợp m opt > M hoặc S 1 2 < thì cần xem xét thêm.

S 2 2 /M, ta lấy m =M, (sử dụng lấy mẫu một giai đoạn) (Tích(V +S 1 2 /N)C là một hàm số giảm ngặt của m khi S 1 2 < S 2 2 /M).

Ví dụ 4.6 Giả sử c 1 = 10c 2 , S 2 = 1,3S u , với S u 2 =S 1 2 − S 2 2

Ta sẽ coi tổng phí tổn cố định và xem xét phương sai của y thay đổi như thế nào theo m Giả thiết N lớn Từ (4.6),

C , khử n bằng phương trình phí tổn Dẫn đến,

Phương sai tương đối có thể được tính toán với các giá trị khác nhau của m, bỏ qua thừa số hằng số Bảng 4.1 dưới đây trình bày các phương sai và độ chính xác tương đối, trong đó độ chính xác lớn nhất được xác định khi m = 4, được coi là chuẩn.

Với giá trị m bất kỳ giữa 2 và 9, sự tổn thất độ chính xác liên quan tới giá trị tối ưu là nhỏ hơn 12%. m = 1 2 3 4 5 6 7 8 9 10

Phương sai tương 29,59 22,14 20,32 19,92 20,07 20,51 21,10 21,80 22,56 23,38 đối Độ chính xác 0,67 0,90 0,98 1,00 0,99 0,97 0,94 0,91 0,88 0,85 tương đối

Bảng 4.1: Phương sai tương đối và độ chính xác tương đối ứng với các giá trị khác nhau của m

Lựa chọn trong thực tế yêu cầu ước lượng tỷ số 1/c2 và S2/S1, tương đương với S2/Su Do tính phẳng của các giá trị tối ưu, tỷ số này khó đạt được độ chính xác cao Khi c1/c2 đã được xác định và giá trị m, gọi là m0, được chọn, miền giá trị của S2^2/Su^2 mà m0 mang lại ít nhất 90% giá trị tối ưu đã được xác định.

Bảng thu được như sau Với phí tổn cho trước, giả thiếtN lớn, độ chính xác tương đối của m 0 đối với m opt được tìm thấy là:

Tập giá trị của S 2 /S u mà biểu thức này vượt quá mức L xác định sẽ nằm giữa hai căn thức:

Bảng chi tiết giới hạn trên và dưới của S 2 2 /S u 2 đối với L = 0,90 đã đượcBrooks lập năm 1955 (xem [4]).

Ước lượng của m opt từ cuộc khảo sát thí điểm

Đôi khi, ước lượng của S₂₂ và S₁₂ được thu thập từ cuộc khảo sát thí điểm, trong đó có n₀ tập ban đầu được chọn và mỗi tập lấy ra m₀ phần tử Việc lựa chọn n₀ và m₀ là rất quan trọng Nếu s₂₁ là phương sai giữa các trung bình tập và s₂₂ là phương sai giữa các tập con của các tập ban đầu, thì từ công thức (4.9) có thể dẫn đến những kết luận quan trọng.

Trong bài viết này, chúng ta xem xét ước lượng tối ưu m opt dựa trên hàm phí tổn đơn giản c 1 n+c 2 nm, với công thức m opt = S 2 pS 1 2 −S 2 2 /M pc 1 /c 2 Từ cuộc điều tra thí điểm, ước lượng m opt được xác định là ˆ m opt = s 2 ps 2 1 −s 2 2 /m 0 pc 1 /c 2 √m 0 p(m 0 s 2 1 /s 2 2 )−1 pc 1 /c 2 Tuy nhiên, ước lượng này có thể gặp sai số do phụ thuộc vào sai số mẫu của tỷ số s 2 1 /s 2 2, và từ phân tích phương sai, ta biết rằng m 0 s 2 1 /s 2 2 được phân bố theo một quy luật nhất định.

Trong nghiên cứu này, F có (n₀ - 1) và (m₀ - 1) bậc tự do, với điều kiện là ij phải có phân phối chuẩn Kết quả thu được giúp xác định giới hạn trên và dưới của mˆ opt dựa trên các giá trị n₀ và m₀ đã cho.

Kỹ thuật lấy mẫu ba giai đoạn

Tổng thể bao gồm N tập ở giai đoạn đầu tiên, mỗi tập có M tập con ở giai đoạn thứ hai, và mỗi tập con chứa K phần tử ở giai đoạn thứ ba Cỡ mẫu tương ứng là n, m và k Giá trị y iju đại diện cho phần tử thứ u trong tập con thứ j ở giai đoạn thứ hai, được rút ra từ tập thứ i ở giai đoạn đầu Các trung bình tổng thể thích hợp cho mẫu 3 giai đoạn được xác định như sau:

Theo Định lý 4.7, khi sử dụng mẫu ngẫu nhiên đơn giản ở cả ba giai đoạn, trung bình mẫu y của các phần tử ở giai đoạn 3 sẽ là ước lượng không chệch của Y, với phương sai được xác định là N M(K−1).

V(y) = 1−f 1 n S 1 2 + 1−f 2 nm S 2 2 + 1−f 3 nmk S 3 2 , trong đó f 1 = n/N, f 2 = m/M, f 3 = k/K là tỷ suất lấy mẫu ở 3 giai đoạn. Chứng minh Ta có y−Y y−Y nm

Trong giai đoạn thứ hai, Y nm đại diện cho trung bình tổng thể của nm tập con, trong khi Y n là trung bình tổng thể của n tập ban đầu Khi thực hiện phép bình phương và tính trung bình, các số hạng tích chéo sẽ được triệt tiêu.

= 1−f 1 n S 1 2 Cộng ba số hạng ta được điều phải chứng minh. Định lý 4.8 Ước lượng không chệch của V y là v y

= 1−f 1 n s 2 1 + f 1 (1−f 2 ) nm s 2 2 + f 1 f 2 (1−f 3 ) nmk s 2 3 , (4.11) trong đó s 2 1 , s 2 2 , s 2 3 là các phương sai mẫu của S 1 2 , S 2 2 , S 3 2 tương ứng.

Chứng minh Chứng minh giống như chứng minh định lý 4.2, hoặc một cách khác như sau Ta có

Biểu thức E(s 2 1 ) được chỉ ra, trong đó y iK đại diện cho trung bình của m tập con ở giai đoạn thứ 2 trong tập ban đầu thứ i Tất cả K phần tử ở giai đoạn 3 đã được đánh số, và y K là trung bình của n giá trị y iK.

Nếu y i là trung bình mẫu với tập ban đầu thứ i, ta viết y i −y y iK −y K

Lấy trung bình trên các mẫu với các tập ở giai đoạn thứ nhất và giai đoạn thứ 2 là cố định, chỉ ra rằng

Các số hạng tích chéo từ (4.12) triệt tiêu Kết quả cho ta E(s 2 1 ) với E(s 2 2 ) cũng tương tự Do đó

= 1−f 1 n s 2 1 + f 1 (1−f 2 ) nm s 2 2 + f 1 f 2 (1−f 3 ) nmk s 2 3 , là ước lượng không chệch của V(y).

Lấy mẫu con có thể kết hợp với các phương pháp lấy mẫu nguyên thủy, đồng thời cũng có thể áp dụng mẫu phân tầng hoặc mẫu hệ thống Các kết quả về phương sai cho những cải biến này có thể được phát triển từ các công thức của các phương pháp đơn giản hơn.

Kết quả từ mẫu phân tầng của các tập nguyên thủy trong hai giai đoạn đã được thu thập Bài viết cũng chỉ ra cách lựa chọn số phần tử mẫu n và m phù hợp nhất cho từng tầng.

Do khuôn khổ của luận văn nên chúng tôi không trình bày cụ thể các kết quả này.

Lấy mẫu con với các tập không cùng cỡ

Các phương pháp lấy mẫu khi n = 1

Giả sử chúng ta có tập ban đầu thứ i gồm M i tập con, trong đó có m i tập con được chọn ngẫu nhiên Chúng ta sẽ xem xét ba ước lượng cho Y - trung bình trên tập con Ước lượng I sử dụng xác suất bằng nhau để chọn các tập, và ta tính y I = y i Đây là ước lượng chệch, vì trung bình mẫu y i trên tập con cho thấy rằng trong mẫu lặp từ cùng một tập, trung bình của y i là Y i Do mọi tập có cùng khả năng được chọn, trung bình của Y i sẽ là 1.

Y i , ký hiệu đại lượng này là Y a Nhưng trung bình tổng thể là

Do đó độ chệch bằng

Vì phương pháp là chệch, ta sẽ tính toán sai số bình phương trung bình (MSE) Ta viết y i −Y = y i −Y i

Bình phương và lấy kỳ vọng trên tất cả các mẫu có thể Tất cả các tích chéo đều triệt tiêu Ta được:

(y ij −Y i ) 2 là phương sai trong các tập con trong tập ban đầu thứ i.

MSE (Mean Squared Error) bao gồm ba thành phần chính: một thành phần phát sinh từ sự biến đổi trong các tập dữ liệu, một thành phần liên quan đến sự khác biệt giữa các trung bình thực của các tập, và một thành phần do độ chệch gây ra.

Trong việc xác định các giá trị m i, chúng ta có hai lựa chọn: chọn tất cả m i bằng nhau hoặc chọn m i tỷ lệ với M i Quyết định về m i chỉ ảnh hưởng đến thành phần thứ nhất của M SE(y I) Đối với ước lượng II, chúng ta có thể tính toán Y bằng công thức Ước lượng II = y II = N M i y i.

M0 là ước lượng không chệch, vì y i là ước lượng không chệch của Y i Tích M i y i cung cấp ước lượng không chệch cho tổng tập Y i, do đó N M i y i trở thành ước lượng không chệch cho tổng lý thuyết Y Khi chia cho M0, ta nhận được ước lượng không chệch của Y Để xác định V(y II), tức là sai số bình phương trung bình, ta có công thức y II − Y = N M i y i.

Mà M i Y i = Y i và Y = N Y /M 0 , trong đó Y là trung bình lý thuyết trên một tập ban đầu Do đó y II −Y = N M i

Thành phần giữa các tập của phương sai phản ánh sự biến thiên trong các tổng tập Y i, bị ảnh hưởng bởi sự biến thiên trong M i và các trung bình Y i Khi cỡ các tập thay đổi, thành phần này có thể lớn, ngay cả khi trung bình Y i không đổi Điều này thường dẫn đến việc ước lượng II có MSE lớn hơn ước lượng chệch của ước lượng I, khiến cả hai không đáp ứng đầy đủ yêu cầu Để cải thiện, ước lượng III được sử dụng, trong đó các tập được chọn với xác suất tỷ lệ với cỡ mẫu, và ước lượng cho Y là trung bình mẫu y III = y i.

Trong lấy mẫu lặp, tập ban đầu thứ i xuất hiện với tần suất M i /M 0 Do đó

Trước hết ta lấy trung bình trên các mẫu mà trong đó tập ban đầu thứ i được lựa chọn.

Sau đó lấy trung bình trên tất cả các tập có thể được lựa chọn Vì tập ban đầu thứ i được lựa chọn với tần suất M i /M 0

Ví dụ 4.9 Cho số liệu như trong bảng 4.2: Có ba tập ban đầu với 2,4,6 phần tử Ta tính Y i , S 2i 2 , Y i Kết quả thể hiện trong bảng 4.2.

Trung bình tổng thể là

Trung bình không trọng số của Y i là 2,167 = Y a , do đó độ chệch trong ước lượng I là – 0,583 Bình phương của nó tạo nên MSE là 0,340 Một tập được lựa

Bảng 4.2 trình bày tổng thể nhân tạo với các thành phần có kích thước đồng nhất và hai tập con được lấy mẫu từ tổng thể đó Trong nghiên cứu này, chúng tôi sẽ xem xét bốn phương pháp, trong đó có hai phương án thuộc loại ước lượng I, cụ thể là ước lượng Ia.

Chọn các tập với xác suất bằng nhau, m i = 2. Ước lượng: y i (chệch). Ước lượng Ib.

Chọn các tập với xác suất bằng nhau, m i = M i /2. Ước lượng: y i (chệch). Ước lượng II.

Chọn các tập với xác suất bằng nhau, m i = 2. Ước lượng: N M i y i /M 0 (không chệch). Ước lượng III.

Chọn các tập con với xác suất M i /M 0, trong đó m i = 2 Ước lượng y i là không chệch Ước lượng Ib (lấy mẫu con tỷ lệ) không yêu cầu cỡ mẫu cố định là 2, mà có thể là 1, 2 hoặc 3, với cỡ mẫu trung bình là 2 Áp dụng các công thức sai số mẫu (4.13), (4.14), (4.15) cho thấy kết quả được trình bày trong bảng 4.3.

Mặc dù ví dụ là nhân tạo, nhưng kết quả phản ánh những đại lượng điển hình đã được tìm thấy trong nhiều tổng thể Ước lượng III cho MSE nhỏ nhất vì nó đóng góp vào MSE từ ước lượng trong các tập giữa các tập độ chệch tổng MSE.

Bảng 4.3 cho thấy sai số bình phương trung bình (MSE) của các ước lượng mẫu của Y có sự đóng góp nhỏ nhất từ sự thay đổi giữa các tập con Phương pháp II, mặc dù không chệch, lại dẫn đến MSE lớn nhất, trong khi phương pháp Ia (cỡ mẫu con bằng nhau) có hiệu quả tốt hơn một chút so với phương pháp Ib (lấy mẫu con tỷ lệ) Đôi khi, cỡ mẫu M_i của các tập ban đầu có thể được xác định thông qua các số liệu trước đó hoặc các đo lường có sẵn Giả sử z_i là xác suất hoặc cỡ tương đối cho tập ban đầu thứ i, với z_i là tập hợp các số dương có tổng bằng 1, và vẫn giả thiết n=1 Ước lượng IV được thực hiện khi lấy mẫu với xác suất tỷ lệ với cỡ được ước lượng, với ước lượng không chệch của Y được tính bằng công thức y_IV = M_i y_i z_i / M_0.

Bởi vì trong lấy mẫu lặp lại, tập ban đầu thứi xuất hiện với tần suất tương đối z i sao cho

M 0 = Y Phương sai của y IV thu được theo cách thông thường Ta viết y IV −Y = M i y i z i M 0 −Y

Trong phương sai mỗi bình phương nhận một trọng số z i Do đó

Nếu z i =M i /M 0 , (4.17) rút gọn thành (4.15) với V(y III ).

Nếu z i = 1/N, (4.17) rút gọn thành (4.14) đối với phương sai của ước lượng không chệch khi các xác suất bằng nhau.

Bảng 4.4 trình bày các phép tính để xác định V(y IV) trong tổng thể nhân tạo theo dữ liệu trong bảng 4.2, với các giá trị z i được chọn là 0,2; 0,4 và 0,4, cùng với m i = 2 Theo công thức (4.17), phương sai được tính toán như sau:

• Sự đóng góp trong các tập PM i (M i −m i )S 2i 2 z i m i

• Sự đóng góp giữa các tập = P z i

So với bảng 4.3, ước lượng IV cho thấy phương sai thấp hơn ước lượng không chệch II, trong khi tập ban đầu được chọn với xác suất bằng nhau Tuy nhiên, ước lượng IV lại kém hơn so với ước lượng I hoặc ước lượng III.

Trong trường hợp các tập được chọn có xác suất tỷ lệ với kích thước ước lượng, ước lượng V được sử dụng là y V = y i, tức là trung bình mẫu Tuy nhiên, ước lượng này có thể bị chệch.

Nếuz i là ước lượng tốt thìY z gần với trung bình chân thựcY =P

, thì ba thành phần của MSE như sau

Nếu giá trị của z_i và m_i được chọn theo bảng 4.4, các thành phần phương sai của y_V sẽ được thể hiện rõ trong bảng 4.5 Đóng góp vào MSE trong ước lượng V sẽ được phân tích qua các tập, giữa các tập, độ chệch, và tổng MSE.

Kết quả này cao hơn tất cả các ước lượng trừ ước lượng III và chắc chắn tốt như ước lượng III.

Tổng kết các phương pháp với n= 1

Phương Xác suất chọn Ước lượng của Trạng thái MSE trong pháp các tập Y chệch ví dụ

IV z i ∝ cỡ được M i y i z i M 0 không chệch 3,796 ước lượng

V z i ∝ cỡ được y i chệch 2,035 ước lượngBảng 4.6: Các phương pháp lấy mẫu 2 giai đoạn (n= 1)

Có 5 phương pháp ước lượng cho trung bình của các phần tử Y và sai số bình phương trung bình (MSE), được minh họa qua bảng 4.6 Ước lượng tổng lý thuyết cho Y được xác định là M 0 Y, trong khi ước lượng trước đó được nhân với M 0 và MSE được điều chỉnh bằng M 0 2 = 144.

Phương pháp lấy mẫu khi n > 1

Với n > 1, các phương pháp lấy mẫu cơ bản mở rộng từ các phương pháp trước đây và từ các phương pháp lấy mẫu một giai đoạn với các chùm không cùng cỡ Các đại lượng ước lượng chủ yếu bao gồm tổng lý thuyết, trung bình lý thuyết trên tập con, và tỷ lệ có cấu trúc của ước lượng tỷ số.

Trong các ứng dụng, tổng số tập con M0 thường không được biết, chỉ có M_i tương ứng với tập mẫu ban đầu, được tính toán qua việc liệt kê Các phương pháp ước lượng II và IV, cùng với sự mở rộng cho trường hợp n > 1, không yêu cầu biết M0 khi ước lượng tổng lý thuyết Ngược lại, phương pháp I và sự mở rộng của nó không cần biết M0 để ước lượng trung bình lý thuyết trên tập con Tuy nhiên, phương pháp ước lượng III, dựa trên xác suất tỷ lệ với kích thước tập con, lại cần phải biết M0.

Bài viết này trình bày hai kết quả tổng quát quan trọng trong việc xác định phương sai và ước lượng mẫu, đồng thời chỉ ra cách mở rộng kết quả lấy mẫu một giai đoạn sang hai giai đoạn hoặc nhiều giai đoạn.

4.2.2.1 Các tập ban đầu được chọn không hoàn lại với xác suất bằng nhau hoặc không bằng nhau

Trong tập ban đầu thứ i, giả sử Yˆ i là ước lượng không chệch cho tổng tập Y i, với phương sai giai đoạn hai là σ 2i 2 Ta xem xét ước lượng không chệch cho tổng lý thuyết Y có cấu trúc như sau:

X i=1 w là Yˆ i, trong đó trọng số w đã được xác định cho mọi mẫu s Những trọng số này có thể phụ thuộc vào các tập ban đầu khác mà được lấy mẫu từ tập thứ i.

Xây dựng biến ngẫu nhiên w 0 is như sau: w is 0 bằng w is nếu tập con thứ i xuất hiện trong mẫu và bằng 0 nếu ngược lại Khi đó

= Y nếu và chỉ nếu E 1 (w 0 is ) = 1 với mọi i. Định lý 4.12.

Chứng minh Sử dụng công thức

Phương sai hai giai đoạn giữa Yˆ i và Yˆ j (i 6= j) bằng 0 vì lấy mẫu con độc lập Do đó

Ví dụ 4.13 Với bảng 2 giai đoạn của ước lượng Horvitz – Thompson, Yˆ HT n

Trọng số w0 được xác định là 1/πi nếu tập con thứ i trong mẫu và bằng 0 nếu không Do đó, E1(w02) = πi/πi2 = 1/πi, với πi là xác suất của tập ban đầu i được chọn Hơn nữa, nếu mi là tập con được lấy ra từ Mi thông qua phương pháp lấy mẫu ngẫu nhiên đơn giản, thì σ2i2 = V2(ˆYi) = Mi(Mi - mi) mi S2i2.

Do đó áp dụng định lý 4.12 và sử dụng công thức cho bảng một giai đoạn cho V( ˆY HT ), ta có:

M i (M i −m i ) m i π i S 2i 2 Định lý 4.14 Giả sử ước lượng không chệch σˆ 2i 2 của phương sai giai đoạn hai σ 2 2i của Yˆ i , và ước lượng mẫu không chệch của V n P i=1 w is Y i

N P i=1 w is 0 Y i từ mẫu một giai đoạn Hơn nữa, v n

Khi đó ước lượng mẫu không chệch của V n P i=1 w is Yˆ i là v n

Quy tắc xây dựng ước lượng mẫu của V n P i w là Yˆ i, trong đó ước lượng không chệch của V n P i w là Y i từ mẫu một giai đoạn, yêu cầu thay thế Yˆ i cho Y i ở mọi vị trí có Y i và cộng thêm số hạng n.

P i w is Yˆ i = ˆY, và ˆ σ 2 2i là ước lượng không chệch của V 2 ( ˆY i ).

Biến ngẫu nhiên a_0 được xác định bằng a_is nếu tập thứ i có mặt trong mẫu, và bằng 0 nếu không có Tương tự, b_0 ijs được đặt bằng b_ijs khi tập i xuất hiện trong mẫu, và bằng 0 nếu không có.

Từ (4.20) đối với mẫu một giai đoạn v

Nếu nó không chệch, so sánh (4.23) và (4.22) chỉ ra rằng ta phải cóE 1 (a 0 is ) V(w 0 is ) Bây giờ đối với ước lượng phương sai (4.21), ta có

Sử dụng các kết quả E(a 0 is ) = V(w 0 is ) và với mọi i, E 1 (w 0 is ) = 1 = E 1 2 (w 0 is ) ta có

Suy ra điều cần chứng minh bằng cách áp dụng định lý 4.12 và 4.14, chúng ta sẽ tìm ra các ước lượng cho tổng lý thuyết và phương sai của chúng, khi các tập được lựa chọn với xác suất bằng nhau.

Ta có m i tập con mẫu trong tập thứ i được chọn bởi lấy mẫu ngẫu nhiên đơn giản Ước lượng không chệch của tổng lý thuyết là

Yˆ i Áp dụng định lý 4.12 với w is = N n, E(w is 0 ) = n

M i 2 (1−f 2i )S 2i 2 m i , trong đó f 2i = m i /M i Ước lượng trở thành trọng số riêng nếu f 2i là hằng số (ký hiệu là f 2 ) Khi đó

X j y ij Đại lượng nf 2 /N là xác suất để tập được chọn ở giai đoạn hai.

Với ước lượng mẫu không chệch của phương sai, từ (4.21), định lý 4.14 cho ta v( ˆY u ) = N 2 (1−f 1 ) n n

4.2.2.2 Các tập được lựa chọn hoàn lại với xác suất không bằng nhau

Các tập ban đầu được chọn hoàn lại với xác suất tỷ lệ thuận với z i Kết quả cho z i = M i /M 0, tức là xác suất tỷ lệ với cỡ mẫu, chỉ là một trường hợp đặc biệt.

Mẫu con gồm m i tập con từ tập ban đầu thứ i được rút ra một cách ngẫu nhiên và không hoàn lại.

Một ước lượng của tổng lý thuyết là:

Với n = 1, M 0 y IV = ˆY IV là không chệch Phương sai của nó thu được từ công thức (4.16) sau khi nhân với M 0 2 , như sau:

Với phương pháp lấy mẫu này, ước lượng Yˆ ppz là trung bình của nước lượng độc lập dạng Yˆ IV Do đó Yˆ ppz không chệch và

Hơn nữa, với n ước lượng độc lập Yˆ IV = Y i /z i đã cho thì ước lượng mẫu không chệch của V( ˆY IV ) sẽ là, v( ˆY IV ) n

! 2 n−1 Ước lượng mẫu không chệch của V( ˆY ppz ) có biểu diễn rất đơn giản sau: v( ˆY ppz ) n

Kỹ thuật lấy mẫu cặp

Lấy mẫu cặp phân tầng

Tổng thể được phân tầng thành L lớp (tầng) Mẫu đầu tiên là một mẫu ngẫu nhiên đơn giản cỡ n 0 Đặt

W h =N h /N = tỷ lệ của tổng thể trong tầng h. w h = n 0 h /n 0 = tỷ lệ của mẫu đầu tiên trong tầng h.

Khi đó w h là ước lượng không chệch của W h

Mẫu thứ 2 là một mẫu ngẫu nhiên phân tầng cỡ n, trong đó y hi được đo từ n h phần tử được rút ra từ tầng h Thông thường, mẫu thứ 2 trong tầng h là một mẫu con ngẫu nhiên từ mẫu n 0 h trong tầng Mục đích của mẫu đầu tiên là ước lượng các trọng số tầng, trong khi mẫu thứ 2 nhằm ước lượng trung bình tầng Y h Trung bình lý thuyết được ký hiệu là Y = P.

W h Y h Một ước lượng được dùng là: y st L

Vấn đề là chọn n 0 và n h để cực tiểu V(y st ) với phí tổn cho trước.

Để kiểm tra phương sai cực tiểu, cần xác định xem nó có nhỏ hơn phương sai từ một mẫu ngẫu nhiên đơn giản chỉ với y i đo được hay không Giả sử n h là một mẫu con ngẫu nhiên từ n 0 h, với n h = v h n 0 h, trong đó 0 < v h ≤ 1 và v h đã được chọn trước Các biến ngẫu nhiên bao gồm w h, n h và y h Vấn đề đặt ra là xác định cỡ mẫu trong bối cảnh phân tầng chưa biết chính xác Để đơn giản hóa, giả định cỡ mẫu n 0 đủ lớn cho mọi w h > 0 và trong chiến thuật tối ưu, mọi giá trị tối ưu v h được tính toán đều ≤ 1 Theo định lý 4.15, ước lượng y st là không chệch Định lý 4.16 chỉ ra rằng nếu mẫu đầu tiên là mẫu ngẫu nhiên với cỡ n 0, thì mẫu thứ hai là mẫu con ngẫu nhiên của mẫu đầu tiên với cỡ n h = v h n 0 h, trong đó 0 < v h ≤ 1 và v h là cố định.

, (4.26) trong đó S 2 là phương sai tổng thể.

Giả sử y được đo trên tất cả n0h thành phần mẫu đầu tiên trong tầng h, nhưng không đo được trên các mẫu con ngẫu nhiên của n h Do đó, ta có thể xác định rằng w h = n 0 h / n 0.

X h w h y 0 h =y 0 là trung bình của một mẫu ngẫu nhiên đơn giản cỡ n 0 từ tổng thể Do đó, lấy trung bình trên lựa chọn lặp lại của mẫu cỡ n 0 ,

Giả sử chỉ số 2 đại diện cho trung bình của tất cả các mẫu con ngẫu nhiên từ n phần tử đã cho, ta có E2(yh) = y0h Từ đó, ta có cov[y0h, (yh - y0h)] = 0 Đồng thời, cov(y0h, yh) = V(y0h) và V(yh - y0h) = V(yh) - V(y0h).

Do đó, với w h cố định,

Lấy trung bình trên phân phối của w h ta thu được bởi các lựa chọn lặp lại của mẫu đầu tiên, ta có từ (4.27), (4.28) và (4.29),

Kết quả V(y st ) có thể thể hiện trong một số dạng khác nhau Bằng phân tích phương sai,

Do đó, nếu g 0 = (N −n 0 )/(N −1), nhân với g 0 /n 0 N dẫn đến

(4.30) Hơn nữa, bằng định nghĩa của g 0 = (N −n 0 )/(N −1), ta có

Do đó trong (4.30) các số hạng thứ hai và thứ ba trong P

(4.31) Với hầu hết các ứng dụng, thành phần g 0 /n 0 N trong (4.31) có thể bỏ qua, (4.31) trở thành

Kết quả trong định lý 4.15 được đưa ra bởi Rao năm 1973 (xem [15]).

Hệ quả 4.17 chỉ ra rằng các kết quả cho trường hợp mẫu thứ hai được xác định độc lập với mẫu đầu tiên, dẫn đến n h không phụ thuộc vào n 0 h, ngoại trừ khi n h ≤ n 0 h Nếu tỷ lệ n h/N h có thể bỏ qua, phương sai của ước lượng y st sẽ được tính toán như sau.

Số lượng tối ưu

Mục tiêu là xác định n 0 và v h nhằm tối thiểu hóa V(y st) với chi phí xác định Giả sử c 0 là chi phí cho việc phân lớp dựa trên mẫu ngẫu nhiên đơn giản có kích thước n 0, trong khi c h là chi phí để đo đạc một phần tử trong tầng h Với một mẫu xác định, việc lựa chọn này rất quan trọng để tối ưu hóa chi phí và hiệu quả đo lường.

Vì n h là biến ngẫu nhiên, ta cực tiểu phí tổn trung bình cho n 0 và v h đã được chọn

E(C) = C ∗ = c 0 n 0 +n 0 X c h v h W h (4.33) Đặt V = V(y st ), công thức (4.26) dẫn đến n 0 (V +S 2 /N) = (S 2 −X

TíchC ∗ (V +S 2 /N)không chứan 0 Áp dụng bất đẳng thức Cauchy - Schwarz cho tích này ta được: tích sẽ cực tiểu nếu với mọi h, ta có: v h 2 c h

Giá trị của n 0 thu được từ phương trình phí tổn trung bình (4.33) Thay thế v h tối ưu trong công thức C ∗ (V +S 2 /N), phương sai cực tiểu sẽ là

Phương sai ước lượng trong lấy mẫu cặp phân tầng

Nếu 1/n và 1/N không đáng kể so với 1 (ví dụ như < 0,02), thì hầu hết các ước lượng mẫu không chệch của V(y st) trong (4.32) chỉ là phiên bản giản lược của công thức v(y st).

X h w h (y h −y st ) 2 , trong đó g 0 = (N −n 0 )/(N −1). Định lý 4.18 Ước lượng mẫu không chệch của V(y st ) trong lấy mẫu cặp là v(y st ) = n 0 (N −1)

Chứng minh Từ (4.31) dạng tổng quát của phương sai sẽ được ước lượng là

Đầu tiên, ta tính trung bình với n0 và w h cố định, sau đó tiến hành trung bình trên sự biến thiên trong w h Trung bình của w h s² h trong (4.35) được biểu diễn là W h S h², trong khi trung bình của s² h là S h².

Số hạng cuối của (4.35) sẽ là

Xw h (y h −y st ) 2 =X w h y 2 h −y 2 st Đầu tiên lấy trung bình với w h cố định,

E(y 2 st ) = Y 2 +V(y st ) (4.37) Lấy (4.37) trừ đi (4.36) và nhân với g 0 /n 0 dẫn đến g 0 n 0 EX w h (y h −y st ) 2 = g 0 n 0 hXW h (Y h −Y) 2 +

Thay thế (4.38) trong tìm (n 0 −1)N Ev(y st )/n 0 (N −1) từ (4.35), ta có

V(y st ) = (n 0 −1)N n 0 (N −1)V(y st ). Điều này dẫn đến kết quả cần chứng minh.

Rao năm 1973 đã đưa ra kết quả (4.35) dưới ngôn ngữ củan h vàn 0 h như sau v(y st ) = N −1

Hệ quả 4.19 Để sử dụng (4.34) trong ước lượng tỷ lệ, đặt p h thay y h và n h p h q h /(n h −1) thay s 2 h

Ước lượng hồi quy

Trong các ứng dụng lấy mẫu cặp, biến phụ x_i được dùng để ước lượng hồi quy của Y Trong mẫu lớn đầu tiên (cỡ n_0), chỉ đo x_i, còn trong mẫu thứ hai (cỡ n = v*n_0 = n_0/k), tỷ số v được chọn trước, ta đo cả x_i và y_i Ước lượng của Y được tính bằng công thức y_lr = y + b(x_0 - x), trong đó x_0 và x là trung bình của x_i trong hai mẫu, và b là hệ số hồi quy bình phương tối thiểu của y_i theo x_i từ mẫu thứ hai Theo định lý 4.20, nếu 1/n và 1/n_0 không đáng kể so với 1, ta có kết quả xấp xỉ cho V(y_lr) như đã nêu.

Trong việc xác định sai số mẫu của ước lượng hồi quy tuyến tính (lr) trong lấy mẫu ngẫu nhiên đơn giản, ta nhận thấy rằng hệ số b trong y lr có thể được thay thế bằng hệ số hồi quy tổng thể hữu hạn B = Syx / Sx² Vì vậy, chúng ta tiến hành kiểm tra phương sai của xấp xỉ ye lr = y + B(x0 - x).

Chỉ số 1 và 2 biểu thị sự biến thiên trong các pha lấy mẫu đầu tiên và thứ hai Đặt u i = y i - Bx i Trong pha thứ hai, mẫu lớn được xem như một tổng thể hữu hạn, và mẫu nhỏ được rút ra ngẫu nhiên từ mẫu lớn.

E 2 (ye lr ) = y 0 : V 2 (ye lr ) 1 n − 1 n 0 s 02 u , ở đó s 02 u là phương sai của u trong mẫu lớn Nó chỉ ra rằng

S y 2 (1−ρ 2 ), vì s 02 u là một ước lượng không chệch của S u 2 = S y 2 (1−ρ 2 ) Do đó

Ước lượng phương sai trong lấy mẫu cặp hồi quy

Nếu số hạng 1/n không đáng kể, V(y lr ) được cho bởi (4.39):

N Với mô hình hồi quy tuyến tính, s 2 y.x = 1 n−2

# là ước lượng không chệch của S y 2 (1−ρ 2 ) Vì s 2 y P(y i −y) 2 n−1 là ước lượng không chệch của S y 2 nên s 2 y − s 2 y.x là ước lượng không chệch của ρ 2 S y 2 Do đó ước lượng mẫu của V(y lr ) là v(y lr ) = s 2 y.x n + s 2 y −s 2 y.x n 0 − s 2 y

Luận văn "Các phương pháp lấy mẫu và xử lý mẫu" trình bày các phương pháp lấy mẫu trong lô hữu hạn phần tử, bao gồm lấy mẫu ngẫu nhiên đơn giản, lấy mẫu ngẫu nhiên phân tầng, lấy mẫu hệ thống, lấy mẫu chùm, lấy mẫu con và lấy mẫu cặp Mỗi phương pháp được phân tích với các ước lượng về đại lượng trung bình, tổng lý thuyết và tỷ lệ, cùng với phương sai của các ước lượng Từ đó, luận văn rút ra các nhận xét để so sánh hiệu quả của các phương pháp lấy mẫu và những ước lượng tương ứng.

1 Đào Hữu Hồ (2008), “Xác suất thống kê”, in lần thứ 11, Nhà xuất bản Đại học Quốc Gia Hà Nội.

2 Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), “Thống kê toán học”, Nhà xuất bản Đại học Quốc Gia Hà Nội.

3 Nguyễn Viết Phú, Nguyễn Duy Tiến (2004), “Cơ sở lý thuyết xác suất”, Nhà xuất bản Đại học Quốc Gia Hà Nội.

4 Brooks, S (1955) The estimation of an optimum subsampling number. Jour Amer Stat Assoc, 50, 398 – 415.

5 Cochran, W G (1942) Sampling theory when the sampling units are of unequal sizes Jour Amer Stat Assoc.

6 Cornell, F G (1947) A stratified random sample of a small finite popu- lation Jour Amer Stat Assoc.

7 Dalenius, T., and Hodges, J L., Jr (1959) Minimum variance stratifica- tion Jour Amer Stat Assoc.

8 Das, A C (1950) Two-dimensional systematic sampling and the associ- ated stratified and random sampling Sankhya.

9 Evans, W D (1951) On stratification and optimum allocations Jour. Amer Stat Assoc, 46, 95 – 104.

10 Finney, D J (1948) Random and systematic sampling in timber surveys. Forestry.

11 Hansen, M H., and Hurwitz, W N (1943) On the theory of sampling from finite populations Ann Math Stat.

Ngày đăng: 05/12/2020, 19:22

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đào Hữu Hồ (2008), “ Xác suất thống kê”, in lần thứ 11, Nhà xuất bản Đại học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Xác suất thống kê
Tác giả: Đào Hữu Hồ
Nhà XB: Nhà xuất bảnĐại học Quốc Gia Hà Nội
Năm: 2008
2. Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), “ Thống kê toán học”, Nhà xuất bản Đại học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Thống kê toánhọc
Tác giả: Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như
Nhà XB: Nhà xuất bản Đại học Quốc Gia Hà Nội
Năm: 2004
3. Nguyễn Viết Phú, Nguyễn Duy Tiến (2004), “ Cơ sở lý thuyết xác suất”, Nhà xuất bản Đại học Quốc Gia Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Cơ sở lý thuyết xác suất
Tác giả: Nguyễn Viết Phú, Nguyễn Duy Tiến
Nhà XB: Nhà xuất bản Đại học Quốc Gia Hà Nội.Tiếng Anh
Năm: 2004
19. William G. Cochran “ Sampling techniques” (1977), third edition. JOHN WILEY &amp; SONS, INC Sách, tạp chí
Tiêu đề: Sampling techniques
Tác giả: William G. Cochran “ Sampling techniques”
Năm: 1977
4. Brooks, S. (1955). The estimation of an optimum subsampling number.Jour. Amer. Stat. Assoc, 50, 398 – 415 Khác
5. Cochran, W. G (1942). Sampling theory when the sampling units are of unequal sizes. Jour. Amer. Stat. Assoc Khác
6. Cornell, F. G (1947). A stratified random sample of a small finite popu- lation. Jour. Amer. Stat. Assoc Khác
7. Dalenius, T., and Hodges, J. L., Jr (1959). Minimum variance stratifica- tion. Jour. Amer. Stat. Assoc Khác
8. Das, A. C (1950). Two-dimensional systematic sampling and the associ- ated stratified and random sampling. Sankhya Khác
9. Evans, W. D. (1951). On stratification and optimum allocations. Jour.Amer. Stat. Assoc, 46, 95 – 104 Khác
10. Finney, D. J (1948). Random and systematic sampling in timber surveys.Forestry Khác
11. Hansen, M. H., and Hurwitz, W. N (1943). On the theory of sampling from finite populations. Ann. Math. Stat Khác
12. Horvitz, D. G., and Thompson, D. J. (1952). A generalization of sampling without replacement from a finite universe. Jour. Amer. Stat. Assoc, 47, 663 – 685 Khác
13. Lahiri, D. B. (1951). A method for sample selection providing unbiased ratio estimates. Bull. Int. Stat. Inst., 33, 2, 133 – 140 Khác
14. Lohr, SharonL. (1999). Sampling: Design and analysis, Duxbury, ISBN 0 – 534 – 35361 – 4 Khác
15. Rao, J. N. K. (1973). On double sampling for stratification and analytical surveys. Biometrika, 60, 125 – 133 Khác
16. Robert M. Groves, etalia (2010). Survey methodology. ISBN 0 – 471 – 48348 – 6 Khác
17. Stephan, F. F. (1941). Stratification in representative sampling. Jour.Marketing, 6, 38 – 46 Khác
18. Stuart, A. (1954). A simple presentation of optimum sampling results.Jour. Roy. Stat. Soc, B16, 239 – 241 Khác
20. Yates, F., and Grundy, P. M. (1953). Selection without replacement from withinstrata with probability proportional to size. Jour. Roy. Stat. Soc, B15, 253 – 261 Khác

HÌNH ẢNH LIÊN QUAN

Bảng 2.1: Số dân của 64 thành phố (đơn vị là 1000 người) trong năm 1920 và 1930. - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.1 Số dân của 64 thành phố (đơn vị là 1000 người) trong năm 1920 và 1930 (Trang 26)
Bảng 2.2: Số liệu cho ước lượng cỡ mẫu - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.2 Số liệu cho ước lượng cỡ mẫu (Trang 34)
Bảng 2.3: Hiệu quả của độ lệch từ số lượng tối ưu - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.3 Hiệu quả của độ lệch từ số lượng tối ưu (Trang 37)
Bảng 2.4 chỉ ra việc lấy mẫu ngẫu nhiên đơn giản bắt đầu tốt hơn ở trường hợp a) với n = 300 - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.4 chỉ ra việc lấy mẫu ngẫu nhiên đơn giản bắt đầu tốt hơn ở trường hợp a) với n = 300 (Trang 39)
Hình 2.1: Mẫu hệ thống và mẫu phân tầng - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Hình 2.1 Mẫu hệ thống và mẫu phân tầng (Trang 42)
Bảng 2.6: Các phần tử của k mẫu hệ thống - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.6 Các phần tử của k mẫu hệ thống (Trang 43)
Bảng 2.7: Số liệu cho 10 mẫu hệ thống với n = 4, N = kn = 40. - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.7 Số liệu cho 10 mẫu hệ thống với n = 4, N = kn = 40 (Trang 48)
Bảng 2.9: Số liệu trong bảng 2.7 với thứ tự đảo ngược trong tầng II và IV - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.9 Số liệu trong bảng 2.7 với thứ tự đảo ngược trong tầng II và IV (Trang 48)
Bảng 2.8: Phân tích phương sai - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 2.8 Phân tích phương sai (Trang 48)
Hình 4.1: Biểu diễn biểu đồ của mẫu hai giai đoạn với M = 9 và m = 2 - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Hình 4.1 Biểu diễn biểu đồ của mẫu hai giai đoạn với M = 9 và m = 2 (Trang 65)
Bảng thu được như sau. Với phí tổn cho trước, giả thiết N lớn, độ chính xác tương đối của m 0 đối với m opt được tìm thấy là: - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng thu được như sau. Với phí tổn cho trước, giả thiết N lớn, độ chính xác tương đối của m 0 đối với m opt được tìm thấy là: (Trang 72)
Bảng 4.1: Phương sai tương đối và độ chính xác tương đối ứng với các giá trị khác nhau của m - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 4.1 Phương sai tương đối và độ chính xác tương đối ứng với các giá trị khác nhau của m (Trang 72)
Bảng 4.2: Tổng thể nhân tạo với các thành phần có cỡ bằng nhau - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 4.2 Tổng thể nhân tạo với các thành phần có cỡ bằng nhau (Trang 80)
Bảng 4.3: Sai số bình phương trung bình của các ước lượng mẫu của Y - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
Bảng 4.3 Sai số bình phương trung bình của các ước lượng mẫu của Y (Trang 81)
Ví dụ 4.10. Bảng 4.4 dưới đây chỉ ra các tính toán để tìm V (y IV ) trong tổng thể nhân tạo trong bảng 4.2: z i được chọn là 0, 2; 0, 4 và 0, 4 và m i = 2 - (Luận văn thạc sĩ) các phương pháp lấy mẫu và xử lý mẫu
d ụ 4.10. Bảng 4.4 dưới đây chỉ ra các tính toán để tìm V (y IV ) trong tổng thể nhân tạo trong bảng 4.2: z i được chọn là 0, 2; 0, 4 và 0, 4 và m i = 2 (Trang 82)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w