Nhóm các cá thể đợc rút ra từ quần thể nghiên cứu- 123docz.net

IV. Tài liệu học tập chủ yếu cho sinh viên

Nhóm các cá thể đợc rút ra từ quần thể nghiên cứu để phục vụ trực tiếp cho mục tiêu nghiên cứu đợc gọi là mẫu nghiên cứu.

tiếp cho mục tiêu nghiên cứu đợc gọi là mẫu nghiên cứu.

Một nghiên cứu với mẫu có thể khống chế đợc một số sai số với mức chi phí thấp mà vẫn đảm bảo đợc kết quả có độ tin cậy.

1.2. Quần thể nghiên cứu và quần thể đích (study population target population)

Quần thể là một tập hợp các đơn vị thống kê, mà trên mỗi đơn vị thống kê này, một giá trị về tiêu thức nghiên cứu sẽ đợc lấy ra và đợc kể là một số hạng trong một chuỗi thống kê.

Đơn vị thống kê trong các nghiên cứu dịch tễ thờng là 1 ngời (một cá thể). Quần thể nghiên cứu: là quần thể mà từ đó mẫu đợc rút ra cho nghiên cứu. Quần thể đích (định danh), là quần thể lớn mà kết quả nghiên đợc ngoại suy:

Ví dụ: Quần thể phụ nữ 15 – 49 tuổi có 3 con, nữ y tá phòng mổ, nam công nhân nhà máy cao su tuổi nghề từ 15 năm trở lên...Trong những quần thể nh thế, ta chỉ lấy một số cá thể vào mẫu nghiên cứu, rồi từ kết quả nghiên cứu đợc, ta sẽ quy ra cho toàn bộ quần thể này. Lý tởng nhất nếu cả quần thể nghiên cứu và quần thể đích là một.

Ví dụ 1: trẻ em 5 tuổi một tỉnh có thể coi là một quần thể đích cho việc nghiên cứu tình trạng suy dinh dỡng. Tuy nhiên, do một lý do nào đó, mẫu nghiên cứu có thể chỉ đợc rút ra từ số trẻ em của 3 huyện A, B, C, trong số 10 huyện của tỉnh. Khi đó trẻ em ≤ 5 tuổi tại 3 huyện này là quần thể nghiên cứu.

1.3. Đơn vị quan sát (observation unit) và đơn vị mẫu (sampling unit).

Đơn vị quan sát là một chủ thể hoặc ngời mà sự quan sát hoặc đo lờng sẽ đợc làm trên chủ thể đó khi thực hiện nghiên cứu.

Đơn vị mẫu là chủ thể đợc sử dụng khi chọn mẫu nghiên cứu.

Trong nhiều trờng hợp, hai khái niệm này trùng nhau, tuy nhiên, nhiều trờng hợp chúng lại khác nhau.

Ví dụ 2: trong một cuộc đánh giá tình trạng bệnh sốt rét của một xã, việc xác định ký sinh trùng sốt rét đợc tiến hành lấy mẫu máu làm xét nghiệm ở từng cá thể. Tất cả các cá thể trong xã đều đợc chọn vào mẫu thăm khám. Khi ấy, đơn vị mẫu và đơn vị quan sát là trùng nhau.

Ví dụ 3. Trong một cuộc đánh giá tình trạng suy dinh dỡng của trẻ em 5 tuổi, do≤ danh sách của các đối tợng này thờng là không có sẵn trong cộng đồng nên danh sách các hộ gia đình đợc sử dụng để chọn mẫu. Tất cả trẻ em 5 tuổi trong các hộ gia đình đ≤ ợc chọn vào mẫu để khám. Khi đó đơn vị quan sát là trẻ em 5 tuổi, còn đơn vị mẫu là hộ gia≤ đình.

1.4. Khung mẫu(sampling)

Khi tiến hành chọn mẫu từ một quần thể nghiên cứu, cần thiết phải có một danh sách các đơn vị mẫu hoặc bản đồ phân bố các đơn vị mẫu. Danh sách hoặc bản đồ nh vậy đợc gọi là khung mẫu. Có đợc khung mẫu đầy đủ và chính xác là điều kiện thuận lợi cho bớc chọn mẫu.

1.5. Những sai số có thể gặp phải trong nghiên cứu mẫu và cách khắc phục

Có rất nhiều. Tuỳ loại hình mẫu nghiên cứu mà loại sai số nào là nghiêm trọng nhiều hay ít, có thể tránh đợc, hay hạn chế đợc đến đâu...Những loại sai số quan trọng, chung nhất, thờng gặp phổ biến là: (xin xem thêm ở sách đã dẫn).

a) Sai số lấy mẫu.

Sai số lấy mẫu là sai số sẽ gây ra sự khác biệt giữa kết quả mẫu và kết quả thực của quần thể. Trên thực tế, kết quả thực của quần thể ta không đợc biết (vì không nghiên cứu quần thể toàn bộ), ta thờng gọi nó là kết quả lý thuyết (trung bình lý thuyết, hoặc tỷ lệ lý thuyết), nên ta cũng không biết đợc kết quả mẫu có khác biệt không, và nếu có thì khác biệt đến đâu, khác biệt nh thế nào đối với kết quả thực của quần thể.

Ta sẽ phải dựa vào các thủ tục chọn mẫu thích hợp, một cách chặt chẽ, tuân thủ nghiêm ngặt và đầy đủ các thủ tục chọn mẫu này. Đợc nh thế, và cũng chỉ có nh thế, chúng ta mới làm đợc cho sai số lấy mẫu số là nhỏ nhất, để kết quả mẫu gần kết quả thực của quần thể.

Sai số do các biến thiên ngẫu nhiên.

Sai số chọn là sai số nảy sinh khi chúng ta chọn không đúng các đối tợng vào trong mẫu, thí dụ chúng ta đã chọn phải bộ phận không đại diệ của quần thể, nh khi ta nghiên cứu tỷ lệ một bệnh nào đó trong quần thể học sinh, lại không bao gồm số học sinh nghỉ học (có nhiều khả năng nghỉ học chính ta định tìm) mà chỉ thăm khám trong số học sinh có đến tr- ờng chẳng hạn. Sai số chọn không thể tính đợc, chỉ có bản thân ngời nghiên cứu mới biết đ- ợc cần làm nh thế nào để tránh đợc.

Còn sai số sẽ do các biến thiên ngẫu nhiên nảy sinh phụ thuộc vào may rủi từ mẫu này sang mẫu khác, dù ta tuân thủ triệt để các thủ tục chọn mẫu thì cũng thật khó hy vọng lặp lại những mẫu nh nhau khi lấy mẫu nhiều lần. Ngời ta có thể hạn chế sai số này bằng hai cách: Quần thể định danh từ đó rút mẫu ra phải đồng nhất (định nghĩa về quần thể định danh phải chặt chẽ, rõ ràng) và tính ngẫu nhiên trong quá trình chọn các cá thể vào mẫu phải đảm bảo đúng đắn, đầy đủ từ đầu đến cuối ở tất cả các bớc cần phải áp dụng kỹ thuật ngẫu nhiên.

b) Sai số có tính chất hệ thống.

Trong nghiên cứu mẫu, các yếu tố gây nhiễu đóng vai trò rất quan trọng. Có những yếu tố nhiễu rõ ràng có thể tránh đợc chung trong nhiều nghiên cứu, những cũng còn có những yếu tố nhiễu tiềm ẩn khác, mà chỉ chính nhà nghiên cứu về vần đề nào đó mới có thể thấy đợc nhờ vào những hiểu biết về cơ chế bệnh sinh, về các yếu tố nguy cơ có thể có tác dụng với bệnh, về các hiểu biết mới phát sinh của y học...mới có thể loại bỏ đợc hoặc hạn chế đợc các sai số này, cùng với việc áp dụng các kỹ thuật ghép cặp, các kỹ thuật chuẩn hoá...

1.6. Tính ngẫu nhiên trong việc chọn mẫu.

Tính ngẫu nhiên ở đây đợc toán học quy định, những nhà y học chúng ta hiểu theo cách gần đúng là không hề có một ý định chủ quan nào của bất cứ một ai, ở bất kỳ bớc nào của việc chọn mẫu.

Một mẫu đợc gọi là mẫu ngẫu nhiên khi các cá thể trong quần thể định danh đợc chọn vào mẫu cùng với một cơ hội may rủi nh nhau, nói theo ngôn ngữ thống kê là mọi ngời đều có cùng một xác suất phản ánh vào trong mẫu.

Mẫu đợc lấy ngẫu nhiên có hai u điểm:

- Giảm tối thiểu đợc sai số.

- Xác định đợc tính chính xác của kết quả nghiên cứu mẫu.

Nếu mẫu đợc lấy ngẫu nhiên thực sự, thì đáng ngại chỉ còn là có sai số ngẫu nhiên (mà chúng ta có thể làm giảm thiểu bằng xác định tính đồng nhất của quần thể định danh nh trên đã nói, và mở rộng cỡ mẫu hợp lý).

1.7. Sai số chuẩn

Cần phải phân biệt độ lệch chuẩn với sai số chuẩn. Độ lệch chuẩn là số đo độ phân tán của các trị số của tiêu thức nghiên cứu là các trị số thu đợc ở từng đơn vị nghiên cứu (đơn vị thống kê) trong dãy thống kê so với số trung bình của tiên thức của dãy đó. Thí dụ: lợng cholesterol của từng ngời so với lợng cholesterol trung bình của quần thể đó. Độ lệch chuẩn, nh vậy, để xác định khoảng dao động của các số đo đó, để cho ta khái niệm về dãy thống kê đó phân tán nhiều hay ít.

Còn sai số chuẩn thuộc phạm trù quan niệm khác, sai số chuẩn nói lên tính biến thiên của các kết quả thống kê của mẫu (tính biến thiên của số trung bình mẫu hoặc tính biến thiên của tỷ lệ mẫu). Cần phải hiểu tính biến thiên này là tính biến thiên của kết quả nghiên cứu từ một mẫu này sang một mẫu khác trong cùng một quần thể nghiên cứu (khi ta làm

nhiều mẫu cùng cỡ lặp lại trong một quần thể, thì các kết quả mẫu đó sẽ khác nhau: chúng ta nói là kết quả mẫu có tính biến thiên). Sai số chuẩn càng nhỏ thì tính biến thiên càng nhỏ, và kết quả nghiên cứu càng nhiều tin cậy. Sai số chuẩn dùng trớc hết là để xây dựng các khoảng tin cậy.

1.8. Giới hạn tin cậy.

Khoảng tin cậy dùng để tổng quát hoá thành kết quả quần thể từ kết quả nghiên cứu mẫu. Khoảng tin cậy có hai giới hạn: cận trên và cận dới. Khoảng tin cậy nh vậy là một khoảng số nào đó có giới hạn rõ ràng, để cho giá trị thực của quần thể (là một con số có thực, nhất định có, nhng ta không có đợc vì không điều tra toàn bộ quần thể), nhất định là rơi vào trong khoảng đó, ở một điểm nào đó. Khi nếu khoảng tin cậy bao giờ cũng phải nêu rõ khoảng tin cậy bao nhiêu phần trăm, điều này gắn liền với xác suất tin cậy. Thí dụ khi ta nêu 95% khoảng tin cậy, thì chúng ta đã nói rằng có tới 95% khả năng là khoảng đó có chứa đựng giá trị thực của quần thể. Đối với những cỡ mẫu đủ lớn hợp lý thì khoảng tin cậy 95% đợc biểu thị nh sau:

95% CI = kết quả mẫu ± 2 sai số chuẩn.

2. Các kỹ thuật chọn mẫu và u nhợc điểm

Có hai nhóm kỹ thuật chọn mẫu là: chọn mẫu xác suất (probability sampling) và mẫu không xác suất (nonprobability sampling).

2.1. Mẫu xác suất

Mỗi cá thể trong quần thể đều có một cơ hội biết trớc để đợc chọn vào mẫu.

Cơ sở của chọn mẫu xác suất :Kỹ thuật này chỉ thực hiện đợc khi biết khung chọn mẫu của quần thể nghiên cứu.

2. 1.1 Mẫu ngẫu nhiên đơn (single random sampling):

Là mẫu mà tất cả các cá thể trong quần thể có cùng cơ hội đợc chọn vào mẫu nh nhau. Ví dụ : Chọn 500 hồ sơ từ 5000 hồ sơ sản phụ đã đẻ tại Bệnh viện Phụ sản Hà Nội trong năm 1998 để nghiên cứu. Theo cách chọn ngẫu nhiên đơn thì mỗi sản phụ có xác suất là 10% đợc chọn vào mẫu.

Sơ đồ 1: Cách chọn mẫu ngẫu nhiên đơn, các tham số quần thể và tham số mẫu

Chọn ngẫu nhiên

Các b ớc:

• Lập danh sách (khung mẫu) từ 1 - N

• Dùng bảng số ngẫu nhiên (chú ý các quy ớc sử dụng bảng số ngẫu nhiên) hoặc rút thăm ra số đơn vị mẫu.

Ưu điểm: Quần thể cỡ N Mẫu chọn với cỡ n P à σ P x s

• Cách làm đơn giản, tính ngẫu nhiên và tính đại diện cao

• Là kỹ thuật chọn mẫu xác suất cơ bản và có thể đợc lồng vào tất cả các kỹ thuật chọn mẫu xác suất phức tạp khác.

Nhợc điểm:

• Phải có một khung mẫu các đơn vị mẫu để phục vụ cho chọn mẫu. Điều này không thể có đợc khi một mẫu lớn hoặc mẫu luôn dao động.

• Việc thu thập số liệu sẽ gặp khó khăn khi phân bố của các cá thể đợc chọn vào mẫu tản mạn trong quần thể.

2.1.2 Mẫu ngẫu nhiên hệ thống (systematic sampling):

Mỗi cá thể đợc chọn cách nhau một khoảng hằng định theo sau bởi sự bắt đầu ngẫu nhiên.

Các bớc:

• Lập danh sách (khung mẫu) từ 1 - N

• Xác định khoảng cách mẫu k = N/n (N: số cá thể trong quần thể, n cỡ mẫu chọn) • Một số ngẫu nhiên (i) giữa 1 và k đợc chọn.

• Các cá thể có số thứ tự i + 1k; i + 2k; i + 3k.. . sẽ đợc chọn vào mẫu cho đến khi kết thúc danh sách.

Sơ đồ 2 : chọn mẫu hệ thống với khoảng cách mẫu (k) và số bắt đầu là (i)

k k K K K

...

Số ngẫu nhiên đợc chọn giữa i và k

i + k i + 2k i + 3k i + (n-1)k

Ví dụ: từ ví dụ 1, khoảng cách mẫu k ở đây sẽ bằng N/n và bằng 5000/500 = 10 (k). Tìm số ngẫu nhiên (i), dùng bảng số ngẫu nhiên hoặc làm 10 phiếu có đánh số từ 1 đến 10. Bốc thăm ngẫu nhiên để chọn đợc một số bất kỳ có số thứ tự từ 1 đến 10. Giả sử ta bốc đợc phiếu có số thứ tự là 7 (i) trong 10 phiếu đã cho ở trên. Vậy các cá thể có số thứ tự 7 (i), 17, 27, 37, 47, 57, .4997 sẽ đ… ợc chọn vào mẫu. Cuối cùng ta sẽ chọn đợc đủ n = 500 cá thể theo yêu cầu vào mẫu nghiên cứu và đợc gọi là phơng pháp chọn mẫu ngẫu nhiên hệ thống.

Ưu điểm:

• Nhanh và dễ tiến hành • Mẫu phân bố đều và đại diện

• Không cần biết chính xác danh sach quần thể nghiên cứu. Trong một số trờng hợp, mặc dù khung mẫu không có sẵn hoặc không biết tổng số cá thể trong quần thể nghiên cứu, nhng việc chọn mẫu hệ thông vẫn có thể tiến hành bằng cách xác định một quy luật phù hợp trớc khi tiến hành chọn mẫu.

Ví dụ 1 : Để thu thập đợc số liệu về sẹo lao ở trẻ em trong một cộng đồng vùng nông thôn khi không biết danh sách các hộ gia đình, ngời nghiên cứu có thể xác định một quy luật chọn mẫu trớc thu thập số liệu nh sau:

- Hộ gia đình thứ nhất có thể là hộ nằm ở bên phải của Uỷ ban nhân dân xã hoặc Trạm y tế xã

- Các hộ tiếp theo sẽ cách hộ vừa điều tra 5 hộ về bên trái i

- Tất cả các trẻ em trong các hộ gia đình đợc chọn đều đợc kiểm tra sẹo lao cho đến khi đủ số trẻ cần cho cuộc điều tra.

- Số hộ gia đình cần điều tra có thể đợc ớc đoán từ số trẻ trung bình trong một gia đình ở cộng đồng này và số trẻ cần nghiên cứu (cỡ mẫu).

Ví dụ 2:

1) Tất cả các bệnh nhân đến khám vào ngày thứ t trong tuần sẽ đợc chọn vào mẫu. Bệnh nhân đến khám ngày lẻ sẽ chọn vào nhóm 1, đến ngày chẵn chọn vào nhóm 2 để phục vụ cho một thử nghiệm nào đó.

2) Các cá thể đứng thành một vòng tròn, sau đó đếm lần lợt theo số thứ tự: 1,2,3; rồi lặp lại cho đến hết. Ngời đợc chọn đếm số 1 phải đợc chọn ngẫu nhiên. Các cá thể số 1 vào nhóm 1; số 2 nhóm 2; số 3 nhóm3. Nh vậy ta đã có 3 nhóm đợc chọn một cách ngẫu nhiên cho một thử nghiệm.

Nhợc điểm:

• Khó khăn khi xây dựng khung mẫu

• Phụ thuộc vào phân bố đặc trng nghiên cứu ở quần thể. Khoảng cách ”k” có thể trùng với một số quy luật nào đó của quần thể chọn mẫu.

2. 1.3. Mẫu ngẫu nhiên phân tầng (stratified random sampling):

Là mẫu đạt đợc bởi việc phân chia các cá thể của quần thể nghiên cứu thành các nhóm riêng rẽ đợc gọi là tầng và cách chọn mẫu ngẫu nhiên đơn sẽ đợc sử dụng trong mỗi tầng.

Sơ đồ 3: Chọn mẫu phân tầng trong điều tra sử dụng dịch vụ y tế của các đối tợng kinh tế khác nhau của một cộng đồng.

n1 n2 n3 Mẫu đợc chọn từ các tầng khác nhau vào nghiên cứu

Các b ớc: Tất cả các Hộ của công đồng A Hộ T/B Hộ nghèo Hộ giàu

- Phân chia quần thể nghiên cứu thành các tầng khác nhau dựa vào một hoặc vài đặc điểm nào đó nh nhóm tuổi, giới. tầng lớp xã hội, dân tộc, kinh tế giàu nghèo. . giữa các tầng không có sự chồng chéo.

- Thực hiện việc chọn mẫu ngẫu nhiên đơn trong từng tầng.

Ưu điểm:

• Mẫu đạt đợc từ mỗi tầng có tính đại diện và khái quát cao cho tầng đó • Số liệu thu thập thuận tiện hơn so với mẫu ngẫu nhiên

• Khi sử dụng mẫu tỷ lệ, tầng có kích cỡ lớn hơn sẽ có nhiều cá thể đợc chọn vào mẫu hơn. Khi đó cỡ mẫu cho một tầng i nào đó sẽ là:

ni = n.x N Ni . Nhợc điểm:

• Đòi hỏi phải có khung mẫu trong mỗi tầng của mỗi cá thể trong quần thể để gán số ngẫu nhiên. Điều này khó thực hiện đợc trong thực tế.

Nhóm các cá thể đợc rút ra từ quần thể nghiên cứu để phục vụ trực tiếp cho mục tiêu nghiên cứu đợc gọi là mẫu nghiên cứu.

Các kỹ thuật thu thập thông tin

Các kỹ thuật thu thập thông tin khác