n s t
y± 0,05(n−1) Ước lượng khoảng mà trung bình tổng thể (không biết) sẽ nằm trong với xác suất là 95%. Giúp xác định mức độ chính xác của ưóc lượng trung bình tổng thể khi độ chính xác của ưóc lượng trung bình tổng thể khi được trình bày với kích thước mẫu (n) và xác suất cụ thể.
Bảng 3.2. So sánh độ chính xác của ước lượng và các thông số thống kê của mẫụ SV: sinh viên; GTTB: giá trị trung bình; S.D.: standard deviation; S.Ẹ: standard error.
SV Số liệu ño ñược (n = 10) GTTB (mm) ðộ lệch chuẩn (S.D.) Sai số chuẩn (S.Ẹ) Hệ số biến thiên (C.V., %)
Khoảng tin cậy 95% Khoảng dao ñộng 1 76 73 75 73 74 74 74 74 74 77 74,4 1,26 0,40 1,7 73,5 – 75,3 73 – 77 6 75 79 75 74 75 74 71 73 75 73 74,4 2,07 0,65 2,8 72,9 – 75,9 71 – 79 7 75 70 73 75 70 72 72 71 76 73 72,7 2,11 0,67 2,9 71,2 – 74,2 70 – 76 Tổng thể 74,4 68 – 80
Người ta cũng có thể tính sai số chuẩn của mẫu (standard error of the mean), tức là ñộ lệch
chuẩn của trung bình mẫu so với trung bình của tổng thể và trình bày cùng với giá trị trung bình mẫu tính được. Sai số chuẩn (ký hiệu là S.Ẹ) bằng ñộ lệch chuẩn chia cho căn bậc 2 của n; n là kích thước mẫụ Khi ta thu mẫu nhiều lần từ một tổng thể, như 10 sinh viên trong ví dụ 3.1, thì các trung bình mẫu sẽ có phân phối chuẩn – phân bố xung quanh trung bình tổng thể (nhớ là ta khơng thể biết được giá trị này trong thực tế). Như vậy, nếu ta trình bày trung bình mẫu ± S.Ẹ thì người đọc có thể tính được khoảng mà 95% trung bình tổng thể sẽ rơi vào đó. Khoảng này gọi là khoảng tin cậy 95%, gồm có 2 cận: trên và dướị Cận trên = n s t y+ 0,05(n−1) Cận dưới = n s t y− 0,05(n−1)
Tra bảng phân phối t để tìm giá trị t tương ứng với ñộ tự do (n – 1).
Trong các nghiên cứu về sinh học người ta hay sử dụng hoặc là ñộ lệch chuẩn, hoặc là khoảng tin cậy 95%. Hiện nay ở các tạp chí khoa học về NTTS, người làm nghiên cứu sử dụng sai số chuẩn nhiều hơn là khoảng tin cậy 95%. Lý do là cách thức trình bày sai số chuẩn (trung bình mẫu ± S.Ẹ) giống như cho độ lệch chuẩn (trung bình mẫu ± S.D.), không cần thiết phải chèn thêm cột nếu trình bày khoảng tin cậy 95%. Ngồi ra, sai số chuẩn nhỏ hơn độ lệch chuẩn. Vì thế khác biệt giữa các phép đo “có vẻ nhỏ hơn”. Chọn thông số nào trong 3 thông số này tuỳ thuộc vào ý đồ của người làm nghiên cứụ Chúng có liên hệ chặt chẽ với nhau và có thể qui ñổi qua lại dễ dàng với kích thước mẫu (n) mà người làm nghiên cứu phải cung cấp trong báo cáo của mình. ðộ lệch chuẩn ln là lựa chọn đầu tiên.
Các thơng số quan trọng khác
Cần lưu ý rằng các thông số thống kê khác như: số trung vị (median), số mode cũng rất quan trọng, ñặc biệt khi mơ tả tần số bắt gặp hay phân tích tần số trong các nghiên cứu thuộc dạng ñiều tra hoặc trong các thí nghiệm mà ở đó trung bình mẫu không gần với trung vị hoặc số modẹ Nguyên nhân có thể là do một số giá trị quan sát ñược phân bố q xa so với các giá trị cịn lạị Vì thế kéo trung bình mẫu ra xa khỏi trung vị hoặc số mode (giá trị quan sát ñược lặp lại nhiều lần nhất). Trong nhiều trường hợp, đây có thể là một sai sót trong q trình thu mẫu, đo đạc hoặc bố trí thí nghiệm. Có thể vì một lý do nào đó (mà người làm nghiên cứu khơng biết hoặc khơng chủ định làm) khi thực hiện nghiên cứu ví dụ nhiệt ñộ trong một bể nuôi cá tăng hoặc giảm ngồi mong muốn hoặc cơng nhân tiêm hóc mơn kích dục cho cá hơi thừa hoặc hóc mơn khơng vào cơ thể cá. Người làm nghiên cứu phải kiểm tra lại xem vì sao lại có những quan sát nàỵ
Có nhiều trường hợp những sai sót dạng này lại dẫn ñến một phát hiện mớị Chẳng hạn như nhiệt ñộ trong bể nuôi tôm He Nhật bản thành thục tăng lên 1oC khi tơm đạt ñến giai ñoạn IV sẽ kích thích tơm đẻ trứng. Tuy nhiên, sai sót như thế đã làm hỏng thí nghiệm ta đang quan tâm. Nếu có thể khẳng định khơng có sai sót gì thì đây là là những số liệu này là những quan sát hết sức thú vị và người làm nghiên cứu phải ñể ý quan sát kỹ hơn. Chẳng hạn cùng một kích thước, độ tuổi và điều kiện ni vỗ có những con cá đẻ nhiều hơn những con cịn lạị Sai khác lớn đó là do di truyền, hay do một yếu tố nào khác tác ñộng mà người làm nghiên cứu chưa ñể ý quan sát ñược.
ðộ bất xứng (skewness) và độ gom tụ (Kurtosis) cũng là các thơng số rất hữu ích (Underwood 2005) khi phân tích thống kê các số liệu thu ñược từ nghiên cứu sinh học và NTTS. Các thông số này cung cấp cho ta thêm nhiều thơng tin hữu ích về diễn biến của các quá trình xảy ra trong tự nhiên. ðộ bất xứng là thơng số ước lượng mức độ phân bố lệch của số liệu so với trung tâm của
phân bố. Ta có thể dùng kiểm định để xác ñịnh mức ñộ bất xứng của một mẫu so với phân bố chuẩn bằng cách tính hệ số bất xứng – coefficient of skewness (Snedecor & Cochran 1989). Trong các phần mềm thống kê đều có kiểm định này ở phần thống kê mơ tả (descriptive). Ngược lại với ñộ bất xứng là ñộ gom tụ (thơng số Kurtosis). Thơng số này xác định mức gom tụ của số liệu xung quanh trung tâm của phân bố. Có 2 loại: leptokurtotic (có 1 đỉnh giữa, ña phần số liệu tập trung quanh giá trị trung bình) và platykurtotic (số liệu phân bố rải rác, khơng tập trung quanh giá trị trung bình). Thơng số này cho phép chúng ta phát hiện ảnh hưởng của các yếu tố khác nhau lên các nhóm kích thước khác nhau của quần thể nghiên cứụ Ví dụ như với bọn có kích thước nhỏ chịu ảnh hưởng của các yếu tố thủy lý thủy hố, đối với bọn lớn chịu ảnh hưởng của thức ăn hoặc ñịch hạị Tất nhiên là số lượng mẫu phải ñủ lớn và cơng tác thu mẫu được tiến hành đều đặn. Có thể ứng dụng trong phân tích số liệu của các chương trình quan trắc nguồn lợị
VÍ DỤ 3.2. Phát hiện một hiện tượng sinh học nhờ phân tích ñộ bất xứng trong phân bố của số liệu thu thập
ñược.
Nghiên cứu viên A theo dõi tốc ñộ tăng trưởng của cá trong ao nuôị Chị thu mẫu 3 lần liên tục, mỗi lần cách nhau 1 tháng. Phân bố về kích thước của cá trong ao thay ñổi dần từ phân bố chuẩn sang bất cân xứng, ngày càng rõ nét hơn. Chắc chắn trong ao ni đang xảy ra một hiện tượng gì đó khi cá đạt kích thước 12 g. Có thể cá đổi thức ăn mà trong ao khơng có. Có thể trong ao có địch hại chỉ ăn cá lớn cỡ 12 g trở lên mà thơị Có thể cá bị nhiễm mầm bệnh mà bệnh chỉ phát ở cỡ 12 g trở lên.
Hình 3.1: ðộ bất xứng (skewness) của phân bố có thể giúp phát hiện một hiện tượng sinh học có liên quan đến kích thước của đối tượng nghiên cứụ Biểu đồ tần suất phân bố được trình bày cho 3 lần thu mẫu liên tiếp của một quần thể cá, càng về sau càng lệch. Tỉ lệ hao hụt cao khi cá ñạt khối lượng thân là 12 g.
3.4.3 Phân tích tần suất
Các nghiên cứu thuộc dạng quan sát, điều tra, quan trắc thường có số liệu chủ yếu dưới dạng tần suất. Chẳng hạn như tần suất bắt gặp các cá thể thành thục ở 5 giai ñoạn khác nhau, tần suất bắt gặp của giới ñực và cái trong mẫu thu ñược qua hàng tháng, tần suất bắt gặp các lồi động thực vật nổi
0 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0 2 4 6 8 10 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Khối lượng thân (g)
S ố c á t h ể ( c o n ) Tháng 1 Tháng 2 Tháng 3
tại ñiểm nghiên cứu, tần suất các trại ni tơm bị nhiễm bệnh đốm trắng ở 3 mơ hình: quảng canh, bán thâm canh và thâm canh … Kiểm định CHI bình phương (χχχχ2
) được dùng để xử lý số liệu dạng nàỵ
• Kiểm ñịnh χχχχ2 có thể ñược sử dụng cho nhiều mục đích khác nhau, bao gồm: ñánh giá ñộ ñồng nhất (homogeneity), ñộ ngẫu nhiên (randomness), ñộ liên kết (association), ñộ ñộc lập (independence) và mức ñộ phù hợp (goodness of fit).
• Ngun tắc của kiểm định cho mọi mục đích là như nhaụ Kiểm định sẽ so sánh tần suất kỳ
vọng (lý thuyết) với tần suất quan sát ñược (thực tế). Giả ñịnh của kiểm ñịnh là số liệu
ñược thu một cách ngẫu nhiên và độc lập.
• Ho: tần suất kỳ vọng = tần suất quan sát được; H1: khơng giống nhaụ Kiểm định này chỉ có một đầu (one-tailed test).
• Cơng thức tính: χ2 = ∑ = − n i E E O 1 2 ) (
, trong đó O: tần suất quan sát và E: tần suất kỳ vọng. Nếu
χ2 tính được lớn hơn giá trị χ2 tra từ bảng tương ứng với xác xuất p = 0,05 hay 0,001 và ñộ tự do (df = số nhóm so sánh – 1) thì sự khác biệt giữa các nhóm là có ý nghĩạ
• Nếu sử dụng phần mềm SPSS, ta có thể gọi kiểm ñịnh này bằng cách chọn từ Menu mục
Analyze, chọn tiếp Non-parametric, chọn Chi square (xem hướng dẫn chi tiết ở Kinnear &
Gray 2004).
LƯU Ý:
• Giả định quan trọng nhất của kiểm định χχχχ2 là các quan sát phải ñộc lập với nhau và các ñơn vị thu mẫu phải phân bố rải rác (random). Nếu khơng đảm bảo được điều này, kiểm ñịnh khơng có giá trị. Với các ñối tượng phân bố khơng đồng đều do lối sống bầy ñàn (gregariousness) hoặc phân chia vùng lãnh thổ (territoriality), giả định này bị vi phạm. • Kích thước mẫu phải ñủ lớn ñể tần suất kỳ vọng của mỗi hạng mục lớn hơn 5. Trong trường
hợp, khi tần suất kỳ vọng không như nhau giữa các hạng mục, chỉ được phép có khoảng 1/5 số hạng mục có tần suất kỳ vọng nhỏ hơn 5 và khơng có hạng mục nào có tần suất kỳ vọng nhỏ hơn 1. Tần suất quan sát phải là số đếm, khơng thể là tỉ lệ hoặc tỉ lệ phần trăm.
• Áp dụng hiệu chỉnh Yates khi dùng kiểm ñịnh χχχχ2 để sosánh 2 nhóm (độ tự do = 1). Nếu khơng áp dụng hiệu chỉnh Yates thì giá trị χ2 tính được thường rất lớn, tức là kiểm định ln có ý nghĩạ Hiệu chỉnh Yates trừ bớt 0,5 từ mỗi trị tuyệt ñối của hiệu (O – E). Ví dụ: bắt 12 con tơm giống, ni đến khi xác định được giới tính thấy có 8 con cái và 4 con ñực. Dùng kiểm ñịnh χχχχ2 ñể xem tỉ lệ đực cái của đàn tơm có khác 1:1 không? Nếu ta không hiệu chỉnh, giá trị χ2 sẽ là 4,0. Nếu hiệu chỉnh chỉ là 3,06. Như vậy nếu so với giá trị của χ2 = 3,84 tra ñược từ bảng với P = 0,05 và df = 1 thì kết quả khác nhau hồn tồn.
• Khi khơng sử dụng được kiểm định χχχχ2, nếu muốn so sánh về tần suất bắt gặp giữa các vùng thì phải có giả thuyết lý giải sự khác biệt đó (tức là theo người nghiên cứu, nguyên nhân nào tạo ra sự khác biệt nàỷ) và phải thu mẫu lặp lại ở trong các phân vùng. Sau đó dùng phân tích phương sai – ANOVA để xử lý số liệụ Cần xem xét khả năng ñáp ứng các giả ñịnh của ANOVA trước khi thực hiện kiểm ñịnh này và chuyển dạng số liệu nếu cần thiết.
• Ta cũng có thể chuyển số liệu từ dạng liên tục sang thành không liên tục bằng cách phân khoảng, ví dụ kích thước của cá Giị bố mẹ (Rachycentron canadum) từ 14,1 ÷ 18,0; 20,1 ÷
24,0 và 26,1 ÷ 30,0 kg thành ba nhóm: nhỏ, trung bình và lớn. Sau đó trong số những con đẻ trứng, xem có bao nhiêu con trong mỗi nhóm. Tính thử xem có liên quan giữa kích thước với khả năng sinh sản khơng bằng cách áp dụng kiểm ñịnh χχχχ2.
CÁC ỨNG DỤNG CỦA KIỂM ðỊNH χχχχ2
Kiểm định này có thể được dùng để trả lời các câu hỏi nghiên cứu như: có chủng loại nào chiếm ưu thế hay không trong số những chủng loại nghiên cứủ số liệu có độc lập với nhau khơng? phân phối của số liệu có đúng như ta phán đốn hay khơng? ðể tìm hiểu thêm về các ứng dụng này, xem chương 13 trong Flower et al. (2002). Ở đây tơi chỉ trình bày cách thức sử dụng kiểm ñịnh ñể ñể kiểm tra mối quan hệ giữa các biến với nhaụ
VÍ DỤ 3.3. Thức ăn ưa thích của tơm Mũ ni ñỏ và tôm Sú
Một người nghiên cứu cho tôm mẹ của 2 lồi Mũ ni đỏ (Scyllarides squammosus) và tôm Sú (Penaeus
monodon) ăn 2 loại thức ăn là mực ống tươi và nghêu Bến Trẹ Tôm được ni riêng biệt mỗi con trong một bể