VAI TRÒ CỦA TOÁN THỐNG KÊ TRONG NGHIÊN CỨU Y HỌC Cơ thể Con người là một thực thể sinh học cũng như các sinh vật khác, luôn chịu sự tác động qua lại của các yếu tố môi trường, vũ trụ xu
Trang 1Phần II THỐNG KÊ ỨNG DỤNG TRONG
NGHIÊN CỨU Y HỌC
Trang 2VAI TRÒ CỦA TOÁN THỐNG KÊ TRONG NGHIÊN CỨU Y HỌC
Cơ thể Con người là một thực thể sinh học cũng như các sinh vật khác, luôn chịu
sự tác động qua lại của các yếu tố môi trường, vũ trụ xung quanh Sự khoẻ mạnh của một con người, của một quần thể dân cư nằm trong mối liên quan tổng hợp với các yếu
tố môi trường và sinh thái Các quá trình sinh lý, sinh hoá diễn ra trong cơ thể cũng tuân theo một quy luật toán học về mặt sinh học
Việc sử dụng toán thống kê trong nghiện cứu Y học nói riêng, Y sinh học nói chung sẽ góp phần đánh giá một cách chuẩn xác các vấn đề sức khoẻ và bệnh tật, đồng thời cũng xác định được mối tương quan, quan hệ nhân quả của các yếu tố tác động sinh ra trong môi trường lên sức khoẻ và bệnh tật của cộng đồng
Ngày nay các nghiên cứu điều tra cơ bản, nghiên cứu can thiệp hoặc các giải pháp công nghệ cũng được toán học hoá để tìm ra những quy luật trong sức khoẻ cộng đồng Các giải pháp ưu tiên và những can thiệp sẽ hữu hiệu hơn nếu như vấn đề được bao quát đủ cả hai mặt định tính và định lượng Như vậy sự cần thiết phải tập hợp, phân tích và so sánh nhiều số liệu quan trắc, đúc kết thành quy tắc, quy luật định lượng hoá có thể ứng dụng được là điều đương nhiên
Thống kê Y sinh học (Biostatistics): là môn toán ứng dụng, sử dụng toán học để nghiên cứu, phân tích các vấn đề Y học và sinh học, đó chính là sự toán học hoá các vấn đề sinh học và sức khoẻ con người, làm cho nó phổ biến và đặc trưng cũng như sự trừu tượng hoặc cụ thể về nội dung và hình thức được nâng lên một bước rõ rệt và sâu sắc hơn để cho sự hiểu biết cũng tiến dần đến bản chất
Từ một môn học mô tả và định tính, trong quá trình phát triển, thống kê đã trở thành môn khoa học ứng dụng, chính xác hoá với nhiều phương tiện hiện đại trợ giúp con người trong quá trình tính toán, xử lý các số liệu nghiên cứu đã thu được trên thực
tế như các thế hệ máy vi tính mới, ngôn ngữ lập trình sâu và rộng có thể giải đáp được nhiều vấn đề nhanh chóng và phức tạp, như các phần mềm EPI- INFO, SPSS
Toán thống kê trong y sinh học được trình bày trong khuôn khổ cuốn tài liệu này bao gồm một số vấn đề cơ bản sau đây:
1 Thu thập số liệu: phần này được trình bày một cách sơ lược và sẽ bổ xung trong quá trình thực hiện các nhiệm vụ nghiên cứu Đây là giai đoạn quan trọng nhất
mà mỗi nhà nghiên cứu cần phải lưu tâm Các số liệu nghiên cứu cần được thu thập đầy đủ và chính xác, sau đó được kiểm tra một cách khoa học sẽ là cơ sở chắc chắn và đáng tin cậy cho tất cả những giai đoạn kế tiếp
2 Sắp xếp và trình bày số liệu thu được, tìm ra những tham số đặc trưng Thông thường việc sắp xếp phải theo những ý tưởng và kỹ thuật phù hợp với mục tiêu nghiên
Trang 3cứu thì mới có được cách giải quyết vấn đề phù hợp, đồng thời cũng nổi rõ.được kết quả
3 Nghiên cứu các quy luật biến thiên của các trị số quan trắc thực tế, xây dựng thành mô hình lý thuyết, toán học hoá Đây là yêu cầu bắt buộc đối với những người làm nghiên cứu ở trình độ cao vì qua đó những vấn đề nghiên cứu sẽ được khẳng định một cách khoa học nhất
4 So sánh các tập hợp số liệu với nhau về bản chất cũng như các vấn đề có liên quan giữa các chùm số liệu được quan trắc
Trang 4CÁC KHÁI NIỆM THỐNG KÊ CƠ BẢN
1 Tập hợp
1.1 Khái niệm
Trong nghiên cứu, quan sát một nhóm các số liệu hoặc một nhóm các cá thể ta nới tầng có một tập hợp mà mỗi cá thể trong đó gọi là một phần tử của tập hợp
Ví dụ: Một lớp học 50 người được xem là một tập hợp trong đó mỗi người là một
phần tử của tập hợp
1.2 Sắp xếp các số liệu trong tập hợp
Khi nghiên cứu với số lượng càng nhiều các số liệu, việc sắp xếp chúng càng trở nên cần thiết Cách sắp xếp số liệu cần dựa trên cơ sở định tính và định lượng và phân nhóm cụ thể Về nguyên tắc ta nên xếp các nhóm dựa vào định tính với thuộc tính đồng khả năng sau đó mới tính đến thuộc tính về lượng và theo thứ bậc từ thấp đến cao hoặc ngược lại Tuỳ loại hình nghiên cứu mà có cách sắp xếp phù hợp tạo thành chuỗi thống kê
Ví dụ:
+ Phân nhóm theo lứa tuổi:
0 - 4 tuổi
5 - 9 tuổi
10 - 14 tuổi
15 - 19 tuổi
20 - 29 tuổi
30 - 39 tuổi
…………
60 - 69 tuổi
≥ 70 tuổi
Ngay cách phân nhóm này cũng có thể chi tiết hơn hoặc tổng hợp hơn
+ Phân nhóm theo thời gian:
Trong nghiên cứu bệnh lý lâm sàng ngoại khoa có thể chia ra các nhóm, các trường hợp viêm ruột thừa đến trước 24 giờ, (24 - 28 giờ, 48 - 72 giờ, sau 72 giờ)
+ Sắp xếp theo khoảng cách: khi đo chiều cao, cân nặng Ta xếp các nhóm có
khoảng cách gần nhau vào các nhóm để số lần ghi chép, tính toán sẽ giảm đi
Trang 5Ví dụ:
Nhóm 141 - 145 cm
Nhóm 146 - 150 cm
Nhóm 151 - 155 cm
Nhóm 156 - 160 cm
Nhóm 161 - 165 cm
Nhóm 1 66 - 170 cm
………
2 Xác suất
2.1 Sự kiện
Sự kiện là một vấn đề hoặc kết quả của phép thử Mỗi sự kiện tương ứng với một tập hợp Có sự kiện là tất yếu song có sự kiện là ngẫu nhiên thậm chí có sự kiện lại là
sự kiện không thể nhưng vẫn được đặt ra để tiến hành phép thử trong quá trình nghiên cứu
2.2 Xác suất
Nếu gọi K là số lần xuất hiện sự kiện A trong n phép thử ta có tần suất của A là
tỷ số:
n
K
Khi n tiến dần đến vô hạn (n → ∞) thì tần suất này dao động quanh hằng số p nào
đó, hằng số “p” được gọi là xác xuất của A Ví dụ: Tỷ lệ trẻ em trai được sinh ra ở bệnh viện X
Bảng: Tỷ lệ trẻ em trai được sinh ra ở bệnh viện X năm 2004
Quý Số trẻ sinh Số trẻ trai Tần suất
I 100 45 0,45
II 500 219 0,438 III 1000 432 0,432
IV 2000 861 0,4305
Số sản phụ đến đẻ ở bệnh viện nhiều lên, tần suất trẻ trai được sinh ra dao động quanh giá trị 0,43 Do đó nếu A là sự kiện trẻ sơ sinh trai, gọi F (A) là số lần sinh trẻ trai trong n lần sinh của các sản phụ của bệnh viện X năm 2006 Ta sẽ có: 1
Vậy xác suất P (A) bằng xác suất cả một sự kiện ngẫu nhiên A, là giới hạn của tần suất xảy ra sự kiện A khi n tăng đến vô hạn
Trang 6Ta có: 0 ≤ P (A) ≤ 1
Nếu A là sự kiện tất yếu, P (A) = 1
Nếu A là sự kiện không thể, P(A) = 0
Vậy xác suất P(A) của sự kiện ngẫu nhiên A càng gần 1 thì sự kiện A càng chắc chắn xảy ra và ngược lại
Kết luận với P = 0,999999 xem như chính xác hoàn toàn
Kết luận với P = 0,999 coi như chắc chắn
Kết luận với P = 0,99 thì kết luận là chắc chắn
Kết luận với P = 0,9 thì kết luận này có chiều hướng chắc chắn
3 Quần thể và mẫu
3.1 Quần thể
Quần thể bao gồm các loại: Quần thể tổng quát (quần thể toàn bộ), quần thể định danh, quần thể có nguy cơ, quần thể bị đe doạ Các quần thể này có xu hướng đặc hiệu dần và nhỏ dần Khi chọn mẫu nghiên cứu (n) cho nhóm chủ cứu trong quần thể N ta
có thể chọn trong quần thể nào là tuỳ vào điều kiện và mục đích nghiên cứu
3.2 Mẫu nghiên cứu
Không thể chọn mẫu nghiên cứu là tổng số cá thể trong quần thể toàn bộ N, ví dụ: Toàn thể các cá thể của loài muỗi Aedes aegyty ở Thái Nguyên
Mẫu nghiên cứu n là một tập thể được rút ra từ quần thể N số phần tử nằm trong mẫu (n) gọi là kích thước mẫu
Trang 7CÁC ĐẠI LƯỢNG VÀ CHỈ SỐ THỐNG KÊ
1 Số trung bình và các giá trị trung tâm khác
Khi kết quả nghiên cứu được thu thập và sắp xếp thành các chuỗi thống kê hoặc các phân phối tần số ta cần nhìn nhận một cách chung nhất, có thể tóm gọn lại bằng một số con số để so sánh, đối chứng với nhau hoặc với hằng số hay nghiên cứu tương
tự Đây là sự thể hiện bằng các tham số đặc trưng
Có hai loại tham số đặc trưng thường gặp là:
- Các giá trị trung tâm (giá trị điển hình)
- Các tham số hoặc chỉ số phân tán
1.1 Số trung bình (mean)
Đây là trung bình số học, là giá trị trung tâm thường dùng để làm nên giá trị điển hình hoặc đặc trưng cho chuỗi thống kê
Thí dụ: Đo hàm lượng glucose huyết lúc đói cg/lít ở 17 người (n = 17) ta thu được các số liệu sau:
Bảng: Hàm lượng glucose huyết lúc đói cg/1ít
100 100 100 100 105 105 110 120
Số trung bình ký hiệu bằng (X) của chuỗi thống kê được tính như sau:
Có thể viết một cách tổng quát nếu đại lượng Xi có n trị số X1, X2, X3,…Xn thì
Số trung bình X sẽ được tính như sau:
Σ là chữ cái Hy Lạp viết hoa chỉ một tổng gồm nhiều trị số Muốn thể hiện đầy
đủ ta phải viết Σ dưới dạng ∑=
=
n i 1 i
mà ta phải đọc như sau: “Tổng (hoặc xích ma) các trị
số của đại lượng X từ i = 1 đến i = n”
Ở thí dụ trên ta gặp trị số 85, 95, 100 nhiều lần nên khi tính toán ta có thể nhóm lại cho gọn Các tần xuất này ta gọi là ni
Trang 8Vậy công thức tổng quát là:
Để tính các giá trị mà ni và xi đều lớn người ta có thể đơn giản bằng cách đổi gốc nếu ta chọn được một giá trị xi có tần số n cao nhất gọi là xo như vậy ta sẽ có công thức:
Ví dụ: Cách tính cân nặng trung bình của 815 em bé trai 10 tuổi với các số liệu
như bảng sau:
X 1 n 1 x 1 -x 0 , n 1 (x 1 - x 0 )
16
17
18
19
20
21
22
23
24
25
26
4
9
31
75
183
204
157
97
40
12
3
-5 -4 -3 -2 -1
0
1
2
3
4
5
-20 -36 -93 -150 -183
0
157
194
120
48
15
Áp dụng công thức ta sẽ có:
Nếu giữa các nhóm có khoảng cách K (hằng số) thì công thức sẽ có dạng:
i 0
K
x
x − = ta sẽ có công thức:
Ví dụ: Tính huyết áp tối thiểu (mmHg) của 2750 nam giới được phân bố vào 12
nhóm với khoảng cách K = 5
Trang 9Bảng: Huyết áp trung bình của 2750 nam giới
K
x x
x' i 0 i
−
40
45
50
55
60
65
70
75
80
85
90
95
4
8
90
186
397
464
598
431
315
185
46
25
-30 -25 -20 -15 -10 -5
0
5
10
15
20
25
-6 -5 -4 -3 -2 -1
0
1
2
3
4
5
-24 -40 -360 -558 -794 -464
0
431
630
555
184
125
N = 2750 Σn i ,x i ’ = -321
Ứng dụng công thức ta có:
Số trung bình là một từ số tổng hợp cô đọng, nhưng có đầy đủ giá trị của tất cả những cá thể trong tập hợp Trung bình cộng không chỉ là một trị số đơn thuần giữa các giá trị khác nhau của xi trong tập hợp mà là một trung bình có trọng lượng bởi lẽ
nó được tính ra từ tất cả các cá thể
Số trung bình (X) tiêu biểu cho toàn bộ các cá thể của tập hợp, nó đại diện một cách đầy đủ và chặt chẽ nếu tập hợp có độ đồng nhất cao
Số trung bình tiêu biểu cho một đặc điểm căn bản của tập hợp, đó là xu hướng tập trung trên một cái cốt giống nhau
1.2 Trung vị (median)- Me
Trung vị (Me) là số đứng giữa một chuỗi thống kê đã được sắp xếp Ví dụ: 1 2 2
3 4 6 6 7 9 ở đây Me là số 4 vì nó đứng ở vị trí số 5 trong chuỗi thống kê có n = 9 Vậy: Me =
2
1
n + nếu n là số lẻ
Nếu n là số chẵn thì Me là trị số thứ
2
n và
2 1
n +
Trang 101.3 Mốt (Mode)
Mốt là trị số của xi ứng với tần suất cao nhất, và nghĩa là trị số của xi này được gặp nhiều lần nhất, tương ứng với giá trị xo mà ta đã nói ở trên (1.1) Mode được ký hiệu là Mo Ở bảng huyết áp tối thiểu của 2750 nam giới Mo = 70 mmHg Trên các hình, đặc biệt là biểu đồ đa giác tần số hoặc giản đồ cột ta có thể thấy trực tiếp Mo ở vị trí cao nhất
Mode có giá trị quan trọng về mặt mô tả vì nó cho biết giá trị xi thường gặp nhất, đây là điều cần thiết trong các thống kê ứng dụng Cho nên trong các trường hợp phân phối không đối xứng ta cần biết nó cùng với số trung bình
Bài tập mẫu: Tính giá trị trung bình đối với các số liệu của các bài toán sau:
Chiều cao và cân nặng của sinh viên 2 lớp A và B
Chiều cao lớp A Chiều cao lớp B Cân nặng lớp A Cân nặng lớp B
x i n i x 1 n 1 x 1 n 1 x 1 n 1
158 2 158 4 16 2 16 4
159 3 159 3 17 3 17 6
160 1 160 5 18 4 18 12
161 4 161 6 19 6 19 48
162 6 162 6 20 16 20 71
169 1 169 4 27 35 27 80
170 1 170 3 28 20 28 21
171 2 171 2 29 6 29 17
172 1 172 1 30 1 30 4
Ở bài toán trên có 4 giá trị X ta cần phải tính, như vậy việc cần làm trước hết là chọn công thức nào cho phù hợp? Tiếp theo cần phải lập bảng với số cột tương ứng với số thừa số trong công thức để tính kết quả
2 Các tham số, số đo chỉ sự phân tán
Các tham số đặc trưng cho độ phân tán thường dùng là: Phương sai, độ lệch
chuẩn, hệ số biến thiên Giá trị trung bình chỉ phản ánh được một đặc điểm của chuỗi
thống kê, là xu hướng tập trung của số liệu Trong nhiều trường hợp bản thân hiện tượng hay quá trình đã thay đổi rõ rệt nhưng số trung bình không thay đổi, hoặc thay
Trang 11đổi rất ít Do đó việc đánh giá mức độ phân tán của các số liệu so với số trung bình là không thể bỏ qua được
2.1 Khoảng biến thiên (KBT)
Khoảng biến thiên biểu thị độ phân tán trong một tập hợp một cách đơn giản nhất KBT được xác định bằng hiệu số giữa giá trị lớn nhất và nhỏ nhất của chuỗi số liệu, tính bằng công thức:
R = Xmax - Xmin
Ví dụ: Trọng lượng của hai nhóm thanh niên cùng khu vực được chăm sóc theo chế độ khác nhau và được ghi lại như sau:
Nhóm 1: 40 45 50 55 60 65 70 75 80 (kg)
Nhóm 2: 56 57 58 59 60 61 62 63 64 (kg)
Cả hai nhóm đều có trọng lượng trung bình là 60kg nhưng khoảng biến thiên của hai nhóm khác nhau
R1 = 40 kg
R2 = 8 kg
Như vậy cân nặng nhóm hai đồng đều hơn nhóm một, KBT càng nhỏ, tính đồng nhất của chuỗi thống kê càng cao, giá trị trung bình càng đại diện được cho chuỗi thống kê hơn
2.2 Phương sai (variance) và độ lệch chuẩn
Phương sai của một tập hợp thống kê, là tỷ số giữa tổng bình phương biến sai của các trị số cá thể quanh số trung bình cộng (X) với tổng số bậc tự do của tập hợp Phương sai chỉ có ý nghĩa trong thống kê đơn thuần về mặt toán học Trong thực tế nhà nghiên cứu chỉ thông qua phương sai để tính độ lệch chuẩn bởi vì không thể tính
độ lệch chuẩn trực tiếp bằng toán học Phương sai của một tập hợp giống như cầu nói cho nhà nghiên cứu xác định độ phân tán của dãy số liệu
Phương sai có thể ký hiệu như sau: δ2 hay S2
δ là chữ xích ma thường trong chữ cái Hy Lạp
S là chữ La Tinh, còn có khi viết là SD
Công thức:
nếu n < 30 thì n ở mẫu số sẽ là (n-1)
Trong trường hợp có nhiều số liệu được phân nhóm, để tính số trung bình ta sẽ tìm được xo và đơn vị mới K, ta sẽ có công thức mới:
Trang 12Hoặc đơn giản hơn (không phân nhóm K)
Độ lệch chuẩn S là trị số bậc một của phương sai hay nói cách khác chính là căn bậc hai của phương sai: S = S 2
Độ lệch chuẩn là giá trị được ứng dụng nhiều trong thực hành, nghiên cứu các vấn đề sinh học và y học bởi chính nó mới cho nhà nghiên cứu biết sự phân tán của những số liệu nghiên cứu đã thu thập được xung quanh số trung bình Khi tính được độ lệch chuẩn của một tập hợp to hay nhỏ người ta biết được sự dao động của các giá trị
Xi xung quanh giá trị trung bình nhiều hay ít và từ đó ta dần dần tính được các hằng
số Hiện nay các hằng số sinh học được thiết lập nhờ sự tính toán số mẫu đông và sự kết hợp các giá trị ngoại suy Ví dụ ở các bảng sau với các số liệu đã cho của hai nhóm
A và B ta có thể lập bảng và tính như sau:
Bảng: Số liệu A và B
Trang 13Bảng: Trị số huyết áp tối thiểu ở 2750 nam giới
2.3 Hệ số biến thiên
Khi so sánh hai mẫu có phương sai khác nhau Pearson đã đưa ra khái niệm: Hệ
số biến thiên (Coefflcient ofvariation), ký hiệu là CV
Ví dụ: Chiều cao và cân nặng của 217 sinh viên được nghiên cứu và cho các số
liệu như sau:
+ Chiều cao: X= 160,4cm S = 4,2 cm
+ Cân nặng: X = 51,2kg S = 3,4 kg
Ta tính dược chỉ số CV như sau:
Chiều cao: CV = 2,62%
Cân nặng: CV = 6,64%
Như vậy là số liệu về chiều cao ít phân tán hơn số liệu về cân nặng
2.4 Hiệu chỉnh Sheppard
Trường hợp các số liệu được phân lớp, giá trị trung tâm của lớp đại diện cho tất
cả các trị số cá thể của lớp do đó đã có một sai số hệ thống Nếu phân phối gần phân