1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thống kê phân tích biến số định lượng với Stata

27 2,3K 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 443 KB

Nội dung

Kiểm định t gồm có a Kiểm định t bắt cặp để so sánh trung bình trước và saukhi can thiệp trên một nhóm và b kiểm định t không bắt cặp để so sánh trung bình của 2nhóm độc lập.. Kiểm định

Trang 1

Thống kê phân tích biến số định lượng với Stata

Sơ lược lí thuyết về so sánh 2 trung bình

Kiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối bìnhthường Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình trước và saukhi can thiệp trên một nhóm và (b) kiểm định t không bắt cặp để so sánh trung bình của 2nhóm độc lập

Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập) Kiểmđịnh t có giả định 2 phương sai bằng nhau và kiểm định t không có giả định phương saibằng nhau Hai loại kiểm định này có chung nguyên lí nhưng khác nhau trong cách tínhtoán độ tự do (của kiểm định t) và cách tính sai số chuẩn

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bìnhcủa 2 nhóm độc lập và đòi hỏi 2 giả định

- Các giá trị của biến số của cả 2 dân số có phân phối bình thường

- Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.

1()1(

)1()1(

2 1

2 2 2

2 1 1

s n s n

s p

2 1 2

1

/1/

s

x x se

x x t

Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 - 2) độ tự

do và tính được xác suất p Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H0.Kiểm định t không bắt cặp không có giả định 2 phương sai bằng nhau

Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bìnhcủa 2 nhóm độc lập và chỉ đòi hỏi 1 giả định

- Các giá trị của biến số của cả 2 dân số có phân phối bình thường

Nếu chúng ta kí hiệu:

Trang 2

2

2 2

4 2

1

2 1

n n

s n

n

s

n

s n

s f

d

- Sai số chuẩn: 2

2 2 1

2 1

n

s n

s

se 

2 2

1

2 1

2 1 2 1

n

s n s

x x se

x x t

Kiểm định t bắt cặp

Giả sử để so sánh hiệu quả của thuốc A và thuốc B trong cải thiện thể tích thở ra gắngsức trong 1 giây đầu tiên (FEV1) người ta cho các bệnh nhân tham gia nghiên cứu dùngthuốc A (hay thuốc B) trong một thời gian và cuối thời gian này đo lường FEV1 củabệnh nhân (gọi là FEV1A) Sau đó cho lại đổi cho bệnh nhân dùng thuốc B (hay thuốc A)trong một khoảng thời gian và cuối thời gian này lại đo lường FEV1 của bệnh nhân (gọi

là FEV1B) Thiết kế nghiên cứu này được gọi là thử nghiệm lâm sàng bắt chéo Chúng talưu ý các đặc điểm sau khi phân tích thống kê cho các nghiên cứu có cùng loại thiết kếnày

- Trong nghiên cứu này có 2 biến số đo lường trên cùng dân số: FEV1A và FEV1B

- Các giá trị của biến số FEV1A và FEV1B là của cùng một bệnh nhân nên hiệu số(FEV1A - FEV1B) cũng là biến số của bệnh nhân đó Và nếu không có sự khác biệt vềhiệu quả của 2 loại thuốc, trung bình của hiệu số này bằng 0

- Khi đó kiểm định so sánh hiệu quả của thuốc A và thuốc B cũng ó kiểm định so sánhgiá trị trung bình của FEV1A và FEV1B ó kiểm định hiệu số (FEV1A - FEV1B)=0

- Phép kiểm định này được gọi là kiểm định t bắt cặp Kiểm định t bắt cặp là trường hợpđặc biệt của kiểm định t một mẫu

Tóm lại kiểm định t bắt cặp là kiểm định được sử dụng khi thiết kế nghiên cứu cho một

Trang 3

đối tượng (hay 2 đối tượng rất giống nhau) được thử nghiệm 2 loại thuốc khác nhau.

Kiểm định phi tham số

Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử dụngphép biến đổi (thường là biến đổi log) để đưa phân phối về bình thường hoặc dùng testphi tham số Kiểm định phi tham số có ưu điểm là không đòi hỏi giả định về phân phốicủa biến số định lượng nhưng có khuyết điểm là không thể ước lượng được tham số, đó

là như không thể ước lượng khoảng tin cậy 95% hiệu số của trung bình giữa 2 nhóm

Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.

Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể dùng nhiềukiểm định t để so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng nguy cơ củasai lầm loại 1 Phương pháp thích hợp để được dùng cho trường hợp này được gọi là testANOVA Test ANOVA (phân tích phương sai) được xem như là sự tổng quát hóa củatest t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2 hay nhiều hơn các nhóm) Ðiềukiện để test ANOVA hợp lệ là các giá trị có phân phối bình thường và phương sai của cácnhóm xấp xỉ nhau

Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F (thống kêFisher) Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng bình phương củathống kê t và 2 phương pháp cho ra cùng một mức ý nghĩa

Không đồng nhất

Trang 4

Thực hành

1- Mở tập tin ivf_v2

Chúng ta hãy khởi động Stata Mở tập tin ivf_v2.dta bằng cách sử dụng menu File ::Open hay nhấp vào nút công cụ Open file (Use), nằm ở vị trí thứ hai của thanh công

cụ Khi đó hộp thoại Use New Data sẽ hiện ra Nhấp vào mũi tên bên phải hộp Look in

để chọn ổ đĩa thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư mục cóchứa số liệu Khi gập tập tin số liệu ivf_v2.dta, nhấp đúp vào tên tập tin này để mở tập tin(hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau đó nhấp vào nútlệnh Open để mở tập tin) Cần nhớ nhấp vào nút công cụ Stata Log nằm vị trí thứ tư từtrái ở trên thanh công cụ nếu muốn lưu trữ lại toàn bộ kết quả phân tích sẽ đượcthực hiện

2 Sau khi mở tập tin, cần có thông tin gì trước khi phân tích số liệu:

Trước khi phân tích số liệu, nhà nghiên cứu (hay chuyên viên thống kê) cần đọc lại đềcương nghiên cứu, đặc biệt là số liệu (biến số và số các bản ghi), mục tiêu và thiết kếnghiên cứu Giả sử chúng ta có thông tin về nghiên cứu như sau:

MRC Working Party on Children Conceived by In Vitro Fertilisation Births in Great

Britain resulting from assisted conception, 1978-87 BMJ 1990;300:1229-33.

Births in Great Britain resulting from assisted conception, 1978-87 MRC Working Party

on Children Conceived by In Vitro Fertilisation

OBJECTIVE To describe the characteristics at birth of children conceived by in vitro fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they differ from those of children conceived naturally DESIGN Survey of children resulting from IVF or GIFT and comparison of their characteristics at birth with national statistics SETTING England, Scotland, and Wales from 1978 to 1987 SUBJECTS 1267

Pregnancies conceived by IVF or GIFT, which resulted in 1581 liveborn or stillborn children MAIN OUTCOME MEASURES Sex ratio, multiplicity, gestational age at birth, birth weight, stillbirth rate, perinatal and infant mortality, and prevalence of

congenital malformations RESULTS The ratio of male to female births was 1.07:1; 23% (249/1092) of the deliveries were multiple births compared with 1% for natural conceptions; 24% (278) of 1015 deliveries were preterm compared with 6% in England and Wales; 32% (406) of 1269 babies weighed less than 2500 g compared with 7% in England and Wales The high percentage of preterm deliveries and of low birthweight babies was largely, but not entirely, due to the high frequency of multiple births The rate

of stillbirth, perinatal mortality, and infant mortality were twice the national average, these excesses being due to the high frequency of multiple births One or more major congenital malformations were detected during the first week of life in 35 (2.2%) of 1581babies This figure is comparable with population based estimates of the prevalence of congenital malformations The types of malformations reported varied, and the number ofeach specific type was small The health of the children was not evaluated beyond the perinatal period CONCLUSIONS Multiple pregnancies often result from assisted conception and are the main determinant of the outcome of the pregnancies and of the health of the children at the time of birth Congenital malformations are comparatively

Trang 5

rare, so larger numbers of children need to be studied before firm conclusions can be drawn The pooling of data from different countries is recommended.

PMID: 2354290 [PubMed - indexed for MEDLINE]

Số liệu này bao gồm những biến số về những đứa trẻ sinh một của những bà mẹ được thụthai trong ống nghiệm (in-vitro fertilisation) Nghiên cứu này đã được báo cáo trong tạpchí BMJ (1990;300:1229-1233) Tập tin này bao gồm 641 đứa trẻ và gồm 8 biến số cóchi tiết như sau:

STT Tên biến Giải thích tiếng Anh Giải thích tiếng Việt

1 Maso identity number of mother andbaby Mã số

2 tuoime maternal age in years Tuổi của mẹ (năm tuổi)

3 tang_ha hypertension 1=yes, 0=no Tăng huyết áp thai kì 1= có 0 =không

4 tuoithai gestational age in weeks Tuổi thai (tính theo tuần)

5 gioi sex of baby 1=male, 0=female Giới tính của trẻ 1=trai 0=gái

6 tlsosinh birth weight in gms Trọng lượng sinh tính theo grams

7 nghenghiep

Occupation of mother (1= selfemployed; 2=blue collarworker; 3=white collarworker)

Nghề nghiệp mẹ (1= nghề tự do;2=công nhân; 3=viên chức)

8 nhomtuoi maternal age groups(0=<30;1=30-34;2=35-39;3=40+) Tuổi của mẹ phân nhóm (0=<30;1=30-34; 2=35-39; 3=40+)

9 sinhnon gestational category (1= <37tuần; 0=37+tuần) Sinh non (1: dưới 37 tuần; 0: đủtháng – trên 37 tuần thai)Việc nhận biết số liệu cũng có thể thực hiện bằng cách sử dụng lệnh describe (nhấn phímF3) Điều này đặc biệt có ích nếu các biến số và giá trị của biến số đã được dán nhãn đầyđủ

Trong nghiên cứu này, tác giả muốn xác định tác động của tăng huyết áp của mẹ và tuổithai lên trọng lượng thai

3 Như vậy trong các biến số kể trên, biến nào là biến độc lập, biến nào là biến số phụthuộc, biến số này là gây nhiễu

Hướng dẫn:

Bảng số liệu viewivf này có chứa những biến số khác nhau Trong bảng sau hãy xác địnhtính chất của từng biến số bằng cách khoanh tròn vào lựa chọn thích hợp

tuoime - Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễu

Trang 6

tang_ha - Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễutuoithai - Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễugioi - Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễutlsosinh - Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễunghenghiep - Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễunhomtuoi - Nhị giá - Danh định

- Thứ tự - Định lượng

- Độc lập - Phụ thuộc

- Gây nhiễusinhnon - Nhị giá - Danh định

5 Hãy so sánh trọng lượng của trẻ nam và trẻ nữ

Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biếnphụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phươngsai của 2 nhóm có bằng nhau hay không Nếu phương sai 2 nhóm tương đương chúng ta

có thể sử dụng t-test thông thường (t-test phương sai đồng nhất) Nếu phương sai 2 nhómkhông tương đương, chúng ta phải sử dụng t-test phương sai không đồng nhất hay kiểmđịnh phi tham số

Kiểm định 1: So sánh 2 phương sai

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụngmenu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Groupvariance comparison test

Trang 7

Sau khi cửa sổ sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau:

Bước 1: đặt con trỏ vào hộp văn bản Variable name

Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào

hộp văn bản Variable name

Bước 3: đặt con trỏ vào hộp văn bản Group name variable

Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp

văn bản Group name variable

Trang 8

Bước 5: Nhấp vào nút lệnh OK.

Kết quả được trình bày như sau:

sdtest tlsosinh, by(gioi)

Variance ratio test

Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ - gai | 315 3044.127 35.421 628.6603 2974.434 3113.819 trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843 -+ - combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 - Ho: sd(gai) = sd(trai)

F(314,325) observed = F_obs = 0.891

F(314,325) lower tail = F_L = F_obs = 0.891

F(314,325) upper tail = F_U = 1/F_obs = 1.122

Ha: sd(gai) < sd(trai) Ha: sd(gai) != sd(trai) Ha: sd(gai) > sd(trai)

P < F_obs = 0.1518 P < F_L + P > F_U = 0.3032 P > F_obs = 0.8482

Với giá trị p = 0,3032 chúng ta không thể bác bỏ giả thuyết Ho: độ lệch chuẩn của nhómtrẻ trai bằng độ lệch chuẩn của nhóm trẻ gái Vì vậy chúng ta có thể sử dụng kiểm định tphương sai đồng nhát như ở bước 2

Kiểm định 2: So sánh 2 trung bình sử dụng t-test phương sai đồng nhất

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụngmenu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Groupmean comparison test

Trang 9

Cửa sổ ttest- group mean comparision tests hiển ra Tiến hành các bước sau:

Bước 1: đặt con trỏ vào hộp văn bản Variable name

Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào

hộp văn bản Variable name

Bước 3: đặt con trỏ vào hộp văn bản Group name variable

Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp

văn bản Group name variable

Trang 10

Bước 5: Nhấp vào nút lệnh OK.

ttest tlsosinh, by(gioi)

Two-sample t test with equal variances

-

Group | Obs Mean Std Err Std Dev [95% Conf

-Degrees of freedom: 639

Ho: mean(gai) - mean(trai) = diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

t = -3.2654 t = -3.2654 t = -3.2654

P < t = 0.0006 P > |t| = 0.0012 P > t = 0.9994

Trả lời: Trẻ trai có trọng lượng sơ sinh trung bình là 3211.28 gram, của trẻ gái là3044.13 gram Với giá trị t = 3,2654 và mức ý nghĩa (p-value) là 0.0012 chúng ta kết luận

có sự khác biệt về trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p=0.0012)

6 Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ không tănghuyết áp

Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biếnphụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phươngsai của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay không.Nếu phương sai 2 nhóm tương đương chúng ta có thể sử dụng t-test thông thường (t-testphương sai đồng nhất) Nếu phương sai 2 nhóm không tương đương, chúng ta phải sửdụng t-test phương sai không đồng nhất hay kiểm định phi tham số

Kiểm định 1: So sánh 2 phương sai

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụngmenu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Groupvariance comparison test

Sau khi cửa sổ sdtest - Group variance comparison test chúng ta đưa biến tlsosinh vào hộp văn bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi

nhấp vào nút lệnh OK

Kết quả được trình bày như sau:

Trang 11

sdtest tlsosinh, by( tang_ha )

Variance ratio test

-

Group | Obs Mean Std Err Std Dev [95% Conf Interval]

-

Ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786

Ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406

-

+ -combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767

-

Ho: sd(huyet ap) = sd(huyet ap)

F(551,88) observed = F_obs = 0.547

F(551,88) lower tail = F_L = F_obs = 0.547

F(551,88) upper tail = F_U = 1/F_obs = 1.829

Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2)

P < F_obs = 0.0000 P < F_L + P > F_U = 0.0003 P > F_obs = 1.0000

Kết quả cho thấy giá trị p = 0,0003 có nghĩa là phương sai của trọng lượng lúc sinh của 2nhóm không đồng nhất Vì vậy chúng ta không thể dùng t-test phương sai đồng nhất màphải sử dụng t-test phương sai không đồng nhất (kiểm định 2A) hay kiểm định phi tham

số (kiểm định 2B)

Kiểm định 2A: so sánh 2 trung bình t-test phương sai không đồng nhất

Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụngmenu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group

mean comparison test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable name; biến tang_ha vào hộp văn bản Group name variable của cửa sổ ttest- group mean

comparison Cần lưu ý đánh dấu vào hộp kiểm Unequal variances rồi nhấp vào nút OK

Trang 12

Kết quả trình bày như sau:

ttest tlsosinh, by(tang_ha) unequal

Two-sample t test with unequal variances

Group | Obs Mean Std Err Std Dev [95% Conf Interval]

-

ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786

ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406

- combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767

+ -

- diff | 449.3735 89.88999 271.1197 627.6273

+ -

-Satterthwaite's degrees of freedom: 104.069

Ho: mean(ha bt) - mean(ha tang) = diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

t = 4.9991 t = 4.9991 t = 4.9991

P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000

Trả lời: Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram, ởcon của bà mẹ không tăng huyết áp là 3192 gram Sự khác biệt này có ý nghĩa thống kêvới p<0,0001

Trang 13

Kiểm định 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann-Whitney

Thực hiện kiểm định phi tham số tổng sắp hạng Mann-Whitney (Mann-Whitney ranksum test) bằng dụng menu Statistics :: Summaries, tables, & tests :: Non-parametric test

of hypotheses :: Mann-Whitney two-sample ranksum test

Sau đó cửa sổ ranksum - Mann-Whitney two-sample statistic hiện ra

Tiến hành các bước sau:

Bước 1: đặt con trỏ vào hộp văn bản Variable name

Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào

hộp văn bản Variable name

Bước 3: đặt con trỏ vào hộp văn bản Group name variable

Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tang_ha để đưa biến này vào

hộp văn bản Group name variable

Ngày đăng: 11/11/2015, 18:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w