Phân tích theo chiều dọc (longitudinal data) cho biến định lượng

Phương pháp đơn giản nhất để mô hình hóa dữ liệu theo chiều dọc chính là phớt lờ cấu trúc theo chiều dọc của dữ liệu và xử lý chúng như là mỗi hàng (theo dạng dọc) tương ứng với một quan sát khác nhau. Mô hình có dạng chuẩn tuyến tính với cả biến factor theo thời gian và không theo thời gian. Phương pháp này cho ước lượng phù hợp với các hệ số hồi quy dưới giả định rằng cấu trúc trung bình được chỉ định chính xác (về cơ bản là các đồng biến được thêm vào chính xác và các dạng hàm số được xác định chính xác) và rằng hệ số dư không tương quan với các đồng biến. Ngoài ra công cụ ước lượng sai số chuẩn sandwich (được gọi ra bằng option vce(cluster nr)) tạo ra ước lượng thích hợp cho sai số chuẩn thậm chí ngay khi hệ số dư tương quan bên trong đối tượng và có phương sai không hằng định. Tuy nhiên một hạn chế quan trọng của phương pháp này chính là giả định ngầm rằng không có dữ liệu mất hoặc xác suất quan sát bị mất không phụ thuộc vào các quan sát quan sát được hoặc không quan sát được sau khi hiệu chỉnh cho các đồng biến.

Trang 1

MÔ TẢ LONGITUDINAL DATA 2PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP POOLED ORDINARY LEAST-SQUARESESTIMATION 14PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP SUMMARY STATISTIC (SỐ THỐNG KÊ TÓMTẮT) 16PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP RANDOM EFFECT 18PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP GENERALIZED ESTIMATING EQUATION (GEE) 27PHÂN TÍCH LOGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ BIẾN ĐẾM

- PHƯƠNG PHÁP GENERALIZED ESTIMATION EQUATIONS (GEE) 32Phân tích logitudinal studies với biến outcome là biến định lượng - phương pháprepeated measure anova (MANOVA for repeated measures) 34PHÂN TÍCH REPEATED MEASURES DATA VỚI BIẾN OUTCOME LÀ BIẾNĐỊNH LƯỢNG- PHƯƠNG PHÁP MIXED MODEL 44PHÂN TÍCH REPEATED MEASURE DATA (HAI LẦN ĐO) VỚI BIẾNOUTCOME LÀ ĐỊNH LƯỢNG – KHÔNG CÓ COVARIATES 53

Trang 2

LONGITUDINAL STUDIES

Simple linear regression model

Illustration of simple linear regression model

Trang 3

Illustration of sums of squares for simple linear regression

Longitudinal model

Trang 4

ADVANTAGES OF LONGITUDINAL VERSUS CROSS-SECTION DATA

The first advantage of longitudinal data is that repeated observations for the sameindividual also allow us to use econometric techniques such as fixed and randomeffects methods These methods allow us to control for certain types of individual-specific time-invariant factors that are not observed in the dataset (often referred to

as individual unobserved heterogeneity)

The second advantage of having repeated observations is that they allow a betterstudy of dynamics

The key advantage here is the possibility to measure change

CÁC ĐẶC ĐIỂM CỦA DỮ LIỆU LONGITUDINAL

Khi các đối tượng cùng có số lần đo như nhau và các lần đo có cùng thời

điểm giống nhau thì dữ liệu được gọi là balanced Dữ liệu được gọi là strongly

balanced khi tất cả các subject có cùng số lần đo không bị mất dữ liệu

Nếu giữa các lần đo có khoảng thời gian giống nhau thì gọi là constant

spacing of occasion (khoảng cách các lần đo bằng nhau)

Trang 5

Khi một biến thay đổi theo thời gian thì biến đó gọi là time-varyingcovariate Biến phụ thuộc định lượng luôn là biến time-varying Biến time-varyingcòn được chia thành: 1) occasion-specific covariate: nghĩa là biến chỉ thay đổi ởmức độ lần đo và 2) subject-specific và occasion-specific covariate nghĩa là biếnthay đổi ở mức độ lần đo và cả ở mức đối tượng.

Một số covariate không thay đổi theo thời gian được gọi là subject-specificcovariate hay time-constant covariate (biến hằng định theo thời gian)

Thang đo thời gian trong dữ liệu longitudinal: age-period-cohort effect

Có ba thang đo thời gian chính có thể dùng trong longitudinal data: là age,cohort và period

Trong bảng dữ liệu trên chúng ta thấy đối tượng 45 thuộc cohort 1960 (nghĩa lànhững người sinh năm 1980), period chính là thời gian các lần đo (1980-1987) vàage chính là độ tuổi của đối tượng theo các lần đo Từ dữ liệu trên chúng ta nhậnthấy

Age = Period – Cohort

Trang 6

Dữ liệu longitudinal có nhiều cohort thì gọi là cohort-sequential design oraccelerated longitudinal design Từ công thức kể trên chúng ta thấy rằng có thể ướclượng được hiệu ứng của hai thang đo thời gian, còn thang còn lại sẽ bị gây nhiễu.

Việc lựa chọn thang đo thời gian đưa vào khảo sát trong nghiên cứu hoàntoàn phụ thuộc vào việc chúng ta xem xét thang đo thời gian nào là quan trọngnhất Ví dụ lương thì phụ thuộc hoàn toàn vào age và period do đó chúng ta có thể

bỏ thang đo cohort trong nghiên cứu Tính bảo thủ hoàn toàn phụ thuộc vào age vàcohort và vì thế chúng ta bỏ thang đo period

Ngoài ba thang đo thời gian chính là age, cohort và period, chúng ta còn cóthể có các thang đo khác tùy thuộc vào nghiên cứu Một số thang đo thời gian cósẵn trong dữ liệu, nhưng cũng có thang đo chúng ta phải tạo thêm từ dữ liệu Ví dụnhư chúng ta có thang đo thời gian là số năm học vấn (E) và số năm đi làm (L),chúng ta muốn tính thang đo thời gian là tuổi thì chúng ta phải tạo nên biến tuổimới với công thức như sau:

CÁC PHƯƠNG PHÁP DÙNG PHÂN TÍCH DỮ LIỆU LONGITUDINAL

 Pooled ordinary least-square model:

 Summary measures

 Phương pháp repeated measure ANOVA

 Random-effect model: trong mô hình này các biến level-2 được thể hiện dưới dạng random intercept Mô hình growth-curve model chính là dạng đặc biệt củarandom-effect model Trong growth-curve model thì mục đích tập trung vào việc mô tả sự tăng trưởng theo thời gian bằng cách thêm random coefficient củatime vào mô hình

Trang 7

 Fixed-effect model: mô hình fixed-effec coi các biến level-2 được thể hiện dướidạng cố định là các biến dummy nhị giá Với fixed effect model chúng ta có thểtìm hiểu được các within-effect của các covariate thay đổi theo thời gian (các biến level-1) và biến phụ thuộc Các biến số level-2 có thể gây nhiễu cho các biến level-1 đều được khử khi đưa vào các biến dummy vì vậy có thể giúp chúng ta tìm được suy luận nhân quả thực sự

 Repeated measures/split-plot analysis of variance (ANOVA): là một dạng của fixed-effect model

 Dynamic model: được áp dụng khi response tại một thời điểm đo nào đó phụ thuộc vào response của thời điểm đo trước đó

 Marginal model: trong mô hình này chúng ta không thêm random effect mà chúng ta lại xét đến covariance structure của tổng hệ số dư Mô hình marginal thường được dùng trong nghiên cứu thử nghiệm lâm sàng vì các biến level-2 gây nhiễu đều đã được khử và do đó có thể suy luận nhân quả chính xác hơn Trong y sinh học thì mô hình random effect và marginal effect được sử dụng phổ biến còn trong khoa học xã hội lại sử dụng random-effect là phổ biến Trong kinh tế học thì mô hình fixed-effect và mô hình dynamic effect lại được sử dụng phổ biến

With the development of (new) statistical techniques, such as GEE analysis and mixed model analysis, it has become possible to analyze longitudinal

relationships using all available longitudinal data, without summarizing the

longitudinal development of each subject into one value The longitudinal

relationship between a continuous outcome variable Y and one or more covariate(s)

X can be described by Equation 4.1

Trang 8

where Yit are observations for subject i at time t, β0 is the intercept, Xijt is the covariate j for subject i at time t, β1j is the regression coefﬁcient for covariate j, J

is the number of covariates, and εit it is the “error” for subject i at time t.

where Yit are observations for subject i at time t, β0 is the intercept, Xijt is the covariate j for subject i at time t, β1j is the regression coefﬁcient for covariate j, J

is the number of covariates, and εit it is the “error” for subject i at time t.

This model is almost the same as a cross-sectional linear regression model, except

for the subscripts t These subscripts indicate that the outcome variable Y is

repeatedly measured on the same subject (i.e the deﬁnition of a longitudinal

study), and that the covariate X can be repeatedly measured on the same subject In this model the coefﬁcients of interest are β1j, because these regression coefﬁcients

show the magnitude of the longitudinal relationship between the outcome variable

(Yit) and the covariates (Xijt).

Based on a long data structure (see Figure 1.1), the regression coefﬁcients for each

of the covariates can be estimated with a cross-sectional linear regression analysis However, one of the assumptions of a cross-sectional linear regression analysis is that the observations are independent of each other In a longitudinal dataset, the observations performed on the same subject are highly dependent on each other and therefore a cross-sectional linear regression analysis cannot be used to estimatethe regression coefﬁcients of Equation 4.1 Because of the dependency of the

repeated observations within one subject, the relationship between X and Y must be

adjusted for the subject (Equation 4.2)

Trang 9

where, Yit are observations for subject i at time t, β0 is the intercept, Xit is the covariate for subject i at time t, β1 is the regression coefﬁcient for the covariate, β2

is the regression coefﬁcient for the variable representing subject i, id_number is the variable representing subject i, and εit it is the “error” for subject i at time t.

When the id_number is added as a discrete or continuous variable to the regression model, the regression coefﬁcient (β2) has a very strange interpretation; i.e when the id_number differs with one unit, the outcome variable Y differs with β2 units This assumes a linear relationship between the id_number and the outcome variable Y, which is rather strange The problem is that the variable id_number is

not a discrete or continuous variable, but it is a categorical one When a categoricalvariable is added to a regression model, it should be represented by dummy variables In the example dataset, there are 147 subjects, so 146 dummy variables are needed to adjust for the subject (Equation 4.3)

where, Yit are observations for subject i at time t, β0 is the intercept, Xit is the covariate for subject i at time t, β1 is the regression coefﬁcient for the covariate, β2

is the regression coefﬁcient for the dummy variable representing subject two, β3 is the regression coefﬁcient for the dummy variable representing subject three, β147

is the regression coefﬁcient for the dummy variable representing subject 147, and

εit it is the “error” for subject i at time t.

Using so many dummy variables in a cross-sectional linear regression model is a very inefﬁcient way to adjust for the subject, especially because the magnitude of

the differences in the outcome variable Y between the subjects (which is the

interpretation for the regression coefﬁcients belonging to the dummy variables representing the subjects) is neither interesting nor informative In fact, because of this problem, longitudinal data analysing techniques are developed The general idea behind a longitudinal data analysing technique is that the adjustment for the subject is performed in a very efﬁcient way The different sophisticated techniques that are available for the analyses of longitudinal data differ from each other in the way they perform this adjustment

Trang 12

PHƯƠNG PHÁP POOLED ORDINARY LEAST-SQUARES ESTIMATION

Phương pháp đơn giản nhất để mô hình hóa dữ liệu theo chiều dọc chính làphớt lờ cấu trúc theo chiều dọc của dữ liệu và xử lý chúng như là mỗi hàng (theodạng dọc) tương ứng với một quan sát khác nhau Mô hình có dạng chuẩn tuyếntính với cả biến factor theo thời gian và không theo thời gian

Phương pháp này cho ước lượng phù hợp với các hệ số hồi quy dưới giảđịnh rằng cấu trúc trung bình được chỉ định chính xác (về cơ bản là các đồng biếnđược thêm vào chính xác và các dạng hàm số được xác định chính xác) và rằng hệ

số dư không tương quan với các đồng biến Ngoài ra công cụ ước lượng sai sốchuẩn sandwich (được gọi ra bằng option vce(cluster nr)) tạo ra ước lượng thíchhợp cho sai số chuẩn thậm chí ngay khi hệ số dư tương quan bên trong đối tượng

và có phương sai không hằng định

Tuy nhiên một hạn chế quan trọng của phương pháp này chính là giả địnhngầm rằng không có dữ liệu mất hoặc xác suất quan sát bị mất không phụ thuộcvào các quan sát quan sát được hoặc không quan sát được sau khi hiệu chỉnh chocác đồng biến

generate educt = educ - 12

generate yeart = year - 1980

regress lwage black hisp union married exper yeart educt, vce(cluster nr)

Linear regression Number of obs = 4,360

Trang 14

PHƯƠNG PHÁP SUMMARY MEASURES (RESPONSE FEATURE ANALYSIS)

Sử dụng trung bình các lần quan sát

egen avg=rmean(dep1 dep2 dep3 dep4 dep5 dep6)

ttest avg, by(group)

Two-sample t test with equal variances

-

Group | Obs Mean Std Err Std Dev.[95% Conf Interval]

-

0 | 27 14.75605 .8782852 4.56370412.95071 16.56139

1 | 34 10.55206 .9187872 5.3574048.682772 12.42135

-

+ -combined | 61 12.41284 .6923949 5.40777711.02785 13.79784

-

Trang 15

diff | 4.20399 1.2948421.613017 6.794964

-

diff = mean(0) - mean(1)

ttest avg, by(group) unequal

Two-sample t test with unequal variances

-

Group | Obs Mean Std Err Std Dev.[95% Conf Interval]

-

0 | 27 14.75605 .8782852 4.56370412.95071 16.56139

1 | 34 10.55206 .9187872 5.3574048.682772 12.42135

Trang 16

-

+ -combined | 61 12.41284 .6923949 5.40777711.02785 13.79784

-

diff | 4.20399 1.2710451.660343 6.747637

-

diff = mean(0) - mean(1)

Sử dụng phương pháp tóm tắt trung bình để so sánh trung bình trầm cảmgiữa hai nhóm điều trị

Trong trường hợp điểm depress, sử dụng số tóm tắt là trung bình điểmdepress của các đợt tái khám

Khi đó sử dụng phép kiểm t-test hai mẫu để kiểm tra sự khác biệt về điểmtrung bình giữa hai nhóm

Trang 17

Kết quả cho thấy cho dù chạy phép kiểm t-test với equal hay unequalvariances thì sự khác biệt giữa hai nhóm là 4,3 với 95%CI từ 1,61-6,7 với p<0,001 Hay nói cách khác nhóm estrogen có điểm depress giảm nhiều hơn so vớinhóm không sử dụng estrogen.

Sử dụng điểm hiệu số

Sử dụng phương pháp dùng số tóm tắt với số tóm tắt là sự khác biệt giữa lầntái khám đầu và lần tái khám cuối Phép kiểm cho thấy nhóm estrogen có sự giảmnhiều hơn so với nhóm placebo

Trang 18

Lập mô hình hồi quy tuyến tính giữa hiệu số khác biệt trước và sau với biếnpredictor là cinitage Chú ý biến cinitage đã được trung tâm hóa.

Trang 19

PHƯƠNG PHÁP REPEATED MEASURE ANOVA (MANOVA FOR REPEATED MEASURES)

tabstat y1-y4, by(trt) stat(n mean sd var)

Summary statistics: N, mean, sd, variance

Trang 20

profileplot y1-y4, by(trt)

Vẽ đồ thị trung bình outcome tại các thời điểm giữa hai nhóm

Trang 21

reshape long y, i(id) j(time)

(note: j = 1 2 3 4)

Data wide -> long

Trang 22

-Chuyển dữ liệu từ wide thành long.

Chạy mô hình bằng lệnh anova

Trong mô hình này chúng ta có biến ethnic là biến time-constant do đó để cóthể tính được chỉ số F thì chúng ta phải thêm dấu / đằng sau ethnic

Biến nr/ethnic nghĩa là các subject được lồng ghép vào ethnic

Các biến union married và exper là biến time-varying covariate Biến exper

có tiền tố c để xem exper như là biến định lượng liên tục có tương quan với lwage

Chúng ta dùng option dropemptycells để bỏ bớt các ô trống trong matrix

Số F của ethnic là F (2, 542) = 6.46, với p = 0.002 Giá trị này có thể lý giải

là phép kiểm cho hiệu ứng between-subject của ethinicity sau khi đã loại bỏ cáchiệu ứng within-effect của các biến time-varying

Các số F của các biến time-varying (within-subject effect) khác tương đươngvới chỉ số t trong phép kiểm dùng xtreg

Trang 23

anova y trt / id|trt time trt#time, repeated(time)

Number of obs = 32 R-squared = 0.9624

Root MSE = .712 Adj R-squared = 0.9352

Source | Partial SS df MS F Prob>F

Lowest b.s.e variable: id

Covariance pooled over: trt (for repeated variable)

Repeated variable: time

-Chạy mô hình ANOVA lập lại Tương tác treatment-by-time có ý nghĩa như

là 2 hiệu ứng chính đối với treatment và time Kết quả gồm 3 giá trị p value của 3

Trang 24

phép kiểm F-test: 1) Huynh-Feldt, 2) Greenhouse-Geisser và 3) Box’s conservative

contrast time@trt, effect

Contrasts of marginal linear predictions

Trang 25

| Contrast Std Err t P>|t| [95% Conf Interval]

- -

time@trt |

(2 vs base) 1 | .25 .5034602 0.50 0.626 -.8077307 1.307731

(2 vs base) 2 | 1.25 .5034602 2.48 0.023 1922693 2.307731

(3 vs base) 1 | 3.25 .5034602 6.46 0.000 2.192269 4.307731

(3 vs base) 2 | 3.75 .5034602 7.45 0.000 2.692269 4.807731

(4 vs base) 1 | 4.25 .5034602 8.44 0.000 3.192269 5.307731

(4 vs base) 2 | 8.25 .5034602 16.39 0.000 7.192269 9.307731

-

Trang 26

-Vì giữa trt và time có tương tác nên chúng ta sẽ tìm hiểu hiệu ứng của timelên từng nhóm trt bằng lệnh contrast

margins time, at(trt=1) pwcompare(effects) noestimcheck

Pairwise comparisons of predictive margins

Expression : Linear prediction, predict()

at : trt = 1

-

| Delta-method Unadjusted Unadjusted

| Contrast Std Err z P>|z| [95% Conf Interval]

- -

time |

2 vs 1 | .25 .5034602 0.50 0.619 -.736764 1.236764

3 vs 1 | 3.25 .5034602 6.46 0.000 2.263236 4.236764

4 vs 1 | 4.25 .5034602 8.44 0.000 3.263236 5.236764

3 vs 2 | 3 .5034602 5.96 0.000 2.013236 3.986764

Trang 27

4 vs 2 | 4 .5034602 7.95 0.000 3.013236 4.986764

4 vs 3 | 1 .5034602 1.99 0.047 013236 1.986764

-

-margins time, at(trt=2) pwcompare(effects) noestimcheck

Pairwise comparisons of predictive margins

Expression : Linear prediction, predict()

at : trt = 2

-

| Delta-method Unadjusted Unadjusted

| Contrast Std Err z P>|z| [95% Conf Interval]

- -

time |

2 vs 1 | 1.25 .5034602 2.48 0.013 263236 2.236764

Trang 28

3 vs 1 | 3.75 .5034602 7.45 0.000 2.763236 4.736764

4 vs 1 | 8.25 .5034602 16.39 0.000 7.263236 9.236764

3 vs 2 | 2.5 .5034602 4.97 0.000 1.513236 3.486764

4 vs 2 | 7 .5034602 13.90 0.000 6.013236 7.986764

4 vs 3 | 4.5 .5034602 8.94 0.000 3.513236 5.486764

Bởi vì mỗi phép kiểm hiệu ứng đơn giản liên quan đến 4 điểm thời gian sẽdẫn đến so sánh cặp với lệnh margin và pwcompare

anova y trt##time

Number of obs = 32 R-squared = 0.9237

Root MSE = 877971 Adj R-squared = 0.9015

Source | Partial SS df MS

F Prob > F

+ - Model | 224 7

-32 41.51 0.0000

|

Trang 29

trt | 10.125 1 10.125 13.14 0.0014

time | 194.5 3 64.8333333 84.11 0.0000

trt#time | 19.375 3 6.45833333 8.38 0.0006

|

Residual | 18.5

24 770833333

+ - Total | 242.5 31 7.82258065

-Các phép kiểm điều trị tại mỗi thời điểm đòi hỏi sử dụng sai số pooled Cónghĩa là pooling id/trt và sai số hệ số dư Điều này có thể dễ đạt được bằng cáchloại id/trr từ lệnh anova Lưu ý rằng độ tự do hệ số dư bây giờ 24

Trang 30

contrast trt@time, effect

Contrasts of marginal linear predictions

| Contrast Std Err t P>|t| [95% Conf Interval]

- -

trt@time |

Trang 31

(2 vs base) 1 | -2.5 .6208194 -4.03 0.000 -3.781308 -1.218692

(2 vs base) 2 | -1.5 .6208194 -2.42 0.024 -2.781308 -.2186918

(2 vs base) 3 | -2 .6208194 -3.22 0.004 -3.281308 -.7186918

(2 vs base) 4 | 1.5 .6208194 2.42 0.024 2186918 2.781308

-

-Chúng ta xét hiệu ứng của treatment lên time Bởi vì có hai mức treatmenttại mỗi thời điểm do đó có tổng cộng 4 độ tự do Bởi vì mỗi test có một độ tự donên chúng ta không cần chạy các test theo dõi tiếp theo

Trang 32

| Delta-method

| Margin Std Err z P>|z| [95% Conf Interval]

- -

trt#time |

1 1 | 4.25 .4389856 9.68 0.000 3.389604 5.110396

1 2 | 4.5 .4389856 10.25 0.000 3.639604 5.360396

1 3 | 7.5 .4389856 17.08 0.000 6.639604 8.360396

1 4 | 8.5 .4389856 19.36 0.000 7.639604 9.360396

2 1 | 1.75 .4389856 3.99 0.000 8896041 2.610396

Trang 33

2 2 | 3 .4389856 6.83 0.000 2.139604 3.860396

2 3 | 5.5 .4389856 12.53 0.000 4.639604 6.360396

2 4 | 10 .4389856 22.78 0.000 9.139604 10.8604

-

Adjusted Predictions of trt#time with 95% CIs

Vẽ đồ thị giá trị tiên đoán trt#time theo thời gian

Trang 34

MÔ TẢ LONGITUDINAL DATA

Mô tả các lần đo (wide form)

Dữ liệu có dạng wide form: mỗi đối tượng từng hàng và biến outcome đượcghi nhận theo thời gian

Tóm tắt số liệu theo nhóm điều trị và số lần tái khám Lưu ý là số đối tượngtham gia nghiên cứu giảm theo thời gian và điểm depress của cả hai nhóm đềugiảm dần theo thời gian

Trang 35

Mô tả mối liên quan giữa các lần đo (wide form)

graph matrix pre-dep6, mlabel(group) msymbol(none)mlabposition(0)

0 0

0 0 0 0

00 0 0 0

0

0 0 0 0 0 0 0 0 0 0 0 0 1 1

1 1

1 1 1 1 1 1 1 1 1 1

1 1 1 1

1 1 1 1 1

1 1

1 1 1 1 1 1

0 0

0 00 0 0

0 0

0

0 0 0 0 0 0 0

0 1 1

1 1

1 1 1 1

1 1 1 1 1 1 1 1

1 1

1 1 1 1 1

1 1

0 0

0 0 0 0

0 0

0

0 0 0 0 0

0 1 1

1 1

1 1 1 1

1 1 1

1 11 1

1 1

1 1 1 1 1

1 1 1

0 0

0 0 0 0 0

0

0 0 0 0

0 0 0

0 1 1

1 1

1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1

0 0

0 0 0 0 0

0

0 0 0 0 0

0 1 1

1 1

1 1 1 1

1 1 1

1 1 1 1

1 1 1 1 1 1 1

1 1

0 0

0 0 0 0

0 0

0

0 0 0 0 0 0

0 1 1

1 1

1 1 1 1

1 1 1

1

1 11

1 11 1 11 1 1 1 1 1 1

0 0 0 0 0 1 1 1

1 1 1

1

1 11 1

1 111

1 11 1

1 1 1 1

0 0 0 0 0 0 0 0

0 0

0 0 0 0 0 1 1 1 1

1 1

1 1 1 1 1

11 11

1 11 1

1 1 1 1 1

0 0 0 0 0 0 0 0 0 0

0 0 0

0 0 0 0

1 1 1

1 1

1 1 1

1 1 1 1 1 1 1 1

1 1 1

0 0 0 0 0 0 0 0

0 0

0 0 0 0 0 1 11 1 1

1 1

1 1 1

1

1 1 1 1 1 1 1 1 1

1 1 1 1

0 0 0 0 0 0 0 0

0 0

0 0 0 0 0

0 1 1 1

1 1

1 11

1

1 11 1 1 1 1 1 1 1

1 1 1

00 0 0

0 0 0

0 0 0 0 0 0 0 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1

1

1 1 1 1

0

0000

0 0 0 0 0 0 0 1 1

1 11

1 1

1 1 1

11 11 1 1

1 1 1 1

1 1

0 0

0 0 0

0 0 0 0 0 0

00 00

11 11

1 11

1 1 1

1 1 1 1 11 1 1 1

1

1 1 1 1

0

0 000

0 0 0 0 0 0 0 0 1 1 1 1

1 11

1 1 1

1 1 1 1 1 1 1

1

1 1 1 1

0

0 0 00 0 0

0 0 0 0 0 0 0 0

1 11

1 1

1

1 11 1 1 11 1 1 1

1

1 1 1 1

0 0 0 0 0 1 1

1 11

1 1

1 11 1 1 1 1 1 1

1

1 1 11 1

000

0 00 0

0 0 0

0 00 0 1 1 1 1

1 1 1 1 1

1 1 1

1 1 1 1 1

0 0

0 0 0

0 0 0 0

1 1

1 11 1 1 1 1

1 1 1 1

1 1 1

1 1 11 1 1

0 00

0

0 0 0

0 0 0 00 0 1 1

1 1 11

1 1 1

1 11

1 1 1

1 1

1 1 1 1

0

0 0

00 0

0 0 0 0

0 0 0 0 0 0 1 1

11 11 1 1 1

1 1

1 1 1 1 1

1 1 1

1 1

1 1 1 1

0 0 0 0 0 0 1 1 1 1 1

1 1 1 1 1

1 1 1 1 1 1 1 1 1 1

1

1 1 1 1

0 0

0 00

0 0 0 0 0

0 0 0 0 0 0 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1

1 1

0 0 0

0 00

0 0 0 0 0

0 0 0 0 0 0 1 1 1 1 1

1 1 1 1

1 1

1 11 1 1 1 1 1

1 1

0

0 00 0 0 0 0

0 0 0 0 0 0 1 1 1 1 1 1

1 1 1 1

1 1

1 11 1 1

1

1 1

0 0 0

0 0 0 0 0 0 0

0 0 0 0 0

0 11 1 1 1 11 1 1

1 1

1 1 1 1 11 1 1 1

1

1 1 1

00 00

0 00

0 0 0 0 1 11

1 1 1 1 1 1 1

1 1 1

1 11

1 11 1 1

1 1 1 1

0 00

0000 0 0 0

0 0

0 0 0 0 1 1 1

1 1 1 1

1 11 1

1 1

1 1 1

1 1

1 1 1 1 1 1

0 0 0 0 0 0

0 0 00 0 0 1 1 1

1 1 1 1 1 1

1

1 1 1 1

1 11

1 1

1 1 1 1 1 1

0 0

0 00 0 0 0

0 0

0 0 0 0 1 1

1 1 1 1 1

1 1

1

1 1 1 1 1 1 1 1

0

0 0 0

0 0

0 00 0

0 0 0 0 0 1 1

1 1 1 1 1 1

1

1 11 1 1 1 1 1 1 1 1

00 0 0 0 0 0 0

0 00

0 11 1

1 1 1

1 1 11 1

1 1 1 1 1 1 1

1 1 1 1

1

1 1 1 1

0 0

0000 0 0 0 0

0 00

0 11 1 1 1 1

1

1 1 1 1 1

1 1

0 0

0000 0

0 00 0

0 00

0 11 1 1 1 1 1

1 1 1

1

1 1 1 1 1 1

1 1

0 0 0

0 0 0 0 0 0 0 0

0 00 0

0 1

1 1 1 1 11

1 1 1

1 1 1 1 11 1 1 1

1 1

0 0

0 00

0 0 0 0

0 00

0 11 1

1 1 1 1

1 1

1

1 1 1 1 1

1 1 1 1

1 1

0 10 20

Vẽ đồ thị ma trận tương quan của điểm depress giữa các lần tái khám Nhómđiều trị được đánh dấu 0 và 1

Đồ thị cho thấy tất cả các tương quan đều dương tính

Có mối tương quan mạnh ngày càng tăng giữa các điểm depress khi thờigian giữa các lần đo depress này giảm dần (nghĩa là các lần đo gần nhau thì càngtương quan mạnh) Kiểu tương quan này (correlation structure) rất quan trọngtrong việc chọn mô hình phù hợp cho dữ liệu theo thời gian

Trang 36

Mô tả số lần đo của từng đối tượng (long form)

dep1 dep2 dep6 -> dep

Lệnh preserve sẽ lưu trữ dữ liệu dạng wide trong bộ nhớ, sau đó nếu muốnphục hồi dạng wide chỉ cần dùng lệnh restore

Chuyển dữ liệu từ dạng wide sang dạng long gồm biến dep là điểm depress,

và visit là biến đợt tái khám Việc chuyển dữ liệu để có thể vẽ được các dạng đồ thị

Trang 37

hoàn thành 2 đợt, 1 bệnh nhân hoàn thành 3 đợt Đây là dạng “monotonic” vì bệnhnhân sẽ không bao giờ quay lại tái khám.

Trong hầu hết các trường hợp nhà nghiên cứu chọn làm việc với dữ liệuunbalanced bởi vì các công cụ phân tích dành cho unbalanced và balanced là nhưnhau

Mô tả sự biến thiên số liệu của các biến (long form)

quietly xtset nr

xtsum lwage union educ year

Variable | Mean Std Dev Min Max | Observations

‘between’ mô tả trung bình và độ lệch của các cá nhân N là tổng số quan sát trong

bộ dữ liệu cho biến cụ thể trong khi n chính là số đối tượng của biến đó T-barchính là trung bình số lần đo

Kết quả của lệnh trên cho thấy biến lwage (biến response) có sd within vàbetween đều thay đổi do đó lwage là biến thay đổi theo thời gian Biến union cũng

Trang 38

vậy Biến educ không thay đổi trong cùng đối tượng, còn biến year không thay đổigiữa các đối tượng, nhưng within thì lại thay đổi Việc kiểm tra sự biến thiênwithin và between rất quan trọng trong một số mô hình đặc biệt mô hình fixed-effect vì nó chỉ đo lường within-effect mà thôi.

xttab union

Overall Between Within

union | Freq Percent Freq Percent Percent

Chúng ta thấy cột Overall rằng union có giá trị 1 chiến 24.4% số thời giangiữa các cá thể và số thời điểm Ở cột between thì có 93.8% đối tượng không làthành viên công đoàn cho ít nhất 1 lần đo, và 51.4% là thành viên công đoàn cho ítnhất 1 lần đo Cuối cùng cột within cho thấy giữa những người không là thành viênthì phần trăm trung bình lần đo mà họ không phải là thành viên là 80.6% Nhữngngười là thành viên thì trung bình lần đo là thành viên là 47.5% Khi tổng phầntrăm của cột between > 100% có nghĩa là biến này đã thay đổi theo thời gian chomột số đối tượng

Mô tả xu hướng biến phụ thuộc theo số lần đo cho toàn bộ mẫu

graph box lwage, over(year) intensity(0) medtype(line) marker(1,mlabel(nr) mlabsize(vsmall) msym(i) mlabpos(0) mlabcol(black)) ytitle(Log hourly wage)

Trang 39

908 3581

7784 1576

813

9710 2721

8090 7784

8520

2264 9683 6056 8203

8587 13 8524 11973 925

2147 12122

3017 7784

6025 569

218 7784 3275

Đồ thị cho thấy có đối tượng 813 có wage rất thấp chỉ vài cent trong năm

1984 Đối tượng này có thể có vấn đề khó khăn làm lương anh ta giảm thấp hoặcchỉ đơn giản là do nhập sai mà thôi

Sử dụng biểu đồ hộp đòi hỏi rằng dữ liệu cho từng lần đo phải đủ nhiều

Trang 40

graph box dep, over(visit) over(group, relabel(1

"Placebo group" 2 "Estrogen group"))

Vẽ đồ thị hộp điểm trung bình depress của cả hai nhóm theo thời gian Lưu

ý muốn vẽ biểu đồ này phải chuyển dữ liệu từ wide thành long.

Option over() xác định biến hai nhóm điều trị và theo số lần tái khám để vẽphân bố theo thời gian ở cả hai nhóm

Option relabel() được sử dụng để định nghĩa nhãn cho các nhóm Ở đây “1”tương ứng với cấp đầu tiên của nhóm (0 trong trường hợp này) và “2” cho cấp 2của nhóm

Ở đây có thể thấy xu hướng giảm điểm depress chung của cả hai nhóm điềutrị và trong nhóm điều trị bằng estrogen thì có một số giá trị ngoại lai cần phảikiểm tra Có 4 giá trị ngoại lai là thuộc về cùng 1 đối tượng có điểm depress caohơn các đối tượng còn lại

Định dạng
Số trang	157
Dung lượng	15,29 MB
File đính kèm	1. LONGITUDINAL DATA CHO BIEN DINH LUONG s.docx.zip (14 MB)