Phương pháp đơn giản nhất để mô hình hóa dữ liệu theo chiều dọc chính là phớt lờ cấu trúc theo chiều dọc của dữ liệu và xử lý chúng như là mỗi hàng (theo dạng dọc) tương ứng với một quan sát khác nhau. Mô hình có dạng chuẩn tuyến tính với cả biến factor theo thời gian và không theo thời gian. Phương pháp này cho ước lượng phù hợp với các hệ số hồi quy dưới giả định rằng cấu trúc trung bình được chỉ định chính xác (về cơ bản là các đồng biến được thêm vào chính xác và các dạng hàm số được xác định chính xác) và rằng hệ số dư không tương quan với các đồng biến. Ngoài ra công cụ ước lượng sai số chuẩn sandwich (được gọi ra bằng option vce(cluster nr)) tạo ra ước lượng thích hợp cho sai số chuẩn thậm chí ngay khi hệ số dư tương quan bên trong đối tượng và có phương sai không hằng định. Tuy nhiên một hạn chế quan trọng của phương pháp này chính là giả định ngầm rằng không có dữ liệu mất hoặc xác suất quan sát bị mất không phụ thuộc vào các quan sát quan sát được hoặc không quan sát được sau khi hiệu chỉnh cho các đồng biến.
Trang 1MÔ TẢ LONGITUDINAL DATA 2PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP POOLED ORDINARY LEAST-SQUARESESTIMATION 14PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP SUMMARY STATISTIC (SỐ THỐNG KÊ TÓMTẮT) 16PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP RANDOM EFFECT 18PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNHLƯỢNG-PHƯƠNG PHÁP GENERALIZED ESTIMATING EQUATION (GEE) 27PHÂN TÍCH LOGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ BIẾN ĐẾM
- PHƯƠNG PHÁP GENERALIZED ESTIMATION EQUATIONS (GEE) 32Phân tích logitudinal studies với biến outcome là biến định lượng - phương pháprepeated measure anova (MANOVA for repeated measures) 34PHÂN TÍCH REPEATED MEASURES DATA VỚI BIẾN OUTCOME LÀ BIẾNĐỊNH LƯỢNG- PHƯƠNG PHÁP MIXED MODEL 44PHÂN TÍCH REPEATED MEASURE DATA (HAI LẦN ĐO) VỚI BIẾNOUTCOME LÀ ĐỊNH LƯỢNG – KHÔNG CÓ COVARIATES 53
Trang 2LONGITUDINAL STUDIES
Simple linear regression model
Illustration of simple linear regression model
Trang 3Illustration of sums of squares for simple linear regression
Longitudinal model
Trang 4ADVANTAGES OF LONGITUDINAL VERSUS CROSS-SECTION DATA
The first advantage of longitudinal data is that repeated observations for the sameindividual also allow us to use econometric techniques such as fixed and randomeffects methods These methods allow us to control for certain types of individual-specific time-invariant factors that are not observed in the dataset (often referred to
as individual unobserved heterogeneity)
The second advantage of having repeated observations is that they allow a betterstudy of dynamics
The key advantage here is the possibility to measure change
CÁC ĐẶC ĐIỂM CỦA DỮ LIỆU LONGITUDINAL
Khi các đối tượng cùng có số lần đo như nhau và các lần đo có cùng thời
điểm giống nhau thì dữ liệu được gọi là balanced Dữ liệu được gọi là strongly
balanced khi tất cả các subject có cùng số lần đo không bị mất dữ liệu
Nếu giữa các lần đo có khoảng thời gian giống nhau thì gọi là constant
spacing of occasion (khoảng cách các lần đo bằng nhau)
Trang 5Khi một biến thay đổi theo thời gian thì biến đó gọi là time-varyingcovariate Biến phụ thuộc định lượng luôn là biến time-varying Biến time-varyingcòn được chia thành: 1) occasion-specific covariate: nghĩa là biến chỉ thay đổi ởmức độ lần đo và 2) subject-specific và occasion-specific covariate nghĩa là biếnthay đổi ở mức độ lần đo và cả ở mức đối tượng.
Một số covariate không thay đổi theo thời gian được gọi là subject-specificcovariate hay time-constant covariate (biến hằng định theo thời gian)
Thang đo thời gian trong dữ liệu longitudinal: age-period-cohort effect
Có ba thang đo thời gian chính có thể dùng trong longitudinal data: là age,cohort và period
Trong bảng dữ liệu trên chúng ta thấy đối tượng 45 thuộc cohort 1960 (nghĩa lànhững người sinh năm 1980), period chính là thời gian các lần đo (1980-1987) vàage chính là độ tuổi của đối tượng theo các lần đo Từ dữ liệu trên chúng ta nhậnthấy
Age = Period – Cohort
Trang 6Dữ liệu longitudinal có nhiều cohort thì gọi là cohort-sequential design oraccelerated longitudinal design Từ công thức kể trên chúng ta thấy rằng có thể ướclượng được hiệu ứng của hai thang đo thời gian, còn thang còn lại sẽ bị gây nhiễu.
Việc lựa chọn thang đo thời gian đưa vào khảo sát trong nghiên cứu hoàntoàn phụ thuộc vào việc chúng ta xem xét thang đo thời gian nào là quan trọngnhất Ví dụ lương thì phụ thuộc hoàn toàn vào age và period do đó chúng ta có thể
bỏ thang đo cohort trong nghiên cứu Tính bảo thủ hoàn toàn phụ thuộc vào age vàcohort và vì thế chúng ta bỏ thang đo period
Ngoài ba thang đo thời gian chính là age, cohort và period, chúng ta còn cóthể có các thang đo khác tùy thuộc vào nghiên cứu Một số thang đo thời gian cósẵn trong dữ liệu, nhưng cũng có thang đo chúng ta phải tạo thêm từ dữ liệu Ví dụnhư chúng ta có thang đo thời gian là số năm học vấn (E) và số năm đi làm (L),chúng ta muốn tính thang đo thời gian là tuổi thì chúng ta phải tạo nên biến tuổimới với công thức như sau:
CÁC PHƯƠNG PHÁP DÙNG PHÂN TÍCH DỮ LIỆU LONGITUDINAL
Pooled ordinary least-square model:
Summary measures
Phương pháp repeated measure ANOVA
Random-effect model: trong mô hình này các biến level-2 được thể hiện dưới dạng random intercept Mô hình growth-curve model chính là dạng đặc biệt củarandom-effect model Trong growth-curve model thì mục đích tập trung vào việc mô tả sự tăng trưởng theo thời gian bằng cách thêm random coefficient củatime vào mô hình
Trang 7 Fixed-effect model: mô hình fixed-effec coi các biến level-2 được thể hiện dướidạng cố định là các biến dummy nhị giá Với fixed effect model chúng ta có thểtìm hiểu được các within-effect của các covariate thay đổi theo thời gian (các biến level-1) và biến phụ thuộc Các biến số level-2 có thể gây nhiễu cho các biến level-1 đều được khử khi đưa vào các biến dummy vì vậy có thể giúp chúng ta tìm được suy luận nhân quả thực sự
Repeated measures/split-plot analysis of variance (ANOVA): là một dạng của fixed-effect model
Dynamic model: được áp dụng khi response tại một thời điểm đo nào đó phụ thuộc vào response của thời điểm đo trước đó
Marginal model: trong mô hình này chúng ta không thêm random effect mà chúng ta lại xét đến covariance structure của tổng hệ số dư Mô hình marginal thường được dùng trong nghiên cứu thử nghiệm lâm sàng vì các biến level-2 gây nhiễu đều đã được khử và do đó có thể suy luận nhân quả chính xác hơn Trong y sinh học thì mô hình random effect và marginal effect được sử dụng phổ biến còn trong khoa học xã hội lại sử dụng random-effect là phổ biến Trong kinh tế học thì mô hình fixed-effect và mô hình dynamic effect lại được sử dụng phổ biến
With the development of (new) statistical techniques, such as GEE analysis and mixed model analysis, it has become possible to analyze longitudinal
relationships using all available longitudinal data, without summarizing the
longitudinal devel- opment of each subject into one value The longitudinal
relationship between a continuous outcome variable Y and one or more covariate(s)
X can be described by Equation 4.1
Trang 8where Yit are observations for subject i at time t, β0 is the intercept, Xijt is the covariate j for subject i at time t, β1j is the regression coefficient for covariate j, J
is the number of covariates, and εit it is the “error” for subject i at time t.
where Yit are observations for subject i at time t, β0 is the intercept, Xijt is the covariate j for subject i at time t, β1j is the regression coefficient for covariate j, J
is the number of covariates, and εit it is the “error” for subject i at time t.
This model is almost the same as a cross-sectional linear regression model, except
for the subscripts t These subscripts indicate that the outcome variable Y is
repeatedly measured on the same subject (i.e the definition of a longitudinal
study), and that the covariate X can be repeatedly measured on the same subject In this model the coefficients of interest are β1j, because these regression coefficients
show the magnitude of the longitudinal relationship between the outcome variable
(Yit) and the covariates (Xijt).
Based on a long data structure (see Figure 1.1), the regression coefficients for each
of the covariates can be estimated with a cross-sectional linear regression analysis However, one of the assumptions of a cross-sectional linear regression analysis is that the observations are independent of each other In a longitudinal dataset, the observations performed on the same subject are highly dependent on each other and therefore a cross-sectional linear regression analysis cannot be used to estimatethe regression coefficients of Equation 4.1 Because of the dependency of the
repeated observations within one subject, the relationship between X and Y must be
adjusted for the subject (Equation 4.2)
Trang 9where, Yit are observations for subject i at time t, β0 is the intercept, Xit is the covariate for subject i at time t, β1 is the regression coefficient for the covariate, β2
is the regression coefficient for the variable representing subject i, id_number is the variable representing subject i, and εit it is the “error” for subject i at time t.
When the id_number is added as a discrete or continuous variable to the regres- sion model, the regression coefficient (β2) has a very strange interpretation; i.e when the id_number differs with one unit, the outcome variable Y differs with β2 units This assumes a linear relationship between the id_number and the outcome variable Y, which is rather strange The problem is that the variable id_number is
not a discrete or continuous variable, but it is a categorical one When a categoricalvariable is added to a regression model, it should be represented by dummy vari- ables In the example dataset, there are 147 subjects, so 146 dummy variables are needed to adjust for the subject (Equation 4.3)
where, Yit are observations for subject i at time t, β0 is the intercept, Xit is the covariate for subject i at time t, β1 is the regression coefficient for the covariate, β2
is the regression coefficient for the dummy variable representing subject two, β3 is the regression coefficient for the dummy variable representing subject three, β147
is the regression coefficient for the dummy variable representing subject 147, and
εit it is the “error” for subject i at time t.
Using so many dummy variables in a cross-sectional linear regression model is a very inefficient way to adjust for the subject, especially because the magnitude of
the differences in the outcome variable Y between the subjects (which is the
interpretation for the regression coefficients belonging to the dummy variables representing the subjects) is neither interesting nor informative In fact, because of this problem, longitudinal data analysing techniques are developed The general idea behind a longitudinal data analysing technique is that the adjustment for the subject is performed in a very efficient way The different sophisticated techniques that are available for the analyses of longitudinal data differ from each other in the way they perform this adjustment
Trang 12PHƯƠNG PHÁP POOLED ORDINARY LEAST-SQUARES ESTIMATION
Phương pháp đơn giản nhất để mô hình hóa dữ liệu theo chiều dọc chính làphớt lờ cấu trúc theo chiều dọc của dữ liệu và xử lý chúng như là mỗi hàng (theodạng dọc) tương ứng với một quan sát khác nhau Mô hình có dạng chuẩn tuyếntính với cả biến factor theo thời gian và không theo thời gian
Phương pháp này cho ước lượng phù hợp với các hệ số hồi quy dưới giảđịnh rằng cấu trúc trung bình được chỉ định chính xác (về cơ bản là các đồng biếnđược thêm vào chính xác và các dạng hàm số được xác định chính xác) và rằng hệ
số dư không tương quan với các đồng biến Ngoài ra công cụ ước lượng sai sốchuẩn sandwich (được gọi ra bằng option vce(cluster nr)) tạo ra ước lượng thíchhợp cho sai số chuẩn thậm chí ngay khi hệ số dư tương quan bên trong đối tượng
và có phương sai không hằng định
Tuy nhiên một hạn chế quan trọng của phương pháp này chính là giả địnhngầm rằng không có dữ liệu mất hoặc xác suất quan sát bị mất không phụ thuộcvào các quan sát quan sát được hoặc không quan sát được sau khi hiệu chỉnh chocác đồng biến
generate educt = educ - 12
generate yeart = year - 1980
regress lwage black hisp union married exper yeart educt, vce(cluster nr)
Linear regression Number of obs = 4,360
Trang 14PHƯƠNG PHÁP SUMMARY MEASURES (RESPONSE FEATURE ANALYSIS)
Sử dụng trung bình các lần quan sát
egen avg=rmean(dep1 dep2 dep3 dep4 dep5 dep6)
ttest avg, by(group)
Two-sample t test with equal variances
-
Group | Obs Mean Std Err Std Dev.[95% Conf Interval]
-
0 | 27 14.75605 .8782852 4.56370412.95071 16.56139
1 | 34 10.55206 .9187872 5.3574048.682772 12.42135
-
+ -combined | 61 12.41284 .6923949 5.40777711.02785 13.79784
-
Trang 15diff | 4.20399 1.2948421.613017 6.794964
-
diff = mean(0) - mean(1)
ttest avg, by(group) unequal
Two-sample t test with unequal variances
-
Group | Obs Mean Std Err Std Dev.[95% Conf Interval]
-
0 | 27 14.75605 .8782852 4.56370412.95071 16.56139
1 | 34 10.55206 .9187872 5.3574048.682772 12.42135
Trang 16-
+ -combined | 61 12.41284 .6923949 5.40777711.02785 13.79784
-
diff | 4.20399 1.2710451.660343 6.747637
-
diff = mean(0) - mean(1)
Sử dụng phương pháp tóm tắt trung bình để so sánh trung bình trầm cảmgiữa hai nhóm điều trị
Trong trường hợp điểm depress, sử dụng số tóm tắt là trung bình điểmdepress của các đợt tái khám
Khi đó sử dụng phép kiểm t-test hai mẫu để kiểm tra sự khác biệt về điểmtrung bình giữa hai nhóm
Trang 17Kết quả cho thấy cho dù chạy phép kiểm t-test với equal hay unequalvariances thì sự khác biệt giữa hai nhóm là 4,3 với 95%CI từ 1,61-6,7 với p<0,001 Hay nói cách khác nhóm estrogen có điểm depress giảm nhiều hơn so vớinhóm không sử dụng estrogen.
Sử dụng điểm hiệu số
Sử dụng phương pháp dùng số tóm tắt với số tóm tắt là sự khác biệt giữa lầntái khám đầu và lần tái khám cuối Phép kiểm cho thấy nhóm estrogen có sự giảmnhiều hơn so với nhóm placebo
Trang 18Lập mô hình hồi quy tuyến tính giữa hiệu số khác biệt trước và sau với biếnpredictor là cinitage Chú ý biến cinitage đã được trung tâm hóa.
Trang 19PHƯƠNG PHÁP REPEATED MEASURE ANOVA (MANOVA FOR REPEATED MEASURES)
tabstat y1-y4, by(trt) stat(n mean sd var)
Summary statistics: N, mean, sd, variance
Trang 20profileplot y1-y4, by(trt)
Vẽ đồ thị trung bình outcome tại các thời điểm giữa hai nhóm
Trang 21reshape long y, i(id) j(time)
(note: j = 1 2 3 4)
Data wide -> long
Trang 22
-Chuyển dữ liệu từ wide thành long.
Chạy mô hình bằng lệnh anova
Trong mô hình này chúng ta có biến ethnic là biến time-constant do đó để cóthể tính được chỉ số F thì chúng ta phải thêm dấu / đằng sau ethnic
Biến nr/ethnic nghĩa là các subject được lồng ghép vào ethnic
Các biến union married và exper là biến time-varying covariate Biến exper
có tiền tố c để xem exper như là biến định lượng liên tục có tương quan với lwage
Chúng ta dùng option dropemptycells để bỏ bớt các ô trống trong matrix
Số F của ethnic là F (2, 542) = 6.46, với p = 0.002 Giá trị này có thể lý giải
là phép kiểm cho hiệu ứng between-subject của ethinicity sau khi đã loại bỏ cáchiệu ứng within-effect của các biến time-varying
Các số F của các biến time-varying (within-subject effect) khác tương đươngvới chỉ số t trong phép kiểm dùng xtreg
Trang 23anova y trt / id|trt time trt#time, repeated(time)
Number of obs = 32 R-squared = 0.9624
Root MSE = .712 Adj R-squared = 0.9352
Source | Partial SS df MS F Prob>F
Lowest b.s.e variable: id
Covariance pooled over: trt (for repeated variable)
Repeated variable: time
-Chạy mô hình ANOVA lập lại Tương tác treatment-by-time có ý nghĩa như
là 2 hiệu ứng chính đối với treatment và time Kết quả gồm 3 giá trị p value của 3
Trang 24phép kiểm F-test: 1) Huynh-Feldt, 2) Greenhouse-Geisser và 3) Box’s conservative
contrast time@trt, effect
Contrasts of marginal linear predictions
Trang 25| Contrast Std Err t P>|t| [95% Conf Interval]
- -
time@trt |
(2 vs base) 1 | .25 .5034602 0.50 0.626 -.8077307 1.307731
(2 vs base) 2 | 1.25 .5034602 2.48 0.023 1922693 2.307731
(3 vs base) 1 | 3.25 .5034602 6.46 0.000 2.192269 4.307731
(3 vs base) 2 | 3.75 .5034602 7.45 0.000 2.692269 4.807731
(4 vs base) 1 | 4.25 .5034602 8.44 0.000 3.192269 5.307731
(4 vs base) 2 | 8.25 .5034602 16.39 0.000 7.192269 9.307731
-
Trang 26-Vì giữa trt và time có tương tác nên chúng ta sẽ tìm hiểu hiệu ứng của timelên từng nhóm trt bằng lệnh contrast
margins time, at(trt=1) pwcompare(effects) noestimcheck
Pairwise comparisons of predictive margins
Expression : Linear prediction, predict()
at : trt = 1
-
| Delta-method Unadjusted Unadjusted
| Contrast Std Err z P>|z| [95% Conf Interval]
- -
time |
2 vs 1 | .25 .5034602 0.50 0.619 -.736764 1.236764
3 vs 1 | 3.25 .5034602 6.46 0.000 2.263236 4.236764
4 vs 1 | 4.25 .5034602 8.44 0.000 3.263236 5.236764
3 vs 2 | 3 .5034602 5.96 0.000 2.013236 3.986764
Trang 274 vs 2 | 4 .5034602 7.95 0.000 3.013236 4.986764
4 vs 3 | 1 .5034602 1.99 0.047 013236 1.986764
-
-margins time, at(trt=2) pwcompare(effects) noestimcheck
Pairwise comparisons of predictive margins
Expression : Linear prediction, predict()
at : trt = 2
-
| Delta-method Unadjusted Unadjusted
| Contrast Std Err z P>|z| [95% Conf Interval]
- -
time |
2 vs 1 | 1.25 .5034602 2.48 0.013 263236 2.236764
Trang 283 vs 1 | 3.75 .5034602 7.45 0.000 2.763236 4.736764
4 vs 1 | 8.25 .5034602 16.39 0.000 7.263236 9.236764
3 vs 2 | 2.5 .5034602 4.97 0.000 1.513236 3.486764
4 vs 2 | 7 .5034602 13.90 0.000 6.013236 7.986764
4 vs 3 | 4.5 .5034602 8.94 0.000 3.513236 5.486764
Bởi vì mỗi phép kiểm hiệu ứng đơn giản liên quan đến 4 điểm thời gian sẽdẫn đến so sánh cặp với lệnh margin và pwcompare
anova y trt##time
Number of obs = 32 R-squared = 0.9237
Root MSE = 877971 Adj R-squared = 0.9015
Source | Partial SS df MS
F Prob > F
+ - Model | 224 7
-32 41.51 0.0000
|
Trang 29trt | 10.125 1 10.125 13.14 0.0014
time | 194.5 3 64.8333333 84.11 0.0000
trt#time | 19.375 3 6.45833333 8.38 0.0006
|
Residual | 18.5
24 770833333
+ - Total | 242.5 31 7.82258065
-Các phép kiểm điều trị tại mỗi thời điểm đòi hỏi sử dụng sai số pooled Cónghĩa là pooling id/trt và sai số hệ số dư Điều này có thể dễ đạt được bằng cáchloại id/trr từ lệnh anova Lưu ý rằng độ tự do hệ số dư bây giờ 24
Trang 30contrast trt@time, effect
Contrasts of marginal linear predictions
| Contrast Std Err t P>|t| [95% Conf Interval]
- -
trt@time |
Trang 31(2 vs base) 1 | -2.5 .6208194 -4.03 0.000 -3.781308 -1.218692
(2 vs base) 2 | -1.5 .6208194 -2.42 0.024 -2.781308 -.2186918
(2 vs base) 3 | -2 .6208194 -3.22 0.004 -3.281308 -.7186918
(2 vs base) 4 | 1.5 .6208194 2.42 0.024 2186918 2.781308
-
-Chúng ta xét hiệu ứng của treatment lên time Bởi vì có hai mức treatmenttại mỗi thời điểm do đó có tổng cộng 4 độ tự do Bởi vì mỗi test có một độ tự donên chúng ta không cần chạy các test theo dõi tiếp theo
Trang 32| Delta-method
| Margin Std Err z P>|z| [95% Conf Interval]
- -
trt#time |
1 1 | 4.25 .4389856 9.68 0.000 3.389604 5.110396
1 2 | 4.5 .4389856 10.25 0.000 3.639604 5.360396
1 3 | 7.5 .4389856 17.08 0.000 6.639604 8.360396
1 4 | 8.5 .4389856 19.36 0.000 7.639604 9.360396
2 1 | 1.75 .4389856 3.99 0.000 8896041 2.610396
Trang 332 2 | 3 .4389856 6.83 0.000 2.139604 3.860396
2 3 | 5.5 .4389856 12.53 0.000 4.639604 6.360396
2 4 | 10 .4389856 22.78 0.000 9.139604 10.8604
-
Adjusted Predictions of trt#time with 95% CIs
Vẽ đồ thị giá trị tiên đoán trt#time theo thời gian
Trang 34MÔ TẢ LONGITUDINAL DATA
Mô tả các lần đo (wide form)
Dữ liệu có dạng wide form: mỗi đối tượng từng hàng và biến outcome đượcghi nhận theo thời gian
Tóm tắt số liệu theo nhóm điều trị và số lần tái khám Lưu ý là số đối tượngtham gia nghiên cứu giảm theo thời gian và điểm depress của cả hai nhóm đềugiảm dần theo thời gian
Trang 35Mô tả mối liên quan giữa các lần đo (wide form)
graph matrix pre-dep6, mlabel(group) msymbol(none)mlabposition(0)
0 0
0 0 0 0
00 0 0 0
0
0 0 0 0 0 0 0 0 0 0 0 0 1 1
1 1
1 1 1 1 1 1 1 1 1 1
1 1 1 1
1 1 1 1 1
1 1
1 1 1 1 1 1
0 0
0 00 0 0
0 0
0
0 0 0 0 0 0 0
0 1 1
1 1
1 1 1 1
1 1 1 1 1 1 1 1
1 1
1 1 1 1 1
1 1
0 0
0 0 0 0
0 0
0
0 0 0 0 0
0 1 1
1 1
1 1 1 1
1 1 1
1 1 1
1 11 1
1 1
1 1 1 1 1
1 1 1
0 0
0 0 0 0 0
0
0 0 0 0
0 0 0
0 1 1
1 1
1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1
0 0
0 0 0 0 0
0
0 0 0 0 0
0 1 1
1 1
1 1 1 1
1 1 1
1 1 1 1
1 1 1 1 1 1 1
1 1
0 0
0 0 0 0
0 0
0
0 0 0 0 0 0
0 1 1
1 1
1 1 1 1
1 1 1
1
1 11
1 11 1 11 1 1 1 1 1 1
0 0 0 0 0 1 1 1
1 1 1
1
1 11 1
1 111
1 11 1
1 1 1 1
0 0 0 0 0 0 0 0
0 0
0 0 0 0 0 1 1 1 1
1 1
1 1
1 1 1 1 1
11 11
1 11 1
1 1 1 1 1
0 0 0 0 0 0 0 0 0 0
0 0 0
0 0 0 0
1 1 1
1 1
1 1 1
1 1 1 1 1 1 1 1
1 1 1
0 0 0 0 0 0 0 0
0 0
0 0 0 0 0 1 11 1 1
1 1
1 1 1
1
1 1 1 1 1 1 1 1 1
1 1 1 1
0 0 0 0 0 0 0 0
0 0
0 0 0 0 0
0 1 1 1
1 1
1 11
1
1 11 1 1 1 1 1 1 1
1 1 1
00 0 0
0 0 0
0 0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1
1
1
1 1 1 1
0
0000
0 0 0 0 0 0 0 1 1
1 11
1 11
1 11
1 1
1 1 1
11 11 1 1
1 1 1 1
1 1
0 0
0 0 0
0 0 0 0 0 0
00 00
11 11
1 11
1 1 1
1 1 1 1 11 1 1 1
1
1 1 1 1
0
0 000
0 0 0 0 0 0 0 0 1 1 1 1
1 11
1 1 1
1 1 1 1 1 1 1
1
1 1 1 1
0
0 0 00 0 0
0 0 0 0 0 0 0 0
1 11
1 11
1 1
1
1 11 1 1 11 1 1 1
1
1 1 1 1
0 0 0 0 0 1 1
1 11
1 1
1 11 1 1 1 1 1 1
1
1 1 11 1
000
0 00 0
0 0 0
0 00 0 1 1 1 1
1 1 1 1 1
1 1 1
1 1 1 1 1
0 0
0 0 0
0 0 0
0 0 0 0
1 1
1 11 1 1 1 1
1 1 1 1
1 1 1
1 1 11 1 1
0 00
0 00
0
0 0 0
0 0 0 00 0 1 1
1 1 11
1 1 1
1 1 1
1 11
1 1 1
1 1
1 1 1 1
0
0 0
00 0
0 0 0 0
0 0 0 0 0 0 1 1
11 11 1 1 1
1 1
1 1 1 1 1
1 1 1
1 1
1 1 1 1
0 0 0 0 0 0 1 1 1 1 1
1 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1
1 1 1 1
0 0
0 00
0 0 0 0 0
0 0 0 0 0 0 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1
1 1
1 1
0 0 0
0 00
0 0 0 0 0
0 0 0 0 0 0 1 1 1 1 1
1 1 1 1
1 1
1 11 1 1 1 1 1
1 1
1 1
0
0 00 0 0 0 0
0 0 0 0 0 0 1 1 1 1 1 1
1 1 1 1
1 1
1 11 1 1
1
1 1
1 1
0 0 0
0 0 0 0 0 0 0
0 0 0 0 0
0 11 1 1 1 11 1 1
1 1
1 1 1 1 11 1 1 1
1
1 1 1
00 00
0 00
0 0 0 0 1 11
1 1 1 1 1 1 1
1 1 1
1 11
1 11 1 1
1 1 1 1
0 00
0000 0 0 0
0 0
0 0 0 0 1 1 1
1 1 1 1
1 11 1
1 1
1 1 1
1 1
1 1 1 1 1 1
0 0 0 0 0 0
0 0 00 0 0 1 1 1
1 1 1 1 1 1
1
1 1 1 1
1 11
1 1
1 1 1 1 1 1
0 0
0 00 0 0 0
0 0
0 0 0 0 1 1
1 1 1 1 1
1 1
1
1 1 1 1 1 1 1 1
0
0 0 0
0 0
0 00 0
0 0 0 0 0 1 1
1 1 1 1 1 1
1
1 11 1 1 1 1 1 1 1 1
00 0 0 0 0 0 0
0 00
0 11 1
1 1 1
1 1 11 1
1 1 1 1 1 1 1
1 1 1 1
1
1 1 1 1
0 0
0000 0 0 0 0
0 00
0 11 1 1 1 1
1
1 1 1 1 1
1 1
1 1
1 1
1 1
0 0
0000 0
0 00 0
0 00
0 11 1 1 1 1 1
1 1 1
1
1 1 1 1 1 1
1 1
1 1
1 1
1 1
0 0 0
0 0 0 0 0 0 0 0
0 00 0
0 1
1 1 1 1 11
1 1 1
1 1 1 1 11 1 1 1
1 1
1 1
0 0
0 00
0 0 0 0
0 00
0 11 1
1 1 1 1
1 1
1 1
1
1 1 1 1 1
1 1 1 1
1 1
0 10 20
Vẽ đồ thị ma trận tương quan của điểm depress giữa các lần tái khám Nhómđiều trị được đánh dấu 0 và 1
Đồ thị cho thấy tất cả các tương quan đều dương tính
Có mối tương quan mạnh ngày càng tăng giữa các điểm depress khi thờigian giữa các lần đo depress này giảm dần (nghĩa là các lần đo gần nhau thì càngtương quan mạnh) Kiểu tương quan này (correlation structure) rất quan trọngtrong việc chọn mô hình phù hợp cho dữ liệu theo thời gian
Trang 36Mô tả số lần đo của từng đối tượng (long form)
dep1 dep2 dep6 -> dep
Lệnh preserve sẽ lưu trữ dữ liệu dạng wide trong bộ nhớ, sau đó nếu muốnphục hồi dạng wide chỉ cần dùng lệnh restore
Chuyển dữ liệu từ dạng wide sang dạng long gồm biến dep là điểm depress,
và visit là biến đợt tái khám Việc chuyển dữ liệu để có thể vẽ được các dạng đồ thị
Trang 37hoàn thành 2 đợt, 1 bệnh nhân hoàn thành 3 đợt Đây là dạng “monotonic” vì bệnhnhân sẽ không bao giờ quay lại tái khám.
Trong hầu hết các trường hợp nhà nghiên cứu chọn làm việc với dữ liệuunbalanced bởi vì các công cụ phân tích dành cho unbalanced và balanced là nhưnhau
Mô tả sự biến thiên số liệu của các biến (long form)
quietly xtset nr
xtsum lwage union educ year
Variable | Mean Std Dev Min Max | Observations
‘between’ mô tả trung bình và độ lệch của các cá nhân N là tổng số quan sát trong
bộ dữ liệu cho biến cụ thể trong khi n chính là số đối tượng của biến đó T-barchính là trung bình số lần đo
Kết quả của lệnh trên cho thấy biến lwage (biến response) có sd within vàbetween đều thay đổi do đó lwage là biến thay đổi theo thời gian Biến union cũng
Trang 38vậy Biến educ không thay đổi trong cùng đối tượng, còn biến year không thay đổigiữa các đối tượng, nhưng within thì lại thay đổi Việc kiểm tra sự biến thiênwithin và between rất quan trọng trong một số mô hình đặc biệt mô hình fixed-effect vì nó chỉ đo lường within-effect mà thôi.
xttab union
Overall Between Within
union | Freq Percent Freq Percent Percent
Chúng ta thấy cột Overall rằng union có giá trị 1 chiến 24.4% số thời giangiữa các cá thể và số thời điểm Ở cột between thì có 93.8% đối tượng không làthành viên công đoàn cho ít nhất 1 lần đo, và 51.4% là thành viên công đoàn cho ítnhất 1 lần đo Cuối cùng cột within cho thấy giữa những người không là thành viênthì phần trăm trung bình lần đo mà họ không phải là thành viên là 80.6% Nhữngngười là thành viên thì trung bình lần đo là thành viên là 47.5% Khi tổng phầntrăm của cột between > 100% có nghĩa là biến này đã thay đổi theo thời gian chomột số đối tượng
Mô tả xu hướng biến phụ thuộc theo số lần đo cho toàn bộ mẫu
graph box lwage, over(year) intensity(0) medtype(line) marker(1,mlabel(nr) mlabsize(vsmall) msym(i) mlabpos(0) mlabcol(black)) ytitle(Log hourly wage)
Trang 39908 3581
7784 1576
813
9710 2721
8090 7784
8520
2264 9683 6056 8203
8587 13 8524 11973 925
2147 12122
3017 7784
6025 569
218 7784 3275
Đồ thị cho thấy có đối tượng 813 có wage rất thấp chỉ vài cent trong năm
1984 Đối tượng này có thể có vấn đề khó khăn làm lương anh ta giảm thấp hoặcchỉ đơn giản là do nhập sai mà thôi
Sử dụng biểu đồ hộp đòi hỏi rằng dữ liệu cho từng lần đo phải đủ nhiều
Trang 40graph box dep, over(visit) over(group, relabel(1
"Placebo group" 2 "Estrogen group"))
Vẽ đồ thị hộp điểm trung bình depress của cả hai nhóm theo thời gian Lưu
ý muốn vẽ biểu đồ này phải chuyển dữ liệu từ wide thành long.
Option over() xác định biến hai nhóm điều trị và theo số lần tái khám để vẽphân bố theo thời gian ở cả hai nhóm
Option relabel() được sử dụng để định nghĩa nhãn cho các nhóm Ở đây “1”tương ứng với cấp đầu tiên của nhóm (0 trong trường hợp này) và “2” cho cấp 2của nhóm
Ở đây có thể thấy xu hướng giảm điểm depress chung của cả hai nhóm điềutrị và trong nhóm điều trị bằng estrogen thì có một số giá trị ngoại lai cần phảikiểm tra Có 4 giá trị ngoại lai là thuộc về cùng 1 đối tượng có điểm depress caohơn các đối tượng còn lại