Phương pháp đơn giản nhất để mô hình hóa dữ liệu theo chiều dọc chính là phớt lờ cấu trúc theo chiều dọc của dữ liệu và xử lý chúng như là mỗi hàng (theo dạng dọc) tương ứng với một quan sát khác nhau. Mô hình có dạng chuẩn tuyến tính với cả biến factor theo thời gian và không theo thời gian. Phương pháp này cho ước lượng phù hợp với các hệ số hồi quy dưới giả định rằng cấu trúc trung bình được chỉ định chính xác (về cơ bản là các đồng biến được thêm vào chính xác và các dạng hàm số được xác định chính xác) và rằng hệ số dư không tương quan với các đồng biến. Ngoài ra công cụ ước lượng sai số chuẩn sandwich (được gọi ra bằng option vce(cluster nr)) tạo ra ước lượng thích hợp cho sai số chuẩn thậm chí ngay khi hệ số dư tương quan bên trong đối tượng và có phương sai không hằng định. Tuy nhiên một hạn chế quan trọng của phương pháp này chính là giả định ngầm rằng không có dữ liệu mất hoặc xác suất quan sát bị mất không phụ thuộc vào các quan sát quan sát được hoặc không quan sát được sau khi hiệu chỉnh cho các đồng biến.
MÔ TẢ LONGITUDINAL DATA 2 PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP POOLED ORDINARY LEAST-SQUARES ESTIMATION 14 PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP SUMMARY STATISTIC (SỐ THỐNG KÊ TÓM TẮT) .16 PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP RANDOM EFFECT 18 PHÂN TÍCH LONGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG-PHƯƠNG PHÁP GENERALIZED ESTIMATING EQUATION (GEE) .27 PHÂN TÍCH LOGITUDINAL STUDIES VỚI BIẾN OUTCOME LÀ BIẾN ĐẾM - PHƯƠNG PHÁP GENERALIZED ESTIMATION EQUATIONS (GEE) 32 Phân tích logitudinal studies với biến outcome là biến định lượng - phương pháp repeated measure anova (MANOVA for repeated measures) 34 PHÂN TÍCH REPEATED MEASURES DATA VỚI BIẾN OUTCOME LÀ BIẾN ĐỊNH LƯỢNG- PHƯƠNG PHÁP MIXED MODEL 44 PHÂN TÍCH REPEATED MEASURE DATA (HAI LẦN ĐO) VỚI BIẾN OUTCOME LÀ ĐỊNH LƯỢNG – KHÔNG CÓ COVARIATES 53 LONGITUDINAL STUDIES Simple linear regression model Illustration of simple linear regression model Illustration of sums of squares for simple linear regression Longitudinal model ADVANTAGES OF LONGITUDINAL VERSUS CROSS-SECTION DATA The first advantage of longitudinal data is that repeated observations for the same individual also allow us to use econometric techniques such as fixed and random effects methods These methods allow us to control for certain types of individual- specific time-invariant factors that are not observed in the dataset (often referred to as individual unobserved heterogeneity) The second advantage of having repeated observations is that they allow a better study of dynamics The key advantage here is the possibility to measure change CÁC ĐẶC ĐIỂM CỦA DỮ LIỆU LONGITUDINAL Khi các đối tượng cùng có số lần đo như nhau và các lần đo có cùng thời điểm giống nhau thì dữ liệu được gọi là balanced Dữ liệu được gọi là strongly balanced khi tất cả các subject có cùng số lần đo không bị mất dữ liệu Nếu giữa các lần đo có khoảng thời gian giống nhau thì gọi là constant spacing of occasion (khoảng cách các lần đo bằng nhau) Khi một biến thay đổi theo thời gian thì biến đó gọi là time-varying covariate Biến phụ thuộc định lượng luôn là biến time-varying Biến time-varying còn được chia thành: 1) occasion-specific covariate: nghĩa là biến chỉ thay đổi ở mức độ lần đo và 2) subject-specific và occasion-specific covariate nghĩa là biến thay đổi ở mức độ lần đo và cả ở mức đối tượng Một số covariate không thay đổi theo thời gian được gọi là subject-specific covariate hay time-constant covariate (biến hằng định theo thời gian) Thang đo thời gian trong dữ liệu longitudinal: age-period-cohort effect Có ba thang đo thời gian chính có thể dùng trong longitudinal data: là age, cohort và period Trong bảng dữ liệu trên chúng ta thấy đối tượng 45 thuộc cohort 1960 (nghĩa là những người sinh năm 1980), period chính là thời gian các lần đo (1980-1987) và age chính là độ tuổi của đối tượng theo các lần đo Từ dữ liệu trên chúng ta nhận thấy Age = Period – Cohort Dữ liệu longitudinal có nhiều cohort thì gọi là cohort-sequential design or accelerated longitudinal design Từ công thức kể trên chúng ta thấy rằng có thể ước lượng được hiệu ứng của hai thang đo thời gian, còn thang còn lại sẽ bị gây nhiễu Việc lựa chọn thang đo thời gian đưa vào khảo sát trong nghiên cứu hoàn toàn phụ thuộc vào việc chúng ta xem xét thang đo thời gian nào là quan trọng nhất Ví dụ lương thì phụ thuộc hoàn toàn vào age và period do đó chúng ta có thể bỏ thang đo cohort trong nghiên cứu Tính bảo thủ hoàn toàn phụ thuộc vào age và cohort và vì thế chúng ta bỏ thang đo period Ngoài ba thang đo thời gian chính là age, cohort và period, chúng ta còn có thể có các thang đo khác tùy thuộc vào nghiên cứu Một số thang đo thời gian có sẵn trong dữ liệu, nhưng cũng có thang đo chúng ta phải tạo thêm từ dữ liệu Ví dụ như chúng ta có thang đo thời gian là số năm học vấn (E) và số năm đi làm (L), chúng ta muốn tính thang đo thời gian là tuổi thì chúng ta phải tạo nên biến tuổi mới với công thức như sau: CÁC PHƯƠNG PHÁP DÙNG PHÂN TÍCH DỮ LIỆU LONGITUDINAL Pooled ordinary least-square model: Summary measures Phương pháp repeated measure ANOVA Random-effect model: trong mô hình này các biến level-2 được thể hiện dưới dạng random intercept Mô hình growth-curve model chính là dạng đặc biệt của random-effect model Trong growth-curve model thì mục đích tập trung vào việc mô tả sự tăng trưởng theo thời gian bằng cách thêm random coefficient của time vào mô hình Fixed-effect model: mô hình fixed-effec coi các biến level-2 được thể hiện dưới dạng cố định là các biến dummy nhị giá Với fixed effect model chúng ta có thể tìm hiểu được các within-effect của các covariate thay đổi theo thời gian (các biến level-1) và biến phụ thuộc Các biến số level-2 có thể gây nhiễu cho các biến level-1 đều được khử khi đưa vào các biến dummy vì vậy có thể giúp chúng ta tìm được suy luận nhân quả thực sự Repeated measures/split-plot analysis of variance (ANOVA): là một dạng của fixed-effect model Dynamic model: được áp dụng khi response tại một thời điểm đo nào đó phụ thuộc vào response của thời điểm đo trước đó Marginal model: trong mô hình này chúng ta không thêm random effect mà chúng ta lại xét đến covariance structure của tổng hệ số dư Mô hình marginal thường được dùng trong nghiên cứu thử nghiệm lâm sàng vì các biến level-2 gây nhiễu đều đã được khử và do đó có thể suy luận nhân quả chính xác hơn Trong y sinh học thì mô hình random effect và marginal effect được sử dụng phổ biến còn trong khoa học xã hội lại sử dụng random-effect là phổ biến Trong kinh tế học thì mô hình fixed-effect và mô hình dynamic effect lại được sử dụng phổ biến With the development of (new) statistical techniques, such as GEE analysis and mixed model analysis, it has become possible to analyze longitudinal relationships using all available longitudinal data, without summarizing the longitudinal devel- opment of each subject into one value The longitudinal relationship between a continuous outcome variable Y and one or more covariate(s) X can be described by Equation 4.1 where Yit are observations for subject i at time t, β0 is the intercept, Xijt is the covariate j for subject i at time t, β1j is the regression coefficient for covariate j, J is the number of covariates, and εit it is the “error” for subject i at time t where Yit are observations for subject i at time t, β0 is the intercept, Xijt is the covariate j for subject i at time t, β1j is the regression coefficient for covariate j, J is the number of covariates, and εit it is the “error” for subject i at time t This model is almost the same as a cross-sectional linear regression model, except for the subscripts t These subscripts indicate that the outcome variable Y is repeatedly measured on the same subject (i.e the definition of a longitudinal study), and that the covariate X can be repeatedly measured on the same subject In this model the coefficients of interest are β1j, because these regression coefficients show the magnitude of the longitudinal relationship between the outcome variable (Yit) and the covariates (Xijt) Based on a long data structure (see Figure 1.1), the regression coefficients for each of the covariates can be estimated with a cross-sectional linear regression analysis However, one of the assumptions of a cross-sectional linear regression analysis is that the observations are independent of each other In a longitudinal dataset, the observations performed on the same subject are highly dependent on each other and therefore a cross-sectional linear regression analysis cannot be used to estimate the regression coefficients of Equation 4.1 Because of the dependency of the repeated observations within one subject, the relationship between X and Y must be adjusted for the subject (Equation 4.2) where, Yit are observations for subject i at time t, β0 is the intercept, Xit is the covariate for subject i at time t, β1 is the regression coefficient for the covariate, β2 is the regression coefficient for the variable representing subject i, id_number is the variable representing subject i, and εit it is the “error” for subject i at time t When the id_number is added as a discrete or continuous variable to the regres- sion model, the regression coefficient (β2) has a very strange interpretation; i.e when the id_number differs with one unit, the outcome variable Y differs with β2 units This assumes a linear relationship between the id_number and the outcome variable Y, which is rather strange The problem is that the variable id_number is not a discrete or continuous variable, but it is a categorical one When a categorical variable is added to a regression model, it should be represented by dummy vari- ables In the example dataset, there are 147 subjects, so 146 dummy variables are needed to adjust for the subject (Equation 4.3) where, Yit are observations for subject i at time t, β0 is the intercept, Xit is the covariate for subject i at time t, β1 is the regression coefficient for the covariate, β2 is the regression coefficient for the dummy variable representing subject two, β3 is the regression coefficient for the dummy variable representing subject three, β147 is the regression coefficient for the dummy variable representing subject 147, and εit it is the “error” for subject i at time t Using so many dummy variables in a cross-sectional linear regression model is a very inefficient way to adjust for the subject, especially because the magnitude of the differences in the outcome variable Y between the subjects (which is the interpretation for the regression coefficients belonging to the dummy variables representing the subjects) is neither interesting nor informative In fact, because of this problem, longitudinal data analysing techniques are developed The general idea behind a longitudinal data analysing technique is that the adjustment for the subject is performed in a very efficient way The different sophisticated techniques that are available for the analyses of longitudinal data differ from each other in the way they perform this adjustment