Khái quát dữ liệu bảng

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU

3.3. Phuơng pháp nghiên cứu

3.3.1. Khái quát dữ liệu bảng

Theo Brooks (2008), dữ liệu bảng hay còn được gọi bằng tên khác, như dữ liệu gộp chung (gộp chung các quan sát chéo và chuỗi thời gian), là sự kết hợp của dữ liệu chéo và chuỗi thời gian, dữ liệu bảng vi mô (micropanel data), dữ liệu dọc (longitudinal data) (đó là một nghiên cứu nào đó theo thời gian về một biến hay một nhóm đối tượng), phân tích lịch sử sự kiện, phân tích theo tổ (cohort analysis). Mô hình dữ liệu bảng được Brooks cụ thể như sau:

y i t = OC+ β X i t+u i t (3.1)

Trong đó y it là biến phụ thuộc, OC là hệ số chặn, β là k × 1 vecto tham số được ước lượng bằng biến giải thích, và Xi t là 1 × k vecto của số quan sát trong biến giải thích, t = 1,....,T; i = 1,...,,N2.

So với các dữ liệu chéo thì dữ liệu bảng có nhiều ưu điểm hơn, cụ thể như sau:

• Dữ liệu bảng chứa nhiều thông tin hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng tuyến hơn, có nhiều bậc tự do hơn và hiệu quả cao hơn.

• Dữ liệu bảng phù hợp cho việc nghiên cứu động thái hay đổi theo thời gian của các đơn vị chéo này, ví dụ như những tác động của thất nghiệp, tốc độ quay vòng việc làm, tính dịch chuyển của lao động được nghiên cứu tốt hơn khi có dữ liệu bảng.

• Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác động mà người ta không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ liệu chéo thuần túy.

• Dữ liệu bảng giúp tác giả có thể nghiên cứu các mô hình phức tạp hơn. Thí dụ, chúng ta có thể xử lý tốt hơn bằng dữ liệu bảng các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi công nghệ so với dữ liệu chéo hay dữ liệu chuỗi thời gian.

Tóm lại, dữ liệu bảng có thể giúp tác giả phân tích thực nghiệm phong phú hơn so với cách sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.

3.3.2. Phương pháp hồi quy dữ liệu bảng

Hồi quy dữ liệu bảng sử dụng ba phương pháp chính, đó là phương pháp Pooled OLS, phương pháp tác động cố định (FEM) và phương pháp tác động ngẫu nhiên (FEM).

• Hồi quy theo mô hình Pooled OLS

Phương pháp Pooled OLS thực chất là việc sử dụng dữ liệu bảng để phân tích bằng hình thức sử dụng tất cả dữ liệu theo cách xếp chồng và không phân biệt từng đơn vị chéo riêng. Đây là phương pháp thông thường và đơn giản nhất, tương tự như việc phân tích OLS bình thường, không kể đến kích thước không gian và thời gian của dữ liệu. Mô hình Pooled OLS được cụ thể như sau:

Tt = o

1+ β

ι xI it + β2x2 i t+■ ■ + βkxkit + + uit (3.2)

Trong đó y it là biến phụ thuộc của quan sát i trong thời kỳ t, xkit là biến độc lập của quan sát k trong thời kỳ k.

Mô hình này có một số nhược điểm, đó là nhận diện sai thể hiện ở Durbin - Watson (DW) và ràng buộc quá chặt về các đơn vị chéo, điều này khó xảy ra so với thực tế. Vì thế, để khắc phục các nhược điểm trên, mô hình FEM và REM được sử dụng.

• Hồi quy theo mô hình tác động cố định - FEM

Để thể hiện tác động đặc trưng của mỗi đơn vị chéo đến biến phụ thuộc nhằm cho tung độ gốc thay đổi đối với mỗi đơn vị nhưng hệ số độ dốc không thay đổi. Phương pháp đó được gọi là phương pháp hồi quy theo mô hình tác động cố định (FEM),

nghĩa là tung độ gốc có thể khác nhau giữa các đơn vị chéo nhung không thay đổi theo thời gian.

Với giả định mỗi đơn vị đều có những đặc điểm riêng biệt có thể ảnh huởng đến các biến giải thích, FEM phân tích mối tuơng quan này giữa phần du của mỗi đơn vị với các biến giải thích qua đó kiểm soát và tách ảnh huởng của các đặc điểm riêng biệt (không đổi theo thời gian) ra khỏi các biến giải thích để chúng ta có thể uớc luợng những ảnh huởng thực (net effects) của biến giải thích lên biến phụ thuộc. Mô hình FEM có dạng nhu sau:

y i t = ci + β χi t + + U í t (3.3)

Trong đó y it là biến phụ thuộc của quan sát i trong thời gian t, Xit là biến độc lập của quan sát i trong thời gian t, Ci là hệ số chặn cho từng đơn vị nghiên cứu, β là hệ số góc đối với nhân tố x và Uit là phần du.

Theo Brooks (2008) để uớc luợng mô hình này thì có hai phuơng pháp uớc luợng đuợc sử dụng để uớc luợng tham số của mô hình tác động cố định, đó là (i) ước luợng hồi quy biến giả tối thiểu LSDV1 đối với mỗi biến giả là đại diện cho mỗi đối tuợng quan sát của mẫu; (ii) ước luợng tác động cố định (Fixed effects estimator).

Mặc dù có thể khắc phục nhuợc điểm của phuơng pháp Pooled OLS nhung mô hình FEM vẫn có một số nhuợc điểm: Thứ nhất, nếu sử dụng quá nhiều biến giả thì sẽ làm mất bậc tự do của dữ liệu. Thứ hai, khi sử dụng quá nhiều biến giả thì sẽ làm cho mô hình xảy ra hiện tuợng đa cộng tuyến do các thông số uớc luợng không chính xác. Thứ ba, mô hình FEM không xét tới tác động của các biến không thay đổi theo thời gian (giới tính, chủng tộc)

• Hồi quy theo mô hình tác động ngẫu nhiên - REM

Điểm khác biệt giữa mô hình ảnh huởng ngẫu nhiên và mô hình ảnh huởng cố định đuợc thể hiện ở sự biến động giữa các đơn vị. Nếu sự biến động giữa các đơn vị có tuơng quan đến biến độc lập - biến giải thích trong mô hình ảnh huởng cố định thì trong mô hình ảnh huởng ngẫu nhiên sự biến động giữa các đơn vị đuợc giả sử là ngẫu nhiên và không tuơng quan đến các biến giải thích.

1Least squares dummy variable: Phuơng pháp hồi quy biến giả bình phuơng nhỏ nhất 37

Chính vì vậy, nếu sự khác biệt giữa các đơn vị có ảnh hưởng đến biến phụ thuộc thì REM sẽ thích hợp hơn so với FEM. Trong đó, phần dư của mỗi thực thể (không tương quan với biến giải thích) được xem là một biến giải thích mới.

Ý tưởng của mô hình REM cũng bắt đầu từ mô hình như sau:

y i t = Ci + β χi t + + U í t (3.4)

Thay vì trong mô hình trên, Ci là cố định thì trong REM có giả định rằng nó là một biến ngẫu nhiên với trung bình là C1 và giá trị hệ số chặn được mô tả như sau

Ci = C + εi ( Ĩ = 1 ,. . .,n) (3.5)

Trong đó ε i là sai số ngẫu nhiên có trung bình bằng 0 và phương sai là σ2. Thay vào mô hình tác giả được:

yit = C + βXit + εi t + Uit hay yit = C + βXit + W1t và Wit = εit + Uit (3.6) Trong đó εi t là sai số thành phần của các đối tượng khác nhau (đặc điểm khác nhau của từng doanh nghiệp) và U i t là sai số thành phần kết hợp khác của cả đặc điểm riêng theo từng đối tượng và theo thời gian.

So với phương pháp FEM, phương pháp REM có thể khắc phục toàn bộ nhược điểm của phương pháp FEM nhưng REM coi mỗi đặc điểm riêng của các đơn vị εi không tương quan với các biến độc lập. Do đó nếu xảy ra hiện tượng này thì REM ước lượng không còn chính xác.

• Kiểm định Hausman

Để xem xét mô hình FEM hay REM phù hợp hơn, tác giả sẽ kiểm định Hausman. Ý nghĩa của kiểm định Hausman là để xem xét có sự tồn tại tự tương quan giữa εi và các biến độc lập hay không. Giả thiết của kiểm định Hausman như sau: H0 là εi và các biến độc lập không tương quan; H1 là εi và các biến độc lập có tương quan (Brooks, 2008).

Khi giá trị P_value < 0.05 thì tác giả bác bỏ H0, khi đó thì εi và các biến độc lập có tương quan với nhau, do đó mô hình FEM được lựa chọn. Ngược lại nếu P_value > 0.05 thì mô hình REM được lựa chọn

3.3.3. Phương pháp Moment tổng quát (GMM)

Do dữ liệu bảng có số cá thể N quan sát lớn trong thời gian nghiên cứu T ngắn nên thường phát sinh ra hiện tượng phương sai sai số thay đổi, hiện tượng tự tương quan, đa cộng tuyến và biến nội sinh. Để khắc phục các nhược điểm nêu trên, phương pháp moment tổng quát (Generalized Method of Moments - GMM) được giới thiệu và nghiên cứu bởi Hansen (1982). Kể từ lần đầu tiên được giới thiệu, phương pháp moment tổng quát (GMM) đã ngày càng trở nên phổ biến và được sử dụng rộng rãi trong nghiên cứu kinh tế.

• Moment và điều kiện moment

Các nhà thống kê học thường gọi các giá trị kỳ vọng của các biến hoặc hiệp biến là các moment. Moment được xem là biểu thức liên hệ của các tham số (function of parameters) trong dữ liệu thực nghiệm (function of data) hoặc có thể hiểu đơn giản là mỗi moment được xem là 1 hàm số của dữ liệu thực nghiệm với các ẩn số là tham số ước lượng. Biểu thức liên hệ này thông thường được gọi là điều kiện moment (moment condition). Hiện nay, có 4 loại moment thông dụng cho các biến thông tin về tổng thể, đó là giá trị trung bình (mean), phương sai (variance), độ trôi (skewness) và độ nhọn (kurtosis). Do đó, quá trình tìm lời giải cho các tham số trong các điều kiện moment được gọi là phương pháp ước lượng moment (method of moment - MM).

Để minh họa cho lời giải thích trên, có thể xét ví dụ đơn giản, cụ thể như một phân phối tổng thể có giá trị trung bình μ chưa biết, có phương sai bằng 1. Khi đó, điều kiện moment tổng thể (population moment conditions) là: E(xi) = μ. Nếu các xi {i =

1.2.. . .,n} của mẫu có phân phối đồng nhất và xác định (i.id) thì giá trị trung bình của mẫu được xác định là X = tt∑it= 1X1 sẽ tương đồng với giá trị trung bình của tổng thể

E(xi). Khi đó, ước lượng MM cho E(xi) = μ được xác định theo trung bình của mẫu là

X = 1∑Γ= 1X i = Un.

Trong trường hợp ước lượng MM tổng quát hơn, giả sử có mẫu quan sát là xi {i = 1.2.. ,n} có phân phối i.id. Từ đó, tác giả ước lượng vector tham số θ ∈ Rp với giá

tri thật là θ0. Gọi f (x ĩ, θ) 2là một hàm liên tục và có sai phân bậc q và E [f (x ĩ, θ) ]

xác định với mọi i và θ thì điều kiện moment tổng thể là E[f (xĩ, θ0)] = 0 sẽ được

tương ứng với điều kiện moment của mâu là f n (θ) = ^∑n= if (x ĩ, θ ) . Khi đó ước lượng MM của θ 0 dựa trên moment tổng thể E[f (x ĩ, θ ) ] là nghiệm của phương trình fn ( θ ) = 0 .

• Hiện tượng nội sinh (Endogenuous)

Theo Nguyễn Quang Dong (2012), biến số mà giá trị của nó được xác định trong khuôn khổ một mô hình kinh tế. Do đó, nếu một biến số là biến số phụ thuộc trong một phương trình thì đó được gọi là biến nội sinh. Vấn đề nội sinh trong mô hình được coi là một trong những vi phạm nghiêm trọng các giả định của mô hình hồi quy. Nội sinh trong mô hình thường xuất hiện dưới 3 dạng sau: (i) Thiếu vắng biến độc lập trong mô hình và do đó phần giải thích của biến này sẽ nằm ở sai số (phần dư). Khi đó có mối tương quan chặt giữa biến độc lập và phần dư; (ii) sai số trong đo lường hay sai lệch do lựa chọn; (iii) vấn đề đồng thời và hệ phương tình đồng thời.

Biến nội sinh là những biến có sự tương quan với phần dư. Đây là những vấn đề thường gặp cả trong lý thuyết về kinh tế vi mô và vĩ mô. Ở góc độ kinh tế lượng, sự xuất hiện biến nội sinh sẽ dân đến các trường hợp như bỏ biến, sai số trong biến, hoặc được xác định đồng thời qua các biến giải thích khác. Trong các trường hợp này, OLS không còn phù hợp với những thông số ước lượng tin cậy. Phương pháp tổng quát để giải quyết vấn đề này là ước lượng biến công cụ (Instrumental variables estimator), đặc biệt là ước lượng 2 giai đoạn tối thiểu 2SLS.

Theo Nguyễn Quang Dong (2012), có 4 cách để khắc phục hiện tượng nội sinh, đó là: (i) Chấp nhận sai lệch tiềm ẩn mà không làm gì cả. Có thể sử dụng thêm lệnh ước lượng vững (robust); (ii) Ứng dụng dữ liệu bảng với một mô hình có thể giải quyết vấn đề nội sinh; (iii) Tìm một biến proxy khác phù hợp để giải quyết mô hình; (iv) Sử dụng mô hình với biến công cụ: 2SLS, 3SLS ...

• Biến công cụ (Instrument Variable)

2Hàm f trong ví dụ ước lượng giá trị trung bình chính là f (xĩ, μ) = x ĩ

Hồi quy với biến công cụ được sử dụng khi ước lượng các mô hình liên quan đến vấn đề biến nội sinh (endogeneity). Xét mô hình minh họa như sau:

γi = ao + a1*xi + ei (3.7)

Ở mô hình nêu trên, có thể thấy được rằng mô hình đang xem xét ảnh hưởng của biến X đến biến Y. Mô hình này có thể được ước lượng bởi OLS chỉ khi các điều kiện của định lý Gauss-Markov3 được thỏa mãn. Một trong những điều kiện là không có sự tương quan giữa X và nhiễu e, nói cách khác X là biến ngoại sinh. Tuy nhiên, nếu điều này không được thỏa mãn, ước lượng a 1 sẽ bị thiên lệch (biased) khi sử dụng phương pháp OLS. Nếu tương quan giữa X và e dương: C O rr (x, e ) > O , khi X tăng thì e sẽ tăng lên nên Y sẽ tăng nhiều hơn. Do vậy, khi ước lượng mô hình, kết quả thu được là

a 1 nhiều khả năng sẽ bị thiên lệch lên (upward biased). Ngược lại, nếu tương quan giữa X và e là âm thì a 1 nhiều khả năng sẽ bị thiên lệch xuống (downward biased). Để có được mô hình này, cần phải tìm công cụ Z mà tương quan với X nhưng không tương quan với e.

• Biến trễ (giá trị trễ của các biến độc lập)

Trong kinh tế học, sự phụ thuộc của một biến số Y (biến phụ thuộc) vào một hay nhiều biến số X khác (biến giải thích) hiếm khi có tính chất đồng thời. Biến phụ thuộcY tương ứng với X sau một khoảng thời gian. Khoảng thời gian như vậy được gọi là độ trễ. Nếu mô hình hồi quy không chỉ bao gồm các giá trị hiện tại mà còn bao gồm các giá trị trong quá khứ thì được gọi là mô hình động. Mô hình biến trễ được tổng quát như sau:

γt = K + βθxt + βιXt - 1 + β2xt - 2+■ ■ ■ + βkxt - k + μ t (3.8)

3 Giả thuyết Gauss-Markov bao gồm 4 giả thuyết về lỗi (hay phần dư) (errors) để đảm bảo một phương pháp

ước lượng cho ra các tham số không bị thiên lệch (biased). Các giả thuyết bao gồm:

Giả thuyết 1 : Các phần dư (Ui) là đại lượng ngẫu nhiên có giá trị trung bình bằng 0.

E((ui∖xi) = O i = l,n X1 là biến giải thích

Giả thuyết 2: Các phần dư (Ui) ở các thời điểm khác nhau là không tương quan với nhau.

C O v( Ul,Uj x∖ l,xj)=O ,i≠j

Giả thuyết 3: Các phần dư (Ui) có phương sai (variance) bất biến.

Var (Ui∖xi) = σ2

Giả thuyêt 4: Phần dư (Ui) và các giả thuyết (Xi) không tương quan với nhau

Cov(EitXi) = O 41

Mô hình (3.8) là một mô hình phân phối trễ với một độ trễ xác định bao gồm k thời đoạn. Hệ số β0 được gọi là số nhân ngắn hạn hay số nhân tác động vì nó cho ta biết sự thay đổi trị trung bình của Y ứng với sự thay đổi một đơn vị của biến X trong cùng thời đoạn. Nếu sau đó, sự thay đổi biến X vẫn được duy trì ở cùng mức độ, thì (/?0 + /?1) cho ra sự thay đổi trị trung bình của Y trong thời đoạn kế tiếp, (/?0 + β 1 +

β2) cho ta sự thay đổi trị trung bình của Y trong thời gian kế tiếp nữa,... Các tổng riêng phần này được gọi là các số nhân tức thời. Cuối cùng, sau k giai đoạn, ta được như sau:

∑ι=0βi = β0 + βι + β2+∙∙∙+βk. = β (3.9)

• Phương pháp moment tổng quát GMM

Phương pháp GMM là một phương pháp thống kê cho phép kết hợp các dữ liệu kinh tế quan sát được trong các điều kiện moment tổng thể (population moment conditions) để ước lượng các tham số chưa biết của các mô hình kinh tế và được xây dựng bởi Hansen vào năm 1982. Sở dĩ phương pháp này được gọi là tổng quát (Generalized) bởi vì nó cho phép ước lượng trường hợp số moment nhiều hơn số tham số có được bằng cách sử dụng ma trận trọng số của các phương sai hoặc hiệp phương sai.

Phương pháp GMM được Hansen (1982) xây dựng dựa trên những ước lượng có đầy đủ các tính chất thống kê tốt như tính nhất quán (consistency), tính tiệm cận phân phối chuẩn (asymptotic normality) và tính hiệu quả (efficiency)

Phương pháp GMM bao gồm rất nhiều phương pháp như phương pháp ước lượng OLS, 2SLS (TSLS), ML. Từ đó, có thể minh họa từng phương pháp từ biểu thức hồi quy có được như sau:

Phân loại nhóm nợ giữa các quốc gia

Mô tả tên biến trong mô hình