Gujarati (2003) cho rằng khi hồi quy chuỗi dữ liệu thời gian thì một vấn đề quan tâm là phải kiểm định mối quan hệ nhân quả giữa các biến để xem xét trong các biến, biến nào là biến nguyên nhân, biến nào là biến kết quả. Để xem xét mối quan
hệ đó, tác giả sử dụng mô hình nhân quả Granger. Biến 𝑌𝑡 được cho là có mối quan
hệ nhân quả với biến 𝑋𝑡 nếu thông tin trong quá khứ và hiện tại của 𝑋𝑡 có thể dùng
để dự báo biến 𝑌𝑡 trong phương trình (1).
Điều kiện cần để thực hiện kiểm định nhân quả Granger là:
- Các biến cần kiểm định nhân quả phải là các chuỗi dừng hoặc đồng liên kết,
tức là không có tương quan giả.
- Chiều hướng của mối quan hệ nhân quả có thể phụ thuộc vào số biến trong
mô hình. Nói cách khác, kết quả kiểm định Granger nhạy cảm với việc lựa chọn độ trễ các biến. Nếu bỏ sót biến do lựa chọn độ trễ nhỏ hơn độ trễ thực sự thì có thể dẫn đến kết quả bị chệch. Nếu lớn hơn thì số biến trễ không thích hợp sẽ làm cho các ước lượng không hiệu quả.
- Các phần dư không có hiện tượng tự tương quan. Nếu có, phải chuyển sang
dạng mô hình thích hợp hơn.
Như vậy trong ngắn hạn, để kiểm định nhân quả Granger giữa 𝑌𝑡và 𝑋𝑡, cần phải
kiểm định tính dừng của tất cả các biến tham gia vào mô hình (biến 𝑌𝑡, 𝑋𝑡), hoặc
xác định tính đồng liên kết giữa 𝑌𝑡 và 𝑋𝑡. Tiếp theo, lựa chọn độ trễ tối ưu của các
biến cũng như kiểm định tính có tự tương quan của phần dư trong mô hình. Khi các điều kiện đều được thỏa mãn thì kết quả kiểm định nhân quả Granger sẽ cho biết
- 𝑋𝑡có tác động nhân quả Granger lên 𝑌𝑡 nếu các biến trễ của 𝑋𝑡 có tác động có
ý nghĩa lên 𝑌𝑡 nhưng các biến trễ của 𝑌𝑡 không có tác động có ý nghĩa lên 𝑋𝑡.
- 𝑌𝑡có tác động nhân quả Granger lên 𝑋𝑡 nếu các biến trễ của 𝑌𝑡 có tác động có
ý nghĩa lên 𝑋𝑡 nhưng các biến trễ của 𝑋𝑡 không có tác động có ý nghĩa lên 𝑌𝑡.
- Nhân quả Granger hai chiều giữa 𝑌𝑡 và 𝑋𝑡 nếu các biến trễ của 𝑋𝑡 có tác động
có ý nghĩa lên 𝑌𝑡 và các biến trễ của 𝑌𝑡 có tác động có ý nghĩa lên 𝑋𝑡.
- Không có quan hệ nhân quả Granger giữa 𝑌𝑡 và 𝑋𝑡 nếu các biến trễ của 𝑋𝑡
không có tác động có ý nghĩa lên 𝑌𝑡 và các biến trễ của 𝑌𝑡 không có tác động
có ý nghĩa lên 𝑋𝑡.
3.1.3. Mô hình hồi quy tuyến tính gãy khúc5 (SPLINE)
Hồi quy tuyến tính gãy khúc hay gọi tổng quát hơn là hàm đa thức gãy khúc (Spline) là một ứng dụng của hồi quy theo biến giả trong kinh tế lượng. Giả sử biến
độc lập (𝑋𝑡) tác động đến biến phụ thuộc (𝑌𝑡)theo một cơ chế (𝑋𝑡) (ngẫu nhiên)6,
tác động này diễn ra cho tới một mức 𝑋∗ nhất định nào đó, gọi là mức mục tiêu hay
ngưỡng, khi (𝑋𝑡) cao hơn mức đó thì sẽ là một cơ chế khác. Cụ thể hơn, ta giả thiết
rằng, (𝑌𝑡) gia tăng tuyến tính theo(𝑋𝑡) cho tới ngưỡng 𝑋∗ sau đó cũng tăng tuyến
tính theo (𝑋𝑡) nhưng với tốc độ nhanh hơn nhiều. Như vậy, ta có hồi quy tuyến
tính từng khúc gồm hai phần hay hai đoạn tuyến tính, ký hiệu (I) và (II) trong
Hình 3.1 bên dưới và hàm (𝑌𝑡) thay đổi độ dốc của nó tại giá trị ngưỡng. Ta có hàm hồi quy tổng quát như sau:
𝑌𝑡 = 𝛽0+ 𝛽1𝑋1+ 𝛽2(𝑋𝑡− 𝑋∗)𝐷𝑡 + 𝑢𝑡 (3)
Trong đó,
𝑌𝑡 là biến phụ thuộc trong mô hình,
𝑋𝑡 là biến độc lập tác động đến 𝑌𝑡,
5Thuật ngữ hồi quy tuyến tính từng khúc hay hồi quy tuyến tính gãy khúc được sử dụng theo bản dịch của chương trình giảng dạy kinh tế Fulbright.
6
Ngoài biến độc lập 𝑋𝑡, 𝑌𝑡 còn chịu tác động của các biến độc lập khác nhưng ở đây ta xem các biến đó đều nằm trong sai số ngẫu nhiên của mô hình ước lượng và trung bình của sai số bằng không.
𝑋∗ là giá trị ngưỡng cũng được gọi là điểm gãy khúc (đã biết trước),
𝐷 = {1 𝑛ế𝑢 𝑋𝑡 > 𝑋∗ 0 𝑛ế𝑢 𝑋𝑡 ≤ 𝑋∗
Hình 3.1. Mối quan hệ giả thiết giữa (𝒀𝒕) và (𝑿𝒕)
Sử dụng biến giả trong kinh tế lượng nhằm để phân loại số liệu trong mẫu thành nhiều nhóm nhỏ dựa vào các tính chất hay thuộc tính (giới tính, tình trạng hôn nhân,…) và ngầm cho phép ta chạy các hồi quy riêng lẻ cho từng nhóm nhỏ đó. Nếu có những khác biệt trong sự phản ứng của biến được hồi quy đối với biến thiên của các biến độc lập trong các nhóm nhỏ, chúng sẽ được phản ánh thông qua sự khác biệt giữa các hàm hồi quy của từng nhóm nhỏ về tung độ gốc hoặc hệ số góc, hoặc cả hai.
Trong mô hình hồi quy tuyến tính từng khúc, hệ số 𝛽̂1 cho biết độ dốc của đường
hồi quy trong đoạn (I) và 𝛽̂ + 𝛽1 ̂2 cho biết độ dốc của đường hồi quy trong đoạn (II)
(Hình 3.1và Hình 3.2). Một kiểm định về giả thiết cho rằng không có gãy khúc
trong hồi quy tại giá trị ngưỡng 𝑋∗ có thể được thực hiện dễ dàng bằng cách xác
định mức ý nghĩa thống kê của hệ số góc chênh lệch ước lượng 𝛽̂2.
(I) (II) 𝑋∗ * * X Y
Hình 3.2. Tham số của hồi quy tuyến tính từng khúc
Các biến giả là phi ngẫu nhiên nên không gây ra vấn đề đặc biệt gì trong việc áp dụng OLS. Tuy nhiên, các vấn đề như tự tương quan và phương sai thay đổi là những vấn đề cần phải được xử lý cẩn thận. Ngoài ra, đa cộng tuyến cũng được tác giả rất quan tâm vì nếu xảy ra đa cộng tuyến, phương sai thay đổi và tự tương quan thì đa cộng tuyến sẽ phải ưu tiên xử lý trước.
Tuy nhiên, cơ sở cho việc phân tích hồi quy liên quan đến dữ liệu của chuỗi thời
gian chính là các dữ liệu đó phải dừng. Nếu không các phương thức kiểm định giả
thuyết thông thường dựa trên t, F hay khi bình phương (𝑋2) có thể trở nên không
đáng tin cậy.
3.1.4. Hiện tượng đa cộng tuyến (Multicollinearity)
Đa cộng tuyến là hiện tượng các biến độc lập trong mô hình có tương quan với nhau. Có hai loại đa cộng tuyến: đa cộng tuyến hoàn hảo (perfect multicollinearity) và đa cộng tuyến không hoàn hảo (imperfect multicollinearity). Đa cộng tuyến hoàn hảo xảy ra khi các biến độc lập trong mô hình phụ thuộc tuyến tính lẫn nhau, còn đa cộng tuyến không hoàn hảo xảy ra khi các biến độc lập trong mô hình có tương quan nhưng không phụ thuộc tuyến tính và trường hợp này tồn tại ở hầu hết các mô hình trong thực tế.
Đa cộng tuyến xuất hiện có thể bắt nguồn từ một trong những nguyên nhân như do bản chất của đa cộng tuyến, do dạng hàm, do kỹ thuật thu thập số liệu hoặc do các chuỗi thời gian có cùng xu hướng biến động.
𝛽1 ̂ + 𝛽̂2 𝛽1 ̂ 𝑋∗ * * X Y
Nếu xuất hiện đa cộng tuyến hoàn hảo, ta không thể thực hiện OLS thông thường, hệ số ước lượng của mô hình không thể tính toán được. Nếu mô hình bị đa cộng tuyến không hoàn hảo, mô hình vẫn có thể ước lượng được và kết quả ước lượng vẫn là ước lượng vững, không chệch nhưng phương sai rất lớn dẫn đến khoảng tin cậy sẽ rộng và các kiểm định hệ số ước lượng sẽ dễ dàng được chấp nhận do đó có thể sẽ sai lầm khi đưa ra kết luận về sự tác động của các biến độc lập đến biến phụ thuộc (làm sai dấu hệ số hồi quy). Mặt khác khi hồi quy bất kỳ biến độc lập nào trong mô hình theo tất cả các biến độc lập còn lại (hồi quy phụ) nếu có hệ số xác
định R2 càng lớn thì chứng tỏ đa cộng tuyến càng mạnh, biến độc lập đó càng mất ý
nghĩa trong mô hình.
Có nhiều cách phát hiện hiện tượng đa cộng tuyến: dùng hệ số tương quan cặp giữa các biến độc lập, dùng hàm hồi quy phụ hoặc dùng nhân tử phóng đại phương sai. Trường hợp phát hiện đa cộng tuyến hoàn hảo, cách duy nhất để xử lý chính là bỏ bớt một trong số các biến bị đa cộng tuyến hoàn hảo.Vì đa cộng tuyến không ảnh hưởng đến các tính vững, tính không chệch hay tính hiệu quả của ước lượng OLS do đó nếu đa cộng tuyến là không hoàn hảo, có thể bỏ qua vấn đề này. Nếu vẫn muốn xử lý, có thể bỏ bớt biến, kết hợp các biến độc lập với nhau thành biến mới, thay đổi dạng hàm hoặc bổ sung, thay thế số liệu.
3.1.5. Hiện tượng tự tương quan (Autocorrelation)
Hiện tượng tự tương quan rất dễ xảy ra đặc biệt là đối với chuỗi quan sát được sắp xếp theo thứ tự thời gian. Tượng tự tương quan xảy ra khi giả thiết về sự không tương quan giữa các sai số bị vi phạm. Khi có tự tương quan, sai số xuất hiện không còn ngẫu nhiên nữa mà kỳ sau sẽ phụ thuộc vào kỳ trước, thể hiện một xu hướng nào đó và điều này làm cho kết quả ước lượng thường không đáng tin cậy. Có rất nhiều nguyên nhân dẫn đến xuất hiện tự tương quan, nhưng nhìn chung có thể gộp lại thành hai nguyên nhân chính: nguyên nhân chủ quan và nguyên nhân khách quan.
Nguyên nhân chủ quan là do tính quán tính của số liệu: Hầu hết các chuỗi thời gian trong kinh tế đều có tính quán tính như chuỗi tổng sản phẩm, chỉ số giá, thất nghiệp,…Nếu nền kinh tế đang nằm ở đầu của thời kỳ khôi phục thì chuỗi tổng sản phẩm có xu hướng đi lên. Vì vậy trong hồi quy chuỗi thời gian, các quan sát kế tiếp có nhiều khả năng phụ thuộc lẫn nhau do mang tính chu kỳ. Bên cạnh đó, hiện tượng mạng nhện trong kinh tế, tính trễ của số liệu cũng là những nguyên nhân chủ quan dẫn đến tự tương quan.Quá trình thu thập và xử lý số liệu cũng có thể là nguyên nhân khách quan dẫn đến xuất hiện tự tương quan.
Do đó, khi ước lượng mô hình có liên quan đến chuỗi thời gian, việc nhận dạng tự tương quan là điều vô cùng quan trọng. Để phát hiện tự tương quan có thể dùng các kiểm định Durbin-Watson cho trường hợp tự tương quan bậc 1 hoặc kiểm định Breusch-Godfrey cho trường hợp tự tương quan bậc m. Nếu có tự tương quan, dùng GLS (General Least Squares) để khắc phục.
3.2. Mô hình nghiên cứu thực nghiệm, dữ liệu và phương pháp nghiên cứu.
3.2.1. Mô hình thực nghiệm
Trên cơ sở bài nghiên cứu thực nghiệm của Khan và Senhadji (2001) khi phân tích ngưỡng lạm phát của các quốc gia phát triển và đang phát triển với dữ liệu bảng, Mubarik (2005) đã áp dụng mô hình tương tự cho dữ liệu chuỗi thời gian khi nghiên cứu về lạm phát ở Pakistan giai đoạn 1973-2000. Bài luận văn này nghiên cứu sự tồn tại của ngưỡng lạm phát với chuỗi dữ liệu của Việt Nam, do đó sẽ sử dụng mô hình trong bài nghiên cứu của Mubarik (2005) nhưng có bổ sung thêm hai biến
kiểm soát là biến tỷ lệ mậu dịch (𝑡𝑜𝑡) và biến độ mở thương mại (𝑜𝑝𝑒)7. Mô hình
được sử dụng thực chất là một mô hình hồi quy tuyến tính gãy khúc và có công thức như sau:
𝑔𝑔𝑑𝑝𝑡 = 𝛽0+ 𝛽1𝑖𝑛𝑓𝑡 + 𝛽2𝐷(𝑖𝑛𝑓𝑡 − 𝑘) + 𝛽3𝑖𝑍𝑖𝑡+ 𝑢𝑡 (4) Trong đó,
7
Các mô hình nghiên cứu thực nghiệm gần đây phân tích về tác động của ngưỡng lạm phát đến tăng trưởng như nghiên cứu của Vinayagathasan (2013), Thanh S.D. (2015) cho thấy tỷ lệ mậu dịch và độ mở thương mại có tác động có ý nghĩa lên tăng trưởng.
𝑔𝑔𝑑𝑝 đại diện cho tốc độ tăng trưởng GDP thực trên đầu người.
𝑖𝑛𝑓 là biến lạm phát.
𝑍𝑖𝑡 là tập hợp các biến kiểm soát khác bao gồm biến tăng trưởng dân số
(𝑙𝑝𝑜𝑝), thay đổi tỷ lệ mậu dịch8 (𝑙𝑡𝑜𝑡), thay đổi độ mở thương mại9 (𝑔𝑜𝑝𝑒)
và tỷ lệ đầu tư trên GDP (𝑔𝑖𝑛𝑣).
𝐷 là biến giả, chỉ nhận hai giá trị 0 hoặc 1. Cụ thể:
𝐷𝑡 = {1 𝑛ế𝑢 𝑖𝑛𝑓0 𝑛ế𝑢 𝑖𝑛𝑓𝑡 > 𝑘
𝑡 ≤ 𝑘
𝑘 là biến ngưỡng lạm phát. Giá trị của 𝑘 được lựa chọn từ dãy giá trị mà
được cho là có chứa tỷ lệ lạm phát tối ưu.
𝑢𝑡 là sai số của mô hình ước lượng có phân phối chuẩn 𝑁(0, 𝜎2).
𝛽0, 𝛽1, 𝛽2, 𝛽3𝑖 là các hệ số ước lượng của mô hình.
Từ phương trình (4), ta xét lần lượt hai trường hợp: khi D = 0 (lạm phát ở mức thấp
hơn ngưỡng 𝑘 hay mức lạm phát thấp) và khi D = 1 (lạm phát cao hơn ngưỡng 𝑘
hay mức lạm phát cao)
- Trường hợp 1: khi D = 0.
Khi D = 0, mức lạm phát lúc này được xem là mức lạm phát thấp, phương trình (4) lúc này được viết lại như sau:
𝑔𝑔𝑑𝑝𝑡 = 𝛽0+ 𝛽1𝑖𝑛𝑓𝑡 + 𝛽3𝑖𝑍𝑖𝑡+ 𝑢𝑡
Lúc này 𝛽1 đại diện cho tác động của lạm phát đến tăng trưởng kinh tế ở Việt Nam
khi lạm phát thấp hơn ngưỡng. Dấu của hệ số 𝛽1cho thấy xu hướng tác động nghịch
biến hay đồng biến của lạm phát lên tăng trưởng khi lạm phát ở mức thấp. - Trường hợp 2: D = 1.
8
Tỷ lệ mậu dịch được tính bằng chỉ số xuất khẩu chia cho chỉ số nhập khẩu (2000=100). 9 Độ mở thương mại được tính bằng tổng phần trăm xuất khẩu và nhập khẩu trong GDP.
Khi D = 1, mức lạm phát lúc này được xem là ở mức cao, phương trình (4) được viết lại như sau:
𝑔𝑔𝑑𝑝𝑡 = 𝛽0+ 𝛽1𝑖𝑛𝑓𝑡+ 𝛽2(𝑖𝑛𝑓𝑡 − 𝑘) + 𝛽3𝑖𝑍𝑖𝑡+ 𝑢𝑡 = 𝛽0+ (𝛽1+ 𝛽2)𝑖𝑛𝑓𝑡− 𝛽2𝑘 + 𝛽3𝑖𝑍𝑖𝑡+ 𝑢𝑡 = 𝛽′0+ (𝛽1+ 𝛽2)𝑖𝑛𝑓𝑡+ 𝛽3𝑖𝑍𝑖𝑡+ 𝑢𝑡
Lúc này (𝛽1+ 𝛽2) đại diện cho mức lạm phát cao, cho thấy tác động của lạm phát
lên tăng trưởng khi lạm phát ở mức cao hơn mức ngưỡng 𝑘. Nghĩa là nếu hệ số ước
lượng (𝛽1+ 𝛽2) có ý nghĩa thì chứng tỏ rằng tồn tại một điểm gãy cấu trúc trong
mô hình hồi quy (4), hay nói cách khác là tồn tại ngưỡng lạm phát tại Việt Nam. Mô hình sẽ được ước lượng bằng phương pháp bình phương nhỏ nhất (OLS -
Ordinary Least Squares) theo từng giá trị 𝑘 và thu về giá trị tổng bình phương phần
dư (RSS – Sum of Squared Residual) tương ứng cho từng giá trị 𝑘 đó. Gọi 𝑆1(𝑘) là
RSS thu được từ việc ước lượng phương trình (4) tại ngưỡng lạm phát 𝑘, khi đó 𝑘∗
được xem là mức ngưỡng lạm phát tối ưu nếu kết quả hồi quy mô hình tăng trưởng
có RSS là nhỏ nhất hay hệ số xác định 𝑅2 là lớn nhất. Công thức xác định ngưỡng
lạm phát tối ưu 𝑘∗ như sau:
𝑘∗= 𝑎𝑟𝑔𝑚𝑖𝑛{𝑆1(𝑘), 𝑘 = 1, … , 10}
3.2.2. Dữ liệu và các biến trong mô hình
Các biến được sử dụng trong bài nghiên cứu này là dữ liệu chuỗi thời gian hàng năm từ 1986 đến 2014. Nguồn dữ liệu của tất cả các biến đều được lấy từ World Development Indicator (WDI) 2015.
Các bài nghiên cứu thực nghiệm về ngưỡng lạm phát trước đó sử dụng tốc độ tăng trưởng GDP trên đầu người (Thanh. S.D., 2015; Vinayagathasan, 2014) hoặc tốc độ
tăng trưởng GDP thực (Mubarik, 2005; Salami và Kelikume, 2010; Fakhri, 2011) để
làm biến phụ thuộc, điều này cho thấy có rất nhiều chuỗi GDP khác nhau được các nhà nghiên cứu sử dụng như biến phụ thuộc để đưa vào mô hình. Dựa vào hai bài nghiên cứu gần nhất của Vinayagathasan (2013) và Thanh. S.D. (2015), tác giả lựa
chọn tốc độ tăng trưởng GDP trên đầu người để đại diện cho tăng trưởng của Việt Nam và xem như là biến phụ thuộc trong mô hình. Tốc độ tăng trưởng GDP trên
đầu người được tính bằng công thức: 𝑔𝑔𝑑𝑝𝑡 = 100 ∗ 𝐷𝑙𝑜𝑔(𝑔𝑑𝑝𝑡)10 với 𝑔𝑑𝑝𝑡 là
GDP thực trên đầu người (cố định năm 2005).
Về biến tỷ lệ lạm phát, cơ sở lý thuyết cho ta biết rằng lạm phát được đo lường thông qua tính toán tốc độ gia tăng của chỉ số giá tiêu dùng. Theo như nghiên cứu của Mubarik (2005), tính toán lạm phát từ chuỗi CPI sẽ được thực hiện bằng cách lấy sai phân logarit tự nhiên của biến CPI. Do đó lạm phát trong mô hình (4) sẽ
được tính bằng công thức sau: 𝑖𝑛𝑓𝑡 = 100 ∗ 𝐷𝑙𝑜𝑔(𝐶𝑃𝐼𝑡) với 𝐶𝑃𝐼𝑡 là chỉ số giá tiêu
dùng của năm t.
Một quan tâm khác đó là việc lựa chọn các biến để đưa vào bộ biến kiểm soát trong phương trình (4). Phổ biến nhất trong các nghiên cứu thực nghiệm trước đó là biến tăng trưởng dân số và mức độ đầu tư. Ngoài ra, Vinayagathasan (2013) và Thanh S.D. (2015) đã sử dụng tỷ lệ mậu dịch và độ mở thương mại như là một trong