TUỔI DÂN SỐ ĐẾN TĂNG TRƯỞNG KINH TẾ VIỆTNAM GIAI ĐOẠN 2000-
3.1.1. Khái niệm và tính ưu việt của số liệu mảng
3.1.1.1. Một số khái niệm
Số liệu mảng: là tập số liệu thu thập được trên cùng một tập hợp các cá thể (hộ gia đình, doanh nghiệp, tỉnh, v.v) dọc theo thời gian tại các mốc thời điểm cách đều nhau..
Ví dụ điển hình về số liệu mảng trên thế giới bao gồm bộ số liệu mảng điều tra quốc gia về thanh niên (NLSY – national longitudinal survey of youth) do Bộ lao động Mỹ thực hiện; số liệu điều tra hộ gia đình của Anh (BHPS- British household panel survey)... Ở Việt nam có bộ số liệu về điều tra doanh nghiệp, bộ số liệu về điều tra mức sống hộ gia đình - VHLSS (VLSS trước năm 2004) đều do Tổng cục Thống kê thực hiện điều tra. Gần đây có bộ số liệu về chỉ số năng lực cạnh tranh cấp tỉnh (CPI – competitiveness provincial index) thực hiện cho 64 tỉnh thành trong cả nước, ngoài ra, trên website của Tổng cục Thống kê cũng cung cấp các số liệu vĩ mô và vi mô cho cả nước, các tỉnh thành, hoặc phân theo khu vực địa lí kinh tế, thành phần kinh tế... đều là các nguồn số liệu mảng phong phú cho việc nghiên cứu kinh tế xă hội.
Như vậy số liệu mảng chứa thông tin theo chiều ngang giữa các đối tượng tại cùng một thời điểm - đặc trưng của số liệu chéo, và thông tin dọc theo thời gian của từng đối tượng - đặc trưng của số liệu chuỗi thời gian.
Cần phân biệt số liệu mảng với số liệu hỗn hợp - cũng là số liệu quan sát chứa đựng cả thông tin dọc theo thời gian và ngang theo đơn vị quan sát, nhưng tại mỗi thời điểm khác nhau thì tập hợp các đối tượng quan sát trong tập số liệu hỗn hợp lại được lựa chọn một cách ngẫu nhiên.
Trong các phần mềm thống kê và kinh tế lượng như STATA hay EVIEWS, số liệu mảng thường được sắp xếp dưới dạng chiều dọc như trong ví dụ sau:
Bảng 10: Ví dụ về số liệu mảng Cá thể Năm y X2 X3 1 2007 y11 X2,11 X3,11 1 2008 y12 X2,12 X3,12 1 2009 y13 X2,13 X3,13 --
i T yit X2,it X3,it
--
5 2007 y51 X2,51 X3,51
5 2008 y52 X2,52 X3,52
5 2009 y53 X2,53 X3,53
Trên đây là một ví dụ về số liệu dạng mảng về các biến y, X2 và X3 cho 5 cá thể và trong 3 năm liên tiếp 2007-2009.
Trong số liệu mảng, chỉ số i thường được dùng để chỉ cá thể được quan sát ( hộ gia đình, hăng, tỉnh,..), i = 1,2,.. N; và t là chỉ số thời gian, có thể là năm, tháng, tuần, ngày…, t = 1,2,.., T.
Số liệu mảng dạng cân xứng (balanced panel): nếu trong tập số liệu mảng mọi đơn vị được quan sát đều có mặt trong tất cả các thời kỳ quan sát thì tập số liệu được gọi là cân xứng. Ngược lại, nếu có đơn vị mất quan sát tại một (hay nhiều) thời kỳ nào đó thì tập số liệu được gọi là không cân xứng. Việc mất quan
sát trong tập số liệu xảy ra có thể do hai nguyên nhân chính: Nguyên nhân thứ nhất được gọi là sự tự lựa chọn, xảy ra trong các trường hợp chẳng hạn như doanh nghiệp phá sản và không tồn tại để thu thập số liệu từ một thời kỳ nào đó trở đi. Nguyên nhân thứ hai là do yếu tố ngẫu nhiên: do sai sót khi nhập số liệu hoặc ví lư do ngẫu nhiên khác mà không thu thập được số liệu từ một doanh nghiệp hoặc một số hộ gia đình nào đó. Việc xử lý với số liệu không cân xứng phải được dựa trên nguyên nhân của nó.
Bảng 11: Một ví dụ về số liệu mảng cân xứng
Tỉnh Năm Sản lượng lúa bình
quân trên 1 ha Lượng phân bón bình quân trên 1 ha Thai bình 2008 220 22 Thai bình 2009 225 22.5 Thai bình 2010 228 23 Nghe an 2008 180 25 Nghe an 2009 194 27 Nghe an 2010 202 30 Dong thap 2008 250 19 Dong thap 2009 260 25 Dong thap 2010 265 31 Hung yen 2008 200 24 Hung yen 2009 220 30 Hung yen 2010 225 35
3.1.1.2. Ưu việt của số liệu mảng.
1. Giải quyết vấn đề về thiếu biến không quan sát được: việc xem xét sự thay đổi trong nội bộ mỗi cá thể cho phép chúng ta bỏ qua tác động của các yếu tố không quan sát được, miễn là các yếu tố này không thay đổi theo thời gian, mà không làm ảnh hưởng tới việc đánh giá tác động của các biến giải thích khác trong mô hình. Điều này là không thể thực hiện được nếu chúng ta chỉ có số liệu chéo.
2. Đưa ra các phân tích mang tính động, tinh tế : Chẳng hạn khi xem xét vấn
đề xoá đói giảm nghèo. Nếu ta chỉ có tập số liệu về thu nhập hộ gia đình trong năm 2009. Khi đó ta có thể biết được có bao nhiêu hộ nghèo mà không biết được diễn biến theo thời gian về tình trạng nghèo của các hộ. Khi có số liệu mảng về thu nhập hộ gia đình, chúng ta không chỉ biết được số hộ nghèo theo thời gian, mà c̣n biết được những hộ nào bị nghèo kinh niên, hộ nào nghèo tạm thời hay tái nghèo để đưa ra các chính sách phù hợp.
3. Làm giảm nhẹ vấn đề về đa cộng tuyến trong bài toán có trễ phân phối
Bài toán có trễ phân phối thường có dạng sau : 0 1 1 ..
t t t t k t k t
y =α α+ x +α x− + +α− x− +u
Thông thường, các giá trị nối tiếp nhau của biến số xt thường có quan hệ tương quan rất chặt với nhau. Chẳng hạn trong bài toán thu nhập – chi tiêu thì một người có thu nhập kỳ trước lớn thì thu nhập kỳ sau cũng thường lớn, do đó các giá trị của
biến thu nhập có tự tương quan lớn. Và như vậy, trong các bài toán có trễ phân phối thì đa công tuyến thường là một vấn đề khá nghiêm trọng, làm giảm đáng kể tính chính xác của các suy diễn thống kê. Tuy nhiên khi có số liệu mảng thì sự thay đổi theo cả chiều ngang của các biến số thường giúp làm giảm bậc của đa cộng tuyến nói trên, do đó làm tăng độ chính xác của các suy diễn thống kê.
4. Tăng bậc tự do, do đó làm tăng độ chính xác của các suy diễn thống kê:
Một vấn đề thực nghiệm khi phân tích kinh tế là vấn đề về kích thước mẫu. Khi số quan sát của một mẫu là quá nhỏ khó có thể đảm bảo được tính đại diện cho tổng thể của mẫu này. Và do đó việc sử dụng các thông tin từ mẫu để đưa ra các suy diễn thống kê về tổng thể là thiếu chính xác.
Thêm vào đó, mẫu quá nhỏ sẽ không cho phép chúng ta áp dụng định lý giới hạn trung tâm để đưa ra các phát biểu về quy luật phân phối xác suất của các thống kê mẫu, và do đó chúng ta không có cơ sở tốt để đưa ra các suy diễn thống kê như xây dựng khoảng tin cậy cũng như kiểm định giả thuyết thống kê về các hệ số hồi quy.
Với số liệu mảng chúng ta thường không phải lo lắng nhiều về kích thước mẫu. Do tính hai chiều của số liệu, chỉ cần một khoảng thời gian không dài cho một tập vừa phải cá thể thì chúng ta đă có một số quan sát khá lớn. Chẳng hạn với số liệu cho 64 tỉnh thành và 5 năm thì đă tạo nên một bộ số liệu với 320 quan sát.
Do đó kích thước mẫu lớn thường là một ưu điểm đáng kể của số liệu mảng.
5. Đặc biệt thích hợp cho các nước đang phát triển:
Đối với các nước đang phát triển trong đó có Việt nam thì số liệu thường là một vấn đề khá nghiêm trọng đối với các nhà phân tích. Thông thường chúng ta không có số liệu quá dài trong quá khứ để có thể đủ số quan sát, đảm bảo độ tin cậy của các suy diễn thống kê trong các bài toán phân tích động. Chẳng hạn khi số liệu về đầu tư nước ngoài chỉ có một cách tương đối hệ thống từ cuối những năm 1990. Kể cả khi chúng ta có số liệu đủ dài thì việc sử dụng các mô hình chuỗi thời gian thường phải thận trọng do cấu trúc kinh tế thay đổi khá nhanh. Tuy nhiên với số liệu mảng, chúng ta không cần đến một lượng thời gian quá dài, do đó vẫn đảm bảo được tính ổn định về cấu trúc đồng thời vẫn đảm bảo một số quan sát đủ lớn.