5. Cấu trúc ñề tài
2.2.1.1 Mức chi tiêu cho một nhómhàng (Ek)
Chi tiêu cho một mặt hàng i trong nhóm k (Eki) sẽ bằng tổng chi tiêu của mặt hàng
ñó trong dịp lễ tết và chi thông thường.
Eki = Eki_lt + Eki_tt (2.2)
Mức chi tiêu cho một nhóm hàng k (Ek) ñược tính bằng tổng mức chi tiêu của n mặt hàng trong nhóm. (2.3) n k ki i E =∑E 2.2.1.2 Tỷ trọng chi tiêu
Tỷ trọng chi tiêu cho một mặt hàng i trong nhóm k (wki) ñược tính bằng chi tiêu cho mặt hàng ñó chia cho tổng chi tiêu cho các mặt hàng trong nhóm (hay mức chi tiêu cho nhóm) Ek (2.4) ki ki k E w E =
Tỷ trọng chi tiêu cho một nhóm hàng k (wk) ñược tính bằng mức chi tiêu cho nhóm hàng k chia cho tổng mức chi tiêu ăn uống (E)
(2.5) k k E w E =
Tổng mức chi tiêu ăn uống (E) ñược tính bằng tổng mức chi tiêu ăn uống trong dịp lễ tết (Elt) và chi tiêu ăn uống thông thường (Ett).
E = Elt + Ett (2.6)
Trong ñó: Elt, Ett lần lượt là chi tiêu dùng hàng ngày ăn uống trong các dịp lễ tết và chi tiêu dùng hàng ngày ăn uống thông thường, ñược tính như sau:
12 _ 1 12 _ 1 (2.7) (2.8) lt k lt k tt k tt k E E E E = = = = ∑ ∑
2.2.2. Số lượng thực phẩm tiêu thụ
Lượng sản phẩm i tiêu dùng trong nhóm k (Qki) ñược tính bằng tổng số lượng mặt hàng ñó ñược tiêu dùng hàng ngày trong các dịp lễ tết và tiêu dùng hàng ngày thông thường.
Qki = Qki_lt + Qki_tt (2.9) Lượng thực phẩm của nhóm hàng k (Ek) tiêu thụ ñược tính bằng tổng mức tiêu dùng của n mặt hàng trong nhóm. (2.10) n k ki i Q =∑Q 2.2.3. Chỉ số giá cho một nhóm hàng (kí hiệu Pk) 2.2.3.1 Chỉ số giá cho một mặt hàng
Chỉ số giá cho một mặt hàng cụ thể i trong nhóm k (kí hiệu: Pki) ñược tính bằng chi tiêu cho mặt hàng ñó chia cho số lượng sản phẩm ñó ñược tiêu dùng
(2.12) ki ki ki E P Q = 2.2.3.2 Chỉ số giá của nhóm hàng
Chỉ số giá của nhóm hàng k (Pk) ñược tính bằng bình quân gia quyền của các chỉ
số giá thành phần theo tỷ trọng chi tiêu của từng mặt hàng.
* (2.13) n k ki ki i P =∑P w Nghĩa là mỗi nhóm thực phẩm k có thể có n thực phẩm khác, mỗi thực phẩm i chiếm một tỷ trọng wki trong nhóm và có một mức giá là Pki. Như vậy, chỉ số giá cho nhóm thực phẩm k sẽ bằng tổng của các tích số Pki*wki. Riêng nhóm ăn uống ngoài gia ñình do không có số liệu về lượng tiêu thụ, theo Suharno (2002) và Wen S. Chern et al (2003), chỉ số giá cho nhóm hàng này ñược thay thế bằng chỉ số giá giá tiêu dùng theo từng vùng (rcpi) có sẵn trong bộ dữ liệu VHLSS 2010.
Cụ thể, trong bộ dữ liệu các chỉ số trên ñược trích lọc như sau:
Xi: Chi tiêu bình quân của sản phẩm i = Trị giá sản phẩm i tiêu dùng trong dịp lễ
tết + Trị giá lượng sản phẩm i tiêu dùng thông thường. Mỗi mức chi tiêu này bao gồm Trị
giá mua ñổi3 và Trị giá tự túc4.
3Trị giá mua ñổi trong chi ăn, uống, hút bình quân 1 hộ 1 thángñược tính bằng tổng số tiền chi mua hoặc trị
giá ñổi lương thực, thực phẩm, chất ñốt, uống và hút, ăn uống ngoài gia ñình trong tháng trước ñó của hộ. [Nguồn: “Sổ tay khảo sát mức sống dân cư 2010” Tổng cục Thống kê].
(m5a1c2b m5a1c3b) (m5a2c2a) (2.14)
i i i
i i
X =∑ + +∑
Qi: Lượng sản phẩm i ñược tiêu thụ = Lượng tiêu thụ trong dịp lễ, tết + Lượng tiêu thụ thông thường hàng ngày (tính cho mua bán lẫn tự túc)
(m5a1c2a m5a1c3a) (m5a2c2b) (2.15)
i i i
i i
Q =∑ + +∑
Chỉ số giá cho một nhóm thực phẩm k nào ñó (bao gồm n sản phẩm) ñược tính theo công thức 2.16 như sau: 1 1 (2.16) n i k i n i i i E P P E = = =∑ ∑
Trong ñó: Ei là mức chi tiêu cho sản phẩm i
Ví dụ: Nhóm thực phẩm thịt các loại bao gồm 6 loại nhỏ như thịt lợn, thịt bò, thịt trâu, thịt gà, thịt vịt cùng gia cầm khác và các loại thịt khác (dê, chó, cừu, thú rừng, chim…)5 tương ứng với các mã từ 110 ñến 116. Mỗi loại thịt này ñều chiếm một tỷ trọng nhất ñịnh và mức giá riêng trong nhóm. Từ các số liệu tiêu dùng ñược khảo sát trong bộ dữ liệu như mức chi tiêu, số lượng thực phẩm chi tiêu hàng ngày (kể cả lễ tết) của từng loại thịt, theo công thức 2.12 ñến 2.16 mà tính toán ñược tỷ trọng, giá của từng loại thịt, cũng như
tỷ trọng và chỉ số giá của nhóm thịt các loại. (*) Ghi chú:
Kí hiệu m5ac1c2a: chính là kết quả trả lời của câu hỏi 2a trong mục 5a1của bộ dữ liệu. Tương tự như vậy, m5a2c2 chính là kết quả trả lời của câu 2 trong mục 5a2.
2.2.4. Các thông số khác
Hộ thuộc nhóm giàu - nghèo.
Có nhiều cách phân chia hộ thuộc nhóm giàu nghèo, tuy nhiên, trong nghiên cứu này sử dụng cách phân loại theo ngũ phân vị thu nhập. Theo ñó, các hộ gia ñình thuộc nhóm 20% thu nhập cao nhất thì ñược xếp vào nhóm giàu. Tương tự như vậy, các hộ gia
ñình thuộc nhóm 20% thu nhập thấp nhất ñược xếp vào nhóm nghèo. Kết quả thống kê từ
bộ dữ liệu cho thấy gần 51% hộ thuộc nhóm nghèo và tương ứng 49% thuộc nhóm giàu (theo cách phân loại trên).
4
Trị giá tự túc trong chi ăn, uống, hút bình quân 1 hộ 1 thángñược tính bằng tổng số tiền do tự túc lương thực, thực phẩm, chất ñốt, uống và hút và kể cả các khoản chi cho ăn uống ngoài gia ñình trong tháng trước ñó của hộ. [Nguồn: “Sổ tay khảo sát mức sống dân cư 2010” Tổng cục Thống kê].
5
2.3. Xử lý số liệu 2.3.1 Trích dữ liệu
Nguồn dữ liệu sử dụng trong nghiên cứu ñược trích lọc và xử lý từ bộ dữ liệu VHLSS 2010 bằng phần mềm thống kê Stata, phiên bản 11 của Stata Corporation. Kết quả mô hình cũng ñược thực hiện trên phần mềm này. (xem thêm phụ lục 2.2 về cấu trúc các lệnh của phần mềm Stata ñược sử dụng trong ñề tài này).
Nguồn dữ liệu trong nghiên cứu ñược tổng hợp lại từ các dataset sau: muc1a.dta,
wt10.dta, ho13.dta, muc5a1.dta, muc5a2.dta.
Bảng 2.2: Thông tin nguồn dữ liệu ñược trích lọc
Nguồn Tên trường Tên biến Ý nghĩa
m1ac2 hhgender Giới tính của chủ hộ. 1: nam; 0: nữ
m1ac5 Hhage Tuổi của chủ hộ
muc1.dta
matv Hhsize Quy mô hộ
reg10 reg10 6 vùng ñịa lý
ttnt urban10 Khu vực. 1: Thành thị; 0: Nông thôn
wt10.dta
wt9 wt2010 Trọng số cuộc khảo sát thunhap quint10 Ngũ phân vị theo thu nhập
ho13.dta
thunhap poorrich Biến giàu nghèo. 1: nghèo; 0: giàu m5a1ma, m5a1c2b, m5a1c3b Ei wi muc5a1.dta m5a1ma, m5a1c2a, m5a1c3a Qi Pi m5a2ma, m5a2c2b Ei wi muc5a2.dta m5a1ma, m5a2c2a Qi Pi
• wi: Tính toán các chi tiêu cho từng thực phẩm, từ ñó tính tỷ
trọng chi tiêu cho từng nhóm. • Pi: Tính toán lượng chi tiêu cho
từng thực phẩm, cùng với mức chi tiêu từñó tính các chỉ số giá
Nguồn: Bộ dữ liệu trích từ VHLSS 2010, n = 8.654
2.3.2 Tinh lọc dữ liệu
2.3.2.1 Thiếu hoặc lỗi dữ liệu
Sai sót hoặc thiếu dữ liệu trong các quan sát hộ gia ñình là vấn ñề thường gặp trong các nghiên cứu thực nghiệm. Hai vấn ñề gặp trong nghiên cứu này là dữ liệu giá và chi tiêu trống, âm hoặc bằng 0. Trong mô hình nghiên cứu ñể ước lượng ñược hệ thống hàm cầu ñầy ñủ khách quan cần thiết phải có ñầy ñủ các giá trị cho tất cả các quan sát hộ. Có nhiều phương pháp ñể giải quyết vấn ñề này như phương pháp thay thế giá trị trung bình, phương pháp nội suy, và phương pháp ngoại suy.
Để khắc phục các vấn ñề trên, trong nghiên cứu này sử dụng phương pháp thay thế giá trị trung bình. Dữ liệu của quan sát bị thiếu hoặc lỗi ñược thay thế bởi giá trị trung bình của phân vị thu nhập trong cùng một khu vực ñịa lý tương ứng.
Nghiên cứu ñã loại bỏ 3 quan sát của biến urban10 vì quan sát trống. Ba quan sát này chỉ xuất hiện trong dataset wt10.dta trong bộ dữ liệu VHLSS 2010. Do vậy, sự loại bỏ các quan sát này là cần thiết và không ảnh hưởng ñến kết quả nghiên cứu.
2.3.2.2 Loại bỏ các quan sát có giá trị dị biệt (quá lớn hoặc quá nhỏ)
Các biến có các quan sát có giá trị dị biệt ñược loại bỏ
dựa theo kết quả phân tích các ñồ thị box plot. Các giá trị ñược loại bỏ là các ñiểm dị biệt có giá trị nằm ngoài cận trên (upper outer fence) và cận dưới (lower outer fence) của box. Các giá trị giới hạn này ñược tính như sau: Upper outer fence (UOF) = Q3 + 3*IQ
Lower outer fence (LOF) = Q1 – 3*IQ Trong ñó:
Q1, Q3 lần lượt là các phân vị 25% và 75% IQ = Q3 – Q1 ñược gọi khoảng bên trong phân vị v Các quan sát có giá trị nằm ngoài UOF và LOF
ñược xem là các ñiểm dị biệt cực mạnh.
v Các quan sát có giá trị nằm ngoài UIF và LIF ñược gọi là các dị biệt cứng. Trong nghiên cứu này chỉ thực hiện loại bỏ các ñiểm dị biệt cực mạnh nêu trên. Có tất cả 743 quan sát ñược loại bỏ theo tiêu chí này, trong ñó có 8 quan sát theo quy mô hộ, 443 quan sát theo thông số tỷ trọng chi tiêu của hộ và 292 quan sát theo chỉ
số giá các hàng hóa. (xem them phụ lục 2.3 về các biến có quan sát bị loại bỏ). Tóm lại,
bộ dữ liệu tinh lọc ñược sử dụng trong nghiên cứu bao gồm 8.654 quan sát hộ.
Việc kiểm chứng dạng phân phối của các biến ñược thực hiện qua sự kết hợp giữa
ñồ thị Histogram và box plot. Hình 2.2 cho thấy mối tương quan giữa hai dạng ñồ thị
histogram và Box plot. Khi biến có trung bình trùng với trung vị trên box plot thì tương
ứng ở ñồ thị Histogram có dạng phân phối chuẩn ñối xứng. Ngược lại, khi giá trị trung bình lớn hơn giá trị trung vị thì biến có phân phối chuẩn lệch phải. Tương tự, nhưng
Hình 2.1: Tính toán các giá trị của box plot
ngược lại phân phối của biến sẽ lệch trái nếu giá trị trung bình nhỏ hơn trung vị. (xem thêm phụ lục 2.4 về phân phối của các biến trong mô hình)
Hình 2.2: Kết hợp giữa biểu ñồ histogram và box plot 2.3.3 Cách thức ước lượng
2.3.3.1. Phương pháp ước lượng
Mô hình LA/AIDS ñược ước lượng bằng phương pháp hồi quy tuyến tính theo phương pháp SUR. Quá trình ước lượng ñược thực hiện trong ba ràng buộc quan trọng của mô hình như tính cộng dồn, tính ñồng nhất và tính ñối xứng.
Cầu của một hàng hóa ngoài việc phụ thuộc vào giá, thu nhập của người tiêu dùng, nó còn bị ảnh hưởng bởi nhiều nhân tố khác không quan sát ñược, chẳng hạn như
thị hiếu người tiêu dùng, phân phối thu nhập của quốc gia, kì vọng sự thay ñổi giá, thu nhập trong tương lai (Sloman, 2006, trang 36 và Parkin, 2005, trang 101). Do vậy, các sai số của các biểu thức cầu riêng rẽ trong mô hình LA/AIDS sẽ có những mối tương quan với nhau. Theo (Zellner, 1962) hồi quy theo phương pháp SUR có thể nâng cao
ñược tính hiệu quả các thông số ước lượng, bởi vì các sai số giữa các hàm cầu ñược tính toán ñồng thời và ñiều chỉnh ñể có ñược sai số chung của hệ thống các biểu thức.
SUR (Seemingly Unrelated Regression) là một hệ thống bao gồm nhiều biểu thức hồi quy riêng rẻ có dạng giống nhau, trong ñó mỗi biểu thức bao gồm nhiều biến giải
thích khác nhau. Các biểu thức cầu trong mô hình SUR có dạng “dường như” không liên quan với nhau, nhưng thực tế, lại có mối tương quan với nhau (nhưñã ñề cập ở trên).
2.3.3.2. Kiểm ñịnh các ràng buộc
Liên quan ñến câu trả lời về ñộ tin cậy của mô hình cần thiết phải kiểm tra tính hiệu quả của các ràng buộc ñược thêm vào hệ thống các hàm cầu. Một ñiểm thuận lợi quan trọng của mô hình AIDS là nó có khả năng cho phép các nhà nghiên cứu áp ñặt và kiểm tra tính hợp lý theo lý thuyết tiêu dùng trong kinh tế học. Cụ thể, trong nghiên cứu này, 3 ràng buộc ñược thêm vào mô hình là tính ñối xứng, tính ñồng nhất và tính bổ sung
ñược kiểm tra qua kiểm ñịnh thống kê likelihood.
Theo Verbeek (2004) trang 171 – 173, có 3 cách kiểm ñịnh các giả thuyết ràng buộc ñược thêm vào mô hình, ñó là kiểm ñịnh Wald, kiểm ñịnh Likelihood (LR) và kiểm
ñịnh Lagrange (LM).
Thông số ước lượng θ thỏa mãn ràng buộc Ho: Rθ = q, với R là ma trận JxK các hệ số ràng buộc, q là ma trận dòng Jx1 giá trị các ràng buộc.
Nguyên tắc kiểm ñịnh của 3 phương pháp trên ñược tóm tắt như sau:
Kiểm ñịnh Wald: ước lượng θ bằng giá trị likelihood lớn nhất và kiểm tra xem sự
sai lệch Rθ∧−q có tiến ñến 0 không bằng cách sử dụng ma trận hiệp phương sai của nó.
Kiểm ñịnh LR: Nguyên tắc của kiểm ñịnh LR tập trung vào so sánh sự sai biệt giữa hai giá trị hàm likelihood của mô hình có và không có các ràng buộc. Giá trị hàm Likelihood ñược tính từ quá trình ước lượng mô hình hai lần, một cho mô hình không có các ràng buộc (ước lượng θ) và một ước lượng θ∧ cho mô hình có các ràng buộc. Từñó tính toán các giá trị lớn nhất của hàm likelihood trong ñiều kiện không có ràng buộc (LΩ) và có ràng buộc (Lω), ñồng thời so sánh hiệu số LΩ - Lω với 0. Nếu sai biệt này nhỏ, thì việc thêm vào các ràng buộc là ñúng. Ngược lại, nếu khác biệt của hiệu số này với 0 lớn thì việc thêm vào các ràng buộc là không cần thiết.
Theo Verbeek (2004), kiểm ñịnh LR ñược tính toán ñơn giản theo công thức sau: 2[log ( ) log ( )]
LR L L
ξ = θ∧ − θ (3.5)
Giá trị ξLR ñược so sánh với giá trị Chi – bình phương (χ2
) với J bậc tự do. Giả thiết Ho: Các ràng buộc thêm vào là cần thiết
Ho bị bác bỏ khi giá trị tính toán (ξLR) lớn hơn giá trị Chi-bình phương (χ2
) tra bảng (với mức ý nghĩa α cho trước và bậc tự do là số các ràng buộc trong mô hình).
Kiểm ñịnh LM: Ước lượng mô hình với các ràng buộc ñược thêm vào và kiểm tra tuần tự các ràng buộc có vi phạm (ý nghĩa thống kê) so với trong mô hình tổng quát không. Nghĩa là ñánh giá log ( )L 0
θ
θ θ∧
∂ ≠
∂ có ý nghĩa thống kê không.
Việc chấp nhận hoặc bác bỏ giả thuyết Ho về các ràng buộc cần thiết bổ sung vào hệ thống cầu có rất nhiều nguyên nhân khác nhau. Theo Barten (1977) ông cho rằng có 4 lý do chính sau: (i) Thứ nhất, tất cả các loại kiểm ñịnh không ñược sử dụng giống nhau ở
các nghiên cứu thực nghiệm; (ii) Thứ hai, phương thức kiểm ñịnh thông thường dựa vào các phân phối gần ñúng của kiểm ñịnh thống kê mà không có sựñiều chỉnh cho sự thiên chệch của mẫu nhỏ. Kết quả của sự thiên chệch này diễn ra theo hướng bác bỏ giả thuyết Ho; (iii) Thứ ba, có sự trùng lặp giữa các nghiên cứu thực nghiệm khác nhau; (iv) Thứ
tư, trình tự các ràng buộc ñược thực hiện cũng ñóng một vai trò quan trọng. Thông thường, kiểm ñịnh về tính ñối xứng ñược thực hiện sau các ràng buộc về tính ñồng nhất hoặc ñồng thời cùng với nó.
Với tính ñơn giản dễ thực hiện và phù hợp với mô hình nghiên cứu, do vậy trong nghiên cứu này sử dụng kiểm ñịnh LR ñể kiểm tra tính phù hợp của mô hình. Quy trình và trình tự thực hiện, ñược tóm tắt như sau: Bảng 2.3: Quy trình và trình tự thực hiện kiểm ñịnh giả thuyết Ho Thứ tự Giả thuyết Ho Bậc tự do 1 Ho: Tính ñồng nhất H1: Không ràng buộc 19 2 Ho: Tính ñối xứng H1: Không ràng buộc 36 3 Ho: Tính ñối xứng H1: Tính ñồng nhất 36 4 Ho: Tính ñối xứng Tính ñồng nhất H1: Không ràng buộc 55 2.4. Quy trình phân tích
Quy trình phân tích của ñề tài ñược thực hiện theo 3 bước ñược thể hiện trong hình 2.3 như sau:
Hình 2.3: Quy trình phân tích của ñề tài
Tóm lược ý chính chương 2:
10 nhóm hàng ăn uống trong nghiên cứu bao gồm: gạo, lương thực khác gạo, thịt các loại, dầu mỡ - gia vị, tôm cá, rau quả, trứng, ñồ uống, ñường - bánh kẹo - sữa, và ăn uống ngoài gia ñình.
Bộ dữ liệu sau khi trích lọc ñược loại bỏ theo phương pháp ñồ thị box plot còn 8.654 quan sát. Đây là số quan sát ñược sử dụng xuyên suốt trong các kết quả phân tích