Xây dựng mô hình Hồi quy tuyến tính truyền thống cho dự báo tốc độ tăng

Một phần của tài liệu Dự báo tốc độ tăng trưởng kinh tế Việt Nam Sự vượt trội của mô hình Mạng thần kinh nhân tạo (ANN) so với mô hình Hồi quy tuyến tính truyền thống.pdf (Trang 58)

trƣởng GDP Việt Nam

Với các biến kinh tế như đã mô tả ở phần dữ liệu, chúng tôi sử dụng thử tục đưa dần vào (Forward Procedure) để lựa chọn biến và xác định độ trễ của chúng cho việc xây dựng mô hình Hồi quy tuyến tính truyền thống trong thời kỳ từ Quý 2/2001 đến Quý 4/2009. Chúng tôi thực hiện hồi quy hai biến giữa tăng trưởng GDP với từng biến kinh tế, sau đó chọn mô hình có giá trị thống kê F lớn nhất và có ý nghĩa thống kê. Tiếp tục thực hiện hồi quy tăng trưởng GDP với hai biến độc lập, trong đó gồm một biến độc lập đã được chọn từ mô hình đầu tiên và một biến được đề xuất đưa vào mô hình từ các biến kinh tế đã được liệt kê ở trên. Tiếp tục quá trình trên, chúng tôi xây dựng nên hàm Hồi quy tuyến tính giữa GDP và các biến kinh tế.

Chúng tôi tìm thấy mối liên hệ giữa tăng trưởng GDP hàng quý với lãi suất VNIBOR 3 tháng (VNIBOR3M) với độ trễ 2 quý, vốn đầu tư từ ngân sách nhà nước (VĐTNN),

lượng điện sản xuất (LĐ) trễ 1 quý, giá trị nhập khẩu (NK) trễ 1 quý, giá trị xuất khẩu (XK) có độ trễ 2 quý, và GDP quý trước đó.

Chi tiết về tính toán thống kê được đính kèm ở phụ lục 1. Trong mô hình trên các hệ số hồi quy đều có ý nghĩa thống kê cao. Cụ thể, VĐTNNt, LĐt-1, GDPt-1 đều có ý nghĩa ở mức 1%; VNIBOR3Mt-2, NKt-1, XKt-2 có ý nghĩa thống kê ở mức 5%. Ngoài ra, mô hình có hệ số xác định khá cao R2 = 83,24%, thống kê F = 23,17 với P-value= 0,000 nhỏ hơn mức ý nghĩa α là 5% nên hàm hồi quy trên là phù hợp.

Kiểm định giả thuyết của mô hình

Kiểm định phần dư có phân phối chuẩn

Từ biểu đồ Histogram ở hình A.1, ta nhận thấy phần dư có phân phối chuẩn vì giá trị P-Value của thống kê Jarque - Bera (= 0,539052) khá lớn (= 0,763741 lớn hơn mức ý nghĩa α = 5%).

Kiểm định phương sai thay đổi

Tiến hành kiểm định White (có số hạng tích chéo), ta có giá trị Obs*Squared = 26,90316 có P-value = 0,469029 > mức ý nghĩa α (5%) nên chúng ta có thể kết luận không có hiện tượng phương sai thay đổi trong mô hình hồi quy này (Xem Bảng A.3).

Kiểm định tự tương quan

Từ kết quả kiểm định BG với các độ trễ lần lượt là 1 và 4 (Bảng A.4 và Bảng A.5) và giá trị P-Value của Obs*Squared đối với độ trễ 1 (= 0,129998) là 0,718434, còn đối với độ trễ 4 (= 1,120929) là 0,890938 đều lớn hơn mức ý nghĩa α (5%) nên chúng ta chấp nhận giả thuyết H0: không có hiện tượng tự tương quan.

Kiểm định đa cộng tuyến

Hồi quy lần lượt từng biến độc lập trong mô hình với các biến độc lập còn lại, chúng ta nhận thấy các hàm hồi quy với các biến phụ thuộc lần lượt là VNIBOR3Mt-2, LĐt-1, NKt-1, GDPt-1 có giá trị thống kê F lần lượt bằng 5,7778; 5,3341; 5,4727; 7,775 với P - Value = 0 nhỏ hơn mức ý nghĩa α (5%) cho thấy hàm hồi quy phù hợp (Bảng A.6). Điều này cho thấy có hiện tượng đa cộng tuyến giữa các biến độc lập. Tuy nhiên, VIF của các mô hình hồi quy phụ đều nhỏ hơn 10 và các hệ số hồi quy trong mô hình (1) đều có ý nghĩa thống kê với hệ số xác định cao (R2

= 83,24%) nên vấn đề đa cộng tuyến được đánh giá là không nghiêm trọng.

Kiểm định bỏ sót biến

Kiểm định Reset của Ramsey với hai biến độc lập mới cho thấy P-value của F (= 0,370853) là 0,693737 lớn hơn mức ý nghĩa α (5%) nên cho phép đưa ra nhận định mô hình trên không bỏ sót biến quan trọng (Bảng A.7).

Ý nghĩa của các hệ số hồi quy

Trong mô hình hồi quy (1), dấu của hầu hết các hệ số hồi quy trùng khớp với những kỳ vọng về dấu như đã trình bày ở phần giải thích biến. Chỉ có dấu của hệ số hồi quy biến XK(t-2) mang dấu âm là trái với kỳ vọng, tức trong điều kiện các yếu tố khác không đổi khi giá trị xuất khẩu trong quá khứ tăng lên thì GDP quý hiện tại giảm đi. Điều này có thể được giải thích như sau: ở các nền kinh tế phát triển khi giá trị xuất khẩu tăng lên thể hiện giá trị thặng dư của nền kinh tế gia tăng, năng lực sản xuất xã hội được nâng cao cùng với tiến bộ kỹ thuật tạo nên lợi thế cạnh tranh trên thị trường quốc tế, kết quả sẽ tạo ra động lực thúc đẩy nền kinh tế tăng trưởng. Tuy nhiên, đối với nền kinh tế đang phát triển như Việt Nam, với đặc điểm là hầu hết hàng hóa xuất khẩu là hàng gia công, nguyên liệu thô, giá trị thặng dư thấp, hầu như chỉ hưởng lợi thế về chi phí lao động rẻ, do đó khi giá trị xuất khẩu tăng thì đồng thời chúng ta cũng phải nhập khẩu một lượng lớn nguyên vật liệu, máy móc thiết bị để mở rộng sản xuất, không những thế kinh nghiệm và hiệu quả đầu tư kém càng làm cho vấn đề thâm hụt thương mại trở nên nghiêm trọng mà hệ quả là làm giảm tốc độ tăng trưởng. Nói như vậy, không có nghĩa là nước ta phải cắt giảm lượng xuất khẩu mà nhằm chỉ ra cho chúng ta thấy một phần thực trạng của nền kinh tế cần khắc phục.

Ý nghĩa của các hệ số hồi quy trong mô hình (1) có thể được diễn đạt như sau:

 Trong điều kiện các yếu tố khác không đổi, khi lãi suất liên ngân hàng kỳ hạn 3 tháng (trễ hai quý) tăng 1% thì tốc độ tăng trưởng GDP trung bình giảm một lượng khoảng 0,173891 %.

 Trong điều kiện các yếu tố khác không đổi, khi tốc độ tăng trưởng của vốn đầu tư từ ngân sách nhà nước quý hiện tại tăng thêm 1% thì tốc độ tăng trưởng GDP trung bình gia tăng thêm khoảng 0,016149 %.

 Trong điều kiện các yếu tố khác không đổi, khi tốc độ tăng trưởng của lượng điện sản xuất ra (trễ một quý) tăng lên 1% thì tốc độ tăng trưởng GDP trung bình tăng khoảng 0,073402 %.

 Trong điều kiện các yếu tố khác không đổi, khi tốc độ tăng trưởng của giá trị nhập khẩu (trễ một quý) tăng 1% thì tốc độ tăng trưởng GDP trung bình giảm khoảng 0,019866 %.

 Trong điều kiện các yếu tố khác không đổi, khi tốc độ tăng trưởng của giá trị xuất khẩu tăng 1% thì tốc độ tăng trưởng GDP trung bình giảm khoảng 0,014667%.

 Trong điều kiện các yếu tố khác không đổi, khi tốc độ tăng trưởng của GDP (trễ 1 quý) tăng lên 1% thì tốc độ tăng trưởng GDP quý hiện tại trung bình gia tăng khoảng 0,767097%.

3.3. Xây dựng mô hình mạng thần kinh nhân tạo để dự báo tốc độ tăng trƣởng GDP của Việt Nam

Chúng tôi sử dụng phần mềm NeuroSolutions phiên bản 6.01 (bản dùng thử), là phần mềm khá phổ biến hiện nay giúp cho việc xây dựng mô hình Mạng thần kinh nhân tạo. Phần mềm NeuroSolutions có nhiều chương trình con như: Excel Express Builder, Neural Expert, Neural Builder. Trong đó, chúng tôi quyết định lựa chọn chương trình Excel Express Builder với nhiều tiện ích, được vận hành trên giao diện MS Excel quen thuộc để xây dựng mô hình.

3.3.1. Quy trình xây dựng mô hình Mạng thần kinh nhân tạo

Trên cơ sở các bài nghiên cứu thực nghiệm về Mạng thần kinh nhân tạo trước đây, chúng tôi đã rút ra quy trình thực nghiệm gồm 5 bước cho việc xây dựng mô hình Mạng thần kinh như sau: (adsbygoogle = window.adsbygoogle || []).push({});

Bƣớc 1: Lựa chọn các biến số và thu thập dữ liệu.

Bƣớc 2: Tiền xử lý dữ liệu

Bƣớc 3: Xây dựng và lựa chọn các thông số cho mô hình

Bƣớc 4: Tiến hành thực hiện mô hình

Bƣớc 5: Thực hiện dự báo và phân tích kết quả.

3.3.1. 1. Lựa chọn các biến số và thu thập dữ liệu

Trong việc lựa chọn các biến số, các lý thuyết kinh tế đóng vai trò quan trọng giúp chúng ta xác định mối quan hệ có ý nghĩa kinh tế của các biến số. Việc sử dụng chu kỳ nào cho chuỗi dữ liệu tùy thuộc vào mục tiêu của nhà nghiên cứu. Trong các nghiên cứu liên quan đến các biến có ảnh hưởng trong dài hạn thì biến phụ thuộc có thể sử dụng dữ liệu theo năm, các biến có tác động trong ngắn hạn thì biến phụ thuộc sử dụng dữ liệu theo quý, tháng, tuần hoặc ngày. Các dự báo kinh tế cho các chỉ số vĩ mô như tốc độ tăng trưởng GDP, tỷ lệ thất nghiệp, thâm hụt ngân sách… thường sử dụng dữ liệu theo quý.

Dựa trên ý nghĩa kinh tế của các biến như đã trình bày ở mục dữ liệu, chúng tôi sử dụng 13 biến kinh tế làm dữ liệu trong mẫu (từ Quý 2/2001 đến Quý 4/2009) để xây dựng mô hình Mạng thần kinh nhân tạo dự báo tốc độ tăng trưởng GDP.

3.3.1.2. Tiền xử lý dữ liệu

Có khá nhiều tranh cãi xung quanh vấn đề tiền xử lý dữ liệu trước khi xây dựng mô hình Mạng thần kinh. Đặc biệt là vấn đề phân phối chuẩn của dữ liệu. Ruey-Shiang Guh (2002) cho rằng Mạng thần kinh vẫn hoạt động tốt cho dù dữ liệu có phân phối không chuẩn; nhưng ngược lại, Irina Klevecka và Janis Lelis (2008) và một số nhà nghiên cứu khác thì không cùng quan điểm với Ruey-Shiang Guh. Theo các nhà nghiên cứu này, trong trường hợp dữ liệu có phân phối không chuẩn thì các ước lượng trung bình và độ biến thiên sẽ bị bóp méo. Vì thế, các ước lượng này sẽ không được dùng để tính khoảng tin cậy hay khoảng dự báo của mô hình.

Thêm vào đó, nếu dữ liệu không có phân phối chuẩn thì khó có thể mong đợi phần dư cũng có phân phối chuẩn. Khi dữ liệu có phân phối không chuẩn thì chúng ta nên loại bỏ các giá trị ngoại lai (những quan sát không thường xuyên và không theo quy luật thống kê của các quan sát còn lại). Các nhà nghiên cứu này còn cho rằng mặc dù Mạng thần kinh được ứng dụng rộng rãi trong phân tích chuỗi thời gian, nhận dạng mẫu hình, phân loại mẫu hình nhưng những tính chất thống kê của chuỗi dữ liệu cũng có ảnh hưởng quan trọng đến kết quả dự báo không thua kém gì so với việc lựa chọn Mạng thần kinh phù hợp và phương pháp học của nó. Vì vậy, một trong những nhiệm vụ quan trọng trong nghiên cứu là tiền xử lý dữ liệu để tạo điều kiện thuận lợi cho việc nghiên cứu và làm tăng độ tin cậy cho các dự báo từ mô hình. Nhìn chung, các nhà nghiên cứu đều ủng hộ quan điểm nên tiền xử lý dữ liệu trước khi đưa vào mô hình. Guoqiang Zhang (1998) không tìm thấy sự khác nhau đáng kể khi sử dụng dữ liệu thô và dữ liệu chuẩn hóa dựa trên kết quả thực nghiệm với tỷ giá hối đoái. Tuy nhiên, Wei Huang (2004) cho rằng mặc dù việc chuẩn hóa dữ liệu là không bắt buộc nhưng thỉnh thoảng chúng ta không thể không chuẩn hóa, ví dụ nếu Mạng thần kinh sử dụng các hàm truyền như hàm Xích ma, hàm Hyperbol thì Mạng thần kinh chỉ tạo ra dữ liệu đầu ra nằm trong khoảng giới hạn của các hàm này, cụ thể như khoảng (0; 1) đối với hàm Xích ma, và khoảng (-1; 1) đối với hàm Hyperbol. Vì thế, dữ liệu cho giai đoạn huấn luyện và kiểm tra phải được chuẩn hóa. Bên cạnh đó, Irina Klevecka và Janis Lelis (2008) đề nghị tất cả các dữ liệu đầu vào và đầu ra được dùng cho mô hình Mạng thần kinh truyền thẳng nên được chuẩn hóa trong một giới hạn nhất định, thường là trong giới hạn của hàm truyền. Nếu không chuẩn hóa thì những giá trị dự báo của mô hình kém chính xác.

Giai đoạn tiền xử lý dữ liệu là khá quan trọng. Việc xử lý dữ liệu nhằm để tối thiểu hóa độ nhiễu, loại bỏ tính xu hướng. Không những thế, Mạng thần kinh sẽ học nhanh hơn và cho kết quả tốt hơn nếu dữ liệu được xử lý trước khi dùng cho huấn luyện. Thực tế, khó xây dựng mô hình tốt từ bộ dữ liệu thiếu, hoặc không chuẩn (có nhiều độ nhiễu) hoặc dữ liệu không nhất quán. Việc tiền xử lý nhằm hạn chế những số liệu bất thường trong chuỗi dữ liệu. Chẳng hạn, nếu có những biến đầu vào nằm trong khoảng (1; 10.000) và những biến đầu vào nằm trong khoảng (0,0001; 0,1) thì Mạng thần kinh sẽ phải sử dụng những trọng số khá nhỏ cho những biến đầu vào đầu tiên và những trọng số khá lớn cho các biến đầu vào thứ hai. Tuy Mạng thần kinh có thể tìm thấy trọng số phù hợp cho các biến đầu vào này nhưng điều này là không dễ.

Có khá nhiều cách để xử lý dữ liệu, trong đó được sử dụng phổ biến trong cả kinh tế lượng truyền thống và Mạng thần kinh là lấy sai phân bậc nhất và lấy logarit tự nhiên. Việc lấy sai phân giúp loại bỏ tính xu hướng. Khi dữ liệu gốc có mức độ phân tán cao hay có một số quan sát bất thường thì có thể chuyển dữ liệu sang dạng logarit. Bên cạnh đó, các nhà nghiên cứu còn làm trơn dữ liệu bằng cách lấy trung bình di động, sử dụng đường xu hướng và lọc các dao động.Trên thực tế, quá trình tiền xử lý dữ liệu thường dựa trên phương pháp thử và sai.

Guoqiang Zhang (1998) giới thiệu một số công thức chuẩn hóa dữ liệu phổ biến như:

Chuyển hóa đơn giản

Chuyển hóa dữ liệu trong khoảng (a;b)

Chuyển hóa thống kê

̅

Với xn là dữ liệu đã chuẩn hóa, x0 là dữ liệu thô ban đầu; xmin, xmax, ̅ và s lần lượt là giá trị nhỏ nhất, giá trị lớn nhất, giá trị trung bình và độ lệch chuẩn của chuỗi dữ liệu chuẩn hóa.

Việc lựa chọn giới hạn cho dữ liệu chuẩn hóa thông thường phụ thuộc vào giới hạn của hàm kích hoạt. Trong khi đó, một vài nhà nghiên cứu khác lại chọn giới hạn trong khoảng (0,2; 0,8) (Tang và Fishwick, 1993) hay khoảng (0,1; 0,9) (Srinivasan, 1994)

vì họ cho rằng các hàm kích hoạt phi tuyến chỉ đạt được đến giới hạn khi biến đầu vào có giá trị vô hạn [được trích bởi Guoqiang Zhang, 1998].

Đối với phần mềm NeuroSolutions 6.01 (bản dùng thử) mà chúng tôi sử dụng trong bài nghiên cứu này, cho phép người sử dụng dễ dàng chuẩn hóa dữ liệu thô để tạo thuận lợi cho quá trình huấn luyện cũng như gia tăng hoạt động dự báo của Mạng thần kinh. Việc chuẩn hóa có thể thực hiện cho tất cả các chuỗi dữ liệu hoặc cho từng chuỗi dữ liệu tùy theo sự lựa chọn của người sử dụng. Chẳng hạn như, mô hình mà chúng ta muốn xây dựng có tất cả là 7 chuỗi dữ liệu đầu vào và 1 chuỗi dữ liệu đầu ra, chúng ta có thể lựa chọn hoặc chuẩn hóa tất cả các chuỗi này theo cùng một công thức tính hoặc chuẩn hóa từng chuỗi một.

Việc chuẩn hóa này được tính toán dựa vào biên trên (Upper bound), biên dưới (Lower bound) được mô hình tự mặc định, hoặc dựa vào sự lựa chọn của nguời dùng và giá trị lớn nhất, nhỏ nhất của chuỗi dữ liệu. Thông thường biên độ này nằm trong khoảng giới hạn của hàm truyền mà dữ liệu sẽ đi qua. Dữ liệu sau khi chuẩn hóa sẽ nằm trong vùng biên độ này. Việc chuẩn hóa dữ liệu sẽ được tính toán như sau:

Đầu tiên, mô hình tính toán biên độ (Amplitude) và độ lệch (Offset) cho chuỗi dữ liệu i, ký hiệu lần lượt là Amp (i) và Off (i)

Chuỗi dữ liệu chuẩn hóa được tính toán như sau

Trong đó: Data’ (i) là dữ liệu sau chuẩn hóa của chuỗi i Data (i) là dữ liệu trước chuẩn hóa của chuỗi i (adsbygoogle = window.adsbygoogle || []).push({});

Giá trị lớn nhất (i) là giá trị lớn nhất của chuỗi huấn luyện thứ i Giá trị nhỏ nhất (i) là giá trị nhỏ nhất của chuỗi huấn luyện thứ i

Thông thường khi tính toán giá trị dự báo đầu ra hoặc xuất dữ liệu thì mô hình sẽ tự động chuyển hóa dữ liệu trở lại ban đầu bằng cách tính ngược lại từ công thức ở trên (trong phần mềm thường gọi là máy dò (Probe)).

Ngoài ra, phần mềm còn cho phép thu nhỏ dữ liệu (Scale) trong một vùng nhất định do người sử dụng lựa chọn. Nó tương tự như chuẩn hóa dữ liệu, chỉ khác ở chỗ là phần mềm cho phép người sử dụng được phép điều chỉnh các giá trị Amp (i) và Off (i). Như vậy, việc chuẩn hóa dữ liệu được thực hiện theo mặc định của phần mềm NeuroSolutions 6.01 nên chúng tôi không cần phải chuẩn hóa dữ liệu trước mà chỉ cần sử dụng dữ liệu thô để xây dựng mô hình dựa trên phần mềm này.

3.3.1.3. Lựa chọn các thông số cho mô hình

Vẫn chưa có một nghiên cứu cụ thể nào về việc xây dựng cấu trúc mạng tối ưu trong

Một phần của tài liệu Dự báo tốc độ tăng trưởng kinh tế Việt Nam Sự vượt trội của mô hình Mạng thần kinh nhân tạo (ANN) so với mô hình Hồi quy tuyến tính truyền thống.pdf (Trang 58)