CHỨNG KHOÁN VIỆT NAM
2.4. Phân tích và dự báo giá chứng khoán trên TTCK VN dưới tác động của
Dự báo trên TTCK từ trước đến nay đã thu hút sự quan tâm của rất nhiều nhà nghiên cứu. Xuất phát từ những góc độ khác nhau, những nghiên cứu này đã có những đóng góp đáng kể. Các nghiên cứu của Bhattacharyya và Banerjee (2004), Eun và Shim (1989), Taylor và Tonks (1989), Yang và cộng sự (2003) đã khẳng định sự tồn tại mối tương quan giữa các TTCK trên thế giới. Bên cạnh đó, những nghiên cứu của Becker (1990), Eun và Shim (1989), Wu và Su (1989) cũng chỉ ra rằng TTCK Mỹ có sự tác động mạnh đến hầu hết các thị trường khác. Điều này gợi ý những nghiên cứu sâu hơn nhằm mục đích vận dụng mối tương quan giữa các thị trường trong việc dự báo chỉ số chứng khoán.
Tuy nhiên, nghiên cứu của Granger (1991) đã cho thấy rằng phần lớn mối tương quan giữa các biến kinh tế vĩ mô, biến tài chính là phi tuyến. Do đó, để việc ứng dụng các mô hình phi tuyến trong quá trình dự báo đƣợc kỳ vọng sẽ mang đến kết quả khả quan hơn, một trong những mô hình phi tuyến đƣợc nhắc đến nhiều trong các nghiên cứu học thuật thời gian gần đây chính là mô hình mạng ANN. Các tác giả đã cho thấy rằng, trong nhiều trường hợp, mô hình phi tuyến ANN sẽ có thể cho kết quả dự báo vƣợt trội so với mô hình tuyến tính truyền thống.
Điển hình là nghiên cứu của Yochanan Shachmurvoe và Dorota Witkowsha (2000).
Theo đó, các ông đã sử dụng chuỗi dữ liệu theo ngày của các chỉ số thị trường Canada, Pháp, Ðức, Nhật, Anh và Mỹ để tiến hành dự báo bằng các mô hình ANN đa lớp. Kết quả so sánh với mô hình tuyến tính truyền thống sử dụng phương pháp bình phương nhỏ nhất (OLS) cho thấy mạng ANN phi tuyến ANN cho kết quả dự báo tốt hơn.
Xuất phát từ những ý tưởng trên, phần nghiên cứu này của luận án tiến hành xây dựng hệ thống ANN để dự báo cho chỉ số VNI của TTCK VN bằng cách sử dụng các
chỉ số thị trường khác bao gồm chỉ số Dow (Mỹ), FTSE (Anh), N225 (Nhật) và SSEC (Shanghai – Trung Quốc).
Chuỗi dữ liệu theo tuần của các chỉ số thị trường được thu thập từ trang điện tử Bloomberg trong khoảng thời gian từ tháng 1/2005 đến tháng 9/2010. Sau đó đƣợc tiến hành xử lý chuyển đổi thành chuỗi tỷ suất sinh lợi. Các chuỗi số liệu đƣợc sử dụng làm nhập liệu đầu vào cho mô hình đều là các chuỗi có tính dừng. Về điều kiện chuỗi dừng đối với dữ liệu đầu vào trong mô hình ANN, các nghiên cứu vẫn chƣa thống nhất rằng liệu đây có thật sự là điều kiện bắt buộc hay không. Theo cách lý luận thông thường, chuỗi dữ liệu dừng sẽ cho khả năng khái quát hóa cao hơn, đồng nghĩa với khả năng dự báo ngoài mẫu chính xác hơn so với trường hợp chuỗi dữ liệu không dừng. Nguyên nhân là do trong trường hợp này, chuỗi dữ liệu chỉ phản ánh đƣợc những đặc điểm trong giai đoạn khảo sát nên dẫn đến mô hình đƣợc xây dựng thiếu khả năng nắm bắt đƣợc đặc điểm thật sự của các biến số này. Tuy nhiên, một số các nghiên cứu khác lại bỏ qua vấn đề này.
Sau khi thu thập đƣợc các dữ liệu cần thiết, phần tiếp theo sẽ đi vào xây dựng mô hình và so sánh kết quả dự báo của hệ thống phi tuyến ANN và mô hình tuyến tính.
Trước hết, mô hình tuyến tính mạng ANN sử dụng hàm truyền tuyến tính và không có lớp ẩn sẽ đƣợc xây dựng và sử dụng làm mô hình chuẩn (benchmark) để so sánh với các mô hình phi tuyến khác. Về bản chất, mô hình tuyến tính này cũng chính là dạng đơn giản nhất của mô hình ANN (Steven Gonzalez, 2000) với một lớp neuron đầu vào, một lớn neuron đầu ra và không có lớp ẩn. Tiến hành kiểm định ngoài mẫu để có kết quả nhƣ sau:
Desired Output and Actual Network Output
-0.15 -0.1 -0.05 0 0.05 0.1 0.15
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43
Exemplar
Output VNI
VNI Output
Hình 2.11: Chuỗi tỷ suất sinh lợi VNI dự báo ngoài mẫu từ mạng ANN tuyến tính và VNI thực tế
Bảng 2.11: Kết quả kiểm định ngoài mẫu mạng ANN tuyến tính
Performance VNI
MSE 0,001634655
NMSE 1,066221205
MAE 0,027926973
Min Abs Error 0,001120195 Max Abs Error 0,133273543
r -0,0781873
Qua bảng kết quả kiểm định ngoài mẫu và hình 2.11, ta thấy rằng, mô hình tuyến tính thật sự đã không thể “nắm bắt” được mối tương quan giữa VNI với các chỉ số thị trường khác. Tuy chỉ tiêu MSE khá nhỏ, ở mức 0,001634 và chỉ tiêu MAE cũng chỉ ở mức 0,0279, nhƣng chỉ tiêu r lại đạt mức -0,078.
Để lý giải cho kết quả này có thể có nhiều nguyên nhân. Trước hết, có thể là do việc lựa chọn biến đầu vào. Do thực tế TTCK VN vẫn còn rất non trẻ, sự hội nhập với thị trường tài chính khu vực và thế giới chưa cao, các nhà đầu tư trên thị trường còn thiếu tính chuyên nghiệp, mặc dù trong thời gian qua đã có nhiều tiến triển, vẫn còn những khoảng cách nhất định nên mức độ tác động của các thị trường khác đối với thị trường VN là rất thấp. Một trong số các nguyên nhân này còn có phần không nhỏ của chính nội tại nền kinh tế VN, nói cách khác TTCK VN thời gian qua chịu nhiều tác động từ chính nội tại của nền kinh tế chứ ít chịu tác động từ sự thay đổi của TTCK của những nền kinh tế trên thế giới.
Tuy nhiên, dưới góc độ kỹ thuật, kết quả dự báo trên có thể là do mô hình được sử dụng, trong trường hợp này là cấu trúc mạng ANN tuyến tính, phải chăng là chưa phù hợp. Thực tế có thể là mối tương quan giữa chỉ số VNI của TTCK VN với các chỉ số thị trường khác là phi tuyến. Để làm rõ điều này, luận án tiếp tục tiến hành xây dựng cấu trúc mạng ANN và so sánh kết quả kiểm định ngoài mẫu với cấu trúc trên.
Trước khi đi vào xây dựng mạng ANN, bộ dữ liệu thu thập cần thiết phải được chia thành 3 phần là tập dữ liệu để huấn luyện mạng, tập dữ liệu để xác nhận lại và cuối cùng là tập dữ liệu dùng để thực hiện kiểm định ngoài mẫu. Hầu hết các nghiên cứu về ANN đều thống nhất rằng tỷ lệ giữa 3 tập dữ liệu là không cố định mà thay đổi tùy thuộc vào đặc điểm riêng của mỗi cấu trúc mạng và dữ liệu thu thập đƣợc. Tuy nhiên, tỷ lệ phân chia giữa các tập này cần thiết phải cân nhắc đến sự đánh đổi giữa số dữ liệu cần thiết để tiến hành huấn luyện mạng nhằm tìm ra các trọng số của mô hình, vốn đòi hỏi một lượng quan sát tương đối lớn, với việc đánh giá khả năng khái quát của mạng đƣợc thể hiện trong kết quả kiểm định ngoài mẫu đối với mạng đó.
Qua các thử nghiệm khác nhau, bài nghiên cứu sử dụng tỷ lệ phân chia giữa ba tập hợp này lần lƣợt là 70%, 15%, 15%, thay vì tỷ lệ 70%, 20% và 10% nhƣ đề xuất trong nghiên cứu của JingTao Yao (2000).
Vấn đề tiếp theo là xác định thuật toán cần đƣợc sử dụng khi tiến hành huấn luyện mạng. Đây là cách thức mà các trọng số sẽ đƣợc điều chỉnh sao cho giá trị MSE đạt đƣợc cuối cùng là nhỏ nhất. Trong hầu hết các nghiên cứu về ANN thì thuật toán đƣợc sử dụng phổ biến nhất là thuật toán Levenberg-Marquardt kết hợp với “lan truyền ngƣợc” mà lý thuyết về mô hình mạng đề cập. Và đây cũng là thuật toán đƣợc lựa chọn cho bài nghiên cứu. Trong những năm gần đây, một số nghiên cứu về mô hình ANN đã tiến hành áp dụng thuật toán di truyền để huấn luyện mạng (Hassan, Nath và Kirley; 2007) và kết quả cho thấy thuật toán trên hứa hẹn sẽ góp phần nâng cao hiệu quả dự báo của mô hình ANN. Trong phạm vi của phần trình bày này, thuật toán di truyền vẫn chƣa đƣợc áp dụng nhƣng kỳ vọng rằng đây sẽ là chủ đề cho các nghiên cứu tiếp theo về mô hình ANN sau này.
Về cấu trúc của hệ thống mạng, sau nhiều thử nghiệm khác nhau, luận án lựa chọn xây dựng bốn cấu trúc lần lƣợt là:
MLF 4-4-1: Cấu trúc mạng truyền thẳng đa lớp chỉ 1 lớp ẩn với 4 neuron
MLF 4-3-2-1: Cấu trúc mạng truyền thẳng đa lớp với 2 lớp ẩn có số neuron lần lƣợt là 3 và 2 neuron
MLF 4-4-3-1: Cấu trúc mạng truyền thẳng đa lớp với 2 lớp ẩn có số neuron lần lƣợt là 4 và 3 neuron
GNN 4-3-1: Cấu trúc mạng truyền thẳng đƣợc khái quát hóa với 1 lớp ẩn duy nhất có 3 neuron
Việc lựa chọn cấu trúc hệ thống mạng thật chất là quá trình “thử và sai” để đi đến kết luận về cấu trúc mạng phù hợp nhất với dữ liệu và biến số đang khảo sát. Trong trường hợp này, cấu trúc mạng truyền thẳng đa lớp được lựa chọn là vì đây là loại mô hình đƣợc sử dụng phổ biến trong hầu hết các nghiên cứu về mạng ANN. Bên cạnh đó, cấu trúc mạng GRNN, dựa trên nền tảng mô hình mạng perceptron đa lớp có kết hợp thêm mối liên kết trực tiếp giữa biến đầu vào và biến đầu ra, cũng là dạng mô hình đƣợc nhiều nhà nghiên cứu lựa chọn.
Sau khi đã hoàn tất việc lựa chọn các thông số cơ bản cho mô hình, tiếp đến là tiến hành quá trình huấn luyện mạng. Kiểm định ngoài mẫu đối với các tập trọng số đạt đƣợc của mỗi cấu trúc, ta có các kết quả sau:
Hình 2.12: Chuỗi tỷ suất sinh lợi VNI dự báo ngoài mẫu từ mạng MLF 4-4-1 và MLF 4-3-2-1 với giá trị thực tế
Hình 2.13: Chuỗi tỷ suất sinh lợi VNI dự báo ngoài mẫu từ mạng MLF 4-4-3-1 và GNN 4-3-1 với giá trị thực tế
Bảng 2.12: Kết quả kiểm định ngoài mẫu của các cấu trúc mạng
Performance MLF 4-4-1 MLF 4-3-2-1 MLF 4-4-3-1 GNN 4-3-1 MSE 0,001701937 0,00191072 0,001795325 0,001692893 NMSE 1,110106771 1,246287811 1,171020341 1,104207958 MAE 0,029705558 0,032034907 0,032734725 0,029852306 Min Abs Error 0,00051033 0,000696829 0,000914704 0,00110959 Max Abs Error 0,115799674 0,119368299 0,108883724 0,106087207 r 0,344853422 0,126066256 0,122359768 0,101416485
MLF 4-4-1 MLF 4-3-2-1
MLF 4-4-3-1 GNN 4-3-1
So sánh kết quả kiểm định ngoài mẫu giữa cấu trúc mạng tuyến tính với các cấu trúc ANN trên cho thấy rằng: về cơ bản, hầu nhƣ không có sự thay đổi trong chỉ tiêu MSE và MAE giữa cấu trúc mạng tuyến tính và cấu trúc mạng phi tuyến. Tuy nhiên, lại có sự khác biệt lớn trong chỉ tiêu r. Nếu ở cấu trúc mạng tuyến tính, chỉ tiêu này chỉ đạt ở mức -0,078 thì với các cấu trúc mạng phi tuyến trên chỉ tiêu này dao động ở mức 10-12% và đặc biệt là 34,48% đối với cấu trúc mạng MLF 4-4-1. Điều này cho thấy rằng, ở một mức độ nào đó, cấu trúc mạng phi tuyến thật sự đã có sự cải thiện hơn so với cấu trúc mạng tuyến tính trong việc dự báo tỷ suất sinh lợi của chỉ số VNI. Những hạn chế còn lại của hầu hết các cấu trúc trong việc dự báo VNI có thể xuất phát từ việc mức độ hội nhập giữa thị trường tài chính VN với các nước trong khu vực và trên thế giới vẫn còn hạn chế. Tuy nhiên, để khẳng định cho điều này cần thiết có những nghiên cứu sâu hơn về mức độ tương quan giữa các thị trường. Đây cũng là một gợi ý cho các nghiên cứu tiếp theo sau này.
Trong khi đó, cùng chuỗi dữ liệu này, phần nghiên cứu ở phụ lục 3 của luận án khi khảo sát bằng mô hình hồi quy tuyến tính đã cho thấy: mô hình hồi quy đơn biến chi có biến SSEC của TTCK Shanghai Trung Quốc có tác động đến sự biến động của VNI với mức ý nghĩa 1% nhƣng mức độ giải thích của mô hình quá thấp. Điều này cho thấy sự vƣợt trội của mô hình mạng ANN so với mô hình hồi quy tuyến tính.
Biến kết hợp Doww FTSEw N225w SSECw
Coefficient -0,0674 -0,0609 -0,0011 0,18172
t-Statistic -0,6446 -0,6308 -0,0132 2,72684
Prob. 0,5197 0,5287 0,9894 0,0068***
R-Squared 0,0014 0,00134 1E-06 0,02442
Mô hình: VNIw = 0,18172 * SSECw + 0,002682