Mục đích của bài viết này là trình bày việc mô hình hóa dự báo giá của một cổ phiếu nào đó theo tập tất cả các biến kinh tế - tài chính có ảnh hưởng đến sự biến động của giá cổ phiếu đó. Các biến này không hoàn toàn độc lập với nhau và số lượng các biến cũng như số lượng các quan sát theo mỗi biến nói chung là rất lớn.
Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Đà Nẵng, ngày 17-18/08/2017 DOI: 10.15625/vap.2017.00051 MƠ HÌNH HÓA DỰ BÁO GIÁ CỔ PHIẾU TRONG NGỮ CẢNH DỮ LIỆU SỐ CHIỀU CAO Đỗ Văn Thành Khoa Công nghệ thông tin - Trường Đại học Nguyễn Tất Thành, dvthanh@ntt.edu.vn TĨM TẮT - Dự báo giá cổ phiếu ln quan tâm đặc biệt xem loại dự báo khó lĩnh vực kinh tế - tài tính dễ thay đổi biến động khó lường Mục đích báo trình bày việc mơ hình hóa dự báo giá cổ phiếu theo tập tất biến kinh tế - tài có ảnh hưởng đến biến động giá cổ phiếu Các biến khơng hồn tồn độc lập với số lượng biến số lượng quan sát theo biến nói chung lớn Phương pháp xây dựng mơ hình dự báo giá cổ phiểu đề xuất báo sử dụng kết hợp kỹ thuật lựa chọn thuộc tính học thuộc tính để chuyển tập liệu số chiều cao tập liệu số chiều thấp giữ đầy đủ thông tin tập liệu số chiều cao bảo toàn quan hệ biến giá cổ phiếu với biến kinh tế - tài khác nhiều Bài báo sử dụng mơ hình trễ phân bố tự hồi quy để xây dựng mơ hình dự báo trung bình giá cổ phiếu sử dụng mơ hình thuộc họ mơ hình phương sai thay đổi điều kiện tự hồi quy để dự báo tính khơng chắn phương sai phần dư mơ hình dự báo Kết dự báo mơ hình xây dựng theo phương pháp đề xuất cho thấy triển vọng tốt phương pháp xem hướng dẫn cụ thể cho việc thực hành mơ hình hóa dự báo giá hàng hóa dịch vụ khác Từ khóa - liệu số chiều cao, giảm chiều liệu, giá cổ phiếu, mơ hình ARCH, mơ hình hóa dự báo tài I GIỚI THIỆU VẤN ĐỀ Dự báo thị trường chứng khoán gồm nội dung quan trọng dự báo giá trị số chứng khoán giá cổ phiếu niêm yết thị trường [17] So với dự báo số chứng khốn dự báo giá cổ phiếu nhìn chung khó khăn dễ thay đổi Do có nhiều yếu tố tác động đến giá hàng hóa giá dịch vụ nói chung, số chứng khốn giá cổ phiếu nói riêng nên có thời gian dài người ta cho dự báo giá Đến năm 1978, người ta nhận thấy khẳng định thị trường hoạt động hiệu quả, thị trường hoạt động khơng hiệu dự báo giá phần yếu tố tâm lý người tham gia thị trường với khả thị trưởng phản ứng với thông tin công bố [16] Hiện có nhiều kỹ thuật ứng dụng xây dựng mơ hình dự báo giá cố phiếu thị trường chứng khoán [6, 17, 22] Các kỹ thuật dự báo số giá cổ phiếu phân thành nhóm theo cách tiếp cận khác [22] nhóm kỹ thuật thống kê nhóm kỹ thuật trí tuệ nhân tạo - Các kỹ thuật dự báo thống kê nói chung thường đòi hỏi biến phải đưa chuỗi dừng trước ứng dụng kỹ thuật yêu cầu phải thực nhiều kiểm định thống kê khác nhằm chẩn đoán, khắc phục đánh giá chất lượng mơ hình trước tiến hành dự báo tương lai Ưu điểm kỹ thuật dự báo thống kê đưa giá trị dự báo tương lai cách cụ thể tương lai khơng có biến động bất thường so với q khứ độ xác dự báo thực kỹ thuật thường cao Các kỹ thuật dự báo thống kê xem xét phân tích hành vi, phát xử lý tốt liệu ngoại lai, cung cấp cách tường minh hàm dự báo cho biết cách rõ ràng quan hệ yếu tố đầu vào biến đích đầu Trong lĩnh vực kinh tế - xã hội mối quan hệ yếu tố đầu vào biến đích đầu hàm ý quy luật kinh tế đặc thù, chúng gợi ý phản ứng sách cần có để tận dụng giảm nhẹ tác động quy luật Trong điều hành quản lý kinh tế, việc phát quy luật kinh tế đặc thù nói chung xem trọng so với việc đưa kết dự báo cụ thể Nhược điểm kỹ thuật dự báo thống kê khó tự động hóa tồn q trình dự báo thực tập liệu số chiều cao Để xây dựng mơ hình dự báo tập liệu có số chiều cao trước hết phải chuyển tập liệu số chiều cao tập liệu số chiều thấp phải giữ đầy đủ thông tin tập liệu số chiều cao bảo toàn quan hệ biến đích đầu với biến gốc đầu vào nhiều - Các kỹ thuật dự báo trí tuệ nhân tạo (như mạng nơtron, hệ suy luận nơtron-mờ, giải thuật di truyền, luật kết hợp, khai phá mẫu chuỗi, k- người láng giềng gần nhất, mạng Bayes, ) kỹ thuật phi tuyến, chủ yếu sử dụng để dự báo phân lớp liệu Các kỹ thuật khơng địi hỏi biến liệu đầu vào phải dừng nói chung khơng cần thực kiểm định thống kê Ưu điểm kỹ thuật trí tuệ nhân tạo thực tập liệu đầu vào lớn, tự động tồn trình dự báo, kết dự báo phân lớp nói chung có độ xác tương đối cao Nhược điểm thích hợp với dự báo xu thế, khó đưa giá trị dự báo cụ thể có độ xác dự báo khơng cao phải thêm nhiều phí tổn (nhất thời gian) để nâng cao độ xác dự báo Các kỹ thuật dự báo trí tuệ nhân tạo hạn chế việc phân tích xử lý hành Đỗ Văn Thành 423 vi, phát xử lý liệu ngoại lai đặc biệt chúng kỹ thuật hộp đen, hàm dự báo chưa cách tường minh chưa cung cấp mối quan hệ cụ thể biến gốc đầu vào với biến đích đầu nên khơng biết yếu tố đầu vào tác động mạnh, yếu đến thay đổi biến đích Đến thời điểm này, cho dù có nhiều nghiên cứu thực nghiệm nói kỹ thuật dự báo trí tuệ nhân tạo phù hợp để phân tích, dự báo liệu khoa học, chưa phù hợp để phân tích, dự báo liệu kinh tế - xã hội nói chung, liệu tài - kinh tế nói riêng, hành vi tác nhân kinh tế có ảnh hưởng lớn đến kết dự báo Mặc dù kỹ thuật trí tuệ nhân tạo xử lý tập liệu lớn, phần tập liệu đầu vào có lỗi, chứa liệu ngoại lai, liệu không liên quan liệu dư thừa phần khác nhằm để tăng hiệu xử lý nâng cao chất lượng phân lớp liệu, việc thực giảm chiều liệu trước thực kỹ thuật trí tuệ nhân tạo để phân lớp cần thiết Những phân tích cho thấy để đưa giá trị dự báo cụ thể có độ xác cao, ứng dụng giới thực cần sử dụng kỹ thuật dự báo thống kê Trong dự báo kỹ thuật thống kê kỹ thuật trí tuệ nhân tạo, điểm mấu chốt để nâng cao độ xác dự báo xử lý tốt sai số (hay phần dư) mơ hình dự báo Để xử lý phần dư mơ hình dự báo thống kê người ta thường xem mơ hình trung bình trượt tự hồi quy (ARMA), song chưa đủ nhiều trường hợp người ta phải thực nhiều kỹ thuật xử lý khác [12] Năm 1982, Engle, R F phát nguyên nhân quan trọng có tác động đến dễ thay đổi (hay tính khơng chắn) phần dư, tượng phần dư có phương sai thay đổi điều kiện (gọi tắt tượng ARCH) Bài báo [9] đề xuất mơ hình phương sai thay đổi điều kiện tự hồi quy ARCH(p) để dự báo phương sai phần dư mơ hình dự báo Hiện hình thành họ mơ hình ARCH tùy theo vấn đề cụ thể cần thực số kiểm định thống kê, để so sánh lựa chọn mơ hình họ ARCH phù hợp Trong trường hợp dự báo giá cổ phiếu phần dư kỳ vọng lợi nhuận đầu tư cổ phiếu nên mơ hình họ ARCH xem mơ hình để dự báo tính khơng chắn lợi nhuận (hay lợi nhuận kỳ vọng) đầu tư Họ mơ hình ARCH ứng dụng việc dự báo lợi nhuận đầu tư vào thị trường Mỹ tác giả báo [9] trao giải Nobel kinh tế năm 2003 đóng góp Hiện lĩnh vực kinh tế - tài họ mơ hình ARCH quan tâm ứng dụng Điều gợi ý giới thực nên lựa chọn họ mơ hình ARCH để dự báo tính khơng chắn phần dư (hay sai số) dự báo biến đích ngữ cảnh số lượng biến gốc tiềm có tác động đến biến đích số lượng quan sát biến lớn Kỹ thuật giảm chiều liệu làm giảm số lượng biến gốc (gọi giảm chiều biến) và/hoặc giảm số lượng quan sát (gọi giảm chiều quan sát) Hiện có nhiều kỹ thuật giảm chiều liệu, kỹ thuật giảm chiều biến Kỹ thuật giảm chiều biến bao gồm loại: Lựa chọn biến (hay Lựa chọn thuộc tính) Chiết xuất biến (Chiết xuất thuộc tính hay Học thuộc tính) Lựa chọn thuộc tính trích xuất vài thuộc tính để đại diện cho tập liệu ban đầu [3, 13, 15] Học thuộc tính kết hợp số thuộc tính ban đầu để tạo thuộc tính khơng làm thay đổi biểu diễn ban đầu biến liệu [5, 15] Lựa chọn thuộc tính phân theo phương pháp tiếp cận [3, 18]: Phương pháp tiếp cận lọc (Filter): Trước tiên lựa chọn tập thuộc tính sau sử dụng tập để thực thuật toán phân lớp dự báo Phương pháp tiếp cận nhúng (Embeded): Việc lựa chọn thuộc tính xuất phần thuật toán phân lớp/dự báo mà không chia tách tập liệu dầu vào thành tập liệu huấn luyện thử nghiệm Phương pháp tiếp cận bọc (Wrapper): thuật toán phân lớp/dự báo áp dụng toàn thể tập liệu ban đầu nhằm xác định thuộc tính tiêu chí lựa chọn thuộc tính thành tích thuật toán phân lớp/dự báo [3] Trong nhiều kỹ thuật giảm chiều liệu biết, kỹ thuật thuộc họ phân tích thành phần (PCA) như: Phân rã phương sai đơn (SVD), Phân tích thành phần tuyến tính (PCA), Phân tích thành phần mờ mạnh (RFPCA), Phân tích thành phần hạt nhân (KPCA),… xem hiệu [3, 14, 20] Cụ thể báo [20] tác giả so sánh kỹ thuật Phân tích thành phần tuyến tính (PCA) với 12 kỹ thuật giảm chiều phi tuyến hàng đầu như: Multidimensional Scaling, Isomap, Maximum Variance Unfolding, kernel PCA, Diffusion Maps, Multilayer Autoencoders, Locally Linear Embedding, Laplacian Eigenmaps, Hessian LLE, Local Tangent Space Analysis, Locally Linear Coordination Manifold Charting cách thực nghiệm chúng tập liệu nhân tạo tập liệu thực Kết cho thấy 12 kỹ thuật phi tuyến giảm chiều tốt tập liệu nhân tạo chọn, với tập liệu giới thực khơng có kỹ thuật số 12 kỹ thuật nêu làm giảm chiều tốt so với PCA truyền thống Hiện có tới hàng trăm kỹ thuật dự báo thị trường chứng khốn nói chung dự báo giá cổ phiếu nói riêng [67, 18], nghiên cứu liên quan đến dự báo giá cố phiếu ngữ cảnh liệu có số chiều cao cịn Bài báo [22] dự báo lợi nhuận thị trường chứng khoán theo ngày cách sử dụng kỹ thuật PCA 02 kỹ thuật PCA phi tuyến khác phân tích thành phần mờ mạnh (RFPCA) phân tích thành phần hạt nhân (KPCA) để giảm chiều tập liệu gồm 60 biến sử dụng kỹ thuật mạng nơtron nhân tạo (ANN) để phân lớp Bài báo PCA+ANN cho kết dự báo phân lớp tốt so với RFPCA+ANN KPCA+ANN Mặc dù kết dự báo phân lớp đánh giá độ xác cao hạn chế cho biết xu hướng lợi nhuận thị trường mà không đưa giá trị cụ thể Phương pháp giảm chiều báo có 02 hạn chế là: điểm liệu biến gốc không xấp xỉ thuộc siêu phẳng tổng qt 424 MƠ HÌNH HÓA DỰ BÁO GIÁ CỔ PHIẾU TRONG NGỮ CẢNH DỮ LIỆU SỐ CHIỀU CAO xấp xỉ thuộc đa tạp (manifold), số lượng biến gốc lớn việc sử dụng phương pháp giảm chiều PCA không hiệu gặp nhiều khó khăn Bài báo [21] dự báo số giá cổ phiếu tổng hợp trị trường chứng khoán Hàn Quốc (KOSPI) số chứng khoán Hangseng (HSI) cách sử dụng kỹ thuật phân tích thành phần (PCA) học máy véctơ hỗ trợ (SVM) để giảm điểm liệu để phân chúng thành hai lớp Phân tích hai lớp báo nhận thấy hình thành cụm cổ phiếu thay đổi việc sử dụng thành phần tạo từ PCA Bài báo có nhược điểm tương tự [22] Bài báo [6] đề xuất sử dụng quan hệ nhân để giảm chiều biến tập liệu gồm 277 biến kinh tế - tài sử dụng mơ hình trễ phân bố tự hồi quy (ADL) ước lượng theo phương pháp hồi quy nhiều biến để dự báo số chứng khoán VNINDEX theo ngày Độ xác dự báo cao Ưu điểm phương pháp nhận giá trị dự báo VNINDEX mà không cần phải dự báo biến ngoại sinh có mơ hình Nhược điểm báo có số biến gốc đưa vào mơ hình dự báo, điều có nghĩa chất lượng dự báo mơ hình bị suy giảm nhiều yếu tố ảnh hưởng đến thay đổi VNINDEX chưa đưa vào mơ hình Nhược điểm khác báo quan hệ nhân thường quan hệ ngắn hạn, dễ thay đổi số quan sát biến tăng thêm, nên việc xác định lại quan hệ nhân xây dựng lại mơ hình dự báo phải thực thường xuyên Bài báo [7] sử dụng kỹ thuật xếp hạng biến gốc theo hệ số tương quan chúng với biến đích để giảm số biến lần đầu sau sử dụng kỹ thuật PCA để giảm tiếp chiều biến tập liệu sau lần giảm đầu cuối sử dụng mơ hình ADL ước lượng theo phương pháp hồi quy nhiều biến để dự báo số VNINDEX theo ngày Độ xác dự báo theo phương pháp tốt so với phương pháp đề xuất [6] Tuy nhiên Bài báo cịn nhược điểm Thứ chưa thực kiểm định để biết phần dư có phương sai thay đổi điều kiện hay khơng? Nếu có có cú sốc tác động đến thị trường chứng khốn (như tình hình thị trường tài giới thay đổi, sách tiền tệ, lãi suất phủ thay đổi,…) phần dư mơ hình thay đổi đột ngột mơ hình dự báo trung bình khơng nắm bắt được, dẫn đến hạn chế độ xác dự báo Nhược điểm thứ là: số biến gốc có hệ số tương quan cao với biến đích lựa chọn lần đầu để sau áp dụng kỹ thuật PCA có số biến có tương quan cao với nhau, xảy tượng số biến gốc xác định thơng qua số biến gốc khác Điều có nghĩa có dư thừa biến lựa chọn lần đầu bỏ sót số biến thích đáng khác cung cấp thơng tin có ích cho dự báo biến đích hệ số tương quan với biến đích khơng lớn Bài báo [19] sử dụng kỹ thuật xếp hạng biến gốc nguyên nhân có ý nghĩa thống kê cao quan hệ nhân biến gốc biến đích để giảm số biến lần đầu sau sử dụng kỹ thuật PCA để giảm tiếp chiều biến tập liệu gốc gồm 310 biến cuối sử dụng mơ hình ADL ước lượng theo phương pháp hồi quy nhiều biến để dự báo số VNINDEX theo tháng Ưu điểm phương pháp báo bao gồm ưu điểm cá báo vừa nêu nhược điểm tương tự nhược điểm báo [7] Bài báo khắc phục nhược điểm tất báo nêu Cụ thể báo đề xuất khung lý thuyết để dự báo giá cổ phiếu ngữ cảnh số chiều biến lớn ứng dụng khung lý thuyết việc dự báo giá cố phiếu tập liệu thực kinh tế Khác với phương pháp giảm chiều biến nghiên cứu trước thực theo hai cách khác là: sử dụng kỹ thuật Lựa chọn thuộc tính Học thuộc tính để tạo nhóm biến nhỏ thay cho biến gốc đầu vào [3], báo đề xuất kết hợp hai phương pháp: Lựa chọn thuộc tính Học thuộc tính việc làm giảm chiều liệu bối cảnh phải đảm bảo yêu cầu giữ nhiều quan hệ biến đích biến gốc Để dự báo giá cổ phiếu, 02 mơ hình dự báo thống kê sử dụng Mơ hình trễ phân bố tự hồi quy (ADL) [12] ước lượng sử dụng kỹ thuật hồi quy nhiều biến để dự báo giá trung bình cố phiếu Mơ hình gọi mơ hình dự báo trung bình Trong mơ hình biến giải thích biến trễ chúng biến trễ biến đích đưa vào Điều hàm ý thay đổi biến đích khơng phụ thuộc vào biến giải thích mà cịn phụ thuộc vào q khứ q khứ biến giải thích Mơ hình phương sai thay đổi điều kiện tự hồi quy GARCH(p,q) [2, 8] mở rộng để dự báo phương sai phần dư Mơ hình dự báo trung bình phần dư có tượng ARCH Mơ hình GARCH mơ hình thuộc họ ARCH sử dụng phổ biến Các mơ hình dự báo trung bình mơ hình dự báo phương sai kết nối với ước lượng đồng thời Kết dự báo giá cố phiếu mơ hình xây dựng theo phương pháp đề xuất mặt khẳng định ý nghĩa khung lý thuyết việc dự báo giá cổ phiếu, mặt khác quan trọng hơn, xem hướng dẫn cho việc mơ hình hóa dự báo giá nhiều loại hàng hóa dịch vụ khác Bài báo cấu trúc sau: phần này, phần II trình bày rõ vấn đề đặt đề xuất phương pháp giải Phần III ứng dụng phương pháp đề xuất để dự báo giá cổ phiếu tập liệu thực kinh tế cuối vài kết luận Đỗ Văn Thành 425 II XÁC ĐỊNH VẤN ĐỀ VÀ PHƢƠNG PHÁP GIẢI QUYẾT 2.1 Xác định vấn đề Ký hiệu Y biến giá cổ phiếu (gọi biến đích), Xi (i =1, 2,…, n) biến phản ánh yếu tố có tác động đến thay đổi Y (gọi biến gốc); Y Xi (i =1, 2,…, n) thuộc khơng gian Rm Nói cách khác Y, Xj biến véctơ, YT = (yj), XiT = (xji), j =1, 2,…, m; (yj, x1j, x2j, …, xnj) gọi quan sát thứ j (hay trường hợp thứ j) biến Y, Xi Một số biến gốc Xi khơng có có tác động đến thay đổi Y; số biến gốc khác có tương quan với Giả sử số biến gốc n lớn Vấn đề đặt ra: xây dựng mô hình dự báo giá cổ phiếu (biến đích Y) theo tập biến gốc Xi (i =1, 2, …, n) 2.2 Khung lý thuyết dự báo Hình trình bày cách tóm tắt khung lý thuyết q trình dự báo biến đích ngữ cảnh liệu có số chiều biến cao Theo q trình gồm giai đoạn bản: giảm chiều liệu tập liệu đầu vào xây dựng mơ hình dự báo tập liệu thực dự báo Pha 1: Giảm chiều liệu Giảm chiều liệu lần 1: Lựa chọn thuộc tính Giảm chiều liệu lần 2: Học thuộc tính Pha 2: Xây dựng mơ hình thực dự báo Xây dựng mơ hình dự báo Đánh giá chất lượng mơ hình dự báo Tiến hành dự báo tương lai biến đích Hình Khung lý thuyết dự báo ngữ cảnh liệu chiều cao Dưới trình bày chi tiết Khung lý thuyết 2.3 Pha 1: Giảm chiều liệu 2.3.1 Giảm chiều lần 1: Sử dụng kỹ thuật lọc (Filter) Mục đích pha giảm số biến giữ quan hệ biến đích biến gốc nhiều Trong tập biến gốc có biến khơng tác động khơng đáng kể đến thay đổi biến đích tượng dư thừa biến Quan trọng giảm chiều lần nhằm giảm biến Khi kỹ thuật để giảm chiều Lần cần thuộc phương pháp tiếp cận lọc (filter) cách tiếp cận nhúng (embedded) bọc (wapper) Thuật toán ChonTapcon thực giảm chiều lần Theo cách tiếp cận lọc, người ta thường sử dụng loại độ đo: - Độ đo tương quan biến X, Y |R(X,Y)| R(X,Y) xác định công thức (1): ( ∑ ) √∑ ̅ ∑ ( ( ̅ )( ̅ ) √∑ ̅) ( ̅) , ̅ , X=(xi), Y= (yi), i=1, m ∑ , (1) 426 MƠ HÌNH HĨA DỰ BÁO GIÁ CỔ PHIẾU TRONG NGỮ CẢNH DỮ LIỆU SỐ CHIỀU CAO |R(X,Y)| ≤ gần khả biến xác định thơng qua biến cịn lại cao Độ đo gọi độ đo tương quan Pearson [3, 8] - Độ đo thông tin tương hỗ biến Thuộc loại có số độ đo, độ đo thơng tin tương hỗ dựa vào Entropy thường sử dụng [13] Với hai biến X, Y nêu trên, độ đo thông tin tương hỗ biến xác định bởi: ( ) ∑ ∑ ( ) ( ( ) ) ( (2) ) Các báo [6, 20] đề xuất cách đo khác để đo mức độ quan hệ nguyên nhân - kết biến Đó giá trị xác suất thống kê T kiểm định quan hệ nhân đề xuất nhà toán học - giải Nobenl kinh tế Granger C W J [11] Quan hệ nhân xác định dựa việc xây dựng mơ hình tốn học sau: Giả sử X Y chuỗi dừng [10, 12], xét phương trình [11]: n m i 1 j 1 Y X (i) b jY ( j ) u1t p q i 1 j 1 (3) (4) X t ci X (i ) d jY ( j ) u2t ai, ci, bj, dj, tham số; X(-i), Y(-j) tương ứng X trễ i bước Y trễ j bước; trễ biến biến nên phương trình (3) (4): n, m, p, q số biến giải thích; độ dài trễ lớn biến X, Y phương trình; uit (i =1, 2) sai số giả định nhiễu trắng Các tham số xác định sử dụng phương pháp hồi quy nhiều biến tập liệu đầu vào n Nếu a i 1 n a i 1 i i m d j 1 m d j 1 j j ta nói tồn mối quan hệ nhân chiều từ X đến Y tương tự, tồn mối quan hệ nhân chiều từ Y đến X Nếu n a i 1 i m d j 1 j 0 hai biến X Y cịn gọi có quan hệ nhân hai chiều (hay quan hệ phản hồi) Các biến X Y độc n lập a i 1 i m d j 1 j Khi có quan hệ nhân chiều từ X đến Y X ngun nhân gây Y số báo trước Y Kiểm định nhân Granger có phân phối Student T Dựa vào xác suất thống kê T ta biết mức độ quan hệ nhân X Y Ký hiệu d(X,Y) chung cho độ đo tương quan Pearson, độ đo thông tin tương hỗ xác suất thống kê T quan hệ nhân Khi biến gốc Xi coi khơng liên quan đến biến đích Y d(Xi,Y) ≤ Biến gốc Xj coi dư thừa tồn biến gốc khác Xi cho d(Xj, Xi) > và d(Xi,Y) > d(Xj,Y), số dương nhỏ người sử dụng xác định Ký hiệu G ={Xi, i=1,2, …,n}là tập tất biến gốc đầu vào Khi thuật tốn giảm chiều liệu sử dụng kỹ thuật Lọc thuộc tính với sử dụng độ đo tương quan d(X,Y) viết dạng giả code sau: Thuật toán ChonTapcon Đầu vào: Y biến đích, tập biến gốc G = {Xi}, ngưỡng người sử dụng xác định: ngưỡng cho độ đo d(Xi, Y) để xác định Xi tác động đến Y? ngưỡng cho độ đo d(Xj, Xi) để xác nhận Xj xác định từ Xi? Đầu ra: Tập liệu G, khơng cịn biến khơng có tác động đến biến đích Y khơng cịn biến dư thừa for i to So_bien_trong_G đo // loại bỏ biến khơng liên quan với biến đích Y Tinhdodo d(Xi, Y); If d(Xi,Y) ≤ then G G\{Xi} end for Order(G) // xếp biến G theo thứ tự giảm dần |d(Xi,Y)| for i to So_bien_trong_G for j to i-1 Tinhdodo d(Xj, Xi) Đỗ Văn Thành 427 If |d(Xj, Xi)| > then G G\{Xi} // loại bỏ biến dư thừa 10 end for 11 end for 12 Return G 2.3.2 Giảm chiều lần 2: sử dụng kỹ thuật PCA Việc giảm chiều liệu sử dụng kỹ thuật PCA thực môi trường ngôn ngữ, công cụ thống kê MATLAB, R, SAS, EVIEW, SPSS, STATA Bài báo sử dụng công cụ EVIEW [25] Việc sinh biến thay cho tập biến gốc G sử dụng kỹ thuật PCA gồm nội dung chinh sau [1, 7]: 1) Tính ma trận tương quan R tập gồm n biến gốc Xi; 2) Tìm giá trị riêng véctơ riêng ma trận R Giả sử có h giá trị riêng (h ≤ n) 3) Sắp xếp giá trị riêng theo thứ tự giảm dần; 4) Phân tích tỷ lệ tích lũy giá trị riêng, chọn số thành phần có ứng với giá trị riêng cao có tổng tích lũy giá trị riêng từ 70% đến 90%, hàm ý thành phần chọn giải thích tương ứng từ 70% đến 90% tập liệu gốc; 5) Giả sử có k thành phần giữ lại, ký hiệu PC1, PC2, …, PCk (k ≤ h) Sử dụng véctơ riêng làm trọng số để tạo thành phần theo số lượng chọn Ký hiệu V1, V2, …., Vk véctơ riêng ứng với thành phần PC1, PC2, …, PCk Vi véctơ n chiều cụ thể ViT = (vi1, vi2, …, vin), thành phần PCi véctơ m chiều ứng với véctơ riêng Vi xác định sau [7]: PCi = vi1* ̂ + vi2* ̂ + … + vin* ̂ , ̂ i = ̿ (5) , (6) ̿ , Si tương ứng giá trị trung bình độ lệch chuẩn véctơ Xi Các véctơ ̂ i gọi véctơ chuẩn hóa véctơ Xi Các thành phần nhận tự nhiên theo thứ tự theo độ lớn giá trị riêng tương ứng 2.4 Xây dựng mơ hình thực dự báo 2.4.1 Xây dựng mơ hình dự báo Sau giảm chiều lần thứ nhất, giả sử tập thu gọn tập biến gốc ban đầu G = {X1, X2, …, Xg} Dựa vào lý thuyết tài - kinh tế, tập G chia thành tập, G1 = { X1, X2, …, Xk }với k g G2 = G\G1 G2 gồm biến thường khó dự báo thay đổi thường gây tượng “sốc” cho hoạt động tài - kinh tế tập rỗng Số biến G2 thường nhỏ, không gây lo ngại thách thức số chiều cao liệu Khi việc giảm chiều lần chủ yếu thực tập G1 Không giảm tổng quát ta coi tập G1 G2 = {X1, X2, …, Xk } { Xk+1, Xk+2, …, Xg} tập biến sau lần giảm chiều sử dụng để thay cho tập biến gốc ban đầu Mơ hình dự báo giá cổ phiếu gồm mơ hình: a Mơ hình dự báo trung bình Là mơ hình ADL có dạng: r1 r2 rk r i 0 i 0 i 0 q 1 Y c a1i X (i) a 2i X (i) a ki X k (i) bq Y (q) u (t ) (7) X(-i) X(t-i) ký hiệu biến trễ i bước X Trong công thức (7) trễ biến khác nói chung khác nhau, dễ dàng xác định độ dài trễ kiểu tần suất thu thập liệu chúng tuần, tháng, quý hay năm,… Về chất, độ dài trễ thường độ dài mùa vụ chuỗi liệu Do biến Xi, i =1,2, …, k thành phần nên chúng trực giao với mơ hình xác định phương trình (7) khơng có tượng đa cộng tuyến [1] Thực kiểm định tượng ARCH u(t), khơng có tượng cần kiểm định xử lý để u(t) khơng nội sinh, u(t) có phân phối chuẩn, có kỳ vọng 0, phương sai thay đổi không tự tương quan theo 428 MƠ HÌNH HĨA DỰ BÁO GIÁ CỔ PHIẾU TRONG NGỮ CẢNH DỮ LIỆU SỐ CHIỀU CAO cách nêu [8, 12], trường hợp trái lại cần phải sử dụng mơ hình GARCH(p,q) [8] để dự báo phương sai phần dư mơ xác định theo phương trình (8) b Mơ hình dự báo phương sai phần dư Ký hiệu h(t) phương sai u(t) phương trình (7), phương trình dự báo phương sai phần dư GARCH(p,q) có dạng: ( ∑ ) ( ∑ ) ( ∑ ) ( ∑ ) ∑ ( ) ( ) ( ) ( ) (8) Trong phương trình (8) H phương sai phần dư u(t); ( ) phần dư mơ hình dự báo phương sai giả định biến ngẫu nhiên có kỳ vọng 0, có phân phối chuẩn, khơng có tượng ARCH không tự tương ∑ ( ) ∑ ( ) quan chuỗi; biến ngoại sinh Xk+1,…, Xg thuộc tập G2 nêu, phần thuộc GARCH(p, q) và: ∑ ( ) ∑ ( ) ∑ ( ) ( ) ( ) gọi phần mở rộng mơ hình GARCH, sử dụng để nghiên cứu, đánh giá tác động “sốc” đến tính khơng chắn lợi nhuận [2] đánh giá hiệu hoạt động thị trường [4] c Ước lượng chẩn đốn mơ hình dự báo Chia tập liệu thành tập: tập thứ dùng để huấn luyện mơ hình, tập thứ để dự báo kiểm định, đánh giá chất lượng mô hình Do liệu kinh tế, tài thường biến đổi nhanh, nên thời gian dự báo xa dự báo nên trung hạn Khái niệm dự báo ngắn hạn, trung hạn hay dài hạn lĩnh vực kinh tế - tài xác định cụ thể sau: dự báo cho 1-2 kỳ liệu dự báo ngắn hạn, 3-5 kỳ liệu trung hạn, từ kỳ liệu trở lên dài hạn [10] Thực ước lượng mơ hình dự báo trung bình theo phương trình (7) sử dụng phương pháp hồi quy nhiều biến tập liệu thứ Thực xử lý phần dư nêu ứng với trường hợp phần dư có khơng tượng ARCH 2.4.2 Đánh giá chất lượng mơ hình Thực chất nội dung kiểm thử khả dự báo ngồi mẫu mơ hình, cách sử dụng mơ hình xây dựng tập liệu thứ để dự báo cho tập liệu thứ 2, sau so sánh tập thứ thực tế tập thứ dự báo Có độ đo sử dụng nhiều để đo độ xác dự báo là: phần trăm sai số giá trị dự báo giá trị thực trung bình bậc trung bình bình phương sai số dự báo Nếu độ đo sai số dự báo nhỏ mong muốn người sử dụng sử dụng mơ hình để dự báo tương lai biến đích 2.4.3 Thực dự báo tương lai Để dự báo tương lai biến đích, cần: - Thực dự báo biến ngoại sinh X1, X2, …, Xk cho mơ hình dự báo trung bình theo phương trình (7) việc sử dụng mơ hình tự hồi quy AR(p) có xu xác định phương trình (9) ΔY(t) = α + ρY(-1) + γ1ΔY(-1) + …+ γp ΔY(-p) + δt + et, (9) đây: ΔY ký hiệu sai phân bậc Y, t biến để đo số lượng quan sát - Thực dự báo biến Xk+1, Xk+2, …, Xg theo mơ hình AR(p) có xu người dự báo cảm nhận yếu tố tác động đến biến tương lai tương tự khứ, nói chung khơng phải vậy, nên biến thường dự báo giả định - Thực ước lượng lại mơ hình dự báo trung bình dự báo phương sai toàn tập liêu, sau sử dụng mơ hình biến ngoại sinh dự báo trước để dự báo biến đích Y III ỨNG DỤNG KHUNG LÝ THUYẾT DỰ BÁO 3.1 Bài toán cụ thể tập liệu đƣợc sử dụng để dự báo Giả sử biến đích Y biến giá cổ phiếu Cơng ty FPT tập biến gốc có tác động đến biến động giá cổ phiếu FPT xác định theo cách tiếp cận [22] Giả sử biến gốc nguồn thu thập liệu cho biến mô tả Bảng Đỗ Văn Thành 429 Bảng Các biến gốc đầu vào cho việc xây dựng mơ hình dự báo giá cổ phiếu FPT Data Variables properties 06 biến gốc: Chỉ số phát triển Cơng nghiệp: IIP, dư nợ tín dụng: DUNO, lãi suất tiền gửi ngắn hạn: INT, tỷ giá hối đoái VNĐ USD: ER, kim ngạch xuất nhập Việt Nam theo tháng: EX IMP, Phản ánh điều kiện phát triển chung kinh tế 41 biến gốc: Giá 29 mã cổ phiếu cổ phiếu BULUECHIP (mã cổ phiếu xem tên biến); Các số chứng khoán: VNINDEX, HNX, số chứng khoán 30 cổ phiếu BLUECHIP: VN30; số: UPCOM; Các số chứng khoán theo ngành, Cơng nghiệp: CNINDEX, Khống sản: KSINDEX, Ngân hàng: NHINDEX, Năng lượng: NLINDEX; Chỉ số giá tiêu dùng: CPI, số giá vàng: GOLDINDEX, số giá đô la Việt Nam: USINDEX Source www.gso.gov.vn; www.vietcombank.com.vn Tần suất liệu theo tháng www.cophieu68.org.vn www.gso.gov.vn; Các biến số cụ thể liên quan đến biến động giá cổ phiếu FBT Dữ liệu theo tháng trung bình liệu theo ngày sàn giao dịch chứng khoán hoạt động tháng www.cophieu68.org.vn Dữ liệu theo tháng trung bình liệu theo ngày sàn giao dịch chứng khoán hoạt động tháng 01 biến: Giá cổ phiếu Công ty FPT Biến cụ thể công ty biến: chưa thu thập thông tin Các biến số tâm lý nhà đầu tư vào Công ty FPT, kỳ vọng lựa chọn mức giá để mua cổ phiếu nhà đầu tư nhà đầu tư có tổ chức 04 biến: Các số chứng khốn NASDAD 100 tổng hợp: NDX100 NDX_COM, số chứng khốn S&P500: SP500, giá giới dầu thơ thị trường TEXAS- Mỹ: OIL; Các biến số phản ánh kinh tế- trị giới nước lớn Các biến cố trị: xuất đời kiện trị quan trọng Federal Reserve Bank of ST Louis, https://fred.stlouisfed.org/ Dữ liệu theo tháng trung bình liệu theo ngày tháng Như tập liệu bao gồm 65 quan sát từ tháng năm 2012 đến tháng năm 2017 cho 01 biến đích 51 biến gốc đầu vào 3.2 Giảm chiều liệu 3.2.1 Giảm chiều lần Trong thuật toán ChonTapcon chọn d(X,Y) độ đo tương quan Pearson, tức d9X,Y) = |R(X,Y| R(X,Y) hệ số tương quan Pearson biến Nếu chọn = 0.26 hàm ý biến gốc có hệ số tương quan với biến FPT nhỏ 0.26 ta coi biến khơng có tác động đến thay đổi FPT chọn = 0.91 hàm ý biến có hệ số tương quan lớn 0.91, biến xem xác định thông qua biến (một cách xác biến giải thích 91% thay đổi biến kia) Thực thuật toán ChonTapcon tập liệu đầu vào biến đích biến gốc tham số nêu ta nhận tập thuộc tính sau Lần giảm chiều lần thứ Bảng dưới: Bảng Tập thuộc tính (biến) có ý nghĩa với biến FPT không dư thừa từ 51 biến gốc Số TT 10 Biến gốc CNINDEX SP500 VNINDEX VSH DUNO HCM GMD MSN EIB PVT Hệ số tƣơng quan 0.996 0.922 0.916 0.907 0.890 0.869 0.825 -0.807 -0.784 0.781 Số TT 11 12 13 14 15 16 17 18 19 20 Biến gốc EX VNM CII CPI OIL VN30 OGC KDC CSM BVH Hệ số tƣơng quan 0.778 0.763 0.752 -0.742 -0.738 0.737 -0.735 0.699 0.675 0.598 Số TT 21 22 23 24 25 26 27 28 Biến gốc NHINDEX HAG UPCOM FLC GOLDINDEX CTG USDINDEX IJC Hệ số tƣơng quan 0.584 -0.575 0.498 0.494 0.490 0.441 0.414 0.319 430 MÔ HÌNH HĨA DỰ BÁO GIÁ CỔ PHIẾU TRONG NGỮ CẢNH DỮ LIỆU SỐ CHIỀU CAO Thực biến là: PVD, ITA, DPM PPC biến liên quan với FPT có hệ số tương quan với FPT tương ứng là: -0.0007, -0.175, -0.211 0.254 nhỏ = 0.26, cịn 19 biến khác khơng chọn chúng biến dư thừa 3.2.2 Giảm chiều lần Phân tích 28 biến tập thuộc tính lựa chọn để xây dựng mơ hình dự báo giá cổ phiếu FPT, ta thấy có biến số chứng khoán S&P500 (SP500) giá giới dầu thô (OIL) biến phản ánh tình hình kinh tế - trị giới Những biến khó lường bối cảnh Việt Nam nên xác định biến thường gây nên tính chắn kết dự báo Bài báo đề xuất đưa biến làm biến ngoại sinh mơ hình dự báo phương sai xây dựng theo phương trình (8), 26 biến cịn lại sử dụng để xây dựng mơ hình dự báo trung bình theo phương trình (7) Thực phân tích PCA 26 biến gốc phản ánh kinh tế - tài nước với liệu 60 quan sát từ tháng 1/2012 đến tháng 12/2016 theo bước nêu mục 3.3.2, ta thấy ma trận hệ số tương quan R 26 biến có 26 giá trị riêng, có giá trị riêng lớn (Hình 2) tổng tích lũy giá trị riêng 0.909 (Bảng 3) Điều ngầm ý cần chọn thành phần ứng với giá trị riêng lớn để làm đại diện cho tập gồm 26 biến gốc (cũng có nghĩa cho 49 biến gốc ban đầu) thành phần giải thích đến 90.9% thay đổi tập liệu 49 biến gốc Để xác định thành phần chính, trước hết cần tìm véctơ riêng ứng với giá trị riêng lớn véctơ trọng số tương ứng thành phần chính, đồng thời thực chuẩn hóa tập liệu đầu vào 26 biến gốc theo công thức (6) Các thành phần tính theo cơng thức (5) Các thành phần khơng tương quan với nhau, nói cách khác chúng ln biến độc lập Ký hiệu thành phần tương ứng với giá riêng lớn giảm dần PC1, PC2, PC3, PC4, PC5 3.3 Xây dựng mơ hình dự báo thực dự báo 3.3.1 Ước lượng mô hình Các tham số mơ hình dự báo xây dựng theo phương trình (7) (8) ước lượng sử dụng phương pháp hồi quy OLS Để tránh tượng hồi quy sai biến mơ hình phải chuỗi thời gian dừng Thực kiểm định Dickey-Fuller tăng cường kiểm định Phillips - Perron [8, 11] biến, thấy biến chuỗi thời gian FPT, OIL, SP500 không dừng lôga tự nhiên biến dừng sai phân bậc 1, thành phần PC1, PC2, PC3, PC4, PC5 khơng dừng sai phân bậc chúng dừng Vì phương trình (7), (8) trường hợp tương ứng trở thành: r1 r2 rk r i 0 i 0 i 0 q 1 d log( FPT ) c a1i d ( PC1 (i)) a2i d ( PC2 (i)) a5i d ( PC5 (i)) bq d log( FPT (q)) u (t ) ∑ ( ) ∑ ( ) ∑ ( ( )) ∑ ( ( )) d(X) ký hiệu sai phân bậc X Hình Các giá trị riêng thứ tự giảm dần Bảng Các giá trị riêng tỷ lệ tích lũy chúng (10) ( ) (11) Đỗ Văn Thành 431 Sử dụng tiêu chuẩn AIC [12] để xác định độ dài trễ tối ưu phương trình (10) ta nhận độ trễ tối ưu cho tất biến mô hình dều Sử dụng kiểm định WALD [11] để kiểm tra biến mơ hình có thực cần thiết nằm mơ hình hay không sử dụng phương pháp hồi quy nhiều biến để ước lượng tham số mơ hình xây dựng theo phương trình (10) Xem xét đồ thị phần dư u(t) nhận thấy khơng có tượng giá trị phần dư vượt 1,5 lần độ lệch chuẩn tháng gần Nói cách khác khơng có tượng liệu bất thường/dữ liệu ngoại lai tập liệu đầu vào sử dụng Kiểm định tượng ARCH [8,11] phần dư u(t) mơ hình dự báo trung bình vừa ước lượng ta nhận phân dư có tượng ARCH Khi cần phải ước lượng mơ hình dự báo phương sai theo phương trình (11) tiến hành đồng thời với q trình ước lượng mơ hình dự báo trung bình theo phương trình (10) Kết ước lượng mơ hình dự báo trung bình phương sai sau: dlog(FPT) = 0.233* dlog(FPT(-1)) + 0.065* d(PC1) + 0.026*d(PC5) + u(t); Std: (0.052) (0.009) (12) (0.005) H = 0.001 - 0.246*u (-1) + 0.831*H(-1) + 0.002*dlog(OIL) + 0.006 dlog(SP500) + ( ) Std: (0.0003) (0.067) (0.129) (0.0008) (13) (0.004) R = 0.59; DW: 1.93; SMPL: 58 quan sát sau điều chỉnh Kiểm định phần dư ( ) mơ hình (13) ta thấy ( ) có kỳ vọng 0, có phân phối chuẩn, khơng cịn tượng ARCH khơng tự tương quan chuỗi Phương trình (13) cho thấy biến OIL SP500 có ảnh hưởng đến thay đổi phương sai phần dư mơ hình dự báo trung bình; tác động biến OIL đến thay đổi phương sai H có ý nghĩa thống kê cao, song với biến SP500 tác động có ý nghĩa thống kê khơng cao Phương trình (13) cho thấy tốc độ thay đổi OIL SP500 có ảnh hưởng thuận chiều đến thay đổi phương sai H mặt khác quan trọng thể thị trường chứng khốn Việt Nam hoạt động chưa hiệu thay đổi biến giá cổ phiểu công ty FPT, biến OIL Nói cách khác thông tin liên quan đến thay đổi OIL chưa nhà đầu tư vào cổ phiếu FPT phản ứng kịp thời, phản ứng có thay đổi số SP500 Khi phản ứng thị trường liên quan đến cổ phiếu FPT chưa kịp thời với thay đổi OIL SP500 có nghĩa thay đổi biến không gây biến động lợi nhuận đầu tư vào cổ phiếu FPT 3.3.2 Dự báo kiểm định Sử dụng mơ hình dự báo giá cổ phiếu FPT xây dựng tập liệu đầu vào quan sát từ tháng 1/2012 đến tháng 12/2016 để dự báo giá cổ phiểu FPT tập liệu đầu vào quan sát từ tháng 1/2017 đến tháng 5/2017 nhận kết Bảng Bảng Kết dự báo kiểm thử chấp nhận mô hình Giá trị thực tế 38.280 38.590 39.550 39.580 41.290 Quan sát Tháng 1/2017 Tháng 2/2017 Tháng 3/2017 Tháng 4/2017 Tháng 5/2017 Giá trị dự báo 38.124 40.538 41.004 39.399 42.440 % sai số dự báo -0.407 5.047 3.117 -0.357 2.784 Bảng cho thấy, xu hướng tăng giá mã cổ phiếu tháng 4/2017 dự báo trái với xu hướng thực tế % sai số dự báo so với thực tế khơng cao, nói chung khơng vượt q 5% 3.3.3 Thực dự báo Để thực dự báo chẳng hạn cho tháng tiếp theo: từ tháng đến tháng 8/2017 giá cố phiếu FPT, ta cần dự báo biến ngoại sinh phương trình (12) (13) PC1, PC5, SP500 OIL tháng Bài báo sử dụng kết dự báo số chứng khoán SP500, giá dầu giới Trung tâm dự báo tài Hoa Kỳ [24], cịn mơ hình dự báo thành phần PC1, PC5 cho tương ứng phương trình (14) (15) d(PC1,2) = -2.06*d(PC1(-1)) + 1.05*d(PC1(-1),2) + 0.84*d(PC1(-2),2) + 0.59*D(PC1(-3),2) + 0.52*d(PC1(-4),2) Std: (0.40) (0.34) (0.29) (0.24) + 0.31*d(PC1(-5),2) + 0.43 (0.14) (0.19) R2: 0.59; DW: 2.09; SMPL: 58, sau điều chỉnh trễ (0.18 ) (14) 432 MƠ HÌNH HĨA DỰ BÁO GIÁ CỔ PHIẾU TRONG NGỮ CẢNH DỮ LIỆU SỐ CHIỀU CAO d(PC5,2) = -0.698*d(PC5(-1)) - 0.227*d(PC5(-2),2) - 0.192*d(PC5(-3),2) - 0.207*d(PC5(-9),2) Std: (0.144) (0.118) (0.100) (15) (0.099) R : 0.49; DW: 1.88; SMPL: 54, sau điều chỉnh trễ d(X,2) ký hiệu sai phân bậc biến X [8] Kết dự báo cho Bảng Bảng Kết dự báo giả cổ phiếu FPT tháng Biến Tháng 6/2017 Tháng 7/2017 Tháng 8/2017 Nguồn OIL 48.2 51.8 53.2 www.forecast.org SP500 2426 2478 2512 www.forecast.org PC1 7.559 7.420 7.406 Tác giả PC5 0.567 0.567 0.569 Tác giả FPT 41.451 41.147 41.068 Tác giả Sai số trung bình +/- 1.582 +/- 1.565 +/- 1.561 Tác giả Sai số trung bình (%) +/- 3.82 +/- 3.80 +/- 3.80 IV KẾT LUẬN Bài báo đề xuất khung lý thuyết để dự báo giá hàng hóa dịch vụ nói chung, giá cổ phiếu nói riêng ngữ cảnh tập liệu đầu vào cho dự báo chúng lớn Kỹ thuật giảm chiều đề xuất báo kết hợp kỹ thuật lựa chọn thuộc tính học thuộc tính theo cách cho loại bỏ thuộc tính khơng có ích, thuộc tính dư thừa đảm bảo tối đa quan hệ biến gốc biến đích Bài báo lĩnh vực kinh tế - xã hội thời điểm việc sử dụng kỹ thuật dự báo thống kê lựa chọn ưu tiên, đồng thời với toán dự báo giá, nhiều trường hợp phải sử dụng mô hình thuộc họ ARCH để dự báo thay đổi phương sai phần dư mơ hình dự báo Việc ứng dụng khung lý thuyết để dự báo giá cổ phiếu FPT tập số liệu thống kê thực kinh tế cho thấy độ xác dự báo khả quan có 51 biến kinh tế - tài ngồi nước xem xét đưa vào mơ hình dự báo chắn thiếu nhiều biến kinh tế - tài khác, thiếu biến đo lường tâm lý, kỳ vọng nhà đầu tư đầu tư vào cổ phiếu biến đo lường cú sốc trị, kinh tế giới nước Mơ hình dự báo phương sai phần dư báo phát triển dựa mơ hình GARCH(p, q) Trong trường hợp tốn này, việc lựa chọn mơ hình GARCH thực phù hợp chưa so với mơ hình thuộc họ ARCH khác ARCH(p), EARCH, PARCH, ARCH-M cần phải xác định thông qua thực số kiểm định thống kê Bài báo bỏ qua khơng thực nội dung Phân tích quan hệ hệ số biến sai số chuẩn tương ứng phương trình (13) nhận thấy biến dlog(SP500) tham gia vào mô hình dự báo phương sai với ý nghĩa thống kê không cao? Phần trăm sai số dự báo kiểm thử chấp nhận mơ hình nói chung khơng q 5% trong mơ hình dự báo xây dựng chưa tính đến biến số đo lường tâm lý nhà đầu tư vào công ty FPT kỳ vọng lợi tức lựa chọn mức giá để mua cổ phiếu FPT nhà đầu tư nhà đầu tư có tổ chức chưa tính đến thơng tin liên quan đến cú “sốc” trị, “sốc giá” diễn tháng đầu năm 2017 vào mô hình dự báo gợi ý cần kết hợp sử dụng mơ hình dự báo mã cổ phiếu FPT xây dựng với phân tích định tính khác (nếu chưa lượng hóa yếu tố để đưa vào mơ hình) dự báo giá cổ phiếu FPT TI LIU THAM KHO [1] Aăt-Sahalia, Y., Dacheng Xiu, D (2015), Principal Component Analysis of High Frequency Data, Working paper, Princeton University and University of Chicago, 47 pages, March 2015 [2] Bollerslev, T., Chou, R.Y and Kroner, K.F (1992), ARCH Modeling in Finance, Journal of Econometrics, 52, 5-59 [3] Chandrashekar, G., Sahin, F (2014), A survey on feature selection methods, Computers and Electrical Engineering 40, 16-28 [4] Claessen, H., Mittnik, S (2002), Forecasting Stock Market Volatility and the Informational Efficiency of the DAX-index Options Market, Working Paper No 2002/4, Center for Financial Studies, Germany [5] Diamantini, C., Potena, D (2008), Chapter 6: A Study of Feature Extraction Techniques Based on Decision Border Estimate, in Book: Computational Methods of Feature Selection, editors: Huan Liu and Hiroshi Motoda, Chapman & Hall/CRC [6] Đỗ Văn Thành Nguyễn Minh Hải (2016), Phân tích dự báo số thị trường chứng khốn sử dụng số báo trước, Kỷ yếu Hội nghị FAIR9, 2016, Cần Thơ, 04-05/8/2016, 299-308 DOI: 10.15625/vap.2016.00069 Đỗ Văn Thành 433 [7] Đỗ Văn Thành Nguyễn Minh Hải (2016), Mơ hình dự báo tần suất cao số thị trường chứng khoán, Kỷ yếu Hội nghị FAIR9, 2016, Cần Thơ, 04-05/8/2016, 559-566 DOI: 10.15625/vap.2016.00037 [8] Enders, W (2014), Applied Econometric Time Series, 4th Edition, Wiley: USA, 2014 [9] Engle, R.F (1982), Autoregressive Conditional Heteroskedasticity with Estimates of the Variance of the U.K Inflation, Econometrica, 50, 987-1008 [10] Graham E., Granger C W J., Timmerman A (2006), Handbook of Economic Forecasting, Volume 1, Elsevier BV, 2006, 933p [11] Granger, C W J (1969), Investigating Causal Relations by Econometric Models and Cross-Spectral Methods, Econometrica, 37, 424-438 [12] Greene W H (2012), Econometric Analysis, New York University, Seventh Edition, Prentice Hall, 2012 [13] Guyon, I., Elisseeff, A (2003), An Introduction to Variable and Feature Selection, Journal of Machine Learning Research (2003) 1157-1182 [14] Hargreaves, C A., Mani, C K (2015), The Selection of Winning Stocks Using Principal Component Analysis, American Journal of Marketing Research, Vol 1, No 3, 2015, pp 183-188 [15] Hou, C., Nie, F., Yi, D and Wu, Y., Feature Selection via Joint Embedding Learning and Sparse Regression, Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence, 1325-1329 [16] Jensen, M (1978), Some anomalous evidence regarding market efficiency, Journal of Financial Economics, (2/3), 95-101 [17] Preethi, G and Santhi, B (2012), Stock Market Forecasting Techniques: A Survey, Journal of Theoretical and Applied Information Technology, Vol 46, No 1, 2012, pp 24-30 [18] Sorzano, C O S , Vargas, J , & Pascual-Montano, A (2014) A survey of dimensionality reduction techniques, Cornell University Library Abstracts (1-35) [19] Thanh D V, Hai N M and Hieu D D., (2016): Building unconditional forecast model of Stock Market Indexes using combined leading indicators and principal components: application to Vietnamese Stock Market (submited for publication) [20] Van Der Maaten, L , Postma, E , & Van den Herik, J (2009), Dimensionality reduction: A comparative, Journal of Machine Learning Research, 10 (1-41), 66-71 [21] Yanshan, W., Choi, I C (2013), Market Index and stock price direction prediction using Machine Learning Techniques: An empirical study on the KOSPI and HSI, Science Direct, pp 1-13 [22] Zhong, X., Enke, D (2017), Forecasting daily stock market return using dimensionality reduction, Expert Systems With Applications 67 (2017) 126-139 DOI: 10.1016/j.eswa 2016.09.027 [23] Weinberger, K Q., & Saul, L K (2006), An Introduction to Nonlinear Dimensionality Reduction by Maximum Variance Unfolding, http://www.aaai.org/Papers/AAAI/2006/AAAI06-280.pdf 1683-1686; [24] www.forecast.org [25] www.eviews.com MODELLING OF A STOCK’S PRICE FORECAST IN THE CONTEXT OF HIGH DIMENSIONAL DATA SET Thanh Do Van ABSTRACT: Forecasting stock prices has always been of particular interest and are always considered one of the most difficult forecasts in the socio-economic field due to volatility and its unpredictable fluctuations The purpose of this paper is to present the modeling of a stock’s price forecast based on the set of all economic- financial variables affecting the fluctuations of this stock price These variables in general are not completely independent of each other, and the number of variables as well as the number of observations for every variable are generally very large The methodology of building the forecast model of a stock’s price proposed in the paper will use a combination of attribute selection and learn techniques to transform high - dimensional data sets to low-dimensional data ones so that where the information in the high dimensional data sets as well as relationships between this stock’s price with other economic - financial variables are retained as much as possible The paper uses the autoregressive distributed lag model to build the forecast model of average of the stock’s price and uses one of the models in the family of autoregressive conditional heteroscedasticity models to build the forecast model of uncertainty of the residual variance The forecasted results using the built models show good prospects of the methodology and the methodology proposed in this paper can be considered as the guidlines to practique modelling of price forecast of other goods and services Keyword: dimentionality reduction, high dimensional data, stock price, the ARCH model, modeling financial forecasts ... kỹ thuật dự báo thị trường chứng khốn nói chung dự báo giá cổ phiếu nói riêng [67, 18], nghiên cứu liên quan đến dự báo giá cố phiếu ngữ cảnh liệu có số chiều cao cịn Bài báo [22] dự báo lợi nhuận... hình dự báo tập liệu thực dự báo Pha 1: Giảm chiều liệu Giảm chiều liệu lần 1: Lựa chọn thuộc tính Giảm chiều liệu lần 2: Học thuộc tính Pha 2: Xây dựng mơ hình thực dự báo Xây dựng mơ hình dự báo. .. điểm báo [7] Bài báo khắc phục nhược điểm tất báo nêu Cụ thể báo đề xuất khung lý thuyết để dự báo giá cổ phiếu ngữ cảnh số chiều biến lớn ứng dụng khung lý thuyết việc dự báo giá cố phiếu tập liệu