Ứng dụng các mô hình học máy (machine learning) trong dự báo giá cổ phiếu trên sàn chứng khoán hose một tiếp cận từ góc độ hiệu quả dự báo

HỒ CHÍ MINH NGUYỄN PHẠM CHÍ BẢO ỨNG DỤNG CÁC MÔ HÌNH HỌC MÁY MACHINE LEARNING TRONG DỰ BÁO GIÁ CỔ PHIẾU TRÊN SÀN CHỨNG KHOÁN HOSE: MỘT TIẾP CẬN TỪ GÓC ĐỘ HIỆU QUẢ DỰ BÁO KHÓA LUẬN TỐT NG

TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU

Tính cấp thiết của đề tài nghiên cứu

Từ những năm đầu của thập kỷ 2010, cuộc cách mạng Công nghiệp lần thứ 4 đã đánh dấu sự xuất hiện của những đợt sóng đầu tiên, tạo điều kiện cho một sự thay đổi đáng kể trong cách chúng ta hiểu và quản lý thế giới Cuộc cách mạng Công nghiệp lần thứ 4 (hay Công nghiệp 4.0) đã tạo ra hàng loạt những phát minh thay đổi hoàn toàn cách vận hành của thế giới thông qua công nghệ Big Data (dữ liệu lớn), Cloud (dữ liệu đám mây) cùng hàng loạt các phát minh khác đã và đang cho phép con người có thể thu thập, chứa đựng một khối lượng khổng lồ các bộ dữ liệu Kể từ Công nghiệp 4.0, kỷ nguyên hiện tại đã trở thành kỷ nguyên của thông tin và dữ liệu

Trong bối cảnh thị trường chứng khoán ngày càng biến động phức tạp và lƣợng lớn dữ liệu bắt đầu đƣợc tiếp cận rộng rãi, việc dự báo giá cổ phiếu có rất nhiều khó khăn trong cả quá khứ lẫn hiện tại, do có nhiều không chắc chắn và không vững vàng Đôi khi là do tâm lý con người dễ dàng bị lay đổi bởi nhiều yếu tốt cả chủ quan lẫn khách quan Có hai lựa chọn đƣợc đông đảo các nhà đầu tƣ thực hiện phân tích và dự đoán trước khi đầu tư vào một cổ phiếu Đầu tiên là phân tích cơ bản Phân tích cơ bản là cách thức phân tích sử dụng triển vọng trong thu nhập và cổ tức của một công ty, các kỳ vọng về lãi suất trên thị trường trong tương lai, đánh giá rủi ro của công ty để xác định giá cổ phiếu thích hợp ở hiện tại Mặt khác, phân tích kỹ thuật về cơ bản là việc tìm kiếm các mẫu hình lặp lại và có thể dự báo đƣợc giá chứng khoán, nghiên cứu dữ liệu hoặc biểu đồ giá cổ phiếu trong quá khứ, hy vọng tìm ra các mẫu hình mà họ có thể khai thác để tìm kiếm lợi nhuận Bên cạnh đó, nhiều phương pháp dự đoán giá cổ phiếu khác trên thế giới cũng đã và đang dần xuất hiện Bài nghiên cứu của Pagolu và ctg (2016) đã cho thấy rằng những tin tức và dòng tweet tích cực trên mạng xã hội về một công ty chắc chắn sẽ khuyến khích mọi người đầu tư vào cổ phiếu của công ty đó và kết quả là giá cổ phiếu của công ty đó sẽ tăng lên Ở cuối bài báo, các tác giả đã chỉ ra rằng có mối tương quan chặt chẽ giữa sự tăng giảm của giá cổ phiếu với cảm xúc của công chúng từ những dòng bình luận trên mạng xã hội Ngoài ra, còn rất nhiều công cụ dự báo dựa trên các phân tích nhƣ phân tích ngành, phân tích dòng tiền doanh nghiệp, hay các phân tích giá trị, phân tích chuỗi thời gian

Tuy nhiên, các phương pháp dự báo truyền thống thường có rất nhiều hạn chế trong việc xử lý dữ liệu lớn và phức tạp, và có thể không chính xác trong thực tế Với sự bùng nổ của kỷ nguyên thông tin, sự cần thiết của phương pháp giúp xử lý một lượng dữ liệu khổng lồ và phức tạp từ các thị trường chứng khoán một cách chính xác, hiệu quả và nhanh chóng đều đƣợc đa số quan tâm, không chỉ những nhà đầu tƣ chuyên nghiệp hay nhỏ lẻ, mà còn cả những doanh nghiệp lớn trên toàn cầu Cùng với sự bùng nổ của Công nghiệp 4.0, Machine learning (ML – học máy) ra đời, giải quyết đƣợc vấn đề xử lý các bữ dữ liệu lớn và phức tạp chính xác và hiệu quả Bên cạnh đó, các mô hình ML có thể học hỏi từ dữ liệu lịch sƣ để đƣa ra các dự đoán trong tương lai Do đó, các mô hình ML được coi là một giải pháp khả thi để cải thiện khả năng dự báo giá cổ phiếu

Sự tiến bộ trong lĩnh vực ML đã mở ra cơ hội để mô hình hóa các mối quan hệ phức tạp trong dữ liệu tài chính Sự gia tăng về khả năng tích hợp và xử lý dữ liệu tài chính cũng đóng góp vai trò quan trọng trong việc phát triển các mô hình dự báo giá cổ phiếu Trên thế giới, đã có rất nhiều các sản phẩm của các công ty công nghệ hàng đầu đƣợc cho ra mắt, sử dụng các tính năng và sức mạnh của ML Kensho, đƣợc S&P Global Market Intelligence mua lại và phát triển, là một nền tảng phân tích dữ liệu Nền tảng này sử dụng các thuật toán xử lý ngôn ngữ tự nhiên (NLP) và các mô hình ML tiên tiến để đƣa ra dự báo từ việc phân tích dữ liệu có cấu trúc và không có cấu trúc, nhƣ dữ liệu lịch sử giá, báo cáo tài chính, bài báo tin tức và bài đăng trên mạng xã hội Ngoài ra, Quandl và Numerai đều là 2 nền tảng lớn cung cấp dữ liệu đầu tƣ, đƣợc sự dụng rộng rãi trong cộng đồng đầu tƣ lẫn phân tích tài chính nhờ vào việc ứng dụng trí tuệ nhân tạo và ML, đã và đang có những khích lệ các nhà đầu tư tham gia vào việc xây dựng mô hình dự báo thị trường Ngoài các công ty ở Hoa Kỳ đã kể ở trên, còn có rất nhiều các sản phẩm đến từ các quốc gia khác trên thế giới nhƣ Heckyl của Ấn Độ, City Brain của Trung Quốc,…

Tình hình này đặt ra những thách thức và cơ hội đối với những nhà đầu tƣ ở Việt Nam, cần sự hiểu biết vững vàng về các công cụ và phương pháp để có thể cạnh tranh mạnh mẽ Trong ngữ cảnh này, vấn đề nghiên cứu chính của khóa luận tốt nghiệp là xác định và nâng cao hiệu quả của việc ứng dụng các mô hình ML trong dự báo giá cổ phiếu trên sàn chứng khoán HOSE Nghiên cứu sẽ tập trung vào việc xây dựng, huấn luyện, đƣa ra dự báo và đánh giá các mô hình ML dựa trên cơ sở dữ liệu lịch sử giá cổ phiếu Mục tiêu là đánh giá khả năng của các mô hình này trong việc dự báo giá cổ phiếu trên thị trường chứng khoán HOSE, từ đó xác định mức độ hiệu quả và khả năng áp dụng của chúng trong thực tế

Sự phức tạp của thị trường, nhu cầu đầu tư thông minh, tiến bộ trong lĩnh vực

ML và sự cạnh tranh trong lĩnh vực tài chính là những yếu tố đang thúc đẩy sự quan tâm và nghiên cứu liên quan đến đề tài này Hy vọng rằng, thông qua đề tài nghiên cứu: tiễn ―Ứng dụng các mô hình học máy (machine learning) trong dự báo giá cổ phiếu trên sàn chứng khoán HOSE: một tiếp cận từ góc độ hiệu quả dự báo‖, khóa luận tốt nghiên này sẽ mang lại giá trị về cả mặt khoa học lẫn thực tiễn Những kết quả thu được sẽ đưa ra các khuyến nghị hữu ích cho nhà đầu tư và các hướng phát triển tiềm năng cho lĩnh vực ML tại Việt Nam.

Mục tiêu nghiên cứu

1.2.1 Mục tiêu tổng quát Đánh giá và so sánh khả năng dự đoán giá cổ phiếu của nhiều mô hình Machine Learning khác nhau Mục tiêu là xác định mức hiệu quả của các mô hình này, đồng thời đề xuất các khuyến nghị cụ thể cho cộng đồng nhà đầu tƣ Ngoài ra, nghiên cứu cũng nhằm đưa ra những hướng phát triển mới cho lĩnh vực Machine Learning trong ngữ cảnh thị trường tài chính ngày nay

- Lựa chọn và triển khai các mô hình ML phù hợp Tiến hành quá trình huấn luyện trên dữ liệu đã đƣợc tiền xử lý để xây dựng các mô hình có khả năng dự đoán tốt

- Sử dụng các mô hình ML để đưa ra dự báo về giá cổ phiếu trên thị trường chứng khoán HOSE Đánh giá độ chính xác của từng mô hình trên dữ liệu kiểm thử và tinh chỉnh mô hình để cải thiện hiệu suất

- So sánh các dự báo từ các mô hình khác nhau để xác định mức độ hiệu quả của chúng trong việc dự đoán giá cổ phiếu

- Dựa trên kết quả và nhận xét, đề xuất các khuyến nghị cụ thể để nâng cao sự áp dụng và phát triển của Machine Learning trong lĩnh vực tài chính tại Việt Nam.

Câu hỏi nghiên cứu

- Làm thế nào để có thể tối ƣu hóa quá trình huấn luyện mô hình để cải thiện khả năng dự báo của các mô hình?

- Các mô hình ML khác nhau, có khả năng dự báo giá cổ phiếu trên sàn chứng khoán HOSE khác nhau nhƣ thế nào?

- Mô hình ML nào hiệu quả nhất trong việc dự đoán giá cổ phiếu trong ngữ cảnh sàn chứng khoán HOSE?

Đối tƣợng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu Đối tƣợng nghiên cứu: Các mô hình học máy đƣợc sử dụng để dự báo bao gồm: Linear Regression, Random Forest, K-Nearest Neighbors, Lasso, Ridge, Multi-Layer Perceptron thuộc họ Artificial Neural Network

- Phạm vi nghiên cứu về không gian: Dữ liệu nghiên cứu đƣợc thu thập là dữ liệu giá của 394 mã cổ phiếu trên sàn chứng khoán HOSE

- Phạm vi nghiên cứu về thời gian: Dữ liệu nghiên cứu đƣợc thu tập theo từng phiên từ phiên ngày 19/05/2020 đến 05/09/2023.

Những đóng góp của nghiên cứu

Nghiên cứu này không chỉ mang lại lợi ích cho cộng đồng nhà đầu tƣ mà còn đóng góp quan trọng vào sự phát triển của lĩnh vực ML trong lĩnh vực tài chính, giúp bổ sung tri thức và hiểu biết về ML tại Việt Nam Cung cấp một công cụ hữu ích giúp nhà đầu tƣ đƣa ra quyết định đầu tƣ thông minh, xây dựng chiến lƣợc đầu tƣ và đối mặt với rủi ro, tối ƣu hóa lợi nhuận

Những đóng góp của nghiên cứu này không chỉ có ý nghĩa về mặt khoa học, mà còn mang lại giá trị thực tiễn Trong lĩnh vực khoa học, nghiên cứu này làm phong phú kiến thức và hiểu biết về ML trong tài chính Ở góc độ thực tiễn, nghiên cứu này cung cấp một công cụ hữu ích cho nhà đầu tư và đề xuất hướng phát triển tiềm năng, khuyến khích sự phát triển của ML trong tài chính và chứng khoán tại Việt Nam.

Phương pháp nghiên cứu

Bài nghiên cứu sẽ đƣợc thực hiện bằng ngôn ngữ lập trình Python trong môi trường Jupyter Notebook trên phần mềm lập trình Visual Code Các mô hình học máy đƣợc lựa chọn trong bài nghiên cứu vì khả năng xử lý dữ liệu phức tạp với đa dạng biến đầu vào và khả năng dự đoán hiệu quả Do đó, đảm bảo đƣợc việc đánh giá mức độ hiệu quả và các yếu tố hay chỉ số nào có ảnh hướng tới khả năng dự báo của các mô hình học máy

- Linear Regression: Mô hình hóa mối quan hệ tuyến tính giữa các biến độc lập và giá cổ phiếu Linear Regression là một công cụ mạnh mẽ để định rõ sự ảnh hưởng của mỗi biến độc lập đối với giá cổ phiếu và đồng thời đưa ra dự báo dựa trên mối liên hệ tuyến tính này

- Random Forest: Sử dụng ensemble learning để xây dựng nhiều DT và kết hợp chúng để có dự đoán chính xác RF không chỉ mạnh mẽ với việc xử lý dữ liệu lớn mà còn giảm thiểu nguy cơ overfitting, tạo ra một dự báo ổn định và đáng tin cậy

- K-Nearest Neighbors (KNN): Phân loại giá cổ phiếu dựa trên các điểm dữ liệu gần nhất trong không gian đặc trưng KNN là một phương pháp đơn giản nhưng hiệu quả, tập trung vào việc nhận diện sự tương đồng giữa các điểm dữ liệu để đƣa ra dự đoán

- Artificial Neural Network (ANN): Sử dụng mạng nơ ron để học các mối quan hệ phi tuyến tính phức tạp giữa các biến ANN là một công cụ mạnh mẽ cho việc mô hình hóa những mối quan hệ phức tạp và phi tuyến tính, giúp nắm bắt đƣợc sự phức tạp trong dữ liệu cổ phiếu

- Ridge Regression và LASSO: Sử dụng để kiểm soát overfitting và đồng thời chọn lọc biến quan trọng Cả Ridge Regression và LASSO đều là các phương pháp ―regularization‖ giúp duy trì tính tổng quát của mô hình, tránh hiện tƣợng overfitting, và đồng thời có thể giúp xác định những biến quan trọng đối với dự đoán giá cổ phiếu

Từng loại mô hình học máy có từng tham số đầu vào khác nhau, và việc chia tập huấn luyện và tập kiểm tra khác nhau cũng sẽ ảnh hưởng đến độ hiệu quả của từng loại mô hình trên Do đó, có thể tiếp tục cải thiện đƣợc khả năng dự báo của từng mô hình khác nhau

Phương pháp nghiên cứu trên sử dụng số liệu lịch sử giá, các chỉ số tài chính của từng công ty có trên sàn chứng khoán HOSE, và các chỉ số tài chính khác trên thế giới Do đó, bài nghiên cứu còn phân tích sâu hơn các dữ liệu để hiểu rõ hơn về các biến ảnh hưởng đến giá cổ phiếu (bao gồm các phân tích độ tương quan, phân tích chuỗi thời gian,…), giúp đánh giá hiệu quả của các mô hình học máy một cách khách quan và chính xác Bên cạnh đó, việc sử dụng cùng một tập dữ liệu cho phép bài nghiên cứu có thể so sánh hiệu quả của các mô hình học máy khác nhau, giúp lựa chọn các mô hình phù hợp cho thị trường chứng khoán HOSE Đầu tiên, bộ dữ liệu bao gồm danh sách của 394 doanh nghiệp đang đƣợc niêm yết trên sàn chứng khoán HOSE (bao gồm danh sách mã cổ phiếu) sẽ đƣợc sử dụng làm nguồn để có thể thu thập đƣợc bộ dữ liệu về giá của từng mã cổ phiếu theo từng phiên từ 19/05/2020 đến 05/09/2023 Dữ liệu trong bài nghiên cứu đƣợc thu thập từ hai nguồn chính là Vnstock và Yahoo Finance Từ tập dữ liệu thu thập đƣợc, bài nghiên cứu đƣa ra thêm dữ liệu về TSSL của mỗi cổ phiếu qua từng phiên Bài nghiên cứu sử dụng các biến sau để nghiên cứu:

Biến phụ thuộc: tỷ suất sinh lợi của cổ phiếu

Biến độc lập: các độ trễ của TSSL của cổ phiếu, các chỉ số tài chính khác trên thế giới (S&P500, Nasdaq, Dow 30,…), giá vàng, giá bạc,…

Các biến phụ thuộc, TSSL dự báo, sẽ đƣợc xác định thông qua tỷ suất sinh lời trong ngày tương ứng Các biến độc lập, bao gồm các độ trễ của TSSL sẽ được đo lường bằng TSSL trong các phiên trước đó Các biến độc lập khác sẽ được đo lường bằng giá hay giá trị so với các ngày tương ứng

Dữ liệu sau khi đƣợc thu thập sẽ trải qua quá trình tiền xử lý để loại bỏ nhiễu, xử lý các giá trị bị thiếu Bên cạnh đó, để tránh việc những giá trị quá nhỏ (gần nhƣ bằng không) làm ảnh hưởng tới bộ dữ liệu nghiên cứu, những giá trị đó sẽ bị loại bỏ Tiếp theo đó, tiến hành kiểm tra tính dừng trong tập dữ liệu Sau khi các mô hình học máy đƣợc xây dựng phù hợp với mục tiêu nghiên cứu và đƣa ra dự báo, các phương pháp đánh giá như R-squared, MSE, RMSE, MAE sẽ được sử dụng

Các biến, cách thức đo lường, và nguồn dữ liệu được mô tả ở trên phù hợp với mục tiêu và câu hỏi nghiên cứu Bài nghiên cứu sẽ sử dụng các biến kể ở trên để xây dựng và đánh giá hiệu quả của các mô hình học máy trong dự báo giá cổ phiếu trên thị trường chứng khoán HOSE.

Cấu trúc của nghiên cứu

Cơ cấu của khóa luận được cấu trúc thành 5 chương, tương ứng mỗi chương sẽ có phần giới thiệu và kết luận, bên cạnh đó còn có các phần mục lục, danh mục bảng biểu, danh mục sơ đồ, hình ảnh, danh mục chữ viết tắt, tài liệu tham khảo và phụ lục Cụ thể nhƣ sau:

Chương 1: Giới Thiệu Nghiên Cứu

Chương 1 sẽ giới thiệu về đề tài, xác định tính cấp thiết của đề tài, với sự tập trung vào vấn đề dự báo giá cổ phiếu trên sàn chứng khoán HOSE Mục tiêu nghiên cứu đƣợc đề cập chi tiết, từ mục tiêu tổng quát đến mục tiêu cụ thể, và câu hỏi nghiên cứu cung cấp hướng dẫn cho việc tiếp cận vấn đề Đối tượng và phạm vi nghiên cứu đƣợc định rõ, cùng với những đóng góp có ý nghĩa của nghiên cứu Phương pháp nghiên cứu và cấu trúc của nghiên cứu cũng được giới thiệu tổng quan.

CƠ SỞ LÝ THUYẾT

Tổng quan về học máy (machine learning)

Theo Nguyễn Tất Bảo Thiện (2022), học máy (machine - ML) là một nhánh của trí tuệ nhân tạo, trong đó một hệ thống hay một máy có thể học hỏi từ ví dụ thông qua việc tự cải thiện và không đƣợc lập trình viên mã hóa rõ ràng Máy khi học sẽ kết hợp dữ liệu với các công cụ thống kê để dự đoán các kết quả đầu ra Theo Issam El Naqa (2015), ML là một công cụ lao động mới trong kỷ nguyên Big Data Các kỹ thuật dựa trên học máy đã đƣợc áp dụng thành công trong nhiều lĩnh vực khác nhau, từ nhận dạng mẫu, thị giác máy tính, kỹ thuật tàu vũ trụ, giải trí và sinh học tính toán cho đến các ứng dụng y sinh và y tế Khả năng các thuật toán học máy học hỏi từ bối cảnh trong quá khứ và khái quát hóa thành các nhiệm vụ chƣa đƣợc nhìn thấy sẽ cho phép cải thiện tính hiệu quả, dẫn đến kết quả tốt hơn Một ví dụ thường gặp của ML đó chính là việc các nền tảng mạng xã hội hay dịch vụ chiếu phim trực tuyến thường có những đề xuất phù hợp với người dùng Đơn cử như đối với những người có tài khoản Netflix, tất cả các đề xuất về phim hoặc loạt phim đều dựa trên dữ liệu lịch sử của người dùng

ML có thể áp dụng đƣợc cho hầu hết lĩnh vực, tài chính cũng không ngoại lệ Một số ứng dụng của việc áp dụng ML vào tài chính nhƣ phân tích tín dụng bằng các thuật toán phân loại, tối ƣu hóa các danh mục đầu tƣ, phát hiện gian lận tài chính, tƣ vấn đầu tƣ tự động,…

ML là khoa học và cả nghệ thuật trong việc giúp máy tính có thể ―học hỏi‖ từ dữ liệu ML có liên quan chặt chẽ với việc tối ƣu toán học, sử dụng các thuật toán, phương thức, lý thuyết về thống kê tính toán tập trung vào việc dự báo Theo Dixon và Halperin (2019), ML trong tài chính là một tập hợp các thuật toán để lập mô hình tài chính từ dữ liệu và thường chia thành ba nhánh:

- Học có giám sát (supervised learning): mô hình đƣợc đào tạo trên một tập dữ liệu có chứa cả đầu vào và đầu ra mong muốn Học máy có giám sát khái quát hóa các kỹ thuật thống kê nhƣ hồi quy OLS, hồi quy tuyến tính,… Mục tiêu là để dự đoán đầu ra cho các đầu vào mới mà mô hình chƣa thấy trước đó

- Học không giám sát (unsupervised learning): mô hình đƣợc đào tạo trên dữ liệu chỉ có đầu vào mà không có đầu ra tương ứng Khái quát hóa các phương pháp thống kê để giảm thiểu dữ liệu Mục tiêu là khám phá cấu trúc, mối quan hệ trong dữ liệu một cách tự nhiên

- Học tăng cường (reinforced learning): Loại này liên quan đến việc máy tính

"học" bằng cách tương tác với môi trường Nó nhận phản hồi thông qua các hành động mà nó thực hiện và điều chỉnh để tối ƣu hóa việc lập trình ngẫu nhiên Tuy nhiên, vì tính phức tạp của nó nên đây là phương pháp ít được khai thác nhất trong tài chính

Chung quy, Machine Learning (ML) trong lĩnh vực tài chính là sự ứng dụng của các thuật toán máy học để phân tích dữ liệu tài chính, dự đoán xu hướng thị trường, quản lý danh mục đầu tư, và tối ưu hóa các quyết định tài chính ML giúp tự động hóa quá trình ra quyết định dựa trên dữ liệu lịch sử và hiện tại, mang lại khả năng dự đoán và tối ƣu hóa hiệu suất trong các lĩnh vực nhƣ giao dịch chứng khoán, quản lý rủi ro tín dụng, và tƣ vấn đầu tƣ.

Lịch sử phát triển của các mô hình học máy

Khái niệm Machine Learning xuất hiện vào năm 1950 khi Alan Turing, một nhà tiên phong trong lĩnh vực khoa học máy tính, xuất bản một bài báo khoa học trả lời cho câu hỏi ―Liệu máy móc có thể suy nghĩ hay không?‖ Ông đã đề xuất một giả thuyết cho rằng máy móc đã thành công trong việc thuyết phục con người rằng nó thực sự không phải là một cỗ máy sẽ có thể đạt đƣợc một trí tuệ nhân tạo Giả thuyết này sau đó đƣợc gọi là ―Phép thử Turing‖, là bài kiểm tra trí tuệ của máy tính, trong đó máy tính sẽ cố chứng tỏ rằng nó là con người

Vào năm 1957, Frank Rosenblatt thiết kế ra ―mạng nơ-ron‖ đầu tiên cho máy tính, mô hình mạng nơ-ron này ngày nay đƣợc gọi là thuật toán Perceptron, đƣợc thiết kế để phân loại dữ liệu đầu vào trực quan, phân nhóm các đối tƣợng vào một trong hai nhóm đầu ra điển hình của thuật toán

Năm 1959, Bernard Widrow và Marcian Hoff sáng tạo ra hai mô hình mạng nơ-ron là Adeline, có thể phát hiện các mẫu nhị phân, và Madeline, có thể loại bỏ các tiếng vang trên đường dây điện thoại Madeline sau này được ứng dụng khá rộng rãi trong ngành viễn thông Năm 1967, thuật toán ―hàng xóm gần nhất‘

(nearest neighbor) đƣợc mô tả, sau này thuật toán cho phép máy tính sử dụng các nhận dạng mẫu rất cơ bản

Gerald Dejong, năm 1981, giới thiệu khái niệm ―học tập dựa trên sự giải thích‖, trong đó máy tính phân tích dữ liệu và tạo ra một quy luật chung để loại bỏ đi các thông tin không hữu ích Trong suốt thập niên 1990, làm việc với ML chuyển dần từ cách tiếp cận dựa trên kiến thức thành cách tiếp cận dự trên dữ liệu Các nhà khoa học bắt đầu lập trình cho máy tính phân tích lƣợng lớn dữ liệu và đƣa ra kết luận hoặc ―học tập‖ từ các kết quả

Kể từ đó, lĩnh vực ML đã đạt đƣợc rất nhiều thành tựu lớn Năm 1997, sau ván

6, Garry Kasparov (vua cờ vào thời điểm đó) đã thất bại trước Deep Blue, đánh dấu lần đầu tiên một chiếc máy tính có thể đánh bại một nhà vô địch cờ vua thế giới Năm 2002, sử dụng sự kết hợp của ML, trình xử lý ngôn ngữ tự nhiên và các kỹ thuật truy xuất thông tin, IBM‘s Watson đã đánh bại hai nhà vô địch trong chương trình ―Jeopardy!‖, chương trình đố vui kiến thức tại Hoa Kỳ Năm 2016, AlphaGo của Google trở thành chương trình máy tính đầu tiên đánh bại một đại kiện tướng, bằng việc sử dụng ML và kỹ thuật tìm kiếm theo cấu trúc cây (Tree Search Techiniques)

Vào những năm đầu của thế kỷ 21, nhiều doanh nghiệp đã đầu tƣ vào các dự án sáng tạo ML Google Brain, AlexNet, DeepFace, DeepMind, OpenAI, Amazon Machine Learning Platform, ResNet là một trong những dự án lớn được khởi xướng bởi cái công ty tỷ đô trên thế giới Amazon, Netflix, Google, Salesforce, IBM là những công ty đang thống trị ngành công nghệ thông tin với sức mạnh ML của họ

ML đã đƣợc mở rộng và phổ biến với một tốc độ chóng mặt trong thập kỷ gần đầy Với tiềm năng là một quốc gia đang phát triển nhanh chóng, lƣợng thông tin mà đất nước Việt Nam có được sẽ là một nguồn lợi đáng kể để chúng ta có thể phát triển lĩnh vực ML

2.3 Tổng quan lý thuyết về các mô hình học máy đƣợc sử dụng để dự báo giá cổ phiếu

Linear Regression (hồi quy tuyến tính) là mô hình học máy có giám sát (supervised learning), mô hình sẽ tiên đoán, điều tra các mối quan hệ giữa biến mục tiêu và các biến độc lập Mô hình này đƣợc sử dụng để dự báo dựa trên việc mô hình hóa chuỗi thời gian và tìm ra mối quan hệ giữa các biến

Về cơ bản, mô hình Linear Regression tìm ra một đường thẳng dựa trên giá trị của các biến Phương trình toán học của Linear Regression có dạng nhƣ sau:

- y: biến phụ thuộc, mục tiêu đầu ra;

- 𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 : các biến độc lập, là các giá trị trong bộ dữ liệu;

Với mục tiêu là tìm ra mối quan hệ giữa các biến độc lập đầu vào và giá trị đầu ra Với giá trị đầu ra là giá trị liên tục, còn các biến độc lập có thể liên tục hoặc rời rạc Mối quan hệ đƣợc mô hình hóa dưới dạng linear (tuyến tính) Mô hình sẽ được huấn luyện và điều chỉnh các hệ số

𝛽 cho phù hợp với mẫu và được phù hợp bằng cách sử dụng phương pháp số dư bình phương, làm sao để tối thiểu tổng phương sai

Thuật toán Linear Regression khá dễ hiểu và có độ phổ biến cao, tốc độ giải thuật rất nhanh và kết quả khá tối ƣu khi mối quan hệ giữa các biến gần nhƣ tuyến tính Tuy nhiên, thuật toán vẫn có nhiều hạn chế nhƣ khó có thể biểu diễn có mô hình phức tạp hay có mối quan hệ phi tuyến tính Ngoài ra, mô hình khá nhạy cảm

Hình 2.1: Đường thẳng tuyến tính

Hình 2.0.2: Mô tả đường thẳng tuyến tínhHình 2.0.3: Đường thẳng tuyến tinh

Hình 2.4: Mô tả đường thẳng tuyến tính với cái dữ liệu nhiễu, do đó trước khi thực hiện thuật toán, cần phải trải qua bước tiền xử lý một cách cẩn thận và kỹ lƣỡng

Random Forest (rừng ngẫu nhiên) là một mô hình học có giám sát, hoạt động dựa trên thuật toán cây quyết định (Decision Tree) Trong đó, mô hình sẽ huấn luyện các cây quyết định dựa trên một phần ngẫu nhiên của bộ dữ liệu Sau đó tổng hợp kết quả của các cây để đƣa ra kết quả cuối cùng Đối với các bài toán phân loại, kết quả cuối cùng của RF sẽ dựa trên việc ―bầu cử‖ của các cây quyết định Tuy nhiên, với mục tiêu của bài nghiên cứu là đƣa ra các giá trị liên tục, mô hình sẽ đƣa ra kết quả cuối cùng là giá trị trung bình của các giá trị mà các cây quyết định đƣa ra

Decision Tree, với mục tiêu là tìm ra các đặc điểm (feature) mô tả có chứa

―thông tin‖ nhất (most informative) về đặc điểm của mục tiêu và sau đó chia tập dữ liệu dọc theo các giá trị của các đặc điểm (feature) này sao cho các tập dữ liệu đƣợc chia ―thuần khiết‖ nhất Các đặc điểm mô tả dẫn điến đặc điểm mô tả của mục tiêu

―thuần khiết‖ nhất khi có ―thông tin‖ nhất

Một cây thường có một nút gốc (root node), các nút nội tại (interior node) và các nút lá (leaf node) đƣợc nối với nhau bằng các nhánh Khi đấy, mô hình sẽ học đƣợc cấu trúc cơ bản của dữ liệu huấn luyện và do đó có thể đƣa ra một số giả định và dự đoán các đặc điểm của các giá trị chƣa biết, và đƣa ra dự báo cho các giá trị này

Các nghiên cứu có liên quan

2.4.1 Các nghiên cứu trong nước

Nghiên cứu của Vũ Thị Loan và ctg (2023) đã đánh giá đƣợc tác động của thông tin tài chính và phi tài chính đến giá cổ phiếu trên thị trường chứng khoán VIệt Nam trong giai đoạn từ tháng 1/2017 đến tháng 12/2021 Nghiên cứu sử dụng phương pháp Event Study, một phương pháp thường được sử dụng để nghiên cứu tác động của các sự kiện cụ thể lên giá cổ phiếu và mô hình Random Forest Các kết quả đạt đƣợc cho thấy giá cổ phiếu có phản ứng tích cực đối với thông tin tài chính và phi tài chính trong khoảng thời gian quanh sự kiện

Nghiên cứu của Đặng Ngọc Hùng và ctg (2021) đã chỉ ra rằng mô hình Lasso có khả năng phát hiện và tìm ra đƣợc các nhân tố quan trọng đến giá cổ phiếu gồm giá trị sổ sách, quy mô của doanh nghiệp, các nhân tốt về khả năng sinh lời và khả năng thanh toán tức thời Bên cạnh đó, nghiên cứu của Bùi Thành Khoa và ctg

(2022) cho rằng mô hình hồi quy véc-tơ hỗ trợ (Support Vector Regression – SVR) dự báo tốt hơn mô hình CAPM truyền thống và việc kiểm soát các biến độc lập theo hướng giảm kỳ vọng sẽ giảm sai số trong mô hình SVR Trương Thị Thùy Dương

(2023) đã nghiên cứu về chiều biến động của chỉ số chứng khoán bằng thuật toán tăng cường XGBoost và cho rằng các chỉ báo kỹ thuật rất quan trọng trong dự báo chiều biến động của chỉ số VNIndex

Phan Trần Trung Dũng và Lương Ngọc Tuấn Dũng (2020) đã nghiên cứu việc dự báo giá đóng cửa của chỉ số VN30, sử dụng các kiểm định nhƣ ADF (Augmented Dickey-Fuller) để kiểm tra tính dừng của chuỗi thời gian và sử dụng đồ thị ACF (Autocorrelation Function) và PACF (Partial Autocorrelation Function) để nhận diện mô hình ARIMA Sau khi ARIMA (2,1,1) hoạt động không hiệu quả, mô hình đƣợc mở rộng và cải thiện thành ARIMA (1,1,1) có độ chính xác cao hơn, đặc biệt khi không có biến động bất thường Tuy nhiên, đối với chuỗi lợi suất của chỉ số VN30, mô hình ARIMA không cho kết quả hiệu quả với chỉ số MAPE (Mean Absolute Percentage Error) ở mức quá cao 126,65%

2.4.2 Các nghiên cứu trên thế giới

Karachun và ctg (2021) cho rằng học máy là phương pháp đáng tin cậy hơn nhiều so với các phương pháp dự báo truyền thống Khả năng mở rộng dữ liệu, tích hợp học máy cùng các phương pháp truyền thống, theo dõi sự khác biệt và hạn chế của mô hình chuỗi thời gian là chìa khóa thành công cho việc dự báo giá cổ phiếu Bên cạnh đó, nghiên cứu của Shah (2007) cho rằng mỗi thuật toán học máy cụ thể có thể phù hợp với một loại cổ phiếu nhất định Ví dụ nhƣ cùng một thuật toán, cổ phiếu của công ty công nghệ có thể mang lại dự báo có độ chính xác cao hơn khi dự đoán cổ phiếu của công ty năng lƣợng

Rahman & Akhter (2021) đã nghiên cứu việc phát triển một mô hình dự báo giá cổ phiếu bằng cách kết hợp nhiều thuật toán học máy nhƣ SVR, KNN, Linear Regression và Random Forest Mô hình đƣợc Rahman & Akhter (2021) đề xuất gồm hai tầng, trong đó tầng trên chuẩn bị tập dữ liệu từ nhiều nguồn thông tin khác nhau và tầng dưới chịu trách nhiệm phân tích và dự đoán biến động thị trường Theo bảng đánh giá của bài nghiên cứu, mô hình đƣợc đề xuất có độ chính xác tương đối cao, với các kết quả tốt hơn so với các mô hình đơn lẻ như SVR, KNN, Linear Regresion, Random Forest

Trong nghiên cứu của Polamuri và ctg (2019) các tác giả đã thực hiện một phân tích chi tiết về dự báo thị trường chứng khoán bằng cách sử dụng nhiều mô hình máy học, bao gồm Linear Regression, Multivariate Regression, Random Forest, và Extra Tree Regressor Dữ liệu đầu vào chủ yếu bao gồm giá cổ phiếu lịch sử của các công ty trong 5 năm qua Mô hình Decision Trre và Random Forest đƣợc xác định là hai mô hình hồi quy tốt nhất sau khi so sánh các kết quả Tuy nhiên Random Forest là một phiên bản mở rộng của Decision Tree, trong khi đó Decistion Tree là một mô hình có mức độ overfitting khác cao Bên cạnh đó, các tác chƣa thực sự linh hoạt trong việc chia tập huấn luyện và tập kiểm tra khi chỉ chia các tập này với tỷ lệ cố định là 80% dữ liệu huấn luyện và 20% dữ liệu kiểm tra

Các tác giả Nhật Bản rất ƣa chuộng việc sử dụng thông tin trên web Ichinose

(2015) đã sử dụng tin tức trên web để dự báo sự tăng giảm chỉ số chứng khoán Nikkei và cho rằng việc sử dụng SVM cho các bài toán phân loại mà kết quả đƣa ra dựa trên biểu quyết đa số không phải là phương pháp phù hợp Ishiguro (2014) đã sử dụng mạng lưới thần kinh nhân tạo để dự báo tăng trưởng kinh tế trong một quý và cho rằng RNN (mạng thần kinh nhân tạo hồi quy) với cấu trúc mạng đệ quy có độ chính xác dự báo tương đối cao nhờ việc dùng dữ liệu là thông tin vĩ mô trong kinh tế và các dữ liệu này không trải qua bước lọc nào

Nghiên cứu của Shunrong và ctg (2012) tập trung vào việc dự báo xu hướng thị trường chứng ở Hoa Kỳ bằng cách sử dụng thuật toán học máy SVM (Support Vector Machine) Nghiên cứu sử dụng dữ liệu từ các thị trường chứng khoán toàn cầu để làm đầu vào cho thuật toán SVM Việc này bám sát vào tình hình chung của thế giới Nghiên cứu còn sử dụng các kỹ thuật xử lý dữ liệu để chuẩn bị đầu vào cho mô hình dự đoán, bao gồm việc tạo các biến mới dựa trên sự biến đổi giá cổ phiếu theo thời gian và chuẩn hóa dữ liệu để làm cho các yếu tố có thể so sánh đƣợc Kết quả nghiên cứu của mô hình đƣợc đánh giá dựa trên các chỉ số nhƣ độ chính xác của dự đoán và giá trị RMSE (Root Mean Squared Error) để đo độ sai lệch giữa dự đoán và kết quả thực tế.

PHƯƠNG PHÁP NGHIÊN CỨU

Quy trình nghiên cứu

Giai đoạn 1: Tiền nghiên cứu

Bước 1: Xác định tính cấp thiết và vấn đề, mục tiêu và câu hỏi, đôi tượng và phạm vi của nghiên cứu

Bước 2: Khảo lược cơ sở lý thuyết, các nghiên cứu trước đây có liên quan tới đề tài nghiên cứu

Giai đoạn 2: Chuẩn bị môi trường và dữ liệu nghiên cứu

Bước 1: Cài đặt và chuẩn bị các thư viện python cần thiết

Bước 2: Xây dựng các công cụ để thu thập và xử lý dữ liệu Dữ liệu được thu thập, ngay lập tức đƣợc đƣa vào quá trình tiền xử lý để đƣa ra bộ dữ liệu đạt chuẩn Bước 3: Kiểm tra tính dừng của dữ liệu biến mục tiêu

Giai đoạn 3: Nghiên cứu chính thức

Bước 1: Xây dựng các mô hình ML dùng để dự báo giá cổ phiếu

Bước 2: Huấn luyện, sau đó tối ưu các mô hình ML bằng các phương pháp phù hợp với từng mô hình

Bước 3: Trực quan hóa và phân tích kết quả dựa trên kết quả dự báo của từng mô hình ML đƣa ra

Bước 4: Đánh giá và so sánh hiệu suất của từng mô hình

Bước 5: Kết luận và đưa ra khuyến nghị

Phương pháp thu thập dữ liệu

3.2.1 Phương pháp thu thập dữ liệu giá cổ phiếu

Vì bộ dữ liệu cần tới giá qua từng phiên của 394 cổ phiếu Với phương pháp thông thường, đa số các nhà đầu tư sẽ chọn cách lấy dữ liệu file excel từ các website cung cấp thông tin tài chính như CafeF, Vietstock,… Phương pháp này sẽ tốn rất nhiều thời gian và công sức để có thể thu thập toàn bộ 394 mã Bên cạnh đó, sự thiếu sót trong bộ dữ liệu có thể làm tốn thêm nhiều thời gian để có thể thu thập từ các nguồn khác

Vnstock là thƣ viện Python đƣợc thiết kế để tải dữ liệu chứng khoán Việt Nam bằng môi trường python Vnstock sử dụng các nguồn cấp dữ liệu đáng tin cậy, bao gồm nhưng không giới hạn từ công ty chứng khoán và công ty phân tích thị trường tại Việt Nam Đầu tiên, cần một danh sách bao gồm 394 mã cổ phiếu sẽ đƣợc nghiên cứu Sau đó, tác giả sẽ tiến hành làm việc trực tiếp với file này trên ứng dụng lập trình

VS code với môi trường Python để thu thập dữ liệu bằng lệnh sau: data = pd.read_excel(path: ‚danh sách 394 mã cổ phiếu.xlsx‛) for i in data['ticker']: df = stock_historical_data(i,'2012-03-20','2023-09-05')

Trong đó, lệnh ‗pd.read_excel‘ sẽ cho phép chuyển file danh sách 394 mã cổ phiếu (theo đường dẫn cụ thể) từ file Excel (.xlsx) sang một Data Frame trong môi trường Python Sau đó, với từng mã cổ phiếu, tác giả tiến hành thu thập dữ liệu Dữ liệu thu thập đƣợc sẽ thuộc định dạng một Data Frame

Dữ liệu của mỗi mã cổ phiếu thu thập đƣợc sẽ bao gồm: Ngày tháng, giá mở cửa, giá cao nhất, giá thấp nhất, giá đóng cửa, và khối lƣợng giao dịch của từng phiên tương ứng Cụ thể, với mã cổ phiếu AAA, dữ liệu thu thập được sẽ như sau:

Bảng 3.1 Dữ liệu cổ phiếu AAA time open high low close volume

Nguồn: Tác giả tổng hợp từ vnstock

Tương tự với 393 mã cổ phiếu còn lại Mỗi bộ dữ liệu của từng mã sẽ được thu thập và đưa về dưới dạng một Data Frame

3.2.2 Phương pháp thu thập dữ liệu các độ trễ của tỷ suất sinh lời của từng mã cổ phiếu Để có được danh sách các độ trễ của tỷ suất lợi Trước hết, phải cần tỷ suất sinh lợi của qua từng phiên Thƣ viện Pandas cung cấp cho các lập trình viên Python lệnh ―.pct_change()‖, cho phép biến giá trị hiện tại thành giá trị phần trăm thay đổi so với dữ liệu phía trên def do_tre(symbol, start_date, end_date, lags): df["Today"] = df["close"].pct_change()*100.0 for i in range(0, lags): df["Lag%s" % str(i+1)] = df["Today"].shift(i+1) Ở đây, tác giả đã tạo ra một hàm để tính toán các độ trễ cho bộ dữ liệu, phục vụ cho các tính toán và nghiên cứu sau này Trong đó, ―df‖ là bộ dữ liệu đã đƣợc định nghĩa ở trên là bộ dữ liệu chứa các dữ liệu của từng mã cổ phiếu Sau đó tác giả tạo thêm một cột ―Today‖, chứa dữ liệu gồm TSSL đã đƣợc tính toán bằng lệnh

‗pct.change()‘ Công thức của ‗pct.change()‘ nhƣ sau: 𝑇𝑜𝑑𝑎𝑦 𝑖 = 𝑐𝑙𝑜𝑠𝑒 𝑖 −𝑐𝑙𝑜𝑠𝑒 𝑖−1

𝑐𝑙𝑜𝑠𝑒 𝑖−1 (3.1) Với ‗i‘ là thứ tự các phiên Cụ thể nhƣ sau:

Bảng 3.2: Bảng tỷ suất sinh lợi VCB time Today Lag1 Lag2 Lag3 Lag8 Lag9 Lag10

20-03-12 NaN NaN NaN NaN NaN NaN NaN

21-03-12 0.38 NaN NaN NaN NaN NaN NaN

Nguồn: Tác giả tổng hợp

Tương tự với 393 mã cổ phiếu còn lại Mỗi bộ dữ liệu về độ trễ TSSL cũng giống với Bảng 3.2 phía trên Tuy nhiên, vẫn còn vấn đề xảy ra là, các độ trễ của TSSL vẫn còn các giá trị bị trống (NaN)

3.2.3 Phương pháp thu thập dữ liệu các chỉ số tài chính khác

3.2.3.2 Các chỉ số tài chính ở Việt Nam

Các CSTS cũng được thu thập bằng phương thức ‗stock_histotical_data‘ như giá cổ phiếu df = stock_historical_data(i,'2012-03-20','2023-09-05', ‚1D‛, ‚index‛)

Tuy nhiên, cần phải thêm tham số ―resolution‖ là ―1D‖, thể hiện giá trị cần lấy là theo từng phiên, và tham số ―type‖ là ―index‖, để biết các giá trị ―i‖ cần lấy là các chỉ số tài chính ―i‖ trong bài nghiên cứu bao gồm các chỉ số: VNINDEX, HNX, VN30, HNX30, UPCOM

3.2.3.2 Các chỉ số tài chính quốc tế

Khác với bộ dữ liệu giá hay độ trễ của TSSL, Vnstock không cung cấp dữ liệu của các chỉ số tài chính quốc tế Thay vào đó, tác giả sử dụng thƣ viện ‗yfinance‖, là thƣ viện python cung cấp dữ liệu tài chính quốc tế thông qua website Yahoo Finance

FI = ['GC=F','SI=F','CL=F','^GSPC','^DJI',

'^IXIC','^RUT','^FTSE','^N225','^NYA'] dfy = pd.DataFrame() for symbol in FI: data = yf.download(symbol, start='2012-03-19', end='2023-09-05') dfy[symbol] = data['Adj Close'] Đầu tiên, cần phải lựa chọn các chỉ số tài chính quốc tế cần thiết phục vụ cho bài nghiên cứu Sau đó, dùng công cụ ‗download‘ của thƣ viện ‗yfinance‘ để thu thập dữ liệu Sau đó, dữ liệu thu thập đƣợc sẽ đƣợc gán vào data frame ‗dfy‘ với các cột là giá đóng cửa đã điều chỉnh của các chỉ số đó

Dữ liệu của các chỉ số tài chính quốc tế thu thập đƣợc thể hiện nhƣ sau:

Bảng 3.3: Dữ liệu các chỉ số tài chính quốc tế time Go ld

Nguồn: Tác giả tổng hợp từ Yahoo Finance

Tiền xử lý dữ liệu

Những dữ liệu thu thập có thể chứa các giá trị NaN không xác định tạo nên sự không ổn định và mất cân bằng trong bộ dữ liệu Sự xuất hiện của những dữ liệu không phù hợp này gây ảnh hưởng đối với tính toàn vẹn của nghiên cứu Việc xử lý và chuẩn hóa những dữ liệu này trở nên bắt buộc, nhằm đảm bảo tính chính xác và ổn định của bộ dữ liệu, từ đó giúp bảo vệ sự đáng tin cậy của mục đích nghiên cứu Đối với dữ liệu về độ trễ của TSSL, các giá trị không xác định hoặc những giá trị quá nhỏ (gần nhƣ bằng 0) sẽ là những giá trị gây nhiễu, làm độ chính xác của dự báo mà các mô hình ML đƣa ra, do đó cần phải đƣợc loại bỏ hoặc chuẩn hóa for i,x in enumerate(df["Today"]): if (abs(x) < 0.0001): df["Today"][i] = 0.0001 df = df.dropna() Đoạn lệnh trên cho phép gán những giá trị trong dữ liệu độ trễ của các TSSL nhỏ hơn 0.0001 thành giá trị 0.0001, để tránh việc thiếu sót cho bộ dữ liệu Và

‗.dropna()‘ loại bỏ đi những giá trị không xác định để đảm bảo tính trọn vẹn cho bộ dữ liệu Bộ dữ liệu sau khi đƣợc chỉnh sửa cụ thể nhƣ sau:

Bảng 3.4: Dữ liệu TSSL cổ phiếu VCB sau tiền xử lý tim e

Vì thị trường Việt Nam và thị trường quốc tế sẽ có những ngày giao dịch không trùng nhau Điển hình nhƣ ở Việt Nam sẽ có những ngày ngừng giao dịch nhƣ lễ, Tết,… khác so với quốc tế Bên cạnh đó, những cổ phiếu hiện tại đƣợc niêm yết trên sàn chứng khoán HOSE sẽ tồn tại những mã cổ phiếu ―mới‖, chỉ vừa bắt đầu đƣợc niêm yết vài năm trở lại đây Do đó, cần chuẩn hóa những dữ liệu biến mục tiêu này để có thể khớp với các biến độc lập

Lệnh ‗.merge‘ của thƣ viện Pandas cho phép gộp các data frame lại với nhau Tuy nhiên, cần có điều kiện là các ‗index‘ phải giống nhau Do đó, tác giả đã gán

‗index‘ cho các cột chứa ngày tháng của phiên giao dịch cho từng data frame, giúp lệnh ‗.merge‘ có thể thực hiện khớp các dữ liệu chính xác với nhau và loại bỏ đi những dữ liệu dƣ thừa

Một ví dụ sau về bộ dữ liệu hoàn chỉnh đƣợc sử dụng cho nghiên cứu sau này của VJC (CTCP Hàng không VIETJET):

Bảng 3.5: Bộ dữ liệu nghiên cứu của cổ phiếu VJC time close Today Lag1 Lag2 … Russel l 2000

Kiểm tra tính dừng của bộ dữ liệu

3.4.1 Tính dừng của dữ liệu giá cổ phiếu

Theo Gujarati (2003), một chuỗi thời gian đƣợc xem là có tính chất dừng khi giữ nguyên giá trị trung bình, phương sai, và hiệp phương sai (tại các độ trễ khác nhau), bất kể thời điểm chuỗi được xác định Trong trường hợp của chuỗi dừng, giá trị trung bình của nó không thay đổi theo thời gian và có xu hướng trở về một giá trị trung bình ổn định Đồng thời, biên độ dao động quanh giá trị trung bình cũng duy trì sự ổn định, không có sự biến động đặc biệt khi thời gian tiến triển Điều này thể hiện sự ổn định và tính đều đặn của chuỗi thời gian dưới ảnh hưởng của các yếu tố thời gian khác nhau

Năm 1979, David Dickey và Wayne Fuller đã phát triển kiểm định Dickey- Fuller cho kiểm định tính dừng Sau đó mở rộng thành kiểm định ADF (Augmented Dickey-Fuller), kiểm định ADF cho rằng nếu:

- Giá trị thống kê ADF lớn hơn các giá trị tới hạn ở các mức nghĩa 1%, 5%, 10%: không bác bỏ giả thuyết H 0 → dữ liệu chuỗi thời gian không có hiệu ứng mean reversion, hay không có tính dừng

- Giá trị thống kê ADF nhỏ hơn các giá trị tới hạn ở các mức nghĩa 1%, 5%, 10%: bác bỏ giả thuyết H 0 → dữ liệu chuỗi thời gian không có hiệu ứng mean reversion, hay có tính dừng

Nhờ sự phát triển của ngôn ngữ lập trình Python, kiểm định ADF đƣợc tích hợp và thƣ viện‘statsmodels.tsa.stattools‘ với lệnh ‗adfuller‘, tính toán với bộ dữ liệu và cho ra kết quả kiểm định tính dừng trong môi trường Python Các kết quả cho ra các kết quả trong đó bao gồm giá trị thống kê ADF và các giá trị tới hạn ở từng mức ý nghĩa Quá trình kiểm định tính dừng của giá 394 mã cổ phiếu trả ra các kết quả ở trang kế tiếp

Bảng 3.6: Kiểm tra tính dừng của giá cổ phiếu

Stock ADF Các giá trị tới hạn ở mức ý nghĩa

Giá trị thống kê ADF cho ra kết quả của 394 cổ phiếu nằm trong đoạn từ giá trị -4.8967078 đến 2.7043897 Tuy nhiên, giá trị các giá trị tới hạn với các mức ý nghĩa nằm trong các đoạn sau:

- 10%: [-2.5757563; -2.5673079] Điều đó cho thấy rằng giá trị thống kê ADF của từng mã cổ phiếu lớn hơn các giá trị tới hạn tương ứng 1%, 5%, 10% Ví dụ, với mã cổ phiếu REE (CTCP Cơ Điện Lạnh) có giá trị thống kê ADF là -0.4918345, các giá trị tới hạn ở mức ý nghĩa 1%: -3.4326385; 5%: -2.8625511; 10%: -2.5673082 Do đó, không thể bác bỏ giá thuyết H 0 : gamma = 0, tức là dữ liệu giá của các cổ phiếu là một chuỗi thời gian với bước đi ngẫu nhiên, hay nói cách khác thì giá của các cổ phiếu không có tính dừng, dữ liệu không có xu hướng dao động xung quanh các giá trị trung bình Vì vậy, dữ liệu giá cổ phiếu không thể đƣợc dùng để dự báo

Do dữ liệu giá cổ phiếu là các dữ liệu không có tình dừng, nên các dự báo từ các mô hình ML sẽ đƣa ra những giá trị không đƣợc đảm bảo Tuy nhiên, có một góc nhìn khác có thể đƣợc khám phá từ dữ liệu nội tại của cổ phiếu, đó là TSSL Dữ liệu về TSSL, nếu có khả năng dự báo, có thể mở ra cơ hội cho việc dự đoán giá cổ phiếu Để đảm bảo chắc chắn, tác giả đã tiến hành kiểm định ADF đối với dữ liệu TSSL

Với data frame chứa dữ liệu của các độ trễ của TSSL đã đƣợc thu thập ở phần 3.2.2, tác giả đã lấy dữ liệu ở cột ―Today‖ là dữ liệu TSSL để tiến hành kiểm định Kết quả kiểm định ADF đối với dữ liệu tỷ suất sinh lợi nhƣ sau

Bảng 3.7: Tính dừng của tỷ suất sinh lợi

Stock ADF Các giá trị tới hạn ở mức ý nghĩa

Nguồn: Tác giả tổng hợp Đã có sự khác biệt giữa kết quả của dữ liệu TSSL và dữ liệu giá cổ phiếu trong kiểm định ADF Trong đó, giá trị thống kê ADF của TSSL có giá trị trong đoạn từ - 62.7218365 đến -14.7431807, các giá trị tới hạn ở các mức ý nghĩa:

Giá trị thống kê ADF của dữ liệu TSSL hoàn toàn nhỏ hơn so với các giá trị tới hạn ở các mức ý nghĩa 1%, 5%, 10% Ví nhƣ , với DBC (CTCP Tập đoàn Dabaco Việt Nam) có giá trị thống kê ADF là -50.4029269, các giá trị tới hạn ở các mức nghĩa: 1%: -3.4326498; 5%: -2.8625561; 10%: -2.5673109 Vì vậy, giả thuyết

H 0 đƣợc bác bỏ và dữ liệu TSSL là dữ liệu có tính dừng, hoàn toàn có thể đƣợc dự báo bằng các mô hình ML Do đó, biến mục tiêu của bài nghiên cứu này đƣợc thay đổi thành tỷ suất sinh lợi.

Chuẩn hóa dữ liệu nghiên cứu

Với việc thay đổi biến mục tiêu thành TSSL của các cổ phiếu, dữ liệu chuẩn bị cho dự báo phải có cùng thang đo Do đó, việc dựa trên các biến độc lập là các giá trị theo phiên của các chỉ số tài chính sẽ không đảm tính đồng nhất cho dự báo Bên cạnh đó, việc dự báo phải dựa trên các dữ liệu quá khứ, do đó cần phải tạo các độ trễ cho các giá trị đó Tác giả đã tiến hành thay đổi các CSTC thành TSSL của các CSTC bằng phương thức ‗pct.change()‘ và tạo độ trễ như mô tả ở phần 3.2.2

Bộ dữ liệu hoàn chỉnh của một mã cổ phiếu dùng để tiến hành nghiên cứu sẽ có thay đổi nhƣ sau Tiếp tục lấy ví dụ VJC (Bảng 3.5), ta có kết quả nhƣ sau:

Bảng 3.8: Bộ dữ liệu hoàn chỉnh của VJC để nghiên cứu time Today Lag1 Lag2 … HNX30_retur n_Lag2

Mẫu nghiên cứu

Đối với các mô hình ML, kích thước mẫu lớn là một lợi thế rất lớn Các mô hình ML, nếu càng có nhiều dữ liệu, sẽ học đƣợc nhiều hơn, kiểm soát sai số tốt hơn, do đó có thể ƣớc lƣợng chính xác hơn và đƣa ra dự báo chính xác hơn Bên cạnh đó, kích thước mẫu nhỏ có thể dẫn tới hiện tượng ―overfitting‖, nghĩa là mô hình dự báo quá tốt nhƣng chỉ trên tập dữ liệu huấn luyện, với các tập dữ liệu khác thì mô hình không thể duy trì khả năng dự báo nhƣ trên tập huấn luyện

Chính vì điều đó, dữ liệu sẽ đƣợc thu thập tối đa mà Vnstock có thể cung cấp Tuy nhiên, có những mã cổ phiếu mới đƣợc niêm yết vài năm trở lại đây và Vnstock chỉ cung cấp dữ liệu các chỉ số tài chính Việt Nam xa nhất là ngày 19-05-2020, nên số lƣợng quan sát của từng mã cổ phiếu có sự chênh lệch Nhìn chung, số lƣợng quan sát của các mã cổ phiếu tối đa là 641 Các dữ liệu về độ trễ của TSSL và chỉ số tài chính đã đƣợc lựa chọn, đã đƣợc chuẩn hóa ở mục 3.5, do đó các quan sát sẽ đồng nhất và không có dữ liệu nào bị trống Tổng số lƣợng quan sát của toàn bộ dữ liệu dùng để nghiên cứu là 241342, kích thước này sẽ đảm bảo cho khả năng dự đoán của các mô hình ML

Toàn bộ dữ liệu nghiên cứu đƣợc tác giả đăng tại: Dữ liệu nghiên cứu

KẾT QUẢ NGHIÊN CỨU

Thống kê mô tả

Bảng 4.1 Kết quả thống kê mô tả các biến đầu vào chung

Chỉ tiêu Ký hiệu mean std_dev max min

Gold_return_Lag1 X12 0.0278 0.9796 3.1558 -4.979 Silver_return_Lag1 X13 0.0774 2.1062 8.2226 -10.98 Crude Oil_return_Lag1 X14 0.1462 2.5809 8.4814 -13.06 S&P 500_return_Lag1 X15 0.0551 1.1602 5.5434 -5.894 Dow Jones_return_Lag1 X16 0.0459 1.0556 3.8503 -6.898 NASDAQ_return_Lag1 X17 0.0571 1.5187 7.3502 -5.265 Russell2000_return_Lag1 X18 0.0629 1.5543 6.1083 -7.576 FTSE 100_return_Lag1 X19 0.0427 0.9801 4.6751 -3.988 Nikkei 225_return_Lag1 X20 0.0481 1.1504 4.8826 -3.985

Gold_return_Lag2 X22 0.0189 0.9866 3.1558 -4.979 Silver_return_Lag2 X23 0.0794 2.1092 8.2226 -10.98 Crude Oil_return_Lag2 X24 0.159 2.5846 8.4814 -13.06 S&P 500_return_Lag2 X25 0.0487 1.1552 5.5434 -5.894 Dow Jones_return_Lag2 X26 0.0425 1.0489 3.8503 -6.898 NASDAQ_return_Lag2 X27 0.0464 1.5182 7.3502 -5.265 Russell2000_return_Lag2 X28 0.0485 1.5527 6.1083 -7.576 FTSE 100_return_Lag2 X29 0.0412 0.9861 4.6751 -3.988 Nikkei 225_return_Lag2 X30 0.0486 1.1504 4.8826 -3.985

VN30_return_Lag1 X34 0.0645 1.3937 5.3058 -5.627 HNX30_return_Lag1 X35 0.1332 2.069 6.5904 -7.742 UPCOM_return_Lag1 X36 0.0781 1.0094 3.1896 -5.281 VNINDEX_return_Lag2 X37 0.0475 1.2912 4.8142 -5.305

VN30_return_Lag2 X39 0.0596 1.3949 5.3058 -5.627 HNX30_return_Lag2 X40 0.1272 2.0746 6.5904 -7.742 UPCOM_return_Lag2 X41 0.0655 1.0157 3.1896 -5.281

Nguồn: tác giả tổng hợp

Các biến từ X1 đến X10 là các độ trễ TSSL từ 1 đến 10 phiên và biến X11 là hướng tăng giảm của bản thân cổ phiếu được nghiên cứu Do đó, tác giả có thể trình bày từ biến X12 đến X41 là độ trễ một và hai phiên của TSSL các chỉ số tài chính quốc tế và Việt Nam Các biến từ X1 đến X11 của từng ổ phiếu sẽ đƣợc tác giả trình bày tại đường link sau: Thống kê mô tả.

Kết quả huấn luyện và hiệu suất của các mô hình

Nghiễn cứu này đƣợc tác giả thực hiện với quy mô toàn bộ cổ phiếu trên sàn HOSE, nên tác giả không thể thể hiện toàn bộ kết quả hồi quy của 394 cổ phiêu đƣợc sử dụng Do đó, với mỗi mô hình, tác giả chỉ lựa chọn một cổ phiếu đại diện để trình bày

Toàn bộ kết quả hồi quy và hiệu suất của mô hình Linear Regression có thể đƣợc truy cập tại: Kết quả và hiệu suất Linear Regression

Bảng 4.2: Kết quả hồi quy Linear Regression với VCB

Theo kết quả hồi quy của mô hình Linear Regression cho thấy, các biến độ trễ của TSSL của cổ phiếu VCB đa số có xu hướng thay đổi ngược chiều so với TSSL của ngày cần dự báo Với các độ trễ bốn phiên trước (X1, X2, X3, X4) và phiên thứ

6, thứ 9 và thứ 10 (X6, X9, X10) có xu hướng thay đổi ngược chiều, các phiên X5, X7, X8 có xu hướng thay đổi cùng chiều Các biến này ảnh hưởng khoảng từ 0.01 đến 0.045 tới biến mục tiêu, nghĩa là nếu các biến này thay đổi 1% sẽ có tác động đến biến độc lập từ 0.01% đến 0.045% theo mô hình Linear Regression Với intercept (hệ số chặn) bằng -0.0488, nghĩa là khi các biến độc lập đều bằng 0 thì

TSSL cổ phiếu VCB có xu hướng biến đổi âm Biến ―Direction‖ mô tả hướng thay đổi của biến mục tiêu nên luôn luôn có xu hướng cùng chiều với biến đấy

Các TSSL của các chỉ số tài chính quốc tế nhƣ giá vàng (X12, X22), giá dầu (X14, X24), Russell 2000 (X18, X28), Nikkei 225 (X20, X30) trong mô hình Linear Regression đều có ảnh hưởng cùng chiều tới biến mục tiêu ở cả hai phiên trước TSSL giá bạc (X13, X23) chỉ số Dow Jones (X16, X26) thì ảnh hưởng ngược chiều Các chỉ số còn lại có TSSL ở hai phiên trước có ảnh hưởng không đồng đều tới TSSL cổ phiếu VCB Cụ thể, TSSL chỉ số S&P 500 (X15, X25) và chỉ số FTSE 100 (X19, X29) một phiên và hai phiên trước có ảnh hưởng lần lượt là cùng chiều và ngƣợc chiều, ngƣợc lại đối với TSSL chỉ số NASDAQ (X17, X27) và chỉ số NYSE (X21, X31)

Các chỉ số ở Việt Nam cũng có sự ảnh hưởng không đồng đều tới TSSL cổ phiếu VCB TSSL hai phiên trước của chỉ số HNXIndex (X33, X38) và UpcomIndex (X36, X41) ảnh hưởng cùng chiều ở một phiến trước và ngược chiều ở phiên trước nữa, ngược lại đối với TSSL chỉ số HNX30 (X35, X40) Các TSSL chỉ số VNIndex (X32, X37) đều có xu hướng ảnh hưởng ngược chiều và TSSL chỉ số VN30 (X34, X39) ảnh hưởng cùng chiều Chứng tỏ cổ phiếu VCB vẫn là một trong những thành phần quan trọng trong danh mục VN30

Hiệu suất dự báo của mô hình Linear Regression đối với cổ phiếu VCB đƣợc thuật toán tính toán nhƣ sau:

Bảng 4.3 Hiệu suất dự báo của Linear Regression với VCB

Stock R2_train R2_test MSE RMSE MAE

Chỉ số 𝑅 𝑡𝑟𝑎𝑖𝑛 2 = 0.563794 cho thấy rằng mô hình Linear Regression giải thích đƣợc khoảng 56,3794% biến động của TSSL cổ phiếu VCB dự trên tập dữ liệu huấn luyện gồm 80% tập dữ liệu Các chỉ số MSE, RMSE, MAE giữa dự báo của tập huấn luyện và giá trị thực tế lần lƣợt bằng 1.020459, 1.010178, 0.830534, các chỉ số này nhìn chung khá thấp, chứng tỏ sai số của mô hình khá thấp và khả năng dự báo khá tốt Tuy nhiên, mô hình chỉ giải thích 49,6364% sự biến động này trên tập kiểm tra (R 2 test = 0.496364) Đối với các mã cổ phiếu còn lại, hiệu suất hồi quy của Linear Regression đƣợc mô tả qua bảng sau:

Bảng 4.4: Hiệu suất hồi quy mô hình Linear Regression

Stock R2_train R2_test MSE RMSE MAE

SSI 0.594288 0.453638 2.566851 1.602140 1.358905 BCM 0.459907 -0.511202 1.773578 1.331757 1.130084 VHM 0.514318 0.520568 2.376093 1.541458 1.120746 VIC 0.498002 0.311288 2.893980 1.701170 1.180663 VRE 0.555954 0.455462 1.749571 1.322714 1.087485

Có thể thấy, mô hình Linear Regression hoàn toàn không thể giải thích đƣợc một phần nào tập dữ liệu kiểm tra của mã cổ phiếu BCM với việc R 2 test của mã cổ phiếu này mang giá trị âm, nguyên nhân là do mô hình xảy ra hiện tƣợng overfitting trên tập huấn luyện của mã cổ phiếu đó Bên cạnh đó, các giá trị R 𝑡𝑟𝑎𝑖𝑛 2 và R 2 𝑡𝑒𝑠𝑡 của một vài mã cổ phiếu đạt mức độ giải thích quá thấp, và các chỉ số RMSE, MSE và MAE quá cao Điển hình nhƣ R 2 𝑡𝑟𝑎𝑖𝑛 và R 2 𝑡𝑒𝑠𝑡 của mã TDP chỉ đạt lần lƣợt 36.36% và 24.21%, (đã xảy ra hiện tƣợng underfitting đối với cổ phiếu này) Đặc biệt hơn, đối với mã cổ phiếu PVP, R 2 𝑡𝑒𝑠𝑡 mang giá trị -87.8%, MSE = 659.2, RSE = 25.67, MAE = 7.67; các kết quả đó cho thấy mô hình Linear Regression hoàn toàn vô dụng trong việc dự đoán mã cổ phiếu này Mọi dự báo đƣợc đƣa ra dựa trên việc học tập từ tập huấn luyện của PVP đều là sai lầm và không đáng tin cậy

Trung bình trên toàn bộ danh mục 394 cổ phiếu, mô hình Linear Regression giải thích đƣợc khoảng 55.96% biến động của biến phụ thuộc dựa trên tập huấn luyện và 33.99% trên tập kiểm tra, MSE trung bình là 5.488, RMSE là 1.91 và MAE là 1.527, các giá trị này không phải làm một con số quá ấn tƣợng, mô hình vẫn hụt hơi trong việc giải thích biến động và dự báo trên tập kiểm tra Tuy vẫn có các kết quả R 𝑡𝑟𝑎𝑖𝑛 2 và R 2 𝑡𝑒𝑠𝑡 đạt giá trị khả quan nhƣ của TNC, lần lƣợt là 64.32% và 65.6%, tuy nhiên MSE = 10.27, RMSE = 3.2, MAE = 2.97 là các giá trị khá cao nên sai số của các dự báo khá lớn Do đó, các dự báo đƣợc đƣa ra bởi mô hình Linear Regression qua việc học tập dựa trên tập huấn luyện đƣợc chia 80% và 20% chia cho tập kiểm tra là không khả quan và không đáng tin cậy, cần đƣợc cải thiện

Toàn bộ kết quả hồi quy và hiệu suất của mô hình Random Forest có thể đƣợc truy cập tại: Kết quả và hiệu suất Random Forest

Random Forest, về bản chất, không phải là một thuật toán thuộc nhóm hồi quy, mà thuộc nhóm ensemble Ensemble là phương pháp mà trong đó ý tưởng chính là kết hợp dự đoán từ nhiều tính toán khác nhau để dƣa ra một dự đoán cuối cùng có hiệu suất tối vƣợt trội so với mỗi tính toán riêng lẻ Do đó, RF không đƣa ra kết quả là các intercept hay coefficient Mà trong đó RF đƣa ra các độ quan trọng của các biến độc lập đối với biến phụ thuộc (hay còn gọi là các đặc trƣng) Độ quan trọng đƣợc mô hình này đƣa ra sẽ có giá trị từ 0 đến 1, với giá trị 0 nghĩa là đặc trƣng này hoàn toàn không có ảnh hưởng gì tới biến mục tiêu và giá trị bằng 1 nghĩa là đặc trƣng này là đặc trƣng quan trọng nhất, là đặc trƣng duy nhất cho dự đoán và các đặc trƣng khác là vô dụng, chứng tỏ mô hình gặp phải hiện tƣợng overfitting Vì vậy, tổng của các độ quan trọng của đặc trƣng luôn bằng 1

Bảng 4.5: Độ quan trọng của biến độc lập đối với tỷ suất sinh lời đối với cổ phiếu VNM theo Random Forest

Bảng 4.5 cho thấy, đối với TSSL cổ phiếu VNM, sự tăng giảm của TSSL ở phiên trước (X11) có mức độ ảnh hưởng lớn nhất tới việc dự đoán TSSL cổ phiếu VNM Riêng biến này đã chiếm tới hơn 50% ảnh hưởng Bên cạnh đó các độ trễ TSSL của chính bản thân cổ phiếu này cũng có ảnh hưởng không vượt trội hơn độ trễ TSSL của các chỉ số tài chính khác, dao động quanh khoảng từ 0.37% đến 6.62% Điều này cho thấy rằng, đối với mô hình RF, mọi đặc trưng có ảnh hưởng tới việc dự báo TSSL đều ít nhiều có các độ quan trọng nhất định tới dự báo đƣợc đƣa ra

Bảng 4.6: Hiệu suất của Random Forest đối với VNM

Stock R2_train R2_test RMSE MSE MAE

Các kết quả trên cho thấy rằng mô hình RF có hiệu suất dự báo đối với TSSL cổ phiếu VNM là cực kỳ khả quan Khả năng dự báo trên tập huấn luyện của mô hình đạt mức 92.3%, và trên tập kiểm tra là 53.38%, những con số cho thấy mô hình hoạt động cực kỳ hiệu quả trên cả hai tập dữ liệu.Bên cạnh đó, những chỉ số để đánh giá sai số có giá trị không quá cao Trong đó, RMSE = 0.8079, MSE = 0.6528, MAE = 0.5824

Các chỉ số đánh giá hiệu suất mô hình RF đối với các cổ phiếu khác ngoài VNM, cũng có những chỉ số khả quan và không khả quan Cụ thể nhƣ sau:

Bảng 4.7: Hiệu suất của Random Forest

Stock R2_train R2_test RMSE MSE MAE

Mô hình Random Forest luôn hoạt động rất tốt trên tập huấn luyện (80% toàn bộ tập dữ liệu), luôn hơn 87% khả năng giải thích biến động của tập dữ liệu huấn luyện Thấp nhất là mã cổ phiếu TV2 với khả năng giải thích là 87.2% và cao nhất là TGG với 96.54% Tuy khả năng giải thích biến động trên tập huấn luyện là khá tốt, nhƣng tốt khả năng này trên tập kiểm tra thấp sẽ dẫn tới hiện tƣợng overfitting của mô hình đối với dữ liệu của cổ phiếu đó Điển hình TV2, với khả năng giải thích đƣợc 87.2% biến động của dữ liệu huấn luyện, nhƣng mô hình chỉ có thể giải thích đƣợc 29.81% dữ liệu kiểm tra Ngoài ra, đối với những cổ phiếu nhƣ PVP, CDC, C32, KOS, Random Forest có khả năng giải thích tập kiểm tra khá kém, lần lƣợt là -68.27%, -3.8%, 2.41%, 2.68%, cho thấy một vài bộ dữ liệu vẫn gây ra cho mô hình này sự trục trặc trong việc học, dẫn đến hiện tƣợng overfitting

Nhìn chung, khả năng học tập của RF có phần khởi sắc hơn so với Linear Regression, R 2 𝑡𝑟𝑎𝑖𝑛 trung bình đạt 92.32%, R 2 𝑡𝑒𝑠𝑡 đạt 43.3%, RMSE, MSE, MAE trung bình lần lƣợt ở mức 1.808, 4.88, 1.36 Mô hình hoàn toàn có thể đƣợc cải thiện để đạt hiệu suất hoạt động tốt hơn

Cải thiện hiệu suất dự báo đối với các mô hình ML

4.4.1 Cải thiện chung cho các mô hình

Việc chia tập huấn luyện và tập kiểm tra với tỷ lệ cố định 80:20 là một phương pháp phổ biến được sử dụng Tuy nhiên, việc này sẽ làm ảnh hưởng tới khả năng

―học‖ của các mô hình Đối với bộ dữ liệu lớn, có thể có đủ dữ liệu huấn luyện để mô hình có thể học nhiều hơn từ mẫu, cải thiện đƣợc tính ổn định, nâng cao hiệu suất cho mô hình Bên cạnh đó, nếu tập kiểm tra quá nhỏ sẽ không đại diện đúng cho đặc điểm của toàn bộ tập dữ liệu, độ chính xác trên tập kiểm tra đƣợc đánh giá khi đó sẽ không phản ánh đúng độ chính xác thực sự

Vì vậy, tác giả đã cải thiện bằng cách linh hoạt trong việc chia tập huấn luyện và tập kiểm tra bằng phương pháp so sánh chéo (cross-validation) Khi này, các mô hình đƣợc xây dựng ở mục 3.7.3 sẽ đƣợc cải thiện bằng vòng lặp ‗for‘ for k in np.arange(0.1, 0.5, 0.01): model = ‘mô hình ML’

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=k, random_state, shufflese) model.fit(X_train, y_train) yhat_test = model.predict(X_test) score = model.score(X_test, y_test) list_k1.append(k) list_score.append(score) score_max = max(list_rmse1) a = list_score.index(score_max) k = list_k1[a]

Với phương pháp trên, tác giả đã linh hoạt trong việc phân chia tập huấn luyện và tập kiểm tra Với hơn 40 tỷ lệ (từ 10% đến 49%) đƣợc áp dụng cho việc phân chia hai tập, các đánh giá trị R 2 sẽ được lưu trong danh sách ‗list_score‘ với các vị trí tương ứng các tỷ lệ được lưu trong ‗list_k‘ Sau đó, vị trí của R 2 tối ưu nhất sẽ đƣợc xác định, từ đó giúp xác định đƣợc tỷ lệ tối ƣu nhất cho từng cổ phiếu và mô hình

4.4.2 Cải thiện cho Random Forest

Một khu rừng càng rậm rạp nhƣ một biểu tƣợng chứng tỏ sự phồn thịnh của khu rừng trong tự nhiên Điều này cũng giống với Random Forest, nơi sự đa dạng và phức tạp của các cây trong rừng tương tự như sự đa dạng của các cây quyết định trong mô hình này Do đó, tác giả đã cải thiện bằng cách nâng số lƣợng cây quyết định, và linh hoạt trong việc lựa chọn số lƣợng cây của mỗi ―rừng‖ for k in np.arange(0.1, 0.5, 0.01): for t in range(30,51): model = RandomForestRegressor(n_estimators=t, random_state) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=k, random_state, shufflese) model.fit(X_train, y_train) yhat_test = model.predict(X_test) score = model.score(X_test, y_test) list_k1.append(k) list_t1.append(t) list_score.append(score) score_max = max(list_score) a = list_score.index(score_max) k = list_k1[a] t = list_t1[a

Cũng giống nhƣ trong tự nhiên, mặc dù số lƣợng cây rậm rạp là tốt Tuy nhiên thì đặc điểm của mỗi khu rừng trong tự nhiên thì không giống nhau, ảnh hưởng bởi nhiều yếu tố nhƣ địa lý, khí hậu,… Do đó, tác giả cũng để cho ―hệ sinh thái‖ Random Forest này tự quyết định ―độ rậm rạp‖ của khu rừng, và mỗi cây trong khu rừng nhận đƣợc bao nhiêu ―ánh sáng mặt trời‖ thì có thể phát triển tốt nhất

Tục ngữ có câu ―Bán anh em xa, mua láng giềng gần‖ Tương tự như mô hình KNN, những điểm dữ liệu lân cận sẽ giúp dữ liệu cần dự đoán có những đặc điểm và sự liên kết chặt chẽ về ―môi trường xung quanh‖ Tuy nhiên, hàng xóm làng giềng đôi khi cũng có những phiền hà nhất định Nếu tồn tại một vài háng xóm không phản ánh đúng đặc điểm hoặc thông tin của khu vực đó, mô hình KNN có thể bị đưa đi sai hướng, ảnh hưởng tiêu cực đến quyết định của mô hình

Do đó, việc lựa chọn số lƣợng “k” theo công thức (Lê Hoàng Anh 2022) chƣa thể phản ánh hết những đặc điểm mà dữ liệu cần, và phải đƣợc linh hoạt hơn Trong bài nghiên cứu, tác giả lựa chọn linh hoạt số lƣợng ―hàng xóm cần thiết‖ trong khoảng từ 2 đến giá trị một phần tƣ số lƣợng quan sát trong bộ dữ liệu for t in range(2, round(x/4)): for k in np.arange(0.1, 0.5, 0.01): model = KNeighborsRegressor(n_neighbors=t)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=k, random_state, shufflese) model.fit(X_train, y_train) yhat_test = model.predict(X_test) score = model.score(X_test, y_test) list_k1.append(k) list_t.append(t) list_score.append(score) score_max = max(list_rmse1) a = list_score.index(score_max) k, t = list_k1[a], list_t[a]

Với mô hình KNN thì không thể chọn duy nhất 1 hàng xóm, đơn giản là vì một cá nhân duy nhất thì không thể lột tả đƣợc đặc điểm của khu vực đó Chƣa kể, nếu vị hàng xóm duy nhất đó là ―tội phạm‖ và dữ liệu sẽ ―đi theo‖ vị hàng xóm đó Với việc lựa chọn “k” linh hoạt từ 2 đến một phần tƣ số lƣợng quan sát giúp cho mô hình linh hoạt hơn trong việc lựa chọn ―hàng xóm‖ Từ đó, giúp độ chính xác của mô hình sẽ đƣợc tăng lên, khi có đƣợc nhiều hơn các đặc điểm của các hàng xóm khác Ngoài ra, ảnh hưởng của các giá trị ở các ―khu vực‖ khác quá xa sẽ không đáng kể, giúp mô hình ít nhạy cảm hơn với các quan sát không phù hợp Sau đó, kết hợp với việc lựa chọn tỷ lệ chia tập huấn luyện và tập dữ liệu cho từng số lượng “k” mà mô hình lựa chọn Sử dụng phương pháp so sánh chéo và mô hình sẽ không bị cứng nhắc trong việc học tập và dự báo

Yao và ctg (1999) có đề xuất khác với Fang & Ma (2009) trong việc tính toán số lƣợng nơ-ron trong lớp ẩn cho mô hình MLP Công thức đƣợc đề xuất bởi Yao và ctg (1999) đƣợc mô tả nhƣ sau: g = ⌊ln(𝑛) + 0.5⌋ Trong đó, số lƣợng nơ-ron đƣợc tính bằng logarith tự nhiên của số lƣợng biến độc lập và làm tròn Tuy nhiên, vẫn chƣa có một công bố chính thức nào chứng minh đề xuất của Yao và ctg hay của Fang & Ma tốt hơn Do đó, tác giả tiếp tục sử dụng phương pháp so sánh chéo và để mô hình tự quyết định đối với mỗi cổ phiếu thì phương pháp của tác giả nào sẽ tốt hơn

Thuật toán MLP khi đó sẽ đƣợc tác giả cải thiện lại nhƣ sau: log_fang = round(math.log(X.shape[1],2)) log_yao = round(math.log(X.shape[1])) for g in list_log: for k in np.arange(0.1, 0.5, 0.01): model = MLPRegressor(hidden_layer_sizes=(g,), max_iter0, random_state)

X_train = scaler.fit_transform(X_train)

X_test = scaler.transform(X_test) model.fit(X_train, y_train) yhat_test = model.predict(X_test) score = model.score(X_test, y_test)

Mô hình trên sẽ tiến hành sử dụng số nơ-ron trong lớp ẩn đƣợc tính theo 2 phương pháp, với từng phương pháp mô hình sẽ tiếp tục linh hoạt phân chia tập huấn luyện và kiểm tra Sau đó, kết quả cuối cùng đƣợc đƣa ra sẽ là giá trị số lớp và tỷ lệ phân chia hai tập đƣợc mô hình ―chấm điểm‖ tốt nhất.

Kết quả hồi quy và đánh giá hiệu suất của các mô hình sau cải thiện

Toàn bộ kết quả hồi quy và hiệu suất của mô hình Linear Regression sau cải thiện có thể đƣợc truy cập tại: Kết quả và hiệu suất Linear Regression sau cải thiện

Bảng 4.18: Kết quả hồi quy Linear Regression với VCB sau cải thiện stock:

Có thể thấy rằng xu hướng và độ ảnh hưởng của các biến độc lập của cổ phiếu VCB đƣợc đƣa ra bởi Linear Regression đã có sự thay đổi sau khi cải thiện Các biến X25, X27, X29, X31 đã thay đổi xu hướng tác động đến biến độc lập, còn các biến khác thì vẫn giữ nguyên chiều tác động như trước và độ ảnh hưởng thay đổi

Bảng 4.19: Hiệu suất mô hình Linear Regression sau cải thiện

Stock R2_train R2_test MSE RMSE MAE test size

SSI 0.581377 0.555423 3.547369 1.883446 1.486337 0.33 BCM 0.436164 0.264572 1.476417 1.215079 0.996707 0.1 VHM 0.519015 0.540509 1.904483 1.380030 1.012828 0.14 VIC 0.481680 0.414867 3.140823 1.772237 1.179049 0.36 VRE 0.555954 0.455462 1.749571 1.322714 1.087485 0.2

Mô hình đã cải thiện đƣợc đáng kể hiệu suất dự báo đối vời từng mã cổ phiếu Điển hình nhƣ đối với VCB, sau khi cải thiện, Linear Regression có thể giải thích đƣợc 55.99% biến động trên tập huấn luyện, 52.11% trên tập kiểm tra, các sai số MSE, RMSE, MAE lần lƣợt là 0.8693, 0.9313, 0.7421 So với các kết quả ở Bảng 4.3, thì kết quả sau cải thiện đã tốt hơn hẳn Các sai số đã giảm xuống dưới giá trị 1, và R 2 𝑡𝑒𝑠𝑡 cao hơn hẳn Duy chỉ có R 2 𝑡𝑟𝑎𝑖𝑛 có phần thấp hơn, nguyên là do mô hình đã quyết định phải học nhiều hơn và giải thích nhiều hơn Linear quyết định, đối với VCB thì phải học tới 90% bộ dữ liệu và 10% còn lại để kiểm tra, nhƣ thế mới có thể đƣa ra hiệu suất tốt Tuy nhiên, Linear không lựa chọn học nhiều hơn trên dữ liệu của tất cả các mã cổ phiếu để có hiệu suất tốt hơn Điển hình nhƣ LDG, mô hình đã quyết định chỉ cần học 62% dữ liệu thì có thể làm kiểm tra đạt hiệu suất tốt nhất (60.9% so với 50.19% trước khi cải thiện)

Toàn bộ kết quả hồi quy và hiệu suất của mô hình Random Forest sau cải thiện có thể đƣợc truy cập tại: Kết quả và hiệu suất Random Forest sau cải thiện

Ngay từ việc chọn số lƣợng cây và chia tập huấn luyện, kiểm tra cố định cho mô hình RF là 20 cây và tỷ lệ 80:20, mô hình đã có kết quả khả quan hơn đa số các mô hình khác Nên sau khi cải thiện khả năng cho mô hình, RF đã có những kết quả tích cực hơn nữa

Bảng 4.20: Kết quả hồi quy Random Forest đối với VNM sau cải thiện stock X1 X2 X3 X4 X5

0.0117 0.0039 0.0106 0.0077 0.0212 0.0197 Độ quan trọng của các biến độc lập đối với biến TSSL mục tiêu của cổ phiếu VNM, sau khi cải thiện, đã có sự thay đổi Biến X11 đã giảm xuống từ 50.52% xuống còn 49.74%, tuy có thay đổi nhƣng mô hình vẫn cho rằng biến này là biến quan trọng nhất Các biến còn lại có độ quan trọng dao động từ 0.36% đến 5.77%

Bảng 4.21: Hiệu suất mô hình Random Forest sau cải thiện

Stock R2_train R2_test RMSE MSE MAE test size trees

Random Forest sau khi cải thiện đã có thể giải thích đƣợc đa số các biến động trên cả hai tập huấn luyện và kiểm tra R 2 𝑡𝑟𝑎𝑖𝑛 luôn đạt trên 70% như trước và

R 2 test thấp nhất 26.58% Nghĩa là dù cho bộ dữ liệu có khó học tập thế nào đi nữa thì mô hình cũng có thể giải thích đƣợc 26.58% khi kiểm tra R 𝑡𝑟𝑎𝑖𝑛 2 và R 2 test trung bình cho toàn bộ danh mục là 92.44% và 56.34% Các sai số cũng rất thấp khi RMSE trung bình là 1.824188, MSE trung bình là 3.600106, MAE trung bình là 1.426082

Hình 4.1 và 4.2 cho thấy đối với cổ phiếu TGG, Random Forest đã dự báo khá sát biến động thực tế và các giá trị dự báo cũng gần như tương đồng so với thực tế Dù đƣợc học ít hơn khi Random sau cải thiện chỉ chọn 51% bộ dữ liệu của mã cổ phiếu này để học nhưng số lượng cây là 50, nhiều hơn so với trước đó là 20, cho thấy việc số lượng cây trong mô hình có thể ảnh hưởng tới khả năng dự bá của mô

Hình 4.1: Thực tế và dự báo của mô hình Random Forest đối với cổ phiếu

TGG khi chƣa cải thiện

Hình 4.2: Thực tế và dự báo của mô hình Random Forest đối với cổ phiếu TGG sau khi cải thiệnHình 4.1: Thực tế và dự báo của mô hình Random

Forest đối với cổ phiếu TGG khi chƣa cải thiện

Hình 4.2: Thực tế và dự báo của mô hình Random Forest đối với cổ phiếu

TGG sau khi cải thiện

Hình 4.1: Thực tế và dự báo của mô hình MLP đối với cổ phiếu GAS khi chƣa cải thiệnHình 4.2: Thực tế và dự báo của mô hình Random Forest đối với cổ phiếu TGG sau khi cải thiện hình Nhìn chung trên toàn danh mục, tuy vẫn có vài cổ phiếu mà mô hình giải thích chƣa đƣợc tốt cho lắm, Random Forest đã đạt đƣợc nhiều kết quả khá tích cực

Hiệu suất mô hình KNN sau cải thiện có thể đƣợc truy cập tại: Hiệu suất KNN sau cải thiện

Bảng 4.22: Hiệu suất mô hình KNN sau cải thiện

Stock R2_train R2_test MSE RMSE MAE test size neighbors

KNN quả thực là mô hình ―lazy learning‖, khi mô hình này thực sự không học hành gì mà chỉ đƣa ra kết quả khi cần đƣợc dự báo Khả năng giải thích tập huấn luyện của mô hình, dù đã đƣợc cải thiện, vẫn không quá 18%, và tập kiểm tra là không quá 23% Cho thấy hiện tƣợng underfitting, ngoài ra các sai số cũng khá cao MSE, RMSE, MAE trung bình lần lƣợt là 6.185162, 2.301585, 1.67626

Mô hình KNN hoạt động kém hiệu quả đối với toàn bộ danh mục Nguyên nhân một phần là do mô hình chỉ lấy ra giá trị trung bình của các dữ liệu ở xung quanh mà không thực sự nắm bắt đƣợc đặc trƣng của bộ dữ liệu Do đó, KNN không phù hợp dành cho các bài toán dự báo các giá trị liên tục KNN có thể chỉ phát huy hiệu quả khi thực hiện các bài toán phân loại, mô hình khi đó sẽ đƣa ra kết quả dựa trên việc ―bầu cử‖ các giá trị phân loại xuất hiện nhiều nhất ở xung quanh

Toàn bộ kết quả hồi quy và hiệu suất của mô hình Lasso sau cải thiện có thể đƣợc truy cập tại: Kết quả và hiệu suất Lasso sau cải thiện Đối với cổ phiếu SAB, Lasso sau khi cải thiện vẫn cho rằng ngoài biến X11 thì không có biến nào hoàn toàn vô dụng đối với biến mục tiêu trong mô hình Nhưng ảnh hưởng của biến X11 lên biến mục tiêu đã tăng lên từ 0.2598 lên 0.2748

Bảng 4.23: Kết quả hồi quy Lasso đối với SAB sau cải thiện stock:

Bảng 4.24: Hiệu suất mô hình Lasso sau cải thiện

Stock R2_train R2_test MSE RMSE MAE test size

Khả năng giải thích biến động của Lasso sau khi cải thiện cũng không đạt đƣợc kết quả khả quan hơn mấy khi R 2 𝑡𝑟𝑎𝑖𝑛 và R 𝑡𝑒𝑠𝑡 2 không cải thiện đƣợc nhiều Trung bình khả năng giải thích biến động trên hai tập dữ liệu huấn luyện và kiểm tra lần lƣợt là 36.26% và 41.53% Tuy nhiên, việc tối thiểu hóa variance của Lasso đã đạt đƣợc hiệu quả khá tích cực khi các dự báo đƣa ra khá sát với thực tế Cụ thể, MSE, RMSE, MAE trung bình chỉ ở ngƣỡng 3.248702, 1.692669, 1.218236 Các giá trị này cho thấy Lasso thực sự đã thực hiện ―trade-off bias-variance‖, khi mô hình này đánh đổi khả năng giải thích biến động để đạt đƣợc variance nhỏ nhất nhờ các hình phạt đƣợc đƣa ra bởi mô hình

Toàn bộ kết quả hồi quy và hiệu suất của mô hình Ridge sau cải thiện có thể đƣợc truy cập tại: Kết quả và hiệu suất Ridge sau cải thiện

Bảng 4.25: Kết quả hồi quy Ridge đối với MSN sau cải thiện stock:

Tiêu đề	Ứng Dụng Các Mô Hình Học Máy (Machine Learning) Trong Dự Báo Giá Cổ Phiếu Trên Sàn Chứng Khoán Hose: Một Tiếp Cận Từ Góc Độ Hiệu Quả Dự Báo
Tác giả	Nguyễn Phạm Chí Bảo
Người hướng dẫn	TS. Lê Hoàng Anh
Trường học	Trường Đại Học Ngân Hàng TP. Hồ Chí Minh
Chuyên ngành	Tài Chính – Ngân Hàng
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	88
Dung lượng	3,65 MB