Ứng dụng các mô hình học máy (machine learning) trong dự báo giá cổ phiếu trên sàn chứng khoán hose một tiếp cận từ góc độ hiệu quả dự báo

88 2 0
Ứng dụng các mô hình học máy (machine learning) trong dự báo giá cổ phiếu trên sàn chứng khoán hose một tiếp cận từ góc độ hiệu quả dự báo

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH

NGUYỄN PHẠM CHÍ BẢO

ỨNG DỤNG CÁC MÔ HÌNH HỌC MÁY (MACHINE LEARNING) TRONG DỰ BÁO GIÁ CỔ PHIẾU TRÊN SÀN CHỨNG KHOÁN HOSE: MỘT TIẾP CẬN TỪ GÓC

ĐỘ HIỆU QUẢ DỰ BÁO

KHÓA LUẬN TỐT NGHIỆP

CHUYÊN NGÀNH: TÀI CHÍNH – NGÂN HÀNG MÃ SỐ: 7 34 02 01

TP HỒ CHÍ MINH, NĂM 2023

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO NGÂN HÀNG NHÀ NƯỚC VIỆT NAM TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH

Họ và tên sinh viên: NGUYỄN PHẠM CHÍ BẢO Mã số sinh viên: 050608200250

Lớp sinh hoạt: HQ8-GE20

ỨNG DỤNG CÁC MÔ HÌNH HỌC MÁY (MACHINE LEARNING) TRONG DỰ BÁO GIÁ CỔ PHIẾU TRÊN SÀN CHỨNG KHOÁN HOSE: MỘT TIẾP CẬN TỪ GÓC

ĐỘ HIỆU QUẢ DỰ BÁO KHÓA LUẬN TỐT NGHIỆP

CHUYÊN NGÀNH: TÀI CHÍNH – NGÂN HÀNG MÃ SỐ: 7 34 02 01

NGƯỜI HƯỚNG DẪN KHOA HỌC TS LÊ HOÀNG ANH

TP HỒ CHÍ MINH, NĂM 2023

Trang 3

TÓM TẮT

Trong bối cảnh mô hình học máy phát triển với tốc độ nhanh chóng, đóng góp quan trọng vào phát triển của nhiều lĩnh vực Cùng với đó, dự báo là một hoạt động được đông đảo các nhà đầu tư, nhà nghiên cứu dành sự quan tâm, không ngừng mở ra những triển vọng mới Bài nghiên cứu này tập trung vào việc so sánh và đánh giá hiệu suất dự báo của các mô hình học máy phổ biến hiện nay bao gồm Linear Regression, Random Forest, K-nearest Neighbors, Lasso, Ridge, Multi-layer Perceptron (thuộc họ ANN) thông qua các chỉ số đánh giá như Mean Squared Error (MSE), Root Mean Squared Error (RMSE) và Mean Absolute Error (MAE) Các mô hình sẽ được huấn luyện, kiểm tra và cải thiện để đảm bảo tính khách quan và độ tin cậy của kết quả Từ đó, đưa ra các khuyến nghị hữu ích cho các ứng dụng thực tế và các hướng phát triển trong tương lai Kết quả nghiên cứu cho thấy Random Forest là mô hình xuất sắc nhất trong việc dự báo, trong khi KNN thì có hiệu suất kém nhất Ridge và Linear đạt hiệu suất trung bình, trong khi ANN và Lasso có khả năng ghi nhớ mô hình tốt, nhưng khó giải thích biến động dự báo

Từ khóa: học máy, dự báo, Linear, Random Forest, KNN, Lasso, Ridge, ANN

Trang 4

ABSTRACT

In the rapidly evolving context of machine learning, which significantly contributes to the progress across various domains, forecasting remains a focal point capturing the attention of investors and researchers alike, continually unveiling new prospects This research centers on the comparative analysis and evaluation of predictive performance among contemporary machine learning models, including Linear Regression, Random Forest, K-nearest Neighbors, Lasso, Ridge, and Multi-layer Perceptron (part of the ANN family), using metrics such as Mean Squared Error (MSE), Root Mean Squared Error (RMSE), and Mean Absolute Error (MAE) The models undergo training, testing, and improvement to ensure objectivity and reliability of the results From these comparisons, valuable recommendations are derived for practical applications and suggest future development directions The research findings highlight Random Forest as the superior model in forecasting, while KNN exhibits the poorest performance Ridge and Linear achieve average performance, while ANN and Lasso demonstrate strong model memorization but have challenges in explaining forecast fluctuations

Keywords: machine learning, predict, Linear, Random Forest, KNN, Lasso, Ridge, ANN

Trang 5

LỜI CAM ĐOAN

Tôi tên là: Nguyễn Phạm Chí Bảo; Mã số sinh viên: 050608200250

Lớp: HQ8 – GE20, CLC, Trường Đại học Ngân hàng Thành phố Hồ Chí Minh Tôi xin cam đoan rằng mọi thông tin và kết quả được trình bày trong bài nghiên cứu này là chân thực và được thu thập một cách chính xác Tôi hiểu rằng việc đảm bảo tính minh bạch và trung thực là quan trọng trong nghiên cứu Đồng thời không có sự can thiệp hoặc biến đổi không đúng đắn vào dữ liệu để làm cho kết quả tích cực hoặc âm hơn so với thực tế

Tôi cũng xin cam đoan rằng mọi nguồn thông tin được trích dẫn từ các tác giả khác đều được ghi rõ và chính xác theo quy tắc trích dẫn khoa học bảo đảm quyền lợi và công bằng cho tác giả gốc và không có sự xâm phạm bản quyền hoặc sử dụng trái phép thông tin nào trong quá trình nghiên cứu và viết bài

Đề tài nghiên cứu này là công trình của bản thân tôi Đề tài này chưa từng được công bố hoặc đăng tải ở bất kỳ nơi nào khác Đây là công trình mới và chưa có bản sao tương tự nào được xuất bản trước đây

Tôi cam kết tuân thủ tất cả các quy tắc và nguyên tắc trong quá trình thực hiện nghiên cứu và viết bài Tôi hoàn toàn chịu trách nhiệm về nội dung của bài nghiên cứu này và sẵn sàng cung cấp thêm thông tin giúp giải đáp mọi vấn đề phản biện Tôi mong muốn rằng bài nghiên cứu này sẽ đóng góp tích cực vào lĩnh vực nghiên cứu của tôi và là nguồn tham khảo đáng tin cậy cho cộng đồng nghiên cứu khoa học

TP Hồ Chí Minh, ngày tháng năm 2023

Tác giả

Nguyễn Phạm Chí Bảo

Trang 6

LỜI CẢM ƠN

Tôi muốn đặc biệt bày tỏ lòng biết ơn sâu sắc đến TS Lê Hoàng Anh, là người hướng dẫn tận tâm, giúp tôi vượt qua mọi thách thức trong quá trình nghiên cứu Sự chia sẻ kiến thức và kinh nghiệm của TS Lê Hoàng Anh đã là sự hỗ trợ to lớn, đồng hành với tôi trong quá trình thực hiện khóa luận này, giúp tôi hiểu rõ hơn về các thuật toán học máy trong dự báo giá cổ phiếu trên Sàn Chứng khoán HOSE

Tôi cũng muốn bày tỏ lòng biết ơn đến Ban giám hiệu và đội ngũ giảng viên của Trường Đại học Ngân hàng Thành phố Hồ Chí Minh, nơi tôi đã có cơ hội học tập và trau dồi kiến thức Môi trường học thuật tại đây đã đóng vai trò quan trọng giúp tôi có nền tảng vững chắc để thực hiện nghiên cứu của tôi

Mặc dù không có sự tham gia chính thức của người khác trong nghiên cứu này, nhưng tôi rất biết ơn mọi đề xuất và ý kiến đóng góp từ cộng đồng nghiên cứu và bạn bè Những đóng góp này đã giúp làm cho đề tài trở nên đa chiều và phong phú hơn

Cuối cùng, tôi nhận thức rằng đề tài không tránh khỏi những hạn chế Tôi mong rằng sự hoàn thiện của nó sẽ được đóng góp thông qua những ý kiến đóng góp chân thành từ cộng đồng nghiên cứu và các giảng viên của trường Đại học Ngân hàng Thành phố Hồ Chí Minh

Xin chân thành cảm ơn!

TP Hồ Chí Minh, ngày tháng năm 2023

Trang 7

Chương 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU 1

1.1 Tính cấp thiết của đề tài nghiên cứu 1

1.2 Mục tiêu nghiên cứu 3

1.2.1 Mục tiêu tổng quát 3

1.2.2 Mục tiêu cụ thể 3

1.3 Câu hỏi nghiên cứu 4

1.4 Đối tượng và phạm vi nghiên cứu 4

1.4.1 Đối tượng nghiên cứu 4

1.4.2 Phạm vi nghiên cứu 4

1.5 Những đóng góp của nghiên cứu 4

1.6 Phương pháp nghiên cứu 5

1.7 Cấu trúc của nghiên cứu 7

Chương 2: CƠ SỞ LÝ THUYẾT 9

2.1 Tổng quan về học máy (machine learning) 9

2.2 Lịch sử phát triển của các mô hình học máy 10

Trang 8

2.3 Tổng quan lý thuyết về các mô hình học máy được sử dụng để dự báo

2.3.6 Artificial Neural Network 18

2.4 Các nghiên cứu có liên quan 19

2.4.1 Các nghiên cứu trong nước 19

2.4.2 Các nghiên cứu trên thế giới 19

2.5 Các thông số dùng đánh giá các mô hình 21

2.5.1 Coefficient of determination 21

2.5.2 Mean Squared Error (MSE) 21

2.5.3 Root Mean Squared Error (RMSE) 22

2.5.4 Mean Absolute Error (MAE) 22

TÓM TẮT CHƯƠNG 2 22

Chương 3: PHƯƠNG PHÁP NGHIÊN CỨU 23

3.1 Quy trình nghiên cứu 23

3.2 Phương pháp thu thập dữ liệu 23

3.2.1 Phương pháp thu thập dữ liệu giá cổ phiếu 23

3.2.2 Phương pháp thu thập dữ liệu các độ trễ của tỷ suất sinh lời của từng mã cổ phiếu 24

3.2.3 Phương pháp thu thập dữ liệu các chỉ số tài chính khác 25

Trang 9

3.3 Tiền xử lý dữ liệu 26

3.4 Kiểm tra tính dừng của bộ dữ liệu 28

3.4.1 Tính dừng của dữ liệu giá cổ phiếu 28

3.4.2 Tính dừng của TSSL 30

3.5 Chuẩn hóa dữ liệu nghiên cứu 31

3.6 Mẫu nghiên cứu 31

3.7 Quá trình xây dựng các mô hình mô hình học máy 32

4.3.6 Artificial Neural Network 48

4.4 Cải thiện hiệu suất dự báo đối với các mô hình ML 49

4.4.1 Cải thiện chung cho các mô hình 49

4.4.2 Cải thiện cho Random Forest 50

4.4.3 Cải thiện cho KNN 51

Trang 10

4.4.4 Cải thiện cho ANN 52

4.5 Kết quả hồi quy và đánh giá hiệu suất của các mô hình sau cải thiện 53

4.5.6 Artificial Neural Network 60

4.6 So sánh hiệu suất của các mô hình 63

Trang 11

DANH MỤC VIẾT TẮT TIẾNG VIỆT

Từ viết tắt Ý nghĩa tiếng Việt Ý nghĩa tiếng Anh

HOSE Sở Giao dịch Chứng khoán

Trang 12

DANH MỤC BẢNG BIỂU

Bảng 3.1 Dữ liệu cổ phiếu AAA 24

Bảng 3.2: Bảng tỷ suất sinh lợi VCB 25

Bảng 3.3: Dữ liệu các chỉ số tài chính quốc tế 26

Bảng 3.4: Dữ liệu TSSL cổ phiếu VCB sau tiền xử lý 27

Bảng 3.5: Bộ dữ liệu nghiên cứu của cổ phiếu VJC 28

Bảng 3.6: Kiểm tra tính dừng của giá cổ phiếu 29

Bảng 3.7: Tính dừng của tỷ suất sinh lợi 30

Bảng 3.8: Bộ dữ liệu hoàn chỉnh của VJC để nghiên cứu 31

Bảng 4.1 Kết quả thống kê mô tả các biến đầu vào chung 37

Bảng 4.2: Kết quả hồi quy Linear Regression với VCB 38

Bảng 4.3 Hiệu suất dự báo của Linear Regression với VCB 39

Bảng 4.4: Hiệu suất hồi quy mô hình Linear Regression 40

Bảng 4.5: Độ quan trọng của biến độc lập đối với tỷ suất sinh lời đối với cổ phiếu VNM theo Random Forest 422

Bảng 4.6: Hiệu suất của Random Forest đối với VNM 42

Bảng 4.7: Hiệu suất của Random Forest 43

Bảng 4.8: Hiệu suất của KNN 44

Bảng 4.9: Kết quả hồi quy Lasso đối với cổ phiếu SAB 44

Bảng 4.10: Hiệu suất của Lasso đối với VNM 45

Bảng 4.11: Hiệu suất của Lasso 45

Bảng 4.12: Kết quả hồi quy Ridge đối với MSN 46

Bảng 4.13: Hiệu suất mô hình Ridge đối với MSN 47

Bảng 4.14: Hiệu suất mô hình Ridge 47

Bảng 4.15: Ảnh hưởng của các nút nơ-ron đối với FPT 48

Bảng 4.16: Hiệu suất mô hình MLP đối với FPT 48

Bảng 4.17: Hiệu suất mô hình MLP 49

Bảng 4.18: Kết quả hồi quy Linear Regression với VCB sau cải thiện 53

Trang 13

Bảng 4.19: Hiệu suất mô hình Linear Regression sau cải thiện 54

Bảng 4.20: Kết quả hồi quy Random Forest đối với VNM sau cải thiện 55

Bảng 4.21: Hiệu suất mô hình Random Forest sau cải thiện 55

Bảng 4.22: Hiệu suất mô hình KNN sau cải thiện 57

Bảng 4.23: Kết quả hồi quy Lasso đối với SAB sau cải thiện 58

Bảng 4.24: Hiệu suất mô hình Lasso sau cải thiện 58

Bảng 4.25: Kết quả hồi quy Ridge đối với MSN sau cải thiện 59

Bảng 4.26: Hiệu suất mô hình Ridge sau cải thiện 60

Bảng 4.27: Ảnh hưởng của các nút nơ-ron đối với FPT sau cải thiện 60

Bảng 4.28: Hiệu suất mô hình MLP sau cải thiện 61

Bảng 4.29: Hiệu suất trung bình của các mô hình sau cải thiện 63

Hình 4.1 Thực tế và dự báo của mô hình Random Forest đối với cổ phiếu TGG khi chưa cải thiện 56

Hình 4.2 Thực tế và dự báo của mô hình Random Forest đối với cổ phiếu TGG sau

Trang 14

Chương 1: GIỚI THIỆU NGHIÊN CỨU

1.1 Tính cấp thiết của đề tài nghiên cứu

Từ những năm đầu của thập kỷ 2010, cuộc cách mạng Công nghiệp lần thứ 4 đã đánh dấu sự xuất hiện của những đợt sóng đầu tiên, tạo điều kiện cho một sự thay đổi đáng kể trong cách chúng ta hiểu và quản lý thế giới Cuộc cách mạng Công nghiệp lần thứ 4 (hay Công nghiệp 4.0) đã tạo ra hàng loạt những phát minh thay đổi hoàn toàn cách vận hành của thế giới thông qua công nghệ Big Data (dữ liệu lớn), Cloud (dữ liệu đám mây) cùng hàng loạt các phát minh khác đã và đang cho phép con người có thể thu thập, chứa đựng một khối lượng khổng lồ các bộ dữ liệu Kể từ Công nghiệp 4.0, kỷ nguyên hiện tại đã trở thành kỷ nguyên của thông tin và dữ liệu

Trong bối cảnh thị trường chứng khoán ngày càng biến động phức tạp và lượng lớn dữ liệu bắt đầu được tiếp cận rộng rãi, việc dự báo giá cổ phiếu có rất nhiều khó khăn trong cả quá khứ lẫn hiện tại, do có nhiều không chắc chắn và không vững vàng Đôi khi là do tâm lý con người dễ dàng bị lay đổi bởi nhiều yếu tốt cả chủ quan lẫn khách quan Có hai lựa chọn được đông đảo các nhà đầu tư thực hiện phân tích và dự đoán trước khi đầu tư vào một cổ phiếu Đầu tiên là phân tích cơ bản Phân tích cơ bản là cách thức phân tích sử dụng triển vọng trong thu nhập và cổ tức của một công ty, các kỳ vọng về lãi suất trên thị trường trong tương lai, đánh giá rủi ro của công ty để xác định giá cổ phiếu thích hợp ở hiện tại Mặt khác, phân tích kỹ thuật về cơ bản là việc tìm kiếm các mẫu hình lặp lại và có thể dự báo được giá chứng khoán, nghiên cứu dữ liệu hoặc biểu đồ giá cổ phiếu trong quá khứ, hy vọng tìm ra các mẫu hình mà họ có thể khai thác để tìm kiếm lợi nhuận Bên cạnh đó, nhiều phương pháp dự đoán giá cổ phiếu khác trên thế giới cũng đã và đang dần xuất hiện Bài nghiên cứu của Pagolu và ctg (2016) đã cho thấy rằng những tin tức và dòng tweet tích cực trên mạng xã hội về một công ty chắc chắn sẽ khuyến khích mọi người đầu tư vào cổ phiếu của công ty đó và kết quả là giá cổ phiếu của công ty đó sẽ tăng lên Ở cuối bài báo, các tác giả đã chỉ ra rằng có mối tương quan chặt chẽ giữa sự tăng giảm của giá cổ phiếu với cảm xúc của công chúng từ những dòng bình luận trên mạng xã hội Ngoài ra, còn rất nhiều công cụ

Trang 15

dự báo dựa trên các phân tích như phân tích ngành, phân tích dòng tiền doanh nghiệp, hay các phân tích giá trị, phân tích chuỗi thời gian

Tuy nhiên, các phương pháp dự báo truyền thống thường có rất nhiều hạn chế trong việc xử lý dữ liệu lớn và phức tạp, và có thể không chính xác trong thực tế Với sự bùng nổ của kỷ nguyên thông tin, sự cần thiết của phương pháp giúp xử lý một lượng dữ liệu khổng lồ và phức tạp từ các thị trường chứng khoán một cách chính xác, hiệu quả và nhanh chóng đều được đa số quan tâm, không chỉ những nhà đầu tư chuyên nghiệp hay nhỏ lẻ, mà còn cả những doanh nghiệp lớn trên toàn cầu

Cùng với sự bùng nổ của Công nghiệp 4.0, Machine learning (ML – học máy) ra đời, giải quyết được vấn đề xử lý các bữ dữ liệu lớn và phức tạp chính xác và hiệu quả Bên cạnh đó, các mô hình ML có thể học hỏi từ dữ liệu lịch sư để đưa ra các dự đoán trong tương lai Do đó, các mô hình ML được coi là một giải pháp khả thi để cải thiện khả năng dự báo giá cổ phiếu

Sự tiến bộ trong lĩnh vực ML đã mở ra cơ hội để mô hình hóa các mối quan hệ phức tạp trong dữ liệu tài chính Sự gia tăng về khả năng tích hợp và xử lý dữ liệu tài chính cũng đóng góp vai trò quan trọng trong việc phát triển các mô hình dự báo giá cổ phiếu Trên thế giới, đã có rất nhiều các sản phẩm của các công ty công nghệ hàng đầu được cho ra mắt, sử dụng các tính năng và sức mạnh của ML Kensho, được S&P Global Market Intelligence mua lại và phát triển, là một nền tảng phân tích dữ liệu Nền tảng này sử dụng các thuật toán xử lý ngôn ngữ tự nhiên (NLP) và các mô hình ML tiên tiến để đưa ra dự báo từ việc phân tích dữ liệu có cấu trúc và không có cấu trúc, như dữ liệu lịch sử giá, báo cáo tài chính, bài báo tin tức và bài đăng trên mạng xã hội Ngoài ra, Quandl và Numerai đều là 2 nền tảng lớn cung cấp dữ liệu đầu tư, được sự dụng rộng rãi trong cộng đồng đầu tư lẫn phân tích tài chính nhờ vào việc ứng dụng trí tuệ nhân tạo và ML, đã và đang có những khích lệ các nhà đầu tư tham gia vào việc xây dựng mô hình dự báo thị trường Ngoài các công ty ở Hoa Kỳ đã kể ở trên, còn có rất nhiều các sản phẩm đến từ các quốc gia khác trên thế giới như Heckyl của Ấn Độ, City Brain của Trung Quốc,…

Tình hình này đặt ra những thách thức và cơ hội đối với những nhà đầu tư ở Việt Nam, cần sự hiểu biết vững vàng về các công cụ và phương pháp để có thể cạnh tranh mạnh mẽ Trong ngữ cảnh này, vấn đề nghiên cứu chính của khóa luận

Trang 16

tốt nghiệp là xác định và nâng cao hiệu quả của việc ứng dụng các mô hình ML trong dự báo giá cổ phiếu trên sàn chứng khoán HOSE Nghiên cứu sẽ tập trung vào việc xây dựng, huấn luyện, đưa ra dự báo và đánh giá các mô hình ML dựa trên cơ sở dữ liệu lịch sử giá cổ phiếu Mục tiêu là đánh giá khả năng của các mô hình này trong việc dự báo giá cổ phiếu trên thị trường chứng khoán HOSE, từ đó xác định mức độ hiệu quả và khả năng áp dụng của chúng trong thực tế

Sự phức tạp của thị trường, nhu cầu đầu tư thông minh, tiến bộ trong lĩnh vực ML và sự cạnh tranh trong lĩnh vực tài chính là những yếu tố đang thúc đẩy sự quan tâm và nghiên cứu liên quan đến đề tài này Hy vọng rằng, thông qua đề tài nghiên cứu: tiễn ―Ứng dụng các mô hình học máy (machine learning) trong dự báo giá cổ phiếu trên sàn chứng khoán HOSE: một tiếp cận từ góc độ hiệu quả dự báo‖, khóa luận tốt nghiên này sẽ mang lại giá trị về cả mặt khoa học lẫn thực tiễn Những kết quả thu được sẽ đưa ra các khuyến nghị hữu ích cho nhà đầu tư và các hướng phát triển tiềm năng cho lĩnh vực ML tại Việt Nam

1.2 Mục tiêu nghiên cứu

1.2.1 Mục tiêu tổng quát

Đánh giá và so sánh khả năng dự đoán giá cổ phiếu của nhiều mô hình Machine Learning khác nhau Mục tiêu là xác định mức hiệu quả của các mô hình này, đồng thời đề xuất các khuyến nghị cụ thể cho cộng đồng nhà đầu tư Ngoài ra, nghiên cứu cũng nhằm đưa ra những hướng phát triển mới cho lĩnh vực Machine Learning trong ngữ cảnh thị trường tài chính ngày nay

1.2.2 Mục tiêu cụ thể

- Lựa chọn và triển khai các mô hình ML phù hợp Tiến hành quá trình huấn luyện trên dữ liệu đã được tiền xử lý để xây dựng các mô hình có khả năng dự đoán tốt

- Sử dụng các mô hình ML để đưa ra dự báo về giá cổ phiếu trên thị trường chứng khoán HOSE Đánh giá độ chính xác của từng mô hình trên dữ liệu kiểm thử và tinh chỉnh mô hình để cải thiện hiệu suất

- So sánh các dự báo từ các mô hình khác nhau để xác định mức độ hiệu quả của chúng trong việc dự đoán giá cổ phiếu

Trang 17

- Dựa trên kết quả và nhận xét, đề xuất các khuyến nghị cụ thể để nâng cao sự áp dụng và phát triển của Machine Learning trong lĩnh vực tài chính tại Việt Nam

1.3 Câu hỏi nghiên cứu

- Làm thế nào để có thể tối ưu hóa quá trình huấn luyện mô hình để cải thiện khả năng dự báo của các mô hình?

- Các mô hình ML khác nhau, có khả năng dự báo giá cổ phiếu trên sàn chứng khoán HOSE khác nhau như thế nào?

- Mô hình ML nào hiệu quả nhất trong việc dự đoán giá cổ phiếu trong ngữ cảnh sàn chứng khoán HOSE?

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu: Các mô hình học máy được sử dụng để dự báo bao gồm: Linear Regression, Random Forest, K-Nearest Neighbors, Lasso, Ridge, Multi-Layer Perceptron thuộc họ Artificial Neural Network

1.4.2 Phạm vi nghiên cứu

- Phạm vi nghiên cứu về không gian: Dữ liệu nghiên cứu được thu thập là dữ liệu giá của 394 mã cổ phiếu trên sàn chứng khoán HOSE

- Phạm vi nghiên cứu về thời gian: Dữ liệu nghiên cứu được thu tập theo từng phiên từ phiên ngày 19/05/2020 đến 05/09/2023

1.5 Những đóng góp của nghiên cứu

Nghiên cứu này không chỉ mang lại lợi ích cho cộng đồng nhà đầu tư mà còn đóng góp quan trọng vào sự phát triển của lĩnh vực ML trong lĩnh vực tài chính, giúp bổ sung tri thức và hiểu biết về ML tại Việt Nam Cung cấp một công cụ hữu ích giúp nhà đầu tư đưa ra quyết định đầu tư thông minh, xây dựng chiến lược đầu tư và đối mặt với rủi ro, tối ưu hóa lợi nhuận

Những đóng góp của nghiên cứu này không chỉ có ý nghĩa về mặt khoa học, mà còn mang lại giá trị thực tiễn Trong lĩnh vực khoa học, nghiên cứu này làm phong phú kiến thức và hiểu biết về ML trong tài chính Ở góc độ thực tiễn, nghiên cứu này cung cấp một công cụ hữu ích cho nhà đầu tư và đề xuất hướng phát triển

Trang 18

tiềm năng, khuyến khích sự phát triển của ML trong tài chính và chứng khoán tại Việt Nam

1.6 Phương pháp nghiên cứu

Bài nghiên cứu sẽ được thực hiện bằng ngôn ngữ lập trình Python trong môi trường Jupyter Notebook trên phần mềm lập trình Visual Code Các mô hình học máy được lựa chọn trong bài nghiên cứu vì khả năng xử lý dữ liệu phức tạp với đa dạng biến đầu vào và khả năng dự đoán hiệu quả Do đó, đảm bảo được việc đánh giá mức độ hiệu quả và các yếu tố hay chỉ số nào có ảnh hướng tới khả năng dự báo của các mô hình học máy

- Linear Regression: Mô hình hóa mối quan hệ tuyến tính giữa các biến độc lập và giá cổ phiếu Linear Regression là một công cụ mạnh mẽ để định rõ sự ảnh hưởng của mỗi biến độc lập đối với giá cổ phiếu và đồng thời đưa ra dự báo dựa trên mối liên hệ tuyến tính này

- Random Forest: Sử dụng ensemble learning để xây dựng nhiều DT và kết hợp chúng để có dự đoán chính xác RF không chỉ mạnh mẽ với việc xử lý dữ liệu lớn mà còn giảm thiểu nguy cơ overfitting, tạo ra một dự báo ổn định và đáng tin cậy

- K-Nearest Neighbors (KNN): Phân loại giá cổ phiếu dựa trên các điểm dữ liệu gần nhất trong không gian đặc trưng KNN là một phương pháp đơn giản nhưng hiệu quả, tập trung vào việc nhận diện sự tương đồng giữa các điểm dữ liệu để đưa ra dự đoán

- Artificial Neural Network (ANN): Sử dụng mạng nơ ron để học các mối quan hệ phi tuyến tính phức tạp giữa các biến ANN là một công cụ mạnh mẽ cho việc mô hình hóa những mối quan hệ phức tạp và phi tuyến tính, giúp nắm bắt được sự phức tạp trong dữ liệu cổ phiếu

- Ridge Regression và LASSO: Sử dụng để kiểm soát overfitting và đồng thời chọn lọc biến quan trọng Cả Ridge Regression và LASSO đều là các phương pháp ―regularization‖ giúp duy trì tính tổng quát của mô hình, tránh hiện tượng overfitting, và đồng thời có thể giúp xác định những biến quan trọng đối với dự đoán giá cổ phiếu

Trang 19

Từng loại mô hình học máy có từng tham số đầu vào khác nhau, và việc chia tập huấn luyện và tập kiểm tra khác nhau cũng sẽ ảnh hưởng đến độ hiệu quả của từng loại mô hình trên Do đó, có thể tiếp tục cải thiện được khả năng dự báo của từng mô hình khác nhau

Phương pháp nghiên cứu trên sử dụng số liệu lịch sử giá, các chỉ số tài chính của từng công ty có trên sàn chứng khoán HOSE, và các chỉ số tài chính khác trên thế giới Do đó, bài nghiên cứu còn phân tích sâu hơn các dữ liệu để hiểu rõ hơn về các biến ảnh hưởng đến giá cổ phiếu (bao gồm các phân tích độ tương quan, phân tích chuỗi thời gian,…), giúp đánh giá hiệu quả của các mô hình học máy một cách khách quan và chính xác Bên cạnh đó, việc sử dụng cùng một tập dữ liệu cho phép bài nghiên cứu có thể so sánh hiệu quả của các mô hình học máy khác nhau, giúp lựa chọn các mô hình phù hợp cho thị trường chứng khoán HOSE

Đầu tiên, bộ dữ liệu bao gồm danh sách của 394 doanh nghiệp đang được niêm yết trên sàn chứng khoán HOSE (bao gồm danh sách mã cổ phiếu) sẽ được sử dụng làm nguồn để có thể thu thập được bộ dữ liệu về giá của từng mã cổ phiếu theo từng phiên từ 19/05/2020 đến 05/09/2023 Dữ liệu trong bài nghiên cứu được thu thập từ hai nguồn chính là Vnstock và Yahoo Finance Từ tập dữ liệu thu thập được, bài nghiên cứu đưa ra thêm dữ liệu về TSSL của mỗi cổ phiếu qua từng phiên Bài nghiên cứu sử dụng các biến sau để nghiên cứu:

Biến phụ thuộc: tỷ suất sinh lợi của cổ phiếu

Biến độc lập: các độ trễ của TSSL của cổ phiếu, các chỉ số tài chính khác trên thế giới (S&P500, Nasdaq, Dow 30,…), giá vàng, giá bạc,…

Các biến phụ thuộc, TSSL dự báo, sẽ được xác định thông qua tỷ suất sinh lời trong ngày tương ứng Các biến độc lập, bao gồm các độ trễ của TSSL sẽ được đo lường bằng TSSL trong các phiên trước đó Các biến độc lập khác sẽ được đo lường bằng giá hay giá trị so với các ngày tương ứng

Dữ liệu sau khi được thu thập sẽ trải qua quá trình tiền xử lý để loại bỏ nhiễu, xử lý các giá trị bị thiếu Bên cạnh đó, để tránh việc những giá trị quá nhỏ (gần như bằng không) làm ảnh hưởng tới bộ dữ liệu nghiên cứu, những giá trị đó sẽ bị loại bỏ Tiếp theo đó, tiến hành kiểm tra tính dừng trong tập dữ liệu Sau khi các mô hình

Trang 20

học máy được xây dựng phù hợp với mục tiêu nghiên cứu và đưa ra dự báo, các phương pháp đánh giá như R-squared, MSE, RMSE, MAE sẽ được sử dụng

Các biến, cách thức đo lường, và nguồn dữ liệu được mô tả ở trên phù hợp với mục tiêu và câu hỏi nghiên cứu Bài nghiên cứu sẽ sử dụng các biến kể ở trên để xây dựng và đánh giá hiệu quả của các mô hình học máy trong dự báo giá cổ phiếu trên thị trường chứng khoán HOSE

1.7 Cấu trúc của nghiên cứu

Cơ cấu của khóa luận được cấu trúc thành 5 chương, tương ứng mỗi chương sẽ có phần giới thiệu và kết luận, bên cạnh đó còn có các phần mục lục, danh mục bảng biểu, danh mục sơ đồ, hình ảnh, danh mục chữ viết tắt, tài liệu tham khảo và phụ lục Cụ thể như sau:

Chương 1: Giới Thiệu Nghiên Cứu

Chương 1 sẽ giới thiệu về đề tài, xác định tính cấp thiết của đề tài, với sự tập trung vào vấn đề dự báo giá cổ phiếu trên sàn chứng khoán HOSE Mục tiêu nghiên cứu được đề cập chi tiết, từ mục tiêu tổng quát đến mục tiêu cụ thể, và câu hỏi nghiên cứu cung cấp hướng dẫn cho việc tiếp cận vấn đề Đối tượng và phạm vi nghiên cứu được định rõ, cùng với những đóng góp có ý nghĩa của nghiên cứu Phương pháp nghiên cứu và cấu trúc của nghiên cứu cũng được giới thiệu tổng quan

Chương 2: Cơ Sở Lý Thuyết

Chương 2 đưa ra cái nhìn tổng quan về học máy, bao gồm lịch sử phát triển của các mô hình học máy Các mô hình học máy quan trọng như Linear Regression, Random Forest, K-Nearest Neighbors, Lasso Regression, Ridge Regression, và Artificial Neural Network được giới thiệu về lý thuyết và cơ sở toán học Chương cũng tập trung vào các nghiên cứu liên quan để xây dựng cơ sở lý thuyết mạnh mẽ

Chương 3: Phương Pháp Nghiên Cứu

Chương 3 mô tả quy trình nghiên cứu bao gồm việc thu thập và tiền xử lý dữ liệu Phương pháp thu thập dữ liệu và các bước tiền xử lý cụ thể được trình bày chi tiết, đồng thời mô tả quá trình kiểm tra tính dừng của bộ dữ liệu Chương cũng đề cập đến việc xây dựng các mô hình học máy, bước quan trọng trong quá trình nghiên cứu

Chương 4: Kết Quả Nghiên Cứu

Trang 21

Chương 4 trình bày kết quả nghiên cứu thông qua thống kê mô tả và phân tích tương quan Kết quả của các mô hình như Linear Regression, Random Forest, K-Nearest Neighbors, Lasso Regression, Ridge Regression, và Artificial Neural Network được trực quan hóa và phân tích chi tiết Hiệu suất của mỗi mô hình được đánh giá và so sánh để cung cấp cái nhìn toàn diện về khả năng dự báo

Chương 5: Kết Luận và Khuyến Nghị

Chương 5 là phần kết luận, tổng hợp các kết quả đạt được, đánh giá mức độ hiệu quả của các mô hình, và đưa ra các hạn chế Các khuyến nghị được đề xuất, bao gồm hướng phát triển tiềm năng và ứng dụng thực tế, nhấn mạnh sự quan trọng của nghiên cứu trong việc đóng góp vào sự phát triển của lĩnh vực Machine Learning trong tài chính tại Việt Nam

Trang 22

Chương 2: CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về học máy (machine learning)

Theo Nguyễn Tất Bảo Thiện (2022), học máy (machine - ML) là một nhánh của trí tuệ nhân tạo, trong đó một hệ thống hay một máy có thể học hỏi từ ví dụ thông qua việc tự cải thiện và không được lập trình viên mã hóa rõ ràng Máy khi học sẽ kết hợp dữ liệu với các công cụ thống kê để dự đoán các kết quả đầu ra

Theo Issam El Naqa (2015), ML là một công cụ lao động mới trong kỷ nguyên Big Data Các kỹ thuật dựa trên học máy đã được áp dụng thành công trong nhiều lĩnh vực khác nhau, từ nhận dạng mẫu, thị giác máy tính, kỹ thuật tàu vũ trụ, giải trí và sinh học tính toán cho đến các ứng dụng y sinh và y tế Khả năng các thuật toán học máy học hỏi từ bối cảnh trong quá khứ và khái quát hóa thành các nhiệm vụ chưa được nhìn thấy sẽ cho phép cải thiện tính hiệu quả, dẫn đến kết quả tốt hơn

Một ví dụ thường gặp của ML đó chính là việc các nền tảng mạng xã hội hay dịch vụ chiếu phim trực tuyến thường có những đề xuất phù hợp với người dùng Đơn cử như đối với những người có tài khoản Netflix, tất cả các đề xuất về phim hoặc loạt phim đều dựa trên dữ liệu lịch sử của người dùng

ML có thể áp dụng được cho hầu hết lĩnh vực, tài chính cũng không ngoại lệ Một số ứng dụng của việc áp dụng ML vào tài chính như phân tích tín dụng bằng các thuật toán phân loại, tối ưu hóa các danh mục đầu tư, phát hiện gian lận tài chính, tư vấn đầu tư tự động,…

ML là khoa học và cả nghệ thuật trong việc giúp máy tính có thể ―học hỏi‖ từ dữ liệu ML có liên quan chặt chẽ với việc tối ưu toán học, sử dụng các thuật toán, phương thức, lý thuyết về thống kê tính toán tập trung vào việc dự báo Theo Dixon và Halperin (2019), ML trong tài chính là một tập hợp các thuật toán để lập mô hình tài chính từ dữ liệu và thường chia thành ba nhánh:

- Học có giám sát (supervised learning): mô hình được đào tạo trên một tập dữ liệu có chứa cả đầu vào và đầu ra mong muốn Học máy có giám sát khái quát hóa các kỹ thuật thống kê như hồi quy OLS, hồi quy tuyến tính,… Mục tiêu là để dự đoán đầu ra cho các đầu vào mới mà mô hình chưa thấy trước đó

Trang 23

- Học không giám sát (unsupervised learning): mô hình được đào tạo trên dữ liệu chỉ có đầu vào mà không có đầu ra tương ứng Khái quát hóa các phương pháp thống kê để giảm thiểu dữ liệu Mục tiêu là khám phá cấu trúc, mối quan hệ trong dữ liệu một cách tự nhiên

- Học tăng cường (reinforced learning): Loại này liên quan đến việc máy tính "học" bằng cách tương tác với môi trường Nó nhận phản hồi thông qua các hành động mà nó thực hiện và điều chỉnh để tối ưu hóa việc lập trình ngẫu nhiên Tuy nhiên, vì tính phức tạp của nó nên đây là phương pháp ít được khai thác nhất trong tài chính

Chung quy, Machine Learning (ML) trong lĩnh vực tài chính là sự ứng dụng của các thuật toán máy học để phân tích dữ liệu tài chính, dự đoán xu hướng thị trường, quản lý danh mục đầu tư, và tối ưu hóa các quyết định tài chính ML giúp tự động hóa quá trình ra quyết định dựa trên dữ liệu lịch sử và hiện tại, mang lại khả năng dự đoán và tối ưu hóa hiệu suất trong các lĩnh vực như giao dịch chứng khoán, quản lý rủi ro tín dụng, và tư vấn đầu tư

2.2 Lịch sử phát triển của các mô hình học máy

Khái niệm Machine Learning xuất hiện vào năm 1950 khi Alan Turing, một nhà tiên phong trong lĩnh vực khoa học máy tính, xuất bản một bài báo khoa học trả lời cho câu hỏi ―Liệu máy móc có thể suy nghĩ hay không?‖ Ông đã đề xuất một giả thuyết cho rằng máy móc đã thành công trong việc thuyết phục con người rằng nó thực sự không phải là một cỗ máy sẽ có thể đạt được một trí tuệ nhân tạo Giả thuyết này sau đó được gọi là ―Phép thử Turing‖, là bài kiểm tra trí tuệ của máy tính, trong đó máy tính sẽ cố chứng tỏ rằng nó là con người

Vào năm 1957, Frank Rosenblatt thiết kế ra ―mạng nơ-ron‖ đầu tiên cho máy tính, mô hình mạng nơ-ron này ngày nay được gọi là thuật toán Perceptron, được thiết kế để phân loại dữ liệu đầu vào trực quan, phân nhóm các đối tượng vào một trong hai nhóm đầu ra điển hình của thuật toán

Năm 1959, Bernard Widrow và Marcian Hoff sáng tạo ra hai mô hình mạng nơ-ron là Adeline, có thể phát hiện các mẫu nhị phân, và Madeline, có thể loại bỏ các tiếng vang trên đường dây điện thoại Madeline sau này được ứng dụng khá rộng rãi trong ngành viễn thông Năm 1967, thuật toán ―hàng xóm gần nhất‘

Trang 24

(nearest neighbor) được mô tả, sau này thuật toán cho phép máy tính sử dụng các nhận dạng mẫu rất cơ bản

Gerald Dejong, năm 1981, giới thiệu khái niệm ―học tập dựa trên sự giải thích‖, trong đó máy tính phân tích dữ liệu và tạo ra một quy luật chung để loại bỏ đi các thông tin không hữu ích Trong suốt thập niên 1990, làm việc với ML chuyển dần từ cách tiếp cận dựa trên kiến thức thành cách tiếp cận dự trên dữ liệu Các nhà khoa học bắt đầu lập trình cho máy tính phân tích lượng lớn dữ liệu và đưa ra kết luận hoặc ―học tập‖ từ các kết quả

Kể từ đó, lĩnh vực ML đã đạt được rất nhiều thành tựu lớn Năm 1997, sau ván 6, Garry Kasparov (vua cờ vào thời điểm đó) đã thất bại trước Deep Blue, đánh dấu lần đầu tiên một chiếc máy tính có thể đánh bại một nhà vô địch cờ vua thế giới Năm 2002, sử dụng sự kết hợp của ML, trình xử lý ngôn ngữ tự nhiên và các kỹ thuật truy xuất thông tin, IBM‘s Watson đã đánh bại hai nhà vô địch trong chương trình ―Jeopardy!‖, chương trình đố vui kiến thức tại Hoa Kỳ Năm 2016, AlphaGo của Google trở thành chương trình máy tính đầu tiên đánh bại một đại kiện tướng, bằng việc sử dụng ML và kỹ thuật tìm kiếm theo cấu trúc cây (Tree Search Techiniques)

Vào những năm đầu của thế kỷ 21, nhiều doanh nghiệp đã đầu tư vào các dự án sáng tạo ML Google Brain, AlexNet, DeepFace, DeepMind, OpenAI, Amazon Machine Learning Platform, ResNet là một trong những dự án lớn được khởi xướng bởi cái công ty tỷ đô trên thế giới Amazon, Netflix, Google, Salesforce, IBM là những công ty đang thống trị ngành công nghệ thông tin với sức mạnh ML của họ ML đã được mở rộng và phổ biến với một tốc độ chóng mặt trong thập kỷ gần đầy

Với tiềm năng là một quốc gia đang phát triển nhanh chóng, lượng thông tin mà đất nước Việt Nam có được sẽ là một nguồn lợi đáng kể để chúng ta có thể phát triển lĩnh vực ML

2.3 Tổng quan lý thuyết về các mô hình học máy được sử dụng để dự báo giá cổ phiếu

2.3.1 Linear Regression

Linear Regression (hồi quy tuyến tính) là mô hình học máy có giám sát (supervised learning), mô hình sẽ tiên đoán, điều tra các mối quan hệ giữa biến mục

Trang 25

tiêu và các biến độc lập Mô hình này được sử dụng để dự báo dựa trên việc mô hình hóa chuỗi thời gian và tìm ra mối quan hệ giữa các biến

Về cơ bản, mô hình Linear Regression tìm ra một đường thẳng dựa trên giá trị của các biến Phương trình toán học của Linear Regression có

Với mục tiêu là tìm ra mối quan hệ giữa các biến độc lập đầu vào và giá trị đầu ra Với giá trị đầu ra là giá trị liên tục, còn các biến độc lập có thể liên tục hoặc rời rạc Mối quan hệ được mô hình hóa dưới dạng linear (tuyến tính) Mô hình sẽ được huấn luyện và điều chỉnh các hệ số 𝛽 cho phù hợp với mẫu và được phù hợp bằng cách sử dụng phương pháp số dư bình phương, làm sao để tối thiểu tổng phương sai

Nguồn: Lê Hoàng Anh 2022

Thuật toán Linear Regression khá dễ hiểu và có độ phổ biến cao, tốc độ giải thuật rất nhanh và kết quả khá tối ưu khi mối quan hệ giữa các biến gần như tuyến tính Tuy nhiên, thuật toán vẫn có nhiều hạn chế như khó có thể biểu diễn có mô hình phức tạp hay có mối quan hệ phi tuyến tính Ngoài ra, mô hình khá nhạy cảm

Nguồn: Lê Hoàng Anh 2022

Trang 26

với cái dữ liệu nhiễu, do đó trước khi thực hiện thuật toán, cần phải trải qua bước tiền xử lý một cách cẩn thận và kỹ lưỡng

2.3.2 Random Forest

Random Forest (rừng ngẫu nhiên) là một mô hình học có giám sát, hoạt động dựa trên thuật toán cây quyết định (Decision Tree) Trong đó, mô hình sẽ huấn luyện các cây quyết định dựa trên một phần ngẫu nhiên của bộ dữ liệu Sau đó tổng hợp kết quả của các cây để đưa ra kết quả cuối cùng Đối với các bài toán phân loại, kết quả cuối cùng của RF sẽ dựa trên việc ―bầu cử‖ của các cây quyết định Tuy nhiên, với mục tiêu của bài nghiên cứu là đưa ra các giá trị liên tục, mô hình sẽ đưa ra kết quả cuối cùng là giá trị trung bình của các giá trị mà các cây quyết định đưa ra

Decision Tree, với mục tiêu là tìm ra các đặc điểm (feature) mô tả có chứa ―thông tin‖ nhất (most informative) về đặc điểm của mục tiêu và sau đó chia tập dữ liệu dọc theo các giá trị của các đặc điểm (feature) này sao cho các tập dữ liệu được chia ―thuần khiết‖ nhất Các đặc điểm mô tả dẫn điến đặc điểm mô tả của mục tiêu ―thuần khiết‖ nhất khi có ―thông tin‖ nhất

Một cây thường có một nút gốc (root node), các nút nội tại (interior node) và các nút lá (leaf node) được nối với nhau bằng các nhánh Khi đấy, mô hình sẽ học được cấu trúc cơ bản của dữ liệu huấn luyện và do đó có thể đưa ra một số giả định và dự đoán các đặc điểm của các giá trị chưa biết, và đưa ra dự báo cho các giá trị này

Nhược điểm khá lớn của cây quyết định là chúng có khuynh hướng overfitting dữ liệu huấn luyện Do đó, cần một tập hợp lớn các cây quyết định để có thể chia và tìm ra nhiều tập dữ liệu ―thuần khiết‖ khác nhau Về cơ bản, Random Forest là tập hợp các cây quyết định, trong đó mỗi cây hơi khác so với cây khác

Trang 27

Trong một ―rừng‖, mỗi cây sẽ thực hiện một dự báo tương đối tốt, nhưng có khả năng sẽ overfitting với một phần dữ liệu Nếu trồng nhiều cây, tất cả các cây sẽ hoạt động tốt và vượt trội theo nhiều cách khác nhau, từ đó giúp giảm thiểu overfitting bằng cách lấy trung bình của chúng

Nguồn: https://tikz.net/random-forest

Giả sử, mô hình được ―trồng‖ 10 cây, thuật toán RF sẽ đảm bảo các cây này sẽ hoạt động độc lập với nhau và thuật toán sẽ tạo ra các lựa chọn tập huấn luyện khác nhau cho mỗi cây để đảm bảo rằng các cây là khác biệt Do đó, việc cần thiết là phải quyết định nên ―trồng‖ bao nhiêu cây trong ―khu rừng ngẫu nhiên‖ này

Nhờ tính ―dân chủ‖ trong mô hình, RF được coi là một phương pháp chính xác và mạnh mẽ vì số lượng tham gia vào quá trình này Vì những bias (sai sốt) sẽ bị hủy bỏ do RF sẽ lấy trung bình của tất cả dự đoán, vấn đề overfitting sẽ được giảm thiểu Tuy nhiên, càng trồng nhiều cây, công việc cần phải xử lý càng nhiều, do đó mô hình RF thực hiện khá chậm và tốn nhất nhiều thời gian nếu ―khu rừng‖ đó càng rậm rạp

Hình 2.5: Random Forest

Trang 28

2.3.3 K-Nearest Neighbors

K-Nearest Neighbors (KNN – k láng giềng gần nhất) là mô hình học máy có giám sát, trong đó mô hình không học bất cứ thông tin nào từ dữ liệu huấn luyện, mà thuật toán này sẽ bắt đầu tính thức khi cần dự đoán cho dữ liệu mới Do đó, thuật toán KNN được xếp vào nhóm lazy learning

Nguồn: Lê Hoàng Anh 2022

Khi cần dự báo, KNN sẽ tìm ra số ―k‖ các điểm dữ liệu ở gần nhất Đối với bài toán phân loại, KNN sẽ cho ra kết quả dự báo nằm cùng nhóm với ―k‖ điểm dữ liệu gần nhất trong không gian đặc trưng Đối với việc dự báo các giá trị liên tục, KNN sẽ cho ra kết quả là trung bình của ―k‖ dữ liệu gần nhất

Giả sử, Ta cần đưa ra dự đoán cho giá trị đầu ra cho bộ dữ liệu có đặc điểm như sau Đầu tiên, mô hình KNN sẽ phân chia các khu vực dữ liệu có đặc điểm gần như tương đồng với nhau Sau đó, việc quan trọng là

Nguồn: Lê Hoàng Anh 2022

Hình 2.0.8: Cách Ridge tạo hình phạtNguồn:

Hình 2.6: Cách KNN hoạt động

Hình 2.7: Cách KNN hoạt động 2

Trang 29

phải xác định số lượng các láng giềng gần nhất với điểm dữ liệu cần dự báo

(xác định k) Giả sử, k = 3 Mô hình sẽ xác định 3 láng giềng gần nhất với dữ liệu

cần dự báo Sau đó mô hình sẽ tính khoảng cách và chọn ra 3 điểm dữ liệu gần nhất với dữ liệu cần dự báo Cuối cùng, từ 3 điểm dữ liệu đã lựa chọn, mô hình sẽ tính ra giá trị trung bình của 3 điểm dữ liệu đó

Tuy KNN là mô hình rất dễ triển khai, hoạt động tốt trên các vấn đề nhận dạng

cơ bản Nhưng việc xác định ―k” để tính toán rất quan trọng đối với mô hình Mỗi giá trị “k” khác nhau sẽ cho ra kết quả dự báo khác nhau Giá trị “k” nhỏ tạo ra một mô hình phức tạp, gây ra hiện tượng overfitting của bộ dữ liệu Bên cạnh đó, khi “k”

lớn hơn cho ranh giới mượt hơn, tốt hơn cho việc khái quát hóa, nhưng đó là chỉ khi cục bộ dữ liệu được bảo tồn, nếu cục bộ không được bảo tồn thì khi tính toán các dữ liệu ở quá xa, các đặc điểm của cục bộ dữ liệu sẽ không được đảm báo và kết quả của dự báo sẽ không chắc chắn

2.3.4 Ridge Regression

Ridge Regression (Hồi quy Ridge) là mô hình học máy có giám sát Về cơ bản, hồi quy Ridge lấy mục tiêu giống với mục tiêu của Linear Regression Tuy nhiên, Linear Regression có thể bị overfitting nếu bộ dữ liệu có biến động cao Ridge Regression cải thiện được vấn đề này khi bổ sung thêm thuật toán

“regularization” (chính quy hóa) Mô hình này thêm vào Linear Regression một

―penalty‖ (hình phạt), giúp giảm thiểu variance trong mô hình

Cơ sở toán học: 𝐽(𝛽) = 𝑀𝑆𝐸(𝑌, 𝑋𝛽) + 𝜆‖𝛽‖22 (2.2)

Trong đó:

- 𝐽(𝛽): hàm mục tiêu

- 𝑀𝑆𝐸(𝑌, 𝑋𝛽): Mean Squared Error, đo lường sự chênh lệch giữa giá trị dự báo (𝑋𝛽) và giá trị thực tế (𝑌) Công thức tính MSE là 1

𝑛∑𝑛 (𝑌𝑖 − 𝑋𝑖𝛽)2𝑖=1 , trong đó 𝑛 là số lượng mẫu, sẽ được đề cập trong bài nghiên cứu

- 𝜆: mức độ của hình phạt, là một hệ số không âm

- ‖𝛽‖22: hình phạt (penalty) của mô hình Ridge (hay còn gọi là Ridge regularization – chính quy hóa Ridge), là một norm bậc 2 của vector tham

Trang 30

số 𝛽 Công thức của ‖𝛽‖22 = ∑𝑘𝑖=1𝛽𝑖2, trong đó k là số lượng dữ liệu được chia để huấn luyện

Hình 2.5 cho thấy đường màu xanh là đường thể hiện đường thẳng tuyến tính đã thay đổi do hình phạt Ta có thể thấy, mục tiêu của mô hình Ridge là tối thiểu variance (khoảng cách giữa các giá trị dự báo màu xanh và regression line) Để thực hiện việc đó, mô hình tối thiểu hóa hàm 𝐽(𝛽) bằng cách điều chỉnh các trong số 𝛽 sao cho MSE tối thiểu và kiểm soát mức độ overfitting thông qua hình phạt 𝜆‖𝛽‖22

Với ý tưởng là đánh đổi độ chệch (bias) để lấy phương sai (variance), có nghĩa là mô hình chấp nhận một mức độ bias trên tập huấn luyện chênh lệch so với hàm hồi quy tuyến tính, để đạt được một mức độ variance nhỏ hơn khi dự báo

2.3.5 Lasso Regression

Lasso (least absolute shrinkage and selection operator) là một mô hình học máy có giám sát Cũng khá tương đồng với Ridge, khi Lasso thêm vào một thuật toán regularization giúp cải thiện vấn đề overfitting của Linear Tuy nhiên, hình phạt của Lasso có sự khác biệt so với Ridge

- 𝜆: mức độ của hình phạt, là một hệ số không âm

- ‖𝛽‖1: hình phạt (penalty) của mô hình Lasso, là một norm bậc 1 của vector tham số 𝛽 Công thức của ‖𝛽‖1 = ∑𝑘 |𝛽𝑖|

𝑖=1 , trong đó k là số lượng dữ liệu được chia để huấn luyện

Nguồn: StatQuest

Hình 4.1: Thực tế và dự báo của mô hình Random Forest đối với cổ phiếu

TGG khi chưa cải thiệnNguồn:

Hình 2.9: Cách Ridge tạo hình phạt

Hình 2.0.10: Cách Ridge tạo hình phạt

Trang 31

Trong khi Ridge đưa là hình phạt là thành phần chính quy theo tổng bình phương các hệ số (‖𝛽‖22: norm bậc 2), thì Lasso sử dụng tổng giá trị tuyệt đối các hệ số (‖𝛽‖1: norm bậc 1) Do đó, Ridge giảm độ lớn của hệ số nhưng không đưa chúng về 0, các biến vẫn giữ nguyên đối với mô hình, trong khi Lasso có đưa các hệ số về 0, làm cho mô hình trở nên thưa hơn, các biến không quan trọng sẽ bị loại bỏ Cả Ridge lẫn Lasso đều có thể điều chỉnh được mức độ hình phạt thông qua tham số 𝜆 Trong bài nghiên cứu này, tác giả quyết định chọn mức độ hình phạt nguyên thủy, với tham số 𝜆 mặc định là bằng 1

2.3.6 Artificial Neural Network

ANN là hệ thống tính toán lấy cảm hứng từ cách mà não người hoạt động Trong bài nghiên cứu này, tác giả lựa chọn thuật toán MLP (Multi-Layer Perceptron), một thuật toán thuộc họ mạng ANN, để tiến hành nghiên cứu MLP được thiết kể để học và thực hiện dự báo thông qua cấu trúc nhiều lớp (multi-layer) và các nút (perceptron) Mỗi nút thần kinh được tính toán bằng một hàm kích hoạt

Với mục tiêu của bài nghiên cứu, mô hình MLP này sử dụng hàm kích hoạt ―identity‖ Tuy hàm này không làm biến đổi đáng kể các biến đầu vào, trong bài nghiên cứu, mô hình sẽ được huấn luyện 100 lần đối với mỗi mã cổ phiếu với mỗi mức chia tập huấn luyện và tập kiểm tra khác nhau Quá trình học này của MLP sẽ giúp cho mô hình có khả năng vượt trội trong việc tối ưu hóa các hệ số 𝛽 của các biến độc lập Bên cạnh đó, để tránh việc mô hình quá phức tạp, tránh overfitting và đảm bảo hiệu suất tốt cho dự báo, số lớp ẩn được lựa chọn sẽ là 1 và cách lựa chọn số lượng nút là g= ⌊log2(𝑛) + 0.5⌋, trong đó g là số lượng nút và n là số lượng biến đầu vào (Fang & Ma, 2009)

Trang 32

2.4 Các nghiên cứu có liên quan

2.4.1 Các nghiên cứu trong nước

Nghiên cứu của Vũ Thị Loan và ctg (2023) đã đánh giá được tác động của thông tin tài chính và phi tài chính đến giá cổ phiếu trên thị trường chứng khoán VIệt Nam trong giai đoạn từ tháng 1/2017 đến tháng 12/2021 Nghiên cứu sử dụng phương pháp Event Study, một phương pháp thường được sử dụng để nghiên cứu tác động của các sự kiện cụ thể lên giá cổ phiếu và mô hình Random Forest Các kết quả đạt được cho thấy giá cổ phiếu có phản ứng tích cực đối với thông tin tài chính và phi tài chính trong khoảng thời gian quanh sự kiện

Nghiên cứu của Đặng Ngọc Hùng và ctg (2021) đã chỉ ra rằng mô hình Lasso có khả năng phát hiện và tìm ra được các nhân tố quan trọng đến giá cổ phiếu gồm giá trị sổ sách, quy mô của doanh nghiệp, các nhân tốt về khả năng sinh lời và khả năng thanh toán tức thời Bên cạnh đó, nghiên cứu của Bùi Thành Khoa và ctg (2022) cho rằng mô hình hồi quy véc-tơ hỗ trợ (Support Vector Regression – SVR) dự báo tốt hơn mô hình CAPM truyền thống và việc kiểm soát các biến độc lập theo hướng giảm kỳ vọng sẽ giảm sai số trong mô hình SVR Trương Thị Thùy Dương (2023) đã nghiên cứu về chiều biến động của chỉ số chứng khoán bằng thuật toán tăng cường XGBoost và cho rằng các chỉ báo kỹ thuật rất quan trọng trong dự báo chiều biến động của chỉ số VNIndex

Phan Trần Trung Dũng và Lương Ngọc Tuấn Dũng (2020) đã nghiên cứu việc dự báo giá đóng cửa của chỉ số VN30, sử dụng các kiểm định như ADF (Augmented Dickey-Fuller) để kiểm tra tính dừng của chuỗi thời gian và sử dụng đồ thị ACF (Autocorrelation Function) và PACF (Partial Autocorrelation Function) để nhận diện mô hình ARIMA Sau khi ARIMA (2,1,1) hoạt động không hiệu quả, mô hình được mở rộng và cải thiện thành ARIMA (1,1,1) có độ chính xác cao hơn, đặc biệt khi không có biến động bất thường Tuy nhiên, đối với chuỗi lợi suất của chỉ số VN30, mô hình ARIMA không cho kết quả hiệu quả với chỉ số MAPE (Mean Absolute Percentage Error) ở mức quá cao 126,65%

2.4.2 Các nghiên cứu trên thế giới

Karachun và ctg (2021) cho rằng học máy là phương pháp đáng tin cậy hơn nhiều so với các phương pháp dự báo truyền thống Khả năng mở rộng dữ liệu, tích

Trang 33

hợp học máy cùng các phương pháp truyền thống, theo dõi sự khác biệt và hạn chế của mô hình chuỗi thời gian là chìa khóa thành công cho việc dự báo giá cổ phiếu Bên cạnh đó, nghiên cứu của Shah (2007) cho rằng mỗi thuật toán học máy cụ thể có thể phù hợp với một loại cổ phiếu nhất định Ví dụ như cùng một thuật toán, cổ phiếu của công ty công nghệ có thể mang lại dự báo có độ chính xác cao hơn khi dự đoán cổ phiếu của công ty năng lượng

Rahman & Akhter (2021) đã nghiên cứu việc phát triển một mô hình dự báo giá cổ phiếu bằng cách kết hợp nhiều thuật toán học máy như SVR, KNN, Linear Regression và Random Forest Mô hình được Rahman & Akhter (2021) đề xuất gồm hai tầng, trong đó tầng trên chuẩn bị tập dữ liệu từ nhiều nguồn thông tin khác nhau và tầng dưới chịu trách nhiệm phân tích và dự đoán biến động thị trường Theo bảng đánh giá của bài nghiên cứu, mô hình được đề xuất có độ chính xác tương đối cao, với các kết quả tốt hơn so với các mô hình đơn lẻ như SVR, KNN, Linear Regresion, Random Forest

Trong nghiên cứu của Polamuri và ctg (2019) các tác giả đã thực hiện một phân tích chi tiết về dự báo thị trường chứng khoán bằng cách sử dụng nhiều mô hình máy học, bao gồm Linear Regression, Multivariate Regression, Random Forest, và Extra Tree Regressor Dữ liệu đầu vào chủ yếu bao gồm giá cổ phiếu lịch sử của các công ty trong 5 năm qua Mô hình Decision Trre và Random Forest được xác định là hai mô hình hồi quy tốt nhất sau khi so sánh các kết quả Tuy nhiên Random Forest là một phiên bản mở rộng của Decision Tree, trong khi đó Decistion Tree là một mô hình có mức độ overfitting khác cao Bên cạnh đó, các tác chưa thực sự linh hoạt trong việc chia tập huấn luyện và tập kiểm tra khi chỉ chia các tập này với tỷ lệ cố định là 80% dữ liệu huấn luyện và 20% dữ liệu kiểm tra

Các tác giả Nhật Bản rất ưa chuộng việc sử dụng thông tin trên web Ichinose (2015) đã sử dụng tin tức trên web để dự báo sự tăng giảm chỉ số chứng khoán Nikkei và cho rằng việc sử dụng SVM cho các bài toán phân loại mà kết quả đưa ra dựa trên biểu quyết đa số không phải là phương pháp phù hợp Ishiguro (2014) đã sử dụng mạng lưới thần kinh nhân tạo để dự báo tăng trưởng kinh tế trong một quý và cho rằng RNN (mạng thần kinh nhân tạo hồi quy) với cấu trúc mạng đệ quy có

Trang 34

độ chính xác dự báo tương đối cao nhờ việc dùng dữ liệu là thông tin vĩ mô trong kinh tế và các dữ liệu này không trải qua bước lọc nào

Nghiên cứu của Shunrong và ctg (2012) tập trung vào việc dự báo xu hướng thị trường chứng ở Hoa Kỳ bằng cách sử dụng thuật toán học máy SVM (Support Vector Machine) Nghiên cứu sử dụng dữ liệu từ các thị trường chứng khoán toàn cầu để làm đầu vào cho thuật toán SVM Việc này bám sát vào tình hình chung của thế giới Nghiên cứu còn sử dụng các kỹ thuật xử lý dữ liệu để chuẩn bị đầu vào cho mô hình dự đoán, bao gồm việc tạo các biến mới dựa trên sự biến đổi giá cổ phiếu theo thời gian và chuẩn hóa dữ liệu để làm cho các yếu tố có thể so sánh được Kết quả nghiên cứu của mô hình được đánh giá dựa trên các chỉ số như độ chính xác của dự đoán và giá trị RMSE (Root Mean Squared Error) để đo độ sai lệch giữa dự đoán và kết quả thực tế

2.5 Các thông số dùng đánh giá các mô hình

2.5.1 Coefficient of determination

Coefficient of determination (hệ số xác định), hay R2, là hệ số giúp đo lường khả năng giải thích biến động của mô hình đối với bộ dữ liệu R2 có giá trị từ 0 đến 1, trong đó 0 có nghĩa là mô hình không giải thích được biến động của dữ liệu và 1 có nghĩa là mô hình hoàn toàn giải thích được các biến động này

𝑖 : tổng bình phương của hiệu giữa giá trị thực tế và giá trị trung bình của biến phụ thuộc

2.5.2 Mean Squared Error (MSE)

MSE giúp đo lường trung bình của bình phương sai số giữa giá trị dự đoán và giá trị thực tế Giá trị MSE càng nhỏ thì mô hình dự báo càng tốt trên bộ dữ liệu

Cơ sở toán học: MSE = 1

n∑𝑛 (𝑦𝑖 − 𝑦̅)𝑖 2

Trong đó:

- n: số lượng mẫu

Trang 35

- 𝑦𝑖: giá trị thực tế - 𝑦̅: giá trị dự đoán 𝑖

2.5.3 Root Mean Squared Error (RMSE)

RMSE là căn bậc hai của MSE, giúp đơn vị đo lường trở nên tương đồng với đơn vị của biến phụ thuộc

Cơ sở toán học: RMSE = √1

n∑𝑛 (𝑦𝑖− 𝑦̅)𝑖 2

Do đó, RMSE nhấn mạnh sự ảnh hưởng của các giá trị dự đoán có sai số lớn

2.5.4 Mean Absolute Error (MAE)

MAE là chỉ số giúp đo lường trung bình của giá trị tuyệt đối của sai số giữa giá trị dự đoán và giá trị thực tế

Cơ sở toán học: MAE = 1

n∑𝑛𝑖=1|𝑦𝑖− 𝑦̅|𝑖 (2.8) MAE không quan tâm đến hướng của sai số, chỉ số này nhạy với các sai số, không như MSE thường tập trung vào các sai số lớn

TÓM TẮT CHƯƠNG 2

Trong chương 2, tác giả đã đưa các lý thuyết, có sở toán học và các bài nghiên cứu trong và ngoài nước có liên quan đến đề tài nghiên cứu Bên cạnh đó, cái nhìn tổng quát và sự diễn giải cách thức hoạt động của các mô hình ML cũng được đưa ra Ở chương kế tiếp, tác giả sẽ đưa ra góc nhìn về phương pháp nghiên cứu được áp dụng

Trang 36

Chương 3: PHƯƠNG PHÁP NGHIÊN CỨU

3.1 Quy trình nghiên cứu

Giai đoạn 1: Tiền nghiên cứu

Bước 1: Xác định tính cấp thiết và vấn đề, mục tiêu và câu hỏi, đôi tượng và phạm vi của nghiên cứu

Bước 2: Khảo lược cơ sở lý thuyết, các nghiên cứu trước đây có liên quan tới đề tài nghiên cứu

Giai đoạn 2: Chuẩn bị môi trường và dữ liệu nghiên cứu

Bước 1: Cài đặt và chuẩn bị các thư viện python cần thiết

Bước 2: Xây dựng các công cụ để thu thập và xử lý dữ liệu Dữ liệu được thu thập, ngay lập tức được đưa vào quá trình tiền xử lý để đưa ra bộ dữ liệu đạt chuẩn Bước 3: Kiểm tra tính dừng của dữ liệu biến mục tiêu

Giai đoạn 3: Nghiên cứu chính thức

Bước 1: Xây dựng các mô hình ML dùng để dự báo giá cổ phiếu

Bước 2: Huấn luyện, sau đó tối ưu các mô hình ML bằng các phương pháp phù hợp với từng mô hình

Bước 3: Trực quan hóa và phân tích kết quả dựa trên kết quả dự báo của từng mô hình ML đưa ra

Bước 4: Đánh giá và so sánh hiệu suất của từng mô hình Bước 5: Kết luận và đưa ra khuyến nghị

3.2 Phương pháp thu thập dữ liệu

3.2.1 Phương pháp thu thập dữ liệu giá cổ phiếu

Vì bộ dữ liệu cần tới giá qua từng phiên của 394 cổ phiếu Với phương pháp thông thường, đa số các nhà đầu tư sẽ chọn cách lấy dữ liệu file excel từ các website cung cấp thông tin tài chính như CafeF, Vietstock,… Phương pháp này sẽ tốn rất nhiều thời gian và công sức để có thể thu thập toàn bộ 394 mã Bên cạnh đó, sự thiếu sót trong bộ dữ liệu có thể làm tốn thêm nhiều thời gian để có thể thu thập từ các nguồn khác

Vnstock là thư viện Python được thiết kế để tải dữ liệu chứng khoán Việt Nam bằng môi trường python Vnstock sử dụng các nguồn cấp dữ liệu đáng tin cậy, bao

Trang 37

gồm nhưng không giới hạn từ công ty chứng khoán và công ty phân tích thị trường tại Việt Nam

Đầu tiên, cần một danh sách bao gồm 394 mã cổ phiếu sẽ được nghiên cứu Sau đó, tác giả sẽ tiến hành làm việc trực tiếp với file này trên ứng dụng lập trình VS code với môi trường Python để thu thập dữ liệu bằng lệnh sau:

forindata['ticker']:

Trong đó, lệnh ‗pd.read_excel‘ sẽ cho phép chuyển file danh sách 394 mã cổ phiếu (theo đường dẫn cụ thể) từ file Excel (.xlsx) sang một Data Frame trong môi trường Python Sau đó, với từng mã cổ phiếu, tác giả tiến hành thu thập dữ liệu Dữ liệu thu thập được sẽ thuộc định dạng một Data Frame

Dữ liệu của mỗi mã cổ phiếu thu thập được sẽ bao gồm: Ngày tháng, giá mở cửa, giá cao nhất, giá thấp nhất, giá đóng cửa, và khối lượng giao dịch của từng phiên tương ứng Cụ thể, với mã cổ phiếu AAA, dữ liệu thu thập được sẽ như sau:

Bảng 3.1 Dữ liệu cổ phiếu AAA

Nguồn: Tác giả tổng hợp từ vnstock

Tương tự với 393 mã cổ phiếu còn lại Mỗi bộ dữ liệu của từng mã sẽ được thu thập và đưa về dưới dạng một Data Frame

3.2.2 Phương pháp thu thập dữ liệu các độ trễ của tỷ suất sinh lời của từng mã cổ phiếu

Để có được danh sách các độ trễ của tỷ suất lợi Trước hết, phải cần tỷ suất sinh lợi của qua từng phiên Thư viện Pandas cung cấp cho các lập trình viên Python lệnh ―.pct_change()‖, cho phép biến giá trị hiện tại thành giá trị phần trăm thay đổi so với dữ liệu phía trên

Trang 38

defdo_tre(symbol, start_date, end_date, lags=10): df["Today"] =df["close"].pct_change()*100.0 forinrange(, lags):

df["Lag%s"%str(+)] =df["Today"].shift(+)

Ở đây, tác giả đã tạo ra một hàm để tính toán các độ trễ cho bộ dữ liệu, phục vụ cho các tính toán và nghiên cứu sau này Trong đó, ―df‖ là bộ dữ liệu đã được định nghĩa ở trên là bộ dữ liệu chứa các dữ liệu của từng mã cổ phiếu Sau đó tác giả tạo thêm một cột ―Today‖, chứa dữ liệu gồm TSSL đã được tính toán bằng lệnh ‗pct.change()‘ Công thức của ‗pct.change()‘ như sau: 𝑇𝑜𝑑𝑎𝑦𝑖 =𝑐𝑙𝑜𝑠𝑒𝑖−𝑐𝑙𝑜𝑠𝑒𝑖−1

𝑐𝑙𝑜𝑠𝑒𝑖−1 (3.1) Với ‗i‘ là thứ tự các phiên Cụ thể như sau:

Bảng 3.2: Bảng tỷ suất sinh lợi VCB

time Today Lag1 Lag2 Lag3 Lag8 Lag9 Lag10

20-03-12 NaN NaN NaN NaN NaN NaN NaN 21-03-12 0.38 NaN NaN NaN NaN NaN NaN

31-08-23 0 0.79 1.61 0.93 0.34 0.11 0.22 05-09-23 1.12 0 0.79 1.61 -1.56 0.34 0.11

Nguồn: Tác giả tổng hợp

Tương tự với 393 mã cổ phiếu còn lại Mỗi bộ dữ liệu về độ trễ TSSL cũng giống với Bảng 3.2 phía trên Tuy nhiên, vẫn còn vấn đề xảy ra là, các độ trễ của TSSL vẫn còn các giá trị bị trống (NaN)

3.2.3 Phương pháp thu thập dữ liệu các chỉ số tài chính khác 3.2.3.2 Các chỉ số tài chính ở Việt Nam

Các CSTS cũng được thu thập bằng phương thức ‗stock_histotical_data‘ như giá cổ phiếu

df= stock_historical_data(,'2012-03-20','2023-09-05', ‚1D‛, ‚index‛)

Tuy nhiên, cần phải thêm tham số ―resolution‖ là ―1D‖, thể hiện giá trị cần lấy là theo từng phiên, và tham số ―type‖ là ―index‖, để biết các giá trị ―i‖ cần lấy là các chỉ số tài chính ―i‖ trong bài nghiên cứu bao gồm các chỉ số: VNINDEX, HNX, VN30, HNX30, UPCOM

Trang 39

3.2.3.2 Các chỉ số tài chính quốc tế

Khác với bộ dữ liệu giá hay độ trễ của TSSL, Vnstock không cung cấp dữ liệu của các chỉ số tài chính quốc tế Thay vào đó, tác giả sử dụng thƣ viện ‗yfinance‖, là thƣ viện python cung cấp dữ liệu tài chính quốc tế thông qua website Yahoo

datayf.download(symbol, start='2012-03-19', end='2023-09-05') dfy[symbol] =data['Adj Close']

Đầu tiên, cần phải lựa chọn các chỉ số tài chính quốc tế cần thiết phục vụ cho bài nghiên cứu Sau đó, dùng công cụ ‗download‘ của thƣ viện ‗yfinance‘ để thu thập dữ liệu Sau đó, dữ liệu thu thập đƣợc sẽ đƣợc gán vào data frame ‗dfy‘ với các cột là giá đóng cửa đã điều chỉnh của các chỉ số đó

Dữ liệu của các chỉ số tài chính quốc tế thu thập đƣợc thể hiện nhƣ sau:

Bảng 3.3: Dữ liệu các chỉ số tài chính quốc tế

Những dữ liệu thu thập có thể chứa các giá trị NaN không xác định tạo nên sự không ổn định và mất cân bằng trong bộ dữ liệu Sự xuất hiện của những dữ liệu

Trang 40

không phù hợp này gây ảnh hưởng đối với tính toàn vẹn của nghiên cứu Việc xử lý và chuẩn hóa những dữ liệu này trở nên bắt buộc, nhằm đảm bảo tính chính xác và ổn định của bộ dữ liệu, từ đó giúp bảo vệ sự đáng tin cậy của mục đích nghiên cứu

Đối với dữ liệu về độ trễ của TSSL, các giá trị không xác định hoặc những giá trị quá nhỏ (gần như bằng 0) sẽ là những giá trị gây nhiễu, làm độ chính xác của dự báo mà các mô hình ML đưa ra, do đó cần phải được loại bỏ hoặc chuẩn hóa

for,inenumerate(df["Today"]): if (abs() < 0.0001):

df["Today"][i] =0.0001 dfdf.dropna()

Đoạn lệnh trên cho phép gán những giá trị trong dữ liệu độ trễ của các TSSL nhỏ hơn 0.0001 thành giá trị 0.0001, để tránh việc thiếu sót cho bộ dữ liệu Và ‗.dropna()‘ loại bỏ đi những giá trị không xác định để đảm bảo tính trọn vẹn cho bộ dữ liệu Bộ dữ liệu sau khi được chỉnh sửa cụ thể như sau:

Bảng 3.4: Dữ liệu TSSL cổ phiếu VCB sau tiền xử lý

Vì thị trường Việt Nam và thị trường quốc tế sẽ có những ngày giao dịch không trùng nhau Điển hình như ở Việt Nam sẽ có những ngày ngừng giao dịch như lễ, Tết,… khác so với quốc tế Bên cạnh đó, những cổ phiếu hiện tại được niêm yết trên sàn chứng khoán HOSE sẽ tồn tại những mã cổ phiếu ―mới‖, chỉ vừa bắt

Ngày đăng: 05/04/2024, 15:23

Tài liệu cùng người dùng

Tài liệu liên quan