1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô

77 15 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng các mô hình học máy để phân tích và dự báo thị trường chứng khoán Việt Nam dưới tác động của các yếu tố vĩ mô
Tác giả Nguyễn Thị Quỳnh Giao
Người hướng dẫn Lê Hoàng Anh, TS
Trường học Trường Đại học Ngân hàng TP. Hồ Chí Minh
Chuyên ngành Tài chính – Ngân hàng
Thể loại Khóa luận Tốt nghiệp Đại học
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 77
Dung lượng 2,16 MB

Cấu trúc

  • Chương 1: GIỚI THIỆU NGHIÊN CỨU (13)
    • 1.1. Tính cấp thiết của đề tài nghiên cứu (13)
    • 1.2. Mục tiêu nghiên cứu (15)
      • 1.2.1. Mục tiêu tổng quát (15)
      • 1.2.2. Mục tiêu cụ thể (15)
    • 1.3. Câu hỏi nghiên cứu (15)
    • 1.4. Đối tượng và phạm vi nghiên cứu (16)
      • 1.4.1. Đối tượng nghiên cứu (16)
      • 1.4.2. Phạm vi nghiên cứu (16)
    • 1.5. Phương pháp nghiên cứu (16)
      • 1.5.1. Phương pháp thu thập dữ liệu (16)
      • 1.5.2. Phương pháp xử lý dữ liệu (17)
    • 1.6. Nội dung nghiên cứu (18)
    • 1.7. Đóng góp của nghiên cứu (18)
    • 1.8. Cấu trúc của nghiên cứu (18)
    • 2.1. Tổng quan về học máy (Machine learning) (20)
    • 2.2. Tổng quan lý thuyết về các mô hình học máy (23)
      • 2.2.1. Linear Regression (23)
      • 2.2.2. Random Forest (25)
      • 2.2.3. K-Nearest Neighbors (27)
      • 2.2.4. Ridge Regression (28)
      • 2.2.5. Lasso Regression (30)
    • 2.3. Ảnh hưởng của các nhân tố đến chỉ số chứng khoán (31)
      • 2.3.1. Chỉ số giá chứng khoán (31)
      • 2.3.2. Ảnh hưởng của các nhân tố vĩ mô đến chỉ số giá chứng khoán (32)
    • 2.5. Các nghiên cứu có liên quan (34)
      • 2.5.1. Các nghiên cứu trong nước (34)
      • 2.5.2. Các nghiên cứu nước ngoài (36)
    • 2.6. Các thông số dùng để đánh giá mức độ hiệu quả của các mô hình (38)
      • 2.6.1. Coefficient of determination (38)
      • 2.6.2. Mean Squared Error (MSE) (39)
      • 2.6.3. Root Mean Squared Error (RMSE) (39)
      • 2.6.4. Mean Absolute Error (MAE) (40)
  • Chương 3: PHƯƠNG PHÁP NGHIÊN CỨU (41)
    • 3.1. Quy trình nghiên cứu (41)
    • 3.2. Dữ liệu nghiên cứu (42)
      • 3.2.1. Phương pháp thu thập các dữ liệu vĩ mô và các chỉ số trên thị trường Chứng khoán 30 3.2.2. Phương pháp thu thập dữ liệu các độ trễ của tỷ suất sinh lợi của các nhóm ngành tiêu biểu (42)
    • 3.2. Tiền xử lý dữ liệu (43)
      • 3.2.1. Các thư viện cần thiết (43)
      • 3.2.2. Tiến hành khai báo dữ liệu (44)
      • 3.2.3. Kiểm tra tính dừng của bộ dữ liệu (45)
      • 3.2.4. Tính toán độ trễ cho bộ dữ liệu (49)
    • 3.3. Chuẩn hóa dữ liệu nghiên cứu (50)
    • 3.4. Quá trình xây dựng các mô hình học máy (50)
      • 3.4.1. Phân chia tập huấn luyện và tập kiểm tra (51)
      • 3.4.2. Xây dựng mô hình (51)
  • Chương 4: KẾT QUẢ NGHIÊN CỨU (55)
    • 4.1. Thống kê mô tả các biến độc lập (55)
    • 4.2. Kết quả huấn luyện và hiệu suất dự báo của các mô hình (56)
      • 4.2.1. Linear Regression (56)
      • 4.2.2. Random Forest (57)
      • 4.2.3. K-Nearest Neighbors (57)
      • 4.2.4. Lasso Regression (58)
      • 4.2.5. Ridge Regression (59)
    • 4.3. Cải thiện hiệu suất dự báo đối với các mô hình học máy (60)
      • 4.3.1. Cải thiện Linear Regression (60)
      • 4.3.2. Cải thiện Random Forest (61)
      • 4.3.3. Cải thiện K-Nearest Neighbors (62)
      • 4.3.4. Cải thiện Lasso Regression (63)
      • 4.3.5. Cải thiện Ridge Regression (64)
    • 4.4. So sánh và đánh giá hiệu suất của các mô hình (64)
      • 4.4.1. Biến mục tiêu r_vnindex (0)
      • 4.4.2. Biến mục tiêu r_vn30 (0)
      • 4.4.3. Biến mục tiêu r_upcom (0)
      • 4.4.4. Biến mục tiêu banle (0)
      • 4.4.5. Biến mục tiêu bds (0)
      • 4.4.6. Biến mục tiêu ck (0)
      • 4.4.7. Biến mục tiêu nh (0)
      • 4.4.8. Biến mục tiêu thep (0)
  • Chương 5: KẾT LUẬN (70)
    • 5.1. Kết luận (70)
    • 5.2. Hạn chế (71)
    • 5.3. Hướng nghiên cứu tiếp theo .....................................................................60 TÀI LIỆU THAM KHẢO (72)
  • PHỤ LỤC (77)

Nội dung

Nghiên cứu tập trung đánh giá và so sánh hiệu suất dự báo của các mô hình học máy bao gồm: Linear Regression, K-nearest Neighbors, Random Forest, Lasso Regression và Ridge Regression với

GIỚI THIỆU NGHIÊN CỨU

Tính cấp thiết của đề tài nghiên cứu

Thị trường chứng khoán là một phần quan trọng của hệ thống tài chính, là nơi mà các loại tài sản tài chính được phát hành, giao dịch và định giá dựa trên yếu tố cung cầu; cũng là kênh huy động vốn dài hạn cho doanh nghiệp thông qua việc phát hành cổ phiếu, trái phiếu mang lại nguồn tài trợ trọng yếu để mở rộng hoạt động kinh doanh, sản xuất và phát triển

Thị trường chứng khoán Việt Nam đã chứng kiến ​​sự biến động trong hơn hai thập kỷ, bao gồm cả những cột mốc phát triển quan trọng và thách thức Với mục tiêu nâng hạng thị trường chứng khoán vào năm 2025, Chính phủ đang thúc đẩy hội nhập, thu hút nguồn vốn lớn hơn và cải thiện thanh khoản Tuy nhiên, điều này cũng đồng nghĩa với việc thị trường phải đối mặt với những tác động lớn hơn từ các yếu tố vĩ mô và vi mô, cả trong nước và quốc tế, dẫn đến lượng giao dịch và dữ liệu lớn hơn, có thể gây khó khăn cho các mô hình định giá và dự báo truyền thống.

Sự phát triển của Công nghiệp 4.0 đã thúc đẩy ứng dụng rộng rãi của Machine learning (ML) trong nhiều lĩnh vực, đặc biệt là Tài chính – Ngân hàng Với khả năng xử lý và phân tích dữ liệu lịch sử lớn, các mô hình học máy có thể dự đoán xu hướng, mẫu và thông tin ẩn sâu, giúp tối ưu hóa quy trình xử lý dữ liệu và nâng cao độ tin cậy của dự đoán về tương lai, hỗ trợ đưa ra quyết định kinh doanh và chiến lược hiệu quả.

Nghiên cứu về dữ liệu chứng khoán thường tập trung vào hai hướng chính: dự báo và nghiên cứu ảnh hưởng Các nghiên cứu về ảnh hưởng tập trung vào việc phân tích tác động của các yếu tố vĩ mô đến thị trường chứng khoán, bao gồm các nghiên cứu của Nguyễn Thị Như Quỳnh (2019), Nguyễn Thị Phương Thanh (2023), Celebi và Hửnig (2019), Muhammad Kamran Khan và Jian-Zhou Teng (2021) Ngược lại, các nghiên cứu về dự báo thường tập trung vào việc tối ưu hóa các mô hình để dự báo hiệu quả các chỉ số hoặc giá chứng khoán, như nghiên cứu của Harahap, Lipikorn, và Kitamoto (2020), Polamuri, Srinivas, và Mohan (2019), Yuping Song và các cộng sự (2023) Khóa luận này sẽ tập trung vào việc dự báo các chỉ số chứng khoán (VNIndex, VN30-Index, Upcom-Index) và tỷ suất sinh lợi của một số nhóm ngành chính dưới tác động của các yếu tố vĩ mô, sử dụng dữ liệu theo tháng và các mô hình học máy để phân tích và dự báo thị trường chứng khoán Việt Nam.

Mục tiêu nghiên cứu

Khóa luận có mục tiêu tổng quát là sử dụng các mô hình học máy để đánh giá và so sánh khả năng dự báo xu hướng chỉ số VNIndex, VN30 Index, Upcom Index và lợi nhuận của các nhóm ngành tiêu biểu dưới tác động của các yếu tố vĩ mô

Thông qua mục tiêu tổng quát được đề cập bên trên, tác giả làm rõ các mục tiêu cụ thể cần nghiên cứu trong đề tài này như sau:

Bài viết tập trung vào việc thu thập và xử lý dữ liệu, thực hiện kiểm định chất lượng cho các biến đầu vào, sau đó ứng dụng các mô hình học máy vào tập dữ liệu đã được chuẩn hóa để xây dựng mô hình dự báo.

Bài viết này trình bày về việc áp dụng các mô hình học máy để dự báo các chỉ số mục tiêu, bao gồm so sánh, đánh giá và cải thiện mô hình nhằm đạt hiệu suất dự báo tối ưu cho các biến mục tiêu.

- Tìm ra mô hình có hiệu suất dự báo cao nhất đối với từng biến mục tiêu

Bài viết này trình bày kết quả nghiên cứu về ứng dụng học máy trong dự báo các chỉ số tài chính tại Việt Nam Dựa trên những phát hiện, bài viết đưa ra những nhận xét và khuyến nghị cụ thể nhằm thúc đẩy việc ứng dụng học máy hiệu quả hơn trong lĩnh vực này.

Câu hỏi nghiên cứu

Từ các mục tiêu tổng quát và mục tiêu cụ thể nêu trên, đề tài sẽ trả lời cho các câu hỏi nghiên cứu như sau:

- Những biến số nào cần đưa vào mô hình dự báo các chỉ số VNIndex, VN30 Index, Upcom Index và lợi nhuận của các nhóm ngành?

Với cùng một tập dữ liệu đầu vào, các mô hình học máy khác nhau có thể đưa ra những dự đoán khác biệt về cùng một chỉ số, do sự khác biệt trong cấu trúc, thuật toán và cách thức huấn luyện của từng mô hình.

- Mô hình học máy nào mang lại khả năng dự báo tốt nhất về xu hướng cho từng loại chỉ số?

Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu Đối tượng nghiên cứu của khóa luận là các mô hình học máy để đánh giá và so sánh khả năng dự báo xu hướng chỉ số VNIndex, VN30 Index, Upcom Index và lợi nhuận của các nhóm ngành tiêu biểu dưới tác động của các yếu tố vĩ mô

Nghiên cứu này tập trung vào thị trường chứng khoán Việt Nam, sử dụng dữ liệu lịch sử từ 7 yếu tố vĩ mô, 6 chỉ số chứng khoán và tỷ suất sinh lợi của 5 nhóm ngành tiêu biểu.

Phạm vi nghiên cứu về thời gian: Dữ liệu nghiên cứu được thu thập theo tháng từ ngày 01/01/2010 đến 31/12/2023

Các mô hình học máy được sử dụng để dự báo bao gồm: Linear Regression, Random Forest, K-Nearest Neighbors, Lasso Regression, Ridge Regression.

Phương pháp nghiên cứu

1.5.1 Phương pháp thu thập dữ liệu

Bài nghiên cứu sử dụng phương pháp định lượng, hồi quy với dữ liệu chuỗi thời gian Dữ liệu bao gồm các nhân tố vĩ mô như cung tiền M2, lãi suất huy động, lãi suất cho vay liên ngân hàng, CPI, tỷ giá USD/VND, chỉ số chứng khoán (Dow Jones, Nikkei 225, S&P 500, VN-Index, VN30-Index, Upcom-Index), giá dầu và giá vàng thu thập theo tháng từ 01/01/2010 đến 31/12/2023 từ FiinPro-X và Bloomberg.com Ngoài ra, dữ liệu tỷ suất sinh lợi của

Công ty Cổ phần Chứng khoán Rồng Việt đã lựa chọn 5 nhóm ngành tiêu biểu trên thị trường chứng khoán, bao gồm Ngân hàng, Chứng khoán, Bất động sản, Thép và Bán lẻ, dựa trên phương pháp tính toán nội bộ của công ty.

1.5.2 Phương pháp xử lý dữ liệu

Bài nghiên cứu sử dụng ngôn ngữ lập trình Python để triển khai các thuật toán học máy, dự báo xu hướng của các chỉ số chứng khoán và tỷ suất sinh lợi của các nhóm ngành Mô hình sử dụng dữ liệu lịch sử của các yếu tố vĩ mô, được chia thành tập huấn luyện và tập kiểm tra với tỷ lệ khác nhau để tối ưu hóa hiệu quả dự báo Nghiên cứu phân tích sâu các dữ liệu đầu vào, bao gồm phân tích độ tương quan, phân tích chuỗi thời gian, nhằm đánh giá ảnh hưởng của các yếu tố lên chỉ số chứng khoán Việc sử dụng cùng một tập dữ liệu cho phép so sánh hiệu quả của các mô hình học máy khác nhau, giúp lựa chọn mô hình phù hợp cho việc dự báo.

Bài nghiên cứu chia bộ dữ liệu thành các biến sau để nghiên cứu:

Biến phụ thuộc: chỉ số chứng khoán, tỷ suất sinh lợi của các nhóm ngành

Bài viết này phân tích tác động của các yếu tố độc lập như giá dầu, cung tiền M2, lãi suất huy động, lãi suất liên ngân hàng, giá vàng, chỉ số giá tiêu dùng (CPI), tỷ giá USD/VND và các chỉ số chứng khoán (Dow Jones, Nikkei 225, S&P 500) lên thị trường tài chính.

Dữ liệu thu thập được sẽ được tiền xử lý để loại bỏ nhiễu, xử lý giá trị thiếu và loại bỏ các giá trị gần như bằng không Sau đó, tính dừng trong tập dữ liệu sẽ được kiểm tra Các mô hình học máy được xây dựng phù hợp với mục tiêu nghiên cứu và đưa ra dự báo, sau đó sẽ được đánh giá bằng các phương pháp như R-squared, MSE, RMSE và MAE.

Các biến, phương pháp đo lường và nguồn dữ liệu đã được lựa chọn phù hợp với mục tiêu và câu hỏi nghiên cứu Nghiên cứu sẽ sử dụng các biến này để xây dựng và đánh giá hiệu quả của các mô hình học máy trong dự báo chỉ số chứng khoán và tỷ suất sinh lợi của các nhóm ngành trên thị trường chứng khoán Việt Nam.

Nội dung nghiên cứu

Luận văn nghiên cứu tác động của các yếu tố vĩ mô đến hiệu quả dự báo chỉ số và tỷ suất sinh lợi của một số ngành tiêu biểu trên thị trường chứng khoán Việt Nam Sử dụng các mô hình học máy, luận văn tìm ra mô hình dự báo hiệu quả nhất bằng cách phân chia tỷ lệ tập huấn luyện và kiểm tra Dựa trên kết quả dự báo, luận văn đưa ra những khuyến nghị nhằm giúp các chủ thể tham gia thị trường tài chính có góc nhìn mới, đưa ra quyết định đầu tư và quản trị rủi ro tối ưu.

Đóng góp của nghiên cứu

Nghiên cứu này không chỉ mang lại giá trị đóng góp cho sự phát triển của lĩnh vực học máy trong thị trường Tài chính, mà còn giúp mở ra một hướng nghiên cứu, phân tích mới về ứng dụng học máy để dự báo tại Việt Nam Bằng cách cung cấp một công cụ dự báo hiệu quả dựa trên các dữ liệu quá khứ, nghiên cứu này góp phần hỗ trợ nhà đầu tư trong việc đưa ra các quyết định đầu tư thông minh, xây dựng chiến lược đầu tư và quản lý rủi ro, nhằm tối ưu hóa lợi nhuận Ngoài ra, còn giúp Nhà nước và doanh nghiệp kịp thời xây dựng và chuẩn bị các chính sách phát triển phù hợp với tình hình kinh tế

Nghiên cứu này mang ý nghĩa quan trọng cả về mặt lý thuyết và ứng dụng thực tiễn Nó cung cấp một phương pháp phân tích định lượng mới cho nhà đầu tư, đồng thời khuyến khích sự phát triển và ứng dụng rộng rãi của các mô hình học máy trong lĩnh vực tài chính và chứng khoán tại Việt Nam.

Về góc độ khoa học, nghiên cứu này góp phần mở rộng, nâng cao và làm phong phú kiến thức về ứng dụng của học máy trong lĩnh vực Tài chính – Chứng khoán.

Cấu trúc của nghiên cứu

Khóa luận được chia thành 5 chương, mỗi chương bao gồm phần giới thiệu và kết luận Ngoài ra, khóa luận còn có mục lục, danh mục bảng biểu, danh mục sơ đồ, danh mục hình ảnh, danh mục chữ viết tắt, tài liệu tham khảo và phụ lục.

Chương 1: Giới thiệu nghiên cứu

Chương 2: Cơ sở lý thuyết

Chương 3: Phương pháp nghiên cứu

Chương 4: Kết quả nghiên cứu

Chương 5: Kết luận và khuyến nghị

Chương 2: CƠ SỞ LÝ THUYẾT

Tổng quan về học máy (Machine learning)

Theo (A L Samuel 1959), học máy (machine learning– ML) là một nhánh của khoa học và cả nghệ thuật của việc lập trình máy tính để máy tính có thể học hỏi từ dữ liệu Bằng việc sử dụng các kỹ thuật thống kê cho phép máy tính học mà không cần được lập trình một cách rõ ràng

Theo Klaas và Jannes (2019), học máy (ML) mang đến một cách tiếp cận mới trong phát triển phần mềm Trong khi các chương trình máy tính truyền thống được con người lập trình, với các kỹ sư cẩn thận thiết kế và mã hóa từng quy tắc, ML cho phép máy tính tự học và tạo ra các quy tắc thông qua việc phát hiện mẫu dữ liệu.

Học máy (ML) được ứng dụng ban đầu để phân loại email rác dựa trên các yếu tố như thời gian tạo tài khoản, số lượng email gửi đi và từ khóa Sau đó, ML được sử dụng để nhận diện khuôn mặt Qua nhiều năm phát triển, ML đã trở thành một lĩnh vực quan trọng trong nghiên cứu khoa học và ứng dụng công nghiệp, đặc biệt phù hợp với các ngành có dữ liệu phức tạp như dịch vụ tài chính.

Ngành dịch vụ tài chính có bản chất là một ngành xử lý thông tin Quỹ đầu tư sử dụng ML để tiến hành xử lý thông tin, tối đa hóa danh mục đầu tư và dự báo nhằm đánh giá các cơ hội đầu tư, các công ty chứng khoán sử dụng ML để phát hiện gian lận tài chính, công ty bảo hiểm dựa vào thông tin để định giá các hợp đồng bảo hiểm, và ngân hàng bán lẻ thì xử lý thông tin để quyết định sản phẩm nào sẽ được cung cấp cho khách hàng nào Chính vì lý do này, việc ngành tài chính sớm áp dụng ML trong quá trình phân tích, dự báo và đưa ra đánh giá là điều dễ hiểu

Học máy được phân loại thành ba nhánh chính: học có giám sát, học không giám sát và học tăng cường, mỗi nhánh được thiết kế để phục vụ các mục đích nghiên cứu riêng biệt.

Hình 2.1 : Phân loại các mô hình học máy vê

Học có giám sát tìm hiểu mối liên hệ giữa các biến dự đoán và kết quả từ dữ liệu đã được dán nhãn để xây dựng mô hình phân loại dữ liệu mới Hai phương pháp chính trong học có giám sát là phân loại và hồi quy Phân loại dự đoán kết quả thuộc một danh mục, như chẩn đoán bệnh, còn hồi quy dự đoán kết quả liên tục, ví dụ như điểm hoạt động của bệnh.

Hình 2.2 : Học có giám sát

Ngược lại, học không giám sát (unsupervised learning) được sử dụng để phát hiện các mô hình ẩn trong dữ liệu huấn luyện không có nhãn Các phương pháp phân cụm phổ biến nhất như phân cụm phân cấp, phân cụm K-means và mô hình hỗn hợp Gaussian được sử dụng để nhóm dữ liệu thành các cụm chưa được xác định trước đó Phân cụm không giám sát đóng vai trò quan trọng trong nhiều nghiên cứu phân tầng bệnh nhân và xác định các loại bệnh phụ (Mossotto et al., 2017; Orange et al., 2018; David Martớn-Gutiộrrez and Gustavo Hernỏndez-Peủaloza, n.d (2021)).

Hình 2.3 : Học không giám sát

Học tăng cường được thiết kế để tự học và điều chỉnh thông qua phản hồi từ môi trường, giúp cải thiện chức năng mô hình mà không cần dữ liệu có nhãn Điều này có nghĩa là máy tính sẽ tự tương tác với môi trường, tự huấn luyện bản thân bằng cách thử và sai, rút kinh nghiệm từ quá khứ và liên tục cố gắng nắm bắt kiến thức để đưa ra quyết định chính xác.

ML trong tài chính hỗ trợ người dùng tối ưu hóa việc xử lý dữ liệu lớn, phân tích và đưa ra quyết định đầu tư thông minh hơn bằng các mô hình dự đoán dựa trên lịch sử Công nghệ này tự động hóa các quy trình, tiết kiệm thời gian và tối ưu hóa hiệu suất trong giao dịch chứng khoán, quản lý rủi ro tín dụng và tư vấn đầu tư.

Tổng quan lý thuyết về các mô hình học máy

Hồi quy tuyến tính là một thuật toán học có giám sát, được sử dụng rộng rãi để dự đoán dữ liệu và khám phá mối quan hệ giữa biến mục tiêu và một hoặc nhiều biến độc lập.

Khi chỉ có một biến độc lập, thuật toán này được gọi là Hồi quy tuyến tính đơn biến (Simple Linear Regression): y = β 0 + β 1 X

Khi có nhiều hơn một biến độc lập, nó được gọi là Hồi quy tuyến tính đa biến (Multiple Linear Regression) y = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β n X n

• X1, X2,…, Xn: các biến độc lập, là các giá trị trong bộ dữ liệu;

Mục tiêu của thuật toán hồi quy tuyến tính là tìm đường thẳng tối ưu để dự đoán giá trị phụ thuộc dựa trên biến độc lập Điều này đạt được bằng cách giảm thiểu sai số giữa giá trị dự đoán và giá trị thực tế Đường thẳng tối ưu là đường thẳng có sai số nhỏ nhất, với biến phụ thuộc là giá trị liên tục và biến độc lập có thể là liên tục hoặc rời rạc Mối quan hệ tuyến tính giữa các biến được mô hình hóa, sau đó được huấn luyện và điều chỉnh các hệ số β để phù hợp với dữ liệu, sử dụng phương pháp bình phương tối thiểu nhằm giảm thiểu tổng phương sai.

Hình 2.5 : Phương pháp bình phương nhỏ nhất

Hồi quy tuyến tính là một công cụ mạnh mẽ trong phân tích và dự báo, nhưng đòi hỏi sự tuân thủ các điều kiện như tính tuyến tính, độc lập của dữ liệu và đồng nhất phương sai Dễ hiểu, tốc độ xử lý nhanh và hiệu quả, hồi quy tuyến tính được ưa chuộng rộng rãi Tuy nhiên, nó cũng có những hạn chế như không thể biểu diễn các mô hình phức tạp, mối quan hệ phi tuyến tính và nhạy cảm với dữ liệu nhiễu.

Có hai phép đo lường rất quan trọng được sử dụng để định lượng và xác định mức độ chính xác của mô hình hồi quy tuyến tính là: lỗi bình phương trung bình (Mean Squared Error – MSE) và R 2 (tỷ lệ phần trăm biến thiên của biến phụ thuộc y được giải thích bằng mô hình tuyến tính)

Các ứng dụng tiêu biểu của Linear regression là hệ thống chấm điểm tín dụng của các ngân hàng, dự báo tài chính, dự đoán chi phí,…

Biểu đồ 2.1: Các bước thực hiện mô hình Linear regression

Nguồn: tác giả tổng hợp

Thuật toán Rừng Ngẫu Nhiên là một kỹ thuật học có giám sát phổ biến trong học máy Nó hoạt động bằng cách tạo ra nhiều cây quyết định trong quá trình huấn luyện Để khắc phục nhược điểm quá khớp của cây quyết định, mỗi cây trong Rừng Ngẫu Nhiên được xây dựng dựa trên một tập hợp con ngẫu nhiên của dữ liệu và một tập hợp con ngẫu nhiên của các đặc trưng Sự ngẫu nhiên này giúp tăng tính đa dạng giữa các cây, giảm thiểu nguy cơ quá khớp và giữ lại sức mạnh dự đoán, dẫn đến hiệu suất dự đoán tổng thể được cải thiện.

Tính MSE của output (test & predict)

Kiểm tra model (testing data)

Huấn luyện model (training data)

Chia tỷ lệ tập huấn luyện và tập kiểm tra

Tạo tập dữ liệu input và output

Nguồn: (Random Forest Algorithm in Machine Learning - GeeksforGeeks n.d.)

Random Forest là một thuật toán học có giám sát nổi tiếng trong lĩnh vực học máy, được biết đến với khả năng dự đoán và phân loại dữ liệu hiệu quả Thuật toán này giảm thiểu hiện tượng quá khớp bằng cách kết hợp trung bình các dự đoán từ nhiều cây quyết định, giúp mô hình có khả năng tổng quát hóa tốt hơn Hơn nữa, độ chính xác của Random Forest khá cao nhờ vào việc sử dụng nhiều cây quyết định, mỗi cây đóng góp vào dự đoán cuối cùng, tạo nên một mô hình mạnh mẽ hơn so với chỉ sử dụng một cây duy nhất.

Tuy nhiên, việc sử dụng nhiều cây quyết định trong mô hình Random Forest cũng dẫn đến khối lượng công việc xử lý tăng lên do tất cả các cây phải đưa ra dự đoán cho cùng một đầu vào và bỏ phiếu chung Điều này khiến Random Forest hoạt động chậm hơn và tốn thời gian hơn so với các mô hình đơn giản khác.

Biểu đồ 1 2: Các bước thực hiện mô hình Random Forest

Nguồn: tác giả tổng hợp

K-Nearest Neighbors (k láng giềng gần nhất – KNN) là một thuật toán thuộc nhóm học có giám sát được ứng dụng rộng rãi trong nhận dạng mẫu, khai thác dữ liệu và phát hiện xâm nhập Mô hình này được phát triển lần đầu bởi Evelyn Fix và Joseph Hodges vào năm 1951 và sau đó được mở rộng bởi Thomas Cover

Thuật toán phân loại phi tham số này sử dụng phương pháp so sánh để xác định lớp của một quan sát mới Nó tìm kiếm một số lượng nhất định (k) quan sát tương tự trong không gian đặc trưng và dựa vào lớp của những quan sát này để phân loại quan sát mới Điều này có nghĩa là lớp của quan sát mới được xác định thông qua sự tương đồng với các quan sát đã biết trước.

Hình 2.7 : Cách hoạt động của mô hình KNN

Khi biểu diễn dữ liệu trên đồ thị, ta có thể nhận diện các cụm hoặc nhóm khác biệt Dựa vào vị trí của các điểm dữ liệu lân cận, ta có thể xác định nhóm của một điểm dữ liệu chưa được phân loại.

Chọn kết quả dự đoán có nhiều phiếu nhất

Thực hiện bỏ phiếu cho từng kết quả dự đoán

Nhận kết quả dự đoán từ mỗi cây quyết định

Xây dựng cây quyết định cho các mẫu được chọn

KNN dựa trên việc phân loại điểm dữ liệu mới dựa trên các điểm dữ liệu lân cận gần nhất Số lượng láng giềng (k) là yếu tố quyết định kết quả phân loại KNN có ưu điểm là không tham số, ít bị ảnh hưởng bởi các giá trị ngoại lệ Tuy nhiên, việc lựa chọn k phù hợp rất quan trọng, nếu k nhỏ có thể dẫn đến overfitting, ảnh hưởng đến khả năng dự đoán chính xác của mô hình.

Biểu đồ 2 2 : Các bước thực hiện mô hình KNN

Nguồn: tác giả tổng hợp

Hồi quy Ridge (hay còn gọi là L2 Regularization) là một biến thể của hồi quy tuyến tính Trong thống kê, mô hình phương sai tối thiểu (OLS) và hồi quy Ridge là hai phương pháp được sử dụng rộng rãi OLS là phương pháp truyền thống, tìm đường hồi quy tốt nhất bằng cách tối thiểu hóa tổng bình phương sai số Tuy nhiên, khi số lượng biến dự báo lớn, OLS có thể dẫn đến phương sai cao và hiện tượng overfitting.

Dự đoán phản hồi của unknown data point

Để tìm K mẫu tối ưu trong dữ liệu huấn luyện, ta sử dụng Ridge Regression Phương pháp này thêm một thành phần điều chuẩn (λ) vào mô hình, giúp thu nhỏ các hệ số hồi quy về gần bằng không, giảm phương sai và cải thiện hiệu suất dự đoán Khi λ = 0, Ridge Regression tương đương với hồi quy OLS cơ bản Tuy nhiên, khi λ > 0, các hệ số hồi quy bị ràng buộc, làm tăng sự thiên lệch và giảm phương sai Việc tăng giá trị λ sẽ làm cho các hệ số tiến dần về không, dẫn đến một số hệ số bằng 0 và một số khác có giá trị rất lớn, giảm sự linh hoạt của mô hình.

Công thức của hồi quy Ridge được biểu diễn như sau:

• 𝑀𝑆𝐸(𝑌, 𝑋𝛽): Mean Squared Error, đo lường sự chênh lệch giữa giá trị dự báo (𝑋𝛽) và giá trị thực tế (𝑌) Công thức tính MSE là 1

𝑋 𝑖 𝛽) 2 , trong đó 𝑛 là số lượng mẫu

• 𝜆: mức độ của hình phạt, là một hệ số không âm

• ‖𝛽‖ 2 2 : hình phạt (penalty) của mô hình Ridge (hay còn gọi là Ridge regularization – chính quy hóa Ridge), là một norm bậc 2 của vector tham số 𝛽 Công thức của ‖𝛽‖ 2 2 = ∑ 𝑘 𝑖=1 𝛽 𝑖 2 , trong đó k là số lượng dữ liệu được chia để huấn luyện

Hình 2.8 : Cách Ridge tạo hình phạt

Nguồn: (Ridge and Lasso Regression - Andrea Perlato n.d.)

Trong hồi quy Ridge, mục tiêu là giảm thiểu phương sai, tức là khoảng cách giữa các giá trị dự báo và đường hồi quy Khi λ tăng, độ dốc của hồi quy Ridge sẽ giảm xuống, nhưng sẽ không bao giờ bằng không, dù λ có lớn đến đâu.

Ảnh hưởng của các nhân tố đến chỉ số chứng khoán

2.3.1 Chỉ số giá chứng khoán

Chỉ số giá chứng khoán là một thước đo thống kê quan trọng, phản ánh biến động của thị trường tài chính Theo chuyên gia Bùi Kim Yến,

Chỉ số giá chứng khoán phản ánh giá trung bình của cổ phiếu tại một ngày nhất định so với ngày gốc Chúng hoạt động như những chỉ báo về hiệu suất, thể hiện hiệu quả của một phân khúc thị trường cụ thể (ví dụ: VN30) hoặc của toàn bộ thị trường (Vn-Index).

• 𝑃 1𝑖 : Giá hiện hành của cổ phiếu i

• 𝑄 1𝑖 : Khối lượng đang lưu hành (khối lượng niêm yết) của cổ phiếu i

• 𝑃 0𝑖 : Giá của cổ phiếu i thời kì gốc

• 𝑄 0𝑖 : Khối lượng của cổ phiếu i tại thời kì gốc

2.3.2 Ảnh hưởng của các nhân tố vĩ mô đến chỉ số giá chứng khoán

Nhiều nghiên cứu đã chỉ ra mối quan hệ giữa các biến số vĩ mô và chỉ số giá cổ phiếu Các kết quả nghiên cứu cho thấy có sự liên hệ giữa lạm phát, lãi suất, tỷ giá hối đoái và giá cổ phiếu Bên cạnh đó, các biến số vĩ mô khác như lãi suất, chỉ số công nghiệp, cung tiền, cũng được xác định là có ảnh hưởng nhất định đến giá cổ phiếu

Tỷ giá hối đoái phản ánh giá trị tương đối giữa hai đơn vị tiền tệ Mặc dù nhiều nghiên cứu đã xem xét tác động của tỷ giá hối đoái lên giá cổ phiếu, nhưng kết quả nghiên cứu vẫn chưa thống nhất Một số nghiên cứu cho thấy mối quan hệ đồng thuận giữa tỷ giá hối đoái và giá cổ phiếu, trong khi những nghiên cứu khác lại chỉ ra mối quan hệ nghịch đảo Do đó, mối quan hệ giữa tỷ giá hối đoái và giá cổ phiếu vẫn chưa được xác định rõ ràng.

Lãi suất thấp hơn đồng nghĩa với chi phí vốn của doanh nghiệp giảm, khuyến khích đầu tư và tăng lợi nhuận, nâng cao giá trị doanh nghiệp Điều này dẫn đến giá cổ phiếu tăng, ảnh hưởng tích cực đến thị trường chứng khoán Đồng thời, lãi suất thấp làm giảm sức hấp dẫn của kênh đầu tư truyền thống, khiến các nhà đầu tư chuyển vốn vào các kênh đầu tư có lợi nhuận cao hơn như chứng khoán và bất động sản, thúc đẩy thị trường chứng khoán tăng trưởng.

Lạm phát là sự gia tăng mức giá chung một cách liên tục của hàng hóa hay dịch vụ theo thời gian và là sự mất giá của một loại tiền tệ nào đó (Gregory Mankiw, 2012) Lạm phát có ảnh hưởng mạnh mẽ đến thị trường chứng khoán thông qua tác động lên tình hình kinh doanh và sản xuất của các doanh nghiệp Việc tăng lạm phát đồng nghĩa với sự gia tăng chi phí của các yếu tố sản xuất trong nền kinh tế Khi chi phí nguyên liệu thô và đầu vào sản xuất tăng cao, các doanh nghiệp gặp nhiều khó khăn hơn trong việc duy trì hoạt động sản xuất và kinh doanh trong bối cảnh kinh tế biến động Chi phí sản xuất tăng cao làm giảm lợi nhuận doanh nghiệp, vì giá sản phẩm tăng khiến người tiêu dùng giảm chi tiêu hoặc chuyển sang các sản phẩm thay thế Do đó, giá cổ phiếu của các công ty niêm yết có xu hướng giảm do lo ngại về triển vọng tăng trưởng của doanh nghiệp trong tương lai Ngoài ra, lạm phát cao thường dẫn đến việc chính phủ áp dụng các chính sách cắt giảm chi tiêu và thắt chặt tiền tệ để kiểm soát lạm phát và duy trì sự ổn định kinh tế vĩ mô Việc thắt chặt tiền tệ này làm cho lãi suất thị trường tăng lên, gây khó khăn cho các doanh nghiệp trong việc tiếp cận nguồn vốn chi phí thấp cho hoạt động sản xuất và kinh doanh

Việc tăng cung tiền có thể thúc đẩy tăng trưởng kinh tế và tạo ra việc làm mới, từ đó tăng thu nhập của người dân và làm tăng tổng cầu Tổng cầu gia tăng sẽ kích thích phát triển sản xuất, qua đó có tác động tích cực đến thị trường chứng khoán Mặt khác, việc tăng cung tiền cũng có thể gây ra lạm phát, ảnh hưởng đến tâm lý của các nhà đầu tư Để kiểm soát lạm phát, ngân hàng trung ương thường sẽ áp dụng chính sách thắt chặt cung tiền, điều này làm giảm dòng vốn vào thị trường chứng khoán Hậu quả là, nhà đầu tư có xu hướng bán cổ phiếu nhiều hơn và giảm việc mua vào, dẫn đến sự giảm sút của giá cổ phiếu

2.4 Ảnh hưởng của các nhân tố vĩ mô đến tỷ suất sinh lợi của các nhóm ngành trên thị trường chứng khoán

Trong nhiều thập kỷ, mối liên hệ giữa các biến số kinh tế vĩ mô và lợi nhuận chứng khoán đã được nghiên cứu kỹ lưỡng (Nguyễn Hồng Hải, 2024; Nguyễn Thị Như Quỳnh và Võ Thị Hương Linh, 2019; Harahap, Lipikorn, và Kitamoto, 2020) Tuy nhiên, vẫn còn thiếu sót trong nghiên cứu mối quan hệ này khi phân tích theo từng chỉ số ngành cụ thể của thị trường chứng khoán.

Các nghiên cứu có liên quan

2.5.1 Các nghiên cứu trong nước Đầu tiên phải kể đến một nghiên cứu vừa mới hoàn thiện trong năm 2024 của tác giả Nguyễn Hồng Hải (2024) về ứng dụng học máy vào nghiên cứu thị trường chứng khoán Việt Nam dưới ảnh hưởng của các nhân tố vĩ mô Dự báo chỉ số VN-Index với các nhân tố vĩ mô và nghiên cứu ảnh hưởng của các nhân tố vĩ mô đến chỉ số VN30 Với bài toán dự báo: Dữ liệu dự báo là khoảng thời gian từ 1/6/2002 đến 1/6/2023 với 253 quan sát Các biến sử dụng gồm: chỉ số VN-Index, chỉ số CPI, tỷ giá USD / VND, lãi suất, chỉ số SP500 và HSI50, giá dầu WTI và BRENT, giá vàng và chỉ số USD Với bài toán nghiên cứu ảnh hưởng: Dữ liệu nghiên cứu ảnh hưởng là khoảng thời gian từ 1/2/2014 đến 1/6/2023 với 113 quan sát Các biến sử dụng gồm: Chỉ số VN30, chỉ số CPI, tỷ giá USD / VND, lãi suất, chỉ số (SP500, CSI300, N500, KS50, STOXX50, HSI50), giá dầu WTI và BRENT, giá vàng, chỉ số USD, giá BITCOIN Kết quả dự báo cho thấy rằng với tỷ lệ huấn luyện : kiểm tra là 80% : 20% thì mô hình KNN tốt nhất, trong khi với tỷ lệ huấn luyện : kiểm tra là 90% : 10% thì mô hình SVR tốt nhất; còn với tỷ lệ huấn luyện : kiểm tra là 70% : 30% thì mỗi mô hình đều có ưu và nhược điểm riêng Nghiên cứu đề xuất sử dụng trường hợp với mô hình KNN khi chỉ số R 2 và độ chính xác lần lượt là 17% và 63% ở tập kiểm tra; khi trường hợp với mô hình SVR thì lần lượt chỉ là 7% và 60% Với bài toán nghiên cứu ảnh hưởng: Kiểm định đồng liên kết Bounds cho thấy rằng các biến có liên hệ dài hạn với nhau

Nghiên cứu của Nguyễn Thị Như Quỳnh và cộng sự (2019) đo lường tác động của 6 nhân tố kinh tế vĩ mô bao gồm: giá dầu, lãi suất, chỉ số giá tiêu dùng, cung tiền M2, tỷ giá hối đoái và giá vàng đến chỉ số VNIndex giai đoạn 2008-2018 bằng mô hình VECM Kết quả nghiên cứu chỉ ra trong dài hạn, lạm phát nhân tố tác động tích cực đến VN-Index, trong khi lãi suất là yếu tố tác động tiêu cực Ngoài ra, nghiên cứu còn chỉ ra mối quan hệ cùng chiều giữa VN-Index với lãi suất, cung tiền, giá dầu và mối quan hệ ngược chiều với lạm phát và tỷ giá

Nghiên cứu của Nguyễn Thị Như Quỳnh và Lê Võ Hoài Thương (2024) được thực hiện nhằm cung cấp thêm bằng chứng khoa học về hướng và mức độ tác động của chính sách tiền tệ lên chỉ số thị trường chứng khoán Việt Nam thông qua việc sử dụng mô hình tự hồi quy cấu trúc (SVAR) với dữ liệu chuỗi thời gian hàng tháng từ 01/2010 – 12/2021 Kết quả cho thấy chỉ số chứng khoán VnIndex phản ứng cùng chiều với sự gia tăng cung tiền và ngược chiều với sự gia tăng lãi suất liên ngân hàng Đáng chú ý, phản ứng của VNI trước thay đổi của cung tiền mạnh hơn so với thay đổi của lãi suất liên ngân hàng Dựa trên những kết quả này, nghiên cứu đề xuất một số hàm ý chính sách để đảm bảo sự phát triển bền vững của thị trường chứng khoán

Nghiên cứu của Nguyễn Thị Liên và cộng sự (2021) sử dụng mô hình GARCH-MIDAS để đánh giá ảnh hưởng của các biến số vĩ mô lên biến động dài hạn của thị trường chứng khoán Việt Nam Kết quả cho thấy các biến số vĩ mô có tác động đáng kể, nhưng mức độ tác động thay đổi tùy theo tình huống Trong điều kiện bình thường, tác động lớn hơn so với thời kỳ khủng hoảng kinh tế toàn cầu Lãi suất có ảnh hưởng mạnh hơn GDP, nhưng GDP có tác động lâu dài hơn Hơn nữa, các biến số vĩ mô có tác động mạnh hơn đối với HNX-Index so với VN-Index.

Nghiên cứu của Nguyễn Quốc Tuấn (2024) sử dụng mô hình N-BEATS để dự báo VnIndex, đạt độ chính xác cao với MAE là 11.139 và MAPE là 0.928%, cho thấy dự báo gần tương đồng với thực tế thị trường Điều này chứng minh tiềm năng của mô hình N-BEATS trong việc dự báo chuỗi thời gian của chỉ số chứng khoán Việt Nam, mở rộng ứng dụng của mô hình này ngoài các lĩnh vực như năng lượng và thời tiết.

Nghiên cứu của Đặng Thị Minh Nguyệt và cộng sự (2023) phân tích tác động của các yếu tố vĩ mô và nội tại đến thị giá cổ phiếu (TGCP) ngành ngân hàng từ năm 2014 đến 2021, sử dụng mô hình ảnh hưởng ngẫu nhiên (REM) và mô hình ảnh hưởng cố định (FEM) Kết quả cho thấy mô hình REM phù hợp hơn để nghiên cứu các yếu tố ảnh hưởng đến TGCP Nghiên cứu xác định tốc độ tăng trưởng GDP và tỷ giá hối đoái (EX) có tác động tích cực và có ý nghĩa thống kê đối với TGCP, trong khi tỷ lệ lạm phát (INF) có tác động tiêu cực.

2.5.2 Các nghiên cứu nước ngoài

Nghiên cứu của Harahap, Lipikorn, and Kitamoto (2020) đã sử dụng tỷ giá USD/Yen, giá vàng, giá dầu, chỉ số chứng khoán New York để dự báo chỉ số Nikkei 225 (N225) và Nikkei 400 (N400) từ 20/07/2009 đến 19/07/2019 Họ đã áp dụng các mô hình học máy SVR, DNN, BPNN với tỷ lệ chia tập huấn luyện và kiểm tra khác nhau (60%, 70%, 80%, 90%) Kết quả cho thấy, SVR là mô hình dự báo tốt nhất cho N225, trong khi DNN hiệu quả hơn cho N400.

Polamuri, Srinivas, and Mohan (2019) đã thực hiện nghiên cứu về việc dự báo thị trường Chứng khoán bằng cách sử dụng nhiều mô hình học máy như Linear Regression, Multivariate Regression, Random Forest, và Extra Tree Regressor Dữ liệu đầu vào chủ yếu bao gồm giá cổ phiếu lịch sử của các công ty trong 5 năm qua

Kết quả so sánh cho thấy mô hình Decision Tree và Random Forest là hai mô hình hồi quy hiệu quả nhất Random Forest là phiên bản nâng cao của Decision Tree, giúp giảm thiểu tình trạng overfitting vốn có ở Decision Tree Tuy nhiên, việc chia tập huấn luyện và tập kiểm tra với tỷ lệ cố định 80/20 chưa thể hiện sự linh hoạt trong nghiên cứu.

Nghiên cứu của Bhuiyan and Chowdhury (2020) đã phân tích mối quan hệ giữa các biến số kinh tế vĩ mô và các chỉ số ngành cụ thể của thị trường chứng khoán Mỹ và Canada trong giai đoạn từ 01/2000 – 06/2018, sử dụng kỹ thuật chuỗi thời gian và chỉ số S&P500 cho thị trường Mỹ.

Nghiên cứu phân tích ảnh hưởng của các biến số kinh tế vĩ mô ở Mỹ và Canada đối với các chỉ số chứng khoán, bao gồm cả chỉ số tổng hợp và theo ngành Kết quả cho thấy các biến số kinh tế vĩ mô ở Mỹ có ảnh hưởng đáng kể đến các chỉ số chứng khoán của nước này, cả tổng hợp lẫn theo ngành, nhưng độ nhạy cảm của các ngành khác nhau Tuy nhiên, đối với Canada, không có mối liên hệ nào được tìm thấy giữa các biến số kinh tế vĩ mô và các chỉ số chứng khoán.

Nghiên cứu của Bhandari et al (2022) ứng dụng mô hình LSTM (Long Short-Term Memory) để dự đoán giá đóng cửa của S&P 500, sử dụng chín yếu tố bao gồm dữ liệu thị trường, kinh tế vĩ mô và kỹ thuật Các chỉ số RMSE, MAPE và Hệ số Tương quan được dùng để đánh giá hiệu quả mô hình Kết quả cho thấy mô hình LSTM đơn lớp đạt độ chính xác cao hơn so với mô hình đa lớp.

Các thông số dùng để đánh giá mức độ hiệu quả của các mô hình

Hệ số xác định (R²) là một thước đo quan trọng trong thống kê, phản ánh khả năng dự đoán của mô hình R² cho biết phần biến thiên của biến phụ thuộc được giải thích bởi mô hình, phản ánh mức độ phù hợp giữa mô hình và dữ liệu quan sát.

R 2 = (r) 2 Trong đó: r là hệ số tương quan Pearson

Cơ sở toán học sử dụng kết quả hồi quy:

• RSS là tổng bình phương của các phần dư;

• TSS là tổng bình phương của tổng số

R² có giá trị trong khoảng từ 0 đến 1, với 0 biểu thị mô hình không có khả năng dự đoán và 1 biểu thị mô hình dự đoán hoàn hảo Nói cách khác, giá trị R² càng gần 1, mô hình càng có khả năng dự đoán chính xác kết quả

Hình 2.10 : Mô tả R 2 của hai tập dữ liệu mẫu

Biểu đồ của tập dữ liệu đầu tiên cho thấy mô hình có độ chính xác cao, thể hiện bằng giá trị R² lớn Điều này chứng tỏ các điểm dữ liệu nằm gần đường hồi quy tốt nhất, nghĩa là dự đoán của mô hình gần với các quan sát thực tế.

Ngược lại, ở tập dữ liệu thứ hai, khi giá trị R² thấp, các quan sát lại nằm xa các dự đoán của mô hình Điều này có nghĩa là, khi R² thấp, nhiều điểm dữ liệu sẽ cách xa đường hồi quy tốt nhất

Chỉ số Mean Squared Error (MSE) là một thước đo phổ biến để đánh giá hiệu suất của các mô hình hồi quy MSE tính toán trung bình bình phương của sai số dự đoán, tức là khoảng cách giữa giá trị dự đoán và giá trị thực tế Một giá trị MSE thấp cho thấy mô hình phù hợp tốt hơn với dữ liệu.

Cơ sở toán học: MSE = 1 n∑ 𝑛 𝑖=1 (𝑦 𝑖 − 𝑦̅) 𝑖 2 Trong đó:

• 𝑦 𝑖 : giá trị quan sát thứ i

• 𝑦̅: giá trị dự đoán tương ứng 𝑖 Để tính MSE, ta thực hiện các bước sau: lấy mỗi giá trị quan sát 𝑦 𝑖 , trừ đi giá trị dự đoán 𝑦̅ 𝑖 , rồi bình phương kết quả Thực hiện việc này cho tất cả các quan sát Sau đó, tổng hợp tất cả các giá trị bình phương và chia cho tổng số quan sát 𝑛

2.6.3 Root Mean Squared Error (RMSE)

Công thức RMSE là một biến thể của công thức độ lệch chuẩn, dễ hiểu đối với những người có nền tảng thống kê RMSE đo lường độ lệch chuẩn của các phần dư, thể hiện sự khác biệt giữa giá trị thực tế và giá trị dự đoán.

Cơ sở toán học: RMSE = √ ∑ 𝑛 𝑖=1 (𝑦 𝑖 −𝑦 ̅ ) 𝑖 2

• P: số lượng tham số được ước lượng, bao gồm cả hằng số

• 𝑦 𝑖 : giá trị quan sát thứ i

• 𝑦̅: giá trị dự đoán của quan sát thứ i 𝑖

RMSE được tính toán bằng cách tính phần dư (𝑦 𝑖 − 𝑦̅) cho mỗi quan sát 𝑖, bình phương các phần dư này, tổng hợp tất cả các phần dư bình phương, chia tổng này cho số bậc tự do (N-P) của mô hình để tìm ra lỗi bình phương trung bình (MSE), và cuối cùng lấy căn bậc hai của MSE để xác định giá trị RMSE.

Sai số trung bình tuyệt đối (MAE) là giá trị trung bình của các sai số tuyệt đối Công thức tính MAE như sau:

• Σ: ký hiệu tổng (có nghĩa là "cộng tất cả lại");

• |𝑥 𝑖 − x|: các sai số tuyệt đối

Chương 2 đưa ra cơ sở lý thuyết liên quan đến đề tài nghiên cứu như: tổng quan về học máy, phân loại học máy, cách thức hoạt động của các mô hình học máy, lý thuyết về sự ảnh hưởng của các nhân tố vĩ mô đến chỉ số chứng khoán và chỉ số ngành, lược khảo các nghiên cứu trong và ngoài nước liên quan đến chủ đề nghiên cứu và các thông số dùng để đánh giá mức độ hiệu quả của các mô hình Hầu hết các mô hình được sử dụng cho bài nghiên cứu đều là thuật toán học có giám sát, và ở chương 3, tác giả sẽ trình bày về phương pháp nghiên cứu của đề tài.

PHƯƠNG PHÁP NGHIÊN CỨU

Quy trình nghiên cứu

Để cung cấp các giải pháp mới và thông minh cho các câu hỏi nghiên cứu ngày càng phức tạp, các mô hình học máy cần phải học hỏi và phát triển từ dữ liệu hiện có, cũng như liên tục cải thiện chúng trong môi trường luôn thay đổi Các bước cơ bản trong việc xây dựng mô hình ML bao gồm: thiết kế nghiên cứu, thu thập dữ liệu, chuẩn bị dữ liệu, huấn luyện mô hình, đánh giá mô hình và cải thiện hiệu suất

Hình 3.1 : Các bước của quy trình nghiên cứu

Nguồn: Junjie Peng và cộng sự (2021)

Thiết kế nghiên cứu hiệu quả cần giải đáp các câu hỏi then chốt: mục tiêu nghiên cứu là gì, cần thu thập dữ liệu nào, và mô hình học máy nào phù hợp để giải quyết mục tiêu đó Việc xác định chính xác những yếu tố này là bước nền tảng để xây dựng mô hình học máy hiệu quả.

Thu thập dữ liệu đóng vai trò cốt lõi trong Machine Learning, quyết định trực tiếp hiệu quả của mô hình Chất lượng dữ liệu ảnh hưởng đến khả năng học, cải thiện và đưa ra suy luận chính xác của mô hình Mô hình được xây dựng từ dữ liệu huấn luyện và được đánh giá bằng dữ liệu kiểm tra, sau đó được tối ưu hóa thông qua quá trình huấn luyện và đánh giá liên tục.

Dữ liệu nghiên cứu

3.2.1 Phương pháp thu thập các dữ liệu vĩ mô và các chỉ số trên thị trường Chứng khoán

Dữ liệu nghiên cứu là dữ liệu theo tháng được lấy từ các nguồn như FiinPro-

X và Bloomberg.com bao gồm dữ liệu lịch sử của các nhân tố vĩ mô như: cung tiền M2, lãi suất huy động, lãi suất cho vay liên ngân hàng, chỉ số giá tiêu dùng (CPI), tỷ giá USD/VND; các chỉ số chứng khoán (Dow Jones, Nikkei 225, S&P 500, VN- Index, VN30-Index, Upcom-Index) và các chỉ số khác (giá dầu, giá vàng) từ ngày 01/01/2010 đến 31/12/2023

3.2.2 Phương pháp thu thập dữ liệu các độ trễ của tỷ suất sinh lợi của các nhóm ngành tiêu biểu

Dữ liệu tỷ suất sinh lợi (TSSL) của 5 nhóm ngành tiêu biểu (Ngân hàng, Chứng khoán, Bất động sản, Thép, Bán lẻ) trên thị trường chứng khoán được thu thập theo cách tính nội bộ của Công ty Cổ phần Chứng khoán Rồng Việt Được tính dựa trên dữ liệu từ tỷ suất sinh lợi của các cổ phiếu trong ngành và tỷ trọng vốn hóa thị trường của cổ phiếu so với toàn ngành

• 𝑟 𝑖 : Tỷ suất sinh lợi của cổ phiếu i,

𝑐𝑙𝑜𝑠𝑒 𝑡−1 ; Trong đó: o 𝑐𝑙𝑜𝑠𝑒 𝑡 : giá đóng cửa ngày t o 𝑐𝑙𝑜𝑠𝑒 𝑡−1 : giá đóng cửa ngày t – 1

• 𝑚 𝑖 : Tỷ trọng vốn hóa thị trường của cổ phiếu i so với tổng vốn hóa toàn ngành;

• N: Số lượng cổ phiếu trong ngành

Bảng 3.1 : Mô tả các biến dữ liệu trong nghiên cứu

Bài viết cung cấp danh sách các biến được sử dụng trong hệ thống dữ liệu, bao gồm các chỉ số chứng khoán như VN30, VNIndex, Upcom, Dow Jones, Nikkei 225, S&P 500, giá dầu thế giới WTI, giá vàng, lãi suất huy động, lãi suất liên ngân hàng, chỉ số giá tiêu dùng, tỷ giá hối đoái USD/VND, cung tiền M2 của Việt Nam Nguồn dữ liệu cho các biến này chủ yếu đến từ FiinPro-X và Bloomberg.

Bán lẻ Tỷ suất sinh lợi ngành Bán lẻ VDSC

BĐS Tỷ suất sinh lợi ngành Bất động sản VDSC

CK Tỷ suất sinh lợi ngành Chứng khoán VDSC

NH Tỷ suất sinh lợi ngành Ngân hàng VDSC

Thép Tỷ suất sinh lợi ngành Thép VDSC

Nguồn: tác giả tổng hợp

Tiền xử lý dữ liệu

3.2.1 Các thư viện cần thiết

Các thư viện cần thiết cho bài nghiên cứu bao gồm: pandas, numpy, matplotlib, seaborn os và statsmodels import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os import statsmodels.tsa.stattools as ts import warnings warnings.filterwarnings('ignore') warnings.simplefilter('ignore')

Cụ thể, thư viện pandas giúp xử lý và phân tích dữ liệu dạng bảng, trong khi đó numpy hỗ trợ các phép tính toán trên mảng số Để trực quan hóa dữ liệu, matplotlib.pyplot và seaborn được sử dụng Thư viện os cung cấp các chức năng tương tác với hệ thống tệp và thư mục Thư viện statsmodels dùng để xử lý dữ liệu chuỗi thời gian Để đảm bảo rằng các cảnh báo không làm gián đoạn quá trình chạy mã, thư viện warnings được sử dụng với lệnh

3.2.2 Tiến hành khai báo dữ liệu Đầu tiên, tiến hành khai báo dữ liệu của các biến phụ thuộc là các chỉ số giá chứng khoán bao gồm: VNIndex, VN30 và Upcom Sau đó, tiến hành kiểm tra dạng dữ liệu của các biến, thông tin về các biến bị thiếu dữ liệu df = pd.read_excel('/content/Chỉ số giá Chứng khoán.xlsx') df.info()

Hình 3.2 : Cấu trúc của dữ liệu các chỉ số giá chứng khoán

Nguồn: tác giả tổng hợp

DataFrame này có 168 hàng và 4 cột: "Thời gian", "vn30", "vnindex" và "upcom" Cột "Thời gian" chứa 168 giá trị datetime64[ns] không null, trong khi các cột "vn30", "vnindex" và "upcom" chứa 168 giá trị float64 không null Việc đảm bảo không có giá trị null và các kiểu dữ liệu chính xác là điều cần thiết cho việc phân tích hiệu quả.

Hình 3.3 : 5 dòng đầu tiên của dataframe chỉ số giá chứng khoán

Nguồn: tác giả tổng hợp

Dữ liệu được khai báo bao gồm các biến độc lập như chỉ số kinh tế vĩ mô, chỉ số giá chứng khoán của một số nền kinh tế lớn, giá dầu, giá vàng Kết quả thu được là một dataFrame với 168 hàng và 11 cột, tất cả đều chứa dữ liệu.

168 giá trị không null với kiểu dữ liệu được xác định rõ ràng: datetime64[ns] cho cột "Thời gian" và float64 cho các cột còn lại

Hình 3.4 : 5 dòng đầu tiên của dataframe các biến độc lập

Nguồn: tác giả tổng hợp

Cuối cùng là khai báo TSSL của các nhóm ngành đã chọn, bao gồm: bán lẻ, bất động sản, chứng khoán, ngân hàng và thép

Hình 3.5 : 5 dòng đầu tiên của dataframe tỷ suất sinh lợi các nhóm ngành

Nguồn: tác giả tổng hợp

3.2.3 Kiểm tra tính dừng của bộ dữ liệu

Biến không dừng là biến có trung bình, phương sai hoặc tự tương quan thay đổi theo thời gian, ngược lại với biến dừng có các tính chất thống kê không thay đổi Sự xuất hiện của gốc đơn trong chuỗi thời gian kinh tế có ảnh hưởng lớn đến mô hình kinh tế học đơn biến và đa biến Do đó, kiểm định gốc đơn là bước đầu tiên trong hầu hết các nghiên cứu chuỗi thời gian Phương pháp kiểm định ADF, được phát triển từ kiểm định Dickey-Fuller, là một trong những phương pháp phổ biến được sử dụng rộng rãi.

• 𝛽: hệ số của xu hướng thời gian

• 𝑝: bậc trễ của quá trình tự hồi quy

• 𝑦 𝑡 : dữ liệu chuỗi thời gian đang xem xét

• H0: 𝛾 = 0, dữ liệu chuỗi thời gian không có tính dừng (không có hiệu ứng mean reversion)

• H1: 𝛾 < 0, dữ liệu chuỗi thời gian có tính dừng (có hiệu ứng mean reversion)

Bác bỏ giả thuyết H0 khi giá trị thống kê ADF nhỏ hơn các giá trị tới hạn ở các mức ý nghĩa 1%, 5%, 10%, tức là dữ liệu chuỗi thời gian có tính dừng Không bác bỏ giả thuyết H0 khi giá trị thống kê ADF lớn hơn các giá trị tới hạn ở các mức ý nghĩa 1%, 5%, 10%, tức là dữ liệu chuỗi thời gian không có tính dừng ts.adfuller(df['vn30'],1)

Kiểm tra tính dừng của chuỗi thời gian bằng hàm adfuller từ thư viện statsmodels.tsa.stattools, sử dụng tham số '1' để chỉ định bậc sai phân là 1 Áp dụng quy trình tương tự cho các chỉ số còn lại.

Hình 3.6 : Kết quả kiểm tra tính dừng biến vn30

Nguồn: tác giả tổng hợp

Kết quả của kiểm định ADF bao gồm các giá trị sau:

• Giá trị thống kê ADF: -1.2266611851959783

• Số lượng độ trễ được sử dụng trong kiểm định: 1

• Số lượng quan sát được sử dụng cho kiểm định ADF và tính toán các giá trị tới hạn: 166

• Các giá trị tới hạn ở các mức ý nghĩa 1%, 5%, và 10%: {1%: - 3.4703698981001665, 5%: -2.8791138497902193, 10%: - 2.576139407751488}

• Giá trị thông tin Akaike (AIC): -397.2152867694988

Bảng 3.2 : Kết quả kiểm định tính dừng của các biến trong nghiên cứu

Các giá trị tới hạn ở mức ý nghĩa Có tính dừng

1% 5% 10% vn30 -1.226661185 -3.470369898 -2.87911385 -2.576139408 vnindex -1.129821122 -3.470126426 -2.87900760 -2.576082697 upcom -2.234392963 -3.470369898 -2.87911385 -2.576139408 djia -1.139170742 -3.470369898 -2.87911385 -2.576139408 nikkei225 -1.641515482 -3.470126426 -2.87900760 -2.576082697 s&p500 -1.383377654 -3.470369898 -2.87911385 -2.576139408 oil_world -2.231440454 -3.470369898 -2.87911385 -2.576139408 gold_world -1.644307228 -3.470369898 -2.87911385 -2.576139408 deposit_rate_vn -1.107825997 -3.470369898 -2.87911385 -2.576139408 overnight_rate_vn -1.522666271 -3.470369898 -2.87911385 -2.576139408 cpi_vn -2.374873951 -3.470369898 -2.87911385 -2.576139408 er_vn 0.777019509 -3.470369898 -2.87911385 -2.576139408 m2_vn -3.656457661 -3.470369898 -2.87911385 -2.576139408 x banle -12.52214213 -3.470126426 -2.87900760 -2.576082697 x bds -13.93201912 -3.470126426 -2.87900760 -2.576082697 x ck -11.85963042 -3.470126426 -2.87900760 -2.576082697 x nh -9.651726706 -3.470369898 -2.87911385 -2.576139408 x thep -10.77428295 -3.470126426 -2.87900760 -2.576082697 x

Nguồn: tác giả tổng hợp

Kết quả kiểm định cho thấy ở nhóm các biến số TSSL của các nhóm ngành cho thấy giá trị thống kê ADF đều nhỏ hơn giá trị tới hạn tương ứng 1%, 5%, 10% Nhóm dữ liệu này có xu hướng dao động xung quanh các giá trị trung bình Vì vậy, dữ liệu TSSL của các nhóm ngành có thể dùng để dự báo

Kết quả kiểm định ADF cho thấy các chỉ số giá chứng khoán, chỉ số kinh tế vĩ mô và các chỉ số khác đều không có tính dừng, do đó không thể sử dụng để dự báo Để khắc phục vấn đề này, tác giả đã chuyển đổi các biến về giá trị TSSL bằng cách tính toán tỷ lệ phần trăm thay đổi giữa các giá trị liên tiếp, tương tự như cách tính tỷ suất sinh lợi của cổ phiếu.

𝑐𝑙𝑜𝑠𝑒 𝑡−1 được đề cập ở mục 3.2.2 df['rvnindex']"vnindex"].pct_change()*100.0

Thực hiện kiểm định ADF với dữ liệu TSSL của các biến vừa tính được bằng hàm adfuller từ thư viện statsmodels.tsa.stattools Kết quả thu được:

Bảng 3.3 : Kết quả kiểm định tính dừng của TSSL các biến nêu trên

Các giá trị tới hạn ở mức ý nghĩa Có tính dừng

1% 5% 10% r_vn30 -12.64120934 -3.470369898 -2.879113850 -2.576139408 x r_vnindex -12.79645304 -3.470369898 -2.879113850 -2.576139408 x r_upcom -10.80273538 -3.470616370 -2.879221402 -2.576196814 x r_djia -11.09763687 -3.470865896 -2.879330279 -2.576254927 x r_nikkei225 -12.49940530 -3.470126426 -2.879007599 -2.576082697 x r_s&p500 -14.41014213 -3.470616370 -2.879221402 -2.576196814 x r_oil_world -9.596325866 -3.470865896 -2.879330279 -2.576254927 x r_gold_world -14.32048136 -3.470616370 -2.879221402 -2.576196814 x r_deposit_rate_vn -7.095609315 -3.470865896 -2.879330279 -2.576254927 x r_overnight_rate_vn -10.77120132 -3.470616370 -2.879221402 -2.576196814 x r_cpi_vn -10.82623422 -3.471118535 -2.879440506 -2.576313762 x r_er_vn -10.92387648 -3.470865896 -2.879330279 -2.576254927 x m2_vn -12.81569355 -3.470616370 -2.879221402 -2.576196814 x

Nguồn: tác giả tổng hợp

Giá trị thống kê ADF của TSSL đều nhỏ hơn giá trị tới hạn tương ứng 1%, 5%, 10%, cho thấy dữ liệu chuỗi thời gian có tính dừng Điều này đồng nghĩa với việc dữ liệu TSSL của các chỉ số giá chứng khoán, chỉ số vĩ mô và các chỉ số khác có thể dùng để dự báo Do đó, các biến nghiên cứu sẽ sử dụng tỷ suất sinh lợi thay vì các chỉ số giá ban đầu.

3.2.4 Tính toán độ trễ cho bộ dữ liệu Độ trễ là khoảng thời gian từ khi các chính sách tiền tệ và tài khóa, được áp dụng để điều chỉnh chu kỳ kinh tế hoặc đối phó với sự kiện kinh tế tiêu cực, bắt đầu có hiệu lực đến khi chúng ảnh hưởng đến nền kinh tế Nghiên cứu của Nguyễn Thị Như Quỳnh và cộng sự (2019) cho rằng việc thị trường chứng khoán có thể không phản ánh ngay lập tức các thay đổi trong các chỉ số kinh tế Vì vậy, việc tính toán độ trễ là quan trọng trong phân tích kinh tế vì nó cho phép các nhà quản lý và chính sách kinh tế đánh giá tác động của các biến số kinh tế trên các chỉ số kinh tế chính Đầu tiên, tính toán các giá trị trễ (lag) cho cột r_vnindex trong DataFrame và sau bằng cách sử dụng vòng lặp for để tạo ra các cột trễ cho r_vnindex Hàm shift(i) dịch chuyển các giá trị trong cột r_vnindex lên hoặc xuống i vị trí, tạo ra các cột mới tương ứng với các độ trễ từ 1 đến 5 Sau đó chỉ giữ lại các cột cần thiết bao gồm Thời gian, r_vnindex, và các cột trễ tương ứng def do_tre(df, columns, lags=5): for col in columns: for i in range(1, lags + 1): df[f'{col}_lag_{i}'] = df[col].shift(i) columns_to_keep = ['Thời gian'] + columns + [f'{col}_lag_{i}' for col in columns for i in range(1, lags + 1)] df_lagged = df[columns_to_keep] return df_lagged

Hình 3.7 : Kết quả tính toán độ trễ của biến r_vnindex (10 dòng đầu tiên)

Nguồn: tác giả tổng hợp

Kết quả ở hình 16 cho thấy dữ liệu vẫn còn lỗi, độ trễ của biến mục tiêu vẫn chứa giá trị NaN Điều này xảy ra sau khi tính toán độ trễ, vì các giá trị đầu tiên của cột độ trễ sẽ là NaN do thiếu dữ liệu cần thiết để tính toán Để đảm bảo tính toàn vẹn của dữ liệu, các giá trị NaN này đã được loại bỏ bằng lệnh `r_vnindex_lag = r_vnindex_lag.dropna()`.

Tiếp tục tính toán độ trễ của các biến mục tiêu còn lại bao gồm: r_vn30, r_upcom, banle, bds, ck, nh, thep.

Chuẩn hóa dữ liệu nghiên cứu

Để đảm bảo tính đồng nhất cho dự báo, các biến độc lập cần được tính toán độ trễ tương tự như biến mục tiêu Trong bước kiểm tra tính dừng, tác giả đã tính toán TSSL cho các biến độc lập và thay thế các giá trị TSSL nhỏ hơn 0.0001 bằng 0.0001 để tránh ảnh hưởng đến phân tích do các số rất nhỏ.

Sau đó, sử dụng thuật toán tính toán độ trễ được dùng cho biến mục tiêu để tính toán độ trễ cho các biến độc lập

Bài nghiên cứu tập trung vào việc dự báo xu hướng của 3 chỉ số chứng khoán và 5 nhóm ngành tiêu biểu, sử dụng 8 bộ dữ liệu Dữ liệu đầy đủ về biến mục tiêu r_vnindex được thể hiện trong bảng dưới đây.

Bảng 3.4: Bộ dữ liệu hoàn chỉnh của biến mục tiêu r_vnindex

Thời gian r_vnindex r_vnindex_lag_1 … r_cpi_vn_lag_1 r_cpi_vn_lag_2

Nguồn: tác giả tổng hợp

Quá trình xây dựng các mô hình học máy

Ngoài các thư viện được cài đặt sẵn, để xây dựng các mô hình học máy, tác giả đã bổ sung thêm các thư viện và hàm cần thiết cho việc triển khai và đánh giá hiệu quả mô hình.

The author primarily utilizes Python libraries like scikit-learn (sklearn) and matplotlib.pyplot for machine learning tasks For regression models, they employ Linear Regression, Lasso, and Ridge from sklearn.linear_model, RandomForestRegressor from sklearn.ensemble, and KNeighborsRegressor from sklearn.neighbors To evaluate classification performance, confusion_matrix from sklearn.metrics is used The train_test_split function from sklearn.model_selection divides data into training and testing sets Mean squared error and mean absolute error from sklearn.metrics assess the accuracy of regression models Finally, matplotlib.pyplot enables visualization and plotting of data.

3.4.1 Phân chia tập huấn luyện và tập kiểm tra

Từ một bộ dữ liệu hoàn chỉnh bao gồm tất cả các biến độc lập và biến phụ thuộc cho một mô hình như minh họa ở bảng 3.4, để tạo tập dữ liệu input và output từ DataFrame df_combined, chúng ta sẽ loại bỏ cột "Thời gian" và "r_vnindex" khỏi tập dữ liệu đầu vào (X) và sử dụng cột "r_vnindex" làm đầu ra (y) Dưới đây là đoạn mã để thực hiện điều này:

X = df_combined.drop(columns=['Thời gian', 'r_vnindex']) y = df_combined['r_vnindex']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state= 12) model.fit(X_train, y_train)

Để đảm bảo tính tái lập của kết quả, dữ liệu được chia thành hai phần: tập huấn luyện (80%) và tập kiểm tra (20%) sử dụng hàm train_test_split với một hạt giống ngẫu nhiên (random_state) Sau đó, mô hình hồi quy tuyến tính được khởi tạo và huấn luyện bằng hàm fit với tập dữ liệu huấn luyện Quá trình huấn luyện này nhằm tối ưu hóa các tham số của mô hình để dự đoán chính xác giá trị mục tiêu từ các biến đầu vào.

3.4.2.1 Linear Regression Để xây dựng mô hình Linear regression, khởi tạo mô hình là bước đầu tiên trong quá trình xây dựng và huấn luyện mô hình dự báo model1 = LinearRegression()

To evaluate the model's performance, the data was split into training and testing sets using a 80/20 ratio The model was then trained on the training data and evaluated on both the training and testing sets using the R-squared metric.

Mô hình model1 được huấn luyện trên tập dữ liệu (X_train và y_train) Sau khi huấn luyện, R 2 , chỉ số đo mức độ phù hợp của mô hình, được tính toán cho cả tập dữ liệu huấn luyện và kiểm tra R 2 biểu thị tỷ lệ phương sai của biến mục tiêu được giải thích bởi các biến đầu vào trong mô hình.

The Random Forest Regressor model utilizes the `n_estimators` parameter to control the number of decision trees used in its construction Determining the optimal value for this parameter requires a parameter search process The code snippet "model2 = RandomForestRegressor(random_state)" initializes a Random Forest Regressor model with a specified random state.

This code snippet demonstrates how to optimize the number of estimators in a machine learning model using GridSearchCV It splits data into training and testing sets, defines a range of estimator values to explore, and uses cross-validation to find the best performing value for 'n_estimators', which is then printed.

Grid Search, a common technique in parameter optimization, helps determine the optimal value for n_estimators in a Random Forest Regressor model By evaluating various n_estimators values, Grid Search identifies the one maximizing R-squared, our chosen performance metric This optimal value is then used to train the model and evaluate its performance on both training and test datasets.

Sau khi xác định được giá trị tối ưu của n_estimators, mô hình được huấn luyện lại với giá trị này Hiệu suất của mô hình sau đó được đánh giá trên cả tập dữ liệu huấn luyện và tập dữ liệu kiểm tra.

Mô hình KNN hồi quy (KNeighborsRegressor) được khởi tạo với số lượng hàng xóm được tính bằng căn bậc hai của số lượng dữ liệu, sau đó dữ liệu được chia thành tập huấn luyện và tập kiểm tra với tỷ lệ 80-20.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state= 12) model2.fit(X_train, y_train) print('R-squared train dataset:', model2.score(X_train, y_train)) print('R-squared test dataset:', model2.score(X_test, y_test))

Theo Lê Hoàng Anh (2022), số lượng k láng giềng gần nhất (k_neighbors) cho mô hình KNN được tính bằng cách lấy căn bậc hai của số lượng mẫu trong X, đảm bảo mô hình sử dụng số lượng láng giềng phù hợp cho việc dự báo.

3.4.2.4 Lasso Regression model4 = Lasso(alpha=1.0)

This code snippet demonstrates splitting data into training and testing sets using `train_test_split`, fitting a model named `model4` on the training data, and then evaluating the model's performance using the R-squared metric on both the training and testing sets.

KẾT QUẢ NGHIÊN CỨU

Thống kê mô tả các biến độc lập

Sử dụng phương thức describe() để tạo DataFrame mô tả thống kê của df_lagged – data frame chứa TSSL của các biến độc lập

Hình 4.1 : Kết quả thống kê mô tả các biến độc lập của nghiên cứu

Bảng thống kê cho thấy sự biến động lớn trong các chỉ số chứng khoán quốc tế như DJIA, Nikkei225 và S&P500, cũng như trong các chỉ số kinh tế vĩ mô của Việt Nam Chỉ số DJIA, Nikkei225 và S&P500 có xu hướng giảm, trong khi chỉ số CPI Việt Nam tăng trưởng mạnh mẽ Điều này cho thấy nhu cầu cần một mô hình dự báo có khả năng xử lý tốt sự biến động và các giá trị ngoại lệ, đặc biệt là đối với CPI Việt Nam và giá dầu thế giới, hai biến có độ lệch chuẩn cao nhất.

Nghiên cứu ban đầu có 165 quan sát cho mỗi biến Sau khi tính tỷ suất sinh lời, độ trễ và xử lý các dữ liệu NaN, số lượng quan sát còn lại sử dụng cho nghiên cứu là 160 quan sát cho mỗi biến.

Kết quả huấn luyện và hiệu suất dự báo của các mô hình

Hình 4.2 : Kết quả huấn luyện của mô hình Linear regression

Nguồn: tác giả tổng hợp

Kết quả dự báo của các mô hình hồi quy tuyến tính cho thấy độ chính xác không cao, với chỉ số R2 của tập test ở mức trung bình đến thấp, thậm chí âm Các giá trị RMSE, MSE và MAE cũng khá lớn.

Tuy nhiên, biến r_vnindex có giá trị R 2 _train là 61.6% R 2 _test là 47.6%, cho thấy một mức độ dự báo chỉ ở mức tương đối Mức độ chênh lệch giữa R 2 _train và

Kết quả kiểm tra R2 của các biến banle, ck, nh, thep cho thấy mô hình Linear Regression phù hợp để dự báo TSSL đối với hầu hết các nhóm ngành và TSSL của toàn thị trường (r_vnindex) RMSE, MSE, và MAE của các biến này cũng ở mức thấp hơn so với các biến còn lại Tuy nhiên, các biến r_vn30, r_upcom, bds lại có R2 rất thấp hoặc âm, cho thấy mô hình Linear Regression không phù hợp Mô hình đạt hệ số R2 trên tập huấn luyện (R2_train) khá cao, thể hiện khả năng học tập tốt từ dữ liệu huấn luyện.

Kết quả dự báo của mô hình Random Forest trên từng biến cho thấy hiệu quả dự báo trên tập huấn luyện ở mức khá cao, dao động từ 83.8% đến 93.7% Tuy nhiên, mô hình gặp hiện tượng overfitting khi kiểm tra trên tập test, với hệ số R2 không tương xứng Ví dụ, biến TSSL ngành Ngân hàng (nh) đạt R2_train cao nhất là 93.7% nhưng R2_test chỉ đạt 25.5%.

Kết quả R bình phương của mô hình dự báo ở mức thấp, thậm chí âm đối với một số danh mục như VNIndex, VN30 và Upcom, cho thấy mô hình hiện tại chưa dự báo tốt các biến này.

R 2 test cao nhất thuộc về TSSL ngành Chứng khoán – ck với hơn 51.7%

Hình 4.3 : Kết quả huấn luyện của mô hình Random Forest

Nguồn: tác giả tổng hợp

Mặc dù các giá trị RMSE, MSE và MAE cho thấy sai số dự báo của mô hình còn cao, nhưng kết quả cho thấy mô hình Random Forest phù hợp để dự báo TSSL cho ngành chứng khoán (ck) và thép (thep) do đạt được giá trị thấp ở hai biến này.

Kết quả dự báo của mô hình KNN trên từng danh mục cho thấy rằng hiệu quả dự báo khá tệ so với hai mô hình phía trên Với R 2 _train và R 2 _test ở mức rất thấp và âm đối với hầu hết các danh mục như r_vnindex, r_vn30, r_upcom, và các danh mục khác, cho thấy mô hình không phù hợp để có thể dự báo tốt các biến này

Các giá trị RMSE, MSE, và MAE đều khá cao, điều này cho thấy sai số của mô hình khi dự báo vẫn còn lớn

Hình 4.4 : Kết quả huấn luyện của mô hình KNN

Nguồn: tác giả tổng hợp

Mô hình dự đoán cho ngành Ngân hàng (nh) đạt độ chính xác cao nhất với biến TSSL, đạt R²_test là 20.9% Tuy nhiên, R²_train của biến này lại chỉ ở mức 6.55%, cho thấy mô hình đang gặp hiện tượng underfitting.

Kết quả dự báo của mô hình Lasso Regression trên từng danh mục cho thấy hiệu quả dự báo R 2 _test trên tập kiểm tra đều âm, đồng thời các giá trị RMSE, MSE, và MAE đều khá cao, chứng tỏ sai số dự báo của mô hình là rất lớn.

Hình 4.5 : Kết quả huấn luyện của mô hình Lasso Regression

Nguồn: tác giả tổng hợp

Kết quả cho thấy Ridge Regression cải thiện hiệu suất dự báo của mô hình so với Lasso, nhưng một số chỉ số vẫn có giá trị R 2 _test thấp hoặc âm, cho thấy khả năng dự đoán của mô hình vẫn cần được cải thiện.

Hình 4.6 : Kết quả huấn luyện của mô hình Ridge Regression

Nguồn: tác giả tổng hợp

Các biến TSSL các nhóm ngành có giá trị R 2 _train ở mức khá, nằm trong khoảng 42% - 51% Tuy nhiên, chỉ có các biến ck, nh, và thep có giá trị R 2 _test được đánh giá ở mức chấp nhận được so với R 2 _train, cho thấy mô hình đã dự báo khá chính xác cho những danh mục này Tuy nhiên, các biến còn lại có giá trị

R 2 _test thấp hơn nhiều, thậm chí âm so với R 2 _train cho thấy có sự xuất hiện của hiện tượng overfitting trong mô hình này

Mô hình Ridge Regression đã cải thiện đáng kể độ chính xác dự báo, thể hiện qua việc giảm RMSE, MSE và MAE so với các mô hình trước đó, đặc biệt trong các danh mục bds, ck và thep Điều này cho thấy mô hình dự đoán TSSL của các nhóm ngành hiệu quả hơn so với dự đoán TSSL của giá chứng khoán.

Cải thiện hiệu suất dự báo đối với các mô hình học máy

4.3.1 Cải thiện Linear Regression Để cải thiện mô hình, tác giả đã kết hợp một vài phương pháp, bắt đầu từ chuẩn hóa dữ liệu bằng cách sử dụng StandardScaler, sau đó tìm test_size tối ưu bằng cách sử dụng cross-validation: for k in np.arange(0.1, 0.5, 0.01): model = LinearRegression()

This code snippet demonstrates the process of splitting data into training and testing sets, training a machine learning model, making predictions on the test set, and evaluating the model's performance.

# Chọn test_size tối ưu score_max = max(list_score) a = list_score.index(score_max) best_test_size = list_k1[a]

Optimizing the `test_size` parameter in `train_test_split` is crucial for effectively training and evaluating machine learning models The code snippet demonstrates splitting data into training and testing sets using `train_test_split`, where `test_size` controls the proportion of data allocated for testing A suitable `test_size` ensures a representative evaluation of the model's performance while leaving sufficient data for training The `random_state` parameter ensures reproducibility of the split, and `shuffle` randomizes the data before splitting, mitigating bias.

Thu được kết quả sau đây:

Hình 4.7: Mô hình Linear Regression sau cải thiện

Nguồn: tác giả tổng hợp

Mặc dù hệ số R2 trên tập kiểm tra của một số danh mục đã được cải thiện, ví dụ như r_vnindex tăng từ 47.2% lên 51.6%, nhưng một số danh mục như r_upcom và r_ vẫn có hệ số R2 thấp hoặc âm Điều này cho thấy mô hình Linear Regression sau cải thiện chỉ phù hợp để dự báo TSSL của toàn bộ thị trường (r_vnindex) Đối với các biến TSSL của các nhóm ngành, việc tiếp tục sử dụng mô hình Linear Regression lúc chưa cải thiện sẽ cho ra hiệu quả dự báo cao hơn.

Các giá trị RMSE, MSE và MAE cho thấy sai số của mô hình đã giảm biến đối với biến r_vn30 và toàn bộ các biến TSSL các nhóm ngành Mặc dù đã có một số cải thiện đáng kể trong dự báo của mô hình, kết quả cho thấy rằng mô hình Linear Regression vẫn chưa đủ mạnh để dự báo tốt tất cả các biến

Bài viết này khám phá việc sử dụng cross-validation để xác định kích thước tập kiểm tra tối ưu, nhằm nâng cao khả năng tổng quát hóa của mô hình Ngoài ra, bài viết còn thử nghiệm kết hợp phương pháp điều chỉnh tham số alpha cho Ridge Regression với việc tìm kiếm kích thước tập kiểm tra tối ưu thông qua cross-validation Tuy nhiên, kết quả thu được không đạt hiệu quả như mong đợi trong việc cải thiện hiệu quả dự báo.

Hình 4.8 : Mô hình KNN sau cải thiện bằng phương pháp test - size tối ưu

Nguồn: tác giả tổng hợp

Kết quả kiểm định R2 của tất cả các biến đều cho giá trị âm, điều này cho thấy việc cải thiện mô hình không đạt được mục tiêu tối ưu hóa hiệu quả dự báo.

Hình 4.9 : Mô hình KNN sau cải thiện kết hợp phương pháp điều chỉnh tham số alpha cho Ridge Regression và tìm test_size tối ưu

Nguồn: tác giả tổng hợp

4.3.3 Cải thiện K-Nearest Neighbors Để cải thiện mô hình KNeighborsRegressor, chúng ta sẽ xử lý các giá trị ngoại lệ và biến đổi không tuyến tính trong dữ liệu Sử dụng các phương pháp chuẩn hóa dữ liệu để cải thiện hiệu suất của mô hình scaler = StandardScaler()

Hình 4.10 : Mô hình KNN sau cải thiện

Nguồn: tác giả tổng hợp

Việc chuẩn hóa dữ liệu cho ra kết quả R 2 _test là các giá trị là âm, cho thấy mô hình chưa thực sự cải thiện về khả năng dự báo Việc chuẩn hóa dữ liệu đã không mang lại giá trị cải thiện đáng kể cho mô hình KNN

Kết quả cho thấy việc lựa chọn test_size tối ưu đã cải thiện hiệu suất của mô hình, với R 2 _train tăng lên đáng kể Mô hình cải thiện đạt R 2 _train lớn nhất là 85.6%, so với 19.6% của mô hình ban đầu Tuy nhiên, R 2 _test thấp hoặc âm cho thấy sự xuất hiện của overfitting sau cải thiện, với R 2 _test của biến ck và nh lần lượt là 5.08% và 3.05% Tuy nhiên, một số danh mục như banle, bds và r_vn30 vẫn đạt giá trị R 2 _test dương.

R 2 _test rất thấp hoặc âm, chỉ ra rằng mô hình chưa thể dự báo chính xác cho những danh mục này

Hình 4.11 : Mô hình Lasso Regression sau cải thiện

Nguồn: tác giả tổng hợp

Kết quả đánh giá cho thấy RMSE, MSE và MAE đều giảm đáng kể, chứng tỏ lỗi dự báo đã được cải thiện rõ rệt Đặc biệt, các danh mục bds, ck và thep đạt được RMSE rất thấp, cho thấy mô hình dự báo chính xác hơn đối với những danh mục này.

Kết quả cho thấy việc tinh chỉnh tham số alpha bằng GridSearchCV không mang lại hiệu quả tốt hơn cho mô hình hồi quy Ridge so với mô hình ban đầu Việc thử nghiệm với các giá trị alpha (0.1, 1.0, 10.0, 100.0) thông qua GridSearchCV và chọn giá trị alpha tối ưu không cải thiện đáng kể độ chính xác của mô hình.

Kết quả cho thấy các biến đều có giá trị R 2 _test âm, cho thấy rằng mô hình gặp vấn đề trong việc dự báo chính xác

Hình 4.12 : Mô hình Ridge Regression sau cải thiện

Nguồn: tác giả tổng hợp

So sánh và đánh giá hiệu suất của các mô hình

Bài viết phân tích và so sánh hiệu suất dự báo của các mô hình cho từng biến mục tiêu, từ đó lựa chọn mô hình tối ưu nhất cho mỗi biến.

4.5.1 Biến mục tiêu r_vnindex Đối với biến mục tiêu là r_vnindex, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.1: Hiệu suất dự báo của các mô hình cho biến r_vnindex

Mô hình R2_train R2_test MSE RMSE MAE

Linear 0.613037 0.516871 20.166617 4.490726 3.952713 Random Forest 0.851034 -0.173448 42.191381 6.495489 5.264749 KNN 0.140566 -0.153249 41.465123 6.439342 5.114451 Lasso 0.852655 0.008304 32.500679 5.700937 4.558813 Ridge 0.222083 -0.048076 37.683621 6.138699 4.943918

Nguồn: tác giả tổng hợp

Mô hình Linear Regression có giá trị R 2 _test là 51.6%, cao nhất trong số các mô hình so sánh Giá trị R 2 _test cao cho thấy mô hình có khả năng dự đoán tốt trên dữ liệu kiểm tra Đồng thời, mô hình Linear Regression có RMSE và MAE lần lượt là 4.490726 và 3.952713, thấp nhất trong số các mô hình so sánh

4.5.2 Biến mục tiêu r_vn30 Đối với biến mục tiêu là r_vn30, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.2: Hiệu suất dự báo của các mô hình cho biến r_vn30

Mô hình R2_train R2_test MSE RMSE MAE

Linear 0.195792 0.010642 33.825535 5.815972 4.575479 Random Forest 0.842333 -0.030011 5.763134 33.213712 4.636084 KNN 0.084956 -0.183407 42.549478 6.522996 5.316619 Lasso 0.846531 -0.001374 32.290266 5.682452 4.529154

Nguồn: tác giả tổng hợp

Mặc dù tất cả các mô hình đều có giá trị R2_test thấp hoặc âm, mô hình Lasso Regression có giá trị R2_test gần bằng 0 nhất (-0.001374), cho thấy khả năng dự đoán tốt hơn Ngoài ra, mô hình Lasso Regression có MSE, RMSE và MAE thấp nhất, lần lượt là 32.290266, 5.682452 và 4.529154, cho thấy sai số dự đoán nhỏ hơn và dự báo chính xác hơn.

4.5.3 Biến mục tiêu r_upcom Đối với biến mục tiêu là r_upcom, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.3 : Hiệu suất dự báo của các mô hình cho biến r_upcom

Mô hình R2_train R2_test MSE RMSE MAE

Linear 0.247767 -0.110439 39.925911 6.318695 5.177883 Random Forest 0.848466 0.070914 11.416299 130.331874 5.367631 KNN 0.09499 -0.149316 41.32372 6.428353 5.266903 Lasso 0.856286 0.047367 133.635033 11.560062 5.531102

Nguồn: tác giả tổng hợp

Mô hình Random Forest Regression cho thấy hiệu suất tốt nhất với chỉ số R2_test cao nhất (0.070914) và MSE thấp nhất (11.416299) trong số các mô hình được so sánh Mặc dù RMSE của nó cao hơn so với các mô hình khác, điều này có thể do các dự đoán cực trị làm tăng RMSE Tuy nhiên, MSE thấp cho thấy mô hình này vẫn có khả năng dự đoán chính xác hơn

4.5.4 Biến mục tiêu banle Đối với biến mục tiêu là banle, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.4: Hiệu suất dự báo của các mô hình cho biến banle

Mô hình R2_train R2_test MSE RMSE MAE

Nguồn: tác giả tổng hợp

Mô hình hồi quy tuyến tính đạt hiệu suất tốt nhất với chỉ số R2_test cao nhất (36.44%) và MSE, RMSE hợp lý Mặc dù Random Forest và Lasso có MSE và RMSE thấp hơn, giá trị R2_test âm cho thấy chúng không phù hợp cho biến mục tiêu này Mô hình tuyến tính có MAE (4.018621) khá tốt, cho thấy sai số trung bình tuyệt đối của mô hình này hợp lý và thấp hơn so với Ridge.

4.5.5 Biến mục tiêu bds Đối với biến mục tiêu là bds, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.5 : Hiệu suất dự báo của các mô hình cho biến bds

Mô hình R2_train R2_test MSE RMSE MAE

Nguồn: tác giả tổng hợp

Mô hình Ridge Regression đạt hiệu suất tốt nhất với chỉ số R2_test cao nhất (0.182334), cho thấy khả năng giải thích biến thiên của biến mục tiêu tốt hơn Đồng thời, mô hình này cũng có MAE (4.271342) thấp nhất, minh chứng cho sai số trung bình tuyệt đối thấp hơn so với các mô hình còn lại.

4.5.6 Biến mục tiêu ck Đối với biến mục tiêu là ck, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.6: Hiệu suất dự báo của các mô hình cho biến ck

Mô hình R2_train R2_test MSE RMSE MAE

Nguồn: tác giả tổng hợp

Kết quả cho thấy mô hình Ridge Regression là mô hình dự báo tối ưu với giá trị R2_test cao nhất (34.8%) và MAE nhỏ nhất (4.09), khẳng định hiệu suất dự báo vượt trội của mô hình này Mặc dù MSE (23.437564) và RMSE (4.841236) của Ridge Regression cao hơn, giá trị R2_test cao vẫn là yếu tố quyết định.

4.5.7 Biến mục tiêu nh Đối với biến mục tiêu là nh, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.7 : Hiệu suất dự báo của các mô hình cho biến nh

Mô hình R2_train R2_test MSE RMSE MAE

Linear 0.213493 -0.503539 0.008679 0.093161 0.075339 Random Forest 0.83169 -0.053345 0.071769 0.005151 0.058011 KNN 0.151718 -0.185856 0.007045 0.083936 0.066658 Lasso 0.847013 0.030572 0.00474 0.068851 0.054693

Nguồn: tác giả tổng hợp

Mô hình Ridge Regression là lựa chọn tốt nhất cho biến mục tiêu nh dựa trên chỉ số R2_test cao nhất (27.23%) Dù MSE và RMSE cao, R 2 _test cao vượt trội cho thấy mô hình này có khả năng dự báo chính xác và ổn định nhất so với các mô hình còn lại

4.5.8 Biến mục tiêu thep Đối với biến mục tiêu là thep, kết quả hiệu suất dự báo của các mô hình như sau:

Bảng 4.8 : Hiệu suất dự báo của các mô hình cho biến thep

Mô hình R2_train R2_test MSE RMSE MAE

Nguồn: tác giả tổng hợp

Mô hình Ridge Regression đạt giá trị R²_test cao nhất (29.8%), chứng tỏ khả năng giải thích biến thiên của biến mục tiêu tốt hơn so với các mô hình khác.

Bài viết trình bày chi tiết kết quả của các mô hình hồi quy, đánh giá hiệu suất thông qua R², RMSE, MSE, MAE và đề xuất phương pháp cải thiện mô hình để tối ưu hóa dự báo Bài viết cũng so sánh khả năng dự báo của từng mô hình đối với các biến phụ thuộc, xác định mô hình phù hợp nhất cho từng biến Kết luận nghiên cứu, hạn chế và hướng phát triển tiếp theo sẽ được trình bày chi tiết trong Chương 5.

Ngày đăng: 11/10/2024, 10:29

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Phân loại các mô hình học máy - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 2.1 Phân loại các mô hình học máy (Trang 21)
Hình 2.2: Học có giám sát - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 2.2 Học có giám sát (Trang 21)
Hình 2.4: Học tăng cường - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 2.4 Học tăng cường (Trang 22)
Hình 2.3: Học không giám sát - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 2.3 Học không giám sát (Trang 22)
Hình 2.5: Phương pháp bình phương nhỏ nhất - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 2.5 Phương pháp bình phương nhỏ nhất (Trang 24)
Hình 2.6: Random Forest - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 2.6 Random Forest (Trang 26)
Hình 2.10: Mô tả R 2  của hai tập dữ liệu mẫu - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 2.10 Mô tả R 2 của hai tập dữ liệu mẫu (Trang 38)
Hình 3.1: Các bước của quy trình nghiên cứu - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 3.1 Các bước của quy trình nghiên cứu (Trang 41)
Bảng 3.1: Mô tả các biến dữ liệu trong nghiên cứu - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 3.1 Mô tả các biến dữ liệu trong nghiên cứu (Trang 43)
Hình 3.4: 5 dòng đầu tiên của dataframe các biến độc lập - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 3.4 5 dòng đầu tiên của dataframe các biến độc lập (Trang 45)
Bảng 3.2: Kết quả kiểm định tính dừng của các biến trong nghiên cứu - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 3.2 Kết quả kiểm định tính dừng của các biến trong nghiên cứu (Trang 47)
Bảng 3.3: Kết quả kiểm định tính dừng của TSSL các biến nêu trên - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 3.3 Kết quả kiểm định tính dừng của TSSL các biến nêu trên (Trang 48)
Hình 3.7: Kết quả tính toán độ trễ của biến r_vnindex (10 dòng đầu tiên) - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 3.7 Kết quả tính toán độ trễ của biến r_vnindex (10 dòng đầu tiên) (Trang 49)
Bảng 3.4: Bộ dữ liệu hoàn chỉnh của biến mục tiêu r_vnindex - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 3.4 Bộ dữ liệu hoàn chỉnh của biến mục tiêu r_vnindex (Trang 50)
Hình 4.1: Kết quả thống kê mô tả các biến độc lập của nghiên cứu - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.1 Kết quả thống kê mô tả các biến độc lập của nghiên cứu (Trang 55)
Hình 4.2: Kết quả huấn luyện của mô hình Linear regression - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.2 Kết quả huấn luyện của mô hình Linear regression (Trang 56)
Hình 4.3: Kết quả huấn luyện của mô hình Random Forest - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.3 Kết quả huấn luyện của mô hình Random Forest (Trang 57)
Hình 4.4: Kết quả huấn luyện của mô hình KNN - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.4 Kết quả huấn luyện của mô hình KNN (Trang 58)
Hình 4.5: Kết quả huấn luyện của mô hình Lasso Regression - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.5 Kết quả huấn luyện của mô hình Lasso Regression (Trang 58)
Hình 4.8: Mô hình KNN sau cải thiện bằng phương pháp test-size tối ưu - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.8 Mô hình KNN sau cải thiện bằng phương pháp test-size tối ưu (Trang 61)
Hình 4.10: Mô hình KNN sau cải thiện - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.10 Mô hình KNN sau cải thiện (Trang 62)
Hình 4.9: Mô hình KNN sau cải thiện kết hợp phương pháp điều chỉnh tham số - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.9 Mô hình KNN sau cải thiện kết hợp phương pháp điều chỉnh tham số (Trang 62)
Hình 4.11: Mô hình Lasso Regression sau cải thiện - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Hình 4.11 Mô hình Lasso Regression sau cải thiện (Trang 63)
Bảng 4.2: Hiệu suất dự báo của các mô hình cho biến r_vn30 - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 4.2 Hiệu suất dự báo của các mô hình cho biến r_vn30 (Trang 65)
Bảng 4.4: Hiệu suất dự báo của các mô hình cho biến banle - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 4.4 Hiệu suất dự báo của các mô hình cho biến banle (Trang 66)
Bảng 4.3: Hiệu suất dự báo của các mô hình cho biến r_upcom - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 4.3 Hiệu suất dự báo của các mô hình cho biến r_upcom (Trang 66)
Bảng 4.6: Hiệu suất dự báo của các mô hình cho biến ck - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 4.6 Hiệu suất dự báo của các mô hình cho biến ck (Trang 67)
Bảng 4.8: Hiệu suất dự báo của các mô hình cho biến thep - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 4.8 Hiệu suất dự báo của các mô hình cho biến thep (Trang 68)
Bảng 4.7: Hiệu suất dự báo của các mô hình cho biến nh - Ứng dụng các mô hình học máy Để phân tích và dự báo thị trường chứng khoán việt nam dưới tác Động của các yếu tố vĩ mô
Bảng 4.7 Hiệu suất dự báo của các mô hình cho biến nh (Trang 68)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN