GIỚI THIỆU VỀ ĐỀ TÀI NGHIÊN CỨU
Tính cấp thiết của đề tài
Dự báo giá chứng khoán là một lĩnh vực quan trọng trong tài chính, thu hút sự quan tâm của nhiều nhà đầu tư trong bối cảnh kinh tế xã hội phát triển Để thành công trong thị trường chứng khoán, các nhà đầu tư cần tích lũy kinh nghiệm và kiến thức chuyên sâu Tuy nhiên, việc dự đoán giá chứng khoán gặp nhiều khó khăn do ảnh hưởng của các yếu tố như tin tức kinh tế, biến động thị trường và tâm lý nhà đầu tư Các phương pháp truyền thống như phân tích kỹ thuật và phân tích cơ bản đã được áp dụng để dự đoán xu thế thị trường Theo lý thuyết phân tích chứng khoán, có thể dự đoán xu hướng giá dựa trên dữ liệu lịch sử giao dịch, và thông qua các phương pháp khai phá tri thức, chúng ta có thể ước lượng xu thế giá trong tương lai sẽ tăng, giảm hay ổn định.
Trong thời đại kỹ thuật số hiện nay, công nghệ và khả năng tính toán đang phát triển nhanh chóng, với học máy trở thành công cụ quan trọng trong dự báo giá chứng khoán Học máy, một lĩnh vực của trí tuệ nhân tạo, cho phép máy tính học hỏi từ dữ liệu và cải thiện hiệu suất theo thời gian Nhờ vào khả năng tự động phát hiện quy luật và mô hình từ dữ liệu mẫu, học máy có thể xử lý các tập dữ liệu lớn và phức tạp, khám phá các mẫu tiềm ẩn, và tạo ra dự đoán chính xác để xây dựng mô hình đánh giá và dự báo hiệu quả.
Trong nghiên cứu này, chúng tôi đã áp dụng các thuật toán học có giám như Long Short-Term Memory (LSTM) và Random Forest Regression (RFR) để xây dựng mô hình dự báo chứng khoán dựa trên dữ liệu lịch sử giá Thị trường tài chính chịu ảnh hưởng từ nhiều yếu tố phức tạp, bao gồm kinh tế, chính trị và xã hội Mặc dù kết quả thực nghiệm của mô hình chưa đạt mức cao, nhưng vẫn cung cấp thông tin và định hướng ban đầu hữu ích cho các nghiên cứu tiếp theo.
Nghiên cứu này nhằm mục tiêu ứng dụng học máy, một lĩnh vực đang phát triển mạnh mẽ và có nhiều ứng dụng trong các ngành công nghiệp, vào việc nghiên cứu và dự báo giá chứng khoán Do đó, tôi quyết định thực hiện đề tài: “Ứng dụng học máy trong nghiên cứu và dự báo giá chứng khoán”.
Mục tiêu nghiên cứu
Xây dựng mô hình phân tích và dự báo giá chứng khoán của một doanh nghiệp thuộc S&P 500
Thứ nhất, giới thiệu các khái niệm, nội dung cơ bản trong đề tài: phân tích chứng khoán, dữ liệu – nhân tố ảnh hưởng, kỹ thuật học máy - AI
Thứ hai, tiến hành thu thập, xử lý, đánh giá và xây dựng mô hình dự báo dựa từ các nhân tố biến dữ liệu chứng khoán
Đề xuất các hướng phát triển nghiên cứu nhằm xác định các yếu tố ảnh hưởng đến kết quả phân tích sẽ giúp nâng cao khả năng dự báo giá chứng khoán.
Câu hỏi nghiên cứu
Học máy là gì? Ứng dụng của học máy trong chứng khoán?
Các kỹ thuật học máy – AI được sử dụng như thế nào?
Làm thế nào để xử lý dữ liệu khuyết?
Yếu tố, dữ liệu nào ảnh hưởng đến dự báo giá chứng khoán?
Làm thế nào để đánh giá mô hình?
Có thể cải thiện hơn nữa bằng cách nào?
Đối tƣợng và phạm vi nghiên cứu
Đề tài nghiên cứu tập trung vào tác động của việc xây dựng mô hình Machine Learning, với dữ liệu đầu vào chủ yếu là các chuỗi thời gian Dữ liệu được thu thập trực tiếp từ các cổng thông tin miễn phí.
Các nhân tố ảnh hưởng đến giá cổ phiếu của doanh nghiệp trên thị trường chứng khoán Mỹ S&P500
Dữ liệu trong bài viết chủ yếu dựa trên giá cổ phiếu của Apple và chỉ số S&P 500 từ Sở giao dịch chứng khoán Hoa Kỳ trên Yahoo Finance, cùng với các yếu tố vĩ mô như GDP, lạm phát và lãi suất trái phiếu, được lựa chọn một cách có mục đích.
Số liệu trong nghiên cứu được thu thập, xử lý và phân tích từ ngày 01 tháng 01 năm 2012 đến tháng 8 năm 2023, nhằm dự báo các xu hướng và biến động trong giai đoạn năm này.
Phương pháp nghiên cứu
Đề tài này sử dụng ngôn ngữ lập trình Python để thu thập và xử lý dữ liệu, nhằm đánh giá tác động của các yếu tố đến giá chứng khoán của doanh nghiệp Dữ liệu sẽ được làm sạch và phân tích thông qua các thư viện có sẵn trên Python Sau đó, các dữ liệu được đưa vào các mô hình máy học tiên tiến để đào tạo Cuối cùng, các mô hình này sẽ dự đoán giá chứng khoán của doanh nghiệp trong tương lai dựa trên dữ liệu đã được đào tạo.
Đóng góp của đề tài
Dựa trên kết quả nghiên cứu, tác giả giới thiệu một phương pháp mới sử dụng các công cụ hiện đại để nghiên cứu, phân tích và dự đoán giá cổ phiếu của doanh nghiệp Công cụ này sẽ hỗ trợ hiệu quả cho quá trình ra quyết định trong đầu tư chứng khoán.
Bài viết sẽ đề xuất nhiều hướng phát triển trong việc xây dựng các yếu tố ảnh hưởng, dựa trên quan điểm cá nhân, nhằm tạo ra một kết quả dự báo phù hợp với nhận định của mỗi cá nhân về thị trường chứng khoán.
TỔNG QUAN LÝ THUYẾT
Tổng quan về dự báo chứng khoán
Dự báo, hay "Progrosis" trong tiếng Hy Lạp, có nghĩa là biết trước, là quá trình ước lượng tương lai dựa trên thông tin và dữ liệu hiện có Đây là yếu tố quan trọng trong quản lý và kinh doanh, giúp cá nhân và tổ chức lập kế hoạch, đưa ra quyết định và ứng phó hiệu quả với các tình huống tương lai.
Sự quan tâm của công chúng đối với thị trường chứng khoán đã tăng mạnh trong vài thập kỷ qua (Badolia, 2016) Nếu nhà đầu tư, dù là cá nhân hay tổ chức, có thể dự đoán chính xác hành vi của thị trường, họ sẽ có khả năng kiếm lợi nhuận liên tục Tuy nhiên, việc dự đoán giá chứng khoán luôn là một thách thức, ngay cả đối với các chuyên gia kinh tế, thống kê và tài chính.
Thị trường chứng khoán là nơi giao dịch, chuyển nhượng và phân phối cổ phiếu, cung cấp cho các công ty cơ hội huy động vốn thông qua việc phát hành cổ phiếu Nhà đầu tư có thể đầu tư vào nhiều công ty khác nhau, tuy nhiên, thị trường chứng khoán rất khó lường do giá cổ phiếu biến động liên tục, phụ thuộc vào khối lượng giao dịch Ngoài ra, thị trường còn chịu ảnh hưởng từ các chính sách quốc gia, kinh tế khu vực và toàn cầu, cùng với các yếu tố tâm lý và con người; do đó, thông tin từ mạng xã hội và tin tức tài chính có thể tác động tích cực hoặc tiêu cực đến giá cổ phiếu.
Giá chứng khoán có tính lịch sử và tồn tại dưới dạng chuỗi thời gian, vì vậy hầu hết các nhà đầu tư sử dụng thông tin giá thị trường và dữ liệu cụ thể của công ty như thu nhập và lợi nhuận trong quá khứ để dự đoán giá cổ phiếu trong tương lai (Patel & Marwala, 2006) Ngoài ra, các nhà đầu tư thường kỳ vọng rằng lợi nhuận ngắn hạn sẽ tiếp tục tăng, vì lợi nhuận trong quá khứ có thể phản ánh tâm lý của họ (Bustos et al., 2011) Việc sử dụng thông tin quá khứ để dự báo thị trường chứng khoán vì thế trở nên hợp lý.
Tổng quan chung về dữ liệu
Trong nghiên cứu dự đoán thị trường chứng khoán, hai phương pháp phân tích chính thường được áp dụng là phân tích cơ bản và phân tích kỹ thuật (Lam, 2004; Lohrmann & Luukka, 2019) Phân tích cơ bản chú trọng vào thông tin nền tảng, như doanh thu, chi phí, tốc độ tăng trưởng hàng năm và vị trí thị trường của công ty, được thể hiện qua các báo cáo tài chính (Bodie et al., 2009; Murphy, 1999) Ngoài ra, các chỉ số chung và các đo lường vĩ mô cũng được sử dụng để đánh giá tác động đến hoạt động của công ty.
2.2.1 Dữ liệu chỉ số cơ bản
Chỉ số cơ bản (Fundamental Indicators) là những số liệu phân tích chứng khoán, có vai trò quan trọng trong việc tác động đến giá trị nội tại của chứng khoán trên thị trường Các yếu tố này bao gồm hoạt động kinh doanh của công ty, thu nhập trên mỗi cổ phiếu (EPS), tỷ lệ giá trên thu nhập (P/E), lợi nhuận trên vốn chủ sở hữu (ROE), tăng trưởng doanh thu và cổ tức.
2.2.2 Dữ liệu chỉ số kỹ thuật
Dữ liệu chỉ số kỹ thuật (Technical Indicators) phản ánh trạng thái thị trường tại một thời điểm nhất định, bao gồm thông tin về giá đóng mở cửa, giá cao thấp trong ngày và khối lượng giao dịch chứng khoán Các chỉ số này thường được sử dụng để xác định xu hướng thị trường và bao gồm những chỉ báo phổ biến như MACD và RSI.
Các nhân tố vĩ mô đóng vai trò quan trọng trong việc hiểu và dự đoán sự biến đổi của nền kinh tế quốc gia và thị trường chứng khoán Những yếu tố này cung cấp cái nhìn tổng thể về tình hình kinh tế, giúp nhận diện các xu hướng và tương quan giữa các yếu tố Các nhân tố vĩ mô thường được phân loại thành các hạng mục quan trọng như tăng trưởng kinh tế, lạm phát, tỷ lệ thất nghiệp, cùng với chính sách tiền tệ và tài khóa Chính sách tiền tệ bao gồm quản lý lãi suất và cung tiền, ảnh hưởng trực tiếp đến sự phát triển kinh tế.
Cuối cùng, các biến được phân loại là "các biến khác", dựa trên dữ liệu đo lường định tính Một số nghiên cứu dự đoán thị trường chứng khoán cụ thể bằng cách sử dụng dữ liệu giá của các chỉ số khác (Niaki & HOSEin zade).
2013) hoặc các biến trích từ tin tức tài chính (Chen et al., 2017), thông báo đặc biệt (Feuerriegel & Gordon, 2018), dữ liệu email (Zhou et al., 2018) và tweet (Shi et al.,
Tổng quan về Python
Python là một ngôn ngữ lập trình hướng đối tượng, mã nguồn mở, dễ đọc và viết, được phát triển bởi Guido van Rossum vào năm 1989 và ra mắt lần đầu vào năm 1991 Ngôn ngữ này được ứng dụng rộng rãi trong nhiều lĩnh vực như khoa học máy tính, khoa học dữ liệu, học máy, trí tuệ nhân tạo, lập trình web, phát triển phần mềm và tự động hóa.
Python có một số ưu điểm nổi bật sau:
Python được thiết kế với cú pháp đơn giản và dễ đọc, giúp lập trình viên dễ dàng hiểu và viết mã Cấu trúc của Python sử dụng khoảng trắng để định nghĩa các khối mã, mang lại tính thẩm mỹ cao cho mã nguồn.
Python là một ngôn ngữ lập trình đa năng, hỗ trợ nhiều phong cách lập trình như lập trình hướng đối tượng, lập trình thủ tục và lập trình hàm Sự linh hoạt này cho phép lập trình viên chọn lựa phương pháp phù hợp nhất cho từng dự án.
Python sở hữu một cộng đồng phát triển mạnh mẽ với nhiều thư viện và framework phong phú, giúp hỗ trợ đa dạng các lĩnh vực Các thư viện như NumPy và Pandas chuyên về xử lý dữ liệu, trong khi Flask và Django phục vụ cho phát triển web Ngoài ra, TensorFlow và PyTorch là những công cụ nổi bật trong học máy và trí tuệ nhân tạo, cùng với nhiều thư viện khác, tạo nên một hệ sinh thái phong phú cho lập trình viên.
Python có khả năng chạy trên nhiều hệ điều hành như Windows, macOS và Linux, đồng thời hỗ trợ phát triển ứng dụng di động thông qua các framework như Kivy và PyQT.
Python sở hữu một cộng đồng lập trình viên rộng lớn, mang lại nguồn tài liệu phong phú và nhiều diễn đàn hỗ trợ giải quyết vấn đề Khi gặp khó khăn trong quá trình phát triển, bạn có thể dễ dàng tìm kiếm sự trợ giúp từ cộng đồng Python.
Python là một phần mềm miễn phí và mã nguồn mở, cho phép người dùng sử dụng, sửa đổi và phân phối mà không cần phải trả phí.
Python hỗ trợ đa nền tảng và dễ dàng tích hợp với các ngôn ngữ như C, C++, và Java Đây là một ngôn ngữ lập trình phổ biến, được nhiều doanh nghiệp và tổ chức lớn trên toàn cầu sử dụng Python là lựa chọn lý tưởng cho người mới bắt đầu học lập trình, nhờ vào tính dễ học và hiệu quả của nó.
Dưới đây là một số ví dụ về các ứng dụng của Python:
Python là một ngôn ngữ lập trình phổ biến trong khoa học máy tính, được ứng dụng rộng rãi trong các lĩnh vực như học máy, trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên.
Khoa học dữ liệu: Python là một ngôn ngữ phổ biến để phân tích và xử lý dữ liệu
Lập trình web: Python được sử dụng để phát triển các trang web và ứng dụng web
Phát triển phần mềm: Python được sử dụng để phát triển các ứng dụng máy tính
Tự động hóa: Python được sử dụng để tự động hóa các tác vụ, chẳng hạn như kiểm tra tự động và DevOps.
Tổng quan về Machine Learning
2.4.1 Giới thiệu về học máy
Sự phát triển công nghệ đã thúc đẩy việc áp dụng học máy và trí tuệ tính toán để xây dựng các mô hình dự đoán chính xác cho thị trường chứng khoán Nhiều nghiên cứu đã được công bố, cho thấy khả năng dự báo thị trường chứng khoán thông qua các hệ thống phức tạp, với một số nghiên cứu báo cáo mô hình của họ có thể tạo ra lợi nhuận Tổng quan, việc dự đoán thị trường chứng khoán được xem là một trong những nhiệm vụ thách thức nhất trong nghiên cứu tài chính.
Triết lý của học máy là khai thác kiến thức từ dữ liệu, với học có giám sát là kỹ thuật phổ biến nhất trong dự đoán thị trường chứng khoán Quy trình chung của phương pháp này được áp dụng để dự đoán xu hướng và biến động của thị trường chứng khoán.
Quá trình phân tích bắt đầu bằng việc lựa chọn dữ liệu chuỗi thời gian, chẳng hạn như giá cổ phiếu hoặc lợi nhuận, cùng với thông tin liên quan như tin tức tài chính từ một khoảng thời gian cụ thể Nếu nhiệm vụ phân tích là vấn đề phân loại, lớp mục tiêu sẽ được xác định trước hoặc cần được dự đoán.
Khai phá dữ liệu (Data Mining) là một thuật ngữ có nguồn gốc từ thống kê, xuất hiện từ lâu và ngày càng trở nên quan trọng trong cuộc sống hiện đại, khi mọi lĩnh vực đều được mã hóa và lưu trữ dưới dạng dữ liệu Từ tin nhắn, cuộc gọi, đến lịch sử giao dịch và giá cả thị trường, tất cả đều được lưu trữ trên hệ thống máy tính Với kho thông tin ngày càng lớn, các công cụ khai thác dữ liệu (KDD - Knowledge Discovery in Databases) được phát triển để xử lý lượng thông tin khổng lồ này Quá trình khai phá dữ liệu giúp trích xuất thông tin từ kho lưu trữ, nghiên cứu mối liên hệ giữa các dữ liệu và đưa ra quy tắc chung nhằm cải thiện quyết định trong tương lai.
Các bước quan trọng khi thực hiện phương pháp Data Mining gồm:
Làm sạch dữ liệu (Data cleaning): Ở bước này, dữ liệu sẽ được làm sạch, không có dữ liệu nhiễu hay bất thường
Tích hợp dữ liệu (Data integration): Trong quá trình tích hợp dữ liệu, các nguồn dữ liệu sẽ kết hợp lại
Lựa chọn dữ liệu (Data selection): Dữ liệu liên quan sẽ được trích xuất từ cơ sở dữ liệu
Chuyển đổi dữ liệu (Data transformation): Trong bước này, dữ liệu được chuyển đổi để thực hiện việc phân tích và khai phá
Khai phá dữ liệu (Data mining) là quá trình sử dụng các thuật toán để tìm kiếm và bóc tách thông tin cần thiết, nhằm trích xuất dữ liệu hữu ích từ các tập dữ liệu hiện có.
Đánh giá mẫu (Pattern evaluation): Phân tích một số mẫu dựa trên xu hướng trong dữ liệu
Trình bày thông tin là quá trình thể hiện dữ liệu dưới dạng cây, biểu đồ, bảng hoặc ma trận Các mô hình này được tích hợp vào hệ thống thông tin thực tế thông qua các mô-đun, nhằm hỗ trợ việc ra quyết định hiệu quả.
Hình 2.4 Sơ đồ Data Mining
Khai phá dữ liệu là quá trình áp dụng các thuật toán và phương pháp từ nhiều lĩnh vực khác nhau, bao gồm thống kê, trí tuệ nhân tạo, học máy, cũng như các lĩnh vực như sinh học, tài chính và kinh tế.
Các phương pháp khai phá phổ biến trong khai phá dữ liệu:
Phân loại (Classification): Xác định loại hoặc lớp của một đối tượng dựa trên dữ liệu Ví dụ, phân loại email là thư rác hay không thư rác
Gom cụm (Clustering): Nhóm các đối tượng dựa trên sự tương đồng hoặc các đặc điểm chung mà không cần biết trước số lượng hay nhãn của các nhóm
Phát hiện mẫu (Pattern Discovery) là quá trình tìm kiếm các mẫu, quy tắc, chuỗi thời gian hoặc cấu trúc có ý nghĩa trong dữ liệu Một ví dụ điển hình là việc xác định các mẫu mua sắm chung, giúp doanh nghiệp hiểu rõ hơn về hành vi của khách hàng và tối ưu hóa chiến lược tiếp thị.
Dự đoán (Prediction): Dự đoán giá trị tương lai dựa trên dữ liệu lịch sử và các yếu tố liên quan
Học đối tượng tương tự (Anomaly Detection): Xác định các đối tượng bất thường hoặc ngoại lệ trong dữ liệu
Học tăng cường (Reinforcement Learning) là một nhánh của học máy, tập trung vào việc giúp hệ thống đạt được mục tiêu trong một môi trường nhất định thông qua quá trình thử nghiệm và sai sót.
Phân tích chuỗi thời gian (Time Series Analysis): Xác định xu hướng, mô hình và dự đoán biến đổi trong dữ liệu theo thời gian.
Xây dựng MÔ HÌNH NGHIÊN CỨU
Tổng quan xây dựng Machine Learing
Xây dựng mô hình học máy là một quá trình phức tạp nhưng thiết yếu trong khoa học dữ liệu, nhằm phát triển và triển khai các mô hình giúp máy tính tự động học từ dữ liệu và cải thiện hiệu suất theo thời gian Quá trình này yêu cầu sự kết hợp của các thuật toán, công cụ và quy trình để xử lý và phân tích dữ liệu Machine Learning có nhiều ứng dụng trong các lĩnh vực như y tế, nơi nó có thể phân loại bệnh án và dự đoán căn bệnh, hay trong marketing, giúp tự động hoá phân loại khách hàng và tạo chiến lược tiếp thị cá nhân hóa Bài nghiên cứu này sẽ ứng dụng mô hình học máy để đánh giá khả năng dự đoán giá chứng khoán Để đảm bảo hiệu suất tốt nhất cho mô hình, việc xây dựng quy trình chặt chẽ và sử dụng tập dữ liệu lớn, đại diện là rất quan trọng.
Quá trình xây dựng Machine Learning bao gồm các bước chính như thu thập và tiền xử lý dữ liệu, chọn mô hình phù hợp, huấn luyện mô hình với dữ liệu, và kiểm tra hiệu suất Mỗi vòng lặp cho phép tinh chỉnh mô hình nhằm tối ưu hóa kết quả đạt được.
Hình 3.1: Mô hình xây dựng máy học
Sự phát triển của Machine Learning mang lại nhiều cơ hội cho doanh nghiệp và tổ chức Khả năng tự động học từ dữ liệu và cải thiện theo thời gian giúp Machine Learning hiểu rõ hơn về dữ liệu, tạo ra các giải pháp thông minh và nâng cao hiệu suất làm việc.
KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN
Tổng quan dữ liệu và phương pháp nghiên cứu
4.1.1 Thống kê dữ liệu đầu vào
Bảng 4.1.1: Kết quả thống kê các biến
Biến Quan sát Trung bình Độ lệch chuẩn MAX MIN
Nguồn: Tác giả tổng hợp
Dữ liệu được thu thập từ năm 2012 đến tháng 8 năm 2023, với tổng cộng 2,933 quan sát, chủ yếu tập trung vào giá chứng khoán của tập đoàn Apple Hai biến vĩ mô được xem xét là CPI và GDP của Mỹ, với dữ liệu thu thập từ Yahoo Finance theo tháng Để xử lý thông tin thiếu hụt, chúng tôi đã áp dụng phương pháp tự động điền giá trị đại diện cho từng ngày trong tháng Các chỉ số kỹ thuật được tính toán và dự đoán thông qua thư viện có sẵn trên Python dựa trên dữ liệu của Apple.
Bảng trên cung cấp góc nhìn khái quát về toàn bộ dữ liệu đã thu thập nhằm phục vụ cho mô hình xây dựng máy học
Các thƣ viện đã sử dụng trong Python
Bảng 4.1.2: Tổng hợp các thƣ viện
STT Thƣ viện Giải thích thƣ viện
1 math Cung cấp các hàm toán học cơ bản như sin, cos, sqrt và các hàm số học khác
2 matplotlib Một thư viện Python cho việc tạo ra các biểu đồ và đồ thị
Thư viện này hỗ trợ tính toán khoa học và toán học với cấu trúc dữ liệu mảng đa chiều (ndarray), cung cấp các hàm số học và thống kê để xử lý dữ liệu số một cách hiệu quả.
Thư viện Python này chuyên dùng cho phân tích và xử lý dữ liệu, cung cấp các cấu trúc dữ liệu mạnh mẽ như DataFrame và Series, giúp người dùng làm việc hiệu quả với dữ liệu có cấu trúc.
Thư viện bổ sung cho pandas trong Python cung cấp công cụ và hàm hữu ích cho phân tích kỹ thuật dữ liệu tài chính Nó cho phép người dùng tính toán các chỉ số kỹ thuật quan trọng như RSI (Relative Strength Index) và MACD (Moving Average Convergence Divergence), cùng nhiều công cụ khác, giúp việc phân tích dữ liệu thị trường tài chính trở nên thuận tiện hơn.
6 seaborn Thư viện Python dựa trên matplotlib để tạo ra các biểu đồ thống kê và đồ thị trực quan
7 statsmodels Sử dụng cho phân tích thống kê và mô hình hóa dữ liệu
Thư viện mã nguồn mở TensorFlow của Google chủ yếu được sử dụng để xây dựng và huấn luyện mạng nơ-ron, đặc biệt trong lĩnh vực học máy và trí tuệ nhân tạo TensorFlow mang đến một công cụ mạnh mẽ cho việc định nghĩa và đào tạo các mô hình máy học hiệu quả.
Thư viện Python cung cấp khả năng truy cập dữ liệu tài chính từ Yahoo Finance, giúp người dùng thu thập thông tin về giá cổ phiếu, thống kê tài chính và dữ liệu liên quan từ các công ty niêm yết trên sàn giao dịch.
4.1.2 Đánh giá mức độ tương quan giữa hai biến số
Ma trận tương quan là một ma trận vuông có kích thước tương ứng với số lượng biến trong bộ dữ liệu, thường được sử dụng trong thống kê và phân tích đa biến để biểu diễn mối quan hệ giữa các biến số Mỗi phần tử trong ma trận thể hiện mức độ tương quan giữa các cặp biến, với giá trị nằm trong khoảng từ -1 đến 1 Giá trị 1 trên đường chéo chính cho thấy sự tương quan hoàn hảo của mỗi biến với chính nó, trong khi các giá trị khác ngoài đường chéo cho biết mức độ tương quan tuyến tính giữa các cặp biến.
Hình 4.1: Ma trận tương quan giữa các biến trong mô hình
Nguồn: Tác giả tổng hợp
Các biến giá đóng cửa, mở cửa, giá cao, giá thấp, cùng với các chỉ số SMA_7, 14, 21, EMA và VWAP thể hiện sự tương quan hoàn hảo, phản ánh sự biến động giá chứng khoán hàng ngày Các biến khác cũng cho thấy sự tương quan tương đối cao với giá cổ phiếu của Apple, cho thấy rằng tình hình kinh tế chung có ảnh hưởng lớn đến giá cổ phiếu của các tập đoàn lớn Tuy nhiên, hai biến RSI và CCI lại có mức độ tương quan thấp hơn so với giá đóng cửa Nhìn chung, các biến này đều có sự tương quan với nhau và sẽ được sử dụng trong mô hình để xử lý, làm nền tảng cho việc tự học và dự đoán các biến trong tương lai.
Dữ liệu trong mô hình là chuỗi thời gian với các biến thu thập không đồng nhất về giá trị Để chuẩn hóa các giá trị này, chúng tôi áp dụng phương pháp Min-Max, giúp đưa dữ liệu về khoảng xác định từ 0 đến 1 Phương pháp này cho phép so sánh và xử lý công bằng các biến có thang đo khác nhau.
Chuẩn hóa Min-Max mang lại nhiều lợi ích, bao gồm việc giúp dữ liệu trở nên dễ so sánh hơn, giảm thiểu ảnh hưởng của các giá trị biến ngoại lai (outliers), và cải thiện hiệu suất cho các thuật toán học máy như Neural Networks.
4.1.4 Chia dữ liệu thành tập huấn luyện và kiểm tra
Trong phát triển và đánh giá mô hình máy học, việc chia tập dữ liệu thành tập huấn luyện và kiểm tra theo tỷ lệ 8:2 là rất quan trọng Tỷ lệ này được chọn do dự án phân tích dự đoán có nhiều dữ liệu biến động, giúp đáp ứng các yêu cầu cần thiết Trong số 2933 ngày giao dịch, 20% được sử dụng cho thử nghiệm mô hình, trong khi phần còn lại dành cho đào tạo Việc đào tạo mô hình trên dữ liệu lịch sử lớn là cần thiết do sự phụ thuộc lẫn nhau của dữ liệu trong dự báo chuỗi thời gian Một phần dữ liệu cũng được giữ lại để xác thực chéo, và các hàng ngẫu nhiên được phân bổ cho dữ liệu huấn luyện và thử nghiệm nhằm nâng cao hiệu suất mô hình Tỷ lệ phân chia dữ liệu ảnh hưởng trực tiếp đến hiệu suất của các mô hình; nếu dữ liệu huấn luyện và thử nghiệm giống nhau, mô hình có thể bị khớp quá mức, trong khi sự khác biệt lớn có thể dẫn đến tình trạng thiếu khớp Do đó, cần có tỷ lệ phù hợp để phản ánh chính xác hiệu suất của các mô hình, từ đó cung cấp kết quả đáng tin cậy.