Chẳng hạn, dựa vào vấn đề, nhiệm vụ cần giải quyết của thuật toán, người ta phân loại các thuật toán học máy thành ba loại: ● Hồi quy Regression: Giải quyết bài toán dự đoán giá trị một
Cơ sở lý thuyết
Tổng quan về học máy
Theo Rajendra Akerkar: Học máy có thể được định nghĩa rộng rãi là các phương pháp tính toán sử dụng kinh nghiệm để cải thiện hiệu suất hoặc để đưa ra các dự đoán chính xác Hay học máy là một chuỗi các thao tác toán học được thực hiện trên dữ liệu quan trọng để thu được những hiểu biết có giá trị Nó nghiên cứu của các phương pháp học tập từ các mẫu và kinh nghiệm thay vì các quy luật được mã hóa cứng
Như vậy, học máy nói đến một chương trình giúp cho máy tính có thể giải một bài toán cụ thể bằng những “kinh nghiệm” mà nó đã được “học” từ dữ liệu Chương trình này có sự khác biệt lớn so với các chương trình lập trình truyền thống Ở các chương trình lập trình truyền thống, con người sẽ phải viết ra các quy tắc, điều kiện để máy tính thực hiện nhiệm vụ và đưa ra câu trả lời Ngược lại, đối với học máy, nhiệm vụ của máy tính là phải dựa vào dữ liệu quan sát để tìm ra được các quy tắc này
Dựa trên các tiêu chí khác nhau, người ta có thể phân loại các thuật toán học máy theo nhiều cách khác nhau
Chẳng hạn, dựa vào vấn đề, nhiệm vụ cần giải quyết của thuật toán, người ta phân loại các thuật toán học máy thành ba loại:
● Hồi quy (Regression): Giải quyết bài toán dự đoán giá trị một đại lượng nào đó dựa vào giá trị của các đại lượng liên quan Ví dụ, dựa vào các đặc điểm như diện tích, số phòng, khoảng cách tới trung tâm…để dự đoán giá trị căn nhà.
● Phân lớp (Classification): Giải quyết các bài toán nhận dạng xem một đối tượng thuộc lớp nào trong số các lớp cho trước Ví dụ, bài toán nhận diện chữ viết, bài toán phân loại email…thuộc các thuật toán phân lớp.
● Phân cụm (Clustering): Ý tưởng cơ bản giống với các thuật toán phân lớp, sự khác biệt là ở chỗ, trong các bài toán phân cụm, các cụm chưa được xác định trước và thuật toán phải tự khám phá và phân cụm dữ liệu.
Dựa trên cách máy tính học, người ta chia các thuật toán Học máy thành:
● Học có giám sát (Supervised learning): Thuật toán sẽ học trên dữ liệu đã được dán nhãn Ví dụ, trong bài toán nhận diện hình ảnh, dữ liệu đầu vào sẽ là rất nhiều bức ảnh khác nhau về loài mèo Thuật toán sẽ học các đặc điểm quan trọng từ các bức ảnh đó để nhận biết xem một đối tượng trong một bức ảnh có phải là mèo hay không.
● Học không giám sát (Unsupervised learning): Thuật toán học trên các dữ liệu chưa được gán nhãn và sẽ phải tự khám phá ra cấu trúc, phân bố của dữ liệu để tự phân cụm chúng.
● Học bán giám sát (Semi-supervised learning): Kết hợp cả học giám sát và học không giám sát Tức là, một số dữ liệu đầu vào sẽ được gán nhãn và một số khác thì không được gán nhãn.
● Học tăng cường/củng cố (Reinforced learning): Thuật toán sẽ tự học dựa trên việc tính điểm thưởng, phạt cho các kết quả thực hiện nhiệm vụ Cụ thể hơn, các thuật toán học tăng cường nghiên cứu cách thức một tác nhân (Agent) trong một môi trường (Environment) đang ở một trạng thái (State) thực hiện một hành động (Action) để tối ưu hóa một phần thưởng (Reward) chung Các chương trình máy tính như AlphaGo đã giúp máy tính đánh bại con người trong các trò chơi như cờ vua, cờ vây được xây dựng dựa trên thuật toán này.
1.3 Các bước cơ bản thực hiện một thuật toán học máy
Nhìn chung, việc thực hiện một thuật toán học máy trải qua các bước cơ bản sau:
1 Thu thập dữ liệu – Gathering data/Data collection
2 Tiền xử lý dữ liệu – Data preprocessing
● Trích xuất dữ liệu – data extraction
● Làm sạch dữ liệu – data cleaning
● Chuyển đổi dữ liệu – Data transformation
● Chuẩn hóa dữ liệu – Data normalization
● Trích xuất đặc trưng – Feature extraction
● Phân tích dữ liệu – Data analysis
3 Xây dựng mô hình máy học – Model building
4 Huấn luyện mô hình – Model training
5 Đánh giá mô hình – Model evaluation
Trong tất cả các bước thì việc thu thập dữ liệu, tiền xử lý và xây dựng bộ dữ liệu là tốn nhiều thời gian và công sức nhất Đây là bước quan trọng, có ảnh hưởng rất nhiều đến hiệu quả của thuật toán học máy.
Tổng quan về thuật toán sử dụng
Random Forest là một thuật toán học máy phổ biến thuộc về kỹ thuật học có giám sát
Nó có thể được sử dụng cho cả vấn đề Phân loại và Hồi quy Nó dựa trên khái niệm học tập theo nhóm, là một quá trình kết hợp nhiều bộ phân loại để giải quyết một vấn đề phức tạp và để cải thiện hiệu suất của mô hình
Như tên gọi của nó, Random Forest (RF) dựa trên cơ sở:
Forest = nhiều cây quyết định (decision tree) Đơn vị của RF là thuật toán cây quyết định, với số lượng hàng trăm Mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc: Tái chọn mẫu (bootstrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ toàn bộ các biến trong dữ liệu Ở trạng thái sau cùng, mô hình RF thường hoạt động rất chính xác, nhưng đổi lại, ta không thể nào hiểu được cơ chế hoạt động bên trong mô hình vì cấu trúc quá phức tạp RF do đó là một trong số những mô hình hộp đen (black box)
Mô tả thuật toán Random Forest: ã Chọn T là số lượng cỏc cõy thành phần sẽ được xõy dựng ã Chọn m là số lượng cỏc thuộc tớnh được dựng để phõn chia tại mỗi nỳt (node) của cây p là tổng số các thuộc tính m thường nhỏ hơn p rất nhiều Giá trị m được giữ không đổi trong suốt quá trình xây dựng cây ã Dựng T cõy quyết định Trong đú mỗi cõy quyết định được hỡnh thành như sau:
(a) xây dựng tập mẫu khởi động (bootstrap) với n mẫu, hình thành từ việc hoán vị tập các mẫu ban đầu Mỗi cây sẽ được dựng từ tập khởi động này; (b) Khi xây dựng cây quyết định, tại mỗi nút (node) sẽ chọn ra m thuộc tính và sử dụng m thuộc tính này để tìm ra cách phân chia tốt nhất; (c) Mỗi cây quyết định được phát triển lớn nhất có thể và không bị cắt xén
Sau khi xây dựng được rừng ngẫu nhiên (Random Forest), để phân lớp cho đối tượng T, thu thập kết quả phân lớp đối tượng này trên tất cả các cây quyết định và tính bình quân giá trị dự báo của các cây quyết định để làm kết quả cuối cùng của thuật toán Tỷ lệ lỗi của cây phụ thuộc vào độ mạnh của từng cây quyết định thành phần và mối quan hệ qua lại giữa các cây đó
Lợi thế và thách thức khi sử dụng thuật toán rừng ngẫu nhiên cho các bài toán phân loại hoặc hồi quy:
● Giảm nguy cơ trang bị quá mức: Cây quyết định có nguy cơ bị trang bị quá mức vì chúng có xu hướng khớp chặt chẽ với tất cả các mẫu trong dữ liệu huấn luyện Tuy nhiên, khi có một số lượng lớn các cây quyết định trong một khu rừng ngẫu nhiên, bộ phân loại sẽ không khớp quá mức với mô hình do tính trung bình của các cây không tương quan làm giảm phương sai tổng thể và lỗi dự đoán
● Cung cấp tính linh hoạt: Vì rừng ngẫu nhiên có thể xử lý cả tác vụ hồi quy và phân loại với độ chính xác cao nên đây là phương pháp phổ biến của các nhà khoa học dữ liệu Tính năng đóng gói cũng làm cho trình phân loại rừng ngẫu nhiên trở thành một công cụ hiệu quả để ước tính các giá trị bị thiếu vì nó duy trì độ chính xác khi một phần dữ liệu bị thiếu
● Dễ dàng xác định tầm quan trọng của tính năng: Rừng ngẫu nhiên giúp dễ dàng đánh giá tầm quan trọng hoặc đóng góp của biến đối với mô hình
● Quy trình tốn thời gian: Vì các thuật toán rừng ngẫu nhiên có thể xử lý các tập dữ liệu lớn nên chúng có thể đưa ra các dự đoán chính xác hơn nhưng có thể xử lý dữ liệu chậm do chúng đang tính toán dữ liệu cho từng cây quyết định riêng lẻ
● Yêu cầu nhiều tài nguyên hơn: Vì các khu rừng ngẫu nhiên xử lý các tập dữ liệu lớn hơn nên chúng sẽ yêu cầu nhiều tài nguyên hơn để lưu trữ dữ liệu đó
● Phức tạp hơn: Dự đoán của một cây quyết định đơn lẻ dễ diễn giải hơn khi so sánh với một rừng cây quyết định
2.2 Long short term memory (LSTM)
Con người không bắt đầu suy nghĩ của họ từ đầu tại tất cả các thời điểm Ví dụ khi đọc một văn bản, ta hiểu mỗi chữ dựa vào kiến thức đã biết nghĩa các chữ trước đó chứ không phải đọc tới đâu là quên tới đó, rồi suy nghĩ lại từ đầu Tức là tư duy đã có một bộ nhớ để lưu lại những gì diễn ra trước đó
Tuy nhiên các mô hình mạng nơ-ron truyền thống thì không thể làm được việc đó, đó có thể coi là một khuyết điểm chính của mạng nơ-ron truyền thống Mạng nơ-ron hồi quy (Recurrent Neural Network) chứa các vòng lặp bên trong cho phép thông tin có thể lưu lại được đã giải quyết được vấn đề trên
Hình vẽ trên mô tả một đoạn của mạng nơ-ron hồi quy A với đầu vào là 𝑥 𝑡 và đầu ra là
ℎ 𝑡 Một vòng lặp cho phép thông tin có thể được truyền từ bước này qua bước này qua bước khác của mạng nơ-ron Một mạng nơ-ron hồi quy có thể được coi là nhiều bản sao chép của cùng một mạng, trong đó mỗi đầu ra của mạng này là đầu vào của một mạng sao chép khác
Chuỗi lặp lại các mạng này chính là phân giải của mạng nơ-ron hồi quy, các vòng lặp khiến chúng tạo thành một chuỗi danh sách các mạng sao chép nhau Các nút của mạng vẫn nhận đầu vào và có đầu ra hệt như mạng nơ-ron thuần
Trong vài năm gần đây, việc ứng dụng RNN đã đưa ra được nhiều kết quả không thể tin nổi trong nhiều lĩnh vực: nhận dạng giọng nói, mô hình hóa ngôn ngữ, dịch máy, mô tả ảnh… Danh sách vẫn còn đang được mở rộng tiếp Đằng sau sự thành công này chính là sự đóng góp của LSTM LSTM là một dạng đặc biệt của mạng nơ-ron hồi quy, với nhiều bài toán thì nó tốt hơn mạng hồi quy thuần Hầu hết các kết quả thú vị thu được từ mạng RNN là được sử dụng với LSTM
● Vấn đề phụ thuộc xa
Các chỉ số đánh giá chất lượng mô hình
Để đánh giá hiệu quả dự báo giá đóng cửa của mô hình trên mã chứng khoán VIC, nhóm sử dụng các chỉ số đánh giá:
● RMSE–Root Mean Squared Error: thể hiện sự chênh lệch giữa các giá trị dự đoán và giá trị quan sát được, giá trị này càng thấp thì mô hình càng tốt
Trong đó ŷ ᵢ là giá trị ước lượng, yᵢ là biến độc lập, n là số lượng quan sát
● MSE-Mean Squared Error: là số liệu phổ biến được sử dụng cho các bài toán hồi quy Về cơ bản, nó tìm thấy sai số bình phương trung bình giữa các giá trị được dự đoán và thực tế MSE là thước đo chất lượng của một công cụ ước tính - nó luôn không âm và các giá trị càng gần 0 càng tốt
Trong đó n là số điểm dữ liệu, yᵢ là giá trị quan sát và ŷ ᵢ là giá trị dự đoán
● MAE-Mean Absolute Error: đo độ lớn trung bình của các lỗi trong một tập hợp các dự đoán mà không cần xem xét hướng của chúng Đó là giá trị trung bình trên mẫu thử nghiệm về sự khác biệt tuyệt đối giữa dự đoán và quan sát thực tế, trong đó tất cả các khác biệt riêng lẻ có trọng số bằng nhau trong đó n là số điểm dữ liệu, xᵢ là giá trị thực và yᵢ là giá trị dự đoán
● 𝑅 2 : cho biết độ phù hợp của mô hình, giá trị 𝑅 2 càng cao thì mối quan hệ giữa biến độc lập và biến phụ thuộc càng chặt chẽ
RSS: tổng các độ lệch bình phương giải thích từ hồi quy
ESS: tổng các độ lệch bình phương phần dư
TSS: tổng các độ lệch bình phương toàn bộ.
Nội dung bài toán
Thực trạng
1.1 Ứng dụng AI trong phân tích giao dịch chứng khoán hiện nay
Công nghệ ngày càng phát triển đến mức có thể can thiệp giúp nhà đầu tư hạn chế rủi ro và gia tăng lợi nhuận Nhiều công ty chứng khoán đã mạnh dạn đi đầu trong mô hình hoạt động không môi giới và phát triển Robot AI của mình để trợ giúp khách hàng tiết kiệm chi phí, tối đa hóa lợi nhuận Tại thị trường chứng khoán Việt Nam, các Công ty Chứng khoán cũng đang đi theo xu hướng này nhưng chưa đồng bộ và triệt để
Hiện nay, các công ty chứng khoán phát triển phần mềm kết hợp giao dịch định lượng, giao dịch thuật toán với công nghệ AI để phân tích thị trường theo thời gian thực Công nghệ AI giúp thu thập hàng triệu triệu điểm dữ liệu trong thời gian thực và phân tích tự động, dự đoán biến động giá của từng cổ phiếu nói riêng, thị trường nói chung dựa trên dữ liệu về thời gian, số lượng, giá mở cửa và đóng cửa (ATO và ATC) Ở Việt Nam, nhiều trang web hoặc ứng dụng/app chứng khoán được hỗ trợ bởi AI có thể dự báo được giai đoạn đỉnh và đáy của thị trường bằng hệ thống tự động phân tích dữ liệu giao dịch trực tuyến trong phiên AI còn đưa ra chiến lược phân bổ vốn để nhà đầu tư tối ưu lợi nhuận như giải ngân mạnh tại các chân sóng tin cậy và hạn chế giao dịch trong Downtrend (xu hướng xuống) hoặc Sideways (xu hướng đi ngang) Ngoài ra, công nghệ trí tuệ nhân tạo có thể làm tốt việc dự đoán phản ứng của thị trường khi có những sự kiện đặc biệt xảy ra, dựa trên dữ liệu trong quá khứ
Thị trường chứng khoán Việt Nam ngày càng phát triển, nhận thấy đây là một khía cạnh có nhiều tiền năng khai thác, nhóm em đã quyết định ứng dụng AI để đưa ra dự đoán về giá cổ phiếu VIC
1.2 Tổng quan về cổ phiếu VIC (Tập đoàn VINGROUP)
- Sàn niêm yết: HOSE (Sở giao dịch chứng khoán thành phố Hồ Chí Minh)
- Khối lượng cổ phiếu đang niêm yết: 3.813.935.861
- Khối lượng cổ phiếu đang lưu hành: 3.813.935.561
Tính đến hết phiên giao dịch ngày 1/3/2023, khối lượng giao dịch khớp lệnh trung bình
10 phiên: 2.092.930, giá tham chiếu: 52.500 đ, giá trần: 56.100 đ, giá sàn: 48.850 đ, giá mở cửa: 52.500 đ, giá cao nhất: 53.000 đ, giá thấp nhất: 52.000 đ.
Nội dung bài toán: Xây dựng mô hình dự đoán giá chứng khoán VIC
- Input: File dữ liệu csv gồm giá đóng cửa (close), giá mở cửa (open), giá thấp nhất (low), giá cao nhất (high), khối lượng giao dịch (volume)
- Output: Giá đóng cửa mã cổ phiếu VIC trong tương lai
⇒ Giải pháp: Để giải quyết bài toán, nhóm đưa ra các phương án:
⮚ Phương án dự đoán giá chứng khoán truyền thống Để có thể đưa ra được các quyết định đầu tư chính xác, các nhà đầu tư cần tiến hành phân tích doanh nghiệp (đọc báo cáo tài chính, cơ cấu tổ chức doanh nghiệp…), phân tích ngành nghề (tình hình thị trường, khả năng phát triển của doanh nghiệp trong tương lai), phân tích kỹ thuật chứng khoán Tuy nhiên phương pháp này tồn tại những vấn đề sau:
+ Đòi hỏi các nhà đầu tư phải có kiến thức, khả năng nắm bắt thông tin, nhạy bén với thị trường
+ Khối lượng thông tin đầu vào rất lớn, nhà đầu tư cần bỏ ra nhiều thời gian và công sức để phân tích và đánh giá, chưa kể nhà đầu tư phải có những trải nghiệm thực tế, gặp vô số thiệt hại, rủi ro để đưa ra kinh nghiệm riêng cho bản thân trong quá trình đầu tư
+ Rủi ro từ những thông tin nội bộ không được công khai
+ Tin tức giả làm ảnh hưởng đến tâm lý nhà đầu tư
+ Sử dụng phương pháp phân tích truyền thống, đòi hỏi nhà đầu tư phải giữ cho mình cái đầu lạnh, làm chủ được cảm xúc và kiên nhẫn trước biến động liên tục của thị trường
Với những nhà đầu tư nhỏ ít kinh nghiệm, việc phân tích bằng phương pháp truyền thống là một rào cản lớn Cách dự đoán giá chứng khoán trên tốn nhiều thời gian và công sức để học hỏi, phân tích, tìm hiểu và xác thực thông tin
⮚ Phương án dự đoán giá chứng khoán dựa trên AI
Mô hình có ứng dụng AI dự đoán giá đóng cửa của cổ phiếu hỗ trợ con người tiếp cận thông tin một cách tốt hơn Từ đó, hỗ trợ các nhà đầu tư đưa ra quyết định để tối đa hóa tiềm năng đầu tư Ngoài ra mô hình có thể được tích hợp trong ứng dụng của các công ty chứng khoán, tạo ra điểm hấp dẫn thu hút nhà đầu tư sử dụng app Sử dụng AI có thể phân tích dữ liệu khổng lồ trong thời gian ngắn, tiết kiệm thời gian, chi phí, tăng năng suất của những người lao động tri thức
Những năm gần đây, ứng dụng các mô hình học máy và công nghệ trí tuệ nhân tạo vào giải quyết bài toán dự đoán giá chứng khoán đã trở thành một xu hướng phát triển mạnh mẽ Do đó, nội dung chính của chương 3 sẽ đi ứng dụng một kỹ thuật nền tảng của công nghệ AI cho bài toán dự đoán giá đóng cửa của cổ phiếu VIC Có nhiều hướng tiếp cận khác nhau để dùng AI dự đoán giá cổ phiếu, trong đó thuật toán được nhóm sử dụng cho bài báo cáo này là: Random Forest và LSTM (Long short-term memory).
Ứng dụng AI xây dựng mô hình dự đoán giá đóng cửa mã cổ phiếu VIC 14 1 Giới thiệu bộ dữ liệu
Mã lệnh chương trình
+ Đọc dữ liệu và hiển thị 6 dòng dữ liệu đầu tiên
+ Hiển thị kích thước bộ dữ liệu
+ Kiểm tra kiểu dữ liệu và dung lượng của bộ dữ liệu
2.2 Tiền xử lý dữ liệu
+ Biến đổi kiểu dữ liệu cột date từ dạng Object về dạng DateTime
+ Sắp xếp cột date theo thứ tự ngày tháng tăng dần
+ Tạo file dữ liệu gồm 2 thuộc tính ngày tháng và giá đóng cửa
+ Chia tập dữ liệu train và test
2.3 Trực quan hóa dữ liệu
+ Vẽ biểu đồ biểu thị giá đóng cửa của cổ phiếu VIC
Nhóm xây dựng mô hình sử dụng thuật toán học sâu có giám sát LSTM để so sánh với mô hình sử dụng thuật toán Random Forest nhằm tìm ra mô hình tốt nhất
2.4.1 Xây dựng mô hình sử dụng thuật toán Random Forest Để dự đoán giá cổ phiếu, nhóm đã sử dụng mô hình thuật toán phân lớp trong phương pháp học máy - Random Forest hay còn gọi là rừng ngẫu nhiên a Khai báo thư viện b Tạo đối tượng hồi quy sử dụng 100 mô hình cây quyết định khác nhau được lựa chọn một cách ngẫu nhiên
Khớp lệnh hồi quy với dữ liệu X_train và y_train: c Cho mô hình dự đoán trên tập train và tập test
Vì hình dạng mới phải tương thích với hình dạng ban đầu nên nhóm đã sử dụng lệnh numpy để định hình lại một vectơ với tham số (-1,1) tức là cột là 1 nhưng hàng không xác định:
Dùng hàm inverse _ transform để đảo ngược miền giá trị sau khi định hình, về miền giá trị cũ giúp thuận tiện cho việc báo cáo hay vẽ biểu đồ sau này
2.4.2 Xây dựng mô hình sử dụng LSTM
Sau khi biến đổi dữ liệu về dạng numpy array ở bước tiền xử lí dữ liệu, nhóm sử dụng lệnh numpy reshape để định hình lại dữ liệu Do mô hình Sequential yêu cầu dữ liệu ở định dạng nhất định
Kết quả thu được hai tập X_train và X_test có chiều như sau:
Cụ thể, X_train sẽ có shape là (n_sample, time_step, features), tức là mỗi sample sẽ có dạng time series (kiểu như 1 chuỗi các hành động liên tiếp, kết hợp với nhau tạo thành
1 chuyển động có ý nghĩa) Đây là input_shape mặc định của layer LSTM trong keras Tiến hành xây dựng model:
Nhóm xây dựng model gồm 6 lớp: 1 lớp đầu vào đầu vào, 3 lớp LSTM, 1 lớp Dropout và 1 lớp đầu ra Các layer được thêm lần lượt vào mô hình bằng hàm add
- Lớp thứ 1 - Sequential: tạo lớp mạng cho dữ liệu đầu vào
- Lớp thứ 2 – LSTM: có 100 units (kích thước không gian đầu ra), do kết nối trực tiếp với lớp thứ nhất nên cần mô tả thêm thông tin đầu vào bằng input_shape Return_sequences=True tức là trả về sequences để có thể tiếp tục sử dụng lớp LSTM tiếp theo
- Lớp thứ 5 – Dropout: Bỏ qua một số đơn vị trong quá trình huấn luyện một cách ngẫu nhiên để tránh cho mô hình học tủ Tỉ lệ 0.5 nghĩa là nếu như có 1000 units thì 500 units sẽ bị loại bỏ ngẫu nhiên trong mỗi lần huấn luyện
- Lớp thứ 6 - Dense: lớp output với đầu ra một chiều để dự báo cho một giá trị
- Hàm compile: sử dụng trình tối ưu adam để tối ưu hóa tốc độ học và MSE để xác định sai số tuyệt đối trung bình
- Hàm fit: đào tạo mô hình với các đầu vào đã cho Nhóm chưa có kinh nghiệm trong việc chọn batch_size và epochs sao cho model không bị chưa khớp (underfitting) hay quá khớp (overfitting) nên đã thử nhiều cặp giá trị khác nhau Sau đó quan sát thông số loss khi huấn luyện để lựa chọn cặp giá trị cho ra mô hình tốt
Tiến hành huấn luyện cho x_train và y_train với 200 lần lặp, số lượng mẫu dữ liệu trong một lần huấn luyện là 5 mẫu
Cho mô hình dự đoán dữ liệu trên tập train và tập test: Định dạng lại dữ liệu bằng inverse_transform do dữ liệu đang ở dạng khoảng (0, 1) để việc quan sát thực tế hơn
2.5 Đánh giá độ chính xác của mô hình
Nhận xét: Quan sát độ đo của hai mô hình, ta có thể thấy khi mô hình đào tạo trên dữ liệu tập Train và dự đoán trên dữ liệu tập Test không xảy ra hiện tượng Overfitting Tiến hành so sánh hai mô hình khi dự đoán trên tập Test: Độ đo Random Forest LSTM
+ Vẽ biểu đồ so sánh giữa giá thực tế và giá dự đoán của mô hình Random Forest
+ Vẽ biều đồ so sánh giữa giá thực tế và giá dự đoán trên tập test của mô hình LSTM
Từ bảng so sánh độ đo và biểu đồ của hai mô hình, ta nhận thấy mô hình LSTM dự đoán chính xác hơn so với Random Forest nên nhóm quyết định sử dụng mô hình LSTM
2.6 Lưu và sử dụng mô hình
+ Lưu và mở lại mô hình để tái sử dụng
+ Sử dụng mô hình dự đoán giá chứng khoán ngày 19.06.2023
Giá đóng cửa VIC từ ngày 13/06 đến ngày 20/06/2023
Sau khi sử dụng mô hình để dự đoán giá cổ phiếu VIC ngày 19/06 nhóm nhận thấy mô hình dự đoán khá chính xác, chênh lệch so với thực tế có thể chấp nhận được.
Kiến nghị cách thức áp dụng mô hình
+ Do đặc tính của học sâu là có khả năng tự học và nhận diện nhiều vấn đề có cấp độ phức tạp Nó cho phép máy tính tự động hiểu, xử lý và học từ dữ liệu để thực thi nhiệm vụ được giao, cũng như cách đánh giá giúp tăng tính hiệu quả Giống như bộ não của con người, được học càng nhiều thì càng thông minh, mô hình học sâu sẽ càng đưa ra dự đoán được chính xác hơn Nhưng nhược điểm của mô hình này là huấn luyện lâu Nếu để vòng lặp epochs thấp (epochs = 10) thì độ chính xác của mô hình sẽ là không cao Để sử dụng mô hình một cách hiệu quả, nhóm khuyến nghị khi huấn luyện mô hình nên để vòng lặp lớn hơn 100
+ Mô hình được xây dựng với bộ dữ liệu liên quan đến VIC cho nên có thể cho kết quả phù hợp với cổ phiếu VIC nhưng chưa chắc đúng với các mã cổ phiếu khác
+ Trên thực tế, giá cổ phiếu bị tác động bởi nhiều yếu tố khác nhau (môi trường kinh tế
- tài chính, môi trường khoa học - công nghệ, pháp lý, …), nên mô hình được xây dựng được xem như một kênh để các nhà đầu tư tham khảo trước khi ra quyết định, không mang tính chuẩn xác tuyệt đối.