Tập dữ liệu Bài toán yêu cầu dựa vào tập dữ liệu lịch sử chứa các bản ghi về giá cổ phiếu, hãy chọn lựa và xây dựng một mơ hình dự đốn giá tương lai của thị trường chứng khoán cụ thể ở đ
ĐẠI HỌC QUỐC GIA TP HCM ĐẠI HỌC CÔNG NGHỆ THÔNG TIN - - BÁO CÁO Môn: Học máy thống kê Lớp : DS102.L21 ĐỀ TÀI: STOCK PRICE PREDICTION Bài báo cáo thực tập GIẢNG VIÊN HƯỚNG DẪN: TS Nguyễn Tấn Trần Minh Khang Th.S Võ Duy Nguyên Hồ Thái Ngọc NHÓM THỰC HIỆN: Nguyễn Lương Toàn - 18521510 Nguyễn Anh Phi - 19522005 TPHCM, Ngày 16 tháng năm 2021 ĐẠI HỌC QUỐC GIA TP HCM ĐẠI HỌC CÔNG NGHỆ THÔNG TIN - - BÁO CÁO Môn: Học máy thống kê Lớp : DS102.L21 ĐỀ TÀI: STOCK PRICE PREDICTION Bài báo cáo thực tập GIẢNG VIÊN HƯỚNG DẪN: TS Nguyễn Tấn Trần Minh Khang Th.S Võ Duy Nguyên Hồ Thái Ngọc NHĨM THỰC HIỆN: Nguyễn Lương Tồn - 18521510 Nguyễn Anh Phi - 19522005 TPHCM, Ngày 16 tháng năm 2021 LỜI CẢM ƠN Đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Công nghệ thông tin – Đại học Quốc gia TP.HCM xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Tấn Trần Minh Khang, người thầy trực tiếp giảng dạy, hướng dẫn tận tình bảo chúng em suốt trình học tập Chân thành cảm ơn ThS Võ Duy Nguyên, anh Hồ Thái Ngọc hỗ trợ, giúp đỡ đóng góp nhiều ý kiến quý báu cho chúng em suốt môn học thực đồ án Trong trình thực nhóm chúng em vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức Từ vận dụng tối đa thu thập để hồn thành báo cáo đồ Bài báo cáo thực tập Chính vậy, chúng em mong nhận góp ý thầy nhằm hồn thiện án tốt Tuy nhiên, thực chắn không tránh khỏi sai sót kiến thức mà nhóm chúng em học tập hành trang để thực tiếp đề tài khác tương lai Nhóm em xin chân thành cảm ơn q Thầy Cơ! TP Hồ Chí Minh, ngày 10 tháng năm 2021 MỤC LỤC Tóm tắt nội dung LỜI CẢM ƠN Danh mục viết tắt Tổng quan 1.1 Giới thiệu đề tài 1.1.1 Giới thiệu toán Cơ sở lý thuyết 2.1 Mơ hình hồi quy 2.2 Hàm tổn thất 2.3 Bài toán Hồi quy 2.3.1 Đo hiệu toán hồi quy 2.4 Nội dung Bài báo cáo thực tập 2.4.1 Hồi quy tuyến tính 2.4.2 Support Vector Machine – Regression (SVR) 15 2.4.3 Long Short-Term Memory (LSTM) 19 27 Thực nghiệm 28 3.1 Phân tích tập liệu 28 3.2 Các bước tiến hành 32 3.3 Kết thực nghiệm 33 Kết luận 42 4.1 Những kết đạt 42 4.2 Khó khăn 42 4.2 Hướng phát triển 42 Bảng phân chia công việc 43 Tài liệu tham khảo 44 Danh mục viết tắt MSE Mean - Square Error SSE Sum of Squared Errors LNR Linear Regression SVR Support Vector Regression RNN Recurrent Neural Network BPTT Backpropagation Through Time LSTM Long Short Term Memory Bài báo cáo thực tập Tóm tắt đồ án Trong bối cảnh giới điên đảo thị trường tài chứng khốn, trí tuệ nhân tạo lĩnh vực lớn mạnh lên ngày Tại không thử kết hợp chúng lại để tạo nên điều kì diệu Trong đồ án mơn học này, chúng em tập trung xây dựng mô hình dự đốn giá tương lai thị trường chứng khoán dựa liệu năm trước Tập liệu cung cấp gồm liệu lịch sử chứa ghi giá cổ phiếu nhiều cổ phiếu khác Apple, Tesla, Microsoft, Facebook Tập liệu chứa giá cổ phiếu theo ngày với giá mở cửa, đóng cửa, cao thấp với khối lượng giao dịch vào ngày Tập liệu lấy từ nguồn: https://www.kaggle.com/altruistdelhite04/loan- Bài báo cáo thực tập prediction-problem-dataset Dữ liệu đầu toán (Close price) giá trị thực gần liên tục nên toán thuộc dạng hồi quy Mục tiêu đồ án nghiên cứu ý tưởng, kỹ thuật cốt lõi thuật toán hồi quy học áp dụng chúng để giải vấn đề thực tiễn đời sống qua chúng em đánh giá kết thực nghiệm, phân tích thách thức đề xuất hướng giải tương lai Chương Tổng quan 1.1 Giới thiệu đề tài 1.1.1 Giới thiệu tốn Với tập liệu có thuộc tính sau Bài báo cáo thực tập Hình 1.1 Tập liệu Bài toán yêu cầu dựa vào tập liệu lịch sử chứa ghi giá cổ phiếu, chọn lựa xây dựng mơ hình dự đốn giá tương lai thị trường chứng khoán (cụ thể gồm loại cổ phiếu Apple, Tesla, Microsoft, Facebook) tất nhiên khơng thể thiếu phần đánh giá độ xác mơ hình Chương Cơ sở lý thuyết 2.1 Mơ hình hồi quy Xét: Y = f(X) + ε • Các phương pháp học giám sát: – Học ví dụ (quan sát) - “Learn by example” – Xây dựng mơ hình f’ sử dụng tập quan sát gắn nhãn (X(1), Y(1)), …, (X(n), Y(n)) – Y có kiểu liệu liên tục • Giải thuật học Bài báo cáo thực tập – Lấy hàm ước lượng “tốt nhất” tập hàm • Ví dụ: Hồi quy tuyến tính – Chọn ước lượng tốt từ liệu học tập hàm tuyến tính f(X) = β0 + β 1X1 + … + β dXd 2.2 Hàm tổn thất Sai số bình phương (Squared error) Sai số tuyệt đối (Absolute error) ∑𝑖(θi − θi’)2 ∑𝑖 | θi − θi’| 2.3 Bài toán Hồi quy f’ = argmin E[L(Y, 𝑓̃(𝑋))] (argument minimum: Cho giá trị nhỏ hàm số miền xác định) 2.3.1 Đo hiệu toán hồi quy Hàm tổn thất (Loss function): loại hàm dùng để đo lường sai số mơ hình • Vd: Sai số bình phương trung bình (Mean squared error - MSE) – Độ đo thơng dụng dùng để tính độ xác tốn hồi quy 𝑛 MSE = ∑𝑖=1(𝑦̂ (𝑖) − 𝑦 (𝑖) )2 𝑛 Bài báo cáo thực tập – Tập trung đo sai số lớn sai số nhỏ 2.4 Nội dung 2.4.1 Hồi quy tuyến tính Tại dùng hồi quy tuyến tính? – Mối quan hệ tuyến tính: biến đổi tuân theo quy luật hàm bậc – Tìm mơ hình (phương trình) để mơ tả mối liên quan X Y – Ta biến đổi biến đầu vào để tạo mối quan hệ tuyến tính – Diễn giải mối quan hệ biến đầu vào đầu - sử dụng cho tốn suy diễn Hồi quy tuyến tính đơn giản • Biến đầu Y biến đầu vào X có mối quan hệ tuyến tính X Y sau: Y = β0 + β1X + ε • Các tham số mơ hình: β0 intercept: hệ số chặn (khi xi = 0) β1 slope: độ dốc y-axis (x2, y2) (x1, y1) Bài báo cáo thực tập Cho hai điểm (x1, y1) (x2, y2) x-axis Làm để "phát triển" phương trình nối điểm này? 10