1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo môn Học máy thống kê: Stock price prediction

44 68 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 1,51 MB

Nội dung

Mục tiêu của đề tài là nghiên cứu về ý tưởng, kỹ thuật cốt lõi của các thuật toán hồi quy đã được học và áp dụng chúng để giải quyết một vấn đề thực tiễn trong đời sống. qua đó chúng em đánh giá kết quả thực nghiệm, phân tích thách thức và đề xuất hướng giải quyết trong tương lai.

ĐẠI HỌC QUỐC GIA TP HCM ĐẠI HỌC CÔNG NGHỆ THÔNG TIN -   - BÁO CÁO Môn: Học máy thống kê Lớp : DS102.L21 ĐỀ TÀI: STOCK PRICE PREDICTION GIẢNG VIÊN HƯỚNG DẪN: TS Nguyễn Tấn Trần Minh Khang Th.S Võ Duy Nguyên Hồ Thái Ngọc NHĨM THỰC HIỆN: Nguyễn Lương Tồn - 18521510 Nguyễn Anh Phi - 19522005 TPHCM, Ngày 16 tháng năm 2021 ĐẠI HỌC QUỐC GIA TP HCM ĐẠI HỌC CÔNG NGHỆ THÔNG TIN -   - BÁO CÁO Môn: Học máy thống kê Lớp : DS102.L21 ĐỀ TÀI: STOCK PRICE PREDICTION GIẢNG VIÊN HƯỚNG DẪN: TS Nguyễn Tấn Trần Minh Khang Th.S Võ Duy Nguyên Hồ Thái Ngọc NHĨM THỰC HIỆN: Nguyễn Lương Tồn - 18521510 Nguyễn Anh Phi - 19522005 TPHCM, Ngày 16 tháng năm 2021 LỜI CẢM ƠN Đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Công nghệ thông tin – Đại học Quốc gia TP.HCM xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Tấn Trần Minh Khang, người thầy trực tiếp giảng dạy, hướng dẫn tận tình bảo chúng em suốt trình học tập Chân thành cảm ơn ThS Võ Duy Nguyên, anh Hồ Thái Ngọc hỗ trợ, giúp đỡ đóng góp nhiều ý kiến quý báu cho chúng em suốt môn học thực đồ án Trong trình thực nhóm chúng em vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức Từ vận dụng tối đa thu thập để hồn thành báo cáo đồ án tốt Tuy nhiên, thực chắn khơng tránh khỏi sai sót Chính vậy, chúng em mong nhận góp ý thầy nhằm hồn thiện kiến thức mà nhóm chúng em học tập hành trang để thực tiếp đề tài khác tương lai Nhóm em xin chân thành cảm ơn quý Thầy Cơ! TP Hồ Chí Minh, ngày 10 tháng năm 2021 MỤC LỤC Tóm tắt nội dung LỜI CẢM ƠN Danh mục viết tắt Tổng quan 1.1 Giới thiệu đề tài 1.1.1 Giới thiệu toán Cơ sở lý thuyết 2.1 Mô hình hồi quy 2.2 Hàm tổn thất 2.3 Bài toán Hồi quy 2.3.1 Đo hiệu toán hồi quy 2.4 Nội dung 2.4.1 Hồi quy tuyến tính 2.4.2 Support Vector Machine – Regression (SVR) 15 2.4.3 Long Short-Term Memory (LSTM) 19 27 Thực nghiệm 28 3.1 Phân tích tập liệu 28 3.2 Các bước tiến hành 32 3.3 Kết thực nghiệm 33 Kết luận 42 4.1 Những kết đạt 42 4.2 Khó khăn 42 4.2 Hướng phát triển 42 Bảng phân chia công việc 43 Tài liệu tham khảo 44 Danh mục viết tắt MSE Mean - Square Error SSE Sum of Squared Errors LNR Linear Regression SVR Support Vector Regression RNN Recurrent Neural Network BPTT Backpropagation Through Time LSTM Long Short Term Memory Tóm tắt đồ án Trong bối cảnh giới điên đảo thị trường tài chứng khốn, trí tuệ nhân tạo lĩnh vực lớn mạnh lên ngày Tại không thử kết hợp chúng lại để tạo nên điều kì diệu Trong đồ án môn học này, chúng em tập trung xây dựng mơ hình dự đốn giá tương lai thị trường chứng khoán dựa liệu năm trước Tập liệu cung cấp gồm liệu lịch sử chứa ghi giá cổ phiếu nhiều cổ phiếu khác Apple, Tesla, Microsoft, Facebook Tập liệu chứa giá cổ phiếu theo ngày với giá mở cửa, đóng cửa, cao thấp với khối lượng giao dịch vào ngày Tập liệu lấy từ nguồn: https://www.kaggle.com/altruistdelhite04/loanprediction-problem-dataset Dữ liệu đầu toán (Close price) giá trị thực gần liên tục nên toán thuộc dạng hồi quy Mục tiêu đồ án nghiên cứu ý tưởng, kỹ thuật cốt lõi thuật toán hồi quy học áp dụng chúng để giải vấn đề thực tiễn đời sống qua chúng em đánh giá kết thực nghiệm, phân tích thách thức đề xuất hướng giải tương lai Chương Tổng quan 1.1 Giới thiệu đề tài 1.1.1 Giới thiệu tốn Với tập liệu có thuộc tính sau Hình 1.1 Tập liệu Bài tốn yêu cầu dựa vào tập liệu lịch sử chứa ghi giá cổ phiếu, chọn lựa xây dựng mơ hình dự đốn giá tương lai thị trường chứng khoán (cụ thể gồm loại cổ phiếu Apple, Tesla, Microsoft, Facebook) tất nhiên thiếu phần đánh giá độ xác mơ hình Chương Cơ sở lý thuyết 2.1 Mơ hình hồi quy Xét: Y = f(X) + ε • Các phương pháp học giám sát: – Học ví dụ (quan sát) - “Learn by example” – Xây dựng mơ hình f’ sử dụng tập quan sát gắn nhãn (X(1), Y(1)), …, (X(n), Y(n)) – Y có kiểu liệu liên tục • Giải thuật học – Lấy hàm ước lượng “tốt nhất” tập hàm • Ví dụ: Hồi quy tuyến tính – Chọn ước lượng tốt từ liệu học tập hàm tuyến tính f(X) = β0 + β 1X1 + … + β dXd 2.2 Hàm tổn thất Sai số bình phương (Squared error) Sai số tuyệt đối (Absolute error) ∑𝑖(θi − θi’)2 ∑𝑖 | θi − θi’| 2.3 Bài toán Hồi quy f’ = argmin E[L(Y, 𝑓̃(𝑋))] (argument minimum: Cho giá trị nhỏ hàm số miền xác định) 2.3.1 Đo hiệu toán hồi quy Hàm tổn thất (Loss function): loại hàm dùng để đo lường sai số mơ hình • Vd: Sai số bình phương trung bình (Mean squared error - MSE) – Độ đo thơng dụng dùng để tính độ xác toán hồi quy 𝑛 MSE = ∑𝑖=1(𝑦̂ (𝑖) − 𝑦 (𝑖) )2 𝑛 – Tập trung đo sai số lớn sai số nhỏ 2.4 Nội dung 2.4.1 Hồi quy tuyến tính Tại dùng hồi quy tuyến tính? – Mối quan hệ tuyến tính: biến đổi tuân theo quy luật hàm bậc – Tìm mơ hình (phương trình) để mô tả mối liên quan X Y – Ta biến đổi biến đầu vào để tạo mối quan hệ tuyến tính – Diễn giải mối quan hệ biến đầu vào đầu - sử dụng cho toán suy diễn Hồi quy tuyến tính đơn giản • Biến đầu Y biến đầu vào X có mối quan hệ tuyến tính X Y sau: Y = β0 + β1X + ε • Các tham số mơ hình: β0 intercept: hệ số chặn (khi xi = 0) β1 slope: độ dốc y-axis (x2, y2) (x1, y1) Cho hai điểm (x1, y1) (x2, y2) x-axis Làm để "phát triển" phương trình nối điểm này? 10 • Tesla Hình 3.2 Giá cổ phiếu Tesla theo thời gian • Microsoft 30 Hình 3.3 Giá cổ phiếu Microsoft theo thời gian • Facebook Hình 3.4 Giá cổ phiếu Facebook theo thời gian Nhận xét: - Biểu đồ gồm: ▪ Trục hoành ngày tháng (Date) chuẩn hóa ▪ Trục tung giá đóng cửa (Close Price) cổ phiếu - Hình dạng biểu đồ đường lên xuống khó đốn, khơng theo dạng tuyến tính, trơng giống biểu đồ sàn giao dịch chứng khoán mà ta thường thấy 31 3.2 Các bước tiến hành B1 Lựa chọn thuật tốn Ở tốn này, nhóm tham khảo kĩ chọn ba thuật toán phù hợp với yêu cầu toán Trong gồm: - Linear Regression (LNR): Thuật tốn bản, mục đích thực mang tính tham khảo - Support Vector Regression (SVR): Tương đối phù hợp, mục đích thực mang tính tham khảo - Long Short Term Memory (LSTM): Thuật toán chọn để giải tốn B2 Xử lý tập liệu Vì tập liệu chứa lịch sử ghi loại cổ phiếu, nên có điểm liệu có giá trị Date lại khác loại cổ phiếu giá đóng cửa Tóm lại, phải chia tập liệu thành bốn tập tương ứng với loại cổ phiếu theo đó, thuật toán cần tạo model khác cho tập liệu Điều hoàn toàn phù hợp với thực tế, giá loại cổ phiếu khác nhau, biến động giá theo kiện kinh tế - xã hội, tình hình trị,… chúng khác nhau, khơng lý mà model dự đốn xác cho loại cổ phiếu ▪ Với LNR SVR, biến độc lập model ngày tháng (Date), biến phụ thuộc giá đóng cửa (Close) ▪ Với LSTM, 101 ngày liên tục giá đóng cửa 100 ngày đầu biến độc lập, giá đóng cửa ngày thứ 101 biến phụ thuộc (100 timestep mà nhóm chọn) ▪ Phân chia tập liệu train – test theo tỉ lệ 0.8:0.2 cho tập liệu 32 3.3 Kết thực nghiệm 3.3.1 Linear Regression Trực quan hóa liệu Hình 3.5 Trực quan hóa liệu giá cổ phiếu Apple kết dự đốn với LNR Hình 3.6 Trực quan hóa liệu giá cổ phiếu Tesla kết dự đốn với LNR 33 Hình 3.7 Trực quan hóa liệu giá cổ phiếu Microsoft kết dự đốn với LNR Hình 3.8 Trực quan hóa liệu giá cổ phiếu Facebook kết dự đoán với LNR 34 Lưu ý: - Đường màu xanh dương giá dự đoán liệu từ tập Train - Đường màu xanh giá dự đoán liệu từ tập Test - Các chấm màu đỏ điểm liệu thực tế Đánh giá độ xác thuật tốn Sử dụng hàm đánh giá R Squared để đánh giá độ xác - Độ xác chạy tập Train Apple 0.446 Tesla 0.815 Microsoft 0.676 Facebook 0.961 - Độ xác chạy tập Test Apple -5.328 Tesla 0.175 Microsoft -0.044 Facebook 0.398 (Độ xác 0.5 gọi thấp) 3.3.2 Support Vector Regression Trực quan hóa liệu 35 Hình 3.9 Trực quan hóa liệu giá cổ phiếu Apple kết dự đoán với SVR Hình 3.10 Trực quan hóa liệu giá cổ phiếu Tesla kết dự đoán với SVR 36 Hình 3.11 Trực quan hóa liệu giá cổ phiếu Microsoft kết dự đốn với SVR Hình 3.12 Trực quan hóa liệu giá cổ phiếu Facebook kết dự đoán với SVR 37 Lưu ý: - Đường màu xanh dương giá dự đoán liệu từ tập Train - Đường màu xanh giá dự đoán liệu từ tập Test - Các chấm màu đỏ điểm liệu thực tế Đánh giá độ xác thuật tốn Sử dụng hàm đánh giá R Squared để đánh giá độ xác - Độ xác chạy tập Train Apple 0.895 Tesla 0.957 Microsoft 0.909 Facebook 0.983 - Độ xác chạy tập Test Apple 0.695 Tesla -2.762 Microsoft 0.0233 Facebook -1.698 (Độ xác 0.5 gọi thấp) 38 3.3.2 Support Vector Regression Trực quan hóa liệu Hình 3.13 Trực quan hóa liệu giá cổ phiếu Apple kết dự đốn với LSTM Hình 3.14 Trực quan hóa liệu giá cổ phiếu Tesla kết dự đoán với LSTM 39 Hình 3.15 Trực quan hóa liệu giá cổ phiếu Microsoft kết dự đoán với LSTM Hình 3.16 Trực quan hóa liệu giá cổ phiếu Facebook kết dự đoán với LSTM 40 Lưu ý: - Đường màu xanh dương giá dự đoán liệu từ tập Train - Đường màu xanh giá dự đoán liệu từ tập Test - Các chấm màu đỏ điểm liệu thực tế Đánh giá độ xác thuật tốn Đánh giá độ xác với hàm đánh giá R Squared - Độ xác chạy tập Test Apple 0.994 Tesla 0.985 Microsoft 0.993 Facebook 0.965 (Độ xác 0.5 gọi thấp) Đánh giá độ xác với hàm lỗi Root Mean Squared Error (RMSE) - Sai lệch trung bình chạy tập Test 41 Apple 1.049 Tesla 2.839 Microsoft 0.734 Facebook 2.160 Chương Kết luận 4.1 Những kết đạt • Tìm hiểu phương pháp hồi quy • Có vài kiến thức chứng khốn • Tìm hiểu Mạng nơ-ron hồi quy (Recurrent Neural Network) • Nắm kĩ lập trình python 4.2 Khó khăn • Chứng khốn lĩnh vực khó khó để dự đốn • Giá cổ phiếu biến động liên tục liên quan đến kiện kinh tế tài chính, trị - xã hội,… • Những biến động khó để số hóa cho máy tính hiểu 4.2 Hướng phát triển Phát triển lên ứng dụng lấy giá cổ phiếu trực tiếp từ giá thị trường tại, từ dự đốn đưa gợi ý tín hiệu mua bán cho người dùng 42 Bảng phân chia công việc STT 18521510 Công việc giao MSSV Tồn (%) - Tìm hiểu Support Vector Regression – Nguyễn Lương Mức độ hồn thành - Tìm hiểu LSTM 100 - Coding, làm báo cáo phần tương ứng 19522005 - Tìm hiểu Linear Regression – Nguyễn - Anh Phi 43 Coding, làm báo cáo phần tương ứng 100 Tài liệu tham khảo https://www.kaggle.com/altruistdelhite04/loan-prediction-problem-dataset https://nguyentruonglong.net/giai-thich-chi-tiet-ve-mang-long-short-termmemory-lstm.html https://dominhhai.github.io/vi/2017/10/what-is-lstm/ https://www.aionlinecourse.com/tutorial/machine-learning/support-vectorregression http://www.jaist.ac.jp/~bao/VNAlectures/Regression%20Dec%206TungNT-in.pdf https://www.youtube.com/watch?v=H6du_pfuznE 44 ...ĐẠI HỌC QUỐC GIA TP HCM ĐẠI HỌC CÔNG NGHỆ THÔNG TIN -   - BÁO CÁO Môn: Học máy thống kê Lớp : DS102.L21 ĐỀ TÀI: STOCK PRICE PREDICTION GIẢNG VIÊN HƯỚNG... suốt môn học thực đồ án Trong trình thực nhóm chúng em vận dụng kiến thức tảng tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu kiến thức Từ vận dụng tối đa thu thập để hoàn thành báo cáo. .. làm báo cáo phần tương ứng 19522005 - Tìm hiểu Linear Regression – Nguyễn - Anh Phi 43 Coding, làm báo cáo phần tương ứng 100 Tài liệu tham khảo https://www.kaggle.com/altruistdelhite04/loan -prediction- problem-dataset

Ngày đăng: 08/08/2021, 14:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w