1.3 Ứng dụng khai thác mẫu tuần tự trên dữ liệu cổ phié 1.4 Tổng quan các mô hình phương pháp dự đoán xu hướng Chương 2 CƠ SỞ LÝ THUYET.... Vi vậy, một mô hình dự đoán xu hướng cé phiếu
Trang 1ĐẠI HỌC QUÓC GIA TP HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
————— #2 %4 œ
NGUYEN TUAN DŨNG
TIẾP CAN PHƯƠNG PHAP KHAI THÁC MẪU TUẦN TỰ
VÀO VIỆC DU DOAN XU HƯỚNG CO PHIẾU
LUẬN VĂN THẠC SĨNGÀNH: CÔNG NGHỆ THÔNG TIN
Mã số:8.48.02.01
TP HO CHÍ MINH - 2023
Trang 2ĐẠI HỌC QUOC GIA TP HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
#2 * CR
NGUYEN TUAN DUNG
TIEP CAN PHUONG PHAP KHAI THAC MAU TUAN TU’
VAO VIEC DU DOAN XU HUONG CO PHIEU
LUAN VAN THAC SiNGANH: CONG NGHE THONG TIN
Mã số:8.48.02.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS TRAN MINH THAI
TP HO CHÍ MINH - 2023
Trang 3Lời cảm ơn
Trong thời gian học tập, nghiên cứu, làm luận văn em được nhiều sự giúp đỡ từquý Thầy/Cô giảng dạy trong khoa Khoa học và Kỹ thuật Thông tin của trường Daihọc Công nghệ Thông tin thành phó Hồ Chí Minh Thầy/Cô đã truyền đạt nhiều kiếnthức và kinh nghiệm quý báu để em hoàn thành luận văn thạc sĩ Em xin chân thànhgửi lời cảm ơn đến quý Thầy/Cô
Với những kiến thức khoa học và kinh nghiệm thực tiễn của thầy TS TrầnMinh Thái trường Dai học Ngoại ngữ - Tin học thành phố Hồ Chí Minh, thầy đã tận
tình hướng dẫn và hỗ trợ em hoàn thành bài luận văn Em xin chân thành gửi lời cảm
ơn Thầy
Ngoài ra, trong quá trình thực hiện luận văn quý Thầy/Cô phòng Đào tạo SauĐại học cũng đã tận tình chỉ dẫn những thủ tục cần thiết và tận tình giúp đỡ em Emrất biết ơn Thầy Cô
Em cũng xin chân thành cam ơn các Thầy/Cô khoa Công nghệ Thông tin trườngĐại học Ngoại ngữ - Tin học thành phố Hồ Chí Minh đã chỉ dẫn, động viên em
Luận văn trình bày còn nhiều thiếu sót trong quá trình thực hiện, em mong đượclời nhận xét, góp ý vô cùng quý báu từ quý Thầy/Cô dé luận văn của em thêm hoàn
thiện.
Em xin chân thành cảm ơn!
Học viên
Nguyễn Tuấn Dũng
Trang 4Lời cam đoan
Luận văn thạc sĩ với tên đề tài: “Tiếp cận phương pháp khai thác mẫu tuần tựvào việc dự đoán xu hướng cổ phiếu” với sự hướng dẫn của thay TS Trần Minh Thái.Đây là công trình nghiên cứu của em thực hiện trên dữ liệu thực tế được công khai
trên website https://finance.yahoo.com/
Em cam đoan các nghiên cứu trong luận văn là hoàn toàn trung thực và chính xác.
Học viên
Nguyễn Tuan Dũng
Trang 5Danh mục các ký hiệu và chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ, đồ thi
Chương 1 TONG QUAN
1.1 Khai thác dữ liệu
1.2 Chứng khoán và kỹ thuật dự đoán truyền thống
1.3 Ứng dụng khai thác mẫu tuần tự trên dữ liệu cổ phié
1.4 Tổng quan các mô hình phương pháp dự đoán xu hướng
Chương 2 CƠ SỞ LÝ THUYET
2.1 Khái niệm về chuỗi tuần tự
2.2 Khái niệm cây nến Nhật
Chương 3 XÂY DỰNG MÔ HINH DỰ DOAN XU HƯỚNG CO PHIEU
3.1 Tập dữ liệu thực nghiệm
3.2 Tiền xử lý dữ liệu
3.2.1 Mã hóa dữ liệu
3.2.2 Phân đoạn và gán nhãn xu hướng
3.3 Thuật toán kiểm tra chuỗi con tuần tự
3.4 Thuật toán khai thác mẫu c-line
3.4.1 Định nghĩa mẫu chỉ tiết c-line
Trang 63.4.2 Thuật toán khai thác mẫu c-line 23
3.5 Độ tương tự cua mẫu c-line wd
3.6 Mô hình đề xuất dự đoán xu hướng cổ phiếu we AT
3.7 Phuong pháp đánh giá mô hình wD
Chương 4 THUC NGHIEM VA ĐÁNH GIA 51
4.1 Mau kiém thir 51
4.2 Các thực nghiệm nhóm 1 32
4.2.1 Thực nghiệm theo phương pháp so khớp mẫu c-line 52
4.2.2 Thực nghiệm theo phương pháp so khớp mẫu c-line có chia khoảng 53
4.2.3 Thực nghiệm mô hình đề xuất 54
4.3 Các thực nghiệm nhóm 2 -54
4.3.1 Thực nghiệm theo mô hình SVM 154
4.3.2 Thực nghiệm theo mô hình LSTM 55
4.3.3 Thực nghiệm mô hình đề xuất trên các nghiên cứu liên quan 584.3.4 Kết quả thực nghiệm và đánh giá 584.3.5 So sánh kết quả các thực nghiệm nhóm 2 64Chương 5 Kết luận và hướng phát triển 68
5.1 Két luan 685.2 Hạn chế 685.3 Hướng phát triển 60TÀI LIỆU THAM KHẢO -71
Trang 7Danh mục các ký iệu và chữ viết tắt
Từ viết tắt Nội dung
CSDL Co sở dữ liệu
DFM Dubai Financial Market
GPU Graphics Processing Unit
LSTM Long short-term memory [1]
SVM Support Vector Machines [2]
KNN K-Nearest Neighbour [2]
CNN Convolutional Neural Networks
BiLSTM Bidirectional Long Short-term Memory
RNN Recurrent Neural Networks
HSTPF Hybrid Stock Trends Prediction Framework GBM Gradient Boosting Classifier
MNB Multinomial Naive Bayes
DWT Discrete wavelet transforms
RMSE Root Mean Square Error
ACC Accuracy
MAE Mean Absolute Error
MA Moving Average
RSI Relative Strength Index
MACD Moving Average Convergence Divergence
AB AdaBoost
cP Close Price
MACD Moving Average Convergence/Divergence
VAR Variance
ROC Rate Of Change
ARIMA Autoregressive Integrated Moving Average
Trang 8Danh mục các bảng
Bang 2.1 CSDL giao dịch mua thực phẩm
Bảng 2.2 CSDL tuần tự
Bảng 2.3 Các kiểu nến và mối quan hệ về giá
Bảng 4.1 Các hình thái khác nhau c-line và cách mã hóa c-line
Bảng 4.2 Thống kê số lượng mã chứng khoán có độ chính xác khác nhau trong môhình truyền thống tập dữ liệu Mỹ
Bảng 4.3 Kết quả các độ đo của mô hình truyền thống tập dữ liệu Mf
Bảng 4.4 Thống kê số lượng mã chứng khoán có độ chính xác khác nhau trong mô
hình chia khoảng tập dữ liệu Mỹ
Bảng 4.5 Kết quả các độ đo trong mô hình chia khoảng tập dữ liệu Mỹ
Bảng 4.6 Thống kê số lượng mã chứng khoán có độ chính xác khác nhau trong môhình dé xuất tập dữ liệu Mỹ
Bang 4.7 Kết quả các độ đo trong mô hình đề xuất tập dữ liệu Mỹ
Bảng 4.8 Kết quả mô hình đề xuất và các mô hình khác trong nhóm 2 tập dữ liệu Mỹ
Trang 9Danh mục các hình vẽ, đồ thị
Hình 1.1 Biểu đồ cây nến từ website Yahoo Finance
Hình 2.1 Cấu trúc cây nên Nhật, A: Nến tăng, B: Nến giảm (theo [26]),
Hình 2.2 Biểu đồ nến trên https://finance.yahoo.con/
Hình 2.3 Đường giá đóng cửa và điểm thay đổi xu hướng Hình 2.4 Các trường hợp tương tự giữa X và Y Hình 2.5 Mô tả mô hình SVM (theo Unzueta [29]). Hình 2.6 Mạng notron tuần hoàn(theo dominhhai) Hình 2.7 Mô tả mô hình LSTM (theo websitehcm [33]) Hình 3.1 Dữ liệu mã chứng khoán AAPL (công ty Apple). Hình 3.2 Mã hóa chuỗi c-line trong biểu đồ nền thành chuỗi c-line
Hình 3.3 Phân đoạn chuỗi c-line theo đường giá đóng cửa và gán nhãn xu hướng, chấm xanh là điểm đảo chiều giá hay là điểm thay đổi giá Hình 3.4 Quá trình kiểm tra chuỗi con tuần tự
Hình 3.5 Các trường hợp tương tự giữa se và pdscl
Hình 3.6 Các trường hợp tương tự giữa sc và đsc2
Hình 3.7 Mô hình đề xuất dự đoán xu hướng cổ phiếu
Hình 4.1 Mẫu kiểm thử được tao từ 5 ngày liên tiếp
Hình 4.2 Mô hình dự đoán theo mô hình SVM
Hình 4.3 Mô hình dự đoán theo mô hình LSTM. Hình 4.4 So sánh độ chính xác của mô hình truyền thống trên 3 tập dữ liệu Hình 4.5 Kết quả mô hình truyền thống trên 3 tập dữ liệu
Hình 4.6 Kết quả mô hình chia khoảng trên 3 tập dữ liệu Hình 4.7 So sánh độ chính xác của mô hình chia khoảng trên 3 tập dữ liệu
Trang 10Hình 4.8 Kết quả mô hình đề xuất trên 3 tập dữ liệu
Hình 4.9 So sánh độ chính xác của mô hình đề xuất trên 3 tập dữ liệu
Hình 4.10 So sánh độ chính xác của 3 mô hình dự đoán xu hướng cô phiếu trong tap
dữ liệu Mỹ
Trang 11MỞ ĐÀU
Thị trường chứng khoán là nơi thực hiện các giao dịch chứng khoán, chẳng hạnnhư cỗ phiếu, trái phiếu, chứng chỉ quỹ, Nó có thé mang lại nguồn lợi nhuận caocho nhà đầu tư đồng thời cũng làm mat đi vốn của nha đầu tư Vì vậy, dự đoán chứng.khoán thu hút nhiều nhà nghiên cứu quan tâm nhằm xây dựng các phương pháp, kỹthuật và mô hình để phân tích, dự đoán chứng khoán trên các đữ liệu khác nhau
Dự đoán xu hướng cô phiếu là một công việc rất khó khăn và phức tạp do giá
cổ phiếu phụ thuộc vào nhiều yếu tố như tâm lý nhà đầu tư, chính sách kinh tế thayđổi, Các nhà đầu tư trong lĩnh vực kinh tế thường sử dụng phương pháp phân tích
cơ bản hay phân tích kỹ thuật dé dự đoán xu hướng cổ phiếu Các phương pháp nàyđòi hỏi các nhà đầu tư có kiến thức về kinh tế tài chính Vì vậy, các nhà đầu tư mớikhi tham gia vào thị trường chứng khoán chưa có kiến thức hoặc có quá ít kiến thức
về kinh tế tài chính sẽ gặp rất nhiều khó khăn trong dự đoán xu hướng cô phiếu Cho.nên việc tìm kiếm các công cụ sử dụng đơn giản hơn dé dự đoán xu hướng cỗ phiếu
là yếu tố được các nhà đầu tư quan tâm
Gần đây, nhiều mô hình máy học, học sâu được nghiên cứu để dự đoán sự biếnđộng giá cổ phiếu chủ yếu dựa vào dữ liệu lịch sử, báo giá chứng khoán Tuy nhiên,các mô hình này tỏ ra cong kénh Ví dụ như mô hình Long Short-Term Memory(LSTM) đòi hỏi tài nguyên máy tính nhất định (như GPU) và cần rất nhiều dữ liệu.Ngoài ra, việc chỉnh sửa các tham số trong mô hình cần có kiến thức chuyên ngành
Tuy nhiên, các phương pháp kỹ thuật khai thác dữ liệu được xem là phương pháp
máy học sử dụng phổ biến và có kết quả khả quan
Vi vậy, một mô hình dự đoán xu hướng cé phiếu dựa vào phương pháp khaithác mẫu tuần tự trên dữ liệu lịch sử được nghiên cứu và trình bày trong nội dungluận văn này Đầu tiên, dữ liệu lịch sử được biểu diễn thành cây nến trong luận vănnày gọi là c-line Mỗi c-line có các mức giá khác nhau được mã hóa theo hình tháicủa chúng Chuỗi các c-line được phân đoạn theo các điểm thay đổi trên đường giá
đóng và được gan nhãn xu hướng gọi là mẫu c-line Thứ hai, phương pháp khai thác
mẫu tuần tự dự đoán xu hướng cổ phiếu là cách tiếp cận mới Để phương pháp có thé
Trang 12bằng độ chính xác của mẫu c-line Độ tương tự của chuỗi c-line được đề xuất đề cảithiện kết quả dự đoán xu hướng cổ phiếu Cuối cùng, mô hình dự đoán thực nghiệmtrên dữ liệu chứng khoán thực tế được thu thập trên website Yahoo Finance Kết quảcho thấy mô hình có hiệu quả trong dự đoán xu hướng cỏ phiếu Mô hình dự đoán xuhướng cô phiếu dựa vào phương pháp khai thác mẫu tuần tự và độ tương tự chuỗituần tự gọi là mô hình đề xuất.
Tính cấp thiết và ứng dụng thực tế
Hiện nay, thị trường chứng khoán thu hút nhiều người tìm hiểu và trải nghiệmđầu tư cỗ phiếu Những người mới thường gặp rủi ro dẫn đến thua lỗ vốn đầu tư củamình Họ không có kiến thức chuyên môn về kinh tế nên mắt nhiều thời gian tìm hiểu
khi tham gia vào thị trường chứng khoán Ngoài ra, thị trường chứng khoán còn là
nơi huy động vốn của các công ty để mở rộng sản xuất kinh doanh từ nhiều nguồnđầu tư bên ngoài Thị trường chứng khoán phát triển góp phần thúc day nền kinh tếquốc gia phát triển Theo website ngân hàng thé giới [3] vốn hóa thi trường chứng
khoán năm 2020 là 93.69 nghìn tỷ USD.
Vi vậy, mục đích của luận văn nay là xây dựng một mô hình dự đoán xu hướng
cổ phiếu ngắn hạn nhằm giảm rủi ro cho nhà đầu tư cũ cũng như mới nhằm cung cấpcho các nhà đầu tư một công cụ dễ sử dụng, không phức tạp hay đòi hỏi nhiều kiếnthức chuyên môn Nó cũng giống như công cụ hỗ trợ ra quyết định trong giao dịchchứng khoán Ngoài ra, mô hình dự đoán xu hướng cỗ phiếu dựa vào phương pháp.khai thác mẫu tuần tự được kỳ vọng cho kết quả dự đoán tốt
Mục tiêu đề tài
Tìm hiểu các phương pháp mô hình thuật toán đã ứng dụng trong dự đoán xuhướng chứng khoán Để có cái nhìn tổng quan các phương pháp dự đoán cô phiếu
trên các dữ liệu khác nhau.
Tìm hiểu phương pháp khai thác mẫu tuần tự vào việc dự đoán xu hướng cổ
phiếu Khai thác mẫu tuần tự được sử dụng trong nhiều trong lĩnh vực tài chính và dữ
liệu là chuỗi thời gian [4], chuỗi tuần tự
Trang 13Thiết kế và xây dựng mô hình dự đoán xu hướng cổ phiếu bằng phương phápkhai thác mẫu tuần tự và độ tương tự chuỗi tuần tự dự đoán xu hướng cỗ phiếu trên
dữ ịch sử có khả thi hay không Đầu vào mô hình là giá cổ phiếu 5 ngày liên tục(giá cổ phiếu 1 ngày gồm giá mở cửa, giá cao nhát, giá thấp nhát, giá đóng cửa) vàđầu ra là dự đoán xu hướng cé phiếu cho ngày tiếp theo (tức là ngày thứ 6) tăng, giảm
hay không có xu hướng (không tăng, không giảm)
Mô hình đề xuất dự đoán ngày thứ 6 dựa trên 5 ngày trước đó tương ứng vớicác ngày giao dịch từ thứ 2 đến thứ 6 trong 1 tuần Với mẫu 5 ngày, mô hình khaithác dữ liệu lịch sử xem mẫu có lặp lại trong quá khứ không.
Mô hình cung cấp thêm thông tin cho người đầu tư về thị trường chứng khoán,người đầu tư có thé lập các chiến lược dau tư cho riêng mình
Đánh giá tính hiệu quả mô hình dự đoán xu hướng cô phiếu và so sánh mô hình
dự đoán với các mô hình khác.
Đối tượng nghiên cứu
Mô hình dự đoán xu hướng cổ phiếu dựa vào phương pháp khai thác mẫu tuần
tự Vì vậy, các đối tượng nghiên cứu trong luận văn này bao gồm:
- Các phương pháp mô hình kỹ thuật dự đoán chứng khoán.
-_ Thuật toán khai thác mẫu tuần tự
- Độ tương tự của chuỗi tuần tự
Phạm vi nghiên cứu
Mô hình dự đoán xu hướng cổ phiếu ngày thứ 6 với chuỗi c-line là dữ liệu của
5 ngày trước đó Dữ liệu lịch sử thu thập là dữ liệu thực tế trên website Yahoo Financetrong khoảng thời gian từ ngày 04/01/2021 đến 12/05/2021 Các cé phiếu là công tytrong chỉ số Nasdaq-100 Các yếu tố ảnh hưởng đến giá cổ phiếu chưa được xét đến
trong tập dữ liệu lịch sử.
Nội dung và phương pháp nghiên cứu
Dự đoán xu hướng cổ phiếu là một thách thức Tìm hiểu các mô hình phương
Trang 14tín và nội dung các website liên quan dé có được cái nhìn tổng quát về các phươngpháp nghiên cứu hiện nay và các kiểu dữ liệu khác nhau như mạng xã hội, tin tức, dữ
liệu lịch sử,
Khai thác dữ liệu là phương pháp khám phá tri thức từ dit liệu lớn Mục đích
chính là tìm ra các quan hệ phụ thuộc, các thông tin ẩn trong dữ liệu và được ứngdụng trong nhiều lĩnh vực trên nhiều dữ liệu khác nhau Thông qua các tài liệu chuyênmôn về khai phá dữ liệu mà giảng viên hướng dẫn cung cấp là thông tin nghiên cứu
phương pháp khai thác mẫu tuần tự.
Để cải thiện kết quả dự đoán xu hướng cô phiếu được tốt hơn Thông qua cáctài liệu nghiên cứu liên quan, cách đánh giá độ tương tự của các chuỗi tuần tự là trongnhững yếu tố giúp giải quyết vấn đề các mẫu c-line có cùng độ chính xác
Ý nghĩa thực tiễn và khoa học
Luận văn xây dựng mô hình dự đoán xu hướng cé phiếu có thé áp dụng trên các
sàn chứng khoán khác nhau.
Hướng tiếp cận mô hình dự đoán xu hướng được kỳ vọng trong các phươngpháp máy học dé tăng hiệu quả mô hình
Bố cục luận văn
Luận văn được chia làm 5 chương:
Chương 1 Tổng quan: Tìm hiểu các tài liệu nghiên cứu liên quan mô hình dự
đoán chứng khoán.
Chương 2 Cơ sở lý thuyết: Trình bày các khái niệm định nghĩa thuật toán liên
quan đến mô hình dự đoán xu hướng chứng khoán
Chương 3 Xây dựng mô hình dự đoán xu hướng cổ phiếu: Trinh bày chi tiếtviệc xây dựng mô hình đề xuất bao gồm các giai đoạn: mã hóa dữ liệu cây nến, kỹthuật khai thác mẫu tuần tự có thêm xu hướng, phương pháp tính độ chính xác củamẫu, cách tính độ tương tự, phương pháp đánh giá mô hình dé xuất
Trang 15Chương 4 Thực nghiệm và đánh giá: Mô tả các kịch bản thử nghiệm trên các
tập dữ liệu khác nhau Mô hình đề xuất so sánh với các phương pháp khác nhau cóchỉnh sửa cho phù hợp với dé tài dự đoán xu hướng cô phiếu cho ngày tiếp theo Cuốicùng, đánh giá kêt quả dự đoán mô hình đề xuất trên các dữ liệu lịch sử khác nhau
Chương 5 Kết luận và hướng phát triển: Mô tả kết quả đạt được trong luậnvăn, trình bày ưu điểm và hạn chế của mô hình Cuối cùng, hướng phát triển của luận
văn.
Trang 16CHƯƠNG 1 TONG QUAN
Chuong 1 TONG QUAN
ích khác nhau Các phương pháp khai thác dữ liệu thường là kỹ thuật phân cụm, phân
lớp, dự đoán, hồi quy, mẫu tuần tự, phát hiện ngoại lai trong các ứng dụng phân tíchthị trường, phát hiện gian lận, giữ khách hàng, kiểm soát sản xuất, khám phá khoa
học [2], [4].
Nhiều ứng dụng trong những lĩnh vực khác nhau tạo ra lượng lớn dữ liệu nhưngân hang, thị trường chứng khoán, các ứng dụng cam biến, thương mại điện tử, chămsóc sức khỏe, Dữ liệu được tạo ra thường được lưu trong hệ thống CSDL nhưng
ít khi dùng đến hay không được quan tâm Ngày nay, các phương pháp khai thác dữliệu được sử dụng cho nhu cầu tìm kiếm thông tin hữu ích trong dữ liệu Nhiều người
sử dụng thông tin này vào các mục đích như lập chiến lược kinh doanh, cải thiện hiệusuất, hỗ trợ khách hàng,
Phương pháp khai thác mẫu tuần tự là một trong các phương pháp khai thác dữliệu trên dữ liệu chuỗi tuần tự Chuỗi tuần tự là danh sách các sự kiện xảy ra được ghilại theo thứ tự mà không có định nghĩa rõ rang về “thời gian” [4] Dữ liệu chuỗi thờigian [4] cũng được xem là dữ liệu chuỗi tuần tự Ví dụ như chuỗi cây nến Nhật (Hình1.1) được biểu diễn theo khung thời gian nhất định, chuỗi DNA, các dit liệu cảm biếnđược thu thập theo thời gian Khai thác chuỗi tuần tự là lĩnh vực con của khai thác dữliệu và được ứng dụng trong nhiều lĩnh vực như phân tích thị trường chứng khoán,
phân tích và nghiên cứu trình tự sinh học, dịch ngôn ngữ, phân tích chuỗi mua sản
phẩm, phát hiện xâm nhập mạng hay website
Trang 17CHƯƠNG I TONG QUAN
1.2 Chứng khoán và kỹ thuật dự đoán truyền thống
Hình 1.1 Biểu đồ cây nến từ website Yahoo Finance.
Thị trường chứng khoán là nơi giao dịch chứng khoán giữa người mua và người
bán Cổ phiếu là chứng khoán được các nhà đầu tư giao dịch nhiều nhất Mỗi mã cổphiếu đại diện cho một công ty được niêm yét trên thị trường chứng khoán Giá cỗphiếu là giá mua bán cô phiếu tại một thời điểm nhất định Giá cô phiếu giao độngtheo nhiều tác động khác nhau Để thuận tiện trong việc quan sát các mức giá khác
nhau của cổ phiếu Dữ liệu vẽ theo cây nến Nhật Một chuỗi cây nến được biểu diễn
theo khung thời gian chỉ định được gọi là biéu đồ nến hay mô hình nến Nó cũng làcông cụ trong phương pháp phân tích kỹ thuật dùng đề phân tích chứng khoán, dựđoán xu hướng cô phiếu, được sử dụng phô biến trong các ứng dụng chứng khoán
Mỗi giây thị trường chứng khoán tạo ra một lượng lớn đữ liệu giao dịch Dữ liệu
chứng khoán lịch sử được lưu trong hệ thống CSDL được công bố công khai như
Yahoo Finance.
Dự đoán chứng khoán như là dự đoán lợi nhuận chứng khoán, phân tích tương
quan cổ phiếu, giá cổ phiếu, xu hướng cô phiếu, dự đoán chỉ số chứng khoán đượcxem là một hàm số đa biến Vì thị trường chứng khoán chịu nhiều bị tác động từ nhiềuyếu tố khác nhau như kinh tế thế giới, các chính sách kinh tế quốc gia, các thông tinmạng xã hội, tâm lý nhà đầu tư, dịch bệnh toàn cầu, Cho nên dự đoán chứng khoán
là công việc đầy khó khăn và thách thức do tính ngẫu nhiên gây nhiễu loạn cao Theo
Trang 18CHƯƠNG | TONG QUAN
bai báo “Thị trường quả” được viết bởi Fama [5] [6] nói rằng trong thị trườnghiệu quả thông tin cổ phiếu tại bat kỳ thời điểm nào cũng phản ánh day đủ Có nghĩa
là trong thị trường hiệu quả, các người tham gia vào thị trường đều có tat cả thông tin
về cổ phiếu Nên giá cổ phiếu tuân theo “bước đi ngẫu nhiên” [7] do các “thông tin
xuất hiện một cách ngẫu nhiên” [8] Theo Abraham [9] ở thị trường dang yếu hay thị
trường không hiệu giá cô phiếu phản ánh tat cả thông tin giá trong quá khứ Gần đây,khai thác mẫu tuần tự được xem là phương pháp máy học dùng dự đoán xu hướngtương lai của cô phiếu dựa vào phân tích dữ liệu lịch sử Các phương pháp mô hình
mạng notron, máy học, học sâu cũng nghiên cứu và hiệu chỉnh cho phù hợp với các
dự đoán xu hướng như dự đoán giá cổ phiếu [10], dự đoán xu hướng cổ phiếu, dựđoán lợi nhuận cổ phiếu (11)
Các nhà dau tư kinh tế thường sử dung hai phương pháp truyền thống phô biến
là phân tích kỹ thuật và phân tích cơ bản [12] nhằm dự đoán và phân tích chứngkhoán Phân tích cơ bản chú trọng vào giá trị nội tại của công ty, xem giá trị cổ phiếu
là giá trị thật Dựa trên các tìm hiểu dữ liệu công khai như doanh thu, thu thập, tỷ suấtlợi nhuận, để đánh giá cô phiếu công ty có tiềm năng hay không Vì thông tin cong
ty được công khai theo khoảng thời gian nhất định hàng quý, hàng năm nên thườngphù hợp cho chiến lược đầu tư dài hạn Ngược lại, phân tích kỹ thuật dựa vào biêu đồnến, dữ liệu lich sử, chỉ báo kỹ thuật dé phân tích dự đoán giá trị của cỗ phiếu Docác biến động giá thay đổi liên tục trong khoảng thời gian ngắn như phút, giờ, ngày, nên thường thích hợp cho các chiến lược đầu tư trung hạn và ngắn hạn Ngoài ra,
phương pháp dự đoán truyền thống đòi hỏi cần có kinh nghiệm và kiến thức nhấtđịnh, các phương pháp này không phù hợp với những người mới tham gia vào thị
trường chứng khoán.
1.3 Ứng dụng khai thác mẫu tuần tự trên dữ liệu cổ phiếu
Dữ liệu cổ phiếu là chuỗi thời gian đa biến gồm giá đóng cửa, giá mở cửa, giá
cao nhất, giá thấp nhất, khối lượng giao dịch, Nó được biểu diễn thành cây nến
Nhật (candle) trong biểu đồ nến Gọi c-line là cây nến gồm giá mở cửa, giá cao nhất,giá đóng cửa, giá thấp nhất phản ánh các mức giá khác nhau của cổ phiếu Màu củac-line phản ánh giá đóng cửa có cao hay thấp hơn giá mở cửa Một chuỗi c-line là tap
Trang 19CHƯƠNG | TONG QUAN
hợp các c-line được quan sát trong khung thời gian do người sử dung quyết định Dé
dự đoán chuỗi thời gian đa biến dữ liệu cần được biến đổi hay mã hóa cho phù hopvới mô hình Theo bài báo dự đoán hành vi thị trường chứng khoán bằng cách sử
dung phân tích dữ liệu lịch sử và phân tích tâm lý tin tức [1], tác giả đã dự đoán hành
vi dữ liệu cổ phiếu dựa trên phân tích dữ liệu lịch sử và chuỗi thời gian đa biến được
mô hình hóa để có thể dự đoán [13]
Hiện nay, có rất nhiều phương pháp biểu diễn chuỗi thời gian khác nhau nhưdựa trên mô hình tổng quát, dựa trên phép chuyển đổi hay dựa trên miền thời gian.Biểu diễn chuỗi thời gian giúp quá trình tính toán đơn giản hơn và giảm được số chiềuthuận lợi quá trình dự đoán [14] Việc biểu diễn chuỗi thời gian dựa trên miễn thời
gian được sử dụng rộng rãi trong các ứng dụng tài chính.
Những nhà đầu tư sử dụng phương pháp phân tích kỹ thuật giả sử: tin tức, thayđổi chính sách, không làm thay đồi sự phản ánh của giá cỗ phiếu [15], họ giả định
xu hướng tương lai có thể lặp lại trong quá khứ Sự biến động giá cổ phiếu hiện tại ítnhiều có liên quan đến dữ liệu lịch sử
Phương pháp khai thác mẫu tuần tự truyền thống thực hiện khai thác trên dữliệu chuỗi tuần tự một chiều Gần đây, Wenjie Lu và ác cộng sự [16] dùng phương.
pháp máy học đề dự đoán cổ phiếu trên dữ liệu chuỗi thời gian một biến là giá dongcửa Nhưng chuỗi thời gian một biến không đại diện cho tat cả giá cổ phiếu Vì vậy,bài luận văn này trình bay cách mã hóa dit liệu cổ phiếu cho phù hợp với mô hình đềxuất
1.4 Tổng quan các mô hình phương pháp dự đoán xu hướng
Nhu cầu ngày càng tăng của các nhà đầu tư về công cụ dự đoán chứng khoán.Các nghiên cứu về mô hình dự đoán chứng khoán được phát triển nhanh Các phương,pháp máy học cũng được nghiên cứu về dự đoán xu hướng cô phiếu nhằm tìm ra sựliên quan phi tuyến của dữ liệu
Các nha phân tích cơ bản tin rằng giá cổ phiếu chịu ảnh hưởng của dữ liệu kinh
tế vĩ mô, dữ liệu giao dich chứng khoán cũ [17] Các thông tin như lãi suất, tỷ giá hồi
Trang 20CHƯƠNG | TONG QUAN
tế Mô hình dự đoán chứng khoán thường sử dung mô hình hồi quy tuyến tính hayphi tuyến đòi hỏi các tham số xác định trước dé có gắng tìm ra mối quan hệ giữa lợinhuận chứng khoán với các biến số kinh tế tài chính Bài báo dự báo lợi nhuận [18]
trình bày kỹ thuật khai thác dit liệu phân tích mức độ liên quan của biên sô và mạng
norton dùng phân loại và ước tính giá trị lợi nhuận cổ phiếu trên chỉ số S&P 500
Các nhà phân tích kỹ thuật giả định rằng giá cổ phiếu có thé dự đoán dựa vàoviệc phân tích dữ liệu giá cô phiếu lịch sử [19] Họ phân tích dữ liệu về sự thay đổigiá cổ phiếu, khối lượng giao dịch, Phân tích kỹ thuật phổ biến thường phân tíchmẫu hình biểu đồ và chỉ báo kỹ thuật [20] Chỉ báo kỹ thuật là các tín hiệu chuyênbiệt cho biết giá cổ phiếu trong một khoảng thời gian nhất định trong lịch sử NhưMACD (Moving Average Convergence Divergence) dự đoán những thay đổi trong
xu hướng [17] hay MA (Moving Average), RSI (Relative Strength Index) [21] cho
biét bién động giá thị trường Theo tác giả Pei-Hsi Lee và các cộng sự [22] nhận dạngmẫu biểu đồ không khả thi do dé liệu cỗ phiếu có kích thước lớn nên các nghiên cứugiả định rằng các đặc tính tuân theo phân phối chuẩn Cuối cùng, sự kết hợp với môhình máy hoc SVM cải thiện đáng ké kết quả nhận dạng mẫu biéu đồ
Do các phương pháp phân tích cơ bản và phân tích kỹ thuật truyền thống chokết quả dự đoán cỗ phiếu không cao Các mô hình máy học được sử dụng trong các
dự đoán chứng khoán như giá cô phiếu, lợi nhuận cỏ phiếu, nhằm tăng hiệu quả
dự đoán.
Kumar và Chaudhry [2] đã so sánh các phương pháp mô hình khai phá dữ liệu
như hồi quy, SVM, KNN, ARIMA để dự đoán giá cổ phiếu Dữ liệu chứng khoán
được thu thập 40 ngày trên website
https://www.niftyindices.com/reports/historical-data từ 21-01-2020 đến 19-02-2020 Tác giả chia dữ liệu thành 2 phần: 30% dữ liệu
test, 70% dữ liệu train Sau đó phân loại các mẫu theo giá trị khoảng cách Mô hình
ARIMA có RMSE (Root Mean Square Error) thấp nhất là 0.8421 nhưng mô hìnhSVM có độ chính xác cao nhất 97.14%
Mô hình LSTM được sử dụng phổ biến với dữ liệu đầu vào là chuỗi thời gian
Mô hình dự đoán tốt các phụ thuộc xa với bước thời gian khác nhau Như trong bàibáo dự đoán hành vi thị trường chứng bằng LSTM [23] mô hình LSTM được xếp
Trang 21CHƯƠNG | TONG QUAN
chéng lên nhau đề dự đoán hành vi thị trường chứng khoán trên dữ liệu lịch sử chứng
khoán Mỹ NASDAQ Composite (IXIC) Dữ liệu thu thập trong thời gian 1 năm trên
website Yahoo Finance và được chia làm 2, 80% làm tập train, 20% làm tập test Mô
hình LSTM có kết quả tốt có độ chính xác 94.59% với 100 epoch
Hiện nay, các sự kiện không đoán trước như dịch bệnh toàn cầu (chẳng hạn nhưCOVID19), sự tấn công ngày 9/11, biểu tình, được gọi là sự kiện Thiên Nga Denảnh hưởng lớn đến thị trường chứng khoán Việc dự đoán cô phiếu trong thời gian sựkiện diễn ra càng khó khăn Samit Bhanja và Abhishek Das [24] có đề xuất khung dự
đoán xu hướng chứng khoán HSTPF (Hybrid Stock Trends Prediction Framework)
để dự đoán xu hướng cổ phiếu tương lai cho ngày thứ 1, 2, 3, , 10 trong sự kiệnThiên Nga Đen diễn ra có độ chính xác gần 80% Dữ liệu chứng khoán thực nghiệm
là chỉ số S&P, BSE, SENSEX va Nifty 50 HSTPF phân tích mức độ tác động của sựkiện Thiên Nga Đen, mô hình Autoencoder làm giảm kích thước dữ liệu và trích xuấtđặc trưng chuỗi thời gian Cuối cùng, mô hình dự đoán xu hướng cổ phiếu được sử
dụng phương pháp phân loại trên từng mô hình máy học Multinomial Naive Bayes
(MNB), Support Vector Machine (SVM), K-Nearest Neighbor (KNN), AdaBoost
(AB), Gradient Boosting Classifier (GBM) đề so sánh mô hình nào tốt Tất cả các
thực nghiệm được thực hiện trên máy laptop với CPU ¡3 (2.6GHz, 4MB Cache),
RAM 8GB, 256GB SSD và hệ điều hành Ubuntu 18.01 Ngôn ngữ lập trình Python
và các thư viện cho máy học, học sâu được sử dụng đê mô phỏng HSTPF có thời
gian huấn luyện trung bình khoảng 5 phút
Chỉ báo kỹ thuật được sử dụng cho dự đoán xu hướng cô phiếu nhưng tỏ rakhông hiệu quả Sự kết hợp chỉ báo kỹ thuật và kỹ thuật biến đổi wavelet rời rac
(DWT) phân tách tín hiệu Cuối cùng, mô hình máy học rừng ngẫu nhiên dự đoán
biến động giá cô phiêu [8] Tác giả khử nhiễu sóng con và đề xuất phương pháp chọnđặc trưng phù hợp để chọn tập con tối ưu cho mô hình dự đoán Các chỉ báo CP (Close
Price), ROC (Rate Of Change), MACD (Moving Average Convergence/Divergence),
VAR (Variance) [8], trên tập dữ liệu chi số SSEC, HSI, DJI, S&P 500 [8] đượcthực nghiệm Kết quả các chỉ báo kỹ thuật được cải thiện có F1 scores tăng 34,48%
Trang 22CHƯƠNG | TONG QUAN
Daradkeh và các cộng sự [25] dé xuất mô hình mạng CNN (ConvolutionalNeural Networks) kết hợp với mạng BiLSTM (Bidirectional Long Short-termMemory) dé dự đoán xu hướng chứng khoán Tác giả kết hợp các đặc trưng dữ liệuliên quan đến chứng khoán như tin tức thị trường, cảm xúc trong văn bản tài chính,
dữ liệu định lượng tài chính, dữ liệu chứng khoán để cải thiện hiệu quả dự đoán Đầutiên, dữ liệu tài chính và tin tức được xử lý độc lập để tạo ra CSDL chứng khoán vàtin tức Tiếp theo, tin tức được chia thành các sự kiện và mô hình CNN phân loại, gánnhãn các sự kiện đó Các cảm xúc trong tin tức được phân loại và gán nhãn bằng môhình BiLSTM Cuối cùng, các đặc trưng tin tức và đặc trưng giá cổ phiếu đưa vàomạng LSTM đề đánh giá mức độ phù hợp dé dự đoán xu hướng tăng giảm của chứng
khoán Dữ liệu chứng khoán được thu thập trên thị trường tài chính Dubai (DEM)
trong lĩnh vực bắt động sản và truyền thông từ 1-1-2020 đến 1-12-2021 trong lúc dichbệnh COVID-19 diễn ra Kết quả chứng minh rang sự kết hợp nhiều yếu tố liên quanđến chứng khoán cho kết quả dự đoán tốt hơn Mô hình CNN- BiLSTM đạt độ chính
xác 80%-90%
Nhận xét chung:
Các nghiên cứu đã cung cấp nhiều kiến thức hữu ích cho luận văn Dự đoánchứng khoán là một công việc khó khăn và thách thức vì sự biến động giá cỗ phiếurất phức tạp và không chắc chắn Đầu tiên, mô hình phân tích truyền thống như phântích cơ bản, phân tích kỹ thuật thuần túy không mang lại kết quả dự đoán cao và cầnkiến thức kinh tế để phân tích dữ liệu kinh tế Thứ hai, với sự bùng nô thông tin môhình máy học được sử dụng ngày càng nhiều trong dự đoán biến động giá cỗ phiếu,
xu hướng cô phiếu, có kết quả dự đoán cao Các kỹ thuật máy học, học sâu thường
sử dụng dự đoán chứng khoán như: SVM, LSTM Các mô hình này cần người có kiếnchuyên môn khoa học máy tính để hiệu chỉnh và triển khai Cuối cùng, các phươngpháp dự đoán xu hướng cé phiếu hiện nay là kết hợp giữa phương pháp truyền thống
và các mô hình máy học để cải thiện hiệu quả dự đoán
Hơn nữa, dữ liệu văn bản như tin tức, mạng xã hội, được xử lý độc lập dẫn
đến thời gian huấn luyện mô hình dự đoán cao Ngược lại, các mô hình máy học cóthời gian huấn luyện thấp và không cần tài nguyên máy tinh cao Ngoài ra, không có
Trang 23CHƯƠNG | TONG QUAN
mô hình nào dự đoán tat các cổ phiếu trong cùng một khoảng thời gian Các mô hìnhchỉ dự đoán từng mã cỗ phiếu riêng lẻ và chỉnh sửa các tham số trong khoảng thờigian nhất định để có kết quả dự đoán tốt nhất Do đó, mô hình dự đoán nhanh và kếtquả tốt cho nhà dau tư là rất cần thiết trong môi trường thông tin được thay đổi liên
tục.
Với những ưu điểm và hạn chế của các phương pháp mô hình dự đoán chứngkhoán Mô hình khai thác mẫu tuần tự dựa vào khai thác dữ liệu và độ tương tự củachuỗi tuần tự được đề xuất Mô hình dự đoán xu hướng dựa vào việc khai thác mẫutrong dữ liệu lịch sử và so sánh với chuỗi c-line cần dự đoán Phương pháp khai thácmẫu tuần tự là hướng tiếp cận mới dự đoán xu hướng ngày tiếp theo
Trang 24CHƯƠNG 2 CƠ SỞ LÝ THUYET
Chương 2 CƠ SỞ LÝ THUYET
2.1 Khái niệm về chuỗi tuần tự
Cho tập J = is, i2, , in} gồm n phan tử phân biệt còn gọi là các sự kiện (item).Một tập sự kiện (itemset) là tập không có thứ tự khác rỗng (xuất hiện đồng thời), gồmcác sự kiện Mỗi itemset được biểu diễn trong cặp dấu ngoặc tròn Cặp dấu ngoặctròn được loại bỏ nhằm đơn giản hóa ký hiệu cho các tập sự kiện với chỉ một sự kiệnđơn Ví dụ, (A, B, C) biểu diễn 1 tập sự kiện gồm 3 sự kiện là A, B và C
Một chuỗi tuần tự (sequence), ký hiệu S = (@;,#; , , đ„ }, là một tập có thứ
tự các tập sự kiện, với mỗi ¿¡ (1 <i < m) là một tập sự kiện Các sự kiện trong tập sự
kiện được sắp xếp theo thứ tự từ điền, ký hiệu >ex
CSDL tuần tự (Sequence Database): CSDL tuần tự, ký hiệu SDB, là danh sáchcác chuỗi tuần tự, được biéu diễn dưới dạng SDB = (5), S2, , Sispsi}, trong đó |SDB|
là số lượng chuỗi tuần tự trong SDB, va Si (1 <i < |SDB)) là chuỗi tuần tự thứ i trong
SDB.
Vi dụ: Cho một CSDL có 5 khách hàng mua thực phẩm trong 3 tháng của một
siêu thị (Bảng 2.1)
Bang 2.1 CSDL giao dịch mua thực phẩm
Mã khách hàng | Thời gian Mặt hàng mua
Trang 25CHƯƠNG 2 CƠ SỞ LÝ THUYET
002 15/03/2020 | Sữa
001 28/03/2020 | Gao
Với dữ liệu trong Bảng 2.1 có thé biểu dién thành CSDL tuần tự gồm các chuỗituần tự mua sắm của từng khách hàng như trong Bảng 2.2 Trong đó, các sự kiệnđược ký hiệu là a, b, c, d, e, f, biểu diễn cho các mặt hàng được mua như là Đường,
sự kiện thứ nhất là (c,d) có 2 sự kiện c và d Tập sự kiện thứ hai là a có 1 sự kiện a.Cuối cùng là tập sự kiện (e, f,h) có 3 sự kiện là e, f và h
Kích thước chuỗi (size of sequence): số tập sự kiện (itemset) có trong chuỗi S,
ký hiệu ISI.
Độ hỗ trợ (support) [4]: độ hỗ trợ của chuỗi tuần tự S trong CSDL tuần tự đượcđịnh nghĩa là tổng số chuỗi tuần tự trong CSDL có chứa S, ký hiệu
supportspp(S) = |{(SID,S)|((SID,S) € SDB) A (S 6 SBD))|(theo [4])
Chiều dài chuỗi (length of sequence): được tính dựa vào số lượng sự kiện(item) có trong chuỗi S Chuỗi có k sự kiện được ký hiệu là k-sequence.
Trang 26CHƯƠNG 2 CƠ SỞ LÝ THUYET
Chuỗi cha và chuỗi con tuần tự (supersequence và subsequence) [4]: mộtchuỗi Sa-(a/,a2, ,dn) được gọi là chuỗi con của chuỗi Sp=(b),b2, ,bm) nêu và chỉ
nêu tôn tại day số 1 < ii < la < <in <= m sao cho a/Sbis, a2Cba, , a„Cbu, Khi đó
ta nói chuỗi Sa là chuỗi con của Sp hay chuỗi Sp là chuỗi cha của Sa
Tiền tố (prefix): một chuỗi Sa-(ai,a2, ,n) được gọi là tiền tố của chuỗiSp=(b¡,ba, ,bạ) nêu và chỉ nếu với mọi n < m và ai=bi,a2=bs, ,au=ba
Mẫu tuần ty (sequential pattern): Cho trước một ngưỡng hỗ trợ tối thiểu, ký
hiệu minSup, được xác định trước bởi người dùng Trong đó, 0 < minSup < 1 Một
chuỗi S được xem là chuỗi phổ biến khi và chỉ khi độ hỗ trợ của S lớn hơn bằng
ngưỡng hỗ trợ tối thiểu, sup(S) > minSup Khi đó, S được gọi là mẫu tuần tự [4]
2.2 Khái niệm cây nến Nhật
Cây nến Nhật do người Nhật phát minh vào năm 1600 Mỗi cây nến gồm giá
mở cửa, giá đóng cửa, giá cao nhất, giá thấp nhất Cây nến gồm 2 phan real body(thân nến) và shadow (bóng nến) (Hình 2.1) Hình chữ nhật gọi là thân nến thể hiệnphạm vi thời gian mở và đóng phiên giao dịch Thân nến màu đỏ (là nến giảm) (Hình2.1-B) tức giá đóng cửa của phiên giao dịch thấp hơn giá mở cửa Ngược lại, thânnến có màu xanh (là nến tăng) (Hình 2.1-A) tức giá đóng cửa của phiên giao dịch lớnhơn giá mở cửa Tùy theo các quốc gia quy định màu nến, ở Mỹ và Việt Nam nếntăng có màu xanh, nến giảm có màu đỏ
Phần ở trên và dưới thân nến gọi là bóng nến, ở trên gọi bóng trên có đỉnh làmức giá cao nhất và ở dưới gọi là bóng dưới có đáy là mức giá thấp nhất của phiêngiao dịch Cây nến có thé vẽ trong các khung thời quan sát khác nhau (như phút, giờ,
ngày, ).
Vi dụ: Khung thời quan sát cây nến theo ngày, cây nến tăng (Hình 2.1-A) đáythân nến là giá giao dịch đầu tiên hay gọi là giá mở cửa và đỉnh thân nến là giá kếtthúc phiên giao dịch hay gọi giá đóng cửa Đỉnh bóng trên tương ứng giá cao nhất vàđáy bóng dưới tương ứng giá thấp nhất Ngược lại, cây nến giảm (Hình 2.1-B) giá
mở cửa nằm trên thân nến, giá đóng cửa nằm dưới thân nến, và giá cao nhất, thấpnhất giống nền tăng
Trang 27CHƯƠNG 2 CƠ SỞ LÝ THUYET
Giá cao nhấtGiá cao nhất ————T
} Bong trén
Giá đóng cửa ————| ca F——— Giá mở cửa
Than nênGiá mở cửa ———— Giá đóng cửa
} Bong dưới { Giá thấp nhất Giá thấp nhất
A : Nến tăng B: Nến giảm
Hình 2.1 Cấu trúc cây nến Nhật, A: Nến tăng, B: Nến giảm (theo [26])
Các kiểu nến Nhật
Mỗi cây nến Nhật thể hiện các mối quan hệ 3 chiều về giá khác nhau, chiều
bóng trên, thân nến, bóng dưới, tạo nên nhiều kiểu nến Ký hiệu a,b,c tương ứng các
kiểu nến được trình bày trong Bảng 2.3 Các ký hiệu làm giảm số chiều và đơn giảnhóa hình thái kiểu nến Thường có 12 kiểu nến khác nhau được mô tả Bảng 2.3 trong
đó High là giá cao nhất, Close là giá đóng cửa, Open là giá mở cửa, Low là giá thấpnhất
Bảng 2.3 Các kiêu nến và mối quan hệ về giá
Số thứ tự Kiêu nên Diễn giải BÀ
Trang 28CHƯƠNG 2 CƠ SỞ LÝ THUYET
—High, Close Nén tăng có:
High = Close Open Close > Open c
Trang 29CHƯƠNG 2 CƠ SỞ LÝ THUYET
High Nén có:
High > Close
11 Close = Open k
Open = Low Low, Close, Open
: Nến có:
F — — High, Low, Close, Open High = Open ;
Open = Close Close = Low
Khái niệm biểu đồ nến Nhật
Biểu đồ nến là một trong các công cụ phân tích kỹ thuật và được sử dụng phổbiến trên các ứng dụng và website về thị trường chứng khoán Biểu dé nến Nhật làtập hợp các cây nến theo các khung thời gian quan sát khác nhau (như ngày, tháng,năm, ) gọi là chuỗi c-line Nó cho thay các biến động giá và khối lượng giao dịchtrên thị trường chứng khoán Các nhà đầu tư thường xem biéu đồ nến như chỉ báo kỹthuật (tập hợp các cây nến theo dạng nào đó gọi là mẫu hình, mẫu nền), giúp vẽ đường
hỗ trợ kháng cự, xác định các tín hiệu đảo chiều của giá, các tín hiệu mua bán cổphiếu
Trang 30CHƯƠNG 2 CƠ SỞ LÝ THUYET
(@ tnaeaters~ Comparson "DateRange 10TM-SD IM 3M EM YTD—1Y`2Y ~5V Max CJHAeAI10— 4ÿ Canale > Draw ©
1: Mã cổ phiếu công ty Apple
2: Dữ liệu giá cô phiêu gồm: giá mở cửa, giá cao nhất, giá thấp nhất, khối lượng,
Biểu diễn chuỗi từ biểu đồ nến
Biểu đồ nến giống như dữ liệu chuỗi thời gian, các cây nến được vẽ theo thứ tựthời gian nên có thể chuyên thành chuỗi tuần tự, các kiểu nến được biểu diễn thànhcác ký hiệu a,b,c đã nêu ở trên Ví dụ Hình 2.2 được biểu diễn thành chuỗi tuần tự
S = (q,a, q,e,€, 6, q, q, q, q, 6, Œ, €, a, , q, q, ở, đ
Xác định xu hướng cỗ phiếu
Hiện nay, có nhiều cách xác định xu hướng cô phiếu dựa trên biểu đồ nếnNhật Thông thường các nhà đầu tư dùng phương pháp phân tích kỹ thuật dé dự đoán
xu hướng cô phiếu như “chi báo kỹ thuật” [27] MA và MACD, đường xu hướng dé
dự báo xu hướng giá cổ phiếu [27] Ngoài ra, mô hình nến đảo chiều xu hướng có
nghĩa xu hướng tăng sẽ đảo thành xu hướng giảm như Inverted hammer, Hammer,
Trang 31CHƯƠNG 2 CƠ SỞ LÝ THUYET
Harami, Morning Star Trong luận văn này xu hướng cổ phiếu được xác địnhđiểm thay đổi trên đường giá đóng có nghĩa giá cổ phiếu đang tăng sau đó giá cổphiếu giảm và ngược lại
Giá đóng cửa là mức giá cuối cùng kết thúc phiên giao dịch Mức giá gồm giámua và bán được xác định bằng phương thức đấu giá Giá đóng cửa của ngày hômtrước là mức giá cho các nha đầu tư tham chiếu cho mức giá cổ phiếu cho ngày hômsau Xu hướng cổ phiếu được gan sau điểm thay đổi trên đường giá đóng Nếu xuhướng tăng (giá cổ phiếu tăng) gán bằng 1, nếu xu hướng giảm (giá cổ phiếu giảm)gán bằng -1, cuối cùng xu hướng đi ngang (giá cô phiếu không tăng không giảm) gánbằng 0 Hình 2.3 thể hiện đường giá đóng và gán nhãn xu hướng
(© Comparison Ey DateRange 10S 1M 3M 6M YTD -1Y 2V 5V Max — Ey eral 102 09 Cantey ĐA ew 9
fi11ii11ÍE:TiiiiTlilP
Hình 2.3 Đường giá đóng cửa và điểm thay đổi xu hướng.
Ký hiệu mẫu c-line: Gọi pc = {(sc), xh} trong đó:
(sc) : là chuỗi c-line được ký hiệu a, b, c,
xh: là xu hướng của chuỗi c-line
Vi dụ: pc = {(a,b,d,d,c,a,e), 1} chuỗi c-line sc = (a,b,d,d,c,a,e) có xu
hướng tăng.
Độ chính xác của mẫu c-line: được xác định bằng tỉ lệ giữa mẫu c-line và chuỗi
c-line Độ chính xác mẫu được tính theo công thức 2.1.
số lượng pc có xh giống xh chuỗi c — line
Trang 32CHƯƠNG 2 CƠ SỞ LÝ THUYET
Độ chính xác của mẫu c-line giúp sàng lọc các mẫu có thé dự đoán, không giốngvới phương pháp khai thác mẫu tuần tự truyền thống, việc sàng lọc mẫu bằng minSup
do người dùng định nghĩa.
Vi dụ: Cho mẫu c-line pc = {(a, a,e), 1} có 2 mẫu c-line pc2 = {(a, a, e), 1}
và pel = {(a,a,e),—1} có chuỗi c-line giống pe nhưng khác xu hướng Độ chính
xác ace(pe)=1/2 =0.5
Độ tương tự của chuỗi tuần tự
Cho chuỗi tuần tự X = {x¡, xạ, , x„} VAY = Or Voy , y„} một số phần tử cótrong X hiển thị trong Y theo thứ tự trong X Thứ tự không gian của các phan tử trong
X giống thứ tự các phan tử trong Y, X và Y là chuỗi tương tự của nhau Các chuỗi concủa chuỗi tuần tự đều là chuỗi tương tự của chuỗi tuần tự đó
Ví dụ: Chuỗi tuần tự X = (a,c,a,e,e) và Y = (a,a,e,e,a) là 2 chuỗi tương tựcủa nhau vì các phần tử a, a, e, e trong X xuất hiện theo thứ tự trong Y
Gọi p = {P¡,pạ, , pạ„} là trọng số các phần tử của X và q = {đq¡, đa, +n} là
trọng số các phần tử của Y Mỗi cặp khớp {x:, yi} có tương ứng một cặp trọng số
{puq,} và độ tương tự được tính bằng Y p; x qj
Các phần tử có vị trí khác nhau nên trọng số được tính theo công thức (2.2) hay(2.3) Độ tương tự được xét theo 2 chiều: theo chiều thời gian và ngược chiều thờigian Sau nhiều thử nghiệm, phần tử đầu tiên quan trọng nên được đánh trọng số cao.nhất là 5
={ 5, i=1 ={ 5, j=l
Đị =m—i+l,1<i<m 22) U>tn-jt1, 1<j<n@3)
Độ tương tự của 2 chuỗi tuần tự được tính theo công thức 2.4
Max (sim, sim;, sim) (2.4)
sim(X,Y) = meml+i
Trong đó, sim; là độ tương tự trường hợp thứ ¡, có k trường hợp tương tự, m, n
là chiều dai của X, Y Hàm Max lay số lớn nhất
Trang 33CHƯƠNG 2 CƠ SỞ LÝ THUYET
Vi dụ: Chuỗi tuần tự X = (e,e,a,a,e) và Y = ( e,e,a,e,e) là 2 chuỗi tương tựcủa nhau Hình 2.4 liệt kê các trường hợp tương tự giữa chuỗi tuần tự X và Y
Theo chiều thuận thời gian Theo chiều ngược thời gian
——¬ ^————
(e,e,a,a,e) (e,e,a,a,e) (e,e,a,a,e) (e,e,a,a,e)
l2
1H / iy { H//
(e,e,a,e,e) (e,e,a, e,e) (e,e,a, e, e) (e,e,a, e,e)
Trường Trường Trường Trường
hợp | hợp 2 hợp 3 hợp 4
(TPI) (TP2) (TP3) (TP4)
Hình 2.4 Các trường hợp tương tự giữa X và Y.
Ta có các cặp khớp của 2 chuỗi tuần tự trong trường hợp 1 là: {eạ, e¡}, {e;, #;}.{as, a3}, es, ea}
Mô hình dự đoán xu hướng cỗ phiếu dựa trên SVM
Hiện nay, mô hình máy học SVM được dùng trong dự đoán xu hướng giá cổphiếu và lợi nhuận cô phiếu Mô hình SVM gồm các phương pháp máy học có giámsát trong các bài toán phân loại, hồi quy, và tìm các dữ liệu khác biệt Các đặc trưng
Trang 34CHƯƠNG 2 CƠ SỞ LÝ THUYET
của đối tượng được biểu diễn thành các điểm dữ liệu Ví dụ: các đặc trưng gồm chiềucao, chiều rộng, giá của đối tượng nhà được biéu diễn thành điểm dữ liệu (Hình 2.5)
Mô hình SVM tạo ra nhiều biên quyết định (decision boundary) hay siêu phẳng(hyperplane) dùng để phân biệt các lớp trong không gian n chiều, nó giúp dự đoáncác điểm dữ liệu mới trong tương lai Khoảng cách giữa siêu phẳng đến tất cả cácđiểm dữ liệu của các lớp gọi là lề (margin) Siêu phẳng có lề lớn nhất (Maximummargin) gọi là “siêu phang” [28] tối ưu (Optimal hyperplane) có sai số tổng quát nhỏ,phân loại càng tốt Các điểm dữ liệu (vector) nằm gần siêu phăng, nó ảnh hưởng đếnviệc tạo ra siêu phẳng được gọi là Support Vector Hình 2.5 mô tả mô hình SVM
Hình 2.5 Mô tả mô hình SVM (theo Unzueta [29]).
Theo Javatpoint [28] mô hình SVM chia thành 2 kiêu:
Linear SVM: là mô hình SVM tuyến tính tạo ra siêu phẳng là đường thăng đểphân loại 2 lớp trong tập điểm dữ liệu
Non-linear SVM: là mô hình SVM phi tuyến khi không tạo siêu phẳng là đườngthăng đề phân loại các lớp Vì vậy, mô hình SVM có thể chấp nhận một mức độ lỗinhất định dé giữ cho biên lề rộng nhất, mức độ lỗi được coi là tham số phạt C, C cànglớn biên lề càng hẹp
Trang 35CHƯƠNG 2 CƠ SỞ LÝ THUYET
Ngoài ra, mô hình SVM sử dụng hàm ánh xạ (kernel functions) để các điểm dữliệu từ không gian ít chiều được ánh xạ sang không gian nhiều chiều, giúp việc tạo rasiêu phẳng dé dang hơn Các hàm ánh xạ thông dụng thường là hàm tuyến tính
(linear), hàm da thức (polynomial), hàm Radial Basis Function (rbf), ham sigmoid.
[30]
Cách tính khoảng cách Margin
Khi biên quyết định là đường thang thì hàm quyết định có dạng w,x + way +
c =0 Theo bài viết về SVM [31] công thức tính khoảng cách đến điểm dữ liệu có
tọa độ (xo, Yo) như sau:
W4Xq + W2Yo +€
Xwỷ + we
Nếu các điểm dữ liệu có kết quả nhỏ hơn 0 thì chúng nằm một bên mặt phẳng
(2.5)
(goi 1a mat phẳng âm) ngược lại lớn hơn 0 thì chúng nằm bên mặt phẳng còn lại (gọi
là mặt phẳng dương) Những điểm dữ liệu nằm trên đường thẳng có kết quả bằng 0
(Hình 2.5).
Khi biên quyết định trong không gian nhiều là siêu phẳng tuyến tính có dạngwTxạ +b = 0 Theo bài viết về SVM [31] công thức tính khoảng cách từ mộtdiém(vector) có tọa độ xạ đến siêu phẳng như sau:
wTxq¿+b
IIwllw? trong d là số chiều không gianKhi biên quyết định là phi tuyến tính có dạng w'x + b = 0 được ánh xạ bằng
(2.6)
Trong đó: ||wllz =
ham kernel p(x) có dạng w" (x) + b = 0 Theo Javatpoint [28] công thức tinh
khoảng cách từ một điểm(vector) có tọa độ xp đến siêu phẳng như sau:
w" (xo) +b (27)
llwlleCác ham kernel thông dụng và có thé định nghĩa ham kernel riêng cho minh
Trang 36CHƯƠNG 2 CƠ SỞ LÝ THUYET
e Linear: (x, x’)
© Polynomial:(y(x, x’) + r)¢
© Sigmoid: tanh(y(x,x') +r) trong đó y > 0.
© Radial Basis Function (rbÐ: exp(—yllx — x'l|?)
Mô hình dự đoán xu hướng cổ phiếu dựa trên LSTM:
Mô hình LSTM là một trong các phương pháp học sâu có giám sát, thế mạnhcủa mô hình là xử lý trên dữ liệu tuần tự Ví dụ dự đoán giá đóng cửa ngày tiếp theo,đầu vào mô hình là dữ liệu giá đóng cửa 5 ngày trước đó
Mô hình LSTM là sự cải tiến của mô hình RNN (Recurrent Neural Networks)
Mô hình LSTM là mạng notron tuần hoàn được thiết kế xử lý dữ liệu chuỗi thời gian
và dữ liệu chuỗi tuần tự [4] Nó giống như modules lặp lại trong mạng notron
i) ® ® ® @
Hình 2.6 Mạng notron tuần hoàn(theo dominhhai).
Trong Hình 2.6 có A là module trong mạng, X; là đầu vào nội dung tại thời điểm
t [32], hy là trạng thái ấn tại thời điểm t [32], vòng lặp chuyền thông tin từ module này
sang module khác trong mạng.
Trong mô hình mạng LSTM trạng thái nhớ (cell state) là một phần quan trọngcủa mô hình, nội dung mới được kiểm tra thông qua các công (gates) để xem mức độnội dung có thé giữ lại hay cho qua mỗi module có 3 công
Trang 37CHƯƠNG 2 CƠ SỞ LÝ THUYET
torget Gate
Input Gate Output Gate
Hình 2.7 Mô ta mô hình LSTM (theo websitehem [33]).
Công quên (Forget Gate) của module tại thời điểm t: xem xét nội dung trạngthái ẩn trước có cần thiết quên hết hay giữ lại, đầu vào của công quên là trạng thái ancủa module trước (h.¡) và nội dụng tại thời điểm t (X) Hàm ø (sigmoid) quyết địnhnội dung dựa trên kết quả có giá trị từ [0,1] Theo Saxena [34] công thức cổng quên
fi, như sau:
fe = ơŒ * Up + Nya * Wy) (2.8)
Trong do:
X,: nội dung thời điểm t
uy: trọng số đầuh,_¡: trang thái an trướcWy: ma trận trong số h_;
Sau đó, hàm ø nhân với trạng thái nhớ trước (Œ;_¡) Nếu ƒ, có kết qua 0 thôngtin được quên hết (C,_1 * ƒ, = 0), còn kết quả | thì tắt cả thông tin được giữ lại đượctính bằng (Œ—¡ * fe = Œ;~¡)
Công vào (Input Gate) của module tại thời diém t: xem xét nội dung mới cócần thiết dé cập nhật trạng thái nhớ Đầu tiên, hàm ø quyết định tầm quan trọng của
Trang 38CHƯƠNG 2 CƠ SỞ LÝ THUYET
vector nhằm chuyển nội dung mới đến trạng thái nhớ có giá trị trong khoảng [-1,1].Nếu kết quả hàm tanh là giá trị âm thì nội dung mới được chuyên đi, ngược lại là giátrị đương nội dung mới chuyển vào trạng thái nhớ hiện tại Đầu vào của 2 hàm là nội
dụng tại thời điểm t (X¿) và trạng thái ân của module trước (hr-1) Cuối cùng, kết quả
2 hàm nhân với nhau được cộng với trạng thái trước để cập nhật trạng thái nhớ hiệntại Theo Saxena [34] công thức cổng Vào i, với trong số đầu vào u;, ma trận trong
số đầu vào trạng thái Ân trước w; như sau:
i, = Ø(X, * Uj + Aya * Wi) (2.9)Công thức ham tanh cho nội dung mới n; với trọng số đầu vào uz, ma trậntrong số đầu vào trạng thái Ân trước w„ như sau
ny = tanh(X; * Ue + hea * We) (2.10)Công thức cập nhật trạng thái nhớ tại thời điểm t(c,) với C,_, là trạng thái nhớ
trước:
Œ=fq*Œ + +íc*ny — (2/11)
Cổng ra (Output Gate): xem xét nội dung cần hiển thị, giống như các cổngkia Hàm o quyết định tầm quan trong của nội dung tại thời điểm t (X,) dựa trên kếtquả có giá trị từ [0,1] Ham tanh chuyển nội dung của trạng thái nhớ hiện tại (C,) cógiá trị trong khoảng [-1,1] Sau đó 2 hàm nhân với nhau dé ra nội dung cần hiền thịcũng là trạng thái an tại thời điểm t (h¿) Theo Saxena [34] công thức cổng Ta 0, VỚItrọng số đầu vào Up, ma trận trọng số đầu vào trạng thái ẩn trước W, như sau:
Trang 39CHƯƠNG 3 XÂY DỰNG MÔ HÌNH DỰ ĐOÁN XU HƯỚNG CO PHIEU
Chương 3 XÂY DỰNG MÔ HINH DỰ DOAN XU HUONG CO PHIEU
3.1 Tập dữ liệu thực nghiệm
Dữ liệu thực nghiệm được thu thập trên website https://finance.yahoo.com/ Dữ
liệu gồm 81 mã chứng khoán của các công ty trong chỉ số NASDAQ-100 trong thờigian từ ngày 04/01/2021 cho đến ngày 12/05/2021 Mỗi mã chứng khoán giống nhưmột CSDL tuần tự, trong đó mỗi dòng có các thuộc tính như: ngày vẽ cây nến (c-line), giá mở cửa, giá cao nhát, giá thấp nhát, giá đóng cửa, giá đóng cửa điều chỉnh
và khối lượng giao dịch thê hiện cho một cây nến được quan sát trong khung thờigian là một ngày Các thuộc tính chỉ tiết dữ liệu được mô tả trong Hình 3.1
Ngoài ra, mô hình để xuất được thực nghiệm trên tập dữ liệu chứng khoán Hàn
Quốc và Trung Quốc Tập dữ liệu được thu tập gồm 81 mã cổ phiếu được chọn ngẫunhiên công khai trên trang website https://finance.yahoo.com/ thời gian từ ngày
04/01/2021 cho đến ngày 12/05/2021 Dữ liệu mang tính thực tế và gồm các ngànhnghề trong các lĩnh vực khác nhau Dữ liệu được thu thập trong thời gian dịch bệnh
Covid 19 diễn ra.
Để đảm bảo dữ liệu mang tính chất chuỗi thời gian Dữ liệu được chọn trongkhoảng thời gian liên tục không có chọn ngẫu nhiên Mỗi mã chứng khoán thựcnghiệm được chia thành 2 phần, 80% dữ liệu đầu làm tập huấn luyện, 20% dữ liệucuối làm tập kiểm thử
Trang 40CHƯƠNG 3 XÂY DỰNG MÔ HÌNH DỰ DOAN XU HƯỚNG CO PHIEU
Hình 3.1 Dữ gu mã chứng khoán AAPL (công ty Apple).
Trong Hình 3.1 có Date: ngày vẽ c-line, Open: giá mở cửa, High: giá cao nhất,Low: giá thấp nhất, Close: giá đóng cửa, Adj Close: giá đóng cửa điều chỉnh, Volume:khối lượng giao dịch cô
3.2 Tiền xứ lý dữ liệu
3.2.1 Mã hóa dữ liệu
Mỗi c-line có các quan hệ mức giá khác nhau, hình thành các hình thái c-linekhác nhau Để giảm số chiều và thuận tiện trong việc khai thác mẫu c-line sẽ đượctrình bày ở phần sau, các hình thái c-line được mã hóa thành các ký tự a, b, c, Việc
mã hóa dựa trên quy tắc được trình bày (Bảng 2.3)
Open High Low — Close [mm