Mô hình chúng tôi đề xuất nhằm cải tiến mô hình gốc TBSM-SVR của tác giả bằng cách ở giai đoạn tiền xử lý chúng tôi sử dụng phương pháp BMA thay thế phương pháp SRA để chọn các chỉ số kỹ
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRẦN QUỐC BẢO – CH1301004
LUẬN VĂN THẠC SỸ ỨNG DỤNG SVM VÀ CHUỖI THỜI GIAN DỰ ĐOÁN THỜI ĐIỂM MUA BÁN CỔ PHIẾU CHO THỊ TRƯỜNG CHỨNG
KHOÁN VIỆT NAM
THẠC SỸ NGÀNH KHOA HỌC MÁY TÍNH
GIẢNG VIÊN HƯỚNG DẪN
TS DƯƠNG MINH ĐỨC
Trang 2Con xin cảm ơn ba mẹ đã sinh thành, nuôi dưỡng, và dạy dỗ để con có được thành quả như ngày hôm nay Ba mẹ luôn là nguồn động viên, nguồn sức mạnh hết sức lớn lao mỗi khi con gặp khó khăn trong cuộc sống
Cuối cùng, chúng tôi xin gửi lời cảm ơn chân thành đến những người bạn đã chia sẽ
và ủng hộ chúng chúng tôi trong thời gian thực hiện khóa luận
TP Hồ Chí Minh, tháng 07 năm 2017
Học viên
Trần Quốc Bảo
Trang 3LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của bản thân dưới sự hướng dẫn của Tiến sĩ Dương Minh Đức Các số liệu, kết quả trình bày trong khóa luận là trung thực Các tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn một cách rõ ràng, đầy
đủ
TP Hồ Chí Minh, tháng 07 năm 2017
Học viên
Trần Quốc Bảo
Trang 4MỤC LỤC
Chương 1 TỔNG QUAN 5
1.1 Tình hình nghiên cứu 5
1.1.1 Các nghiên cứu ngoài nước 5
1.1.2 Các nghiên cứu trong nước 6
1.2 Mục tiêu của đề tài 7
1.3 Đối tượng nghiên cứu: 7
1.4 Phạm vi nghiên cứu: 8
1.5 Tính mới và đóng góp của đề tài: 8
1.5.1.1 Ý nghĩa khoa học: 8
1.5.1.2 Ý nghĩa thực tiễn: 8
1.6 Bố cục của đề tài 8
Chương 2 CƠ SỞ LÝ THUYẾT 10
2.1 Giới thiệu 10
2.2 Kiến thức cơ bản về thị trường chứng khoán và cổ phiếu 10
2.2.1 Các khái niệm cơ bản 10
2.2.1.1 Thị trường chứng khoán 10
2.2.1.2 Cổ phiếu 11
2.2.1.3 Vai trò của TTCK 11
2.2.2 Nguyên tắc hoạt động của TTCK 12
2.2.3 Các chỉ số kỹ thuật 13
2.2.3.1 Đường trung bình MA 14
2.2.3.2 Đường trung bình động phân kỳ hội tụ MACD 14
2.2.3.3 Đường chỉ số sức mạnh tương đối RSI 16
Trang 52.2.3.4 Đường Stochatics oscillator 17
2.2.3.5 Đường Williams %R 19
2.2.3.6 Khối lượng giao dịch 20
2.3 Phương pháp phân tích hồi quy đa biến BMA 21
2.3.1 Giới thiệu về BMA 21
2.3.2 Chi tiết về BMA 21
2.4 Phương pháp phân đoạn dữ liệu theo xu hướng TBSM 22
2.4.1 Giới thiệu về TBSM 22
2.4.2 Quy trình thực hiện thuật toán TBSM 22
2.4.2.1 Ý tưởng thuật toán TBSM 22
2.4.2.2 Mã giả cài đặt thuật toán TBSM 23
2.5 Phương pháp hồi quy véc-tơ hỗ trợ SVR 25
2.5.1 Giới thiệu về SVR 25
2.5.2 Mô hình SVR 26
2.5.3 Các tham số của SVR 27
2.5.4 Xác định bộ tham số tối ưu của SVR bằng thuật toán Grid Search 27
2.5.5 Ứng dụng SVR vào bài toán dự báo thời điểm mua bán chứng khoán 28
2.5.6 Kết luận 30
Chương 3 MÔ HÌNH DỰ BÁO THỜI ĐIỂM MUA BÁN CHỨNG KHOÁN ĐỀ XUẤT 31
3.1 Giới thiệu 31
3.2 Quá trình huấn luyện 32
3.3 Quá trình dự đoán 37
3.4 Kết luận 38
Trang 6Chương 4 KẾT QUẢ THỰC NGHIỆM – ĐÁNH GIÁ 40
4.1 Giới thiệu 40
4.1.1 Mô tả dữ liệu 40
4.1.2 Độ đo chất lượng dự đoán 41
4.1.3 Mô phỏng thực hiện giao dịch: 41
4.1.4 Cài đặt 41
4.1.5 Kết quả thực nghiệm 43
4.2 Đánh giá 54
Chương 5 KẾT LUẬN – HƯỚNG PHÁT TRIỂN 61
5.1 Kết luận 61
5.1.1 Kết quả đạt được 61
5.1.2 Ý nghĩa khoa học 62
5.1.3 Ý nghĩa thực tiễn 62
5.2 Hướng phát triển 62
Trang 7DANH MỤC HÌNH VẼ
Hình 2.1 Minh họa đường trung bình động đơn giản SMA 14
Hình 2.2 Minh họa đường trung bình động MACD 16
Hình 2.3 Minh họa đường chỉ số sức mạnh tương đối RSI 17
Hình 2.4 Minh họa đường Stochatics oscillator 18
Hình 2.5 Minh họa đường William %R 20
Hình 2.7 Mô phỏng kết quả phân đoạn bằng thuật toán TBSM 23
Hình 2.8 Mã giả cài đặt thuật toán TBSM 23
Hình 2.9 Ví dụ minh họa thuật toán TBSM 24
Hình 2.10 Minh họa hàm lỗi thông thường và hàm lỗi - insensitive [5] 26
Hình 2.11 Minh họa mục tiêu của SVR 29
Hình 3.1 Mô hình nghiên cứu [15] 32
Hình 3.2 Sơ đồ quá trình huấn luyện 32
Hình 3.3 Minh họa dữ liệu thô ban đầu 34
Hình 3.4 Mô phỏng quá trình thực hiện TBSM 35
Hình 4.1 Mối liên hệ giữa tín hiệu giao dịch và giá trị đầu ra của SVR 43
Hình 4.2 Mô tả tần suất được chọn của các đặc trưng đầu vào 45
Hình 4.3 Tín hiệu giao dịch dự báo cho BVH và giá trị đầu ra của SVR tương ứng 46
Hình 4.4 Tín hiệu giao dịch khuyến nghị cho GMD 47
Hình 4.5 Tín hiệu giao dịch dự báo cho HHS 48
Hình 4.6 Tín hiệu giao dịch dự báo cho MBB 49
Hình 4.7 Tín hiệu giao dịch dự báo cho HVG 50
Hình 4.8 Tín hiệu giao dịch dự báo cho VNM 51
Hình 4.9 Tín hiệu giao dịch dự báo cho HHS 52
Hình 4.10 Tín hiệu giao dịch dự báo cho PVT 53
Hình 4.12 Tín hiệu giao dịch dự báo cho STB 54
Trang 8DANH MỤC BẢNG
Bảng 3.1 Danh sách các chỉ số kỹ thuật được sử dụng trong huấn luyện dữ liệu 34
Bảng 4.1 Mô tả dữ liệu thử nghiệm 40
Bảng 4.2 Mô tả tham số cài đặt cho SVR 42
Bảng 4.3 Mô tả tham số cài đặt cho TBSM 42
Bảng 4.4 Kết quả lựa chọn các đặc trưng đầu vào bằng BMA 44
Bảng 4.5 Kết quả so sánh lợi nhuận giữa 2 mô hình và với chiến thuật mua-giữ (Việt Nam, %) trong giai đoạn 6 tháng đầu tư 55
Bảng 4.6 Lợi nhuận thu trong giai đoạn 3 tháng (Việt Nam, tính theo %) với Radial 55
Bảng 4.7 Kết quả so sánh tổng lợi nhuận với chiến thuật mua-giữ của rổ VN30 tháng (Việt Nam, %) trong 6 tháng 57
Bảng 4.8 Kết quả so sánh tổng lợi nhuận với chiến thuật mua-giữ của rổ VN30 tháng (Việt Nam, %) trong 3 tháng 59
Trang 9DANH MỤC TỪ VIẾT TẮT
STT VIẾT
1 TTCK Thị trường chứng khoán
1 ANN Mạng nơ ron nhân tạo (Artificial Neural Network)
2 EMA Chỉ số trung bình trượt lũy thừa (Exponential Moving Average)
3 MA Chỉ số đường trung bình (Moving Average)
4 MACD Chỉ số trung bình biến đổi hội tụ, phân kỳ (Moving Average
Convergence Divergence)
5 MAE Sai số trung bình tuyệt đối (Mean Absolute Error)
6 NMSE Tối thiểu hóa trung bình độ lỗi (Normalized Mean Square Error)
7 PLR Phương pháp phân đoạn dữ liệu (Pieciewise Linear
Representation)
8 RMSE Sai số bình phương trung bình (Root Mean Square Error)
9 RSI Chỉ số sức mạnh tương đối (Relative Strength Index)
10 SMA Chỉ số trung bình trượt đơn giản (Simple Moving Average)
11 BMA Phương pháp phân tích hồi quy dựa theo thuyết thông kê Bayes
(Bayesian Model Average)
12 SVM Phương pháp máy học véc-tơ hỗ trợ (Support Vector Machine)
13 SVR Phương pháp hồi quy véc-tơ hỗ trợ (Support Vector Regression)
14 TBSM Phương pháp phân đoạn dữ liệu dựa trên xu hướng (Trend Based
Segmentation Method)
Trang 10TÓM TẮT ĐỀ TÀI
Trong đề tài nghiên cứu này, chúng tôi dựa trên mô hình TBSM-SVR được xây dựng bởi nhóm tác giả Pei-Chann Chang, Jheng-Long Wu cùng cộng sự [15] để xây dựng mô hình dự báo thời điểm mua bán chứng khoán tại thị trường Việt Nam Mô hình chúng tôi đề xuất nhằm cải tiến mô hình gốc TBSM-SVR của tác giả bằng cách ở giai đoạn tiền xử lý chúng tôi sử dụng phương pháp BMA thay thế phương pháp SRA để chọn các chỉ số kỹ thuật chính xác hơn và thật sự có ảnh hưởng đến giá cổ phiếu nhằm cải tiến về hiệu xuất của mô hình TBSM được dùng để phân đoạn chuỗi dữ liệu thành các xu hướng, những xu hướng này kết hợp với các chỉ số
kỹ thuật được đưa vào SVR huấn luyện để khuyến nghị các điểm mua bán cho nhà đầu tư Đây là hướng nghiên cứu khá mới đối với thị trường Việt Nam Để đánh giá hiệu suất của mô hình, chúng tôi so sánh lợi nhuận thu được từ mô hình đề xuất với lợi nhuận thu được từ mô hình gốc của tác giả và đồng thời chúng tôi cũng so sánh với phương pháp mua và giữ, và kết quả thử nghiệm cho thấy, phương pháp của chúng tôi đem lại kết quả tốt hơn và phù hợp với nhu cầu của các nhà đầu tư chứng khoán
Trang 11MỞ ĐẦU
Một trong những vấn đề quan trọng trong dự đoán xu hướng thị trường chứng khoán là nhận biết các điểm chuyển tiếp (turning points) trong khi giá cổ phiếu thay đổi liên tục Từ các điểm chuyển tiếp này các nhà đầu tư có thể quyết định mua hoặc bán sao cho lợi nhuận đạt được là cao nhất Tuy nhiên trong thực tế việc xác định các điểm chuyển tiếp này khá phức tạp vì có rất nhiều yếu tố ảnh hưởng trực tiếp cũng như gián tiếp đến sự biến động của giá cả chẳng hạn như yếu tố lãi suất ngân hàng, môi trường kinh tế, tin đồn hoặc tâm lý không vững của các nhà đầu tư… Nhờ vào sự phát triển mạnh mẽ của Công nghệ thông tin nói chung và các công cụ Tính toán thông minh (Computational Intelligence) nói riêng, các mô hình cộng tác (collaborative model) được xây dựng và phát triển để dự đoán và nhận biết các điểm chuyển tiếp dựa trên những yếu tố này và từ đó có thể giúp các nhà đầu tư đưa ra các quyết định mua hoặc bán phù hợp nhất
Trong những năm gần đây, có nhiều nghiên cứu đã gặt hái được những thành quả đáng kể nhờ việc sử dụng các phương pháp dự đoán trong lãnh vực Tính toán thông minh nhằm giảm thiểu rủi ro khi đầu tư dựa vào dữ liệu quá khứ của thị trường chứng khoán [11] [12] Trong lãnh vực tài chính, các chỉ số kỹ thuật được áp dụng để giải thích sự biến động của giá cả và được sử dụng để nhận biết các điểm chuyển tiếp như William Index hoặc Relative Strength Index… Với dự doán truyền thống, các nhà nghiên cứu tài chính thường sử dụng các mô hình toán học dự đoán giá cũng như xu hướng của cổ phiếu, nhưng những mô hình này thường không thể điểu chỉnh kịp theo những biến động của thị trường [13]
Trong vài năm lại đây, đã có vài phương pháp dựa trên chuỗi thời gian được
đề xuất, trong đó phương pháp được biết đến nhiều nhất là phương pháp Biểu diễn tuyến tính đoạn lồi - Piecewise Linear Representation (PLR) [11] [12] [13] Phương pháp này phân tách dự liệu quá khứ của cổ phiếu thành một danh sách các đoạn tăng (bottom and peak points) Tuy nhiên, phương pháp này lại không xem xét đa
xu hướng Để cải tiến phương pháp này nhằm phù hợp với thị trường, cần phải có
Trang 12một phương pháp phân đoạn dữ liệu thành các xu hướng (tăng, giảm, không đổi) theo thời gian
Hơn thế nữa, lãnh vực máy học đã cung cấp nhiều phương pháp để giải quyết vấn đề dự đoán như mạng nơ-ron nhân tạo (Artificial Neural Network - ANN), logic mờ, máy vector hỗ trợ (Support Vector Machine - SVM) và các phương pháp Trí tuệ nhân tạo khác Từ những nghiên cứu trước đây cho thấy SVM cho ra kết quả hơn hẳn các phương pháp khác Phương pháp hồi quy vector hỗ trợ (Support Vector Regression - SVR) là một phương pháp dựa trên nền tảng mô hình hồi quy (Regression-Based Model) kết hợp với SVM Phương pháp này lại có khả năng chịu lỗi cao và cho ra kết quả chính xác cao hơn trong các bài toán phức tạp [14] Chính
vì vậy tôi muốn xây dựng một phương pháp phân đoạn mới kết hợp với SVR để xây dụng các hệ thống dự báo trong tài chính
Mục tiêu nghiên cứu:
Đề tài tập trung nghiên cứu thời điểm mua bán chứng khoán bằng sự hỗ trợ của dữ liệu giá trong quá khứ và các phương pháp máy học (SVM) Hay nói cách khác là sẽ giúp nhà đầu tư ra quyết định mua hoặc bán trong từng thời điểm mà quyết định đó mang lại hiệu quả đầu tư lớn nhất
Đối tượng nghiên cứu:
Nghiên cứu và cài đặt các thuật toán phân đoạn dữ liệu TBSM (Trend-Based Segmentation Method), thuật toán BMA (Bayesian Model Average) và thuật toán máy học SVR
Trang 13mô hình để cải tiến việc chọn ra các chỉ số phân tích kỹ thuật nào thật sự ảnh hưởng đến giá cổ phiếu, cũng như thay đổi các khoảng để quét tham số đối với kỹ thuật TBSM Theo đó, việc có được ngưỡng phù hợp cho kỹ thuật TBSM sẽ tạo được những phân đoạn giống với mô hình giá, kèm với việc sử dụng phương pháp vét cạn đối với SVR để tìm tham số (Cost, gamma) cho mô hình có độ lỗi thấp nhất
Mô hình dự báo chứng khoán của chúng tôi có tính thực tiễn tại thị trường Việt Nam rất cao
Trang 14Chương 1 TỔNG QUAN
1.1 Tình hình nghiên cứu
Dự đoán chứng khoán là một chủ đề thu hút sự quan tâm của nhiều chuyên gia Có nhiều phương pháp dự đoán đã được phát triển để dự đoán thời điểm mua bán chứng khoán cũng như dự báo xu thế biến động giá cổ phiếu, thị trường hoặc tìm kiếm các chứng khoán tiềm năng Bên cạnh phân tích kỹ thuật và phân tích cơ bản là hai phương pháp tài chính truyền thống, lĩnh vực nghiên cứu trí tuệ nhân tạo trong Công nghệ thông tin đã cho ra đời nhiều phương pháp phân tích khác có khả năng áp dụng vào dự đoán chứng khoán Cụ thể đã có nhiều công trình trong và ngoài nước nghiên cứu về các phương pháp này
1.1.1 Các nghiên cứu ngoài nước
Hiện nay trên thế giới đã có khá nhiều công trình nghiên cứu liên quan đến dự đoán thị trường chứng khoán và cụ thể đã có nhiều nghiên cứu về dự đoán thời điểm mua bán cổ phiếu Vào năm 2000, nhóm tác giả Trafalis và cộng sự [15] đã nghiên cứu và ứng dụng SVR để xây dựng mô hình dự đoán thời điểm mua bán cổ phiếu Mục đích chính của nghiên cứu này là so sánh kết quả của SVR với các mô hình khác như ANN và RBF(Radial Basis Function) và kết quả thử nghiệm trên 3
mã cổ phiếu của thị trường Mỹ là IBM, Yahoo và AOL đã cho thấy SVR có độ lỗi MSE nhỏ hơn ANN
Kwoon và Moon [16] dùng mô hình lai NN và GA áp dụng trên 36 mã cổ phiếu của công ty trên sàn NYSE và NASDAQ trong 13 năm cho thấy hiệu suất mô hình tốt hơn đáng kể so với chiến thuật “mua và giữ”
Teixeira và Oliveira [16] đã kết hợp phân tích kỹ thuật và thuật toán láng giềng gần nhất (k-NN) Cụ thể, nhóm tác giả đã xây dựng và so sánh kết quả của các mô hình k-NN, k-NN+stop loss, k-NN+stop gain, k-NN+stop loss+stop gain, k-NN+stop loss+stop gain+RSI-filter Các mô hình của nhóm tác giả có lợi nhuận đạt được tốt hơn chiến thuật “mua và giữ” với 12 trong 15 cổ phiếu được thực nghiệm
Trang 15Cụ thể mô hình k-NN+stop loss và k-NN+stop loss+stop gain+RSI-filter cho lợi nhuận cao nhất
Pei-Chann Chang và cộng sự [14] cũng đề xuất mô hình sử dụng phương pháp phân đoạn chuỗi dữ liệu thời gian là IPLR-BPN với lợi nhuận trung bình của 7 mã
cổ phiếu đã chọn trên sàn NASDAQ 12.32%
Ngoài ra, còn có nhiều nghiên cứu xây dựng mô hình kết hợp giữa phương pháp máy học và các kỹ thuật trí tuệ nhân tạo như Huang và Wu [13] sử dụng GA
để chọn các đặc trưng đầu vào kết hợp với SVM, Huang và Tsai [12] dùng kỹ thuật gom cụm SOFM kết hợp SVR
1.1.2 Các nghiên cứu trong nước
Hiện nay trong nước cũng có nhiều nghiên cứu trong lãnh vực dự đoán thị trường chứng khoán như nhóm tác giả Long Van và cộng sự [1] đã ứng dụng một phương pháp kết hợp giữa K-Means và SVM với ước lượng xác suất lớp, gọi là K-SVMeans thực hiện ở chu kỳ 1 ngày và chu kỳ 5 ngày tiếp theo trên 6 mã cổ phiếu
ở thị trường Việt Nam và kết quả cho thấy phương pháp K-SVMeans có độ chính xác cao hơn so với BPNN truyền thống, bộ phân lớp SVM và SVM với ước lượng xác suất
Tác giả Kien Tran và cộng sự [2] đề xuất phương pháp lai giữa thuật giải di truyền GA và hồi qui véc tơ hỗ trợ SVR để dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam Với đặc trưng đầu vào là các chỉ số phân tích kỹ thuật khác nhau, nhiệm vụ của GA là chọn ra các chỉ số quan trọng nhất Đồng thời, GA cũng được dùng để xác định bộ tham số tối ưu cho SVR Sau đó, các chỉ số được chọn và
bộ tham số tối ưu SVR sẽ được sử dụng để huấn huyện SVR và cho ra mô hình dự đoán Kết quả thử nghiệm trên 4 mã cổ phiếu Việt Nam, Hit Rate trung bình của phương pháp lai GA-SVR đạt 65.15% cho thấy khả năng ứng dụng thực tế của phương pháp này trên thị trường chứng khoán Việt Nam
Hầu hết các nghiên cứu trên đều tập trung vào giá cổ phiếu và dữ liệu quá khứ của giá, tuy nhiên có một hướng tiếp cận khác là dự đoán dựa vào các tin tức thông thường hoặc các tin tức tài chính, điển hình là nghiên cứu của Ngoc Trinh [3] bằng
Trang 16việc sử dụng tập dữ liệu mạng xã hội Twitter kết hợp với SVR để xây dựng mô hình
dự đoán, kế đó là đề tài của Tung Nguyen [4] sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân quả dự đoán xu hướng chỉ số chứng khoán dựa trên phân tích tâm trạng từ phương tiện xã hội, ngoài ra còn có nhiều đề tài nghiên cứu khác Hầu hết các nghiên cứu tại Việt Nam chủ yếu tập trung dự báo giá và xu hướng, và rất ít các nghiên cứu về dự báo thời điểm mua bán chứng khoán trên thị trường Việt Nam Vì thế, chúng chúng tôi hy vọng đề tài nghiên cứu của mình sẽ có
ý nghĩa thực tiễn cao và hỗ trợ được các nhà đầu tư ra quyết định giao dịch chứng khoán với lợi nhuận đạt được cao nhất có thể và hạn chế được nhiều rủi ro nhất
1.2 Mục tiêu của đề tài
Sự biến động giả cổ phiếu trên thị trường chứng khoán Việt Nam diễn ra rất khó lường, có những thời điểm chỉ số VNIndex tụt dốc thể thảm nhưng cũng có khí tăng đến mức khó tin Chính vì lẽ đó, hiện có khá ít các công trình nghiên cứu và xây dựng mô hình dự đoán thời điểm mua bán cổ phiếu
Mục tiêu của đề tài sẽ tập trung vào nghiên cứu và xây dựng mô hình bằng kỹ thuật máy học để đự đoán các thời điểm mua bán cổ phiếu sao cho lợi nhuận cao nhất có thể trên thị trường chứng khoán Việt Nam
Cụ thể trước tiên tập trung vào nghiên cứu mô hình TBSM-SVR được tác giả Pei-Chann Chang và cộng sự [15] xây dựng, sau đó cải tiến mô hình này sau cho phù hợp với mô hình chứng khoán Việt Nam
Ý nghĩ thực tiễn của mô hình chính là sự hỗ trợ được các nhà đầu tư ra quyết định giao dịch chứng khoán với lợi nhuận đạt được cao nhất có thể và hạn chế rủi ro
ở mức thấp nhất
1.3 Đối tượng nghiên cứu:
Nghiên cứu và cài đặt các thuật toán phân đoạn dữ liệu TBSM (Trend-Based Segmentation Method), thuật toán BMA (Bayesian Model Average) và thuật toán
máy học SVR
Trang 17Mô hình dự báo chứng khoán của chúng tôi có tính thực tiễn tại thị trường Việt Nam rất cao
1.6 Bố cục của đề tài
Nội dung của đề tài được chia làm 5 phần:
Chương 1 Tổng quan: Khảo sát tình hình nghiên cứu trong và ngoài nước về
bài toán xây dựng mô hình nghiên cứu thời điểm mua bán cổ phiếu Từ đó đưa ra
mục tiêu và hướng tiếp cận của đề tài
Trang 18Chương 2 Cơ sở lý thuyết: Trình bày kiến thức cơ bản về thị trường chứng
khoán, cổ phiếu và cơ sở lý thuyết của kỹ thuật máy học được sử dụng trong đề tài
Chương 3 Mô hình dự đoán thời điểm mua bán cổ phiếu đề xuất: Trình
bày mô hình đề xuất để giải quyết bài toán dự đoán thời điểm mua bán trên thị
trường chứng khoán Việt Nam
Chương 4 Kết quả thực nghiệm: Trình bày về dữ liệu thử nghiệm, kịch bản
thử nghiệm và kết quả thu được Từ đó đưa ra nhận xét, đánh giá về mô hình đề xuất
Chương 5 Kết luận và hướng phát triển: Tổng kết những kết quả đạt được
và hướng phát triển trong tương lai
Trang 19
Chương 2 CƠ SỞ LÝ THUYẾT
2.1 Giới thiệu
Nội dung của chương này có 4 phần chính:
- Thứ nhất là kiến thức cơ bản về thị trường chứng khoán (TTCK) nói chung
và cổ phiếu nói riêng Cụ thể là các khái niệm về TTCK, cổ phiếu và các chỉ số kỹ thuật trong chứng khoán được sử dụng trong đề tài
- Thứ hai, trình bày về cơ sở lý thuyết của phương pháp phân đoạn dữ liệu theo xu hướng TBSM
- Thứ ba, giới thiệu sơ bộ về phương pháp chọn lọc thuộc tính tương quan BMA để chọn lọc các chỉ số kỹ thuật có tương quan đến giá cổ phiếu
- Cuối cùng là lý thuyết của phương pháp hồi quy véc-tơ hỗ trợ SVR được dùng để huấn luyện dữ liệu
2.2 Kiến thức cơ bản về thị trường chứng khoán và cổ phiếu
2.2.1 Các khái niệm cơ bản
Thị trường chứng khoán
TTCK trong điều kiện của nền kinh tế hiện đại được quan niệm là nơi diễn ra các hoạt động trao đổi, mua bán, chuyển nhượng các loại chứng khoán, qua đó thay đổi chủ thể nắm giữ chứng khoán
TTCK là một bộ phận quan trọng của Thị trường vốn, hoạt động của nó nhằm huy động những nguồn vốn tiết kiệm nhỏ trong xã hội tập trung thành nguồn vốn lớn tài trợ cho doanh nghiệp, các tổ chức kinh tế và Chính phủ để phát triển sản xuất, tăng trưởng kinh tế hay cho các dự án đầu tư
Ví dụ: TTCK New York (NYSE), TTCK Thành phố Hồ Chí Minh (HOSE), TTCK Hà Nội (HNX)…
Chức năng cơ bản của TTCK:
o Huy động vốn đầu tư cho nền kinh tế
o Cung cấp môi trường đầu tư cho công chúng
Trang 20o Tạo môi trường giúp Chính phủ thực hiện các chính sách kinh tế vĩ mô
o Tạo tính thanh khoản cho các chứng khoán
o Đánh giá hoạt động của các doanh nghiệp
Cổ phiếu
Khi môt công ty gọi vốn, số vốn cần gọi đó được chia thành nhiều phần nhỏ bằng nhau gọi là cổ phần Người mua cổ phần được gọi là cổ đông Cổ đông được cấp một giấy chứng nhận sở hữu cổ phần gọi là cổ phiếu và chỉ có công ty cổ phần mới phát hành cổ phiếu Như vậy, cổ phiếu chính là một chứng thư chứng minh quyền sở hữu của một cổ đông đối với một công ty cổ phần và cổ đông là người có
cổ phần thể hiện bằng cổ phiếu
Vai trò của TTCK
TTCK đang đóng vai trò ngày càng quan trọng trong nền kinh tế các nước trên thế giới Khi nền kinh tế hàng hóa phát triển đến một mức độ nhất định sẽ cần tới TTCK để hỗ trợ cho quá trình phát triển
Sự phát triển mạnh mẽ của thị TTCK có tác động tích cực tới sự phát triển của các quốc gia Thực tế cho thấy TTCK đã thúc đẩy phát triển kinh tế ở nhiều nước một cách có hiệu quả thông qua việc góp phần tạo ra vốn khả dụng
Các yếu tố ảnh hưởng đến TTCK, giá cổ phiếu
Môi trường chính trị cũng có ảnh hưởng đến TTCK, xã hội luôn có những tác động nhất định đến hoạt động của TTCK Yếu tố chính trị bao gồm những thay đổi
về chính phủ và các hoạt động chính trị Tuy nhiên ở nước ta tình hình chính trị tương đối ổn định nên ta có thể bỏ qua yếu tố này
Môi trường xã hội và pháp luật : hệ thống chính sách có tác động rất lớn đến bản thân TTCK và hoạt động của các doanh nghiệp Mỗi thay đổi chính sách có thể kéo theo các tác động làm giá chứng khoán tăng hoặc giảm, nhất là những thời điểm nhạy cảm
Tỷ giá hối đoái có tác động đến TTCK trên cả 2 góc độ là môi trường tài chính và chính bản thân hoạt động kinh doanh của doanh nghiệp, đặc biệt là những doanh nghiệp nhập nguyên liêu hay tiêu thụ sản phẩm ở nước ngoài
Trang 21Lạm phát là sự mất giá của đồng tiền, nó làm thay đổi hành vi tiêu dùng và tiết kiệm của dân cư và doanh nghiệp Tỷ lệ lạm phát không hợp lý sẽ gây khó khăn cho hoạt động sản xuất kinh doanh, ngăn cản sự tăng trưởng và đổi mới của doanh nghiệp
Lạm phát tăng thường là dấu hiệu cho thấy sự tăng trưởng của nền kinh tế sẽ không bền vững, lãi suất sẽ tăng lên, khả năng thu lợi nhuận của doanh nghiệp bị hạ thấp khiến giá cổ phiếu giảm Lạm phát càng thấp thì càng có nhiều khả năng cổ phiếu sẽ tăng giá và ngược lại
Thông thường, giá cổ phiếu có xu hướng tăng khi nền kinh tế phát triển tốt và
có xu hướng giảm khi nền kinh tế giảm sút Như vậy, nếu dự đoán được xu hướng phát triển của nền kinh tế thì có thể dự đoán được xu hướng phát triển chung của TTCK Vì vậy việc dự đoán tình hình kinh tế để xem xét các ảnh hưởng của nó đến giá chứng khoán cũng rất quan trọng đến các nhà đầu tư
Lãi suất trái phiếu Chỉnh phủ được coi là lãi suất chuẩn, nhưng thay đổi trong lãi suất trái phiếu Chính phủ sẽ làm ảnh hưởng tới giá chứng khoán, khi lãi suất tăng làm cho giá của các loại chứng khoán giảm xuống, ngược lại lãi suất chuẩn giảm lại làm cho giá của chứng khoán tăng lên
2.2.2 Nguyên tắc hoạt động của TTCK
Nguyên tắc tập trung: Các giao dịch chứng khoán chỉ diễn ra trên sở giao
dịch và trên thị trường OTC dưới sự kiểm tra giám sát của cơ quan quản lý nhà nước và các tổ chức tự quản
Nguyên tắc trung gian: Nguyên tắc này có nghĩa là các giao dịch chứng
khoán được thực hiện thông qua tổ chức trung gian là các công ty chứng khoán Trên thị trường sơ cấp, các nhà đầu tư không mua trực tiếp của nhà phát hành mà mua từ các nhà bảo lãnh phát hành Trên thị trường thứ cấp, thông qua các nghiệp
vụ môi giới, kinh doanh, các công ty chứng khoán mua, bán chứng khoán giúp các khách hàng, hoặc kết nối các khách hàng với nhau qua việc thực hiện các giao dịch mua bán chứng khoán trên tài khoản của mình
Trang 22Nguyên tắc cạnh tranh: Theo nguyên tắc này, giá cả trên TTCK phản ánh
quan hệ cung cầu về chứng khoán và thể hiện tương quan cạnh tranh giữa các công
ty Trên thị trường sơ cấp, các nhà phát hành cạnh tranh với nhau để bán chứng khoán của mình cho các nhà đầu tư, các nhà đầu tư được tự do lựa chọn các chứng khoán theo các mục tiêu của mình Trên thị trường thứ cấp, các nhà đầu tư cũng cạnh tranh tự do để tìm kiếm cho mình một lợi nhuận cao nhất, và giá cả được hình
thành theo phương thức đấu giá
Nguyên tắc công bằng: Công bằng có nghĩa là mọi người tham gia thị trường
đều phải tuân thủ những qui định chung, được bình đẳng trong việc chia sẻ thông tin và trong việc gánh chịu các hình thức xử phạt nếu vi phạm vào những qui định
đó
Nguyên tắc công khai: Chứng khoán là loại hàng hoá trừu tượng nên TTCK
phải được xây dựng trên cơ sở hệ thống công bố thông tin tốt Theo luật định, các tổ chức phát hành có nghĩa vụ phải cung cấp thông tin đầy đủ theo chế độ thường xuyên và đột xuất thông qua các phương tiện thông tin đại chúng, Sở giao dịch, các công ty chứng khoán và các tổ chức có liên quan
2.2.3 Các chỉ số kỹ thuật
Phần này sẽ trình bày về các chỉ số phân tích kỹ thuật được sử dụng trong đề tài Có rất nhiều loại chỉ số kỹ thuật, có chỉ số chỉ dùng giá đóng cửa để tính, và ngược lại Chúng đều có những quyết định mua bán khác nhau gọi là tín hiệu giao dịch
Đề tài sử dụng 5 loại chỉ số kỹ thuật cần thiết cho nghiên cứu này là SMA, MACD, RSI, Stochatics, Williams %R và khối lượng giao dịch Đây là những loại chỉ số kỹ thuật được ưa chuộng nhất với các nhà đầu tư
Mỗi chỉ số kỹ thuật đều có ưu và nhược điểm Ví dụ, SMA và MACD là chỉ số
xu hướng, vì vậy chúng được dùng với những cổ phiếu tăng và giảm trong chu kỳ dài hạn Một cách khác, RSI, Stochastic, Williams %R là loại chỉ số dao động, nên chúng dùng với những cổ phiếu mà giá nó lên xuống trong thời gian ngắn
Trang 23Đường trung bình MA
Đường trung bình làm phẳng hoạt động biến động giá theo thời gian Tức nMA là giá trị trung bình của giá đóng trong thời gian n Giống như mọi chỉ số kỹ thuật khác, MA dùng để dự báo giá chứng khoán trong tương lai Nhìn vào độ dốc cũng như sự giao nhau của các đường trung bình bạn cũng có thể đoán giá biến đổi như thế nào Đường trung bình làm phẳng hoạt động giá Có nhiều đường trung bình và mỗi đường có cách làm phẳng khác nhau Nhìn chung, đường trung bình phẳng hơn thì phản ánh mức biến động giá chậm hơn nhưng tránh được các xung gây nhiễu và tránh sai lầm Thế nhưng, do nó phản ánh chậm nên có thể làm ta nhận
ra các tín hiệu tốt bị trễ và bỏ lỡ các cơ hội Đường trung bình ngắn ngày hơn thì phản ánh giá nhanh hơn Nhưng vì phản ứng nhanh hơn nên dễ bị các tín hiệu gây nhiễu làm ảnh hưởng đến việc dự đoán xu hướng
Có nhiều loại đường trung bình, trong đó hai loại thong dụng nhất là SMA(Simple Moving Average) và EMA(Exponential Moving Average)
Hình 2.1 Minh họa đường trung bình động đơn giản SMA
(Nguồn: www.vietstock.com.vn )
Đường trung bình động phân kỳ hội tụ MACD
MACD đo độ chênh lệch giữa 2 đường EMA Đường MACD có giá trị dương cho biết đường EMA nhanh bên trên đường EMA chậm và đường MACD có giá trị
âm cho biết đường EMA nhanh bên dưới đường EMA chậm
MACD là chỉ báo về xung lượng đơn giản và hiệu quả nhất đang được sử dụng Đường trung bình động biến 2 chỉ báo đi theo xu hướng – đường trung bình động trở thành công cụ đo độ dao động xung lượng bằng cách lấy đường trung bình
Trang 24động ngắn hơn trừ đi đường trung bình động dài hơn Thông thường, người ta sử dụng EMA(12) làm đường trung bình ngắn hạn và EMA(26) làm đường trung bình dài hạn Đồ thị của các giá trị MACD hiển thị giao động phản ánh tương quan giữa trung bình động ngắn hạn và trung bình động dài hạn
Thông thường đồ thị này được vẽ kèm với đồ thị trung bình động EMA – 9 của chính nó và đồ thị MACD – Histogram là hiệu số giữa MACD và EMA – 9 của chính nó
MACD được tính như sau:
• MACD Histogram(p)t = MACD – Signal Line (2.3)
So với các phương pháp phân tích khác, MACD thuộc về cả 2 phương pháp phân tích xu thế và phân tích tương quan MACD vừa chỉ ra xu thế của thị trường vừa xác định các tín hiệu mua và bán trên cùng một đồ thị Khoảng cách giữa trung bình động ngắn hạn và trung bình động dài hạn thề hiện xu thế tăng hoặc giảm của thị trường
• Nếu trung bình động ngắn hạn lớn hơn dài hạn thì xu thế là tăng và MACD dương Nếu MACD dương và ngày cang lớn thì xu thế tăng ngày càng mạnh, phe
bò tót (phe tăng giá) ngày càng áp đảo
• Nếu trung bình động ngắn hạn nhỏ hơn dài hạn thì xu thế là giảm và MACD
âm Nếu MACD âm và ngày càng nhỏ thì xu thế giảm ngày càng mạnh, phe gấu (phe giảm giá) ngày càng áp đảo
• Nếu đường trung bình MACD = 0, nghĩa là MACD dài hạn gặp MACD ngắn hạn thì tại đây bắt đầu có sự đổi chiều về xu hướng
Ví dụ về MACD của giá cổ phiếu Công ty Cổ phần nhựa Đồng Nai – Doanh nhiệp
Trang 25Hình 2.2 Minh họa đường trung bình động MACD
Đường chỉ số sức mạnh tương đối RSI
Chỉ số này dùng để nhận biết trạng thái mua vượt và bán vượt trên thị trường Miền giá trị của nó là [0,100]
RSI phản ánh quan hệ giữa mức tăng và mức giảm của cổ phiếu trong một thời kỳ xác định bằng cách lấy tỷ số giá tăng trung bình và giá giảm trung bình Gọi
Trang 26Hình 2.3 Minh họa đường chỉ số sức mạnh tương đối RSI
(Nguồn: www.markets.com) Chỉ số RSI dùng để khẳng định một xu hướng hiện tại Một xu hướng tăng sẽ
là chắc chắn khi chỉ số RSI tăng trên 50 và một xu hướng giảm xảy ra khi RSI dưới ngưỡng 50 Nó cũng báo hiệu khi thị trường ở các tình huống quá mua hoặc quá bán (thường là 30 và 70) và cảnh báo những sự đảo chiều sắp tới Một tình trạng mua vào quá mức (RSI trên 70) báo hiệu hầu như không còn người mua trên thị trường,
và giá sẽ giảm vì đa số người mua trước đó sẽ kiếm lời bằng cách bán ra Còn tình trạng bán quá mức (RSI dưới 30) thì ngược lại
Đường Stochatics oscillator
Chỉ báo Stochastic là những đường chỉ sự dao động của giá dựa trên cơ sơ quan sát sau:
Khi giá tăng, giá đóng cửa có khuynh hướng tiến gần đến biên trên của một khung giá (price range)
Khi giá giảm, giá đóng cửa có khuynh hướng tiến gần đến biên dưới của một khung giá (price range)
Trang 27Stochatics dùng để định tín hiệu mua và bán vượt mức Có 2 dạng Stochastics: đường nhanh (fast Stochastic) và đường chậm (low Stochastic) Đường nhanh ảnh hưởng cực kỳ lớn đến giá, trong khi đường chậm chỉ đơn thuần là kết quả của đường nhanh Chỉ số của Stochastics có độ biến thiên từ 0 đến 100 nhưng thường dao động nhiều trong khoảng 20-80 (đây là 2 khoảng quá bán và quá mua) Stochastics được tính như sau:
%K = Giá hiện tại – Giá thấp nhất
Giá cao nhất – Giá thấp nhất∗ 100 (2.5)
Trong đó: Giá thấp nhất là giá thấp nhất trong khoảng thời gian ta xét đến, ví
dụ giá thấp nhất trong 5 ngày hoặc 10 ngày Tương tự với giá cao nhất
Chú ý: %K cắt %D ở dưới 20 hoặc trên 80 mới cho tỷ lệ chính xác cao Còn ngược lại thì tín hiệu rất nguy hiểm
Hình 2.4 Minh họa đường Stochatics oscillator
(Nguồn: www.cophieu68.vn )
Khi fast stochastic (%K) cắt low stochastic (%D) và hướng từ dưới lên thì sẽ cho tín hiệu mua, việc này có hiệu quả cao khi nằm trong vùng dưới 20 Tương tự, khi %K cắt %D ở khoảng trên 80 và đi xuống thì sẽ là tín hiệu bán ra
Trang 28Đường Williams %R
Chỉ báo Williams %R được phát triển bởi Larry Williams để thể hiện các mức siêu mua và siêu bán Chỉ báo khá giống với chỉ báo Stochastic %K, chỉ khác Williams %R sử dụng các giá trị âm dao động từ 0 đến -100
Chỉ số kỹ thuật này trái ngược với Stochastics nhưng cũng được dùng để xác định mua vượt mức, bán vượt mức
Công thức %R được tính như sau:
%R = - Giá hiện tại – Giá thấp nhất
Giá cao nhất – Giá thấp nhất∗ 100 (2.7)
Cách giải thích của William’s %R tương tự như với chỉ số dao động Stochastic ngoại trừ %R được vẽ ngược lại so với Stochastic và không được làm trơn như Stochastic
Các giá trị trong khoảng 80 đến 100% cho biết rằng chứng khoán đang trong trạng thái bán quá nhiều trong khi các giá trị trong khoảng 0 đến 20% cho biết rằng chứng khoán đang trong trạng thái mua quá nhiều
Một điểm thú vị của chỉ báo %R là khả năng đoán trước sự đảo chiều của giá chứng khoán Chỉ báo phần lớn thường hình thành các đỉnh và đi xuống một vài ngày trước khi giá chứng khoán hình thành đỉnh và đi xuống Tương tự, %R thường tạo ra các đáy và đảo chiều lên một vài ngày trước khi giá chứng khoán cũng đảo chiều đi lên
Ví dụ: Đồ thị dưới đây cho thấy cổ phiếu HBC và Williams %R 14 ngày của
nó Mũi tên mua màu xanh được vẽ ra mỗi khi %R hình thành một đáy dưới 80%
và mũi tên bán màu đỏ được vẽ ra khi %R hình thành đỉnh dưới 20 Bạn có thể thấy trong hầu hết các trường hợp tín hiệu mua xảy ra trước 1 đến 2 ngày khi giá hình thành đáy
Trang 29Hình 2.5 Minh họa đường William %R
(Nguồn: www.cophieu68.vn )
Khối lượng giao dịch
Khối lượng giao dịch được hiểu đơn giản là số lượng cổ phần (hay hợp đồng) giao dịch trong một khung thời gian cụ thể (giờ, ngày, tuần, tháng) Phân tích khối lượng giao dịch là thành phần cơ bản và rất quan trọng của phân tích kỹ thuật Khối lượng giao dịch là động lực chính tạo ra sự dịch chuyển của giá
Khối lượng giao dịch thấp cho thấy kỳ vọng không rõ ràng xuất hiện trong giai đoạn tích lũy (giá đi ngang) Khối lượng giao dịch thấp cũng xuất hiện trong giai đoạn lưỡng lự tại đáy thị trường
Khối lượng giao dịch cao thường xuất hiện khi thị trường tạo đỉnh, nghĩa là có nhiều nhà đầu tư cùng có chung kỳ vọng giá sẽ tăng cao hơn Khối lượng giao dịch cao cũng thường xuất hiện khi xu hướng mới bắt đầu (tức là giá chuyển sang có xu hướng) Trước khi thị trường tạo đáy, khối lượng giao dịch thường tăng trong giai đoạn bán hoảng loạn
Khối lượng giao dịch có thể giúp chúng ta xác định sức mạnh của xu hướng hiện tại Một xu hướng tăng mạnh thường có khối lượng giao dịch cao khi giá tăng
Trang 30và giảm xuống khi giá điều chỉnh Một xu hướng giảm mạnh thường có khối lượng giao dịch tăng khi giá giảm và giảm khi giá tăng trở lại
2.3 Phương pháp phân tích hồi quy đa biến BMA
2.3.1 Giới thiệu về BMA
Trong phần lớn các nghiên cứu khoa học đều liên quan đến tình huống đa biến, trong đó, có một biến phụ thuộc (biến đầu ra) vào một hay nhiều biến độc lập khác nhau (biến đầu vào) Do đó, vấn đề đặt ra là cần tìm ra một mô hình tối ưu nhằm loại bỏ những biến không cần thiết hay không có ý nghĩa thống kê
Một trong những thuật toán để tìm ra một mô hình tối ưu được sử dụng nhiều nhất hiện nay là BMA (Bayesian Model Average) BMA là phương pháp nhằm loại
bỏ những biến không cần thiết hay không có ý nghĩa trong dữ liệu BMA được áp dụng để xác định các thiết lập của các biến độc lập ảnh hưởng gần nhất đến biến phụ thuộc
Trong bài toán dự báo chứng khoán này, BMA được dùng để chọn ra các chỉ
số kỹ thuật có ảnh hưởng đến từng loại cổ phiếu Loại bỏ đi những chỉ số không cần thiết, tránh nhiễu thông tin dự báo và rút ngắn thời gian dự báo hơn
2.3.2 Chi tiết về BMA
X: Các chỉ số kỹ thuật; Y: tín hiệu giao dịch
Ma trận tương quan r giữa Xs và Y:
Input: Ma trận tương quan (r), giá trị ngưỡng δ
−0.5
⋮ ]
Trang 31AIC(Akaike Information Criterion) do Akaike là một kỹ sư người Nhật công bố đề nghị sử dụng chỉ số Information Criterion để chọn mô hình tối ưu Cụ thể 2 tiêu chuẩn AIC và BIC được tính như sau:
+ AIC = n log(RSSp) + 2p
+ BIC = n log(RSSp) + p logn
Trong đó,
+ n : số cỡ mẫu quan sát
+ RSS : Residual Sum Square
+ p : số thông số của mô hình
Theo BMA mô hình có AIC và BIC càng thấp thì mô hình càng tốt Thật ra không có mô hình “tốt nhất” chỉ có mô hình “tối ưu” Mô hình tối ưu là một mô hình có ít tham số và giải thích dữ liệu nhiều nhất
2.4 Phương pháp phân đoạn dữ liệu theo xu hướng TBSM
2.4.1 Giới thiệu về TBSM
Phương pháp phân đoạn TBSM (Trend-Based Segmentation Method) xem xét các thay đổi của các xu hướng giá chứng khoán (Tăng, giảm và không đổi)
2.4.2 Quy trình thực hiện thuật toán TBSM
Ý tưởng thuật toán TBSM
Ý tưởng cơ bản của TBSM là sử dụng xu hướng có giai đoạn thời gian rõ ràng Giá chứng khoán có 3 xu hướng chính: Tăng, giảm và không đổi Nhiệm vụ của thuật toán này là mô phỏng lại 3 xu hướng đó của biểu đồ giá bằng số học Với mục đích giảm thiểu tất cả những điểm gây nhiểu trong xu hướng
Tùy vào độ biến động của đồ thị giá mà TBSM phân đoạn khác nhau, việc phân đoạn này phụ thuộc vào những ngưỡng mà người dùng quy định
Trang 32Mô phỏng kết quả phân đoạn bằng thuật toán TBSM như Hình 2.7:
Hình 2.6 Mô phỏng kết quả phân đoạn bằng thuật toán TBSM
Mã giả cài đặt thuật toán TBSM
Định nghĩa: δ // giá trị ngưỡng
X_Thld // Độ chệnh lệch về thời gian trong xu hướng ngang Y_Thld // Độ chệnh lệch về giá trong xu hướng ngang
X // chuỗi thời gian
Y // giá đóng cửa của cổ phiếu
1 Hàm TBSM (T)
2 Gán T như đoạn X[1,2,…,n], Y[1,2,…,n]
3 n = 0
4 Vẽ đường thẳng (X1, Y1) và (Xn, Yn)
5 d là khoảng cách lớn nhất của đường thẳng (Xi, Yi)
6 Nếu (d > δ) thì (Xi, Yi) là điểm với khoảng cách lớn nhất
7 Vòng lặp for j = X1 : Xn
8 Nếu (|Xj – Xi| < X_Thld) và (|Yj - Yi|) < Y_Thld)
9 Point [n] = [Xi, Yj], n = n+1
10 Kết thúc;
Hình 2.7 Mã giả cài đặt thuật toán TBSM
Trang 33Quy trình thực hiện phân đoạn được mô tả trong ví dụ Hình 2.9 sau:
Hình 2.8 Ví dụ minh họa thuật toán TBSM
Cho chuỗi thời gian T = {t1,t2,…,t191} Như (a), vài điểm mua/bán đại diện như mua (4 điểm màu đỏ) và bán (6 điểm màu xanh) Theo như thuật toán TBSM,chúng ta vẽ đường thẳng S1 nối từ điểm đầu tiên đến điểm cuối cùng như (b)
và tìm khoảng cách lớn nhất tới S1 đó chính là điểm t26 Vậy S1 chia làm 2 phân đoạn gồm đường S2 là nối giữa t1 với t26 và S3 là t26 với t191 Dựa vào điểm t26 xác định điểm t16 và t56 mà nằm trong phạm vi ngưỡng Các điểm đó được xác định như xu hướng không đổi và cùng trạng thái như điểm t26 Vì vậy, đường S2 và S3 thành sẽ chuyển thành ba đường khác nhau gồm S4 nối t1 và t16, S5 là t16 nối t56, và S6 là nối giữa t56 với t191 như hình (c) Bước tiếp là lặp lại bước tương tự cho phân đoạn t56 và t191 Kết quả cuối cùng như (d) gồm hai xu hướng không đổi (đường dứt liền), một phân đoạn xu hướng tăng, và hai phân đoạn xu hướng giảm (đường liền đậm) trong chuỗi thời gian
Trang 342.5 Phương pháp hồi quy véc-tơ hỗ trợ SVR
2.5.1 Giới thiệu về SVR
Máy vectơ hỗ trợ SVM là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau Do đó SVM là một thuật toán phân loại nhị phân Với một bộ các ví
dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một
mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong không gian dùng để mô tả vấn đề Vì vậy, nhiều khi cần phải ánh xạ các điểm
dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, vì việc phân tách chúng trở nên dễ dàng hơn trong không gian đó Do đó, hiện nay người ta thường sử dụng phương pháp SVR thay cho phương pháp SVM Mục đích của phương pháp SVR là xây dựng mô hình biểu diễn mối quan hệ giữa biến phụ thuộc với các biến độc lập
Ý tưởng cơ bản của SVR là ta sẽ ánh xạ không gian đầu vào (mà nếu ta áp dụng hồi qui tuyến tính thì không hiệu quả) sang một không gian mới cao chiều hơn
mà ở đó, ta có thể áp dụng được hồi qui tuyến tính
Đặc điểm của SVR là cho ta một giải pháp thưa; nghĩa là để xây dựng được hàm hồi qui, ta không cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn luyện
Những điểm có đóng góp vào việc xây dựng hàm hồi qui được gọi là những Support Vector
Điểm mạnh của SVR là sử dụng tối ưu hóa rủi ro cấu trúc (structural risk minimization), nhờ đó mà khả năng tổng quát hóa cao, tránh overfit (ANN thì dễ bị overfit) Hơn nữa, hàm mục tiêu của SVR là hàm - convex‖, do đó điểm cực trị tìm
Trang 35được sẽ là cực trị toàn cục (hàm mục tiêu của ANN thì không như vậy, nó có nhiều điểm cực trị và dẫn dến cực trị tìm được thường là cực trị cục bộ)
𝐸(𝑦(𝑥) − 𝑡) = {|𝑦(𝑥) − 𝑡| − 0 𝑛ế𝑢 |𝑦(𝑥) − 𝑡| < nếu ngược lại (2.14)
Để hiểu thêm về SVR, ta xem Hình 2.11:
Hình 2.9 Minh họa hàm lỗi thông thường và hàm lỗi - insensitive [5]
Trong đó, đường màu xanh là hàm lỗi bậc hai thông thường; đường màu đỏ
là hàm lỗi ε-insensitive Như vậy bây giờ, ta phải minimize hàm lỗi chuẩn hóa sau:
Trang 36• Sử dụng tối ưu hóa rủi ro cấu trúc (structural risk minimization), nhờ
đó mà khả năng tổng quát hóa cao, tránh được vấn đề quá khớp
• Giải pháp tìm được là giải pháp tối ưu toàn cục
Cả 3 tham số này đều ảnh hưởng đến độ chính xác dự đoán của mô hình và cần phải chọn lựa kỹ càng
• Nếu C quá lớn thì sẽ ưu tiên vào phần độ lỗi huấn luyện, dẫn đến mô hình phức tạp, dễ bị quá khớp Còn nếu C quá nhỏ thì lại ưu tiên vào phần độ phức tạp
mô hình, dẫn đến mô hình quá đơn giản, giảm độ chính xác dự đoán
• Ý nghĩa của ε cũng tương tự C Nếu ε quá lớn thì có ít vectơ hỗ trợ, làm cho
mô hình quá đơn giản Ngược lại, nếu ε quá nhỏ thì có nhiều vectơ hỗ trợ, dẫn đến
mô hình phức tạp, dễ bị quá khớp
• Tham số γ phản ánh mối tương quan giữa các véc tơ hỗ trợ nên cũng ảnh hưởng đến độ chính xác dự đoán của mô hình
2.5.4 Xác định bộ tham số tối ưu của SVR bằng thuật toán Grid Search
Như đã trình bày ở trên, với SVR sử dụng hàm lỗi ε-insensitive và hàm nhân Gaussian ta có 3 tham số cần tìm: hệ số chuẩn hóa C, tham số của hàm nhân