1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG SVM và CHUỖI THỜI GIAN dự đoán THỜI điểm MUA bán cổ PHIẾU CHO THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

73 343 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 7,73 MB

Nội dung

Mô hình chúng tôi đề xuất nhằm cải tiến mô hình gốc TBSM-SVR của tác giả bằng cách ở giai đoạn tiền xử lý chúng tôi sử dụng phương pháp BMA thay thế phương pháp SRA để chọn các chỉ số kỹ

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRẦN QUỐC BẢO – CH1301004

LUẬN VĂN THẠC SỸ ỨNG DỤNG SVM VÀ CHUỖI THỜI GIAN DỰ ĐOÁN THỜI ĐIỂM MUA BÁN CỔ PHIẾU CHO THỊ TRƯỜNG CHỨNG

KHOÁN VIỆT NAM

THẠC SỸ NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DẪN

TS DƯƠNG MINH ĐỨC

Trang 2

Con xin cảm ơn ba mẹ đã sinh thành, nuôi dưỡng, và dạy dỗ để con có được thành quả như ngày hôm nay Ba mẹ luôn là nguồn động viên, nguồn sức mạnh hết sức lớn lao mỗi khi con gặp khó khăn trong cuộc sống

Cuối cùng, chúng tôi xin gửi lời cảm ơn chân thành đến những người bạn đã chia sẽ

và ủng hộ chúng chúng tôi trong thời gian thực hiện khóa luận

TP Hồ Chí Minh, tháng 07 năm 2017

Học viên

Trần Quốc Bảo

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan đây là công trình nghiên cứu của bản thân dưới sự hướng dẫn của Tiến sĩ Dương Minh Đức Các số liệu, kết quả trình bày trong khóa luận là trung thực Các tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn một cách rõ ràng, đầy

đủ

TP Hồ Chí Minh, tháng 07 năm 2017

Học viên

Trần Quốc Bảo

Trang 4

MỤC LỤC

Chương 1 TỔNG QUAN 5

1.1 Tình hình nghiên cứu 5

1.1.1 Các nghiên cứu ngoài nước 5

1.1.2 Các nghiên cứu trong nước 6

1.2 Mục tiêu của đề tài 7

1.3 Đối tượng nghiên cứu: 7

1.4 Phạm vi nghiên cứu: 8

1.5 Tính mới và đóng góp của đề tài: 8

1.5.1.1 Ý nghĩa khoa học: 8

1.5.1.2 Ý nghĩa thực tiễn: 8

1.6 Bố cục của đề tài 8

Chương 2 CƠ SỞ LÝ THUYẾT 10

2.1 Giới thiệu 10

2.2 Kiến thức cơ bản về thị trường chứng khoán và cổ phiếu 10

2.2.1 Các khái niệm cơ bản 10

2.2.1.1 Thị trường chứng khoán 10

2.2.1.2 Cổ phiếu 11

2.2.1.3 Vai trò của TTCK 11

2.2.2 Nguyên tắc hoạt động của TTCK 12

2.2.3 Các chỉ số kỹ thuật 13

2.2.3.1 Đường trung bình MA 14

2.2.3.2 Đường trung bình động phân kỳ hội tụ MACD 14

2.2.3.3 Đường chỉ số sức mạnh tương đối RSI 16

Trang 5

2.2.3.4 Đường Stochatics oscillator 17

2.2.3.5 Đường Williams %R 19

2.2.3.6 Khối lượng giao dịch 20

2.3 Phương pháp phân tích hồi quy đa biến BMA 21

2.3.1 Giới thiệu về BMA 21

2.3.2 Chi tiết về BMA 21

2.4 Phương pháp phân đoạn dữ liệu theo xu hướng TBSM 22

2.4.1 Giới thiệu về TBSM 22

2.4.2 Quy trình thực hiện thuật toán TBSM 22

2.4.2.1 Ý tưởng thuật toán TBSM 22

2.4.2.2 Mã giả cài đặt thuật toán TBSM 23

2.5 Phương pháp hồi quy véc-tơ hỗ trợ SVR 25

2.5.1 Giới thiệu về SVR 25

2.5.2 Mô hình SVR 26

2.5.3 Các tham số của SVR 27

2.5.4 Xác định bộ tham số tối ưu của SVR bằng thuật toán Grid Search 27

2.5.5 Ứng dụng SVR vào bài toán dự báo thời điểm mua bán chứng khoán 28

2.5.6 Kết luận 30

Chương 3 MÔ HÌNH DỰ BÁO THỜI ĐIỂM MUA BÁN CHỨNG KHOÁN ĐỀ XUẤT 31

3.1 Giới thiệu 31

3.2 Quá trình huấn luyện 32

3.3 Quá trình dự đoán 37

3.4 Kết luận 38

Trang 6

Chương 4 KẾT QUẢ THỰC NGHIỆM – ĐÁNH GIÁ 40

4.1 Giới thiệu 40

4.1.1 Mô tả dữ liệu 40

4.1.2 Độ đo chất lượng dự đoán 41

4.1.3 Mô phỏng thực hiện giao dịch: 41

4.1.4 Cài đặt 41

4.1.5 Kết quả thực nghiệm 43

4.2 Đánh giá 54

Chương 5 KẾT LUẬN – HƯỚNG PHÁT TRIỂN 61

5.1 Kết luận 61

5.1.1 Kết quả đạt được 61

5.1.2 Ý nghĩa khoa học 62

5.1.3 Ý nghĩa thực tiễn 62

5.2 Hướng phát triển 62

Trang 7

DANH MỤC HÌNH VẼ

Hình 2.1 Minh họa đường trung bình động đơn giản SMA 14

Hình 2.2 Minh họa đường trung bình động MACD 16

Hình 2.3 Minh họa đường chỉ số sức mạnh tương đối RSI 17

Hình 2.4 Minh họa đường Stochatics oscillator 18

Hình 2.5 Minh họa đường William %R 20

Hình 2.7 Mô phỏng kết quả phân đoạn bằng thuật toán TBSM 23

Hình 2.8 Mã giả cài đặt thuật toán TBSM 23

Hình 2.9 Ví dụ minh họa thuật toán TBSM 24

Hình 2.10 Minh họa hàm lỗi thông thường và hàm lỗi  - insensitive [5] 26

Hình 2.11 Minh họa mục tiêu của SVR 29

Hình 3.1 Mô hình nghiên cứu [15] 32

Hình 3.2 Sơ đồ quá trình huấn luyện 32

Hình 3.3 Minh họa dữ liệu thô ban đầu 34

Hình 3.4 Mô phỏng quá trình thực hiện TBSM 35

Hình 4.1 Mối liên hệ giữa tín hiệu giao dịch và giá trị đầu ra của SVR 43

Hình 4.2 Mô tả tần suất được chọn của các đặc trưng đầu vào 45

Hình 4.3 Tín hiệu giao dịch dự báo cho BVH và giá trị đầu ra của SVR tương ứng 46

Hình 4.4 Tín hiệu giao dịch khuyến nghị cho GMD 47

Hình 4.5 Tín hiệu giao dịch dự báo cho HHS 48

Hình 4.6 Tín hiệu giao dịch dự báo cho MBB 49

Hình 4.7 Tín hiệu giao dịch dự báo cho HVG 50

Hình 4.8 Tín hiệu giao dịch dự báo cho VNM 51

Hình 4.9 Tín hiệu giao dịch dự báo cho HHS 52

Hình 4.10 Tín hiệu giao dịch dự báo cho PVT 53

Hình 4.12 Tín hiệu giao dịch dự báo cho STB 54

Trang 8

DANH MỤC BẢNG

Bảng 3.1 Danh sách các chỉ số kỹ thuật được sử dụng trong huấn luyện dữ liệu 34

Bảng 4.1 Mô tả dữ liệu thử nghiệm 40

Bảng 4.2 Mô tả tham số cài đặt cho SVR 42

Bảng 4.3 Mô tả tham số cài đặt cho TBSM 42

Bảng 4.4 Kết quả lựa chọn các đặc trưng đầu vào bằng BMA 44

Bảng 4.5 Kết quả so sánh lợi nhuận giữa 2 mô hình và với chiến thuật mua-giữ (Việt Nam, %) trong giai đoạn 6 tháng đầu tư 55

Bảng 4.6 Lợi nhuận thu trong giai đoạn 3 tháng (Việt Nam, tính theo %) với Radial 55

Bảng 4.7 Kết quả so sánh tổng lợi nhuận với chiến thuật mua-giữ của rổ VN30 tháng (Việt Nam, %) trong 6 tháng 57

Bảng 4.8 Kết quả so sánh tổng lợi nhuận với chiến thuật mua-giữ của rổ VN30 tháng (Việt Nam, %) trong 3 tháng 59

Trang 9

DANH MỤC TỪ VIẾT TẮT

STT VIẾT

1 TTCK Thị trường chứng khoán

1 ANN Mạng nơ ron nhân tạo (Artificial Neural Network)

2 EMA Chỉ số trung bình trượt lũy thừa (Exponential Moving Average)

3 MA Chỉ số đường trung bình (Moving Average)

4 MACD Chỉ số trung bình biến đổi hội tụ, phân kỳ (Moving Average

Convergence Divergence)

5 MAE Sai số trung bình tuyệt đối (Mean Absolute Error)

6 NMSE Tối thiểu hóa trung bình độ lỗi (Normalized Mean Square Error)

7 PLR Phương pháp phân đoạn dữ liệu (Pieciewise Linear

Representation)

8 RMSE Sai số bình phương trung bình (Root Mean Square Error)

9 RSI Chỉ số sức mạnh tương đối (Relative Strength Index)

10 SMA Chỉ số trung bình trượt đơn giản (Simple Moving Average)

11 BMA Phương pháp phân tích hồi quy dựa theo thuyết thông kê Bayes

(Bayesian Model Average)

12 SVM Phương pháp máy học véc-tơ hỗ trợ (Support Vector Machine)

13 SVR Phương pháp hồi quy véc-tơ hỗ trợ (Support Vector Regression)

14 TBSM Phương pháp phân đoạn dữ liệu dựa trên xu hướng (Trend Based

Segmentation Method)

Trang 10

TÓM TẮT ĐỀ TÀI

Trong đề tài nghiên cứu này, chúng tôi dựa trên mô hình TBSM-SVR được xây dựng bởi nhóm tác giả Pei-Chann Chang, Jheng-Long Wu cùng cộng sự [15] để xây dựng mô hình dự báo thời điểm mua bán chứng khoán tại thị trường Việt Nam Mô hình chúng tôi đề xuất nhằm cải tiến mô hình gốc TBSM-SVR của tác giả bằng cách ở giai đoạn tiền xử lý chúng tôi sử dụng phương pháp BMA thay thế phương pháp SRA để chọn các chỉ số kỹ thuật chính xác hơn và thật sự có ảnh hưởng đến giá cổ phiếu nhằm cải tiến về hiệu xuất của mô hình TBSM được dùng để phân đoạn chuỗi dữ liệu thành các xu hướng, những xu hướng này kết hợp với các chỉ số

kỹ thuật được đưa vào SVR huấn luyện để khuyến nghị các điểm mua bán cho nhà đầu tư Đây là hướng nghiên cứu khá mới đối với thị trường Việt Nam Để đánh giá hiệu suất của mô hình, chúng tôi so sánh lợi nhuận thu được từ mô hình đề xuất với lợi nhuận thu được từ mô hình gốc của tác giả và đồng thời chúng tôi cũng so sánh với phương pháp mua và giữ, và kết quả thử nghiệm cho thấy, phương pháp của chúng tôi đem lại kết quả tốt hơn và phù hợp với nhu cầu của các nhà đầu tư chứng khoán

Trang 11

MỞ ĐẦU

Một trong những vấn đề quan trọng trong dự đoán xu hướng thị trường chứng khoán là nhận biết các điểm chuyển tiếp (turning points) trong khi giá cổ phiếu thay đổi liên tục Từ các điểm chuyển tiếp này các nhà đầu tư có thể quyết định mua hoặc bán sao cho lợi nhuận đạt được là cao nhất Tuy nhiên trong thực tế việc xác định các điểm chuyển tiếp này khá phức tạp vì có rất nhiều yếu tố ảnh hưởng trực tiếp cũng như gián tiếp đến sự biến động của giá cả chẳng hạn như yếu tố lãi suất ngân hàng, môi trường kinh tế, tin đồn hoặc tâm lý không vững của các nhà đầu tư… Nhờ vào sự phát triển mạnh mẽ của Công nghệ thông tin nói chung và các công cụ Tính toán thông minh (Computational Intelligence) nói riêng, các mô hình cộng tác (collaborative model) được xây dựng và phát triển để dự đoán và nhận biết các điểm chuyển tiếp dựa trên những yếu tố này và từ đó có thể giúp các nhà đầu tư đưa ra các quyết định mua hoặc bán phù hợp nhất

Trong những năm gần đây, có nhiều nghiên cứu đã gặt hái được những thành quả đáng kể nhờ việc sử dụng các phương pháp dự đoán trong lãnh vực Tính toán thông minh nhằm giảm thiểu rủi ro khi đầu tư dựa vào dữ liệu quá khứ của thị trường chứng khoán [11] [12] Trong lãnh vực tài chính, các chỉ số kỹ thuật được áp dụng để giải thích sự biến động của giá cả và được sử dụng để nhận biết các điểm chuyển tiếp như William Index hoặc Relative Strength Index… Với dự doán truyền thống, các nhà nghiên cứu tài chính thường sử dụng các mô hình toán học dự đoán giá cũng như xu hướng của cổ phiếu, nhưng những mô hình này thường không thể điểu chỉnh kịp theo những biến động của thị trường [13]

Trong vài năm lại đây, đã có vài phương pháp dựa trên chuỗi thời gian được

đề xuất, trong đó phương pháp được biết đến nhiều nhất là phương pháp Biểu diễn tuyến tính đoạn lồi - Piecewise Linear Representation (PLR) [11] [12] [13] Phương pháp này phân tách dự liệu quá khứ của cổ phiếu thành một danh sách các đoạn tăng (bottom and peak points) Tuy nhiên, phương pháp này lại không xem xét đa

xu hướng Để cải tiến phương pháp này nhằm phù hợp với thị trường, cần phải có

Trang 12

một phương pháp phân đoạn dữ liệu thành các xu hướng (tăng, giảm, không đổi) theo thời gian

Hơn thế nữa, lãnh vực máy học đã cung cấp nhiều phương pháp để giải quyết vấn đề dự đoán như mạng nơ-ron nhân tạo (Artificial Neural Network - ANN), logic mờ, máy vector hỗ trợ (Support Vector Machine - SVM) và các phương pháp Trí tuệ nhân tạo khác Từ những nghiên cứu trước đây cho thấy SVM cho ra kết quả hơn hẳn các phương pháp khác Phương pháp hồi quy vector hỗ trợ (Support Vector Regression - SVR) là một phương pháp dựa trên nền tảng mô hình hồi quy (Regression-Based Model) kết hợp với SVM Phương pháp này lại có khả năng chịu lỗi cao và cho ra kết quả chính xác cao hơn trong các bài toán phức tạp [14] Chính

vì vậy tôi muốn xây dựng một phương pháp phân đoạn mới kết hợp với SVR để xây dụng các hệ thống dự báo trong tài chính

Mục tiêu nghiên cứu:

Đề tài tập trung nghiên cứu thời điểm mua bán chứng khoán bằng sự hỗ trợ của dữ liệu giá trong quá khứ và các phương pháp máy học (SVM) Hay nói cách khác là sẽ giúp nhà đầu tư ra quyết định mua hoặc bán trong từng thời điểm mà quyết định đó mang lại hiệu quả đầu tư lớn nhất

Đối tượng nghiên cứu:

Nghiên cứu và cài đặt các thuật toán phân đoạn dữ liệu TBSM (Trend-Based Segmentation Method), thuật toán BMA (Bayesian Model Average) và thuật toán máy học SVR

Trang 13

mô hình để cải tiến việc chọn ra các chỉ số phân tích kỹ thuật nào thật sự ảnh hưởng đến giá cổ phiếu, cũng như thay đổi các khoảng để quét tham số đối với kỹ thuật TBSM Theo đó, việc có được ngưỡng phù hợp cho kỹ thuật TBSM sẽ tạo được những phân đoạn giống với mô hình giá, kèm với việc sử dụng phương pháp vét cạn đối với SVR để tìm tham số (Cost, gamma) cho mô hình có độ lỗi thấp nhất

Mô hình dự báo chứng khoán của chúng tôi có tính thực tiễn tại thị trường Việt Nam rất cao

Trang 14

Chương 1 TỔNG QUAN

1.1 Tình hình nghiên cứu

Dự đoán chứng khoán là một chủ đề thu hút sự quan tâm của nhiều chuyên gia Có nhiều phương pháp dự đoán đã được phát triển để dự đoán thời điểm mua bán chứng khoán cũng như dự báo xu thế biến động giá cổ phiếu, thị trường hoặc tìm kiếm các chứng khoán tiềm năng Bên cạnh phân tích kỹ thuật và phân tích cơ bản là hai phương pháp tài chính truyền thống, lĩnh vực nghiên cứu trí tuệ nhân tạo trong Công nghệ thông tin đã cho ra đời nhiều phương pháp phân tích khác có khả năng áp dụng vào dự đoán chứng khoán Cụ thể đã có nhiều công trình trong và ngoài nước nghiên cứu về các phương pháp này

1.1.1 Các nghiên cứu ngoài nước

Hiện nay trên thế giới đã có khá nhiều công trình nghiên cứu liên quan đến dự đoán thị trường chứng khoán và cụ thể đã có nhiều nghiên cứu về dự đoán thời điểm mua bán cổ phiếu Vào năm 2000, nhóm tác giả Trafalis và cộng sự [15] đã nghiên cứu và ứng dụng SVR để xây dựng mô hình dự đoán thời điểm mua bán cổ phiếu Mục đích chính của nghiên cứu này là so sánh kết quả của SVR với các mô hình khác như ANN và RBF(Radial Basis Function) và kết quả thử nghiệm trên 3

mã cổ phiếu của thị trường Mỹ là IBM, Yahoo và AOL đã cho thấy SVR có độ lỗi MSE nhỏ hơn ANN

Kwoon và Moon [16] dùng mô hình lai NN và GA áp dụng trên 36 mã cổ phiếu của công ty trên sàn NYSE và NASDAQ trong 13 năm cho thấy hiệu suất mô hình tốt hơn đáng kể so với chiến thuật “mua và giữ”

Teixeira và Oliveira [16] đã kết hợp phân tích kỹ thuật và thuật toán láng giềng gần nhất (k-NN) Cụ thể, nhóm tác giả đã xây dựng và so sánh kết quả của các mô hình k-NN, k-NN+stop loss, k-NN+stop gain, k-NN+stop loss+stop gain, k-NN+stop loss+stop gain+RSI-filter Các mô hình của nhóm tác giả có lợi nhuận đạt được tốt hơn chiến thuật “mua và giữ” với 12 trong 15 cổ phiếu được thực nghiệm

Trang 15

Cụ thể mô hình k-NN+stop loss và k-NN+stop loss+stop gain+RSI-filter cho lợi nhuận cao nhất

Pei-Chann Chang và cộng sự [14] cũng đề xuất mô hình sử dụng phương pháp phân đoạn chuỗi dữ liệu thời gian là IPLR-BPN với lợi nhuận trung bình của 7 mã

cổ phiếu đã chọn trên sàn NASDAQ 12.32%

Ngoài ra, còn có nhiều nghiên cứu xây dựng mô hình kết hợp giữa phương pháp máy học và các kỹ thuật trí tuệ nhân tạo như Huang và Wu [13] sử dụng GA

để chọn các đặc trưng đầu vào kết hợp với SVM, Huang và Tsai [12] dùng kỹ thuật gom cụm SOFM kết hợp SVR

1.1.2 Các nghiên cứu trong nước

Hiện nay trong nước cũng có nhiều nghiên cứu trong lãnh vực dự đoán thị trường chứng khoán như nhóm tác giả Long Van và cộng sự [1] đã ứng dụng một phương pháp kết hợp giữa K-Means và SVM với ước lượng xác suất lớp, gọi là K-SVMeans thực hiện ở chu kỳ 1 ngày và chu kỳ 5 ngày tiếp theo trên 6 mã cổ phiếu

ở thị trường Việt Nam và kết quả cho thấy phương pháp K-SVMeans có độ chính xác cao hơn so với BPNN truyền thống, bộ phân lớp SVM và SVM với ước lượng xác suất

Tác giả Kien Tran và cộng sự [2] đề xuất phương pháp lai giữa thuật giải di truyền GA và hồi qui véc tơ hỗ trợ SVR để dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam Với đặc trưng đầu vào là các chỉ số phân tích kỹ thuật khác nhau, nhiệm vụ của GA là chọn ra các chỉ số quan trọng nhất Đồng thời, GA cũng được dùng để xác định bộ tham số tối ưu cho SVR Sau đó, các chỉ số được chọn và

bộ tham số tối ưu SVR sẽ được sử dụng để huấn huyện SVR và cho ra mô hình dự đoán Kết quả thử nghiệm trên 4 mã cổ phiếu Việt Nam, Hit Rate trung bình của phương pháp lai GA-SVR đạt 65.15% cho thấy khả năng ứng dụng thực tế của phương pháp này trên thị trường chứng khoán Việt Nam

Hầu hết các nghiên cứu trên đều tập trung vào giá cổ phiếu và dữ liệu quá khứ của giá, tuy nhiên có một hướng tiếp cận khác là dự đoán dựa vào các tin tức thông thường hoặc các tin tức tài chính, điển hình là nghiên cứu của Ngoc Trinh [3] bằng

Trang 16

việc sử dụng tập dữ liệu mạng xã hội Twitter kết hợp với SVR để xây dựng mô hình

dự đoán, kế đó là đề tài của Tung Nguyen [4] sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân quả dự đoán xu hướng chỉ số chứng khoán dựa trên phân tích tâm trạng từ phương tiện xã hội, ngoài ra còn có nhiều đề tài nghiên cứu khác Hầu hết các nghiên cứu tại Việt Nam chủ yếu tập trung dự báo giá và xu hướng, và rất ít các nghiên cứu về dự báo thời điểm mua bán chứng khoán trên thị trường Việt Nam Vì thế, chúng chúng tôi hy vọng đề tài nghiên cứu của mình sẽ có

ý nghĩa thực tiễn cao và hỗ trợ được các nhà đầu tư ra quyết định giao dịch chứng khoán với lợi nhuận đạt được cao nhất có thể và hạn chế được nhiều rủi ro nhất

1.2 Mục tiêu của đề tài

Sự biến động giả cổ phiếu trên thị trường chứng khoán Việt Nam diễn ra rất khó lường, có những thời điểm chỉ số VNIndex tụt dốc thể thảm nhưng cũng có khí tăng đến mức khó tin Chính vì lẽ đó, hiện có khá ít các công trình nghiên cứu và xây dựng mô hình dự đoán thời điểm mua bán cổ phiếu

Mục tiêu của đề tài sẽ tập trung vào nghiên cứu và xây dựng mô hình bằng kỹ thuật máy học để đự đoán các thời điểm mua bán cổ phiếu sao cho lợi nhuận cao nhất có thể trên thị trường chứng khoán Việt Nam

Cụ thể trước tiên tập trung vào nghiên cứu mô hình TBSM-SVR được tác giả Pei-Chann Chang và cộng sự [15] xây dựng, sau đó cải tiến mô hình này sau cho phù hợp với mô hình chứng khoán Việt Nam

Ý nghĩ thực tiễn của mô hình chính là sự hỗ trợ được các nhà đầu tư ra quyết định giao dịch chứng khoán với lợi nhuận đạt được cao nhất có thể và hạn chế rủi ro

ở mức thấp nhất

1.3 Đối tượng nghiên cứu:

Nghiên cứu và cài đặt các thuật toán phân đoạn dữ liệu TBSM (Trend-Based Segmentation Method), thuật toán BMA (Bayesian Model Average) và thuật toán

máy học SVR

Trang 17

Mô hình dự báo chứng khoán của chúng tôi có tính thực tiễn tại thị trường Việt Nam rất cao

1.6 Bố cục của đề tài

Nội dung của đề tài được chia làm 5 phần:

Chương 1 Tổng quan: Khảo sát tình hình nghiên cứu trong và ngoài nước về

bài toán xây dựng mô hình nghiên cứu thời điểm mua bán cổ phiếu Từ đó đưa ra

mục tiêu và hướng tiếp cận của đề tài

Trang 18

Chương 2 Cơ sở lý thuyết: Trình bày kiến thức cơ bản về thị trường chứng

khoán, cổ phiếu và cơ sở lý thuyết của kỹ thuật máy học được sử dụng trong đề tài

Chương 3 Mô hình dự đoán thời điểm mua bán cổ phiếu đề xuất: Trình

bày mô hình đề xuất để giải quyết bài toán dự đoán thời điểm mua bán trên thị

trường chứng khoán Việt Nam

Chương 4 Kết quả thực nghiệm: Trình bày về dữ liệu thử nghiệm, kịch bản

thử nghiệm và kết quả thu được Từ đó đưa ra nhận xét, đánh giá về mô hình đề xuất

Chương 5 Kết luận và hướng phát triển: Tổng kết những kết quả đạt được

và hướng phát triển trong tương lai

Trang 19

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 Giới thiệu

Nội dung của chương này có 4 phần chính:

- Thứ nhất là kiến thức cơ bản về thị trường chứng khoán (TTCK) nói chung

và cổ phiếu nói riêng Cụ thể là các khái niệm về TTCK, cổ phiếu và các chỉ số kỹ thuật trong chứng khoán được sử dụng trong đề tài

- Thứ hai, trình bày về cơ sở lý thuyết của phương pháp phân đoạn dữ liệu theo xu hướng TBSM

- Thứ ba, giới thiệu sơ bộ về phương pháp chọn lọc thuộc tính tương quan BMA để chọn lọc các chỉ số kỹ thuật có tương quan đến giá cổ phiếu

- Cuối cùng là lý thuyết của phương pháp hồi quy véc-tơ hỗ trợ SVR được dùng để huấn luyện dữ liệu

2.2 Kiến thức cơ bản về thị trường chứng khoán và cổ phiếu

2.2.1 Các khái niệm cơ bản

Thị trường chứng khoán

TTCK trong điều kiện của nền kinh tế hiện đại được quan niệm là nơi diễn ra các hoạt động trao đổi, mua bán, chuyển nhượng các loại chứng khoán, qua đó thay đổi chủ thể nắm giữ chứng khoán

TTCK là một bộ phận quan trọng của Thị trường vốn, hoạt động của nó nhằm huy động những nguồn vốn tiết kiệm nhỏ trong xã hội tập trung thành nguồn vốn lớn tài trợ cho doanh nghiệp, các tổ chức kinh tế và Chính phủ để phát triển sản xuất, tăng trưởng kinh tế hay cho các dự án đầu tư

Ví dụ: TTCK New York (NYSE), TTCK Thành phố Hồ Chí Minh (HOSE), TTCK Hà Nội (HNX)…

Chức năng cơ bản của TTCK:

o Huy động vốn đầu tư cho nền kinh tế

o Cung cấp môi trường đầu tư cho công chúng

Trang 20

o Tạo môi trường giúp Chính phủ thực hiện các chính sách kinh tế vĩ mô

o Tạo tính thanh khoản cho các chứng khoán

o Đánh giá hoạt động của các doanh nghiệp

Cổ phiếu

Khi môt công ty gọi vốn, số vốn cần gọi đó được chia thành nhiều phần nhỏ bằng nhau gọi là cổ phần Người mua cổ phần được gọi là cổ đông Cổ đông được cấp một giấy chứng nhận sở hữu cổ phần gọi là cổ phiếu và chỉ có công ty cổ phần mới phát hành cổ phiếu Như vậy, cổ phiếu chính là một chứng thư chứng minh quyền sở hữu của một cổ đông đối với một công ty cổ phần và cổ đông là người có

cổ phần thể hiện bằng cổ phiếu

Vai trò của TTCK

TTCK đang đóng vai trò ngày càng quan trọng trong nền kinh tế các nước trên thế giới Khi nền kinh tế hàng hóa phát triển đến một mức độ nhất định sẽ cần tới TTCK để hỗ trợ cho quá trình phát triển

Sự phát triển mạnh mẽ của thị TTCK có tác động tích cực tới sự phát triển của các quốc gia Thực tế cho thấy TTCK đã thúc đẩy phát triển kinh tế ở nhiều nước một cách có hiệu quả thông qua việc góp phần tạo ra vốn khả dụng

Các yếu tố ảnh hưởng đến TTCK, giá cổ phiếu

Môi trường chính trị cũng có ảnh hưởng đến TTCK, xã hội luôn có những tác động nhất định đến hoạt động của TTCK Yếu tố chính trị bao gồm những thay đổi

về chính phủ và các hoạt động chính trị Tuy nhiên ở nước ta tình hình chính trị tương đối ổn định nên ta có thể bỏ qua yếu tố này

Môi trường xã hội và pháp luật : hệ thống chính sách có tác động rất lớn đến bản thân TTCK và hoạt động của các doanh nghiệp Mỗi thay đổi chính sách có thể kéo theo các tác động làm giá chứng khoán tăng hoặc giảm, nhất là những thời điểm nhạy cảm

Tỷ giá hối đoái có tác động đến TTCK trên cả 2 góc độ là môi trường tài chính và chính bản thân hoạt động kinh doanh của doanh nghiệp, đặc biệt là những doanh nghiệp nhập nguyên liêu hay tiêu thụ sản phẩm ở nước ngoài

Trang 21

Lạm phát là sự mất giá của đồng tiền, nó làm thay đổi hành vi tiêu dùng và tiết kiệm của dân cư và doanh nghiệp Tỷ lệ lạm phát không hợp lý sẽ gây khó khăn cho hoạt động sản xuất kinh doanh, ngăn cản sự tăng trưởng và đổi mới của doanh nghiệp

Lạm phát tăng thường là dấu hiệu cho thấy sự tăng trưởng của nền kinh tế sẽ không bền vững, lãi suất sẽ tăng lên, khả năng thu lợi nhuận của doanh nghiệp bị hạ thấp khiến giá cổ phiếu giảm Lạm phát càng thấp thì càng có nhiều khả năng cổ phiếu sẽ tăng giá và ngược lại

Thông thường, giá cổ phiếu có xu hướng tăng khi nền kinh tế phát triển tốt và

có xu hướng giảm khi nền kinh tế giảm sút Như vậy, nếu dự đoán được xu hướng phát triển của nền kinh tế thì có thể dự đoán được xu hướng phát triển chung của TTCK Vì vậy việc dự đoán tình hình kinh tế để xem xét các ảnh hưởng của nó đến giá chứng khoán cũng rất quan trọng đến các nhà đầu tư

Lãi suất trái phiếu Chỉnh phủ được coi là lãi suất chuẩn, nhưng thay đổi trong lãi suất trái phiếu Chính phủ sẽ làm ảnh hưởng tới giá chứng khoán, khi lãi suất tăng làm cho giá của các loại chứng khoán giảm xuống, ngược lại lãi suất chuẩn giảm lại làm cho giá của chứng khoán tăng lên

2.2.2 Nguyên tắc hoạt động của TTCK

Nguyên tắc tập trung: Các giao dịch chứng khoán chỉ diễn ra trên sở giao

dịch và trên thị trường OTC dưới sự kiểm tra giám sát của cơ quan quản lý nhà nước và các tổ chức tự quản

Nguyên tắc trung gian: Nguyên tắc này có nghĩa là các giao dịch chứng

khoán được thực hiện thông qua tổ chức trung gian là các công ty chứng khoán Trên thị trường sơ cấp, các nhà đầu tư không mua trực tiếp của nhà phát hành mà mua từ các nhà bảo lãnh phát hành Trên thị trường thứ cấp, thông qua các nghiệp

vụ môi giới, kinh doanh, các công ty chứng khoán mua, bán chứng khoán giúp các khách hàng, hoặc kết nối các khách hàng với nhau qua việc thực hiện các giao dịch mua bán chứng khoán trên tài khoản của mình

Trang 22

Nguyên tắc cạnh tranh: Theo nguyên tắc này, giá cả trên TTCK phản ánh

quan hệ cung cầu về chứng khoán và thể hiện tương quan cạnh tranh giữa các công

ty Trên thị trường sơ cấp, các nhà phát hành cạnh tranh với nhau để bán chứng khoán của mình cho các nhà đầu tư, các nhà đầu tư được tự do lựa chọn các chứng khoán theo các mục tiêu của mình Trên thị trường thứ cấp, các nhà đầu tư cũng cạnh tranh tự do để tìm kiếm cho mình một lợi nhuận cao nhất, và giá cả được hình

thành theo phương thức đấu giá

Nguyên tắc công bằng: Công bằng có nghĩa là mọi người tham gia thị trường

đều phải tuân thủ những qui định chung, được bình đẳng trong việc chia sẻ thông tin và trong việc gánh chịu các hình thức xử phạt nếu vi phạm vào những qui định

đó

Nguyên tắc công khai: Chứng khoán là loại hàng hoá trừu tượng nên TTCK

phải được xây dựng trên cơ sở hệ thống công bố thông tin tốt Theo luật định, các tổ chức phát hành có nghĩa vụ phải cung cấp thông tin đầy đủ theo chế độ thường xuyên và đột xuất thông qua các phương tiện thông tin đại chúng, Sở giao dịch, các công ty chứng khoán và các tổ chức có liên quan

2.2.3 Các chỉ số kỹ thuật

Phần này sẽ trình bày về các chỉ số phân tích kỹ thuật được sử dụng trong đề tài Có rất nhiều loại chỉ số kỹ thuật, có chỉ số chỉ dùng giá đóng cửa để tính, và ngược lại Chúng đều có những quyết định mua bán khác nhau gọi là tín hiệu giao dịch

Đề tài sử dụng 5 loại chỉ số kỹ thuật cần thiết cho nghiên cứu này là SMA, MACD, RSI, Stochatics, Williams %R và khối lượng giao dịch Đây là những loại chỉ số kỹ thuật được ưa chuộng nhất với các nhà đầu tư

Mỗi chỉ số kỹ thuật đều có ưu và nhược điểm Ví dụ, SMA và MACD là chỉ số

xu hướng, vì vậy chúng được dùng với những cổ phiếu tăng và giảm trong chu kỳ dài hạn Một cách khác, RSI, Stochastic, Williams %R là loại chỉ số dao động, nên chúng dùng với những cổ phiếu mà giá nó lên xuống trong thời gian ngắn

Trang 23

Đường trung bình MA

Đường trung bình làm phẳng hoạt động biến động giá theo thời gian Tức nMA là giá trị trung bình của giá đóng trong thời gian n Giống như mọi chỉ số kỹ thuật khác, MA dùng để dự báo giá chứng khoán trong tương lai Nhìn vào độ dốc cũng như sự giao nhau của các đường trung bình bạn cũng có thể đoán giá biến đổi như thế nào Đường trung bình làm phẳng hoạt động giá Có nhiều đường trung bình và mỗi đường có cách làm phẳng khác nhau Nhìn chung, đường trung bình phẳng hơn thì phản ánh mức biến động giá chậm hơn nhưng tránh được các xung gây nhiễu và tránh sai lầm Thế nhưng, do nó phản ánh chậm nên có thể làm ta nhận

ra các tín hiệu tốt bị trễ và bỏ lỡ các cơ hội Đường trung bình ngắn ngày hơn thì phản ánh giá nhanh hơn Nhưng vì phản ứng nhanh hơn nên dễ bị các tín hiệu gây nhiễu làm ảnh hưởng đến việc dự đoán xu hướng

Có nhiều loại đường trung bình, trong đó hai loại thong dụng nhất là SMA(Simple Moving Average) và EMA(Exponential Moving Average)

Hình 2.1 Minh họa đường trung bình động đơn giản SMA

(Nguồn: www.vietstock.com.vn )

Đường trung bình động phân kỳ hội tụ MACD

MACD đo độ chênh lệch giữa 2 đường EMA Đường MACD có giá trị dương cho biết đường EMA nhanh bên trên đường EMA chậm và đường MACD có giá trị

âm cho biết đường EMA nhanh bên dưới đường EMA chậm

MACD là chỉ báo về xung lượng đơn giản và hiệu quả nhất đang được sử dụng Đường trung bình động biến 2 chỉ báo đi theo xu hướng – đường trung bình động trở thành công cụ đo độ dao động xung lượng bằng cách lấy đường trung bình

Trang 24

động ngắn hơn trừ đi đường trung bình động dài hơn Thông thường, người ta sử dụng EMA(12) làm đường trung bình ngắn hạn và EMA(26) làm đường trung bình dài hạn Đồ thị của các giá trị MACD hiển thị giao động phản ánh tương quan giữa trung bình động ngắn hạn và trung bình động dài hạn

Thông thường đồ thị này được vẽ kèm với đồ thị trung bình động EMA – 9 của chính nó và đồ thị MACD – Histogram là hiệu số giữa MACD và EMA – 9 của chính nó

MACD được tính như sau:

• MACD Histogram(p)t = MACD – Signal Line (2.3)

So với các phương pháp phân tích khác, MACD thuộc về cả 2 phương pháp phân tích xu thế và phân tích tương quan MACD vừa chỉ ra xu thế của thị trường vừa xác định các tín hiệu mua và bán trên cùng một đồ thị Khoảng cách giữa trung bình động ngắn hạn và trung bình động dài hạn thề hiện xu thế tăng hoặc giảm của thị trường

• Nếu trung bình động ngắn hạn lớn hơn dài hạn thì xu thế là tăng và MACD dương Nếu MACD dương và ngày cang lớn thì xu thế tăng ngày càng mạnh, phe

bò tót (phe tăng giá) ngày càng áp đảo

• Nếu trung bình động ngắn hạn nhỏ hơn dài hạn thì xu thế là giảm và MACD

âm Nếu MACD âm và ngày càng nhỏ thì xu thế giảm ngày càng mạnh, phe gấu (phe giảm giá) ngày càng áp đảo

• Nếu đường trung bình MACD = 0, nghĩa là MACD dài hạn gặp MACD ngắn hạn thì tại đây bắt đầu có sự đổi chiều về xu hướng

Ví dụ về MACD của giá cổ phiếu Công ty Cổ phần nhựa Đồng Nai – Doanh nhiệp

Trang 25

Hình 2.2 Minh họa đường trung bình động MACD

Đường chỉ số sức mạnh tương đối RSI

Chỉ số này dùng để nhận biết trạng thái mua vượt và bán vượt trên thị trường Miền giá trị của nó là [0,100]

RSI phản ánh quan hệ giữa mức tăng và mức giảm của cổ phiếu trong một thời kỳ xác định bằng cách lấy tỷ số giá tăng trung bình và giá giảm trung bình Gọi

Trang 26

Hình 2.3 Minh họa đường chỉ số sức mạnh tương đối RSI

(Nguồn: www.markets.com) Chỉ số RSI dùng để khẳng định một xu hướng hiện tại Một xu hướng tăng sẽ

là chắc chắn khi chỉ số RSI tăng trên 50 và một xu hướng giảm xảy ra khi RSI dưới ngưỡng 50 Nó cũng báo hiệu khi thị trường ở các tình huống quá mua hoặc quá bán (thường là 30 và 70) và cảnh báo những sự đảo chiều sắp tới Một tình trạng mua vào quá mức (RSI trên 70) báo hiệu hầu như không còn người mua trên thị trường,

và giá sẽ giảm vì đa số người mua trước đó sẽ kiếm lời bằng cách bán ra Còn tình trạng bán quá mức (RSI dưới 30) thì ngược lại

Đường Stochatics oscillator

Chỉ báo Stochastic là những đường chỉ sự dao động của giá dựa trên cơ sơ quan sát sau:

Khi giá tăng, giá đóng cửa có khuynh hướng tiến gần đến biên trên của một khung giá (price range)

Khi giá giảm, giá đóng cửa có khuynh hướng tiến gần đến biên dưới của một khung giá (price range)

Trang 27

Stochatics dùng để định tín hiệu mua và bán vượt mức Có 2 dạng Stochastics: đường nhanh (fast Stochastic) và đường chậm (low Stochastic) Đường nhanh ảnh hưởng cực kỳ lớn đến giá, trong khi đường chậm chỉ đơn thuần là kết quả của đường nhanh Chỉ số của Stochastics có độ biến thiên từ 0 đến 100 nhưng thường dao động nhiều trong khoảng 20-80 (đây là 2 khoảng quá bán và quá mua) Stochastics được tính như sau:

%K = Giá hiện tại – Giá thấp nhất

Giá cao nhất – Giá thấp nhất∗ 100 (2.5)

Trong đó: Giá thấp nhất là giá thấp nhất trong khoảng thời gian ta xét đến, ví

dụ giá thấp nhất trong 5 ngày hoặc 10 ngày Tương tự với giá cao nhất

Chú ý: %K cắt %D ở dưới 20 hoặc trên 80 mới cho tỷ lệ chính xác cao Còn ngược lại thì tín hiệu rất nguy hiểm

Hình 2.4 Minh họa đường Stochatics oscillator

(Nguồn: www.cophieu68.vn )

Khi fast stochastic (%K) cắt low stochastic (%D) và hướng từ dưới lên thì sẽ cho tín hiệu mua, việc này có hiệu quả cao khi nằm trong vùng dưới 20 Tương tự, khi %K cắt %D ở khoảng trên 80 và đi xuống thì sẽ là tín hiệu bán ra

Trang 28

Đường Williams %R

Chỉ báo Williams %R được phát triển bởi Larry Williams để thể hiện các mức siêu mua và siêu bán Chỉ báo khá giống với chỉ báo Stochastic %K, chỉ khác Williams %R sử dụng các giá trị âm dao động từ 0 đến -100

Chỉ số kỹ thuật này trái ngược với Stochastics nhưng cũng được dùng để xác định mua vượt mức, bán vượt mức

Công thức %R được tính như sau:

%R = - Giá hiện tại – Giá thấp nhất

Giá cao nhất – Giá thấp nhất∗ 100 (2.7)

Cách giải thích của William’s %R tương tự như với chỉ số dao động Stochastic ngoại trừ %R được vẽ ngược lại so với Stochastic và không được làm trơn như Stochastic

Các giá trị trong khoảng 80 đến 100% cho biết rằng chứng khoán đang trong trạng thái bán quá nhiều trong khi các giá trị trong khoảng 0 đến 20% cho biết rằng chứng khoán đang trong trạng thái mua quá nhiều

Một điểm thú vị của chỉ báo %R là khả năng đoán trước sự đảo chiều của giá chứng khoán Chỉ báo phần lớn thường hình thành các đỉnh và đi xuống một vài ngày trước khi giá chứng khoán hình thành đỉnh và đi xuống Tương tự, %R thường tạo ra các đáy và đảo chiều lên một vài ngày trước khi giá chứng khoán cũng đảo chiều đi lên

Ví dụ: Đồ thị dưới đây cho thấy cổ phiếu HBC và Williams %R 14 ngày của

nó Mũi tên mua màu xanh được vẽ ra mỗi khi %R hình thành một đáy dưới 80%

và mũi tên bán màu đỏ được vẽ ra khi %R hình thành đỉnh dưới 20 Bạn có thể thấy trong hầu hết các trường hợp tín hiệu mua xảy ra trước 1 đến 2 ngày khi giá hình thành đáy

Trang 29

Hình 2.5 Minh họa đường William %R

(Nguồn: www.cophieu68.vn )

Khối lượng giao dịch

Khối lượng giao dịch được hiểu đơn giản là số lượng cổ phần (hay hợp đồng) giao dịch trong một khung thời gian cụ thể (giờ, ngày, tuần, tháng) Phân tích khối lượng giao dịch là thành phần cơ bản và rất quan trọng của phân tích kỹ thuật Khối lượng giao dịch là động lực chính tạo ra sự dịch chuyển của giá

Khối lượng giao dịch thấp cho thấy kỳ vọng không rõ ràng xuất hiện trong giai đoạn tích lũy (giá đi ngang) Khối lượng giao dịch thấp cũng xuất hiện trong giai đoạn lưỡng lự tại đáy thị trường

Khối lượng giao dịch cao thường xuất hiện khi thị trường tạo đỉnh, nghĩa là có nhiều nhà đầu tư cùng có chung kỳ vọng giá sẽ tăng cao hơn Khối lượng giao dịch cao cũng thường xuất hiện khi xu hướng mới bắt đầu (tức là giá chuyển sang có xu hướng) Trước khi thị trường tạo đáy, khối lượng giao dịch thường tăng trong giai đoạn bán hoảng loạn

Khối lượng giao dịch có thể giúp chúng ta xác định sức mạnh của xu hướng hiện tại Một xu hướng tăng mạnh thường có khối lượng giao dịch cao khi giá tăng

Trang 30

và giảm xuống khi giá điều chỉnh Một xu hướng giảm mạnh thường có khối lượng giao dịch tăng khi giá giảm và giảm khi giá tăng trở lại

2.3 Phương pháp phân tích hồi quy đa biến BMA

2.3.1 Giới thiệu về BMA

Trong phần lớn các nghiên cứu khoa học đều liên quan đến tình huống đa biến, trong đó, có một biến phụ thuộc (biến đầu ra) vào một hay nhiều biến độc lập khác nhau (biến đầu vào) Do đó, vấn đề đặt ra là cần tìm ra một mô hình tối ưu nhằm loại bỏ những biến không cần thiết hay không có ý nghĩa thống kê

Một trong những thuật toán để tìm ra một mô hình tối ưu được sử dụng nhiều nhất hiện nay là BMA (Bayesian Model Average) BMA là phương pháp nhằm loại

bỏ những biến không cần thiết hay không có ý nghĩa trong dữ liệu BMA được áp dụng để xác định các thiết lập của các biến độc lập ảnh hưởng gần nhất đến biến phụ thuộc

Trong bài toán dự báo chứng khoán này, BMA được dùng để chọn ra các chỉ

số kỹ thuật có ảnh hưởng đến từng loại cổ phiếu Loại bỏ đi những chỉ số không cần thiết, tránh nhiễu thông tin dự báo và rút ngắn thời gian dự báo hơn

2.3.2 Chi tiết về BMA

X: Các chỉ số kỹ thuật; Y: tín hiệu giao dịch

Ma trận tương quan r giữa Xs và Y:

Input: Ma trận tương quan (r), giá trị ngưỡng δ

−0.5

⋮ ]

Trang 31

AIC(Akaike Information Criterion) do Akaike là một kỹ sư người Nhật công bố đề nghị sử dụng chỉ số Information Criterion để chọn mô hình tối ưu Cụ thể 2 tiêu chuẩn AIC và BIC được tính như sau:

+ AIC = n log(RSSp) + 2p

+ BIC = n log(RSSp) + p logn

Trong đó,

+ n : số cỡ mẫu quan sát

+ RSS : Residual Sum Square

+ p : số thông số của mô hình

Theo BMA mô hình có AIC và BIC càng thấp thì mô hình càng tốt Thật ra không có mô hình “tốt nhất” chỉ có mô hình “tối ưu” Mô hình tối ưu là một mô hình có ít tham số và giải thích dữ liệu nhiều nhất

2.4 Phương pháp phân đoạn dữ liệu theo xu hướng TBSM

2.4.1 Giới thiệu về TBSM

Phương pháp phân đoạn TBSM (Trend-Based Segmentation Method) xem xét các thay đổi của các xu hướng giá chứng khoán (Tăng, giảm và không đổi)

2.4.2 Quy trình thực hiện thuật toán TBSM

Ý tưởng thuật toán TBSM

Ý tưởng cơ bản của TBSM là sử dụng xu hướng có giai đoạn thời gian rõ ràng Giá chứng khoán có 3 xu hướng chính: Tăng, giảm và không đổi Nhiệm vụ của thuật toán này là mô phỏng lại 3 xu hướng đó của biểu đồ giá bằng số học Với mục đích giảm thiểu tất cả những điểm gây nhiểu trong xu hướng

Tùy vào độ biến động của đồ thị giá mà TBSM phân đoạn khác nhau, việc phân đoạn này phụ thuộc vào những ngưỡng mà người dùng quy định

Trang 32

Mô phỏng kết quả phân đoạn bằng thuật toán TBSM như Hình 2.7:

Hình 2.6 Mô phỏng kết quả phân đoạn bằng thuật toán TBSM

Mã giả cài đặt thuật toán TBSM

Định nghĩa: δ // giá trị ngưỡng

X_Thld // Độ chệnh lệch về thời gian trong xu hướng ngang Y_Thld // Độ chệnh lệch về giá trong xu hướng ngang

X // chuỗi thời gian

Y // giá đóng cửa của cổ phiếu

1 Hàm TBSM (T)

2 Gán T như đoạn X[1,2,…,n], Y[1,2,…,n]

3 n = 0

4 Vẽ đường thẳng (X1, Y1) và (Xn, Yn)

5 d là khoảng cách lớn nhất của đường thẳng (Xi, Yi)

6 Nếu (d > δ) thì (Xi, Yi) là điểm với khoảng cách lớn nhất

7 Vòng lặp for j = X1 : Xn

8 Nếu (|Xj – Xi| < X_Thld) và (|Yj - Yi|) < Y_Thld)

9 Point [n] = [Xi, Yj], n = n+1

10 Kết thúc;

Hình 2.7 Mã giả cài đặt thuật toán TBSM

Trang 33

Quy trình thực hiện phân đoạn được mô tả trong ví dụ Hình 2.9 sau:

Hình 2.8 Ví dụ minh họa thuật toán TBSM

Cho chuỗi thời gian T = {t1,t2,…,t191} Như (a), vài điểm mua/bán đại diện như mua (4 điểm màu đỏ) và bán (6 điểm màu xanh) Theo như thuật toán TBSM,chúng ta vẽ đường thẳng S1 nối từ điểm đầu tiên đến điểm cuối cùng như (b)

và tìm khoảng cách lớn nhất tới S1 đó chính là điểm t26 Vậy S1 chia làm 2 phân đoạn gồm đường S2 là nối giữa t1 với t26 và S3 là t26 với t191 Dựa vào điểm t26 xác định điểm t16 và t56 mà nằm trong phạm vi ngưỡng Các điểm đó được xác định như xu hướng không đổi và cùng trạng thái như điểm t26 Vì vậy, đường S2 và S3 thành sẽ chuyển thành ba đường khác nhau gồm S4 nối t1 và t16, S5 là t16 nối t56, và S6 là nối giữa t56 với t191 như hình (c) Bước tiếp là lặp lại bước tương tự cho phân đoạn t56 và t191 Kết quả cuối cùng như (d) gồm hai xu hướng không đổi (đường dứt liền), một phân đoạn xu hướng tăng, và hai phân đoạn xu hướng giảm (đường liền đậm) trong chuỗi thời gian

Trang 34

2.5 Phương pháp hồi quy véc-tơ hỗ trợ SVR

2.5.1 Giới thiệu về SVR

Máy vectơ hỗ trợ SVM là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau Do đó SVM là một thuật toán phân loại nhị phân Với một bộ các ví

dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một

mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong không gian dùng để mô tả vấn đề Vì vậy, nhiều khi cần phải ánh xạ các điểm

dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, vì việc phân tách chúng trở nên dễ dàng hơn trong không gian đó Do đó, hiện nay người ta thường sử dụng phương pháp SVR thay cho phương pháp SVM Mục đích của phương pháp SVR là xây dựng mô hình biểu diễn mối quan hệ giữa biến phụ thuộc với các biến độc lập

Ý tưởng cơ bản của SVR là ta sẽ ánh xạ không gian đầu vào (mà nếu ta áp dụng hồi qui tuyến tính thì không hiệu quả) sang một không gian mới cao chiều hơn

mà ở đó, ta có thể áp dụng được hồi qui tuyến tính

Đặc điểm của SVR là cho ta một giải pháp thưa; nghĩa là để xây dựng được hàm hồi qui, ta không cần phải sử dụng hết tất cả các điểm dữ liệu trong bộ huấn luyện

Những điểm có đóng góp vào việc xây dựng hàm hồi qui được gọi là những Support Vector

Điểm mạnh của SVR là sử dụng tối ưu hóa rủi ro cấu trúc (structural risk minimization), nhờ đó mà khả năng tổng quát hóa cao, tránh overfit (ANN thì dễ bị overfit) Hơn nữa, hàm mục tiêu của SVR là hàm - convex‖, do đó điểm cực trị tìm

Trang 35

được sẽ là cực trị toàn cục (hàm mục tiêu của ANN thì không như vậy, nó có nhiều điểm cực trị và dẫn dến cực trị tìm được thường là cực trị cục bộ)

𝐸(𝑦(𝑥) − 𝑡) = {|𝑦(𝑥) − 𝑡| − 0 𝑛ế𝑢 |𝑦(𝑥) − 𝑡| <  nếu ngược lại (2.14)

Để hiểu thêm về SVR, ta xem Hình 2.11:

Hình 2.9 Minh họa hàm lỗi thông thường và hàm lỗi  - insensitive [5]

Trong đó, đường màu xanh là hàm lỗi bậc hai thông thường; đường màu đỏ

là hàm lỗi ε-insensitive Như vậy bây giờ, ta phải minimize hàm lỗi chuẩn hóa sau:

Trang 36

• Sử dụng tối ưu hóa rủi ro cấu trúc (structural risk minimization), nhờ

đó mà khả năng tổng quát hóa cao, tránh được vấn đề quá khớp

• Giải pháp tìm được là giải pháp tối ưu toàn cục

Cả 3 tham số này đều ảnh hưởng đến độ chính xác dự đoán của mô hình và cần phải chọn lựa kỹ càng

• Nếu C quá lớn thì sẽ ưu tiên vào phần độ lỗi huấn luyện, dẫn đến mô hình phức tạp, dễ bị quá khớp Còn nếu C quá nhỏ thì lại ưu tiên vào phần độ phức tạp

mô hình, dẫn đến mô hình quá đơn giản, giảm độ chính xác dự đoán

• Ý nghĩa của ε cũng tương tự C Nếu ε quá lớn thì có ít vectơ hỗ trợ, làm cho

mô hình quá đơn giản Ngược lại, nếu ε quá nhỏ thì có nhiều vectơ hỗ trợ, dẫn đến

mô hình phức tạp, dễ bị quá khớp

• Tham số γ phản ánh mối tương quan giữa các véc tơ hỗ trợ nên cũng ảnh hưởng đến độ chính xác dự đoán của mô hình

2.5.4 Xác định bộ tham số tối ưu của SVR bằng thuật toán Grid Search

Như đã trình bày ở trên, với SVR sử dụng hàm lỗi ε-insensitive và hàm nhân Gaussian ta có 3 tham số cần tìm: hệ số chuẩn hóa C, tham số của hàm nhân

Ngày đăng: 23/12/2018, 06:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Trần Trung Kiên, Bành Trí Thành, Xây dựng ứng dụng hỗ trợ dự đoán giá cổ phiếu Việt Nam dựa trên mô hình lai GA-SVR, Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tập V-1, Số 7 (27), tháng 5/2012 Sách, tạp chí
Tiêu đề: Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT
[3] Trịnh Thanh Ngọc (2013), “Dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter”, Đại học Công nghệ, Đại học Quốc gia Hà Nội, Tr. 155 – 180 Sách, tạp chí
Tiêu đề: Dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng Twitter
Tác giả: Trịnh Thanh Ngọc
Năm: 2013
[4] Nguyễn Tiến Tùng (2011), “Sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân quả dự đoán xu hướng chỉ số chứng khoán dựa trên phân tích tâm trạng từ phương tiện xã hội”, Đại học Công nghệ, Đại học Quốc gia Hà Nội, Tr. 130-145.TIẾNG ANH Sách, tạp chí
Tiêu đề: Sử dụng kỹ thuật tương quan chéo, kỹ thuật phân tích nhân quả dự đoán xu hướng chỉ số chứng khoán dựa trên phân tích tâm trạng từ phương tiện xã hội
Tác giả: Nguyễn Tiến Tùng
Năm: 2011
[7] Davoud G., Seyed D. M. T., Afshin M., Mohammadi B. M., Investigating the Performance of Technical Indicators in Electrical Industry in Tehran's Stock Exchange Using Hybrid Methods of SRA, PCA and Neural Networks, IEEE, 2014, pp. 75-82 Sách, tạp chí
Tiêu đề: IEEE
[8] Duc-Hien Nguyen, Manh-Thanh Le, A two-stage architecture for stock price forecasting by combining SOM and fuzzy-SVM, International Journal of Computer Science and Information Security, Vol. 12, No. 8, 2014, pp. 20-25 Sách, tạp chí
Tiêu đề: International Journal of Computer Science and Information Security
[9] H. Wu, B. Salzberg, và D. Zhang, Online event-driven subsequence matching over financial data streams, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD '04), 2004, pp. 23–34 Sách, tạp chí
Tiêu đề: Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD '04)
[11] Hsu S-H., Hsieh JJ.P-A., Chih T-C., Hsu K-C., A two-stage architecture for stock price forecasting by integrating self-organizing map and support vector regression, Expert Systems with Applications 36, 2009, pp. 7947–7951 Sách, tạp chí
Tiêu đề: Expert Systems with Applications 36
[12] Huang C-L., Tsai C-Y., A hybrid SOFM-SVR with a filter-based feature selection for stock market forecasting, Expert Systems with Applications 36, 2009, pp. 1529–1539 Sách, tạp chí
Tiêu đề: Expert Systems with Applications 36
[13] Huang S-C., Wu T-K., Integrating GA-based time-scale feature extractions with SVMs for stock index forecasting, Expert Systems with Applications 35, 2008, pp. 2080–2088 Sách, tạp chí
Tiêu đề: Expert Systems with Applications 35
[14] J. Murphy, Technical Analysis of Financial Markets, New York Institute of Finance, USA, 1999 Sách, tạp chí
Tiêu đề: New York Institute of Finance, USA
[16] Kwon, Y., Moon, B., A hybrid neurogenetic approach for stock forecasting, IEEE, 2007, 851–864 Sách, tạp chí
Tiêu đề: IEEE
[17] Pei-Chann Chang, Chen-Hao Liu, Jun-Lin Lin, Chin-Yuan Fan, Celeste S.P. Ng, A neural network with a case based dynamic window for stock trading prediction, Expert Systems with Applications 36, 2009, 6889–6898 Sách, tạp chí
Tiêu đề: Expert Systems with Applications 36
[18] Pei-Chann Chang, Chin-Yuan Fan, Chen-Hao Liu, Integrating a Piecewise Linear Representation Method and a Neural Network Model for Stock Trading Points Prediction, IEEE, Vol.39, 2009, pp. 80-92 Sách, tạp chí
Tiêu đề: IEEE, Vol.39
[19] Trafalis T. B., Ince H., “Support vector machine for regression and applications to financial forecasting”, Proc. IEEE-INNS-ENNS Int. Joint Conf. on Neural Networks 2000 (IJCNN 2000), vol. 6, 2000, pp. 348–353 Sách, tạp chí
Tiêu đề: Support vector machine for regression and applications to financial forecasting
[20] Teixeira L.A, Oliveira A.L.I, A method for automatic stock trading combining technical analysis and nearest neighbor classification, Expert Systems with Applications 37, 2010, pp. 6885–6890.WEBSITE Sách, tạp chí
Tiêu đề: Expert Systems with Applications 37
[6] Chang C-C., Lin C-J., LIBSVM: A library for Support Vector Machines. http://www.csie.ntu.edu.tw/~cjlin/libsvm Link
[10] Hsu C-W., Chang C-C., Lin C-J., A Practical Guide to Support Vector Classication. http://www.csie.ntu.edu.tw/~cjlin Link
[1] Vạn Duy Thanh Long, Lê Minh Duy, Phương pháp dự đoán xu hướng cổ phiếu trên việc kết hợp K - Means và SVM với ước lượng xác suất, 2011 Khác
[15] Jheng-Long Wu, Pei-Chann Chang, Yi-Fang Pan, A Trend-Based Segmentation Method and the Support Vector Regression for Financial Time Series Forecasting, Mathematical Problems in Engineering Volume 2012 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w