Dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam bằng phương pháp lai GA-SVR

11 124 0
Dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam bằng phương pháp lai GA-SVR

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết đề xuất phương pháp lai GA-SVR để dự đoán giá cổ phiếu ở thị trường chứng khoán Việt Nam. Trong phương pháp lai này, GA thực hiện đồng thời hai nhiệm vụ: Xác định bộ tham số tối ưu của SVR và lựa chọn các chỉ số kỹ thuật quan trọng nhất để thiết lập đầu vào.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Dự đoán giá cổ phiếu thị trường chứng khoán Việt Nam phương pháp lai GA-SVR A Hybrid GA-SVR Approach for Vietnam Stock Price Prediction Trần Trung Kiên, Bành Trí Thành, Nguyễn Hoàng Tú Anh Abstract: Stock price prediction is an interesting problem that has attracted much attention from both investors and researchers There are, however, not many researchs in this field with Vietnam stock market because this market is still nascent and high nonstationary In this paper, we propose a hybrid approach, which integrates Genetic Algorithm (GA) with Support Vector Regression (SVR) to predict Vietnam stock price In this approach, GA solves two problems simultaneously: finding SVR’s optimal parameters and feature selection Then, SVR’s optimal parameters and selected features serve as input for training SVR model Our experimental results show that the hybrid GA-SVR approach outperforms SVR, Artificial Neural Network (ANN) and can be used in practice to gain profit I GIỚI THIỆU Dự đoán giá cổ phiếu toán thú vị thu hút quan tâm nhà nghiên cứu lẫn nhà đầu tư Tuy nhiên, toán khó lẽ giá chứng khốn thường phức tạp nhiễu loạn [8] Đã có nhiều cố gắng dự đốn thị trường tài phương pháp phân tích truyền thống kỹ thuật trí tuệ nhân tạo logic mờ đặc biệt mạng nơ ron nhân tạo (ANN)[1] ANN kỹ thuật sử dụng nhiều lĩnh vực mơ tả mối quan hệ phi tuyến đầu vào với đầu Tuy nhiên, nhược điểm ANN dễ bị bẫy cực trị cục Bên cạnh đó, ANN có số lượng tham số tự lớn thường phải chọn phương pháp thử sai [19] Gần đây, cộng đồng nghiên cứu có xu hướng tập trung vào kỹ thuật mới: hồi qui véc tơ hỗ trợ (Support Vector Regression - SVR) [3] Nguồn gốc SVR máy véc tơ hỗ trợ (Support Vector Machine - SVM) [3] SVM ban đầu dùng cho toán phân lớp, sau mở rộng cho toán hồi qui gọi SVR Nhiều nghiên cứu gần cho thấy SVR cho kết tốt ANN toán dự đoán giá cổ phiếu [8] Đó SVR sử dụng nguyên lý tối thiểu hóa rủi ro cấu trúc nên có khả tổng qt hóa cao ANN Ngồi ra, số lượng tham số tự SVR so với ANN [8] Khi sử dụng SVR, ta cần giải hai vấn đề: xác định tham số tối ưu cho SVR chọn lựa đặc trưng đầu vào Trong toán dự đoán giá cổ phiếu, việc chọn lựa đặc trưng đầu vào đóng vai trị quan trọng Các đặc trưng đầu vào thường số phân tích kỹ thuật Hiện có nhiều số phân tích kỹ thuật (khoảng 100), việc lựa chọn số phù hợp cho mã cổ phiếu không đơn giản số tốt cho cổ phiếu A chưa tốt cho cổ phiếu B [13] Rõ ràng, ta cần xây dựng chiến lược lựa chọn số quan trọng tương ứng với mã cổ phiếu cụ thể Để chọn đặc trưng đầu vào toán dự đoán giá cổ phiếu, Ince Trafalis [13] sử dụng kỹ thuật phân tích thành phần (PCA) Huang Wu [11] sử dụng GA Huang Tsai [9] dùng hệ số định - 12 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT r2 Chee [14] đề xuất phương pháp lai F-Score F_SSFS Ý tưởng dùng GA để chọn lựa đặc trưng đầu vào cho SVM đề xuất số toán áp dụng loại liệu khác [2], [12] Việc xác định tham số tối ưu cho SVR quan trọng không tham số ảnh hưởng đến độ xác dự đốn mơ hình SVR Người ta thường sử dụng thuật toán Grid Search [7] để xác định tham số tối ưu cho SVR Tuy nhiên, thuật tốn tốn thời gian hiệu khơng cao [10] Nhằm nâng cao hiệu quả, Chen Ho [5], Zhu Wang [19] sử dụng GA để xác định tham số SVR Nhìn chung, nghiên cứu tập trung vào giải hai vấn đề nêu SVR Chẳng hạn, tác giả [12] đề xuất mơ hình kết hợp GA SVM, GA dùng để chọn lựa đặc trưng đầu vào, tham số SVM chọn cố định Còn [5] kết hợp GA SVR, GA dùng để xác định tham số tối ưu SVR, đặc trưng đầu vào chọn phương pháp thử sai Ngoài ra, thị trường chứng khoán thử nghiệm nhiều Mỹ Trung Quốc Với thị trường chứng khốn Việt Nam, có nghiên cứu áp dụng kỹ thuật máy học để dự đoán thị trường cịn non trẻ ổn định Trong báo này, đề xuất phương pháp lai GA-SVR để dự đoán giá cổ phiếu thị trường chứng khoán Việt Nam Trong phương pháp lai này, GA thực đồng thời hai nhiệm vụ: xác địnhbộ tham số tối ưu SVR lựa chọn số kỹ thuật quan trọng để thiết lập đầu vào Sau đó, tham số tối ưu số kỹ thuật chọn huấn luyện với SVR mô hình dự đốn Các phần trình bày sau: phần II trình bày lý thuyết tảng, phần III trình bày phương pháp đề xuất, phần IV trình bày kết thử nghiệm cuối kết luận Tập V-1, Số (27), tháng 5/2012 II LÝ THUYẾT NỀN TẢNG SVR tham số SVR[3] Ý tưởng SVR ánh xạ phi tuyến tập liệu {(x1, y1), (x2, y2), …, (xN, yN)} sang không gian đặc trưng nhiều chiều mà sử dụng phương pháp hồi qui tuyến tính Đặc điểm SVR xây dựng hàm hồi qui ta không cần sử dụng hết tất điểm liệu tập huấn luyện Những điểm liệu có đóng góp vào việc xây dựng hàm hồi qui gọi vectơ hỗ trợ Hàm hồi qui SVR sau: (1) Trong đó, số, tơ đặc trưng véc tơ trọng số, véc tơ đầu vào, là véc Để tìm w b, SVR giải tốn tối ưu hóa sau: Cực tiểu hóa hàm: (2) Với ràng buộc: Với i = 1, 2, …, N Trong đó, C số chuẩn hóa đóng vai trò cân độ lỗi huấn luyện độ phức tạp mơ hình Hình minh họa SVR với hàm lỗi Đường nét liền ứng với đường dự đoán Giá trị xác định độ rộng ống bao quanh đường dự đoán Nếu giá trị đích yi nằm ống coi độ lỗi Nếu giá trị đích yi nằm ngồi ống độ lỗi - 13 - (nếu yi nằm ngồi phía ống) (nếu yi nằm ngồi phía ống) Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 phần độ lỗi huấn luyện, dẫn đến mô hình phức tạp, dễ bị q khớp Cịn C nhỏ lại ưu tiên vào phần độ phức tạp mơ hình, dẫn đến mơ hình q đơn giản, giảm độ xác dự đốn Ý nghĩa tương tự C Nếu q lớn có vectơ hỗ trợ, làm cho mơ hình q đơn giản Ngược lại, q nhỏ có nhiều vectơ hỗ trợ, dẫn đến mơ hình phức tạp, phản ánh mối tương quan dễ bị khớp Tham số vectơ hỗ trợ nên ảnh hưởng đến độ xác dự đốn mơ hình Hình Minh họa hàm lỗi thuật toán SVR [16] Từ (2) dùng hàm Lagrange điều kiện KarushKuhn-Tucker, ta có tốn tối ưu hóa tương đương: Cực đại hóa: (3) Với ràng buộc: Trong đó, nhân tử Lagrange phải thỏa Véc tơ trọng tối ưu có dạng: Từ đây, ta có hàm hồi qui SVR: (4) Trong đó, K(xi, xj) gọi hàm nhân có giá trị tích vơ hướng hai véc tơ đặc trưng Bất kỳ hàm thỏa điều kiện Mercer dùng làm hàm nhân Hàm nhân sử dụng phổ biến hàm Gaussian: Thuật giải di truyền (GA) [6] Thuật giải di truyền thuật tốn tìm kiếm giải pháp tối ưu dựa nguyên lý chọn lọc tự nhiên Darwin chế di truyền sinh học GA làm việc với tập giải pháp, gọi quần thể; giải pháp gọi cá thể diễn nhiễm sắc thể (chuỗi bit) Tương tự trình tiến hóa tự nhiên, vịng lặp ta có ba hoạt động: lai ghép (crossover), đột biến (mutation) chọn lọc (selection) Trong đó, lai ghép q trình hai nhiễm sắc thể cha mẹ tạo hai nhiễm sắc thể cách trao đổi đoạn gene ngẫu nhiên cho nhau.Bằng cách này, ta tạo cá thể đó, mở rộng vùng khơng gian tìm kiếm Đột biến đơn giản thay đổi bit chuỗi bit nhiễm sắc thể từ thành từ thành Điều giúp thuật tốn nhảy khỏi vùng tối ưu cục Cuối cùng, chọn lọc giúp giữ lại cá thể tốt Mỗi cá thể cần có giá trị kèm gọi độ thích nghi Độ thích nghi định nghĩa tùy theo toán cụ thể (5) Như vậy, với SVR sử dụng hàm lỗi hàm nhân Gaussian ta có ba tham số cần tìm: hệ số chuẩn hóa C, tham số hàm nhân Gaussian độ rộng ống Cả ba tham số ảnh hưởng đến độ xác dự đốn mơ hình cần phải chọn lựa kỹ Nếu C lớn ưu tiên vào - 14 - Hình Vịng lặp GA Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Hình minh họa cho vịng lặp tiến hóa GA Thuật tốn dừng sau số vòng lặp xác định trước thỏa điều kiện dừng tham số tối ưu SVR đặc trưng đầu vào tìm dùng để huấn luyện SVR cho mơ hình dự đốn Tìm tham số SVR với Grid Search [7] Hệ thống chúng tơi gồm có hai phần chính: module huấn luyện module dự đốn Như trình bày trên, với SVR sử dụng hàm lỗi hàm nhân Gaussian ta có tham số cần tìm: hệ số chuẩn hóa C, tham số hàm nhân Gaussian độ rộng ống Cách phổ biến để tìm tham số dùng Grid Search kết hợp với đánh giá chéo (k-fold crossvalidation) Grid Search đơn giản phương pháp thử (C, , ) khác chọn cho độ lỗi đánh giá chéo nhỏ Người ta thường dùng phương pháp tăng dần theo số mũ Chẳng hạn C = 2-6, 2-5, …, 28; Module huấn luyện Hình mô tả module huấn luyện Một cách tổng quan nhất, đầu vào module liệu ban đầu, kết đầu gồm có thành phần: thơng tin chuẩn hóa, số kỹ thuật chọn mơ hình dự đốn SVR = 2-8, 2-7, …, 26; = 2-11, 2-10, …, 2-1 Như vậy, C có 15 giá trị, có 15 giá trị, có 11 giá trị Tổng cộng ta phải thử 15×15×11 = 2475 lần với đánh giá chéo Do tiến hành Grid Search tốn thời gian nên thông thường Grid Search chia làm bước: bước tìm kiếm với lưới thưa (chẳng hạn C = 2-6, 2-4, …, 28; = 2-8, 2-6, …, 26; = 2-11, 2-9, …, 2-1 Như số lần thử 8×8×6 = 384) Sau tìm tham số tốt nhất, bước hai tìm kiếm với lưới dày vùng lận cận tham số tốt Ở đây, việc đánh giá chéo thực tập huấn luyện Sau tìm tham số tốt Grid Search, tham số dùng để huấn huyện SVR với toàn tập huấn luyện cho mơ hình dự đốn cuối III DỰ ĐỐN GIÁ CỔ PHIẾU VỚI PHƯƠNG PHÁP LAI GA-SVR Trong phần này, chúng tơi trình bày phương pháp lai GA-SVR đề xuất áp dụng cho toán dự đoán giá cổ phiếu Trong phương pháp này, GA dùng để tìm tham số tối ưu cho SVR chọn lựa đặc trưng đầu vào (các số kỹ thuật) Sau đó, Hình Module huấn luyện Đầu tiên, từ liệu ban đầu gồm giá mở cửa, giá cao nhất, giá thấp nhất, giá đóng cửa khối lượng giao dịch, hệ thống tiến hành tiền xử lý liệu Bước - 15 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT tiền xử bao gồm tính tốn số kỹ thuật, thiết lập đầu vào, đầu chuẩn hóa liệu Kết trình tiền xử lý liệu xử lý thơng tin chuẩn hóa Thơng tin chuẩn hóa dùng module dự đoán Tập V-1, Số (27), tháng 5/2012 Tất đặc trưng đầu vào chuẩn hóa [0, 1] theo công thức: (7) Phần trình bày chi tiết bước tiền xử lý, cách biểu diễn nhiễm sắc thể qui trình tính độ thích nghi nhiễm sắc thể Trong đó, xa giá trị ban đầu đặc trưng a, mina nhỏ trị nhỏ đặc trưng a, maxa giá trị lớn đặc trưng a x’a giá trị sau chuẩn hóa đặc trưng a Hai lợi ích việc chuẩn hóa đặc trưng có miền giá trị lớn khơng lấn át đặc trưng có miền giá trị nhỏ tránh gặp phải khó khăn q trình tính tốn [7] Thơng tin chuẩn hóa (mina, maxa) lưu để dùng tiến hành dự đoán với đầu vào a Tiền xử lý b Biễu diễn nhiễm sắc thể Bước tiền xử lý gồm có hai phần: thiết lập đầu vào, đầu chuẩn hóa liệu Trong phương pháp lai GA-SVR đề xuất, GA làm đồng thời hai việc: tìm tham số tối ưu SVR chọn đặc trưng đầu vào Với SVR sử dụng hàm lỗi Sau đó, liệu xử lý đưa vào GA Kết đầu GA gồm có số kỹ thuật chọn tham số tối ưu SVR Cuối cùng, chúng dùng để huấn luyện SVR cho mơ hình dự đốn Thiết lập đầu vào, đầu ra: Đầu vào hệ thống bao gồm số phân tích kỹ thuật sau: Giá đóng cửa, Bollinger Bands (20, 2) với Middle Band, Upper Band Lower Band, EMA(5), MACD(12, 26, 9) với giá trị MACD Signal Line, RSI(7), ROC-1, ROC-2, ROC-3, ROC-4, ROC-5 Tất tạo thành véc tơ đầu vào 13 chiều Đây số thường sử dụng phân tích kỹ thuật Chi tiết số trình bày phần Phụ lục hàm nhân Gaussian ta có tham số cần tìm: hệ số chuẩn hóa C, tham số Gaussian độ rộng ống Chuẩn hóa liệu: Hình Cấu trúc nhiễm sắc thể Phần tham số SVR: (6) Trong đó, Ct giá đóng cửa ngày thứ t Ct+1 giá đóng cửa ngày thứ t+1 Như vậy, nhiễm sắc thể bao gồm thành phần: C, , mặt nạ đặc trưng Mỗi nhiễm sắc thể biểu diễn chuỗi bit Hình minh họa cấu trúc nhiễm sắc thể, phần đầu ứng với tham số SVR phần cuối ứng mặt nạ đặc trưng Về đầu ra, ta chọn đầu giá đóng cửa ngày Tuy nhiên, theo [15] việc chọn đầu ROC+1 (Rate Of Change) cho kết dự đoán tốt so với việc chọn đầu giá đóng cửa Giá trị ROC+1 cho ta biết giá đóng cửa ngày mai tăng hay giảm % so với giá đóng cửa ngày hơm Hệ thống sử dụng ROC+1 kết đầu Cơng thức tính ROC+1 sau: ROC+1 hàm nhân Trong Hình 4, đoạn bit từ C1 đến CNc biễu diễn giá trị C, từ g1 đến gNg biễu diễn giá trị đến eNe biễu diễn giá trị số bit cần dùng để biểu diễn C, - 16 - , từ e1 Nc, Ng, Ne , Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Từ chuỗi bit ứng với C, giá trị C tính theo cơng thức: (8) Trong dC giá trị thập phân chuỗi bit ứng với C Cách tính , Tập V-1, Số (27), tháng 5/2012 nhiễm sắc thể tính độ thích nghi Khi đưa nhiễm sắc thể vào tính độ thích nghi, trước hết hệ thống kiểm tra nhiễm sắc thể có nằm danh sách hay khơng, có dùng lại độ thích nghi tính mà khơng cần chạy cross validation hồn tồn tương tự Phần mặt nạ đặc trưng: Số bit phần với số đặc trưng đầu vào, ta qui ước: bit ứng với đặc trưng chọn, bit ứng với đặc trưng không chọn c Qui trình tính độ thích nghi Hình Qui trình tính độ thích nghi Qui trình tính độ thích nghi dùng để đánh giá nhiễm sắc thể tốt hay xấu Đầu vào qui trình chuỗi bit nhiễm sắc thể kết đầu độ thích nghi nhiễm sắc thể Nhiễm sắc thể có độ thích nghi lớn tốt, có nhiều hội giữ lại thơng qua q trình chọn lọc Hình mơ tả qui trình tính độ thích nghi Đầu tiên, chuỗi bit nhiễm sắc thể chuyển sang tham số SVR mặt nạ đặc trưng Dựa vào mặt nạ đặc trưng, ta thiết lập tập huấn luyện với đầu vào bao gồm đặc trưng chọn Kế đến, tập huấn luyện tham số SVR dùng để chạy SVR với 5-fold cross validation Hình mơ tả trình chạy SVR với 5-fold cross validation Tập huấn luyện chia làm phần Sau đó, phần dùng để huấn luyện, phần cịn lại dùng để thử nghiệm Khi đó, ta có hàm tính độ thích nghi sau: Hình Qui trình chạy SVR với 5-fold cross validation (9) Trong đó: x nhiễm sắc thể, N số mẫu tập huấn luyện, an giá trị thật, pn(x) giá trị dự đốn có thơng qua trình chạy SVR với 5-fold cross validation (ứng với tham số SVR đặc trưng chọn có từ nhiễm sắc thể x) Vì lần tính độ thích nghi phải chạy 5-fold cross validation nên trình chạy GA tốn nhiều thời gian Để tăng tốc, chúng tơi lưu lại danh sách Hình Module dự đoán Module dự đoán Sau trình huấn luyện, thu thơng tin chuẩn hóa, số kỹ thuật chọn mơ hình dự đốn SVR Hình mơ tả module dự đốn - 17 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Trước tiên, giá trị đầu vào qua bước tiền xử lý gồm hai công việc: Tập V-1, Số (27), tháng 5/2012 tốt Hit Rate đo độ xác mặt xu hướng, Hit Rate lớn tốt - Thiết lập lại đầu vào dựa vào số kỹ thuật chọn Cơng thức tính hai độ đo sau: (10) - Chuẩn hóa đầu vào dựa vào thơng tin chuẩn hóa Đầu vào sau tiền xử lý đưa vào mơ hình dự đốn SVR Kết dự đốn mơ hình SVR giá trị ROC+1 chuyển sang giá đóng cửa bước hậu xử lý cho kết dự đoán cuối (11) Trong đó: Với pn an giá đóng cửa dự đốn giá đóng cửa thực sự, cn giá đóng cửa (thực sự) ngày tại, N số mẫu tập thử nghiệm IV KẾT QUẢ THỬ NGHIỆM 1.Mô tả liệu Bảng Mô tả liệu Công ty phát Nhóm Số ngày hành ngành giao dịch ITA Cơng ty cổ phần Bất động 996 đầu tư công sản nghiệp Tân Tạo SAM Công ty cổ phần Công nghệ 994 đầu tư phát thiết bị triển Sacom viễn thông VIP Công ty cổ phần Vận tải 994 vận tải xăng dầu Vipco Kịch thử nghiệm tham số cài đặt Mã Để đánh giá chất lượng phương pháp lai GASVR, so sánh kết dự đoán phương pháp lai với SVR sử dụng Grid Search để tìm tham số tối ưu (Grid-SVR) ANN Do tính ngẫu nhiên thuật giải di truyền, GA-SVR thực thi lần lấy giá trị trung bình SVR hai phương pháp GA-SVR Grid- Chúng tiến hành thử nghiệm mã cổ phiếu sàn giao dịch TP Hồ Chí Minh1 Ba mã cổ phiếu đại diện cho nhóm ngành khác Cả ba mã lấy từ ngày 2/1/2007 đến ngày 31/12/2010, bao gồm khoảng gần 1000 ngày giao dịch Chi tiết liệu trình bày Bảng Sau tiền xử lý, liệu chia thành tập tập huấn luyện tập thử nghiệm, tập thử nghiệm bao gồm 100 ngày giao dịch gần Các độ đo chất lượng dự đốn Chúng tơi sử dụng hai độ đo MAPE (Mean Absolute Percentage Error) Hit Rate [18] Trong đó, MAPE đo độ lỗi mặt giá trị, MAPE nhỏ SVR giống với hàm lỗi hàm nhân Gaussian Chúng sử dụng thư viện LIBSVM [4] để thực thi SVR, thư viện AForge.NET2 để thực thi GA thư viện Neural Dot Net3 để thực thi ANN Bảng mô tả tham số cài đặt GA-SVR Trong đó, kích thước quần thể số vịng lặp tối đa chọn thơng qua thực nghiệm Xác suất lai ghép xác suất đột biến giá trị mặc định thư viện thực thi GA Miền giá trị tham số SVR chọn dựa vào [17] thực nghiệm Số bit dùng để biểu diễn tham số SVR chọn dựa vào miền giá trị tham số Với 20 bit dùng để biểu diễn tham số SVR, ta có chiều dài nhiễm sắc thể: 20 × + 13 = 73 bit (với số lượng www.cophieu68.com http://www.aforgenet.com/framework http://neurondotnet.freehostia.com - 18 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT tham số SVR, 13 số lượng đặc trưng đầu vào) Các tham số cài đặt Grid-SVR mô tả Bảng Miền giá trị tham số SVR chọn giống GA-SVR Bước tăng số mũ lưới thưa lưới dày Grid Search chọn theo [7] Bảng mô tả tham số cài đặt ANN Chúng sử dụng mạng truyền thẳng lớp, số node tầng ẩn chọn thông qua thực nghiệm Hệ số học giá trị mặc định thư viện thực thi ANN Số vòng lặp tối đa chọn thông qua thực nghiệm Bảng Các tham số cài đặt GA-SVR GA Kích thước quần thể Số vịng lặp tối đa Điều kiện dừng Xác suất lai ghép Xác suất đột biến Miền giá trị C Miền giá trị Miền giá trị Số bit biễu diễn tham số SVR 200 500 Đạt số vòng lặp tối đa 0.75 0.10 [2-6, 28] [2-8, 26] [2-11, 2-1] Tập V-1, Số (27), tháng 5/2012 Kết thử nghiệm Bảng so sánh kết dự đoán GA-SVR, Grid-SVRvà ANN Ta thấy mã cổ phiếu, GASVR cho MAPE thấp Hit Rate cao hai phương pháp lại Hơn nữa, SVR ln cho kết tốt dự đốn tốt ANN Điều lần khẳng định tính vượt trội SVR so với ANN toán dự đoán giá cổ phiếu, điều nhiều nghiên cứu đề cập đến Kết dự đoán theo độ đo Hit Rate ba phương pháp GA-SVR, SVR-Grid ANN thể đồ thị hình Hit Rate phương pháp lai GA-SVR mã cổ phiếu đạt 58.427%, 57.143% 60.44% Đây tín hiệu khả quan cho thấy khả ứng dụng thực tế kỹ thuật máy học để giải toán dự đoán giá cổ phiếu thị trường chứng khoán non trẻ Việt Nam Bảng Kết dự đoán trung bình GA-SVR, Grid-SVR ANN Mã Phương pháp MAPE Hit Rate ITA GA-SVR 2.45 58.427 Grid-SVR 2.474 55.056 ANN 2.513 53.933 SAM GA-SVR 2.36 57.143 Grid-SVR 2.368 56.044 ANN 2.382 54.945 VIP GA-SVR 2.712 60.44 Grid-SVR 2.763 57.143 ANN 2.839 52.747 20 Bảng Các tham số cài đặt Grid-SVR Grid Search Miền giá trị C [2-6, 28] [2-8, 26] Miền giá trị [2-11, 2-1] Miền giá trị Bước tăng số mũ lưới thưa Bước tăng số mũ 0.25 lưới dày Bảng Các tham số cài đặt ANN ANN Kiến trúc mạng Số node tầng ẩn Hàm kích hoạt Hệ số học Số vòng lặp tối đa lớp Sigmoid Giảm dần qua vòng lặp từ 0.3 đến 0.05 1000 Hình So sánh kết dự đốn theo độ đo Hit Rate - 19 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Hình Minh họa kết dự đoán mã VIP với phương pháp GA-SVR đặc trưng đầu vào chọn cách thủ công phương pháp thử sai Dữ liệu sử dụng mã TAIEX (Taiwan Stock Exchange Market Weighted Index) lấy từ ngày 2/1/2001 đến ngày 23/1/2003 với 504 ngày giao dịch Tập thử nghiệm bao gồm 100 ngày giao dịch gần số ngày dự đoán ngày Bảng cho thấy phương pháp đề xuất cho độ lỗi MAPE thấp phương pháp Chen Ho liệu mã TAIEX Hình 10 Thời gian huấn luyện phương pháp Hình minh họa kết dự đốn mã VIP phương pháp GA-SVR Trong đó, điểm đánh dấu hình thoi thể cho giá đóng cửa thực điểm đánh dấu hình dấu cộng thể cho giá đóng cửa dự đốn Hình 10 cho thấy thời gian huấn luyện trung bình phương pháp Phương pháp GA-SVR có thời gian huấn luyện trung bình lâu phương pháp Tuy nhiên, đánh đổi lại độ xác dự đốn Về thời gian dự đốn, nhìn chung phương pháp có thời gian dự đoán nhanh (thời gian dự đoán cho mẫu 0.15x10-3 giây) Chúng tơi so sánh mơ hình đề xuất GA-SVR với kết Chen Ho [5] Ở đây, Chen Ho sử dụng GA để tìm tham số tối ưu SVR Đặc trưng đầu vào báo giá đóng cửa số Bảng Kết theo độ đo MAPE GA-SVR phương pháp Chen Ho Độ đo MAPE Phương pháp GA-SVR Chen Ho[5] 1.316 1.308 V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đề xuất phương pháp lai GA-SVR để dự đoán giá cổ phiếu Việt Nam Trong phương pháp lai này, GA thực đồng thời hai nhiệm vụ: xác định tham số tối ưu cho SVR chọn lựa đặc trưng đầu vào Kế đến, tham số tối ưu đặc trưng đầu vào chọn dùng để huấn luyện SVR Kết thử nghiệm cho thấy phương pháp đề xuất cho kết dự đốn tốt SVR, ANN có khả ứng dụng thực tế thị trường chứng khoánViệt Nam, thị trường non trẻ ổn định - 20 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Để chứng minh tính hiệu phương pháp đề xuất, dự định tiếp tục thử nghiệm GA -SVR mã cổ phiếu Việt Nam khác Mặt khác, tiến hành thử nghiệm với số phân tích kỹ thuật khác tăng khoảng thời gian dự đoán từ ngày lên 5-10 ngày TÀI LIỆU THAM KHẢO [1] Abraham A , Baikunth N., Mahanti P K., Hybrid intelligent systems for stock market analysis, LNCS, Springer-Verlag, Vol 2074, 2001, pp 337–345 [2] Ang J.H., Teoh E.J., Tan C.H., Goh K.C., Tan K.C., Dimension reduction using evolutionary Support Vector Machines, IEEE Congress on Evolutionary Computation, 2008, pp 3634-3641 [3] Bishop C.M., Pattern Recognition and Machine Learning, Springer, 2007 [4] Chang C-C., Lin C-J., LIBSVM: A library for Support Vector Machines http://www.csie.ntu.edu.tw/~cjlin/libsvm [5] Chen K-Y., Ho C-H., An Improved Support Vector Regression Modeling for Taiwan Stock Exchange Market Weighted Index Forecasting, ICNN&B’05, 2005, Vol.3 [6] Goldberg D E., Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley, 1989 [7] Hsu C-W., Chang C-C., Lin C-J., A Practical Guide to Support Vector Classication http://www.csie.ntu.edu.tw/~cjlin [8] Hsu S-H., Hsieh JJ.P-A., Chih T-C., Hsu K-C., A two-stage architecture for stock price forecasting by integrating self-organizing map and support vector regression, Expert Systems with Applications 36, 2009, pp 7947–7951 [9] Huang C-L., Tsai C-Y., A hybrid SOFM-SVR with a filter-based feature selection for stock market forecasting, Expert Systems with Applications 36, 2009, pp 1529–1539 Tập V-1, Số (27), tháng 5/2012 [10] Huang C-L., Wang C-J., A GA-based feature selection and parameters optimization for support vector machines, Expert Systems with Applications 31, 2006, pp 231–240 [11] Huang S-C., Wu T-K., Integrating GA-based timescale feature extractions with SVMs for stock index forecasting, Expert Systems with Applications 35, 2008, pp 2080–2088 [12] Huerta E.B., Duval B., Hao J-K., A Hybrid GA/SVM Approach for Gene Selection and Classification of Microarray Data, EvoWorkshops, 2006, pp 34-44 [13] Ince H., Trafalis T.B., Kernel Principal Component Analysis and Support Vector Machines for Stock Price Prediction, IIE Transactions on Quality and Reliability, 39(6), 2007, pp 629-637 [14] Lee M-C., Using support vector machine with a hybrid feature selection method to the stock trend prediction, Expert Systems with Applications 36, 2009, pp 10896– 10904 [15] Mager J., Paasche U., Sick B., Forecasting Financial Time Series with Support Vector Machines Based on Dynamic Kernels, IEEE Conference on Soft Computing in Industrial Applications, 2008, pp 252257 [16] MingDa W., LaiBin Z., Wei L., YingChun Y., Research on the optimized support vector regression machines based on the differential evolution algorithm, ICIECS’2009, 2009, pp 1-4 [17] Momma M., Bennett K P., A pattern search method for model selection of support vector regression, SIAM Conference on Data Mining, 2002, pp 261-274 [18] Nygren K., Stock Prediction – A Neural Network Approach, Master thesis, 2004 [19] Sapankevych N.I., Sankar R., Time Series Prediction Using Support Vector Machines: A Survey, IEEE Computational Intelligence Magazine, Vol 4, No 2, 2009, pp 24-38 [20] Zhu M., Wang L., Intelligent trading using support vector regression and multilayer perceptrons optimized with genetic algorithms, IJCNN’2010, 2010, pp 1-5 - 21 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT PHỤ LỤC Cơng thức tính số phân tích kỹ thuật SƠ LƯỢC VỀ TÁC GIẢ TRẦN TRUNG KIÊN BB-Middle(20, 2): số Bollinger Band gồm có dải ứng với BB-Middle, BB-Upper BB-Lower Ngày sinh 07/08/1989 Tốt nghiệp Trường Đại học Khoa Học Tự Nhiên, Đại học Quốc gia Tp HCM năm 2011 (1) (2) (3) Trong đó,SMA20tvà SD20t trung bình độ lệch chuẩncủa giá đóng cửa 20 ngày trước ngày t (kể ngày t) Hiện trợ giảng Khoa CNTT, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp HCM EMA5 (Exponential Moving Average) Lĩnh vực quan tâm: máy học ứng dụng (4) ĐT: 0976044860, Email: ttkien@fit.hcmus.edu.vn Trong đó, Ct giá đóng cửa ngày t, k hệ số nhân: k = 2/(1+period) với period = BÀNH TRÍ THÀNH Ngày sinh 16/04/1989 MACD(12, 26) (Moving Average Convergence/ Divergence) Tốt nghiệp Đại học Khoa Học Tự Nhiên, Đại học Quốc gia Tp.HCM năm 2011 (5) MACD Signal MACD Signalt=EMA9t MACD(12,26) Tập V-1, Số (27), tháng 5/2012 (6) Lĩnh vực quan tâm: máy học, xử lý ảnh RSI7 (Relative Strength Index) (7) ĐT: 0908828391, Email: 89btthanh@gmail.com NGUYỄN HỒNG TÚ ANH Trong đó: Ngày sinh 02/03/1969 Tốt nghiệp Đại học Tổng hợp Kishinhốp, Cộng hịa Mơnđơva năm 1992 Bảo vệ luận án Thạc sĩ ngành Tin học Trường Đại học Khoa Học Tự Nhiên, Đại học Quốc gia Tp HCM, 2002 Với Ck giá đóng cửa ngày k ROC-p (Rate Of Change) (8) Với Ck giá đóng cửa ngày k Hiện giảng viên Khoa CNTT, Trường Đại học Khoa Học Tự Nhiên, Đại học Quốc gia Tp.HCM Lĩnh vực nghiên cứu: công nghệ tri thức ứng dụng, khai thác liệu, text mining, web mining ĐT : 091 826 1438, Email: nhtanh@fit.hcmus.edu.vn Nhận ngày: 28/3/2011 www.stockcharts.com - 22 - ... trường cịn non trẻ ổn định Trong báo này, đề xuất phương pháp lai GA-SVR để dự đoán giá cổ phiếu thị trường chứng khoán Việt Nam Trong phương pháp lai này, GA thực đồng thời hai nhiệm vụ: xác địnhbộ... ANN toán dự đoán giá cổ phiếu, điều nhiều nghiên cứu đề cập đến Kết dự đoán theo độ đo Hit Rate ba phương pháp GA-SVR, SVR-Grid ANN thể đồ thị hình Hit Rate phương pháp lai GA-SVR mã cổ phiếu đạt... thuật máy học để giải toán dự đoán giá cổ phiếu thị trường chứng khoán non trẻ Việt Nam Bảng Kết dự đốn trung bình GA-SVR, Grid-SVR ANN Mã Phương pháp MAPE Hit Rate ITA GA-SVR 2.45 58.427 Grid-SVR

Ngày đăng: 25/10/2020, 22:48