ÁP DỤNG PHƯƠNG PHÁP LAI GIỮA THUẬT TOÁN tối ưu bầy đàn và hồi QUI VÉCTO hỗ TRỢ TRONG dự đoán GIÁ CHỨNG KHOÁN a HYBRID PSO SVR APPROACH FOR VIETNAM STOCK PRICE PREDICTION ON MARKET
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,75 MB
Nội dung
Mục lục DANH MỤC CÁC BẢNG, HÌNH CHƢƠNG 1: GIỚI THIỆU CHƢƠNG 2: LÝ THUYẾT NỀN TẢNG 11 2.1 Khai phá liệu trình khai phá liệu 11 2.1.1 Giới thiệu khai phá liệu 11 2.1.2 Các kỹ thuật áp dụng khai phá liệu 14 2.1.3 Những chức khai phá liệu 15 2.1.4 Ứng dụng khai phá liệu 17 2.1 Thuật giải tối ƣu bầy đàn 18 2.1.1 Giới thiệu thuật giải PSO (Particle Swarm Optimization) 18 2.1.2 Thuật giải PSO 19 2.2 Giới thiệu mơ hình Support Vector Machine- SVM Hồi Qui Véctơ Hỗ Trợ Support Vector Regression-SVR 23 2.2.1 Support Vector Machine (SVM) 23 2.2.2 Support Vector Regression (SVR) 30 2.3 Tính xác mơ hình (Model evaluation) 33 2.3.1 Tính xác mơ hình SVM 33 CHƢƠNG 3: ÁP DỤNG PHƢƠNG PHÁP LAI GIỮA THUẬT GIẢI TỐI ƢU BẦY ĐÀN VÀ HỒI QUI VÉCTƠ HỖ TRỢ TRONG DỰ ĐOÁN GIÁ CHỨNG KHOÁN VIỆT NAM 36 3.1 Giới thiệu chung 36 3.2 Xử lý liệu xây dựng module huấn luyện 37 3.2.1 Tiền xử lý liệu 37 3.2.2 Xây dƣng module huấn luyện 38 CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM 39 4.1 Mô tả xử lý liệu 39 4.2 Kịch thử nghiệm 44 4.2.1 Mơ hình Linear Regression 45 4.2.2 Mơ hình SVR chuẩn 46 4.2.3 Mơ hình SVR sử dụng PSO xác định tham số C, epsilon, gamma 46 4.2.4 Mơ hình SVR sử dụng PSO xác định tham số train test split 49 4.2.5 Mơ hình Linear Regression cho danh mục nhiều mã chứng khoán có thuộc tính thời gian 51 4.2.6 Mơ hình SVR chuẩn cho danh mục nhiều mã chứng khốn có thuộc tính thời gian 52 4.2.7 Mô hình SVR sử dụng PSO xác định tham số C, epsilon, gamma cho danh mục nhiều mã chứng khoán có thuộc tính thời gian 53 4.2.8 Mơ hình SVR sử dụng PSO xác định tham số train test split gamma cho danh mục nhiều mã chứng khốn có thuộc tính thời gian 54 4.3 Kết thử nghiệm 55 CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 57 DANH MỤC TÀI LIỆU THAM KHẢO 59 DANH MỤC CÁC BẢNG, HÌNH BÀNG Bảng 4.1 Mơ tả liệu chứng khốn Bảng 4.2 Kết thử nghiệm HÌNH Hình 2.1 Q trình phá tri thức Hình 2.2 Các lĩnh vực liên quan đến khám phá tri thức sở liệu Hình 2.3 Thuật giải PSO Hình 2.4 Sơ đồ thuật giải PSO Hình 2.5 Mã giả cho thuật giải PSO Hình 2.6 Support Vector Regression Hình 2.7 Minh họa cho tốn phân hai lớp Hình 2.8 Minh họa tốn phân hai lớp với phƣơng pháp SVM Hình 2.9 Bài tốn SVM trƣờng hợp liệu mẫu khơng phân tách tuyến tính Hình 2.10 Minh họa hàm lỗi thuật giải SVR Hình 2.11 Sơ đồ Thuật giảixây dựng mơ hình PSO-SVR Hình 2.12 Mã giả cho thuật giải PSO-SVR Hình 4.1 Mơ tả liệu chứng khốn Hình 4.2 Mơ tả liệu chứng khốn sau loại bỏ thuộc tính thừa Hình 4.3 Kết thu đƣợc Mơ hình Linear Regression cho mã FLC Hình 4.4 Kết thu đƣợc Mơ hình SVR chuẩn cho mã FLC Hình 4.5 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mơ hình SVR cho mã FLC Hình 4.6 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mã FLC Hình 4.7 Kết thu đƣợc Mơ hình Linear Regression cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Hình 4.8 Kết thu đƣợc Mơ hình SVR chuẩn cho danh mục nhiều mã chứng khoán có thuộc tính thời gian Hình 4.9 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mơ hình SVR cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Hình 4.10 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mơ hình SVR với phƣơng pháp đánh giá Hold-out (Splitting) cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Hình 4.11 Kết so sánh SVR PSO-SVR Hsieh H.I., Lee T.P CHƢƠNG 1: GIỚI THIỆU Ngày nay, xã hội ngày phát triển lƣợng thơng tin tăng lên nhanh chóng Lƣợng liệu khổng lồ nguồn tài nguyên vô giá nhƣ biết cách phát khai phá thơng tin hữu ích có Nhƣ vấn đề đặt với liệu việc lƣu trữ khai phá chúng Các phƣơng pháp khai phá liệu truyền thống ngày không đáp ứng đƣợc nhu cầu thực tế Một khuynh hƣớng kỹ thuật đời Kỹ thuật Khai phá liệu khám phá tri thức.Công nghệ khai phá liệu đời cho phép ta khai phá đƣợc tri thức hữu dụng việc trích xuất thơng tin có mối quan hệ mối tƣơng quan định từ kho liệu lớn mà bình thƣờng khơng thể nhận diện đƣợc từ giải tốn tìm kiếm, dự báo xu hƣớng, hành vi tƣơng lai, nhiều tính thơng minh khác Ngày nay, công nghệ khai phá liệu đƣợc ứng dụng rộng rãi hầu hết lĩnh vực: phân tích liệu, dự báo, Một vấn đề quan trọng lĩnh vực tài đại tìm kiếm cách thức hiệu để tóm tắt hình dung liệu thị trƣờng chứng khốn để cung cấp cho cá nhân tổ chức thông tin hữu ích hành vi thị trƣờng hỗ trợ việc định đầu tƣ Số lƣợng lớn liệu có giá trị đƣợc tạo thị trƣờng chứng khoán thu hút đƣợc nhà nghiên cứu khám phá vấn đề cách sử dụng phƣơng pháp khác Hiện giới, thị trƣờng chứng khoán phát triển, nhà phân tích dự báo áp dụng đƣa nhiều công cụ giúp cho nhà đầu tƣ thị trƣờng dự báo đƣợc giá chứng khoán cách xác nhằm đƣa định đầu tƣ Phân tích chứng khốn trở thành công việc quan trọng mà nhà đầu tƣ chứng khốn cần thực để có đƣợc định đầu tƣ thích hợp Từ kết phân tích, ngƣời đầu tƣ chứng khốn định mua vào, bán ra, giữ lại nên đầu tƣ vào doanh nghiệp Có hai phƣơng pháp phân tích đƣợc sử dụng phổ biến hầu hết thị trƣờng chứng khốn giới, phân tích phân tích kỹ thuật Phân tích (Fundamental Analysis): phƣơng pháp phân tích chứng khốn dựa nhân tố mang tính chất tảng có tác động nguyên nhân dẫn tới thay đổi giá chứng khoán nhằm giá trị nội (intrinsic value) chứng khoán thị trƣờng Các nhân tố cần trọng phân tích là: hoạt động kinh doanh công ty, mục tiêu nhiệm vụ công ty, khả lợi nhuận (hiện ƣớc đoán), kết sản xuất kinh doanh, chất lƣợng quản lý, sức ép cạnh tranh, sách giá cả, vị thế,… Phân tích kỹ thuật (Technical Analysis) : sử dụng mơ hình toán học (đồ thị, biến đổi miền, xác suất thống kê, dãy đại số,…) dựa liệu thu thập thị trƣờng khứ để trạng thái thị trƣờng thời điểm xác định, thông thƣờng nhận định xu hƣớng thị trƣờng Phân tích kỹ thuật khơng để ý đến số tài chính, tình hình phát triển doanh nghiệp hay thông tin thị trƣờng mà trọng vào việc tập hợp liệu giá cả, khối lƣợng giao dịch tiêu chí khác chứng khốn thu thập đƣợc từ phiên giao dịch khứ Các kỹ thuật phân tích cho thấy giá lịch sử số khác tiết lộ mối tƣơng quan mơ hình biến động giá chứng khốn, dự đốn giá chứng khốn tƣơng lai Trong năm gần đây, nhiều kỹ thuật tiên tiến nhƣ giải thuật di truyền (GA), máy véctơ hỗ trợ (SVM), mạng nơron nhân tạo (ANN) hỗ trợ tốt việc phân tích học mẫu Giá chứng khốn có mối tƣơng quan nhạy cảm với tin tức kiện mang lại thông tin cho thị trƣờng chứng khoán (kể tin tức thời sự, kinh tế, trị, thời tiết…đều ảnh hƣởng tới thị trƣờng chứng khoán) Với hƣớng tiếp cận này, sử dụng kỹ thuật học máy khai phá liệu để tìm mối tƣơng quan giá khứ xu hƣớng giá tƣơng lai Ứng dụng dự đoán giá chứng khoán giải pháp đƣợc quan tâm nƣớc giới Hiện có nghiên cứu báo nhu cầu -Ngồi nƣớc: Có nhiều cơng trình nghiên cứu dƣ đoán giá chứng khoán nhƣ: Năm 2001, Abraham đồng nghiên cứu hệ thống thơng minh lai cho dự đốn thị trƣờng chứng khốn sử dụng ANN để dự báo giá chứng khoán [13] Năm 2008, Ang đồng nghiên cứu kết hợp thuật giải di truyền (GA) máy vectơ hỗ trợ (SVM) để tìm kiếm thuộc tính tốt cách sử dụng nguyên tắc q trình tiến hóa, sau q trình tập liệu giảm tiếp tục đƣợc huấn luyện SVM Kết mô cho thấy phƣơng pháp lai GA-SVM phân loại xác quán [14] Năm 2011, Bollen đồng có dự đốn thị trƣờng chứng khốn dựa Tweet cơng ty thị trƣờng chứng khốn với độ xác cao nhƣng khuyết điểm liệu phân tích lớn dự đốn đƣợc tăng, giảm thị trƣờng chứng khốn [15] Ngồi có cơng trình nghiên cứu dự đốn giá chứng khốn theo hƣớng ứng dụng mơ hình Auto Regressive Integrate Moving Average (ARIMA) ARIMA mơ hình dự báo định lƣợng theo thời gian, giá trị tƣơng lai biến số dự báo phụ thuộc vào xu hƣớng vận động đối tƣợng khứ (chuỗi liệu q khứ) [16] [17] Tuy nhiên, mơ hình ARIMA hiệu liên quan đến dự báo ngắn hạn Còn dự báo dài hạn nên sử dụng ANN ANN mơ hình xác đƣợc sử dụng rộng rãi nhiều lĩnh vực bao gồm xã hội, kỹ thuật, kinh tế, kinh doanh, tài chính, ngoại hối, chứng khốn,…[18-22] Có nhiều cơng trình nghiên cứu so sánh ARIMA ANN dự đoán giá chứng khốn ANN đƣợc tìm thấy hiệu việc giải vấn đề phi tuyến tính, trái ngƣợc hồn tồn với mơ hình ARIMA giải nhƣng vấn đề tuyến tính khơng khả thi với vấn đề phi tuyến tính thực tế [23] [24] [25] Các mơ hình chuỗi thời gian trƣớc có số hạn chế: (1) nghiên cứu trƣớc chọn số kỹ thuật phụ thuộc vào kinh nghiệm ý kiến chủ quan; (2) mơ hình thống kê thơng thƣờng phải đáp ứng giả định biến phân tích liệu; (3) mơ hình chuỗi thời gian thơng thƣờng đƣợc coi biến biến tuyến tính; (4) khó khăn để xác định thơng số SVR Để cải thiện vấn đề Cheng Shiu đề xuất mơ hình GA-SVR chuỗi thời gian dựa lựa chọn số để dự báo giá cổ phiếu [26] Năm 2013, Wenge sử dụng thuật giải PSO SVR để dự đoán đầu tƣ Ở đây, PSO xác định tham số tối ƣu cho SVR Sau đó, tham số đặc trƣng đầu vào đƣợc huấn luyện với SVR Kết thử nghiệm cho thấy phƣơng pháp lai PSO-SVR cho kết dự đoán tốt SVR, ANN [27] Năm 2015, Ding số đồng nghiệp có báo kết hợp tối ƣu bầy đàn ISVR (khoảng vector hỗ trợ hồi quy) để cung cấp cơng cụ phân tích hồi quy tuyến tính cho liệu lớn [28] -Trong nƣớc: Các hệ thống dự đoán chứng khoán đƣợc nhiều nghiên cứu nhƣ: Dự báo thị trƣờng chứng khoán dựa khai phá liệu Tweeter Phạm Huyền Trang dựa trích xuất nội dung tweet để đánh giá đƣợc tâm trạng công chúng trực tiếp, theo thời gian thực cách nhanh chóng tiết kiệm Tweeter mạng xã hội đƣợc sử dụng phổ biến giới nhƣng Việt Nam khơng sử dụng Tweeter nhiều [6] Cơng trình nghiên cứu sử dụng mơ hình ARIMA liệu thời gian thực, áp dụng với liệu chứng khoán hƣớng tới việc dự báo chứng khoán Vũ Thị Gƣơng [7] Cơng trình sử dụng mơ hình ARIMA phƣơng pháp Box – Jenkins để thực q trình dự báo giá đóng cửa của: VnIndex, mã cổ phiếu ABT (của Công ty cổ phần xuất nhập thủy sản Bến Tre) mã cổ phiếu ACB (của Ngân hàng Thƣơng mại cổphần Á Châu) ngắn hạn vào chuỗi liệu khứ mã CK Kết dự báo xác (mức độ sai số thấp, từ xấp xỉ 0% đến 2.52%) Ngoài Việt Nam có nhiều cơng trình nghiên cứu sử ANN lĩnh vực tài nhƣ dự báo lạm phát Việt Nam mơ hình ANN Nguyễn Khắc Hiếu, Nguyễn Thị Anh Vân [8] Mục tiêu viết để kiểm soát lạm phát sát với lạm phát mục tiêu, nhà làm sách cần phải biết đƣợc yếu tố tác động đến lạm phát, dự báo đƣợc lạm phát tƣơng lai, từ có điều chỉnh phù hợp nhằm đạt Bài viết thu đƣợc kết mơ hình ANN dự báo lạm phát tốt mơ hình ARDL ARDL mơ hình kết hợp mơ hình VAR (tự hồi quy vector) mơ hình hồi quy bình phƣơng nhỏ (OLS) Ở nƣớc có viết nghiên cứu ứng dụng mơ hình ANN dự đốn giá chứng khốn Tp Hồ Chí Minh Phạm Thành Phƣớc [9] Kết dự báo hoạt động tốt việc dự báo thời gian ngắn hạn, với tỉ lệ xác thƣờng xuyên đạt ngƣỡng 90%, dự đốn tƣơng đối xác giá ngày mai, hay tháng sau, giảm dần độ xác dự đốn theo q, đặc biệt chƣơng trình khơng xác dự đốn phiên giao dịch đóng cửa cuối năm (xác suất xác thấp) Nghiên cứu Vạn Duy Thanh Long, Lê Minh Duy nghiên cứu dự đoán xu hƣớng cổ phiếu thị trƣờng Việt Nam phƣơng pháp hai giai đoạn dựa viêc kết hợp KMeans SVM với ƣớc lƣợng xác suất lớp Bài viết so sánh hiệu dự đoán với mơ hình mạng nơ-ron lan truyền ngƣợc, phân lớp SVM truyền thống phân lớp SVM với ƣớc lƣợng xác suất Kết thử nghiệm cho thấy, phƣơng pháp kết hợp KMeans SVM với ƣớc lƣợng xác suất lớp đạt kết vƣợt trội hai chu kỳ dự đoán, đồng thời cho thấy khả dự đoán hiệu chu kỳ ngày [10] Trong báo Trần Trung Kiên, Bành Trí Thành sử dụng phƣơng pháp lai thuật giải di truyền hồi qui véc tơ hỗ trợ để dự đoán giá cổ phiếu Việt Nam Ở đây, GA làm đồng thời hai nhiệm vụ: xác định tham số tối ƣu cho SVR chọn lựa đặc trƣng đầu vào quan trọng Sau đó, tham số đặc trƣng đầu vào đƣợc huấn luyện với SVR Kết thử nghiệm cho thấy phƣơng pháp lai GA-SVR cho kết dự đoán tốt SVR, ANN có khả ứng dụng thực tế thị trƣờng chứng khoán Việt Nam [11] Nhìn chung nghiên cứu bƣớc đầu mang lại kết khả quan Tuy nhiên hệ thống đề xuất phần đƣợc thử nghiệm ứng dung desktop mang tính nghiên cứu chƣa đƣa vào thực tế nên nhà đầu tƣ không dễ sử dụng phần mềm này: Do đó, đề tài “Áp dụng phƣơng pháp lai thuật giải tối ƣu bầy đàn hồi qui véctơ hỗ trợ dự đoán giá chứng khoán” đề tài tập trung nghiên cứu vào nhằm giúp cho nhà đầu tƣ dễ dàng dự báo giá chứng khốn cách xác từ đƣa định đầu tƣ Mục tiêu nghiên cứu nhằm nghiên cứu mơ hình hồi qui véctơ hỗ trợ thuật giải bầy đàn Sau phát triển mơ hình để dự báo cách xác giá đóng cửa tƣơng lai chứng khốn Một mơ hình đƣợc thiết lập, trở thành cơng cụ có ích việc giúp cho nhà đầu tƣ dự báo cách xác giá chứng khốn Bố cục khóa luận gồm chƣơng: Chƣơng Giới thiệu phƣơng pháp phân tích thị trƣờng chứng khốn cơng trình nghiên cứu để khai phá liệu Chƣơng Trình bày cách tổng quan kiến thức khai phá liệu khám phá tri thức, khai phá liệu thị trƣờng chứng khoán, số vấn đề biểu diễn xử lý liệu áp dụng khai phá liệu chứng khoán Trong chƣơng trình bày kiến thức trình khai phá liệu giới thiệu số kỹ thuật phân cụm liệu phổ biến thƣờng đƣợc sử dụng lĩnh vực khai phá liệu khám phá tri thức Đồng thời chƣơng đề cập tới thuật giải tối ƣu hóa bầy đàn thuật giải xây dựng dựa khái niệm trí tuệ bầy đàn để tìm kiếm lời giải cho tốn tối ƣu hóa khơng gian tìm kiếm Ngồi chƣơng giới thiệu mơ hình Support vector marchine mơ hình xây dựng siêu phẳng tập hợp siêu phẳng không gian nhiều chiều vô hạn chiều, đƣợc sử dụng cho phân loại, hồi quy, nhiệm vụ khác Chƣơng trình bày nghiên cứu ý tƣởng thuật giải cho mơ hình hồi quy vector hỗ trợ kết hợp mơ hình với thuật giải tối ƣu hóa bầy đàn để xác định tham số tối ƣu cho SVR Chƣơng 3: Áp dụng phƣơng pháp lai thuật giải tối ƣu bầy đàn hồi qui véctơ hỗ trợ dự đoán giá chứng khoán Việt Nam Chƣơng 4: Kết thử nghiệm mô hình Linear Regression, mơ hình SVR chuẩn, mơ hình SVR sử dụng PSO xác định tham số C, epsilon, gamma, mơ hình SVR sử dụng PSO xác định tham số train test split Phần trình bày số đoạn mã lệnh xử lý chƣơng trình số giao diện chƣơng trình mơ Chƣơng 5: Phần kết luận luận văn tổng kết lại vấn đề nghiên cứu, đánh giá kết nghiên cứu, hƣớng phát triển đề tài 10 Hình 4.5 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mơ hình SVR cho mã FLC 48 4.2.4 Mơ hình SVR sử dụng PSO xác định tham số train test split Bƣớc 1: Trong toán dự đoán giá chứng khoán mã FLC tơi bắt đầu tạo X: gồm liệu chứng khoán independence qua tiền xử lý Y: gồm liệu chứng khoán dependence (Kết qua mong chờ) Trong tốn giá đóng cửa (Close) Bƣớc 2: Trƣớc xây dựng mơ hình tơi tách liệu thành tập: tập huấn luyện tập kiểm thử Mục đích phƣơng pháp đánh giá để thu đƣợc đánh giá đáng tin cậy hiệu hệ thống Hiệu hệ thống không phụ thuộc vào giải thuật học máy đƣợc sử dụng, mà phụ thuộc vào: +Phân bố lớp (Class distribution) +Chi phí việc phân lớp sai (Cost of misclassification) +Kích thƣớc tập huấn luyện (Size of the training set) +Kích thƣớc tập kiểm thử (Size of the test set) Hiện có nhiều phƣơng pháp đánh giá nhƣ : +Hold-out: Phƣơng pháp Hold-out phân chia tập liệu thành tập độc lập Ví dụ, tập huấn luyện (training set) 2/3, tập thử nghiệm (testing set) 1/3 Phƣơng pháp thích hợp cho tập liệu nhỏ Tuy nhiên, mẫu khơng đại diện cho toàn liệu (thiếu lớp tập thử nghiệm) +Stratified sampling: phƣơng pháp phân chia tổng thể thành tổ theo tiêu thức hay nhiều tiêu thức có liên quan đến mục đích nghiên cứu (nhƣ phân tổ DN theo vùng, theo khu vực, theo loại hình, theo quy mơ,…) Sau tổ, dùng cách chọn mẫu ngẫu nhiên đơn giản hay chọn mẫu hệ thống để chọn đơn vị mẫu Đối với chọn mẫu phân tầng, số đơn vị chọn tổ tuân theo tỷ lệ số đơn vị tổ chiếm tổng thể, khơng tn theo tỷ lệ „ Đối với tập ví dụ có kích thƣớc nhỏ khơng cân xứng (unbalanced datasets), ví dụ tập huấn luyện thử nghiệm khơng phải đại diện „ Ví dụ: Có (rất) ít, khơng có, ví dụ số lớp „ Mục tiêu: Phân bố lớp (class distribution) tập huấn luyện tập kiểm thử phải xấp xỉ nhƣ tập tồn ví dụ (D) 49 Lấy mẫu phân tầng (Stratified sampling) • Là phƣơng pháp để cân xứng (về phân bố lớp) • Đảm bảo tỷ lệ phân bố lớp (tỷ lệ ví dụ lớp) tập huấn luyện tập kiểm thử xấp xỉ „ Phƣơng pháp lấy mẫu phân tầng không áp dụng đƣợc cho tốn học máy dự đốn/hồi quy (vì giá trị đầu hệ thống giá trị số, nhãn lớp) +Repeated hold-out „ Áp dụng phƣơng pháp đánh giá Hold-out nhiều lần, để sinh (sử dụng) tập huấn luyện thử nghiệm khác • Trong bƣớc lặp, tỷ lệ định tập D đƣợc lựa chọn ngẫu nhiên để tạo nên tập huấn luyện (có thể sử dụng kết hợp với phƣơng pháp lấy mẫu phân tầng – stratified sampling) • Các giá trị lỗi (hoặc giá trị tiêu chí đánh giá khác) ghi nhận đƣợc bƣớc lặp đƣợc lấy trung bình cộng (averaged) để xác định giá trị lỗi tổng thể Phƣơng pháp khơng hồn hảo • Mỗi bƣớc lặp sử dụng tập kiểm thử khác • Có số ví dụ trùng lặp (đƣợc sử dụng lại nhiều lần) tập kiểm thử +Cross-validation: Hay gọi k-fold cross validation Phƣơng pháp phân chia liệu thành k tập có kích thƣớc Tại vòng lặp sử dụng tập tậpthử nghiệm tập lại tập huấn luyện Giá trị k thƣờng = 10 Ta dùng hai cách: Leave-one-out : k=số mẫu liệu (dành cho tập liệu nhỏ) Stratified cross-validation : dùng phƣơng pháp lấy mẫu để lớp tập phân bố nhƣ toàn liệu +Bootstrap sampling: phƣơng pháp lấy mẫu có hồn lại (sampling with replacement) Phƣơng pháp lấy mẫu có hồn lại có nghĩa cá thể xuất nhiều lần lần lấy mẫu Trong biết , sử dụng phƣơng pháp Hold-out (Splitting): + Tồn tập ví dụ D đƣợc chia thành tập không giao • Tập huấn luyện:D_train– để huấn luyện hệ thống • Tập kiểm thử: D_test– để đánh giá hiệu hệ thống học → D= D_train D_test, thƣờng |D_train| >> |D_test| 50 Các yêu cầu: + Bất kỳ ví dụ thuộc vào tập kiểm thử D_test khơng đƣợc sử dụng q trình huấn luyện hệ thống + Bất kỳ ví dụ đƣợc sử dụng giai đoạn huấn luyện hệ thống (i.e., thuộc vào D_train) không đƣợc sử dụng giai đoạn đánh giá hệ thống +Các ví dụ kiểm thử D_test cho phép đánh giá không thiên vị hiệu hệ thống Bƣớc 3: Sau sử dụng phƣng pháp SVR PSO để tạo mô hình cho tập liệu D_train Sau tạo xong model đƣợc kết dự đoán (Predict) Qua nhiều bƣớc lập tính lại v gbest tính RMSE tốt nhât dựa vào D_test Predict Kết thu đƣợc tốt nhƣ sau với C = 7.587 & gamma = -0.007 &epsilon =0.331 & Error = 5.338115 Hình 4.6 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mơ hình SVR với phƣơng pháp đánh giá Hold-out (Splitting) cho mã FLC 4.2.5 Mơ hình Linear Regression cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Trong toán dự đoán giá chứng khoán với nhiều mã chứng khốn bắt đầu tạo X: gồm liệu chứng khoán independence qua tiền xử lý: Ticket (Mã chứng khoán đƣợc chuyển từ chữ sang số) , DTYYYYMMDD (ngày giao dịch), OpenFixed, 51 HighFixed, LowFixed, CloseFixed, Volume , Open, High, Low, VolumeDeal,VolumeFB, VolumeFS Y: gồm liệu chứng khoán dependence (Kết qua mong chờ) Trong tốn giá đóng cửa (Close) Sau sử dụng LinearRegression để tạo mơ hình cho tập liệu Sau tạo xong model đƣợc kết dự đốn (Predict) Bƣớc tính RMSE dựa vào tập Y kết dự đoán (Predict) Kết thu đƣợc nhƣ sau với Error (RMSE) = 5.102624 với hàm số y = -2.21591258304 * x + 22.8760205542 Hình 4.7 Kết thu đƣợc Mơ hình Linear Regression cho nhiều mã có thuộc tính thời gian 4.2.6 Mơ hình SVR chuẩn cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Trong toán dự đoán giá chứng khoán với nhiều mã chứng khốn tơi bắt đầu tạo X: gồm liệu chứng khoán independence qua tiền xử lý Y: gồm liệu chứng khoán dependence (Kết qua mong chờ) Trong tốn giá đóng cửa (Close) Sau sử dụng phƣng pháp SVR với tham số mặc định: để tạo mơ hình cho tập liệu Sau tạo xong model đƣợc kết dự đốn (Predict) Từ tính RMSE tốt nhât dựa vào tập Y kết dự đoán (Predict) 52 Kết thu đƣợc nhƣ sau với Fitness of SVF standard {'kernel': 'rbf', 'C': 1.0, 'verbose': False, 'degree': 3, 'epsilon': 0.1, 'shrinking': True, 'max_iter': -1, 'tol': 0.001, 'cache_size': 200, 'coef0': 0.0, 'gamma': 'auto'} Error (RMSE) = 26.402102 Hình 4.8 Kết thu đƣợc Mơ hình SVR chuẩn 4.2.7 Mơ hình SVR sử dụng PSO xác định tham số C, epsilon, gamma cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Trong toán dự đoán giá chứng khoán với nhiều mã chứng khốn bắt đầu tạo X: gồm liệu chứng khoán independence qua tiền xử lý Y: gồm liệu chứng khoán dependence (Kết qua mong chờ) Trong tốn giá đóng cửa (Close) Sau sử dụng phƣơng pháp SVR PSO để tạo mô hình cho tập liệu Sau tạo xong model đƣợc kết dự đoán (Predict) Qua nhiều bƣớc lập tính lại v gbest tính RMSE tốt nhât dựa vào tập Y kết dự đoán (Predict) Kết thu đƣợc tốt nhƣ sau với C = Trong toán dự đốn giá chứng khốn mã FLC bắt đầu tạo X: gồm liệu chứng khoán independence qua tiền xử lý Y: gồm liệu chứng khoán dependence (Kết qua mong chờ) Trong tốn giá đóng cửa (Close) Sau sử dụng phƣơng pháp SVR PSO để tạo mơ hình cho tập liệu Sau tạo xong model đƣợc kết dự đốn (Predict) Qua nhiều bƣớc lập tính lại v gbest tính RMSE tốt nhât dựa vào tập Y kết dự đoán (Predict) 53 Kết thu đƣợc tốt nhƣ sau với C = 11.907 & gamma = 7.575 &epsilon = 4.073 có Error (RMSE) = 3.602991 Hình 4.9 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mơ hình SVR cho danh mục nhiều mã chứng khốn có thuộc tính thời gian 4.2.8 Mơ hình SVR sử dụng PSO xác định tham số train test split gamma cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Bƣớc 1: Trong toán dự đoán giá chứng khoán với nhiều mã chứng khốn tơi bắt đầu tạo X: gồm liệu chứng khoán independence qua tiền xử lý Y: gồm liệu chứng khoán dependence (Kết qua mong chờ) Trong tốn giá đóng cửa (Close) Bƣớc 2: Sử dụng phƣơng pháp Hold-out (Splitting): + Tồn tập ví dụ D đƣợc chia thành tập khơng giao • Tập huấn luyện:D_train– để huấn luyện hệ thống • Tập kiểm thử: D_test– để đánh giá hiệu hệ thống học → D= D_train D_test, thƣờng |D_train| >> |D_test| Các yêu cầu: + Bất kỳ ví dụ thuộc vào tập kiểm thử D_test không đƣợc sử dụng trình 54 huấn luyện hệ thống + Bất kỳ ví dụ đƣợc sử dụng giai đoạn huấn luyện hệ thống (i.e., thuộc vào D_train) không đƣợc sử dụng giai đoạn đánh giá hệ thống +Các ví dụ kiểm thử D_test cho phép đánh giá không thiên vị hiệu hệ thống Bƣớc 3: Sau sử dụng phƣng pháp SVR PSO để tạo mơ hình cho tập liệu D_train Sau tạo xong model đƣợc kết dự đốn (Predict) Qua nhiều bƣớc lập tính lại v gbest tính RMSE tốt nhât dựa vào D_test Predict Kết thu đƣợc tốt nhƣ sau với C = 14.046 & gamma = 20.077 &epsilon = 13.999 & Error = 36.647374 Hình 4.10 Kết thu đƣợc sử dụng PSO xác định tham số C, epsilon, gamma cho mơ hình SVR train test split gamma cho danh mục nhiều mã chứng khốn có thuộc tính thời gian 4.3 Kết thử nghiệm RMSE tốt Mơ hình C gamma epsilon Linear Regression cho mã FLC SVR chuẩn cho mã FLC SVR sử dụng PSO xác định 0.533945 0.1 0.0714 2.189659 8.297 8.760 -0.193 0.307525 55 tham số cho mã FLC SVR sử dụng PSO xác định tham số train test split cho mã 7.587 -0.007 0.331 5.338115 FLC Linear Regression cho danh mục nhiều mã chứng khoán có 5.102624 thuộc tính thời gian SVR chuẩn cho danh mục nhiều mã chứng khốn có thuộc 1/14 0.1 26.402102 tính thời gian SVR sử dụng PSO xác định tham số cho danh mục nhiều mã chứng khốn có thuộc tính 11.907 7.575 4.073 3.602991 14.046 20.077 -13.399 36.647374 thời gian SVR sử dụng PSO xác định tham số train test split cho danh mục nhiều mã chứng khốn có thuộc tính thời gian Bảng 4.2 Kết thử nghiệm Bảng so sánh kết dự đoán mã chứng khoán FLC mơ hình Linear Regression, SVR chuẩn, SVR sử dụng PSO xác định tham số SVR sử dụng PSO xác định tham số train test split làm phƣơng pháp đánh giá Từ kết thử nghiệm cho thấy RMSE mơ hình SVR có sử dung PSO để xác định tham số = 0.307525 tối ƣu mô hình Linear Regression SVR chuẩn có C=0, gamma =0.1 , epsilon = n Ngoài kết thử nghiệm cho thấy SVR có sử dụng PSO để xác định tham số tối ƣu mơ hình Linear Regression SVR chuẩn dù mã FLC hay danh mục chứng khốn nhiều mã chứng khốn có yếu tố thời gian Điều lần khẳng định tính vƣợt trội SVR so với Linear Regression dự đoán giá cổ phiếu Đồng thời sử dụng PSO để xác định tham số đem lại kết dự đốn xác Đây tín hiệu khả quan cho thấy khả ứng dụng thực tế 56 kỹ thuật máy học để giải toán dự đoán giá cổ phiếu thị trƣờng chứng khốn Việt Nam Ngồi viết trình bày so sánh mơ hình đề xuất GA-SVR với kết Hsieh H.I., Lee T.P., (2011) viết “Hybrid particle swarm optimization and support vector regression model for financial time series forecasting” [11] Dự đóng giá đóng của số TAIEX (Taiwan Stock Exchange Capitalization Weighted Stock Index) cho thấy chênh lệch với độ đo RMSE SVR chuẩn PSOSVR 49 27-49.10= 0.17 viết 26.402102-3.602991= 22.799111 Hình 4.11 Kết so sánh SVR PSO-SVR Hsieh H.I., Lee T.P CHƢƠNG KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 57 Kết đạt đƣợc: + Kết lý thuyết: Khóa luận trình bày đƣợc tổng quan khai phá liệu: khái niệm, kỹ thuật khai phá liệu ứng dụng khai phá liệu Trong khóa luận tập trung vào kỹ thuật khai phá liệu áp dụng vào toán thực tế đƣợc quan tâm tốn dự báo nói chung dự báo giá chứng khốn nói riêng Khóa luận trình bày đƣợc số nội dung sở lý thuyết mơ hình Hồi Qui Véctơ Hỗ Trợ , thuật giải PSO, công cụ áp dụng mơ hình, quy trình xây dựng mơ hình,và phần mềm xử lý liệu Weka, thƣ viện mã nguồn mở scikit-learn, ngơn ngữ lập trình Python Bài khóa luận đề xuất phƣơng pháp lai PSO-SVR để dự đoán giá cổ phiếu Việt Nam Trong phƣơng pháp lai này, PSO thực nhiệm vụ: xác định tham số tối ƣu cho SVR dùng để huấn luyện SVR + Kết thực nghiệm: Xây dựng ứng dụng demo thử nghiệm cho thấy phƣơng pháp đề xuất PSO-SVR cho kết dự đoán tốt SVR, Linear Regression có khả ứng dụng thực tế thị trƣờng chứng khoánViệt Nam Hạn chế hƣớng phát triển: +Hạn chế: Bên cạnh kết đạt đƣợc, khóa luận số hạn chế thuật giải để ƣớc lƣợng nhƣ đánh giá nhiều hạn chế nhƣ: Trong phiên giao dịch có tác động yếu tố ngoại lai lớn nhƣ tâm lý nhà đầu tƣ, tác động thị trƣờng chứng khốn khác, thơng tin thay đổi sách, giá vàng, giá xăng dầu,… làm cho sai số dự báo tăng Do kết mơ hình đƣa mang tính chất tham khảo nhiều Đây mơ hình phân tích kĩ thuật, nên chƣa thể dự báo cách xác yêu tố tâm lý nhà đầu tƣ, tác động khác vào thị trƣờng chứng khoán +Hƣớng phát triển: Hƣớng phát triển tiến hành thử nghiệm với số phân tích kỹ thuật khác giá vàng, giá dầu mỏ, thông tin doanh nghiệp Đồng thời nghiên cứu phƣơng pháp phù hợp để chọn lƣa đặt trƣng đầu vào mã chứng khốn có q nhiều đặc trƣng đầu vào 58 DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Trần Trung Kiên, Bành Trí Thành, (2011), “Dự đốn giá cổ phiếu thị trường chứng khoán Việt Nam phương pháp lai GA-SVR”, Luận văn đại học trƣờng Đại học Khoa học tự nhiên HCM [2] Hoàng Văn Dũng, (2007),‖ Khai phá liệu web kỹ thuật phân cụm”, Luận văn thạc sỹ khoa học trƣờng Đại học Sƣ phạm Hà Nội 59 [3] Trần Minh Tân, (2012), ―Nghiên cứu kỹ thuật SVM kiểm sốt nội dung hình ảnh‖, Luận văn thạc sỹ công nghệ thông tin trƣờng Đại Học Lạc Hồng Đồng Nai [4] Kiến thức PSO, (2015), https://phamhoangquan.wordpress.com/2010/07/10/thu%E1%BA%ADt-toant%E1%BB%91i-%C6%B0u-b%E1%BA%A7y-dan/ , truy cập 05/11/2017 [5] Tiền xử lý liệu SVM, (2015), https://ongxuanhong.wordpress.com/2015/08/20/tien-xu-ly-du-lieu-horse-colic-dataset/, truy cập 05/11/2017 [6] Phạm Huyền Trang, (2012), “Dự báo thị trường chứng khoán dựa khai phá liệu tweeter” , Luận văn thạc sĩ Trƣờng Đại học Công Nghệ Hà Nội [7] Vũ Thị Gƣơng, (2012), “Kỹ Thuật Khai Phá Dữ Liệu Chuỗi Thời Gian Áp Dụng Trong Dự Báo Chứng Khoán”, Luận văn thạc sĩ Học viện Bƣu viễn thơng Hà Nội [8] Nguyễn Khắc Hiếu Nguyễn Thị Anh Vân, (2014), “Dự Báo Lạm Phát Việt Nam Mơ Hình Mạng Thần Kinh Nhân Tạo”, Tạp chí phát triển kinh tế [9] Phạm Thành Phƣớc, (2013), “Mạng Neural ứng dụng dự báo giá chứng khoán trung tâm giao dịch Chứng Khốn TP Hồ Chí Minh”, Luận văn thạc sỹ ngành Khoa học máy tính Học viện bƣu viễn thơng Hà Nội [10] Vạn Duy Thanh Long, Lê Minh Duy, (2011), “Dự đoán xu hướng cổ phiếu thị trường việt nam phương pháp hai giai đoạn dựa viêc kết hợp k-means svm với ước lượng xác suất lớp”, Luận văn đại học trƣờng Đại học Khoa học Tự nhiên HCM Tiếng Anh: [11] Hsieh H.I., Lee T.P., (2011), “Hybrid particle swarm optimization and support vector regression model for financial time series forecasting‖, National Science Council of the Republic of China under Grant Number NSC 97-2221-E-030-011-MY2 [12] Machine Learning in Python Open Source document,http://scikit- learn.org/stable/documentation.html, truy cập 05/11/2017 [13] Abraham A., Baikunth N., Mahanti P K., (2001), “Hybrid intelligent systems for stock market analysis”, LNCS, Springer-Verlag, Computational Science - ICCS 2001, vol 2074, pp 337–345 60 [14] Ang J.H., Teoh E.J., Tan C.H., Goh K.C., Tan K.C., (2008), “Dimension reduction using evolutionary support vector machine”, IEEE Congress on volutionary, pp 3634-3641 [15] Bollen.J, (2011), “Twitter mood predicts the stock market, Journal of Computational Science , pp 1-8 [16] Tabachnick B G and Fidell L S (2001), “Using multivariate statistics”, Pearson education, upper saddle river, NJ, USA, 4th edition [17] Meyler A, Kenny G, and Quinn T, (1998),”Forecasting irish inflation using arima models‖, technical paper 3/rt/1998, Central bank of ireland research department [18] Khashei.M and Bijari.M, (2010), “An artificial neural network (p, d, q) model for timeseries forecasting,”, Expert Systems with Applications: An International Journal, vol:37(1), pp 479–489 [19] Zhang.G, Patuwo.B, and Hu M Y, (1998), “Forecasting with artificial neural network:”, International journal of forecasting, vol:14(1), pp 35–62 [20] Khashei.M, Bijari.M, and Ardali G A R, (2009), “Improvement of auto-regressive integrated moving average models using fuzzy logic and artificial neural networks (ANN)‖, journal of Neurocomputing, vol:72(4–6), pp 956–967 [21] Fuller R, (1995), “Neural fuzzy system”, Abo Akademic University, pp 206-295 [22]Khan E, (2000), “Neural fuzzy based intelligent systems and applications, in fusion of neural networks, fuzzy systems, and genetic algorithms‖ , CRC Press, New York, NY, USA, pp 107–139 [23]Yao J T, Tan C L, and Poh H L, (1999), “Neural networks for technical analysis”, International journal of theoretical and applied finance , vol:2, pp 221–241 [24] Hansen J V, Mcdonald.J B, and Nelson R D, (1999), “Time series prediction with genetic-algorithm designed neural networks: an empirical comparison with modern statistical models”, Computational intelligence, vol 15, no 3, pp 171–184 [25] Wijaya Y B., Kom S, and Napitupulu.T.A, (2010), “Stock price prediction: comparison of arima and artificial neural network methods—an indonesia stock's case‖, Proceedings of the 2nd international conference on advances in computing, control and telecommunication technologies (ACT '10), Jakarta, Indonesia , pp 176–179 [26] Cheng.C.H, Shiu.H.Y, (2013), “A novel ga-svr time series model based on selected indicators method for forecasting stock price‖, international conference , Information science, electronics and electrical engineering (iseee), vol:1, pp 395-399 61 [27] Wenge Z., “A PSO-Based SVR algorithm for investment prediction” , journal of Convergence information technology, vol: 8, no 1, pp 496-501 [28] Ding Y, Cheng L, Pedrycz, W , Hao K, (2015), “Nonlinear kernel prediction for large data set with a particle swarm-optimized interval support vector regression‖, IEEE transactions on Neural networks and learning systems , vol:26(10) , issue:10, pp: 2521-2534 62 ... desktop mang tính nghiên cứu ch a đ a vào thực tế nên nhà đầu tƣ không dễ sử dụng phần mềm này: Do đó, đề tài Áp dụng phƣơng pháp lai thuật giải tối ƣu bầy đàn hồi qui véctơ hỗ trợ dự đoán giá chứng. .. thuật giải cho mơ hình hồi quy vector hỗ trợ kết hợp mô hình với thuật giải tối ƣu h a bầy đàn để xác định tham số tối ƣu cho SVR Chƣơng 3: Áp dụng phƣơng pháp lai thuật giải tối ƣu bầy đàn hồi. .. 2.1 Thuật giải tối ưu bầy đàn 2.1.1 Giới thiệu thuật giải PSO (Particle Swarm Optimization) Phƣơng pháp tối ƣu bầy đàn dạng thuật giải tiến h a quần thể (evolutionary algorithm) thuật giải tối