1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy 04

52 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN ĐỨC HUÂN DỰ BÁO XU HƢỚNG CHỨNG KHOÁN TẠI VIỆT NAM BẰNG PHƢƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 2014 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN ĐỨC HUÂN DỰ BÁO XU HƢỚNG CHỨNG KHOÁN TẠI VIỆT NAM BẰNG PHƢƠNG PHÁP HỌC MÁY Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH TS NGUYỄN PHÚ BÌNH Hà Nội – 2014 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn nghiên cứu, tổng hợp thực Toàn điều đƣợc trình bày luận văn cá nhân đƣợc tham khảo tổng hợp từ nguồn tài liệu khác Tất tài liệu tham khảo, tổng hợp đƣợc trích dẫn với nguồn gốc rõ ràng Tơi xin chịu hồn tồn trách nhiệm lời cam đoan Nếu có sai trái, tơi xin chịu hình thức kỷ luật theo qui định Hà Nội, tháng 06 năm 2014 Học viên Trần Đức Huân TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Tơi muốn bày tỏ lịng biết ơn sâu sắc tới ngƣời giúp đỡ trình làm luận văn, đặc biệt tơi xin cám ơn TS Nguyễn Văn Vinh - Trƣờng ĐH Công nghệ, ĐHQGHN TS Nguyễn Phú Bình - Bộ Khoa học Cơng nghệ, với lịng kiên trì, thầy bảo chi tiết cho lời nhận xét quý báu bƣớc làm luận văn Đồng thời xin gửi lời cảm ơn tới thầy cô giáo khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà nội truyền đạt kiến thức cho suốt thời gian học tập nghiên cứu vừa qua Tôi xin chân thành cảm ơn quan, bạn bè, đồng nghiệp, gia đình ngƣời thân chia sẻ, giúp đỡ, động viên, tạo điều kiện thuận lợi để tơi hồn thành nhiệm vụ học tập luận văn Hà Nội, tháng năm 2014 Học viên Trần Đức Huân TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .3 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU Chƣơng THỊ TRƢỜNG CHỨNG KHỐN VÀ PHÂN TÍCH CHỨNG KHỐN.11 1.1 Thị trƣờng chứng khoán 11 1.1.1 Tổng quan thị trƣờng chứng khoán 11 1.1.2 Đặc điểm Thị trƣờng chứng khoán: 12 1.1.3 Chức thị trƣờng chứng khoán: 12 1.1.4 Các hình thức thị trƣờng chứng khoán 12 1.1.5 Các số mã chứng khoán sàn giao dịch 13 1.2 Phân tích Kỹ thuật ứng dụng dự báo chứng khoán 14 1.2.1 Khái niệm 14 1.2.2 Công cụ sử dụng Phân tích kỹ thuật 15 1.2.3 Các số kỹ thuật dùng dự báo chứng khoán 17 1.2.4 Ứng dụng phân tích kỹ thuật 26 Chƣơng KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ MƠ HÌNH DÙNG TRONG KHAI PHÁ DỮ LIỆU 27 2.1 Khai phá liệu (Data Mining) 27 2.2 Một số mơ hình dùng khai phá liệu 29 2.2.1 Mơ hình mạng nơ ron nhân tạo (ANN - Artificial Neural Network) 29 2.2.2 Mơ hình định (Decision Tree Algorithm): 31 2.2.3 Mơ hình máy véc tơ hỗ trợ (Support Vector Machine - SVM) 32 Chƣơng MƠ HÌNH DỰ BÁO CHỨNG KHỐN 36 3.1 Giới thiệu toán dự báo chứng khoán 36 3.2 Mơ hình dự báo (Predictive Model) 37 3.3 Thu thập xử lý liệu 38 3.3.1 Thu thập liệu 38 3.3.2 Tiền xử lý liệu 38 TIEU LUAN MOI download : skknchat@gmail.com 3.3.3 Chọn loại liệu đầu vào 40 3.3.4 Phân hoạch liệu 40 3.4 Đánh giá mơ hình 40 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ 44 4.1 Thu thập liệu 44 4.2 Tiền xử lý liệu 46 4.3 Phƣơng thức phân hoạch liệu 46 4.4 Kết thử nghiệm 47 4.4.1 Kết chạy thực nghiệm so sánh SVR với mơ hình khác 47 4.4.2 Kết dự đoán ngày ngày mã với SVR 48 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CK Chứng khoán CP Cổ phiếu MA Moving Average Trung bình trƣợt SMA Simple Moving Average Trung bình trƣợt đơn giản EMA Exponential Moving Average Trung bình trƣợt số mũ MACD MovingAverage Phân kỳ hội tụ đƣờng trung Convergence/Divergence bình động Phân tích kỹ thuật PTTK RSI Relative Strength Index Thị trƣờng chứng khoán TTCK KDD Chỉ số cƣờng độ tƣơng đối Knowledge Discorvery and Data Phát tri thức khai phá Mining liệu SVM Support Vector Machine Máy véc tơ hỗ trợ SVR Support Vector Regression Máy véc tơ hỗ trợ hồi quy SMO Sequential Minimal Optimization Tối thiểu hóa QP Quadratic Programming GD Quy hoạch toàn phƣơng Giao dịch TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC HÌNH VẼ Hình 1.1: Biểu đồ dạng đƣờng .15 Hình 1.2: Biểu đồ dạng then chắn 16 Hình 1.3: Biểu đồ dạng nến 17 Hình 1.4: Biểu đồ thể Aroon 21 Hình 1.5: Biểu đồ MACD 23 Hình 1.6: Biểu đồ Bollinger band .25 Hình 2.1: Mơ hình khai phá liệu .27 Hình 2.2: Kiến trúc ANN 29 Hình 2.3: Sơ đồ trình xử lý liệu ANN .30 Hình 2.4: Ví dụ định 31 Hình 2.5: Khơng gian tuyến tính 33 Hình 2.6: Biến lỏng đƣợc sử dụng SVM 33 Hình 2.7: ε – SVR với hạt nhân đa thức (phù hợp với điểm liệu) 35 Hình 2.8: SVR với hạt nhân tuyến tính giảm thiểu lỗi với biến lỏng .35 Hình 3.1: Mơ hình dự báo chứng khoán đề xuất 37 Hình 3.2: Phƣơng pháp K-Fold 41 Hình 4.1: Dữ liệu đƣợc đƣa định dạng *.arff 46 Hình 4.2: Biểu đồ thể kết thử nghiệm dự đoán với mơ hình khác 48 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC BẢNG BIỂU Bảng 3.1: Ma trận hỗn hợp phân lớp 42 Bảng 4.1: Các mã chứng khoán đƣợc chọn thử nghiệm 44 Bảng 4.2: Dữ liệu mã chứng khoán 45 Bảng 4.3: Dữ liệu sau đƣợc xử lý mã CP 46 Bảng 4.4: Bảng kết thử nghiệm dự đoán với mơ hình khác 47 Bảng 4.5: Kết dự đoán mã với thuật toán SVR .48 TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Đặt vấn đề Thế giới ngày trở nên “phẳng” hơn, nhờ thành tựu việc phát triển công nghệ thông tin, đặc biệt bùng nổ mạnh mẽ mạng Internet Nhờ internet làm xóa bỏ, khơng cịn khoảng cách không gian địa lý, tạo điều kiện cho tiếp cận thu nhận đƣợc nhiều thông tin hơn, song tất thông tin có ích cho ngƣời mà phải biết chắt lọc, tổng hợp phân tích thơng tin để phục vụ cho mục đích Trên thực tế với lƣợng liệu khổng lồ đƣợc tổng hợp lƣu trữ có phần nhỏ đƣợc phân tích thƣờng xun có ích, số cịn lại chƣa khai thác, phát đƣợc hết tri thức Các phƣơng pháp quản trị khai thác liệu truyền thống ngày không đáp ứng đƣợc nhu cầu khai thác, phát thông tin Do phát triển khuynh hƣớng kỹ thuật kỹ thuật Phát tri thức khai phá liệu ( KDD – Knowledge Discorvery and Data Mining) Các kỹ thuật đƣợc nghiên cứu áp dụng nhiều lĩnh vực khác Trong khai phá liệu (Data mining) lĩnh vực phát triển mạnh mẽ, có nhiều ứng dụng thực tiễn hƣớng nghiên cứu dự báo đƣợc coi quan trọng nhiều ngành, đặc biệt quan trọng quản lý vĩ mô kinh doanh Các kỹ thuật dự báo đƣợc hình thành từ kỷ thứ 19 [1], nhiên dự báo có ảnh hƣởng lớn phát triển cơng nghệ thơng tin chất mô phƣơng pháp phức tạp cần hỗ trợ lớn máy tính Đến năm 1950, lý thuyết dự báo với phƣơng pháp luận đƣợc xây dựng phát triển có hệ thống [1] Việc dự báo thị trƣờng chứng khoán toán thu hút nhiều quan tâm, nghiên cứu, nƣớc phát triển giới Với Việt Nam thị trƣờng chứng khốn đƣợc coi phát triển ( ngày 11-71998 Chính phủ ký Nghị định số 48/CP ban hành chứng khoán đánh dấu đời phát triển thị trường chứng khoán Việt Nam) nên việc nghiên cứu áp dụng kỹ thuật toán dự báo chƣa đƣợc đầu tƣ nghiên cứu nhiều Cùng với xu hƣớng phát triển thị trƣờng chứng khoán Việt Nam nhƣ nay, cần phải có nghiên cứu phát triển phƣơng pháp, công cụ dùng cho việc TIEU LUAN MOI download : skknchat@gmail.com 36 Chƣơng MƠ HÌNH DỰ BÁO CHỨNG KHOÁN Trong chƣơng này, lý thuyết tảng kiến thức đƣợc trình bày đƣợc xem xét nghiên cứu để giải toán Trƣớc hết chúng tơi giới thiệu tốn dự báo chứng khốn, mơ hình dự đốn chung Sau chuyển hƣớng đến mơ hình sử dụng cho việc dự báo chứng khốn dựa kiến thức cơng cụ hỗ trợ việc triển khai thực nghiệm chƣơng trình 3.1 Giới thiệu toán dự báo chứng khoán Bài toán dự báo thực dự báo tƣơng lai dựa vào thông tin khứ Gần đây, có nhiều nghiên cứu đƣợc thực việc áp dụng thuật toán học để phân tích mơ hình giá dự đốn giá cổ phiếu thay đổi số Hầu hết nhà đầu tƣ chứng khoán dựa vào hệ thống giao dịch thơng minh hỗ trợ họ việc dự đốn giá dựa tình điều kiện khác nhau, qua giúp họ đƣa định đầu tƣ tốt Giá cổ phiếu đƣợc coi nhiều biến động nhạy cảm với thay đổi nhanh chóng chất lĩnh vực tài phần pha trộn thông số đƣợc biết đến nhƣ ( Dữ liệu lịch sử giá, lợi nhuận quý trƣớc, năm trƣớc, …) yếu tố chƣa biết (nhƣ Kết bầu cử, tin đồn, …) [11] Một nhà kinh doanh thơng minh dự đốn giá cổ phiếu mua cổ phiếu trƣớc tăng giá, bán trƣớc giảm giá trị Mặc dù khó thay cho nhà kinh doanh có chuyên mơn sâu kinh nghiệm nhiều, song thuật tốn dự đốn tối ƣu hỗ trợ tốt trực tiếp dẫn đến lợi nhuận cao cho nhà đầu tƣ hay công ty đầu tƣ Trong thực tế, có phương pháp dự báo chứng khốn chính: Phân tích bản: Thực nhà phân tích bản, phƣơng pháp quan tâm nhiều tới thông tin công ty giá cổ phiếu thực tế Các nhà phân tích đƣa định dựa hiệu suất khứ công ty, dự báo lợi nhuận … Phân tích kỹ thuật: Thực nhà phân tích kỹ thuật, phƣơng pháp đề với việc xác định giá cổ phiếu dựa mô hình khứ cổ phiếu (sử dụng phân tích chuỗi thời gian.) TIEU LUAN MOI download : skknchat@gmail.com 37 Trong việc nghiên cứu giải toán thực kết hợp thông tin cổ phiếu với phƣơng pháp học máy Với thông tin cổ phiếu chúng tơi quan tâm nhiều tới việc phân tích kỹ thuật để nghiên cứu thuật toán với số kỹ thuật chuỗi thời gian cổ phiếu Thuật toán đƣợc áp dụng thuật toán SVM kết hợp với số chứng khoán bản, số kỹ thuật đƣợc lựa chọn Sự kết hợp cho ta hệ hỗ trợ cho định dự báo giá chứng khoán tăng hay giảm khơng thay đổi Mơ hình dự báo đƣợc trình bày phần dƣới 3.2 Mơ hình dự báo (Predictive Model) Dựa vào phân tích trên, chúng tơi sử dụng mơ hình cho việc dự báo đƣợc thực nhƣ sau: Hình 3.1: Mơ hình dự báo chứng khốn đề xuất Ở chúng tơi sử dụng mơ hình SVR thử nghiệm với hàm nhân cho SVR hàm nhân đa thức (Polynomial - Poly) để ánh xạ liệu nhƣ biến đầu vào xi TIEU LUAN MOI download : skknchat@gmail.com 38 mơ hình SVR Thử nghiệm thực với giải thuật SMO cho mơ hình hồi quy vector hỗ trợ Trong mơ hình việc triển khai thuật tốn SVR phức tạp nên chúng tơi sử dụng thƣ viện có sẵn LIBSVM – Chih-Chung Chang Chih-Jen Lin đƣa http://www.csie.ntu.edu.tw/~cjlin/libsvm/ kết hợp với công cụ hỗ trợ Weka phiên 3.7.9 (là công cụ mã nguồn mở viết Java nhà khoa học thuộc trƣờng Đại học Waitako phát triển phục vụ cho lĩnh vực học máy khai phá liệu để triển khai thực nghiệm mô hình Bộ liệu thực tế đƣợc thu thập từ sàn chứng khoán HSX HNX thị trƣờng chứng khoán Việt Nam website www.stox.vn 3.3 Thu thập xử lý liệu Để mơ hình hoạt động hiệu liệu đầu vào dành cho việc huấn luyện (training) đánh giá (testing) quan trọng Việc thu thập xử lý liệu thông qua bƣớc sau: - Thu thập liệu - Tiền xử lý liệu - Chọn liệu đầu vào - Phân hoạch liệu 3.3.1 Thu thập liệu Chúng tơi thực thu thập chứng khốn cổ phiếu với thông tin cổ phiếu là: Ngày giao dịch, Giá mở cửa, Giá đóng cửa, Thay đổi, Giá cao nhất, Giá thấp nhất, Khối lượng giao dịch khớp lệnh, Giá trị giao dịch khớp lệnh, Khối lượng giao dịch thỏa thuận, Giá trị giao dịch thỏa thuận Bộ liệu đƣợc thu thập dựa liệu lịch sử mã cổ phiếu đƣợc giao dịch sàn chứng khoán Dữ liệu đƣợc lấy từ trang www.stox.vn 3.3.2 Tiền xử lý liệu Trong qui trình khai phá liệu, cơng việc xử lý liệu trƣớc đƣa vào mơ hình cần thiết, bƣớc làm cho liệu có đƣợc ban đầu qua thu thập liệu (gọi liệu gốc original data) áp dụng đƣợc (thích hợp) với mơ hình khai phá liệu (data mining model) cụ thể Các công việc cụ thể tiền xử lý liệu thƣờng bao gồm công việc nhƣ: - Filtering Attributes: Chọn thuộc tính phù hợp với mơ hình - Filtering samples: Lọc mẫu (instances, patterns) liệu cho mơ hình TIEU LUAN MOI download : skknchat@gmail.com 39 - Clean data: Làm liệu nhƣ xóa bỏ liệu bất thƣờng (Outlier) - Transformation: Chuyển đổi liệu cho phù hợp với mơ hình nhƣ chuyển đổi liệu từ dạng số (numeric) sang liệu dạng danh nghĩa (nomial) hay liệu dạng thứ tự (ordinal) Ở giai đoạn này, liệu đƣợc thu thập chúng tơi cịn thực thêm thơng tin liệu khác số kỹ thuật, thông tin đƣợc tính tốn dựa thơng tin có – Các số cụ thể đƣợc trình bày phần thực nghiệm Để sử dụng thƣ viện liệu phải đƣợc chuẩn hóa theo định dạng ARFF (*.arff), cấu trúc tập tin ARFF bao gồm thành phần: - Header: Chứa khai báo quan hệ, danh sách thuộc tính (tên, kiểu liệu) - Data: Có nhiều dịng, dịng thể giá trị thuộc tính cho mẫu Tập tin đƣợc khai báo nhƣ sau: % This is a relation about wather @relation @attribute @attribute {, , …, } @data data 1,data 2, …, data n, Trong đó: % : Sau dấu thích @relation : Khai báo tên mối quan hệ (cũng tên file dƣ liêu), đƣợc khai báo dịng tên mối quan hệ phải viết liền viết cách phải có dấu gạch nối @attribute : Là phần định nghĩa tên thuộc tính kiểu liệu Thứ tự khai báo thuộc tính vị trí liệu tập tin, có loại thuộc tính là: - Thuộc tính số: Là giá trị kiểu số số thực số nguyên (vd: @attribute Gia_mocua string ) - Thuộc tính danh nghĩa: Đƣợc xác định cách cung cấp danh sách thuộc tính ( Vd: @attribute Gia_CP {Tang,Giam,Khong_thaydoi} TIEU LUAN MOI download : skknchat@gmail.com 40 * Với liệu ngày tháng ta khai báo sau: @attribute timestamp Date "yyyy-MM-dd HH:mm:ss" * Phần phân loại khai báo giá trị cuối @data : Sau từ khóa bắt đầu phần khai báo giá trị thuộc tính đƣợc khai báo Các liệu phải tƣơng ứng với thứ tự thuộc tính đƣợc khai báo Vd: 32, 53, 24, Tang Mẫu ; 31, 50, 21, Giam Mẫu ; … 3.3.3 Chọn loại liệu đầu vào Với mã cổ phiếu có nhiều số dùng để đánh giá khác nhau, phạm vi toán dự báo số chứng khoán ta chọn số biến sau: - Close: giá đóng cửa - Ngồi ra, liệu đặc trƣng đƣợc dùng phổ biến dự báo chứng khoán số kỹ thuật: trung bình trƣợt giản đơn (SMA) 12 ngày 26 ngày, dải biên độ biến động giá (Bollinger bands) với Bollinger upper lower, trung bình trƣợt hội tụ phân kỳ (MACD) MACD Histogram [10] Các liệu số kỹ thuật giá đóng tạo nên véc tơ đầu vào với số chiều 3.3.4 Phân hoạch liệu Sau chuẩn hoá liệu, chia liệu thành tập tập huấn luyện (train set) tập kiểm tra (test dataset) Tập huấn luyện tập lớn đƣợc sử dụng mơ hình để học mẫu tập liệu Tập kiểm tra có kích cỡ chiếm khoảng 10%-30% tập huấn luyện, kiểm tra độ xác thuật tốn Mơ hình dựa đốn với liệu huấn luyện kiểm tra thành xu hƣớng: Tăng, Giảm Không xu hƣớng Ở quy định Tăng tƣơng ứng với giá trị 1, Giảm tƣơng ứng với -1, Không xu hƣớng tƣơng ứng với giá trị Dữ liệu đƣợc gán nhãn dựa giá trị tăng giảm ngày hơm Sau liệu đƣợc phân hoạch cho tập train tập test, thực dự báo xu hƣớng mã cổ phiếu ngày ngày 3.4 Đánh giá mơ hình Ƣớc lƣợng độ xác mơ hình quan trọng chỗ cho phép dự đốn đƣợc độ xác kết dự báo liệu tƣơng lai Độ xác cịn giúp so sánh mơ hình phân lớp khác Có phƣơng pháp đánh giá phổ biến TIEU LUAN MOI download : skknchat@gmail.com 41 holdout k-fold cross-validation Cả kỹ thuật dựa phân hoạch ngẫu nhiên tập liệu ban đầu [9]: Trong phƣơng pháp holdout, liệu dƣa đƣợc phân chia ngẫu nhiên thành phần là: tập liệu đào tạo tập liệu kiểm tra Thông thƣờng 2/3 liệu cấp cho tập liệu đào tạo, 1/3 liệu lại cho tập liệu kiểm tra Trong phƣơng pháp k-fold cross validation tập liệu ban đầu đƣợc chia ngẫu nhiên thành k tập (fold) có kích thƣớc xấp xỉ S1, S2, …, Sk Quá trình học test đƣợc thực k lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu đào tạo Có nghĩa là, việc dạy đƣợc thực tập S2, S3 …, Sk, sau test tập S1; tiếp tục q trình dạy đƣợc thực tập S1, S3, S4,…, Sk, sau test tập S2; tiếp tục Độ xác tồn số phân lớp từ k lần lặp chia cho tổng số mẫu tập liệu ban đầu Hình 3.2: Phương pháp K-Fold Nếu độ xác mơ hình đƣợc coi nhƣ chấp nhận đƣợc, mơ hình đƣợc sử dụng để phân lớp mẫu sau mà nhãn lớp chƣa biết Dữ liệu nhƣ đƣợc biết đến học máy nhƣ liệu chƣa biết “unknown” liệu trƣớc chƣa tồn “previously unseen” Các tiêu chuẩn sau để đánh giá mơ hình: - Độ xác dự đốn (predictive accuracy): Độ xác khả mơ hình để dự đốn xác nhãn lớp liệu hay liệu chƣa biết - Tốc độ (speed): Tốc độ chi phí tính tốn liên quan đến q trình tạo sử dụng mơ hình TIEU LUAN MOI download : skknchat@gmail.com 42 - Sức mạnh (robustness): Sức mạnh khả mơ hình tạo ta dự đoán từ liệu noise hay liệu với giá trị thiếu - Khả mở rộng (scalability): Khả mở rộng khả thực thi hiệu lƣợng lớn liệu mô hình học - Tính hiểu (interpretability): Tính hiểu đƣợc mức độ hiểu hiểu rõ kết sinh mơ hình học - Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thƣớc định hay độ cô đọng luật Độ đo chất lƣợng phân lớp tiêu chuẩn thể thơng qua: - Độ xác (accuracy): tỷ lệ cặp khái niệm đƣợc phân loại tổng số cặp khái niệm - Độ hồi nhớ (recall): Đo tỷ lệ tƣơng ứng đƣợc tìm thấy tổng số tƣơng ứng đƣợc mong đợi tập tham chiếu - Độ đắn (precision): Đo tỷ lệ tƣơng ứng đƣợc tìm thấy tổng số tƣơng ứng đƣợc trả - Độ đo F-measure: trung bình điều hồ có trọng số precision recall, đƣợc sử dụng để đánh giá tổng quát hệ thống Các độ đo đƣợc định nghĩa dựa cơng thức nhƣ hình dƣới Chúng ta xem lớp vấn đề phân lớp nhị phân nhƣ lớp dƣơng “positive” âm “negative” tƣơng ứng Actual result / classification Predictive result / yes no yes (true positive) fp (false positive) no fn (false negative) tn (true negative) Classification Bảng 3.1: Ma trận hỗn hợp phân lớp Cơng thức tính độ đo: Accuracy =  tn tp ; Recall = ; Precision =  tn  fp  fn  fn  fp F-Measure = 2* precision * recall ; precision  recall Cùng với số khác dùng để đánh giá mơ hình đƣợc sử dụng là: TIEU LUAN MOI download : skknchat@gmail.com 43 - Sai số quân phƣơng ( Root mean squared error - RMSE) - Sai số tƣơng quan (Relative absolute error - R) - Sai số tuyệt đối trung bình (Mean absolute error - MAE) Trong đó, yi fi giá trị thực giá trị dự báo thời điểm i, , giá trị trung bình giá trị thực giá trị dự báo Phƣơng pháp dự báo tốt phƣơng pháp nhận đƣợc sai số R lớn sai số RMSE MAE nhỏ (càng gần không tốt) Kết luận chương Chƣơng chúng tơi đƣa mơ hình sử dụng cho việc dự báo số chứng khốn Các bƣớc xây dựng mơ hình đƣợc giới thiệu cách chi tiết Kết cuối mơ hình kết hợp mơ hình SVR với việc sử dụng số số làm liệu đầu vào Đây mơ hình đƣợc dùng để xây dựng chƣơng trình dự báo số chứng khoán đƣa hỗ trợ định đầu tƣ kinh doanh chứng khoán TIEU LUAN MOI download : skknchat@gmail.com 44 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ Chƣơng thảo luận kết mô thực nghiệm Đầu tiên giới thiệu liệu đƣợc sử dụng thực nghiệm Tiếp theo chúng tơi giới thiệu q trình thực nghiệm Sau kết đƣợc trình bày phân tích phần cuối chƣơng 4.1 Thu thập liệu Trong thử nghiệm chúng tơi thực thu thập liệu giao dịch lịch sử mã chứng khoán sàn giao dịch Sở giao dịch chứng khoán Hà Nội (HNX - http://hnx.vn Sở giao dịch chứng khốn Hồ Chí Minh (HSX http://www.hsx.vn) Các liệu sử dụng giao dịch công ty đƣợc niêm yết sàn chứng khốn đƣợc cơng khai mạng Internet, nguồn thu thập liệu http://stox.vn Dữ liệu đƣợc sử dụng bao gồm liệu giá chứng khoán giao dịch hàng ngày, giá mở cửa (OPEN), giá thấp ( LOWEST), giá cao (HIGHEST), giá đóng cửa (CLOSE) Ở thực thu thập ngẫu nhiên mã chứng khoán đƣợc giao dịch sàn chứng khoán khoảng thời gian từ 2007 tới thời điểm với 1631 quan sát, mã đƣợc dùng thử nghiệm nhƣ sau: Mã CP Tên công ty ACB Ngân hàng Thƣơng mại Cổ phần Á Châu REE Công ty Cổ phần Cơ điện Lạnh SAM Công ty Cổ phần Đầu tƣ Phát triển SACOM SSI Cơng ty Cổ phần chứng khốn Sài Gịn STB Ngân hàng Thƣơng mại Cổ phần Sài Gịn Thƣơng Tín Bảng 4.1: Các mã chứng khoán chọn thử nghiệm TIEU LUAN MOI download : skknchat@gmail.com 45 Dữ liệu đƣợc thu thập gồm giá trị nhƣ sau ( Ví dụ với đoạn liệu mã cổ phiếu ACB): GTGD khớp lệnh(triệu VNĐ) Giá đóng cửa Thay đổi ( +/-/%) Giámở cửa Giá cao Giá thấp KLGDkhớ p lệnh (CP) 29/07/2013 15883 83 15800 16000 15800 152682 24,250,737 0 26/07/2013 15800 15900 15900 15700 403600 63,776,154 67 0,0010354 25/07/2013 15800 -200 15900 16000 15800 231700 36,866,184 236 0,0033984 24/07/2013 16000 16000 16000 16000 413100 66,102,048 42 0,0006048 23/07/2013 16000 -100 16100 16100 16000 150900 241,795 50 0,00072 22/07/2013 16000 -100 16100 16100 16000 423700 6,780,735 97 0,001455 19/07/2013 16000 16000 16100 16000 228500 36,625,244 376 0,0054144 18/07/2013 16000 -100 16100 16200 16000 232100 5,098,332 94076 1,364,102 17/07/2013 16100 100 16000 16200 15900 450900 7,193,263 115 0,001683 16/07/2013 15900 15900 16000 15900 68100 10,838,798 72 0,0010398 15/07/2013 15900 -100 16000 16000 15900 124200 19,779,052 133 0,0019152 Ngày GTGDthỏa thuận (triệu VNĐ) KLGD thỏa thuận (CP) …… Bảng 4.2: Dữ liệu mã chứng khoán TIEU LUAN MOI download : skknchat@gmail.com 46 4.2 Tiền xử lý liệu Từ liệu thu thập đƣợc tác giả thực tính tốn số kỹ thuật dùng cho mơ hình dựa cơng thức tính số nêu việc tính tốn đƣợc chúng tơi thực tay Excel, liệu sau đƣợc tính tốn gán nhãn có giá trị nhƣ sau: Closed SMA12 SMA26 177500 163130.00 163130.00 184000 165027.27 194000 Bollinger Bollinger up 20 down20 191870 RSI MACD MACD – Histogram Label 134390 90 48308.82 -100424.30 165027.27 202972.73 127081.82 34.6 49001.22 -106785.28 167441.67 167441.67 220558.33 114325 37.9 49834.04 -113595.16 202000 171166.67 170100.00 233900 106300 50.9 50609.13 -120534.23 194000 174333.33 171807.14 216192.86 127421.43 48.5 50050.44 -125664.25 -1 191000 177000.00 173086.67 208913.33 60.6 48843.27 -129928.48 -1 137260 … Bảng 4.3: Dữ liệu sau xử lý mã CP Sau liệu đƣợc chuyển sang dạng file * ARFF để chạy với công cụ hỗ trợ Weka nhƣ sau: Hình 4.1: Dữ liệu đưa định dạng *.arff 4.3 Phƣơng thức phân hoạch liệu Mỗi tập liệu, sử dụng phƣơng thức đánh giá chéo k – fold, chia tập liệu làm 10 fold, sau tiến hành huấn luyện với 10 lần lặp Mỗi lần, sử dụng – fold liệu làm tập huấn luyện mô hình, fold cịn lại làm tập test TIEU LUAN MOI download : skknchat@gmail.com 47 4.4 Kết thử nghiệm 4.4.1 Kết chạy thực nghiệm so sánh SVR với mô hình khác Chúng tơi thực thử nghiệm dự đốn với mơ hình khác bao gồm: - Mơ hình SVR hàm nhân hàm nhân đa thức (Polynomial - Poly) để ánh xạ liệu nhƣ biến đầu vào xi mơ hình SVR Thử nghiệm thực với giải thuật SMO cho mơ hình hồi quy vector hỗ trợ - Mơ hình Cây định với thuật tốn J48 - Mơ hình ANN với hàm MultiLayer Perception số lớp ẩn 10 - Thử nghiệm dự đoán với chu kỳ ngày, liệu đầu vào đƣợc lấy từ ngày 1/1/2007 đến 30/11/2013 từ trang web http://stox.vn bao gồm tổng 1631 quan sát Đánh giá phƣơng pháp k-fold cross validation với k =10 với 20 điểm liệu khứ Kết trung bình thu đƣợc thể dƣới bảng sau: SVR ACB SAM REE SSI STB ACB Decision Tree SAM REE SSI ANN STB ACB SAM REE SSI STB Precision 0,702 0,652 0,701 0,664 0,725 0,598 0,534 0,601 0,711 0,595 0,591 0,541 0,613 0,548 0,618 Recall 0,663 0,649 0,672 0,571 0,621 0,483 0,529 0,541 0,521 0,492 0,573 0,529 0,592 0,513 0,539 F-measure 0,635 0,64 0,667 0,538 0,586 0,534 0,531 0,569 0,601 0,539 0,582 0,535 0,602 0,530 0,576 0,3999 0,7339 0,3078 0,4059 0,7308 0,3129 0,3996 0,7216 0,3078 0,428 0,776 0,3313 0,4227 0,9172 0,3268 0,4021 0,6511 0,371 0,4513 0,7423 0,3125 0,4225 0,7105 0,2988 0,4123 0,7135 0,3111 0,4213 0,6103 0,3812 0,3962 0,6514 0,3092 0,4529 0,6701 0,3146 0,3893 0,6331 0,3201 0,4572 0,7038 0,3313 0,4322 0,6612 0,3098 RMSE R MAE Bảng 4.4: Bảng kết thử nghiệm dự đốn với mơ hình khác TIEU LUAN MOI download : skknchat@gmail.com 48 Để trực quan hóa, từ bảng kết chúng tơi thể biểu đồ sau: Hình 4.2: Biểu đồ thể kết thử nghiệm dự đoán với mơ hình khác 4.4.2 Kết dự đốn ngày ngày mã với SVR Ở SVR đƣợc đƣa kết dự đoán từ sau ngày 29/07/2013, ngày dự đoán ngày 30/07/2013 ngày 02/08/2013 với mã chứng khoán Kết dự đoán dựa 20 điểm liệu khứ: ACB SAM REE SSI ngày ngày ngày STB 5 ngày Dự đoán -1 -1 -1 -1 Thực tế -1 1 1 -1 Bảng 4.5: Kết dự đốn mã với thuật tốn SVR Chú thích: : Là xu hướng tăng -1 : Là xu hướng giảm : Là khơng có xu hướng (Có thể không thay đổi) Kết luận chương Với kết đánh giá ta thấy giá trị kết tốt, mơ hình chạy cho kết ổn định với liệu đầu vào khác Ở ta dễ nhận thấy mơ hình SVR cho kết tốt mơ hình cịn lại Random Tree ANN mơ hình thuật tốn SVR cho số R cao hơn, số MAE RMSE thấp so với hai mơ hình Random Tree ANN Từ kết ta thấy mô hình SVR đƣợc đánh giá tốt, phù hợp mơ hình tốn tốn dự báo với liệu phi tuyến nhƣ toán dự báo xu hƣớng chứng khoán TIEU LUAN MOI download : skknchat@gmail.com 49 KẾT LUẬN Luận văn với định hƣớng nghiên cứu vào số phƣơng pháp học máy tập trung vào phƣơng pháp Máy véc tơ hồi quy hỗ trợ Chúng tơi áp dụng mơ hình kết hợp số kỹ thuật với mơ hình máy véc tơ hồi quy hỗ trợ (SVR) để giải toán dự báo xu hƣớng chứng khoán Luận văn đạt đƣợc kết là:  Đã giới thiệu kiến thức tổng quát thị trƣờng chứng khoán  Nghiên cứu giới thiệu chi tiết số kỹ thuật quan trọng thông dụng dùng phân tích, dự báo chứng khốn  Nghiên cứu khai phá liệu vài kỹ thuật dùng khai phá liệu, đặc biệt với mơ hình máy véc tơ hỗ trợ  Nghiên cứu xây dựng mơ hình thử nghiệm dự báo số chứng khốn Kết thu đƣợc có số đánh giá tƣơng đối tốt, song đƣợc coi yếu tố dùng tham khảo cho định mua bán chứng khoán thực tế, biến động giá chứng khốn cịn phụ thuộc vào nhiều yêu tố khác nhƣ trị, kinh tế, tâm lý đám đông … Với kết thu đƣợc, giúp tác giả có định hƣớng tốt việc nghiên cứu ứng dụng thuật toán học máy việc giải toán dự báo ngày đƣợc quan tâm Do thị trƣờng chứng khốn Việt Nam cịn non trẻ, thói quen đƣa bình luận, nhận xét nghiêm túc có giá trị tham khảo diễn đàn hạn chế nên việc áp dụng với dạng liệu siêu liệu đƣợc thu thập từ trang web diễn đàn gặp nhiều khó khăn Trong thời gian tới tiếp tục nghiên cứu phƣơng pháp học máy dùng khai phá liệu kết hợp với khai phá liệu mạng xã hội nhƣ Face book, diễn đàn chuyên chứng khoán Việt Nam Nhằm nâng cao kết dự báo xu hƣớng số chứng khoán Việt Nam đƣợc tốt TIEU LUAN MOI download : skknchat@gmail.com 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồi, N.T., Bình, P.T & Duy, N.K (2009), Dự Báo Phân Tích Dữ Liệu Kinh Tế Tài Chính, NXB Thống Kê [2] The McGraw Hill Companies (2007), Phân tích kỹ thuật từ A đến Z (Technical Analysis From A to Z, Vietstock dịch xuất [3] TS Lê Văn Phùng; ThS Quách Xuân Trƣởng (2012), Khai phá liệu, NXB Thông tin Truyền thông Tiếng Anh [4] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1999 [5] Ailun Yi (2009), Stock Market Prediction Based on Public Attentions: a Social Web Mining Approach, Master of Science School of InformaticsUniversity of Edinburgh [6] Colby R W.(2003), The Encyclopedia of Technical Market Indicators 2nd Edition, McGraw-Hill [7] MacQueen J B (1967), Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press [8] Robert J Van Eyden (1996) The Application of Neural Networks in the Forecasting of Share Prices Finance and Technology Publishing [9] The Morgan Kaufmann Series in Data Management Systems, Jim Gray (2000), Datamining - Concepts and Techniques, Chapter - Classification and Prediction, Series Editor Morgan Kaufmann Publishers [10] Vapnik V.N., Jordan M., Lauritzen S.L., Lawless J.F (1999), Nature of Statistical Learning Theory Berlin: Springer [11] Vatsal H Shah (2007), Machine Learning Techniques for Stock Prediction, Foundations of Machine Learning TIEU LUAN MOI download : skknchat@gmail.com ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN ĐỨC HUÂN DỰ BÁO XU HƢỚNG CHỨNG KHOÁN TẠI VIỆT NAM BẰNG PHƢƠNG PHÁP HỌC MÁY Ngành: Công nghệ thông tin Chuyên... phƣơng pháp học máy dùng khai phá liệu kết hợp với khai phá liệu mạng xã hội nhƣ Face book, diễn đàn chuyên chứng khoán Việt Nam Nhằm nâng cao kết dự báo xu hƣớng số chứng khoán Việt Nam đƣợc... dụng cho việc dự báo chứng khoán dựa kiến thức công cụ hỗ trợ việc triển khai thực nghiệm chƣơng trình 3.1 Giới thiệu tốn dự báo chứng khốn Bài toán dự báo thực dự báo tƣơng lai dựa vào thông

Ngày đăng: 27/06/2022, 09:17

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Biểu đồ dạng đường - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 1.1 Biểu đồ dạng đường (Trang 17)
Hình 1.2: Biểu đồ dạng then chắn - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 1.2 Biểu đồ dạng then chắn (Trang 18)
Hình 1.3: Biểu đồ dạng cây nến - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 1.3 Biểu đồ dạng cây nến (Trang 19)
Hình 1.4: Biểu đồ thể hiện Aroon - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 1.4 Biểu đồ thể hiện Aroon (Trang 23)
Hình 1.5: Biểu đồ MACD - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 1.5 Biểu đồ MACD (Trang 25)
Hình 1.6: Biểu đồ Bollinger band - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 1.6 Biểu đồ Bollinger band (Trang 27)
Chƣơng 2. KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ MÔ HÌNH DÙNG TRONG KHAI PHÁ DỮ LIỆU  - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
h ƣơng 2. KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ MÔ HÌNH DÙNG TRONG KHAI PHÁ DỮ LIỆU (Trang 29)
2.2. Một số mô hình dùng trong khai phá dữ liệu - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
2.2. Một số mô hình dùng trong khai phá dữ liệu (Trang 31)
Hình 2.3: Sơ đồ quá trình xử lý dữ liệu bằng ANN - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 2.3 Sơ đồ quá trình xử lý dữ liệu bằng ANN (Trang 32)
 Hình (a): Hàm tổng của một nơ ron đối vớ in input đƣợc tính theo công thức - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
nh (a): Hàm tổng của một nơ ron đối vớ in input đƣợc tính theo công thức (Trang 32)
2.2.2. Mô hình cây quyết định (Decision Tree Algorithm): - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
2.2.2. Mô hình cây quyết định (Decision Tree Algorithm): (Trang 33)
Hình 2.6: Biến lỏng được sử dụng trong SVM - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 2.6 Biến lỏng được sử dụng trong SVM (Trang 35)
Hình 2.5: Không gian tuyến tính - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 2.5 Không gian tuyến tính (Trang 35)
Hình 2.8: SVR với hạt nhân tuyến tính giảm thiểu lỗi với biến lỏng  Kết luận chương 2  - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 2.8 SVR với hạt nhân tuyến tính giảm thiểu lỗi với biến lỏng Kết luận chương 2 (Trang 37)
Hình 2.7: ε– SVR với hạt nhân đa thức (phù hợp với một điểm dữ liệu)  - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 2.7 ε– SVR với hạt nhân đa thức (phù hợp với một điểm dữ liệu) (Trang 37)
3.2. Mô hình dự báo (Predictive Model) - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
3.2. Mô hình dự báo (Predictive Model) (Trang 39)
Hình 3.2: Phương pháp K-Fold - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 3.2 Phương pháp K-Fold (Trang 43)
- Sức mạnh (robustness): Sức mạnh là khả năng mô hình tạo ta những dự đoán đúng từ những dữ liệu noise hay dữ liệu với những giá trị thiếu - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
c mạnh (robustness): Sức mạnh là khả năng mô hình tạo ta những dự đoán đúng từ những dữ liệu noise hay dữ liệu với những giá trị thiếu (Trang 44)
Chƣơng này chúng tôi đƣa ra mô hình sử dụng cho việc dự báo chỉ số chứng khoán. Các bƣớc xây dựng mô hình đƣợc giới thiệu một cách khá chi tiết - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
h ƣơng này chúng tôi đƣa ra mô hình sử dụng cho việc dự báo chỉ số chứng khoán. Các bƣớc xây dựng mô hình đƣợc giới thiệu một cách khá chi tiết (Trang 45)
Bảng 4.1: Các mã chứng khoán được chọn thử nghiệm - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Bảng 4.1 Các mã chứng khoán được chọn thử nghiệm (Trang 46)
Bảng 4.2: Dữ liệu của một mã chứng khoán - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Bảng 4.2 Dữ liệu của một mã chứng khoán (Trang 47)
Bảng 4.3: Dữ liệu sau khi được xử lý của một mã CP - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Bảng 4.3 Dữ liệu sau khi được xử lý của một mã CP (Trang 48)
4.4.1. Kết quả chạy thực nghiệm so sánh SVR với mô hình khác - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
4.4.1. Kết quả chạy thực nghiệm so sánh SVR với mô hình khác (Trang 49)
Hình 4.2: Biểu đồ thể hiện kết quả thử nghiệm dự đoán với các mô hình khác nhau - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
Hình 4.2 Biểu đồ thể hiện kết quả thử nghiệm dự đoán với các mô hình khác nhau (Trang 50)
Để trực quan hóa, từ bảng kết quả trên chúng tôi thể hiện bằng biểu đồ sau: - (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy   04
tr ực quan hóa, từ bảng kết quả trên chúng tôi thể hiện bằng biểu đồ sau: (Trang 50)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w