Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
1,56 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN ĐỨC HUÂN DỰ BÁO XU HƢỚNG CHỨNG KHOÁN TẠI VIỆT NAM BẰNG PHƢƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội – 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN ĐỨC HUÂN DỰ BÁO XU HƢỚNG CHỨNG KHOÁN TẠI VIỆT NAM BẰNG PHƢƠNG PHÁP HỌC MÁY Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH TS NGUYỄN PHÚ BÌNH Hà Nội – 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn nghiên cứu, tổng hợp thực Tồn điều đƣợc trình bày luận văn cá nhân đƣợc tham khảo tổng hợp từ nguồn tài liệu khác Tất tài liệu tham khảo, tổng hợp đƣợc trích dẫn với nguồn gốc rõ ràng Tơi xin chịu hồn tồn trách nhiệm lời cam đoan Nếu có sai trái, tơi xin chịu hình thức kỷ luật theo qui định Hà Nội, tháng 06 năm 2014 Học viên Trần Đức Huân LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Tôi muốn bày tỏ lòng biết ơn sâu sắc tới ngƣời giúp đỡ tơi q trình làm luận văn, đặc biệt xin cám ơn TS Nguyễn Văn Vinh - Trƣờng ĐH Công nghệ, ĐHQGHN TS Nguyễn Phú Bình - Bộ Khoa học Cơng nghệ, với lịng kiên trì, thầy bảo tơi chi tiết cho lời nhận xét quý báu bƣớc làm luận văn Đồng thời xin gửi lời cảm ơn tới thầy cô giáo khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà nội truyền đạt kiến thức cho suốt thời gian học tập nghiên cứu vừa qua Tôi xin chân thành cảm ơn quan, bạn bè, đồng nghiệp, gia đình ngƣời thân chia sẻ, giúp đỡ, động viên, tạo điều kiện thuận lợi để tơi hồn thành nhiệm vụ học tập luận văn Hà Nội, tháng năm 2014 Học viên Trần Đức Huân LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC .3 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU Chƣơng THỊ TRƢỜNG CHỨNG KHỐN VÀ PHÂN TÍCH CHỨNG KHỐN.11 1.1 Thị trƣờng chứng khoán 11 1.1.1 Tổng quan thị trƣờng chứng khoán 11 1.1.2 Đặc điểm Thị trƣờng chứng khoán: 12 1.1.3 Chức thị trƣờng chứng khoán: 12 1.1.4 Các hình thức thị trƣờng chứng khoán 12 1.1.5 Các số mã chứng khoán sàn giao dịch 13 1.2 Phân tích Kỹ thuật ứng dụng dự báo chứng khoán 14 1.2.1 Khái niệm 14 1.2.2 Cơng cụ sử dụng Phân tích kỹ thuật 15 1.2.3 Các số kỹ thuật dùng dự báo chứng khoán 17 1.2.4 Ứng dụng phân tích kỹ thuật 26 Chƣơng KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ MƠ HÌNH DÙNG TRONG KHAI PHÁ DỮ LIỆU 27 2.1 Khai phá liệu (Data Mining) 27 2.2 Một số mơ hình dùng khai phá liệu 29 2.2.1 Mơ hình mạng nơ ron nhân tạo (ANN - Artificial Neural Network) 29 2.2.2 Mơ hình định (Decision Tree Algorithm): 31 2.2.3 Mơ hình máy véc tơ hỗ trợ (Support Vector Machine - SVM) 32 Chƣơng MƠ HÌNH DỰ BÁO CHỨNG KHỐN 36 3.1 Giới thiệu toán dự báo chứng khoán 36 3.2 Mơ hình dự báo (Predictive Model) 37 3.3 Thu thập xử lý liệu 38 3.3.1 Thu thập liệu 38 3.3.2 Tiền xử lý liệu 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.3 Chọn loại liệu đầu vào 40 3.3.4 Phân hoạch liệu 40 3.4 Đánh giá mơ hình 40 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ 44 4.1 Thu thập liệu 44 4.2 Tiền xử lý liệu 46 4.3 Phƣơng thức phân hoạch liệu 46 4.4 Kết thử nghiệm 47 4.4.1 Kết chạy thực nghiệm so sánh SVR với mơ hình khác 47 4.4.2 Kết dự đoán ngày ngày mã với SVR 48 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CK Chứng khoán CP Cổ phiếu MA Moving Average Trung bình trƣợt SMA Simple Moving Average Trung bình trƣợt đơn giản EMA Exponential Moving Average Trung bình trƣợt số mũ MACD MovingAverage Phân kỳ hội tụ đƣờng trung Convergence/Divergence bình động Phân tích kỹ thuật PTTK RSI Relative Strength Index Thị trƣờng chứng khoán TTCK KDD Chỉ số cƣờng độ tƣơng đối Knowledge Discorvery and Data Phát tri thức khai phá Mining liệu SVM Support Vector Machine Máy véc tơ hỗ trợ SVR Support Vector Regression Máy véc tơ hỗ trợ hồi quy SMO Sequential Minimal Optimization Tối thiểu hóa QP Quadratic Programming GD Quy hoạch toàn phƣơng Giao dịch LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 1.1: Biểu đồ dạng đƣờng .15 Hình 1.2: Biểu đồ dạng then chắn 16 Hình 1.3: Biểu đồ dạng nến 17 Hình 1.4: Biểu đồ thể Aroon 21 Hình 1.5: Biểu đồ MACD 23 Hình 1.6: Biểu đồ Bollinger band .25 Hình 2.1: Mơ hình khai phá liệu .27 Hình 2.2: Kiến trúc ANN 29 Hình 2.3: Sơ đồ trình xử lý liệu ANN .30 Hình 2.4: Ví dụ định 31 Hình 2.5: Khơng gian tuyến tính 33 Hình 2.6: Biến lỏng đƣợc sử dụng SVM 33 Hình 2.7: ε – SVR với hạt nhân đa thức (phù hợp với điểm liệu) 35 Hình 2.8: SVR với hạt nhân tuyến tính giảm thiểu lỗi với biến lỏng .35 Hình 3.1: Mơ hình dự báo chứng khốn đề xuất 37 Hình 3.2: Phƣơng pháp K-Fold 41 Hình 4.1: Dữ liệu đƣợc đƣa định dạng *.arff 46 Hình 4.2: Biểu đồ thể kết thử nghiệm dự đốn với mơ hình khác 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG BIỂU Bảng 3.1: Ma trận hỗn hợp phân lớp 42 Bảng 4.1: Các mã chứng khoán đƣợc chọn thử nghiệm 44 Bảng 4.2: Dữ liệu mã chứng khoán 45 Bảng 4.3: Dữ liệu sau đƣợc xử lý mã CP 46 Bảng 4.4: Bảng kết thử nghiệm dự đốn với mơ hình khác 47 Bảng 4.5: Kết dự đoán mã với thuật toán SVR .48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Đặt vấn đề Thế giới ngày trở nên “phẳng” hơn, nhờ thành tựu việc phát triển công nghệ thông tin, đặc biệt bùng nổ mạnh mẽ mạng Internet Nhờ internet làm xóa bỏ, khơng cịn khoảng cách khơng gian địa lý, tạo điều kiện cho tiếp cận thu nhận đƣợc nhiều thông tin hơn, song khơng phải tất thơng tin có ích cho ngƣời mà phải biết chắt lọc, tổng hợp phân tích thơng tin để phục vụ cho mục đích Trên thực tế với lƣợng liệu khổng lồ đƣợc tổng hợp lƣu trữ có phần nhỏ đƣợc phân tích thƣờng xun có ích, số cịn lại chƣa khai thác, phát đƣợc hết tri thức Các phƣơng pháp quản trị khai thác liệu truyền thống ngày không đáp ứng đƣợc nhu cầu khai thác, phát thông tin Do phát triển khuynh hƣớng kỹ thuật kỹ thuật Phát tri thức khai phá liệu ( KDD – Knowledge Discorvery and Data Mining) Các kỹ thuật đƣợc nghiên cứu áp dụng nhiều lĩnh vực khác Trong khai phá liệu (Data mining) lĩnh vực phát triển mạnh mẽ, có nhiều ứng dụng thực tiễn hƣớng nghiên cứu dự báo đƣợc coi quan trọng nhiều ngành, đặc biệt quan trọng quản lý vĩ mô kinh doanh Các kỹ thuật dự báo đƣợc hình thành từ kỷ thứ 19 [1], nhiên dự báo có ảnh hƣởng lớn phát triển cơng nghệ thơng tin chất mô phƣơng pháp phức tạp cần hỗ trợ lớn máy tính Đến năm 1950, lý thuyết dự báo với phƣơng pháp luận đƣợc xây dựng phát triển có hệ thống [1] Việc dự báo thị trƣờng chứng khoán toán thu hút nhiều quan tâm, nghiên cứu, nƣớc phát triển giới Với Việt Nam thị trƣờng chứng khoán đƣợc coi phát triển ( ngày 11-71998 Chính phủ ký Nghị định số 48/CP ban hành chứng khoán đánh dấu đời phát triển thị trường chứng khoán Việt Nam) nên việc nghiên cứu áp dụng kỹ thuật toán dự báo chƣa đƣợc đầu tƣ nghiên cứu nhiều Cùng với xu hƣớng phát triển thị trƣờng chứng khoán Việt Nam nhƣ nay, cần phải có nghiên cứu phát triển phƣơng pháp, công cụ dùng cho việc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 36 Chƣơng MƠ HÌNH DỰ BÁO CHỨNG KHOÁN Trong chƣơng này, lý thuyết tảng kiến thức đƣợc trình bày đƣợc xem xét nghiên cứu để giải toán Trƣớc hết chúng tơi giới thiệu tốn dự báo chứng khốn, mơ hình dự đốn chung Sau chuyển hƣớng đến mơ hình sử dụng cho việc dự báo chứng khốn dựa kiến thức cơng cụ hỗ trợ việc triển khai thực nghiệm chƣơng trình 3.1 Giới thiệu toán dự báo chứng khoán Bài toán dự báo thực dự báo tƣơng lai dựa vào thông tin khứ Gần đây, có nhiều nghiên cứu đƣợc thực việc áp dụng thuật toán học để phân tích mơ hình giá dự đốn giá cổ phiếu thay đổi số Hầu hết nhà đầu tƣ chứng khoán dựa vào hệ thống giao dịch thơng minh hỗ trợ họ việc dự đốn giá dựa tình điều kiện khác nhau, qua giúp họ đƣa định đầu tƣ tốt Giá cổ phiếu đƣợc coi nhiều biến động nhạy cảm với thay đổi nhanh chóng chất lĩnh vực tài phần pha trộn thông số đƣợc biết đến nhƣ ( Dữ liệu lịch sử giá, lợi nhuận quý trƣớc, năm trƣớc, …) yếu tố chƣa biết (nhƣ Kết bầu cử, tin đồn, …) [11] Một nhà kinh doanh thơng minh dự đốn giá cổ phiếu mua cổ phiếu trƣớc tăng giá, bán trƣớc giảm giá trị Mặc dù khó thay cho nhà kinh doanh có chuyên mơn sâu kinh nghiệm nhiều, song thuật tốn dự đốn tối ƣu hỗ trợ tốt trực tiếp dẫn đến lợi nhuận cao cho nhà đầu tƣ hay công ty đầu tƣ Trong thực tế, có phương pháp dự báo chứng khốn chính: Phân tích bản: Thực nhà phân tích bản, phƣơng pháp quan tâm nhiều tới thông tin công ty giá cổ phiếu thực tế Các nhà phân tích đƣa định dựa hiệu suất khứ công ty, dự báo lợi nhuận … Phân tích kỹ thuật: Thực nhà phân tích kỹ thuật, phƣơng pháp đề với việc xác định giá cổ phiếu dựa mô hình khứ cổ phiếu (sử dụng phân tích chuỗi thời gian.) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 37 Trong việc nghiên cứu giải tốn chúng tơi thực kết hợp thơng tin cổ phiếu với phƣơng pháp học máy Với thông tin cổ phiếu quan tâm nhiều tới việc phân tích kỹ thuật để nghiên cứu thuật tốn với số kỹ thuật chuỗi thời gian cổ phiếu Thuật toán đƣợc áp dụng thuật toán SVM kết hợp với số chứng khoán bản, số kỹ thuật đƣợc lựa chọn Sự kết hợp cho ta hệ hỗ trợ cho định dự báo giá chứng khoán tăng hay giảm khơng thay đổi Mơ hình dự báo đƣợc trình bày phần dƣới 3.2 Mơ hình dự báo (Predictive Model) Dựa vào phân tích trên, chúng tơi sử dụng mơ hình cho việc dự báo đƣợc thực nhƣ sau: Hình 3.1: Mơ hình dự báo chứng khốn đề xuất Ở chúng tơi sử dụng mơ hình SVR thử nghiệm với hàm nhân cho SVR hàm nhân đa thức (Polynomial - Poly) để ánh xạ liệu nhƣ biến đầu vào xi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 38 mơ hình SVR Thử nghiệm thực với giải thuật SMO cho mơ hình hồi quy vector hỗ trợ Trong mơ hình việc triển khai thuật toán SVR phức tạp nên chúng tơi sử dụng thƣ viện có sẵn LIBSVM – Chih-Chung Chang Chih-Jen Lin đƣa http://www.csie.ntu.edu.tw/~cjlin/libsvm/ kết hợp với công cụ hỗ trợ Weka phiên 3.7.9 (là công cụ mã nguồn mở viết Java nhà khoa học thuộc trƣờng Đại học Waitako phát triển phục vụ cho lĩnh vực học máy khai phá liệu để triển khai thực nghiệm mơ hình Bộ liệu thực tế đƣợc thu thập từ sàn chứng khoán HSX HNX thị trƣờng chứng khoán Việt Nam website www.stox.vn 3.3 Thu thập xử lý liệu Để mơ hình hoạt động hiệu liệu đầu vào dành cho việc huấn luyện (training) đánh giá (testing) quan trọng Việc thu thập xử lý liệu thông qua bƣớc sau: - Thu thập liệu - Tiền xử lý liệu - Chọn liệu đầu vào - Phân hoạch liệu 3.3.1 Thu thập liệu Chúng thực thu thập chứng khoán cổ phiếu với thông tin cổ phiếu là: Ngày giao dịch, Giá mở cửa, Giá đóng cửa, Thay đổi, Giá cao nhất, Giá thấp nhất, Khối lượng giao dịch khớp lệnh, Giá trị giao dịch khớp lệnh, Khối lượng giao dịch thỏa thuận, Giá trị giao dịch thỏa thuận Bộ liệu đƣợc thu thập dựa liệu lịch sử mã cổ phiếu đƣợc giao dịch sàn chứng khoán Dữ liệu đƣợc lấy từ trang www.stox.vn 3.3.2 Tiền xử lý liệu Trong qui trình khai phá liệu, công việc xử lý liệu trƣớc đƣa vào mơ hình cần thiết, bƣớc làm cho liệu có đƣợc ban đầu qua thu thập liệu (gọi liệu gốc original data) áp dụng đƣợc (thích hợp) với mơ hình khai phá liệu (data mining model) cụ thể Các công việc cụ thể tiền xử lý liệu thƣờng bao gồm công việc nhƣ: - Filtering Attributes: Chọn thuộc tính phù hợp với mơ hình - Filtering samples: Lọc mẫu (instances, patterns) liệu cho mơ hình LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 39 - Clean data: Làm liệu nhƣ xóa bỏ liệu bất thƣờng (Outlier) - Transformation: Chuyển đổi liệu cho phù hợp với mô hình nhƣ chuyển đổi liệu từ dạng số (numeric) sang liệu dạng danh nghĩa (nomial) hay liệu dạng thứ tự (ordinal) Ở giai đoạn này, liệu đƣợc thu thập chúng tơi cịn thực thêm thông tin liệu khác số kỹ thuật, thơng tin đƣợc tính tốn dựa thơng tin có – Các số cụ thể đƣợc trình bày phần thực nghiệm Để sử dụng thƣ viện liệu phải đƣợc chuẩn hóa theo định dạng ARFF (*.arff), cấu trúc tập tin ARFF bao gồm thành phần: - Header: Chứa khai báo quan hệ, danh sách thuộc tính (tên, kiểu liệu) - Data: Có nhiều dòng, dòng thể giá trị thuộc tính cho mẫu Tập tin đƣợc khai báo nhƣ sau: % This is a relation about wather @relation @attribute @attribute {, , …, } @data data 1,data 2, …, data n, Trong đó: % : Sau dấu thích @relation : Khai báo tên mối quan hệ (cũng tên file dƣ liêu), đƣợc khai báo dòng tên mối quan hệ phải viết liền viết cách phải có dấu gạch nối @attribute : Là phần định nghĩa tên thuộc tính kiểu liệu Thứ tự khai báo thuộc tính vị trí liệu tập tin, có loại thuộc tính là: - Thuộc tính số: Là giá trị kiểu số số thực số nguyên (vd: @attribute Gia_mocua string ) - Thuộc tính danh nghĩa: Đƣợc xác định cách cung cấp danh sách thuộc tính ( Vd: @attribute Gia_CP {Tang,Giam,Khong_thaydoi} LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 40 * Với liệu ngày tháng ta khai báo sau: @attribute timestamp Date "yyyy-MM-dd HH:mm:ss" * Phần phân loại khai báo giá trị cuối @data : Sau từ khóa bắt đầu phần khai báo giá trị thuộc tính đƣợc khai báo Các liệu phải tƣơng ứng với thứ tự thuộc tính đƣợc khai báo Vd: 32, 53, 24, Tang Mẫu ; 31, 50, 21, Giam Mẫu ; … 3.3.3 Chọn loại liệu đầu vào Với mã cổ phiếu có nhiều số dùng để đánh giá khác nhau, phạm vi toán dự báo số chứng khoán ta chọn số biến sau: - Close: giá đóng cửa - Ngồi ra, cịn liệu đặc trƣng đƣợc dùng phổ biến dự báo chứng khoán số kỹ thuật: trung bình trƣợt giản đơn (SMA) 12 ngày 26 ngày, dải biên độ biến động giá (Bollinger bands) với Bollinger upper lower, trung bình trƣợt hội tụ phân kỳ (MACD) MACD Histogram [10] Các liệu số kỹ thuật giá đóng tạo nên véc tơ đầu vào với số chiều 3.3.4 Phân hoạch liệu Sau chuẩn hoá liệu, chia liệu thành tập tập huấn luyện (train set) tập kiểm tra (test dataset) Tập huấn luyện tập lớn đƣợc sử dụng mơ hình để học mẫu tập liệu Tập kiểm tra có kích cỡ chiếm khoảng 10%-30% tập huấn luyện, kiểm tra độ xác thuật tốn Mơ hình dựa đốn với liệu huấn luyện kiểm tra thành xu hƣớng: Tăng, Giảm Không xu hƣớng Ở quy định Tăng tƣơng ứng với giá trị 1, Giảm tƣơng ứng với -1, Không xu hƣớng tƣơng ứng với giá trị Dữ liệu đƣợc gán nhãn dựa giá trị tăng giảm ngày hơm Sau liệu đƣợc phân hoạch cho tập train tập test, thực dự báo xu hƣớng mã cổ phiếu ngày ngày 3.4 Đánh giá mơ hình Ƣớc lƣợng độ xác mơ hình quan trọng chỗ cho phép dự đốn đƣợc độ xác kết dự báo liệu tƣơng lai Độ xác cịn giúp so sánh mơ hình phân lớp khác Có phƣơng pháp đánh giá phổ biến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 41 holdout k-fold cross-validation Cả kỹ thuật dựa phân hoạch ngẫu nhiên tập liệu ban đầu [9]: Trong phƣơng pháp holdout, liệu dƣa đƣợc phân chia ngẫu nhiên thành phần là: tập liệu đào tạo tập liệu kiểm tra Thông thƣờng 2/3 liệu cấp cho tập liệu đào tạo, 1/3 liệu lại cho tập liệu kiểm tra Trong phƣơng pháp k-fold cross validation tập liệu ban đầu đƣợc chia ngẫu nhiên thành k tập (fold) có kích thƣớc xấp xỉ S1, S2, …, Sk Quá trình học test đƣợc thực k lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu đào tạo Có nghĩa là, việc dạy đƣợc thực tập S2, S3 …, Sk, sau test tập S1; tiếp tục q trình dạy đƣợc thực tập S1, S3, S4,…, Sk, sau test tập S2; tiếp tục Độ xác tồn số phân lớp từ k lần lặp chia cho tổng số mẫu tập liệu ban đầu Hình 3.2: Phương pháp K-Fold Nếu độ xác mơ hình đƣợc coi nhƣ chấp nhận đƣợc, mơ hình đƣợc sử dụng để phân lớp mẫu sau mà nhãn lớp chƣa biết Dữ liệu nhƣ đƣợc biết đến học máy nhƣ liệu chƣa biết “unknown” liệu trƣớc chƣa tồn “previously unseen” Các tiêu chuẩn sau để đánh giá mơ hình: - Độ xác dự đốn (predictive accuracy): Độ xác khả mơ hình để dự đốn xác nhãn lớp liệu hay liệu chƣa biết - Tốc độ (speed): Tốc độ chi phí tính tốn liên quan đến q trình tạo sử dụng mơ hình LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 42 - Sức mạnh (robustness): Sức mạnh khả mơ hình tạo ta dự đoán từ liệu noise hay liệu với giá trị thiếu - Khả mở rộng (scalability): Khả mở rộng khả thực thi hiệu lƣợng lớn liệu mơ hình học - Tính hiểu (interpretability): Tính hiểu đƣợc mức độ hiểu hiểu rõ kết sinh mơ hình học - Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thƣớc định hay độ đọng luật Độ đo chất lƣợng phân lớp tiêu chuẩn thể thơng qua: - Độ xác (accuracy): tỷ lệ cặp khái niệm đƣợc phân loại tổng số cặp khái niệm - Độ hồi nhớ (recall): Đo tỷ lệ tƣơng ứng đƣợc tìm thấy tổng số tƣơng ứng đƣợc mong đợi tập tham chiếu - Độ đắn (precision): Đo tỷ lệ tƣơng ứng đƣợc tìm thấy tổng số tƣơng ứng đƣợc trả - Độ đo F-measure: trung bình điều hồ có trọng số precision recall, đƣợc sử dụng để đánh giá tổng quát hệ thống Các độ đo đƣợc định nghĩa dựa cơng thức nhƣ hình dƣới Chúng ta xem lớp vấn đề phân lớp nhị phân nhƣ lớp dƣơng “positive” âm “negative” tƣơng ứng Actual result / classification Predictive result / yes no yes (true positive) fp (false positive) no fn (false negative) tn (true negative) Classification Bảng 3.1: Ma trận hỗn hợp phân lớp Cơng thức tính độ đo: Accuracy = tn tp ; Recall = ; Precision = tn fp fn fn fp F-Measure = 2* precision * recall ; precision recall Cùng với số khác dùng để đánh giá mơ hình đƣợc sử dụng là: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 43 - Sai số quân phƣơng ( Root mean squared error - RMSE) - Sai số tƣơng quan (Relative absolute error - R) - Sai số tuyệt đối trung bình (Mean absolute error - MAE) Trong đó, yi fi giá trị thực giá trị dự báo thời điểm i, , giá trị trung bình giá trị thực giá trị dự báo Phƣơng pháp dự báo tốt phƣơng pháp nhận đƣợc sai số R lớn sai số RMSE MAE nhỏ (càng gần không tốt) Kết luận chương Chƣơng chúng tơi đƣa mơ hình sử dụng cho việc dự báo số chứng khoán Các bƣớc xây dựng mơ hình đƣợc giới thiệu cách chi tiết Kết cuối mô hình kết hợp mơ hình SVR với việc sử dụng số số làm liệu đầu vào Đây mơ hình đƣợc dùng để xây dựng chƣơng trình dự báo số chứng khốn đƣa hỗ trợ định đầu tƣ kinh doanh chứng khoán LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 44 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ Chƣơng thảo luận kết mô thực nghiệm Đầu tiên giới thiệu liệu đƣợc sử dụng thực nghiệm Tiếp theo chúng tơi giới thiệu q trình thực nghiệm Sau kết đƣợc trình bày phân tích phần cuối chƣơng 4.1 Thu thập liệu Trong thử nghiệm chúng tơi thực thu thập liệu giao dịch lịch sử mã chứng khoán sàn giao dịch Sở giao dịch chứng khoán Hà Nội (HNX - http://hnx.vn Sở giao dịch chứng khốn Hồ Chí Minh (HSX http://www.hsx.vn) Các liệu sử dụng giao dịch công ty đƣợc niêm yết sàn chứng khốn đƣợc cơng khai mạng Internet, nguồn chúng tơi thu thập liệu http://stox.vn Dữ liệu đƣợc sử dụng bao gồm liệu giá chứng khoán giao dịch hàng ngày, giá mở cửa (OPEN), giá thấp ( LOWEST), giá cao (HIGHEST), giá đóng cửa (CLOSE) Ở thực thu thập ngẫu nhiên mã chứng khoán đƣợc giao dịch sàn chứng khoán khoảng thời gian từ 2007 tới thời điểm với 1631 quan sát, mã đƣợc dùng thử nghiệm nhƣ sau: Mã CP Tên công ty ACB Ngân hàng Thƣơng mại Cổ phần Á Châu REE Công ty Cổ phần Cơ điện Lạnh SAM Công ty Cổ phần Đầu tƣ Phát triển SACOM SSI Công ty Cổ phần chứng khốn Sài Gịn STB Ngân hàng Thƣơng mại Cổ phần Sài Gịn Thƣơng Tín Bảng 4.1: Các mã chứng khoán chọn thử nghiệm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 45 Dữ liệu đƣợc thu thập gồm giá trị nhƣ sau ( Ví dụ với đoạn liệu mã cổ phiếu ACB): GTGD khớp lệnh(triệu VNĐ) Giá đóng cửa Thay đổi ( +/-/%) Giámở cửa Giá cao Giá thấp KLGDkhớ p lệnh (CP) 29/07/2013 15883 83 15800 16000 15800 152682 24,250,737 0 26/07/2013 15800 15900 15900 15700 403600 63,776,154 67 0,0010354 25/07/2013 15800 -200 15900 16000 15800 231700 36,866,184 236 0,0033984 24/07/2013 16000 16000 16000 16000 413100 66,102,048 42 0,0006048 23/07/2013 16000 -100 16100 16100 16000 150900 241,795 50 0,00072 22/07/2013 16000 -100 16100 16100 16000 423700 6,780,735 97 0,001455 19/07/2013 16000 16000 16100 16000 228500 36,625,244 376 0,0054144 18/07/2013 16000 -100 16100 16200 16000 232100 5,098,332 94076 1,364,102 17/07/2013 16100 100 16000 16200 15900 450900 7,193,263 115 0,001683 16/07/2013 15900 15900 16000 15900 68100 10,838,798 72 0,0010398 15/07/2013 15900 -100 16000 16000 15900 124200 19,779,052 133 0,0019152 Ngày GTGDthỏa thuận (triệu VNĐ) KLGD thỏa thuận (CP) …… Bảng 4.2: Dữ liệu mã chứng khoán LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 46 4.2 Tiền xử lý liệu Từ liệu thu thập đƣợc tác giả thực tính tốn số kỹ thuật dùng cho mơ hình dựa cơng thức tính số nêu việc tính tốn đƣợc chúng tơi thực tay Excel, liệu sau đƣợc tính tốn gán nhãn có giá trị nhƣ sau: Closed SMA12 SMA26 177500 163130.00 163130.00 184000 165027.27 194000 Bollinger Bollinger up 20 down20 191870 RSI MACD MACD – Histogram Label 134390 90 48308.82 -100424.30 165027.27 202972.73 127081.82 34.6 49001.22 -106785.28 167441.67 167441.67 220558.33 114325 37.9 49834.04 -113595.16 202000 171166.67 170100.00 233900 106300 50.9 50609.13 -120534.23 194000 174333.33 171807.14 216192.86 127421.43 48.5 50050.44 -125664.25 -1 191000 177000.00 173086.67 208913.33 60.6 48843.27 -129928.48 -1 137260 … Bảng 4.3: Dữ liệu sau xử lý mã CP Sau liệu đƣợc chuyển sang dạng file * ARFF để chạy với công cụ hỗ trợ Weka nhƣ sau: Hình 4.1: Dữ liệu đưa định dạng *.arff 4.3 Phƣơng thức phân hoạch liệu Mỗi tập liệu, sử dụng phƣơng thức đánh giá chéo k – fold, chia tập liệu làm 10 fold, sau tiến hành huấn luyện với 10 lần lặp Mỗi lần, sử dụng – fold liệu làm tập huấn luyện mô hình, fold cịn lại làm tập test LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 47 4.4 Kết thử nghiệm 4.4.1 Kết chạy thực nghiệm so sánh SVR với mơ hình khác Chúng tơi thực thử nghiệm dự đốn với mơ hình khác bao gồm: - Mơ hình SVR hàm nhân hàm nhân đa thức (Polynomial - Poly) để ánh xạ liệu nhƣ biến đầu vào xi mơ hình SVR Thử nghiệm thực với giải thuật SMO cho mô hình hồi quy vector hỗ trợ - Mơ hình Cây định với thuật tốn J48 - Mơ hình ANN với hàm MultiLayer Perception số lớp ẩn 10 - Thử nghiệm dự đoán với chu kỳ ngày, liệu đầu vào đƣợc lấy từ ngày 1/1/2007 đến 30/11/2013 từ trang web http://stox.vn bao gồm tổng 1631 quan sát Đánh giá phƣơng pháp k-fold cross validation với k =10 với 20 điểm liệu khứ Kết trung bình thu đƣợc thể dƣới bảng sau: SVR ACB SAM REE SSI STB ACB Decision Tree SAM REE SSI ANN STB ACB SAM REE SSI STB Precision 0,702 0,652 0,701 0,664 0,725 0,598 0,534 0,601 0,711 0,595 0,591 0,541 0,613 0,548 0,618 Recall 0,663 0,649 0,672 0,571 0,621 0,483 0,529 0,541 0,521 0,492 0,573 0,529 0,592 0,513 0,539 F-measure 0,635 0,64 0,667 0,538 0,586 0,534 0,531 0,569 0,601 0,539 0,582 0,535 0,602 0,530 0,576 0,3999 0,7339 0,3078 0,4059 0,7308 0,3129 0,3996 0,7216 0,3078 0,428 0,776 0,3313 0,4227 0,9172 0,3268 0,4021 0,6511 0,371 0,4513 0,7423 0,3125 0,4225 0,7105 0,2988 0,4123 0,7135 0,3111 0,4213 0,6103 0,3812 0,3962 0,6514 0,3092 0,4529 0,6701 0,3146 0,3893 0,6331 0,3201 0,4572 0,7038 0,3313 0,4322 0,6612 0,3098 RMSE R MAE Bảng 4.4: Bảng kết thử nghiệm dự đoán với mơ hình khác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 48 Để trực quan hóa, từ bảng kết thể biểu đồ sau: Hình 4.2: Biểu đồ thể kết thử nghiệm dự đốn với mơ hình khác 4.4.2 Kết dự đoán ngày ngày mã với SVR Ở SVR đƣợc chúng tơi đƣa kết dự đốn từ sau ngày 29/07/2013, ngày dự đoán ngày 30/07/2013 ngày 02/08/2013 với mã chứng khoán Kết dự đoán dựa 20 điểm liệu khứ: ACB SAM REE SSI ngày ngày ngày STB 5 ngày Dự đoán -1 -1 -1 -1 Thực tế -1 1 1 -1 Bảng 4.5: Kết dự đoán mã với thuật tốn SVR Chú thích: : Là xu hướng tăng -1 : Là xu hướng giảm : Là xu hướng (Có thể khơng thay đổi) Kết luận chương Với kết đánh giá ta thấy giá trị kết tốt, mơ hình chạy cho kết ổn định với liệu đầu vào khác Ở ta dễ nhận thấy mơ hình SVR cho kết tốt mơ hình cịn lại Random Tree ANN mơ hình thuật tốn SVR cho số R cao hơn, số MAE RMSE thấp so với hai mơ hình Random Tree ANN Từ kết ta thấy mơ hình SVR đƣợc đánh giá tốt, phù hợp mơ hình toán toán dự báo với liệu phi tuyến nhƣ toán dự báo xu hƣớng chứng khoán LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 KẾT LUẬN Luận văn với định hƣớng nghiên cứu vào số phƣơng pháp học máy tập trung vào phƣơng pháp Máy véc tơ hồi quy hỗ trợ Chúng áp dụng mơ hình kết hợp số kỹ thuật với mơ hình máy véc tơ hồi quy hỗ trợ (SVR) để giải toán dự báo xu hƣớng chứng khoán Luận văn đạt đƣợc kết là: Đã giới thiệu kiến thức tổng quát thị trƣờng chứng khoán Nghiên cứu giới thiệu chi tiết số kỹ thuật quan trọng thơng dụng dùng phân tích, dự báo chứng khoán Nghiên cứu khai phá liệu vài kỹ thuật dùng khai phá liệu, đặc biệt với mơ hình máy véc tơ hỗ trợ Nghiên cứu xây dựng mơ hình thử nghiệm dự báo số chứng khốn Kết thu đƣợc có số đánh giá tƣơng đối tốt, song đƣợc coi yếu tố dùng tham khảo cho định mua bán chứng khoán thực tế, biến động giá chứng khốn cịn phụ thuộc vào nhiều u tố khác nhƣ trị, kinh tế, tâm lý đám đơng … Với kết thu đƣợc, giúp tác giả có định hƣớng tốt việc nghiên cứu ứng dụng thuật toán học máy việc giải toán dự báo ngày đƣợc quan tâm Do thị trƣờng chứng khoán Việt Nam cịn non trẻ, thói quen đƣa bình luận, nhận xét nghiêm túc có giá trị tham khảo diễn đàn hạn chế nên việc áp dụng với dạng liệu siêu liệu đƣợc thu thập từ trang web diễn đàn gặp nhiều khó khăn Trong thời gian tới tiếp tục nghiên cứu phƣơng pháp học máy dùng khai phá liệu kết hợp với khai phá liệu mạng xã hội nhƣ Face book, diễn đàn chuyên chứng khoán Việt Nam Nhằm nâng cao kết dự báo xu hƣớng số chứng khoán Việt Nam đƣợc tốt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hồi, N.T., Bình, P.T & Duy, N.K (2009), Dự Báo Phân Tích Dữ Liệu Kinh Tế Tài Chính, NXB Thống Kê [2] The McGraw Hill Companies (2007), Phân tích kỹ thuật từ A đến Z (Technical Analysis From A to Z, Vietstock dịch xuất [3] TS Lê Văn Phùng; ThS Quách Xuân Trƣởng (2012), Khai phá liệu, NXB Thông tin Truyền thông Tiếng Anh [4] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh Parallel Formulations of Decision-Tree Classification Algorithm Kluwer Academic Publisher, 1999 [5] Ailun Yi (2009), Stock Market Prediction Based on Public Attentions: a Social Web Mining Approach, Master of Science School of InformaticsUniversity of Edinburgh [6] Colby R W.(2003), The Encyclopedia of Technical Market Indicators 2nd Edition, McGraw-Hill [7] MacQueen J B (1967), Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press [8] Robert J Van Eyden (1996) The Application of Neural Networks in the Forecasting of Share Prices Finance and Technology Publishing [9] The Morgan Kaufmann Series in Data Management Systems, Jim Gray (2000), Datamining - Concepts and Techniques, Chapter - Classification and Prediction, Series Editor Morgan Kaufmann Publishers [10] Vapnik V.N., Jordan M., Lauritzen S.L., Lawless J.F (1999), Nature of Statistical Learning Theory Berlin: Springer [11] Vatsal H Shah (2007), Machine Learning Techniques for Stock Prediction, Foundations of Machine Learning LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN ĐỨC HUÂN DỰ BÁO XU HƢỚNG CHỨNG KHOÁN TẠI VIỆT NAM BẰNG PHƢƠNG PHÁP HỌC MÁY Ngành: Công nghệ thông tin Chuyên... phƣơng pháp học máy dùng khai phá liệu kết hợp với khai phá liệu mạng xã hội nhƣ Face book, diễn đàn chuyên chứng khoán Việt Nam Nhằm nâng cao kết dự báo xu hƣớng số chứng khoán Việt Nam đƣợc... tốn dự báo với liệu phi tuyến nhƣ toán dự báo xu hƣớng chứng khoán LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 KẾT LUẬN Luận văn với định hƣớng nghiên cứu vào số phƣơng pháp học