Xây dựng dữ liệu cho mô hình 42

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt (Trang 51 - 56)

Dữ liệu thu được từ các sàn giao dịch chứng khoán bao gồm rất nhiều thông tin như giá mở cửa (open), giá đóng cửa (close), giá cao nhất trong ngày (high), giá thấp nhất

43

dựng mô hình dự báo nhưng để đơn giản trong khóa luận tôi chỉ sử dụng giá đóng cửa trong các phiên giao dịch.

Hình 4-1: Dữ liệu chứng khoán thu được từ sàn chứng khoán

Đểđảm bảo tính ngẫu nhiên của dữ liệu và tránh tình trạng sử dụng dữ liệu của tương lai để huấn luyện hoặc dữ liệu của quá khứđể kiểm chứng mô hình. Tôi chia bộ dữ liệu của năm 2008-2010 thành 10 bộ dữ liệu, mỗi bộ dữ liệu gồm 12 tháng khác nhau lấy một cách ngẫu nhiên tuần tự dùng để huấn luyện mô hình và lấy dữ liệu của 3 tháng kế tiếp để làm tập dữ liệu kiểm chứng. Tôi đã viết một chương trình bằng C/C++ để lấy giá đóng cửa của các phiên giao dịch trong các bộ dữ liệu và chuyển về dữ liệu dưới dạng ma trận nhưđã trình bày ở mục 3.4.2

44

Đầu vào của chương trình là các file dữ liệu sau khi đã tách ra từng bộ dữ liệu có dạng như sau:

45 (b)

Hình 4-2: (a) Một trong số những dữ liệu huấn luyện từ 1/2008-12/2008 (b) Một trong số những bộ kiểm chứng từ 1/2009-3/2009

Chương trình sẽ lấy giá đóng cửa của các phiên giao dịch sau đó chuyển về dữ liệu dưới dạng bảng với các T1, T2, …., T20 là giá cổ phiếu của 20 ngày giao dịch trong quá khứ, T1 là ngày gần với ngày cần dựđoán nhất, rồi tính toán xem với các giá cổ phiếu trong giai đoạn được đưa ra ấy tăng hay giảm và đưa ra kết luận ở trường Class ở file đầu ra. File đầu ra được lưu dưới định dạng .csv có dạng

Hình 4-3: Một trong những file dữ liệu đầu ra của chương trình

Sau khi xử lý xong dữ liệu, ta đưa dữ liệu vào trong weka. Weka CLI cung cấp một số lệnh để đọc hoặc chuyển sang định dạng chuẩn mà gói weka thường xử lý (.arff), các lệnh đó là:

Weka.core.converters.CSVLoader: đọc d liu có định dng CSV Weka.core.converters.C45Loader: đọc d liu có định dng C4.5

46

Hình 4-4: Lệnh đọc file CSV và chuyển thành file ARFF

Sau khi thực hiện những câu lệnh này, dữ liệu trong file csv được đưa vào trong weka và chuyển sang định sạng .arff để sử dụng cho việc huấn luyện mô hình. Hình sau mô tả dữ liệu sau khi đã đưa vào trong weka

- java weka.core.converters.CSVLoader F:\fpt_train_1.csv > F:\fpt_train_1.arff - java weka.core.converters.CSVLoader

F:\fpt_validation_1 > F:fpt_validation_1.arff - ……

47

Hình 4-5: Dữ liệu dưới định dạng arff trong weka

Dữ liệu này khi đưa vào mô hình cây quyết định sẽ dự báo giá đóng cửa của ngày hôm sau phụ thuộc vào 20 ngày trước đó.

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt (Trang 51 - 56)