STT Tên phần mềm Nguồn Chức năng
1 Python 3.7.1 https://www.python.org/
2 Pycharm http://www.jetbrain.com/
pycharm/dowload
Mơi trường để viết chương trình trên ngơn
ngữ python 3 Module tiền xử lý tập
dữ liệu đầu vào của mơ hình
Tự xây dựng bằng ngơn ngữ Python
Tiền xử lý dữ liệu
4 scikit-learn scikit-learn.org/stable Thư viện học máy để sử dụng các bộ phân lớp 5 Matplotlib 3.0.3 https://matplotlib.org/ Thư viện trực quan hĩa
dữ liệu trong Python
4.2. Tiền xử lý dữ liệu
Trong khai phá dữ liệu, quá trình tiền xử lý dữ liệu là rất quan trọng. Quá trình tiền xử lý dữ liệu giúp cho việc chuẩn hĩa dữ liệu trước khi đưa vào sử dụng. Việc chuẩn hĩa dữ liệu nhằm loại bỏ tính khơng minh bạch của thị trường tiền điện tử.
Chuẩn bị dữ liệu là một bước quan trọng trong khai phá dữ liệu, dữ liệu được chuẩn bị tốt sẽ giúp hệ thống thực hiện tốt hơn, hiệu quả hơn. Chuẩn bị dữ liệu thường là một bước bắt buộc sử dụng để chuyển đổi dữ liệu vơ dụng thành dữ liệu mới phù hợp với tiến trình khai phá dữ liệu. Trước hết, nếu dữ liệu khơng được chuẩn bị, các thuật tốn khai phá dữ liệu cĩ thể khơng nhận dạng được dữ liệu để hoạt động hoặc sẽ báo lỗi trong quá trình thực hiện. Trong trường hợp tốt nhất, thuật tốn sẽ làm việc, nhưng kết quả được cung cấp sẽ khơng cĩ ý nghĩa hoặc sẽ khơng cĩ tính chính xác. Do đĩ cần nghiên cứu và áp dụng các kỹ thuật tiền xử lý dữ liệu nhằm nâng cao hiệu quả phân tích.
4.2.1. Dữ liệu
Dữ liệu được sử dụng trong bài tốn dự báo này là giá Bitcoin được thu thập từ ngày bắt đầu list trên sàn Binance.
Hình 4.1 Dữ liệu về giá Bitcoin
Trong đĩ:
• Date: là trường chỉ ngày giao dịch.
• Open: là giá tại thời điểm mở cửa trong ngày. • High: là giá cao nhất trong ngày.
• Low: là giá thấp nhất trong ngày.
• Close: là giá điểm đĩng cửa của Bitcoin trong ngày. • Volume BTC: là khối lượng giao dịch BTC trong ngày.
• Volume USDT: là khối lượng giao dịch BTC bằng USDT trong ngày.
4.2.2. Lọc dữ liệu
Với mỗi cửa sổ dữ liệu thu được các kỹ thuật tiền xử lý được áp dụng với mong muốn thu được dữ liệu tốt hơn cho hệ thống nhận dạng.
4.2.3. Tổ chức dữ liệu
Thơng thường bộ dữ liệu được chia làm 3 tập: tập huấn luyện (training- set), tập kiểm chứng (validation set) và tập kiểm tra (test set). Nhưng do đặc thù của bộ dữ liệu nên tơi đã tiến hành chia như sau:
Tập huấn luyện là tập lớn nhất được mơ hình sử dụng để học các mẫu trong tập dữ liệu.
Tập huấn luyện chiếm khoảng 833 dữ liệu lấy từ này bắt đầu list trên sàn Binance của Bitcoin.
Tập kiểm chứng được sử dụng để tối ưu bộ tham số trong mơ hình huấn luyện được sử
dụng. Tập kiểm chứng chiếm khoảng 30 dữ liệu.
Tập kiểm tra là dữ liệu tương lai.
4.3. Kich bản thực nghiệm và so sánh giữa các phương pháp 4.3.1. Phương pháp so sánh. 4.3.1. Phương pháp so sánh.
Để cĩ được sự khách quan về độ hiệu quả báo cáo thực hiện so sánh thực nghiệm kết quả giữa mơ hình ARIMA và mơ hình đề xuất qua các quá trình sau:
• Chạy mơ hình ARIMA với bộ dữ liệu defaul.
• Chạy mơ hình Random Forest với bộ dữ liệu tối ưu bằng phương pháp cửa sổ. • Tối ưu các tham số của mơ hình Random Forest.
Để so sánh thuật tốn ARIMA và thuật tốn Random Forest kết hợp cửa sổ trượt báo cáo sử dụng tham số:
- MAPE phần trăm trung bình lỗi tuyệt đối. Đây một chỉ báo rất thơng dụng cho các dữ liệu cần dự báo chính xác giá.
- Accuracy là phần trăm độ chính xác tuyệt đối của mơ hình. Với: Accuracy = 100 - MAPE
4.3.2. Mơ hình ARIMA
Dữ liệu sử dụng là cột thứ sáu trong bộ dữ liệu được định nghĩa trong mục. Như đã trình bày lý thuyết ở mục 2.4, tơi sử dụng bộ tham số (p,d,q) =(1,2,0) để thực nghiệm mơ hình ARIMA và cho kết quả dự đốn theo chu kỳ T+1. Kết quả thu được là: MAPE = 3.69% và Accuracy= 96.31%
Kết quả dự đốn thể hiện trong bảng 3.3, cột chênh lệch thể hiện độ sai khác giữa giá dự đốn so với giá thực tế
Ngày i Giá ngày i
Giá thực tế ngày i+1
Giá dự đốn
ngày i+1 Chênh lệch 9/1/2020 8055.98 7886.92 4289.86 3597,06 8/1/2020 8145 8055.98 8071.09 15,11 7/1/2020 7758 8145.28 8065.70 79,58 6/1/2020 7358.75 7758 8151.17 393,17 5/1/2020 7354.11 7358.75 7739.24 380,49 4/1/2020 7344.96 7354.11 7337.93 16,18 3/1/2020 6965.71 7344.96 7353.56 8,6 2/1/2020 7200.85 6965.71 7344.62 378,91 1/1/2020 7195.23 7200.85 6945.95 254,9 31/12/2019 7246 7195.23 7212.27 17,04 30/12/2019 7388.24 7246 7195.22 50,78 29/12/2019 7316.14 7388.24 7248.59 139,65 28/12/2019 7254.74 7316.14 7395.69 79,55 27/12/2019 7202 7254.74 7312.79 58,05 26/12/2019 7204.63 7202 7251.57 49,57 25/12/2019 7255.77 7204.63 7199.24 5,39 24/12/2019 7317.09 7255.77 7204.67 51,1 23/12/2019 7501.44 7317.09 7258.40 58,69 22/12/2019 7132.75 7501.44 7320.36 181,08 21/12/2019 7187.83 7132.75 7511.21 378,46
20/12/2019 7150.3 7187.83 7114.33 73,5 19/12/2019 7277.83 7150.3 7190.07 37,53 18/12/2019 6623.82 7277.83 7148.42 129,41 17/12/2019 6891.72 6623.82 7284.22 660,4 16/12/2019 7118.59 6891.72 6590.98 300,74 15/12/2019 7064.05 7118.59 6902.98 215,61 14/12/2019 7258.48 7064.05 7129.79 128,69 13/12/2019 7198.08 7258.48 7061.44 197,04 12/12/2019 7210 7198.08 7267.88 57,88
Hình 4.2: Thống kê kết quả chạy bằng mơ hình ARIMA
4.3.3. Mơ hình Random Forest
4.3.3.1. Bộ dữ liệu Bitcoin trong phân tích định lượng
Sau khi xác định được số lượng nhãn lớp ở phương pháp cửa sổ, giả sử tìm được nhãn lớp Wt phù hợp tơi tiến hành tạo bộ dữ liệu phân tích bộ dữ liệu như sau:
• Bộ dữ liệu gồm (863-t+1) x (6*t) bản ghi. Trong đĩ các cột tương ứng với số liệu là:
Open, High, Low, Close, Volume BTC, Volume USDT
Open_1, High_1, Low_1, Close_1, Volume BTC_1, Volume USDT_1 Open_2, High_2, Low_2, Close_2, Volume BTC_2, Volume USDT_2 …….
Open_(t-1), High_(t-1), Low_(t-1), Close_(t-1), Volume BTC_(t-1), Volume USDT_(t- 1)
• Nhãn của hàng i: close(i) là giá đĩng cửa của ngày i, close i+s là giá đĩng cửa của ngày (i+s), với I t.
• Tập huấn luyện cĩ 833 mẫu, tập kiểm chứng cĩ 30 mẫu.
4.3.3.2. Xây dựng bộ dữ liệu chiều dài cửa sổ (W) và độ phủ (Oz)
Ở phần này, báo cáo sẽ kiểm thử với các tham số W và Oz. Kết quả thực nghiệm được cho ở bảng dưới đây.