Mơ tả sơ bộ về dữ liệu Bitcoin
Đối tượng mà báo cáo của tơi nghiên cứu chính là xu thế giá thị trường tiền điện tử. Cụ thể là giá Bitcoin thu thập từ trang cryptodatadownload.com từ lúc bắt đầu list trên sàn Binance để tiến hành dự đốn.
Đầu vào: Tập dữ liệu khơng nhãn liên quan đến giá của Bitcoin. Chia dữ liệu thanh
2 tập train và test, với tập train là dữ liệu huấn luyện và test là tập kiểm thử.
Đầu ra: Mơ hình học máy, sao cho mơ hình được đánh giá, kiểm thử với hiệu quả
cao, dữ liệu giá Bitcoin dự đốn.
Hệ thống dự đốn gồm 2 pha:
• Pha thứ nhất: Quá trình training
Bước 1: Thu thập dữ liệu.
Bước 2: Tiền xử lý dữ liệu. Bước này dùng các phương pháp xử lý dữ liệu, tối ưu
dữ liệu, tối ưu tham số của phương pháp cửa sổ trượt, độ dài của cửa sổ(W) và độ phủ của cửa sổ Oz.
Bước 3: Xây dựng tập dữ liệu huấn luyện và tập dữ liệu kiểm chứng thỏa mãn với
W và Oz đã tối ưu ở trên, gán nhãn cho dữ liệu.
Bước 4: Huấn luyện mơ hình.
Bước 5: Tối ưu hĩa tham số mơ hình.
• Pha thứ hai: Quá trình testing
Bước 1: Thu thập dữ liệu.
Bước 2: Tiền xử lý dữ liệu.
Bước 3: Xây dựng tập dữ liệu kiểm thử cho mơ hình, dữ liệu này sẽ khơng được
gán nhãn.
Bước 4: Kết hợp với mơ hình huấn luyện ở pha 1, đưa ra được kết quả chính xác
nhất cĩ thể.
Việc dự báo thị trường tiền điện tử bao gồm dự đốn định tính cho biết xu hướng của thị trường tăng hay giảm) và dự báo định lượng (dự đốn giá trị mỗi Bitcoin là bao nhiêu). Các kết quả đạt được sẽ làm cơ sở cho những chiến lược đầu tư của các nhà đầu tư.
Các phương tiện, hành động khác nhau cĩ tính chu kỳ và đặc điểm khác nhau nên sử dụng các kích thước cửa sổ khác nhau nhằm tăng hiệu quả phát hiện là thực sự cần thiết so với việc chỉ dùng một kích thước cửa sổ cho tất cả các loại phương tiện hay tất
cả các loại hành động giao thơng. Giải pháp được đưa ra đĩ là sử dụng kích thước cửa sổ phù hợp được lựa chọn dựa trên độ đo Accuracy (ACC) của mơ hình.
3.2.1. Pha 1- Quá trình training
3.2.1.1. Thu thập dữ liệu
Dữ liệu về giá Bitcoin thu thập từ trang cryptodatadownload.com từ lúc bắt đầu list trên sàn Binance từ ngày 17/8/2017 đến ngày 1/9/2020 để tiến hành dự đốn. Dữ liệu bao gồm các trường: Date, Open, high, low, close, Volume BTC, Volume USDT
Bảng 3.1: Dữ liệu giá Bitcoin
3.2.1.2. Quá trình tiền xử lý dữ liệu
Trong khai phá dữ liệu, quá trình tiền xử lý dữ liệu là rất quan trọng. Quá trình tiền xử lý dữ liệu giúp cho việc chuẩn hĩa dữ liệu trước khi đưa vào sử dụng. Việc chuẩn hĩa dữ liệu nhằm loại bỏ tính khơng minh bạch của thị trường tiền điện tử.[9]
Chuẩn bị dữ liệu là một bước quan trọng trong khai phá dữ liệu, dữ liệu được chuẩn bị tốt sẽ giúp hệ thống thực hiện tốt hơn, hiệu quả hơn. Chuẩn bị dữ liệu thường là một bước bắt buộc sử dụng để chuyển đổi dữ liệu vơ dụng thành dữ liệu mới phù hợp với tiến trình khai phá dữ liệu. Trước hết, nếu dữ liệu khơng được chuẩn bị, các thuật tốn khai phá dữ liệu cĩ thể khơng nhận dạng được dữ liệu để hoạt động hoặc sẽ báo lỗi trong quá trình thực hiện. Trong trường hợp tốt nhất, thuật tốn sẽ làm việc, nhưng kết quả được cung cấp sẽ khơng cĩ ý nghĩa hoặc sẽ khơng cĩ tính chính xác. Do đĩ cần nghiên cứu và áp dụng các kỹ thuật tiền xử lý dữ liệu nhằm nâng cao hiệu quả phân tích. Bước này kiểu tra dữ liệu cĩ trống, dữ liệu cĩ đúng định dạng.
• Lọc dữ liệu:
Với mỗi cửa sổ dữ liệu thu được các kỹ thuật tiền xử lý được áp dụng với mong muốn thu được dữ liệu tốt hơn cho hệ thống nhận dạng.
Trong hệ thống dự đốn giá, cửa sổ dữ liệu được khảo sát nhằm chọn ra kích thước cửa sổ(W) phù hợp với bộ dữ liệu giá của Bitcoin mục đích nâng cao kết quả dự đốn.
Ta tiến hành song song việc tìm kích thước cửa sổ đơng thời tìm độ chồng dữ liệu (OZ) sao cho kết quả dự đốn được nâng cao.
Hình 3.2: Cửa sổ dữ liệu
Trong bước này, báo cáo tập trung tối ưu hĩa bằng cách dùng phương pháp cửa sổ trượt. Quá trình xử lý dữ liệu được minh họa qua hình dưới đây:
Hình 3.3: Mơ hình tối ưu thơng số cửa sổ
Sau quá trình này ta sẽ tìm được ra thơng số: Độ dài cửa sổ(W) và độ phủ của cửa sổ (Oz) với Acc (Accuracy) lớn nhất.
3.2.1.3. Xây dựng bộ dữ liệu.
Sau khi đã tìm được W và Oz ta tiến hành xây dựng mơ hình với độ dài của cửa sổ và độ phủ đã tối ưu ở quá trình xử lý dữ liệu.
Tiến hành chia bộ dữ liệu training thành 2 phần: dữ liệu huấn luyện và dữ liệu kiểm thử (cĩ dán nhãn)
3.2.1.4. Huấn luyện mơ hình
Đưa bộ dữ liệu sau khi đã xây dựng vào mơ hình để tiến hành huấn luyện với bộ tham số mặc định của mơ hình
3.2.1.5. Tối ưu hĩa tham số mơ hình
Cuối cùng thực hiện phân lớp dữ liệu kiểm thử. Đưa dữ liệu kiểm thử vào mơ hình đã xây dựn. Kết quả được so sánh với kết quả kiểm thử cĩ dán nhãn để đánh giá độ chính xác của mơ hình. Trong mơ hình này, thực hiện đánh giá hệ thống thơng qua độ đo Accuracy (Acc) để đánh giá độ chuẩn xác của dự đốn so với tập Validate.
Ta thay đổi các thơng số của mơ hình Random Forest: • n_estimators: số lượng dữ liệu
• max_depth: Độ sâu tối đa của cây quyết định. Mơ hình tối ưu tham số Random Forest:
Hình 3.4: Mơ hình tối ưu tham số cho Random Forest
3.2.2. Pha 2- Tối ưu hĩa tham số của mơ hình được kết quả tối ưu nhất
3.2.2.1. Thu thập dữ liệu
Dữ liệu được thu thập như ở pha 1.
3.2.2.2. Tiền xử lý dữ liệu
Dữ liệu được xử lý như ở pha 1 bao gơm các bước như lọc dữ liệu, lấy kết quả độ dài cửa sổ và độ chồng cửa sổ để xây dựng mơ hình.
3.2.2.3. Xây dựng bộ dữ liệu test.
Dữ liệu được xây dựng như ở pha 1. Bộ dữ liệu test khơng được dán nhãn.
Kết luận Chương 3
Trong Chương 3 báo cáo đã trình bày mơ hình dự đốn giá Bitcoin dựa trên học máy bằng cách sử dụng phương pháp cửa sổ trượt và tối ưu tham số của mơ hình Random Forest.
Quy trình giải quyết bài tốn gồm 2 pha: (i) Pha 1- Quá trình training (ii) Pha 2- Quá trình testing. Tiếp đến báo cáo, thực hiện đánh giá hệ thống thơng qua độ đo dựa trên độ chính xác Accuracy để đưa ra được mơ hình tối ưu nhất.
Nội dung chương tiếp theo trình bày về kết quả thực nghiệm và đánh giá phương pháp đề xuất.
CHƯƠNG 4
THỰC NGHIỆM VÀ KẾT QUẢ
Trong chương này, báo cáo chạy thực nghiệm cho mơ hình ARIMA và Random Forest. Báo cáo tiến hành thực nghiệm với bộ dữ liệu Bitcoin và sử dụng phương pháp cửa sổ trượt xây dựng bộ dữ liệu đưa vào mơ hình Random Forest và tối ưu các tham số để đưa ra kết quả tối ưu nhất.
Báo cáo này tiến hành ba thực nghiệm tương ứng với ba phương án dữ liệu như sau: • Dữ liệu Bitcoin qua quá trình tiền sử lý dữ liệu cơ bản đưa vào mơ hình ARIMA để đưa ra dự đốn.
• Dữ liệu Bitcoin qua quá trình tiền sử lý dữ liệu cơ bản đưa vào mơ hình Random Forest để đưa ra kết quả dự đốn.
• Dữ liệu Bitcoin qua quá trình tiền xử lý dữ liệu bằng phương pháp cửa sổ trượt, sau đĩ tối ưu tham số của thuật tốn Random Forest để đưa ra kết quả.