3.2. Quy trình giải quyết bài tốn Mơ tả sơ bộ về dữ liệu Bitcoin Mơ tả sơ bộ về dữ liệu Bitcoin
Đối tượng mà báo cáo của tơi nghiên cứu chính là xu thế giá thị trường tiền điện tử. Cụ thể là giá Bitcoin thu thập từ trang cryptodatadownload.com từ lúc bắt đầu list trên sàn Binance để tiến hành dự đốn.
Đầu vào: Tập dữ liệu khơng nhãn liên quan đến giá của Bitcoin. Chia dữ liệu thanh
2 tập train và test, với tập train là dữ liệu huấn luyện và test là tập kiểm thử.
Đầu ra: Mơ hình học máy, sao cho mơ hình được đánh giá, kiểm thử với hiệu quả
cao, dữ liệu giá Bitcoin dự đốn.
Hệ thống dự đốn gồm 2 pha:
• Pha thứ nhất: Quá trình training
Bước 1: Thu thập dữ liệu.
Bước 2: Tiền xử lý dữ liệu. Bước này dùng các phương pháp xử lý dữ liệu, tối ưu
dữ liệu, tối ưu tham số của phương pháp cửa sổ trượt, độ dài của cửa sổ(W) và độ phủ của cửa sổ Oz.
Bước 3: Xây dựng tập dữ liệu huấn luyện và tập dữ liệu kiểm chứng thỏa mãn với
W và Oz đã tối ưu ở trên, gán nhãn cho dữ liệu.
Bước 4: Huấn luyện mơ hình.
Bước 5: Tối ưu hĩa tham số mơ hình.
• Pha thứ hai: Quá trình testing
Bước 1: Thu thập dữ liệu.
Bước 2: Tiền xử lý dữ liệu.
Bước 3: Xây dựng tập dữ liệu kiểm thử cho mơ hình, dữ liệu này sẽ khơng được
gán nhãn.
Bước 4: Kết hợp với mơ hình huấn luyện ở pha 1, đưa ra được kết quả chính xác
nhất cĩ thể.
Việc dự báo thị trường tiền điện tử bao gồm dự đốn định tính cho biết xu hướng của thị trường tăng hay giảm) và dự báo định lượng (dự đốn giá trị mỗi Bitcoin là bao nhiêu). Các kết quả đạt được sẽ làm cơ sở cho những chiến lược đầu tư của các nhà đầu tư.
Các phương tiện, hành động khác nhau cĩ tính chu kỳ và đặc điểm khác nhau nên sử dụng các kích thước cửa sổ khác nhau nhằm tăng hiệu quả phát hiện là thực sự cần thiết so với việc chỉ dùng một kích thước cửa sổ cho tất cả các loại phương tiện hay tất
cả các loại hành động giao thơng. Giải pháp được đưa ra đĩ là sử dụng kích thước cửa sổ phù hợp được lựa chọn dựa trên độ đo Accuracy (ACC) của mơ hình.
3.2.1. Pha 1- Quá trình training
3.2.1.1. Thu thập dữ liệu
Dữ liệu về giá Bitcoin thu thập từ trang cryptodatadownload.com từ lúc bắt đầu list trên sàn Binance từ ngày 17/8/2017 đến ngày 1/9/2020 để tiến hành dự đốn. Dữ liệu bao gồm các trường: Date, Open, high, low, close, Volume BTC, Volume USDT
Bảng 3.1: Dữ liệu giá Bitcoin
3.2.1.2. Quá trình tiền xử lý dữ liệu
Trong khai phá dữ liệu, quá trình tiền xử lý dữ liệu là rất quan trọng. Quá trình tiền xử lý dữ liệu giúp cho việc chuẩn hĩa dữ liệu trước khi đưa vào sử dụng. Việc chuẩn hĩa dữ liệu nhằm loại bỏ tính khơng minh bạch của thị trường tiền điện tử.[9]
Chuẩn bị dữ liệu là một bước quan trọng trong khai phá dữ liệu, dữ liệu được chuẩn bị tốt sẽ giúp hệ thống thực hiện tốt hơn, hiệu quả hơn. Chuẩn bị dữ liệu thường là một bước bắt buộc sử dụng để chuyển đổi dữ liệu vơ dụng thành dữ liệu mới phù hợp với tiến trình khai phá dữ liệu. Trước hết, nếu dữ liệu khơng được chuẩn bị, các thuật tốn khai phá dữ liệu cĩ thể khơng nhận dạng được dữ liệu để hoạt động hoặc sẽ báo lỗi trong quá trình thực hiện. Trong trường hợp tốt nhất, thuật tốn sẽ làm việc, nhưng kết quả được cung cấp sẽ khơng cĩ ý nghĩa hoặc sẽ khơng cĩ tính chính xác. Do đĩ cần nghiên cứu và áp dụng các kỹ thuật tiền xử lý dữ liệu nhằm nâng cao hiệu quả phân tích. Bước này kiểu tra dữ liệu cĩ trống, dữ liệu cĩ đúng định dạng.
• Lọc dữ liệu:
Với mỗi cửa sổ dữ liệu thu được các kỹ thuật tiền xử lý được áp dụng với mong muốn thu được dữ liệu tốt hơn cho hệ thống nhận dạng.
Trong hệ thống dự đốn giá, cửa sổ dữ liệu được khảo sát nhằm chọn ra kích thước cửa sổ(W) phù hợp với bộ dữ liệu giá của Bitcoin mục đích nâng cao kết quả dự đốn.
Ta tiến hành song song việc tìm kích thước cửa sổ đơng thời tìm độ chồng dữ liệu (OZ) sao cho kết quả dự đốn được nâng cao.