3.2.1.2. Quá trình tiền xử lý dữ liệu
Trong khai phá dữ liệu, quá trình tiền xử lý dữ liệu là rất quan trọng. Quá trình tiền xử lý dữ liệu giúp cho việc chuẩn hĩa dữ liệu trước khi đưa vào sử dụng. Việc chuẩn hĩa dữ liệu nhằm loại bỏ tính khơng minh bạch của thị trường tiền điện tử.[9]
Chuẩn bị dữ liệu là một bước quan trọng trong khai phá dữ liệu, dữ liệu được chuẩn bị tốt sẽ giúp hệ thống thực hiện tốt hơn, hiệu quả hơn. Chuẩn bị dữ liệu thường là một bước bắt buộc sử dụng để chuyển đổi dữ liệu vơ dụng thành dữ liệu mới phù hợp với tiến trình khai phá dữ liệu. Trước hết, nếu dữ liệu khơng được chuẩn bị, các thuật tốn khai phá dữ liệu cĩ thể khơng nhận dạng được dữ liệu để hoạt động hoặc sẽ báo lỗi trong quá trình thực hiện. Trong trường hợp tốt nhất, thuật tốn sẽ làm việc, nhưng kết quả được cung cấp sẽ khơng cĩ ý nghĩa hoặc sẽ khơng cĩ tính chính xác. Do đĩ cần nghiên cứu và áp dụng các kỹ thuật tiền xử lý dữ liệu nhằm nâng cao hiệu quả phân tích. Bước này kiểu tra dữ liệu cĩ trống, dữ liệu cĩ đúng định dạng.
• Lọc dữ liệu:
Với mỗi cửa sổ dữ liệu thu được các kỹ thuật tiền xử lý được áp dụng với mong muốn thu được dữ liệu tốt hơn cho hệ thống nhận dạng.
Trong hệ thống dự đốn giá, cửa sổ dữ liệu được khảo sát nhằm chọn ra kích thước cửa sổ(W) phù hợp với bộ dữ liệu giá của Bitcoin mục đích nâng cao kết quả dự đốn.
Ta tiến hành song song việc tìm kích thước cửa sổ đơng thời tìm độ chồng dữ liệu (OZ) sao cho kết quả dự đốn được nâng cao.
Hình 3.2: Cửa sổ dữ liệu
Trong bước này, báo cáo tập trung tối ưu hĩa bằng cách dùng phương pháp cửa sổ trượt. Quá trình xử lý dữ liệu được minh họa qua hình dưới đây:
Hình 3.3: Mơ hình tối ưu thơng số cửa sổ
Sau quá trình này ta sẽ tìm được ra thơng số: Độ dài cửa sổ(W) và độ phủ của cửa sổ (Oz) với Acc (Accuracy) lớn nhất.
3.2.1.3. Xây dựng bộ dữ liệu.
Sau khi đã tìm được W và Oz ta tiến hành xây dựng mơ hình với độ dài của cửa sổ và độ phủ đã tối ưu ở quá trình xử lý dữ liệu.
Tiến hành chia bộ dữ liệu training thành 2 phần: dữ liệu huấn luyện và dữ liệu kiểm thử (cĩ dán nhãn)
3.2.1.4. Huấn luyện mơ hình
Đưa bộ dữ liệu sau khi đã xây dựng vào mơ hình để tiến hành huấn luyện với bộ tham số mặc định của mơ hình
3.2.1.5. Tối ưu hĩa tham số mơ hình
Cuối cùng thực hiện phân lớp dữ liệu kiểm thử. Đưa dữ liệu kiểm thử vào mơ hình đã xây dựn. Kết quả được so sánh với kết quả kiểm thử cĩ dán nhãn để đánh giá độ chính xác của mơ hình. Trong mơ hình này, thực hiện đánh giá hệ thống thơng qua độ đo Accuracy (Acc) để đánh giá độ chuẩn xác của dự đốn so với tập Validate.
Ta thay đổi các thơng số của mơ hình Random Forest: • n_estimators: số lượng dữ liệu
• max_depth: Độ sâu tối đa của cây quyết định. Mơ hình tối ưu tham số Random Forest:
Hình 3.4: Mơ hình tối ưu tham số cho Random Forest
3.2.2. Pha 2- Tối ưu hĩa tham số của mơ hình được kết quả tối ưu nhất
3.2.2.1. Thu thập dữ liệu
Dữ liệu được thu thập như ở pha 1.
3.2.2.2. Tiền xử lý dữ liệu
Dữ liệu được xử lý như ở pha 1 bao gơm các bước như lọc dữ liệu, lấy kết quả độ dài cửa sổ và độ chồng cửa sổ để xây dựng mơ hình.
3.2.2.3. Xây dựng bộ dữ liệu test.
Dữ liệu được xây dựng như ở pha 1. Bộ dữ liệu test khơng được dán nhãn.
Kết luận Chương 3
Trong Chương 3 báo cáo đã trình bày mơ hình dự đốn giá Bitcoin dựa trên học máy bằng cách sử dụng phương pháp cửa sổ trượt và tối ưu tham số của mơ hình Random Forest.
Quy trình giải quyết bài tốn gồm 2 pha: (i) Pha 1- Quá trình training (ii) Pha 2- Quá trình testing. Tiếp đến báo cáo, thực hiện đánh giá hệ thống thơng qua độ đo dựa trên độ chính xác Accuracy để đưa ra được mơ hình tối ưu nhất.
Nội dung chương tiếp theo trình bày về kết quả thực nghiệm và đánh giá phương pháp đề xuất.
CHƯƠNG 4
THỰC NGHIỆM VÀ KẾT QUẢ
Trong chương này, báo cáo chạy thực nghiệm cho mơ hình ARIMA và Random Forest. Báo cáo tiến hành thực nghiệm với bộ dữ liệu Bitcoin và sử dụng phương pháp cửa sổ trượt xây dựng bộ dữ liệu đưa vào mơ hình Random Forest và tối ưu các tham số để đưa ra kết quả tối ưu nhất.
Báo cáo này tiến hành ba thực nghiệm tương ứng với ba phương án dữ liệu như sau: • Dữ liệu Bitcoin qua quá trình tiền sử lý dữ liệu cơ bản đưa vào mơ hình ARIMA để đưa ra dự đốn.
• Dữ liệu Bitcoin qua quá trình tiền sử lý dữ liệu cơ bản đưa vào mơ hình Random Forest để đưa ra kết quả dự đốn.
• Dữ liệu Bitcoin qua quá trình tiền xử lý dữ liệu bằng phương pháp cửa sổ trượt, sau đĩ tối ưu tham số của thuật tốn Random Forest để đưa ra kết quả.
4.1. Mơi trường thực nghiệm 4.1.1. Phần cứng 4.1.1. Phần cứng
Cấu hình phần cứng được s dụng trong báo cáo để thực nghiệm được thể hiện trong Bảng 4.1 dưới đây: