4.1.1. Phần cứng
Cấu hình phần cứng được s dụng trong báo cáo để thực nghiệm được thể hiện trong Bảng 4.1 dưới đây:
Bảng 4.1: Cấu hình phần cứng
Thành phần Chỉ số
CPU Intel Core i5 2.50 GHz
RAM 8.00 GB
Operating system Windown10-64 bit
4.1.2. Phần mềm
Danh sách phần mềm sử dụng trong thi hành thực nghiệm được mơ tả trong Error! Reference source not found. dưới đây:
Bảng 4.2 Các cơng cụ phần mềm hỗ trợ
STT Tên phần mềm Nguồn Chức năng
1 Python 3.7.1 https://www.python.org/
2 Pycharm http://www.jetbrain.com/
pycharm/dowload
Mơi trường để viết chương trình trên ngơn
ngữ python 3 Module tiền xử lý tập
dữ liệu đầu vào của mơ hình
Tự xây dựng bằng ngơn ngữ Python
Tiền xử lý dữ liệu
4 scikit-learn scikit-learn.org/stable Thư viện học máy để sử dụng các bộ phân lớp 5 Matplotlib 3.0.3 https://matplotlib.org/ Thư viện trực quan hĩa
dữ liệu trong Python
4.2. Tiền xử lý dữ liệu
Trong khai phá dữ liệu, quá trình tiền xử lý dữ liệu là rất quan trọng. Quá trình tiền xử lý dữ liệu giúp cho việc chuẩn hĩa dữ liệu trước khi đưa vào sử dụng. Việc chuẩn hĩa dữ liệu nhằm loại bỏ tính khơng minh bạch của thị trường tiền điện tử.
Chuẩn bị dữ liệu là một bước quan trọng trong khai phá dữ liệu, dữ liệu được chuẩn bị tốt sẽ giúp hệ thống thực hiện tốt hơn, hiệu quả hơn. Chuẩn bị dữ liệu thường là một bước bắt buộc sử dụng để chuyển đổi dữ liệu vơ dụng thành dữ liệu mới phù hợp với tiến trình khai phá dữ liệu. Trước hết, nếu dữ liệu khơng được chuẩn bị, các thuật tốn khai phá dữ liệu cĩ thể khơng nhận dạng được dữ liệu để hoạt động hoặc sẽ báo lỗi trong quá trình thực hiện. Trong trường hợp tốt nhất, thuật tốn sẽ làm việc, nhưng kết quả được cung cấp sẽ khơng cĩ ý nghĩa hoặc sẽ khơng cĩ tính chính xác. Do đĩ cần nghiên cứu và áp dụng các kỹ thuật tiền xử lý dữ liệu nhằm nâng cao hiệu quả phân tích.
4.2.1. Dữ liệu
Dữ liệu được sử dụng trong bài tốn dự báo này là giá Bitcoin được thu thập từ ngày bắt đầu list trên sàn Binance.
Hình 4.1 Dữ liệu về giá Bitcoin
Trong đĩ:
• Date: là trường chỉ ngày giao dịch.
• Open: là giá tại thời điểm mở cửa trong ngày. • High: là giá cao nhất trong ngày.
• Low: là giá thấp nhất trong ngày.
• Close: là giá điểm đĩng cửa của Bitcoin trong ngày. • Volume BTC: là khối lượng giao dịch BTC trong ngày.
• Volume USDT: là khối lượng giao dịch BTC bằng USDT trong ngày.
4.2.2. Lọc dữ liệu
Với mỗi cửa sổ dữ liệu thu được các kỹ thuật tiền xử lý được áp dụng với mong muốn thu được dữ liệu tốt hơn cho hệ thống nhận dạng.
4.2.3. Tổ chức dữ liệu
Thơng thường bộ dữ liệu được chia làm 3 tập: tập huấn luyện (training- set), tập kiểm chứng (validation set) và tập kiểm tra (test set). Nhưng do đặc thù của bộ dữ liệu nên tơi đã tiến hành chia như sau:
Tập huấn luyện là tập lớn nhất được mơ hình sử dụng để học các mẫu trong tập dữ liệu.
Tập huấn luyện chiếm khoảng 833 dữ liệu lấy từ này bắt đầu list trên sàn Binance của Bitcoin.
Tập kiểm chứng được sử dụng để tối ưu bộ tham số trong mơ hình huấn luyện được sử
dụng. Tập kiểm chứng chiếm khoảng 30 dữ liệu.
Tập kiểm tra là dữ liệu tương lai.