CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU

Một phần của tài liệu dự đoán giá tiền điện tử so sảnh độ chính xác mô hình máy học đề tài môn big data (Trang 41 - 56)

3.1 Quy trình nghiên cứu - Bước I: Tìm key paper - Bước 2: Lấy đữ liệu - Bước 3: Xây dựng model, train model và dự đoán - Bước 4: Đánh giả hiệu suất

- Bước 5: Nghị luận 3.2 Cách thức lấy và sàng lọc dữ liệu

3.2.1 Lấy dữ liệu

Tập dữ liệu được thu thập từ Yahoo Finance và tải về dưới định dạng CSV.

Tép bao gém 6 cột: Ngày, Khối lượng, Giá cao nhát, Giá thấp nhát, Giá mở cửa, Giá

đóng cửa.

3.2.2 Sàng lọc dữ liệu

Nhóm đã tiến hành thực hiện 2 kỹ thuật tiền xử lý khác nhau trên dữ liệu tiền điện tử đê chuẩn bị cho quá trình xử lý máy. Sau khi xử lý các giá trị còn thiếu thông qua kỹ thuật ước lượng dữ liệu, nhóm đã cải biến dữ liệu để phù hợp với việc áp dụng LSTM, Bi-LSTM, Bi-LSTM with Dropout, GRU, SVR, RFR. Các kỹ thuật tiền xử lý được Sử dụng như sau:

Kỹ thuật cắt bỏ đơn giản được sử dụng trong quá trình kiêm tra bộ dữ liệu để thay thé các giá trị còn thiếu bằng các quan sát được ghi lại trước đó.

Kỹ thuật chuẩn hóa theo từng tính năng như tỷ lệ MinMax được sử dụng để giảm thiểu vấn đề xử lý không đồng nhát các biến với các tỷ lệ khác nhau. Các nghiên

cứu gần đây đã chứng minh hiệu quả của các phương pháp tỷ lệ dữ liệu như vậy trong việc nâng cao hiệu suất mô hình. Do đó, trong nghiên cứu này, chúng tôi đã sử dụng

MiMax Scalar đề tý lệ hóa dữ liệu.

38

Nhóm đã sử dụng chiến lược phân chia dữ liệu huấn luyện kiểm tra 80:20 để

bảo toàn tính liên tục trong các tính năng cho từng loại tiền điện tử. Điều này có nghĩa

là các tính năng trong tập huấn luyện và tập kiêm tra sẽ có xu hướng giống nhau, giúp mô hình học được các mối quan hệ giữa các tính năng một cách chính xác hơn. Ngoài chiến lược phân chia dữ liệu, nhóm đã sử dụng các tiêu chí sàng lọc dữ liệu sau:

e_ Thời gian: chỉ bao gồm dữ liệu từ ngày 1 tháng I năm 2018 đến ngày 31 tháng 12 năm 2023.

Trong đó: Tập dữ liệu huấn luyện từ ngày I tháng I năm 2018 đến ngày 31 tháng 12 năm 2021 (80% dữ liệu) và tập dữ liệu kiêm tra bao gồm dữ liệu từ

ngày I tháng I năm 2022 đến ngày | thang | nam 2023 (20% đữ liệu).

e_ Loại tiền điện tử: BTC, ETH, SOL

BỘ DỮ LIỆU TIÊN DIỆN TỨ

Hình 5. Phương pháp xứ lý dữ liệu và lựa chọn mô hình

39

Các thuật toán được mã hóa băng Python 3.10.12 và chạy trên máy tính Window có bộ xử lý 4 CPU cores, 30 GB va non GPU, su dung Jupyter Notebook from kaggle. Trong quá trình thực hiện thí nghiệm, chúng tôi đã sử dụng một số thư viện cốt lõi, như scikif-learn (sklearn) cho giao diện lập trình ứng dụng (API) học sâu trong Python.

Hình 3.2, Hình 3.3 và Hình 3.4 mô tả giá đóng cửa hàng ngày của các loại tiền điện tử mục tiêu BTC, ETH và LTC, được chia thành bộ dữ liệu huấn luyện và thử nghiệm. Lưu ý nhóm chỉ đưa vào đữ liệu trong 5 năm gần đây đề lọc bỏ dữ liệu đơn điệu từ những ngày đầu của tiền điện tử.

Bitcoin close price 2014-2024(6/2/2024) =

Close

. | K\y 4

0k L \ "

10k | My Mn. A a

Qn _—_ a °

2015 2016 2017 2018 2019 2020 2021 2022 2023 2024

Date

Hinh 6. Gid dong cira hang ngay cua cac logi tién điện tử mục tiêu BTC

40

ETH close price 2017-2024

7 L j

~ hr A4 fr iN,

2018 2019 2020 2021 2022 2023 2024

Date

Close ——...

Hình 7. Giá đóng cửa hàng ngày cza các loại tiển điện tử mục tiêu ETH

SOL close price 2020-2024

250

200 |

150 \ H

100 a. J | W a, hy

12020 Jan2021 Jul2021 Jan2022 JJul2022 Jan2023 JJul2023 3Jan 2024

Date

Close

Hình 8. Giá đóng cửa hàng ngày cza các loại tiển điện tử mục tiêu SOL 3.3 Phương pháp nghiên cứu

3.3.1 Mô hình GRU:

M6 hinh GRU (Gated Recurrent Unit) la một trong những mô hình mạng nơ- ron hoc sau được sử dụng phô biến trong việc dự đoán giá Bitcoin. Mô hình này được

xây dựng trên cơ sở của mô hình RNN (Recurrent Neural Network) nhưng có những

cải tiền dé giúp mô hình hoạt động tốt hơn.

41

GRU sw dung hai công đề điều chỉnh thông tin được truyền đi giữa các đơn vị

thời gian (time step). Đầu tiên là công cập nhật (update gate) quyét định thông tin nào được giữ lại và thông tin nào bị xóa bỏ. Thứ hai là công khởi động (reset gate) quyết định thông tin nào sẽ được đưa vào đề tính toán tiếp theo.

Các đặc trưng của Bitcoin được truyền vào mô hình GRU qua các đơn vị thời gian. Mỗi đơn vị thời gian sẽ tính toán giá trị tiếp theo của Bitcoin dựa trên các đặc trưng vả trạng thái của đơn vị thời gian trước đó. Mô hình sử dụng phương pháp lan truyền ngược (backpropagation) để cập nhật các trọng số và đưa ra dự đoán giá tiếp theo.

Tuy nhiên, mô hình GRU không phải là giải pháp tuyệt đối cho việc dự đoán giá Bitcoin. Kết quá của mô hình phụ thuộc vào chất lượng dữ liệu đầu vào và các tham số được lựa chọn cho mô hình. Do đó, việc lựa chọn các đặc trưng và hiệu chỉnh

tham số mô hình là rất quan trọng đề đạt được hiệu quả tốt nhất trong việc dự đoán giá Bitcoin.

He = ỉ (Vụx + W,0¿_+ + bụ) (2)

ọ =Ữỉ (Vix + ẹ;o, + by) (3)

iy = tanh (V,x; + W, (1; © 04-1) + bo) (4)

0 =O (fr © O14 (1—pr) © it) (5)

Hinh 9.

42

Trong đó Xt đại diện cho đầu vào; của đầu ra; u đầu ra của công cập nhật, rt, đầu ra công reset; sản phẩm Hadamard; và V, W, b là các tham số hoặc ma trận trọng

SỐ. z A

y(t]

h[t-1] h[t]

x(t]

Hình 10. Mô hình GRU 3.3.2 Mô hình LSTM:

Mô hình LSTM (Long Short-Term Memory) là một trong những phương pháp phô biến nhát trong việc dự đoán giá Bitcoin và các loại tiền điện tử khác. Điều đó là do mô hình này có khả năng xử lý dữ liệu chuỗi thời gian một cách hiệu quả.

43

ùạ =ỉ(W;[t—t,Xị] + Bị) (1)

fr =o (Wy [fax] + Or) (2)

Ce = fe * Ga + ip * tanh (We [/y-1,%4] + 0.) (3)

Op = 7 (We [Iy-1,%4] + Do) (4)

ly = 0; * tanh (c;) (5)

Hinh 11.

Một trong những đặc điểm của mô hình LSTM là khả năng học và ghi nhớ thông tin trong quá khứ, đồng thời có thế sử dụng thông tin đó đề dự đoán tương lai.

Điều này cho phép mô hình LSTM phân tích các xu hướng và mô hình hóa dữ liệu chuỗi thời gian.

Mô hình LSTM cũng có thê xử lý các dữ liệu không đồng nhát và dữ liệu thưa thớt. Điều này cho phép nó hoạt động hiệu quả trong việc dự đoán giá Bitcoin, một thị trường có tính chát biến động cao và thường xuyên bị ảnh hưởng bởi các yếu tô khác nhau.

Tuy nhiên, việc sử dụng mô hình LSTM để dự đoán giá Bitcoin cũng có một số hạn ché. Ví dụ, mô hình này có thê không hoạt động tót khi dữ liệu chuỗi thời gian bị ảnh hưởng bởi các yếu tô bên ngoài, như chính trị hoặc kinh tế. Ngoài ra, mô hình LSTM cũng có thể dẫn đến việc dự đoán sai nếu dữ liệu đầu vào không được xử lý đúng cách.

Tóm lại, mô hình LSTM là một trong những công cụ hiệu quả nhất đề dự đoán giá Bitcoin, nhưng cần được sử dụng cân thận và đúng cách đề đạt được kết quả tốt nhát.

44

Ce >

Cell State Next cell State

| a

Next hidden State

<_

Input

g [ tanh

Hidden State

Hình 12. Cấu trúc cza thuát toán bộ nhớ ngắn hạn dài (LSTM) 3.3.3 Mô hình Bi- LSTM:

Mô hình Bi-LSTM (Bidirectional Long Short-Term Memory) là một trong những mô hình được sử dụng phô biến trong việc dự đoán giá Bitcoin. Mô hình này được thiết ké đề giải quyết vấn đề của mô hình LSTM truyền thống, đó là không thể

Xử lý được thông tin trong tương lai.

Với kiến trúc của nó, Bi-LSTM có thẻ xử lý dữ liệu theo cả hai hướng, từ trái sang phải và từ phải sang trái. Điều này cho phép mô hình học được sự phụ thuộc giữa các từ trong câu không chỉ ở phía trước mà còn ở phía sau. Bi-LSTM cũng có khả năng lưu trữ thông tin lâu hơn so với mô hình LSTM truyền thống, giúp cho mô

hình có khả năng dự đoán tốt hơn.

Trong việc dự đoán giá Bitcoin, Bi-LSTM được sử dụng đề phân tích dữ liệu lịch sử và dự đoán giá trong tương lai. Mô hình này có thê học được các mô hình phức tạp về sự thay đôi giá của Bitcoin và giúp nhà đầu tư có được các dự đoán chính xác hơn trong việc đưa ra quyết định đầu tư.

45

Outputs

Layer

Forward Layer

Inputs

Hình 13. Cấu trúc cửa thuát toán LSTM hai chiều (Bi-LSTM)

Tóm lại, Bi-LSTM là một mô hình quan trọng và đầy đủ nhất trong việc dự

đoán giá Bitcoin, vì nó có khả năng xử lý thông tim trong tương lai và lưu trữ thông

tin lâu hơn so với mô hình LSTM truyền thống.

Quy trình dự đoán giá tiền điện tử: Dữ liệu => Load dữ liệu => Tiền xử lý dữ

liệu => Tạo tập train => Xây dựng Model => Train Model => Tạo tập test => Đánh

giá => Vẽ đồ thị.

Ứng dụng:

e_ Phân tích tài chính: các mô hình này có thê được áp dụng để dự đoán xu

hướng thị trường tài chính, đánh giá rủi ro đầu tư và phân tích chuỗi thời gian của đữ liệu tài chính.

se _ Phân tích chuỗi cung ứng: GRU, LSTM và Bi-LSTM có thẻ giúp dự đoán nhu cầu và lưu lượng hàng hóa, tối ưu hóa quy trình cung ứng và dự báo các vấn đề có thê xảy ra trong chuỗi cung ứng.

e Phân tích dữ liệu y tế: các mô hình này có thẻ hỗ trợ trong việc dự đoán bệnh

tật, phân loại dữ liệu y tế và đưa ra các quyết định chân đoán dựa trên dữ liệu lâm sàng.

46

e_ Phân tích dữ liệu thời tiết: GRU, LSTM và Bi-LSTM có thẻ giúp trong việc dự đoán thời tiết, mô hình hóa các mẫu dữ liệu thời tiết phức tạp và cung cấp

thông tin dự báo chính xác.

e _ Phân tích dữ liệu giao thông: các mô hình này có thế được sử dụng để dự đoán tình trạng giao thông, tối ưu hóa lưu lượng giao thông và cải thiện hiệu quả hệ thống giao thông công cộng.

3.3.4 Mô hình Bi-LSTM with Dropout M6 ta vé Bi-LSTM with Dropout:

Mô hình Bi-LSTM with Dropout có thẻ được áp dụng đề dự đoán giá tiền điện

tử, tương tự như khi áp dụng cho dự đoán gia Bitcoin.

Bi-LSTM (Bidirectional Long Short-Term Memory): LSTM là một loại mạng

nơ-ron tái phat (recurrent neural network - RNN) duoc thiét ké dé giai quyét van dé bién mat gradient khi huan luyén mạng truyền thống RNN trên các chuỗi dài. Bi- LSTM sử dụng cả hai chiều của chuỗi dữ liệu đề học cả thông tin từ quá khứ và tương lai, giúp nâng cao khả năng hiểu bài toán.

Dropout: Dropout là một kỹ thuật chính để chống lai overfitting trong mang nơ-ron. Trong quá trình huấn luyện, một tỷ lệ ngẫu nhiên của các nơ-ron trong mạng sé bi "tat" (đặt giá tri bang 0). Điều này giúp ngăn chặn mô hình quá mức phụ thuộc vào các nơ-ron cụ thẻ và tăng khả năng tổng quát hóa.

Xdy dung m6 hinh Bi-LSTM with Dropout:

e Bắt đầu với lớp Embedding đề chuyền đổi từ dữ liệu thời gian thành các vectơ dựa trên từ vựng.

e _ Thêm lớp Bi-LSTM đề học thông tin từ cả hai chiều của chuỗi dữ liệu.

e Thêm lớp Dropout để ngăn chặn overfitting.

e Cuối cùng, có thẻ thêm lớp Fully Connected (Dense) để dự đoán giá tiền điện tử dựa trên thông tin đã học được từ Bi-LSTM.

47

Sử dụng thuật toán tối ưu hóa như Adam và hàm mắt mát thích hợp cho bài toán hồi quy (ví dụ: mean squared error). Tiền hành quá trình huần luyện trên tập dữ liệu huần

luyện.

Điều chinh các tham số như tỷ lệ Dropout, số lượng đơn vị LSTM, số lượng lớp LSTM, và các tham số khác đề cải thiện hiệu suất của mô hình trên tập kiểm thử.

Dự đoán và đánh giá mô hình: Sử dụng mô hình đề dự đoán giá tiền điện tử trên tập kiêm thử và đánh giá hiệu suất bằng các metric như mean absolute error (MAE) hay mean squared error (MSE).

3.3.5 Mô hình SVR:

Support Vector Machine (SVM) la mét thuat toan hoc may rat phố biến được sử dụng trong cả Hồi quy và Phân loại. Hồi quy vectơ hỗ trợ tương tự như hồi quy tuyến tính ở chỗ phương trình của đường thăng là y= wx+b. Trong SVR, đường thang này được gọi là siêu phẳng. Các điểm dữ liệu ở hai bên của siêu phang gàn với siêu phăng nhất được gọi là Vectơ hỗ trợ được sử dụng đề vẽ đường ranh giới.

Không giống như các mô hình Hồi quy khác có găng giảm thiêu sai số giữa giá trị thực và giá trị dự đoán, SVR cô găng vừa với đường tốt nhất trong giá trị

ngưỡng (khoảng cách giữa siêu phẳng và đường biên), a. Do đó, chúng ta có thể nói

rằng mô hình SVR có gắng thỏa mãn điều kiện -a < y-wx+b < a. Nó đã sử dụng các điểm với ranh giới này để dự đoán giá trị.

Hàm nhân kernel là một phần quan trọng của SVR, nó cho phép chúng ta ánh xạ dữ liệu từ không gian đầu vào ban đầu vào không gian cao chiều hơn, giúp tìm ra đường hồi quy phức tạp hơn. Một số hàm kernel phô biến bao gồm hàm tuyến tính, ham da thirc, va ham Radial Basis Function (RBF).

Support Vector Regression (SVR) cé thé duoc str dung dé dy doan gia Bitcoin, giống như việc áp dụng nó cho các vấn đẻ hỏi quy khác.

Quy trình cơ bản đề sử dụng SVR để dự đoán giá Bitcoin:

48

e Thu thập dữ liệu lịch sử giá Bitcoin, bao gồm các đặc trưng như giá mở cửa, giá đóng cửa, thay đôi phần trăm, khối lượng giao dịch, và bất kỳ đặc trưng nào có thê có ảnh hưởng đến giá.

e_ Xây dựng Mô hình SVR: Chọn loại kernel cho SVR (vi du: linear, polynomial, RBF) và điều chỉnh các tham số siêu như C (tham số đòi hỏi) và e (chiều rộng của khoảng tin cậy). Các tham số này có thê được điều chỉnh thông qua quy trình tỉnh chỉnh siêu tham số, chăng han nhw cross-validation.

Đánh giá mô hình: Đánh giá hiệu suất của mô hình bằng cách sử dụng các metric như mean squared error (MSE), mean absolute error (MAE), hay các metric khác phù hợp với bài toán dự đoán giá.

3.3.6 Mô hình RFR:

Random Forest Regression (RFR) là một mô hình học máy thuộc loại Ensemble Learning, chia nhỏ dữ liệu thành các cây quyết định (decision trees) và kết hợp két quả từ nhiều cây để dự đoán giá trị liên tục.

Cách triển khai mô hình RFR cho die dodn giá tiền điện tử:

e Thu thap lich su gia tiền điện tử và các đặc trưng có thé anh hưởng đến giá, chăng hạn như giá mở cửa, giá đóng cửa, thay đôi phần trăm, khối lượng giao dịch, và các yéu tó khác.

e_ Chuân bị dữ liệu bằng cách chia thành các tập, xử lý và chuẩn hóa dữ liệu.

Xây dựng mô hình RER:

e Sử dụng thư viện hỗ trợ RFR, chăng hạn như scikit-learn trong Python, dé tao va huan luyén mô hình.

e Lwya chon cac tham số siêu (hyperparameters) như số lượng cây, độ sâu của cây, và các tham só khác.

3.3.7 So sánh các mô hình:

Điểm giống nhau:

49

Các mô hình đều được Sử dụng để dự đoán giá Bitcoin dựa trên các giá trị lich Sử.

Tất cá các mô hình đều yêu cầu một lượng lớn dữ liệu lịch sử đề thực hiện dự đoán chính xác.

Tắt cả các mô hình đều có thê được điều chỉnh đề cải thiện độ chính xác của

dự đoán.

Cá LSTM, Bi-LSTM, Bi-LSTM với Dropout và GRU đều là các mô hình có khả năng xử lý dữ liệu chuỗi, chăng hạn như văn bản hoặc dãy thời gian.

LSTM, Bi-LSTM, va GRU déu có khả năng học được cấu trúc phức tạp của dữ liệu và mối quan hệ giữa các điêm dữ liệu.

Cả SVM (trong trường hợp cua SVR) va RFR đều có khả năng học mô hình phi tuyến tính, cho phép chúng mô hình hóa các mối quan hệ phức tạp giữa

đầu vào và đầu ra.

50

Điểm khác nhau:

e LSTM và GRU là các mô hình RNN, trong khi SVR và RFR thuộc loại mô

hình hồi quy không liên quan đến thời gian. Bi-LSTM là một biến thế cua LSTM có khả năng xử lý cả thông tin từ quá khứ và tương lai.

e LSTM va GRU cé thé chậm hơn so với Bi-LSTM vì chúng có cầu trúc phức tạp hơn. SVR và RFR có thể nhanh hơn do tính đơn giản của chúng.

e_ Bi-LSTM with Dropout thường giảm nguy cơ overủttins bằng cỏch sử dụng kỹ thuật Dropout. Trong khi đó, SVR và RFR không cần phải xử lý vấn đề overfẹtting nhưng cú thể cần điều chỉnh siờu tham số một cỏch cõn thận dộ tránh overfitting.

e Mỗi mô hình thích hợp cho loại vấn đề cụ thẻ. LSTM, Bi-LSTM, va GRU

thích hợp cho dữ liệu chuỗi, trong khi SVR và RFR thích hợp cho các vấn đề hỏi quy không phụ thuộc vào thời gian.

Tóm lại, mỗi mô hình có những ưu điềm và hạn ché riêng, và lựa chọn mô hình phù hợp nhát phụ thuộc vào mục đích sử dụng và tính chất của dữ liệu.

3.4 Điều chỉnh siêu tham số (Hyperparameter Tuning)

Tối ưu hóa siêu tham số là một khía cạnh cơ bản có ảnh hưởng đáng kê đến hiệu qua của một thuật toán học may. Bang cách chọn siêu tham só tôi ưu, hiệu suất của thuật toán có thê được cải thiện đáng kế, dẫn đến các dự đoán chính xác hơn [34].

Quá trình điều chỉnh siêu tham số trước lần chạy cuối cùng của thuật toán học sâu là quan trong dé đảm bảo kết quả tối ưu. Trong nghiên cứu hiện tại, số lượng nơ-ron trong mỗi lớp, kích thước epoch và kích thước batch được coi là các siêu tham số cần được tối ưu hóa. Một epoch đề cập đến một lượt chạy toàn bộ tập dữ liệu theo cả hai hướng tiền và lùi trong quá trình thực thi của mô hình, trong khi kích thước batch đề cập đến số lượng mẫu được sử dụng trong một lượt chạy tiến/lùi. Nó xác định số lượng mẫu sẽ được lan truyền qua mạng và cập nhật trọng só trong một lần lặp. Kích thước bafch là một siêu tham số có thẻ ảnh hưởng đến hiệu suất mô hình và cũng có thể ảnh hưởng đến thời gian huấn luyện. Một kích thước batch nhỏ hơn sẽ dẫn đến

51

Một phần của tài liệu dự đoán giá tiền điện tử so sảnh độ chính xác mô hình máy học đề tài môn big data (Trang 41 - 56)

Tải bản đầy đủ (PDF)

(83 trang)