.1 Mơ hình dự báo đề xuất

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính (Trang 47 - 52)

Tập train GA Đánh giá mơ hình và dự báo kết quả Tập test Mơ hình đã được training Dữ liệu ban đầu

Tổ chức dữ liệu

Mơ hình Tiền xử lý dữ liệu

3.3 Thu thập và tiền xử lý dữ liệu 3.3.1Thu thập dữ liệu 3.3.1Thu thập dữ liệu

Dữ liệu dùng trong thực nghiệm là dữ liệu của cơng ty IBM được download trên website của cơng ty từ ngày 02/01/1962 đến ngày 31/12/2014 với 5 tham số đầu vào: Open, High, Low, Close, Volume.

Dữ liệu cĩ tên IBM bao gồm 6 trường, trong đĩ cĩ 5 trường tham gia vào dữ liệu đầu vào như sau:

Date Open High Low Close Volume

1962-01-02 578.5 578.5 572 572 387200 1962-01-03 572 577 572 577 288000 1962-01-04 577 577 571 571.25 256000 1962-01-05 570.5 570.5 559 560 363200 1962-01-08 559.5 559.5 545 549.5 544000 1962-01-09 552 563 552 556 491200 1962-01-10 557 559.5 557 557 299200 1962-01-11 558.5 563 558.5 563 315200 1962-01-12 564 568 564 564 435200 1962-01-15 566 567.75 566 566.5 251200 1962-01-16 566 566 560.5 560.5 251200 Bảng 3.1 Tổ chức dữ liệu IBM Trong đĩ:

Date: là trường chỉ ngày giao dịch. Trường này khơng đĩng vai trị tham gia vào dữ liệu đầu vào của bài tốn.

Open: là giá cổ phiếu tại thời điểm mở cửa trong ngày. High: giá cổ phiếu cao nhất trong ngày.

Low: giá cố phiếu thấp nhất trong ngày

Close: giá cổ phiếu được niêm yết tại thời điểm đĩng cửa trong ngày. Volume: khối lượng giao dịch cổ phiếu trong ngày.

3.3.2 Tiền xử lý dữ liệu

Trong khai phá dữ liệu thì quá trình tiền xử lý dữ liệu là rất quan trọng. Quá trình tiền xử lý dữ liệu giúp cho việc chuẩn hĩa dữ liệu trước khi đưa vào sử dụng. Việc chuẩn hĩa dữ liệu nhằm loại bỏ tính khơng minh bạch của thị trường chứng khốn như:

- Khơng đầy đủ: thiếu giá trị thuộc tính, thiếu thuộc tính cần quan tâm. - Nhiễu: chứa lỗi hoặc thơng tin ngồi luồng.

- Mâu thuẫn: chứa các mâu thuẫn giữa mã và tên.

Quá trình tiền xử lý dữ liệu gồm hai giai đoạn là tính tốn các tham số đầu vào dựa vào dữ liệu thu thập được và xây dựng dữ liệu cho mơ hình.

a. Tính tốn các tham số đầu vào

Ngồi việc sử dụng giá trị tham số đầu vào là giá đĩng cửa cho mơ hình, chúng tơi cịn sử dụng một số tham số đầu vào cho mơ hình như SMA10, EMA10, RSI. Trong đĩ:

- SMA10 là đường trung bình dịch chuyển giản đơn (Simple Moving Average) của 10 ngày. SMA là một chỉ số phản ánh xu hướng giá, chỉ số này loại bỏ các biến động lớn của giá chứng khốn hàng ngày và tạo ra đường giá chứng khốn mềm mại hơn. Cũng như các chỉ số kỹ thuật khác, đường trung bình dịch chuyển giản đơn được xây dựng dựa trên giá chứng khốn và do đĩ nĩ cĩ độ trễ so với mức giá chứng khốn hiện tại. Tuy nhiên, thơng tin này cung cấp những tín hiệu cực kỳ hữu ích. Việc sử dụng những đường trung bình dịch chuyển là cách dễ nhất để xác định hướng biến động giá của giá chứng khốn. Nếu SMA nhích lên cĩ nghĩa là chứng khốn đĩ cĩ chiều hướng đi lên. Ngược lại, nếu SMA đi xuống dưới, giá chứng khốn cĩ chiều hướng giảm. SMA10 sẽ được tính như sau:

SMA(10) = Tổng 10 ngày giao dịch gần nhất /10

- EMA10 là đường trung bình dịch chuyển hàm mũ (Exponetial Moving Averages) của 10 ngày. Một trung bình trượt mũ (hoặc trung bình trượt cĩ trọng số mũ) được tính bằng cách áp dụng tỷ lệ phần trăm của giá đĩng cửa ngày hơm nay cho giá trị trung bình của ngày hơm qua. Các đường trung bình trượt mũ đạt tỷ trọng lớn hơn đối với các mức giá gần đây.

Ví dụ, để tính trung bình trượt mũ 9% của cổ phiếu IBM, đầu tiên bạn sẽ lấy giá đĩng cửa của ngày hơm nay và nhân với 9%. Tiếp theo bạn sẽ cộng kết quả này với giá trị trung bình trượt của ngày hơm qua đã nhân với 91% (100% - 9% = 91%)

- RSI (Relative Strength Index) được gọi là chỉ số tương đối. Chỉ số RSI đo lường tốc độ và sự thay đổi trong xu hướng giá. RSI cĩ giá trị từ 0 đến 100. Nếu chỉ số

vượt trên 70 thì gọi là quá mua. Nếu chỉ số xuống thấp hơn 30 thì gọi là quá bán. Chỉ số này cũng hữu ích khi tìm thấy sự phân kỳ, khi chỉ số vượt qua đường trung bình, khi tạo đáy hoặc đỉnh. RSI cũng cĩ thể được dùng để đánh giá xu hướng. Nhìn chung, đây là một chỉ số rất quan trọng và rất phổ biến thường được mọi người sử dụng trong phân tích kỹ thuật để nhận định dự báo thị trường, giá cả hàng hĩa và cổ phiếu. Cách tính RSI theo cơng thức:

RSI=100-[100/(1+RS)]

Trong đĩ, RS = tổng tăng/tổng giảm hoặc RS=trung bình tăng/trung bình giảm. RSI thường được tính dựa vào 14 ngày gần nhất và dùng giá đĩng cửa để tính RSI chỉ tính được khi cĩ dữ liệu từ 14 ngày trở lên.

Sau khi tính các tham số MA10, EMA10, RSI thì dữ liệu data lúc này trở thành:

Date Open High Low Close Volume SMA10 EMA10 RSI 1970-06-23 268.5 270 257.12 257.12 724800 269.006 267.5998 40.44869

b. Xây dựng dữ liệu cho mơ hình

Dựa vào bảng dữ liệu sau khi đã thêm các chỉ số SMA10, EMA10 và RSI, chúng ta sẽ xây dựng bộ dữ liệu đầu vào của mơ hình. Với bài tốn dự báo dữ liệu thời gian thực, đầu ra là giá trị dự đốn cho thời điểm t+1, đầu vào là giá trị k ngày trước đĩ (với k cho trước và tùy thuộc vào từng bài tốn).

Rh(t+1) Rh(t) Rh(t-1) …. Rh(t-k+1)

Với bài tốn này, ta tổ chức dữ liệu thời gian lùi với cột đầu tiên là dữ liệu cần dự đốn và các cột cịn lại là giá trị lần lượt của k ngày trước đĩ được sắp xếp lùi dần theo t:

Rh(k+1) Rh(k) … Rh(2) Rh(1) Date(k+1) Rh(k+2) Rh(k+1) … Rh(3) Rh(2) Date(k+2) Rh(k+3) Rh(k+2) … Rh(4) Rh(3) Date(k+3) … … … … Rh(t+1) Rh(t) … Rh(t-k+2) Rh(t-k+1) Date(t+1) … … … … Rh(n) Rh(n-1) … Rh(n-k+1) Rh(n-k) Date(n)

Ta tổ chức dữ liệu thành một frame, với các cột là các giá trị như bảng trên. Điều này sẽ rất thuận tiện cho việc cung cấp dữ liệu cho mơ hình: đầu ra là cột đầu tiên và đầu vào là các cột cịn lại (trừ cột cuối cùng là thời gian ghi số liệu “Date”). Cụ thể, trong bài tốn của mình, chúng tơi tổ chức dữ liệu là các tỉ lệ giá đĩng cửa của 10 ngày trước thời điểm t. Dữ liệu này khi đưa vào mơ hình mạng nơ-ron sẽ dự báo tỉ lệ giá đĩng cửa phụ thuộc vào 10 ngày trước đĩ. Cụ thể dữ liệu được tổ chức như sau:

r1.f1 r1.t0 r1.t1 r1.t2 r1.t3 r1.t4 r1.t5 r1.t6 r1.t7 r1.t8 r1.t9 Date Ở đây, giá trị là tỉ lệ giá đĩng của tại thời điểm t tương ứng trong cột , các giá trị r1.t0, r1.t1,...., r1.t9 là các tỉ lệ giá đĩng cửa của 10 ngày trước thời điểm t. Dữ liệu này khi đưa vào mơ hình mạng sẽ dự báo tỉ lệ giá đĩng cửa phụ thuộc vào 10 ngày trước đĩ.

3.4 Tổ chức dữ liệu

Sau khi chuẩn hố dữ liệu, chúng ta chia dữ liệu thành hai tập: tập huấn luyện (train set) và tập kiểm tra (test dataset).

Tập huấn luyện là tập lớn nhất được sử dụng bởi mơ hình để học các mẫu trong tập dữ liệu. Tập huấn luyện chiếm khoảng 70% dữ liệu.

Tập kiểm tra cĩ kích cỡ chiếm khoảng 30% của tập dữ liệu, nĩ được dùng để ước lượng khả năng khái quát hố của một mạng theo giả thiết được huấn luyện.

3.5 Huấn luyện mạng

Huấn luyện mạng nơ-ron cĩ nghĩa là học các mẫu từ dữ liệu. Quá trình huấn luyện được thực hiện bằng cách đầu vào là một phần của chuỗi thời gian được gọi là cửa sổ, phần đầu ra là các giá trị dự đốn. Bằng cách di chuyển các cửa sổ trên chuỗi thời gian của tập huấn luyện cho đến khi kết thúc tập huấn luyện ta sẽ thu được mơ hình đã được huấn luyện [2].

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính (Trang 47 - 52)

Tải bản đầy đủ (PDF)

(73 trang)