Hàm tự tương quan từng phần PACF

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính (Trang 41)

Chương 2 MỘT SỐ MƠ HÌNH TRONG BÀI TỐN DỰ BÁO

2.4 Mơ hình ARIMA

2.4.2 Hàm tự tương quan từng phần PACF

Song song với việc xác định hàm tự tương quan giữa các cặp y(t) và y(t+k), ta xác định hàm tự tương quan từng phần cũng cĩ hiệu lực trong việc can thiệp đến các quan sát y(t+1),...., y(t+k-1). Hàm tự tương quan từng phần tại độ trễ k Ckk được ước lượng bằng hệ số liên hệ y(t) trong mối kết hợp tuyến tính bên dưới. Sự kết hợp được tính dựa trên tầm ảnh hưởng của y(t) và các giá trị trung gian y(t+k).

Giải phương trình hồi quy dựa trên bình phương tối thiểu vì hệ số hồi quy Ckj phải được tính ở mỗi độ trễ k, với j chạy từ 1 đến k.

Giải pháp ít tốn kém hơn do Durbin phát triển dùng để xấp xỉ đệ quy hệ số hồi quy cho mơ hình ARIMA chuỗi dừng, sử dụng giá trị hàm tự tương quan tại độ trễ k rk và hệ số hồi quy của độ trễ trước. Dưới đây là phương pháp Durbin sử dụng cho 3 độ trễ đầu tiên.

Độ trễ 1 : Khởi tạo, giá trị của hàm tự tương quan từng phần tại độ trễ 1 cĩ cùng giá trị với hàm tự tương quan tại độ trễ 1 vì khơng cĩ trung gian giữa các quan sát kết tiếp : C11 = r1

Độ trễ 2 : Hai giá trị C22 và C21 được tính dựa vào hàm tự tương quan r2 và r1,cùng với hàm tự tương quan từng phần trước đĩ

Độ trễ 3 : Tương tự, ba giá trị C33, C32, C31 được tính dựa vào các hàm tự tương quan trước r3,r2,r1 cùng với các hệ số được tính ở độ trễ thứ 2 : c22 và C21.

Tổng quan, hàm tự tương quan từng phần được tính theo Durbin :

Trong đĩ :

rk : Hàm tự tương quan tại độ trễ k v : Phương sai

Ckj : Hàm tự tương quan từng phần cho độ trễ k, loại bỏ những ảnh hưởng của các độ trễ can thiệp.

Ckj = Ck-1,j – (Ckk).C(k-1,k-j) k = 2,…, j = 1,2,…, k-1 C22 = (r2 –r12)/(1- r12)

C11 = r1

Khi độ trễ tăng, số các hệ số tăng theo. Phương pháp của Durbin cho phép việc tính đệ quy dựa vào việc sử dụng kết quả trước đĩ.

Tĩm lại, hàm tự tương quan ACF và hàm tự tương quan từng phần PACF của chuỗi thời gian cĩ các đặc tính khác nhau. Hàm tự tương quan ACF đo mức độ phụ thuộc tuyến tính giữa các cặp quan sát. Hàm tự tương quan từng phần PACF đo mức độ phụ thuộc tuyến tính từng phần. ARIMA khai thác những điểm khác biệt này để xác định cấu trúc mơ hình cho chuỗi thời gian.

Xu hướng vận động của hàm tự tương quan từng phần PACF cĩ thể giảm đột ngột (thường sau độ trễ 1 hoặc 2) hay cĩ thể giảm đều. Cũng như hàm tự tương quan ACF, xu hướng giảm đều của hàm tự tương quan từng phần PACF cũng cĩ các dạng phân phối mũ, dạng sĩng hình sin hoặc kết hợp cả 2 dạng này (hình 2.9c).

a) Dao động hàm mũ tắt dần (Damped Exponential)

b) Dao động tắt dần theo quy luật số mũ (Damped exponential oscillation) c) Dao động sĩng tắt dần theo quy luật hình sin (Damped sine wave) 2.4.3Quá trình tự hồi quy AR(p)

Xét mơ hình Y(t) như sau:

Trong đĩ:

y(t) : quan sát dừng hiện tại

y(t-1), y(t-2),.... : quan sát dừng quá khứ (thường sử dụng khơng quá 2 biến này) a0, a1, a2, … : các tham số phân tích hồi quy.

et : sai số dự báo ngẫu nhiên của giai đoạn hiện tại. Giá trị trung bình được mong đợi bằng 0.

Y(t) là một hàm tuyến tính của những quan sát dừng quá khứ y(t-1). y(t-2),.... Nĩi cách khác khi sử dụng phân tích hồi quy y(t) theo các giá trị chuỗi thời gian dừng cĩ độ trễ, chúng ta sẽ được mơ hình AR (yếu tố xu thế đã được tách khỏi yếu tố thời gian, chúng ta sẽ mơ hình hĩa những yếu tố cịn lại – đĩ là sai số).

Số quan sát dừng quá khứ sử dụng trong mơ hình hàm tự tương quan là bậc p của mơ hình AR. Nếu ta sử dụng hai quan sát dừng quá khứ, ta cĩ mơ hình tương quan bậc

hai AR(2). Tức là, giá trị của Y trong thời đoạn t phụ thuộc vào giá trị của nĩ trong hai

thời đoạn trước đĩ.

Điều kiện dừng là tổng các tham số phân tích hồi quy nhỏ hơn 1 : a1+ a2 + … + ap < 1

Mơ hình AR(1) : y(t) = a0 + a1y(t-1) + e(t)

Mơ hình AR(2) : y(t) = a0 + a1y(t-1) + a2y(t-2) +e(t) 2.4.4Quá trình trung bình trượt MA(q)

Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến sai số dự báo quá khứ và hiện tại. Mơ hình bình quân di động là một trung bình trọng số của những sai số mới nhất.

y(t) = b0 + e(t) +b1e(t-1) + b2e(t-2) +....+bqe(t-q) Trong đĩ :

e(t) : sai số dự báo ngẫu nhiên, giá trị của nĩ khơng được biết và giá trị trung bình của nĩ là 0.

e(t-1), e(t-2),.... : sai số dự báo quá khứ (thơng thường mơ hình sẽ sử dụng khơng quá 2 biến này).

b0, b1, b2,.... : giá trị trung bình của y(t) và các hệ số bình quân di động.

q : sai số quá khứ được dùng trong mơ hình bình quân di động, nếu ta sử dụng hai sai số quá khứ thì sẽ cĩ mơ hình bình quân di động bậc 2 là MA(2).

Điều kiện cần là tổng các hệ số bình quân di động phải nhỏ hơn 1 : b1+ b2 +.... + bq < 1

Mơ hình MA(1) : y(t) = b0 + e(t) + b1e(t-1)

Mơ hình MA(2) : y(t) = b0 + e(t) + b1e(t-1) + b2e(t-2) 2.5 Kết luận

Trong chương 2 luận văn đã trình bày được một số khái niệm cơ bản và những kiến thức cĩ liên quan về khai phá dữ liệu và một số mơ hình dùng để khai phá dữ liệu, thống kê đối với dữ liệu thời gian thực, cụ thể là dữ liệu chứng khốn. Từ đĩ làm cơ sở lý thuyết cho những chương sau.

Chương 3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TỐN 3.1 Giới thiệu bài tốn 3.1 Giới thiệu bài tốn

Thị trường giao dịch chứng khốn là một miền ứng dụng tiềm năng lớn trong khai phá dữ liệu. Mục tiêu chung của giao dịch chứng khốn là để duy trì đầu tư cổ phiếu dựa trên các lệnh mua và bán. Mục tiêu dài hạn là để đạt được lợi nhuận cao nhất từ hoạt động giao dịch.

Bài tốn dự báo thị trường chứng khốn là thực hiện dự báo tương lai dựa vào thơng tin trong quá khứ và hiện tại, cụ thể là giá đĩng cửa và các chỉ số chứng khốn cơ bản. Hiện nay, cĩ rất nhiều nghiên cứu đã được thực hiện trong việc áp dụng các thuật tốn để phân tích mơ hình và dự đốn giá cổ phiếu. Việc dự đốn bao gồm dự đốn định tính (mang tính chất xu hướng của thị trường tăng hay giảm) và dự báo định lượng (cho biết thị trường tăng hay giảm với mức là bao nhiêu). Trong phạm vi nghiên cứu của luận văn, tác giả đi vào giải quyết bài tốn thứ nhất đĩ là dự đốn xu hướng của thị trường chứng khốn. Quá trình dự báo được thực hiện nhờ việc áp dụng các thuật tốn học để phân tích mơ hình và dự đốn giá cổ phiếu. Từ đĩ, hỗ trợ người dùng đưa ra quyết định đầu tư tốt nhất cĩ thể.

Cĩ nhiều yếu tố bên ngồi ảnh hưởng đến sự thay đổi giá đĩng cửa của cổ phiếu như: sự thay đổi của giá dầu thơ, giá vàng, đồng đơla... hay tình hình kinh tế, chính trị trên thế giới và khu vực. Tuy nhiên trong khuơn khổ của luận văn, tác giả chỉ tập trung vào việc phân tích và đánh giá thị trường dựa trên các thơng số kỹ thuật như giá đĩng cửa, và các chỉ số chứng khốn cơ bản theo chuỗi thời gian mà bỏ qua những yếu tố tác động bên ngồi kể trên. Chúng ta sẽ chỉ nghiên cứu quá trình “giao dịch” của một cổ phiếu đơn – cổ phiếu IBM trên sàn giao dịch New York. Chúng ta sẽ tối đa hĩa lợi nhuận trong thời gian thử nghiệm bằng các hoạt động giao dịch như mua, bán và chờ (khơng làm gì cả). Chiến lược kinh doanh sẽ làm cơ sở cho việc ra quyết định thơng qua kết quả của quá trình khai phá dữ liệu. Tiêu chí đánh giá cho mơ hình chiến lược chính là kết quả của việc áp dụng tri thức tìm ra trong quá trình khai phá dữ liệu.

Trong quá trình giải quyết bài tốn, tác giả sẽ áp dụng ba mơ hình khác nhau để dự đốn kết quả cổ phiếu IBM ở sàn giao dịch New York. Đĩ là mơ hình mạng Nơ-ron, mơ hình máy véc-tơ hỗ trợ và mơ hình Arima.

3.2 Xây dựng mơ hình

Mơ hình trên áp dụng cho hai mơ hình phân lớp là mơ hình mạng nơ-ron và mơ hình máy vector hỗ trợ. Mơ hình bao gồm hai quá trình:

- Huấn luyện mạng (training): đầu vào của mơ hình là dữ liệu đã được phân lớp. Cụ thể ở đây là tập dữ liệu training. Với mỗi một mơ hình thì quá trình huấn luyện mạng sử dụng các tham số khác nhau. Chúng ta sử dụng giải thuật gen di truyền (GA) để tối ưu tham số đầu vào của mơ hình trong quá trình huấn luyện. Cụ thể:

o Mơ hình máy vector hỗ trợ: tham số đầu vào là gamma và cost. Trong bài tốn của mình, tơi sử dụng giải thuật gen di truyền để tối ưu cả hai tham số trên.

- Kiểm tra mạng (test) và dự đốn: sau khi huấn luyện mạng ta sẽ thu được một mơ hình mạng với các tham số đã được tối ưu. Khi đĩ, ta sẽ sử dụng bộ dữ liệu thử nghiệm (tập test) để đánh giá mơ hình và đưa ra kết quả dự báo cho thị trường.

Hình 3.1 Mơ hình dự báo đề xuất

Tập train GA Đánh giá mơ hình và dự báo kết quả Tập test Mơ hình đã được training Dữ liệu ban đầu

Tổ chức dữ liệu

Mơ hình Tiền xử lý dữ liệu

3.3 Thu thập và tiền xử lý dữ liệu 3.3.1Thu thập dữ liệu 3.3.1Thu thập dữ liệu

Dữ liệu dùng trong thực nghiệm là dữ liệu của cơng ty IBM được download trên website của cơng ty từ ngày 02/01/1962 đến ngày 31/12/2014 với 5 tham số đầu vào: Open, High, Low, Close, Volume.

Dữ liệu cĩ tên IBM bao gồm 6 trường, trong đĩ cĩ 5 trường tham gia vào dữ liệu đầu vào như sau:

Date Open High Low Close Volume

1962-01-02 578.5 578.5 572 572 387200 1962-01-03 572 577 572 577 288000 1962-01-04 577 577 571 571.25 256000 1962-01-05 570.5 570.5 559 560 363200 1962-01-08 559.5 559.5 545 549.5 544000 1962-01-09 552 563 552 556 491200 1962-01-10 557 559.5 557 557 299200 1962-01-11 558.5 563 558.5 563 315200 1962-01-12 564 568 564 564 435200 1962-01-15 566 567.75 566 566.5 251200 1962-01-16 566 566 560.5 560.5 251200 Bảng 3.1 Tổ chức dữ liệu IBM Trong đĩ:

Date: là trường chỉ ngày giao dịch. Trường này khơng đĩng vai trị tham gia vào dữ liệu đầu vào của bài tốn.

Open: là giá cổ phiếu tại thời điểm mở cửa trong ngày. High: giá cổ phiếu cao nhất trong ngày.

Low: giá cố phiếu thấp nhất trong ngày

Close: giá cổ phiếu được niêm yết tại thời điểm đĩng cửa trong ngày. Volume: khối lượng giao dịch cổ phiếu trong ngày.

3.3.2 Tiền xử lý dữ liệu

Trong khai phá dữ liệu thì quá trình tiền xử lý dữ liệu là rất quan trọng. Quá trình tiền xử lý dữ liệu giúp cho việc chuẩn hĩa dữ liệu trước khi đưa vào sử dụng. Việc chuẩn hĩa dữ liệu nhằm loại bỏ tính khơng minh bạch của thị trường chứng khốn như:

- Khơng đầy đủ: thiếu giá trị thuộc tính, thiếu thuộc tính cần quan tâm. - Nhiễu: chứa lỗi hoặc thơng tin ngồi luồng.

- Mâu thuẫn: chứa các mâu thuẫn giữa mã và tên.

Quá trình tiền xử lý dữ liệu gồm hai giai đoạn là tính tốn các tham số đầu vào dựa vào dữ liệu thu thập được và xây dựng dữ liệu cho mơ hình.

a. Tính tốn các tham số đầu vào

Ngồi việc sử dụng giá trị tham số đầu vào là giá đĩng cửa cho mơ hình, chúng tơi cịn sử dụng một số tham số đầu vào cho mơ hình như SMA10, EMA10, RSI. Trong đĩ:

- SMA10 là đường trung bình dịch chuyển giản đơn (Simple Moving Average) của 10 ngày. SMA là một chỉ số phản ánh xu hướng giá, chỉ số này loại bỏ các biến động lớn của giá chứng khốn hàng ngày và tạo ra đường giá chứng khốn mềm mại hơn. Cũng như các chỉ số kỹ thuật khác, đường trung bình dịch chuyển giản đơn được xây dựng dựa trên giá chứng khốn và do đĩ nĩ cĩ độ trễ so với mức giá chứng khốn hiện tại. Tuy nhiên, thơng tin này cung cấp những tín hiệu cực kỳ hữu ích. Việc sử dụng những đường trung bình dịch chuyển là cách dễ nhất để xác định hướng biến động giá của giá chứng khốn. Nếu SMA nhích lên cĩ nghĩa là chứng khốn đĩ cĩ chiều hướng đi lên. Ngược lại, nếu SMA đi xuống dưới, giá chứng khốn cĩ chiều hướng giảm. SMA10 sẽ được tính như sau:

SMA(10) = Tổng 10 ngày giao dịch gần nhất /10

- EMA10 là đường trung bình dịch chuyển hàm mũ (Exponetial Moving Averages) của 10 ngày. Một trung bình trượt mũ (hoặc trung bình trượt cĩ trọng số mũ) được tính bằng cách áp dụng tỷ lệ phần trăm của giá đĩng cửa ngày hơm nay cho giá trị trung bình của ngày hơm qua. Các đường trung bình trượt mũ đạt tỷ trọng lớn hơn đối với các mức giá gần đây.

Ví dụ, để tính trung bình trượt mũ 9% của cổ phiếu IBM, đầu tiên bạn sẽ lấy giá đĩng cửa của ngày hơm nay và nhân với 9%. Tiếp theo bạn sẽ cộng kết quả này với giá trị trung bình trượt của ngày hơm qua đã nhân với 91% (100% - 9% = 91%)

- RSI (Relative Strength Index) được gọi là chỉ số tương đối. Chỉ số RSI đo lường tốc độ và sự thay đổi trong xu hướng giá. RSI cĩ giá trị từ 0 đến 100. Nếu chỉ số

vượt trên 70 thì gọi là quá mua. Nếu chỉ số xuống thấp hơn 30 thì gọi là quá bán. Chỉ số này cũng hữu ích khi tìm thấy sự phân kỳ, khi chỉ số vượt qua đường trung bình, khi tạo đáy hoặc đỉnh. RSI cũng cĩ thể được dùng để đánh giá xu hướng. Nhìn chung, đây là một chỉ số rất quan trọng và rất phổ biến thường được mọi người sử dụng trong phân tích kỹ thuật để nhận định dự báo thị trường, giá cả hàng hĩa và cổ phiếu. Cách tính RSI theo cơng thức:

RSI=100-[100/(1+RS)]

Trong đĩ, RS = tổng tăng/tổng giảm hoặc RS=trung bình tăng/trung bình giảm. RSI thường được tính dựa vào 14 ngày gần nhất và dùng giá đĩng cửa để tính RSI chỉ tính được khi cĩ dữ liệu từ 14 ngày trở lên.

Sau khi tính các tham số MA10, EMA10, RSI thì dữ liệu data lúc này trở thành:

Date Open High Low Close Volume SMA10 EMA10 RSI 1970-06-23 268.5 270 257.12 257.12 724800 269.006 267.5998 40.44869

b. Xây dựng dữ liệu cho mơ hình

Dựa vào bảng dữ liệu sau khi đã thêm các chỉ số SMA10, EMA10 và RSI, chúng ta sẽ xây dựng bộ dữ liệu đầu vào của mơ hình. Với bài tốn dự báo dữ liệu thời gian thực, đầu ra là giá trị dự đốn cho thời điểm t+1, đầu vào là giá trị k ngày trước đĩ (với k cho trước và tùy thuộc vào từng bài tốn).

Rh(t+1) Rh(t) Rh(t-1) …. Rh(t-k+1)

Với bài tốn này, ta tổ chức dữ liệu thời gian lùi với cột đầu tiên là dữ liệu cần dự đốn và các cột cịn lại là giá trị lần lượt của k ngày trước đĩ được sắp xếp lùi dần theo t:

Rh(k+1) Rh(k) … Rh(2) Rh(1) Date(k+1) Rh(k+2) Rh(k+1) … Rh(3) Rh(2) Date(k+2) Rh(k+3) Rh(k+2) … Rh(4) Rh(3) Date(k+3) … … … … Rh(t+1) Rh(t) … Rh(t-k+2) Rh(t-k+1) Date(t+1) … … … … Rh(n) Rh(n-1) … Rh(n-k+1) Rh(n-k) Date(n)

Ta tổ chức dữ liệu thành một frame, với các cột là các giá trị như bảng trên. Điều này sẽ rất thuận tiện cho việc cung cấp dữ liệu cho mơ hình: đầu ra là cột đầu tiên và đầu vào là các cột cịn lại (trừ cột cuối cùng là thời gian ghi số liệu “Date”). Cụ thể, trong bài tốn của mình, chúng tơi tổ chức dữ liệu là các tỉ lệ giá đĩng cửa của 10 ngày trước thời điểm t. Dữ liệu này khi đưa vào mơ hình mạng nơ-ron sẽ dự báo tỉ lệ giá đĩng cửa phụ thuộc vào 10 ngày trước đĩ. Cụ thể dữ liệu được tổ chức như sau:

r1.f1 r1.t0 r1.t1 r1.t2 r1.t3 r1.t4 r1.t5 r1.t6 r1.t7 r1.t8 r1.t9 Date Ở đây, giá trị là tỉ lệ giá đĩng của tại thời điểm t tương ứng trong cột , các giá trị r1.t0, r1.t1,...., r1.t9 là các tỉ lệ giá đĩng cửa của 10 ngày trước thời

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính (Trang 41)

Tải bản đầy đủ (PDF)

(73 trang)