Mơ hình ARIMA cho dự báo tài chính, chứng khốn

Một phần của tài liệu LUẬN văn một số PHƯƠNG PHÁP KHAI PHÁ dữ LIỆU QUAN hệ TRONG tài CHÍNH và CHỨNG KHOÁN (Trang 36)

3.1.1. Dữ liệu tài chính

Dữ liệu chúng ta sử dụng là dữ liệu chuỗi thời gian. Mục đích chính của việc phân tích chuỗi thời gian thực là thu đƣợc một mơ hình dựa trên các giá trị trong quá khứ của biến quan sát y1, y2, y3,…, yt-1, yt cho phép ta dự đốn đƣợc giá trị của biến Y trong tƣơng lai, tức là cĩ thể dự đốn đƣợc các giá trị yt+1, yt+2,…yn.

Trong bài tốn của chúng ta, dữ liệu chứng khốn đƣợc biết tới nhƣ một chuỗi thời gian đa dạng bởi cĩ nhiều thuộc tính cùng đƣợc ghi tại một thời điểm nào đĩ. Với dữ liệu đang xét, các thuộc tính đĩ là :

 Giá cổ phiếu tại thời điểm mở cửa trong ngày.  Giá cổ phiếu cao nhất trong ngày

 Giá cổ phiếu thấp nhất trong ngày

 Giá cổ phiếu đƣợc niêm yết tại thời điểm đĩng của sàn giao dịch  Khối lƣợng giao dịch cổ phiếu (bán, mua) trong ngày.

 Giá trần, Giá sàn  Giá Tham chiếu

Ví dụ: Giá cổ phiếu của cơng ty cĩ mã AAM trong 3 ngày 25/5/2010-27/5/2010

Ngay MoCua GiaCaoNhat GiaThapNhat GiaDongCua KLGD GiaTran/GiaSan GiaThamChieu

5/27/2010 31.1 31.5 31 31.4 40490 32.9/29.9 31.4

5/26/2010 31.2 31.9 31.2 31.4 29500 32.7/29.7 31.2

5/25/2010 32 32.5 31.1 31.2 41250 33.6/30.4 32

3.1.2. Mơ hình ARIMA cho bài tốn dự báo tài chính

Dựa vào trình tự cơ bản của phƣơng pháp luận (phần 1.7) cùng cấu trúc và hoạt động của mơ hình ARIMA trong chƣơng 2. Để áp dụng mơ hình ARIMA vào bài tốn dự báo tài chính, ta xây dựng mơ hình dự báo.

28

 Xác định mơ hình : Với đầu vào là tập dữ liệu chuỗi thời gian trong tài chính giúp cho việc xác định ban đầu các thành phần trong mơ hình p, d, q, S.

 Ƣớc lƣợng và kiểm tra : Mơ hình ARIMA là phƣơng pháp lặp, sau khi xác định các thành phần, mơ hình sẽ ƣớc lƣợng các tham số, sau đĩ thì kiểm tra độ chính xác của mơ hình : Nếu hợp lý, tiếp bƣớc sau, nếu khơng hợp lý, quay trở lại bƣớc xác định  Dự báo : Sau khi đã xác định các tham số, mơ hình sẽ đƣa ra dự báo cho ngày tiếp theo.

3.1.3. Thiết kế mơ hình ARIMA cho dữ liệu

Việc thiết kế thành cơng mơ hình ARIMA phụ thuộc vào sự hiểu biết rõ ràng về vấn đề, về mơ hình, cĩ thể dựa vào kinh nghiệm của các chuyên gia dự báo…

Trong quá trình tìm hiểu, khĩa luận sẽ đƣa ra các bƣớc để xây dựng một mơ hình nhƣ sau :

1. Chọn tham biến 2. Chuẩn bị dữ liệu

 Xác định tính dừng của chuỗi dữ liệu  Xác định yếu tố mùa vụ

 Xác định yếu tố xu thế

3. Xác định các thành phần p, q trong mơ hình ARMA

4. Ƣớc lƣợng các tham số và chẩn đốn mơ hình phù hợp nhất 5. Dự báo ngắn hạn

3.1.3.1 Chọn tham biến

Hƣớng tiếp cận trong dữ liệu tài chính, chứng khốn là tập trung xây dựng mơ hình dự báo tƣơng lai đối với dữ liệu dạng chuỗi thời gian liên tiếp trong quá khứ:

 Dự báo lƣợng điện tiêu thụ của tổ dân phố A trong tháng tới

 Dự báo chỉ số GDP cho năm tiếp theo qua dữ liệu của nhiều năm trƣớc  Dự báo chỉ số giá chứng khốn của một cơng ty…

3.1.3.2 Chuẩn bị dữ liệu

 Xác định tính dừng của chuỗi dữ liệu : Dựa vào đồ thị của chuỗi và đồ thị của hàm tự tƣơng quan.

 Nếu đồ thị của chuỗi Y = f(t) một cách trực quan nếu chuỗi đƣợc coi là dừng khi đồ thị của chuỗi cho trung bình hoặc phƣơng sai khơng đổi

29

theo thời gian khi đĩ đồ thị của chuỗi dữ liệu sẽ dao động quanh giá trị trung bình của chuỗi.

 Dựa vào đồ thị của hàm tự tƣơng quan ACF nếu đồ thị cho ta một chuỗi giảm mạnh và tắt dần về 0 sau q độ trễ.

Nếu chuỗi dữ liệu ban đầu là một chuỗi khơng dừng, cần phải khử tính dừng bằng cách lấy sai phân (2.1.5.) một lần hoặc hai lần (thƣờng chỉ sau hai lần ta sẽ đƣợc một chuỗi mới đã dừng). Tiếp đến, thực hiện các quá trình cịn lại với chuỗi dữ liệu mới (đã dừng). Sau khi đƣa ra đƣợc dự báo với chuỗi dữ liệu mới, cần tích hợp để đƣa ra dự báo với chuỗi dữ liệu ban đầu.

 Xác định yếu tố mùa vụ cho chuỗi dữ liệu : Dựa vào đồ thị của chuỗi dữ liệu Y = f(t) (xem 1.2.3. Thành phần mùa) để cĩ thể dự đốn đƣợc dữ liệu chuỗi thời gian cĩ yếu tố mùa vụ? Với những dấu hiệu điển hình khi nhìn vào biểu đồ tự tƣơng quan ACF và tự tƣơng quan từng phần PACF:

 Khi biểu đồ tự tƣơng quan ACF cĩ dấu hiệu giảm một cách từ từ

 Khi biểu đồ tự tƣơng quan từng phần giảm một cách đột ngột tại các độ trễ thƣờng là 4, 8, 12…hoặc 12, 24,...

Nếu chuỗi dữ liệu ban đầu là một chuỗi cĩ tính mùa vụ, cần xác định bậc mùa vụ của chuỗi dữ liệu (S = ?), sau đĩ thì khử tính mùa vụ (theo 2.1.5) để cĩ đƣợc một chuỗi dữ liệu thời gian khơng cĩ tính mùa vụ.

 Xác định yếu tố xu thế cho chuỗi dữ liệu : Xem lại phần 2.1.2 (Trong giới hạn của khĩa luận chúng tơi để đây nhƣ là một hƣớng nghiên cứu tƣơng lai.)

3.1.3.3 Xác định thành phần p, q trong mơ hình ARMA

Sau khi loại bỏ các thành phần : Xu thế, mùa vụ, tính dừng thì dữ liệu trở thành dạng thuần cĩ thể áp dụng mơ hình ARMA cho quá trình dự báo. Việc xác định 2 thành phần p và q.

 Chọn mơ hình AR(p) nếu đồ thì PACF cĩ giá trị cao tại độ trễ 1, 2, …, p và giảm nhiều sau p và dạng hàm ACF giảm dần

 Chọn mơ hình MA(q) nếu đồ thị ACF cĩ giá trị cao tại độ trễ 1, 2, …, q và giảm nhiều sau q và dạng hàm PACF giảm dần.

30

3.1.3.4 Ƣớc lƣợng các thơng số của mơ hình và kiểm định mơ hình phù hợp nhất

Cĩ nhiều phƣơng pháp khác nhau để ƣớc lƣợng. Ở đây, khĩa luận tập trung vào : Khi đã chọn đƣợc mơ hình, các hệ số của mơ hình sẽ đƣợc ƣớc lƣợng theo phƣơng pháp tối thiểu tổng bình phƣơng các sai số. Kiểm định các hệ số a, b của mơ hình bằng thống kê t. Ƣớc lƣợng sai số bình phƣơng trung bình của phần dƣ S2

: S2= 𝒆𝒕 𝟐 𝒏 𝒕−𝟏 𝒏−𝒓 = (𝒀𝒕−𝒀^𝒕) 𝟐 𝒏 𝒕−𝟏 𝒏−𝒓 2.9

Trong đĩ : et = Yt – Y^t = phần dƣ tại thời điểm t n = số phần dƣ

r = tổng số hệ số ƣớc lƣợng

Tuy nhiên : cơng thức chỉ đƣa ra để tham khảo...Hiện nay phƣơng pháp ƣớc lƣợng cĩ hầu hết trong các phần mềm thống kê : ET, MICRO TSP và SHAZAM, Eviews...

Nếu phần dƣ là nhiễu trắng thì cĩ thể dừng và dùng mơ hình đĩ để dự báo.

3.1.3.5 Kiểm tra mơ hình phù hợp nhất

Dựa vào một số tiêu chuẩn đánh giá:

 BIC nhỏ (Schwarz criterion đƣợc xác định bởi : n.Log(SEE) + K.Log(n)) [18]  SEE nhỏ [18] SEE = [ 𝒆𝒊 𝟐 𝒏−𝟐]1/2  R2 lớn : R-squared = (TSS-RSS)/TSS [18] TSS = (𝒀𝒊 − 𝒀^)𝟐 RSS = 𝒆𝒊𝟐 = (𝒀𝒊^ − 𝒀𝒊)𝟐[18]

Một mơ hình tốt khi chỉ số BIC nhỏ, SEE nhỏ, và R2

lớn

3.1.3.6 Dự báo ngắn hạn mơ hình

Sau các bƣớc trên giúp xác định đƣợc mơ hình phù hợp cho chuỗi dữ liệu đƣa vào. Dựa vào mơ hình đƣợc chọn là tốt nhất, với dữ liệu quá khứ tới thời điểm t, ta sử dụng để dự báo cho thời điểm kế tiếp t+1.

31

3.2. Áp dụng dự báo chứng khốn với dữ liệu Cơng ty cổ phần Thủy sản Mekong(Mã CK : AAM) Mekong(Mã CK : AAM)

Ứng dụng mơ hình ARIMA vào bài tốn dự báo chứng khốn của của Cơng ty cổ phần Thủy sản Mekong(Mã CK : AAM)

Sử dụng Phần mềm EVIEWS 5.1 để dự đốn (Ứng dụng của mơ hình ARIMA cho bài tốn dự đốn chuỗi thời gian).

Quy trình thực nghiệm đƣợc tiến hành nhƣ đã mơ tả ở 2.2.2.

3.2.1. Mơi trƣờng thực nghiêm

Mơi trƣờng thực nghiệm Eview 5.1 chạy trên hệ điều hành Window XP SP2, máy tính tốc độ 2*2.0 GHz, bộ nhớ 1GB RAM.

3.2.2. Dữ liệu

Dữ liệu tài chính trong bài tốn đƣợc thu thập trên các trang web chuyên cung cấp dữ liệu cổ phiểu của các sàn giao dịch chứng khốn nhƣ :

http://www.cophieu68.com/datametastock.php, http://www.vietstock.vn/, … Các trang

này đƣa ra các dữ liệu quá khứ của một mã, tên cổ phiếu bất kì dƣới dạng một file dạng excel. (*.csv). Với dạng dữ liệu nhƣ trên, phù hợp với dữ liệu đầu vào của phần mềm Eviews 5.1 cho quá trình thi hành thực nghiệm.

Cổ phiếu cĩ mã AAM đƣợc chọn để dự đốn, và sử dụng riêng Giá đĩng cửa.

Dữ liệu ở đây cĩ dạng nhƣ sau :

Bảng 1. Dữ liệu đầu vào

MaCK Ngay GiaDongCua AAM 5/14/2010 33.4 AAM 5/13/2010 33.2 AAM 5/12/2010 33.2 AAM 5/11/2010 34.4 AAM 5/10/2010 34.9 AAM 5/7/2010 36.5 …

32

Dữ liệu cho quá trình dự báo đƣợc bắt đầu từ ngày 24/9/2009 đến ngày 14/5/2010. Ở đây khĩa luận chỉ tập trung vào GiaDongCua, và quá trình dự báo sẽ giúp ta xác định đƣợc Giá đĩng cửa của ngày kế tiếp ngay sau đĩ.

Hình 17. Chọn GIADONGCUA làm mục tiêu dự báo

Kết quả là một bảng giá trị tƣơng ứng với dữ liệu ban đầu về Giadongcua.

3.2.3. Kiểm tra tính dừng của chuỗi chứng khốn AAM

33

3.2.4. Nhận dạng mơ hình

Xác định các tham số p, d, q trong ARIMA

Hình 19. xác định sai phân d = 0,1,2 ?

Ban đầu, chọn d = 0, ta đƣợc biểu đồ tƣơng quan:

Hình 20. Biểu đồ của SAC và SPAC của chuỗi GIADONGCUA

Nhìn vào hình 19, ta thấy biểu đồ hàm tự tƣơng quan ACF giảm dần một cách từ từ về 0 sau nhiều độ trễ, nên chuỗi thời gian ứng với d = 0 chƣa dừng. Kiểm tra chuỗi sai phân lần thứ nhất cĩ dừng (d=1)? Cũng với cách làm tƣơng tự nhƣ trên, thay vào việc chọn trên hình 18 là 1st

difference.

34

Hình 21. Biểu đồ của SPAC và SAC ứng với d=1

Từ biểu đồ ta thấy, biểu đồ hàm tự tƣơng quan tắt nhanh về 0 sau 1 độ trễ, cĩ thể suy ra đƣợc mơ hình ARIMA ban đầu với q =1 và đồ thị hàm tự tƣơng quan từng phần cũng tắt nhanh về 0 sau 1 độ trễ, suy ra p =1. Vậy việc xác định mơ hình ban đầu đã hồn tất, với mơ hình dự kiến : ARIMA(1,1,1)

3.2.5. Ƣớc lƣợng và kiểm định với mơ hình ARIMA

Xây dựng mơ hình ARIMA(1,1,1)

Chọn Quick/Estimate Equation, sau đĩ gõ "dgiadongcua c ar(1) ma(1)",

35 Click OK, kết quả là :

Hình 23. Kết quả mơ hình ARIMA(1,1,1)

Chọn ―View/Residual tests/Correlogram-Q- Statistic”

Hình 24. Kiểm tra phần dƣ cĩ nhiễu trắng

Nhƣ vậy, sai số của mơ hình ARIMA(1,1,1) là một chuỗi dừng và nĩ cĩ phân phối chuẩn. Sai số này là nhiễu trắng.

Ta cĩ bảng xác định các tiêu chuẩn đánh giá sau khi đã thử với một vài mơ hình khác nhau :

36

Bảng 2 : Tiêu chuẩn đánh giá các mơ hình ARIMA

Mơ hình ARIMA BIC Adjusted R2 SEE

ARIMA(1,0,0) 4.24 0.97 1.967

ARIMA(2,1,1) 4.26 0.004 1.96

ARIMA(1,1,1) 4.20 0.57 1.909

ARIMA(4,2,1) 4.26 0.44 1.957

Tại bƣớc xác định tiêu chuẩn đánh giá, khĩa luận đã tìm hiểu, nghiên cứu và xây dựng đƣợc:

 Chƣơng trình thứ nhất : Đƣa ra một mơ hình với 3 tham số đầu vào : biến phụ thuộc, tham số p, tham số q.(Chƣơng trình 2 bao hàm cả chƣơng trình 1)

Code của chƣơng trình :

wfopen C:\aam.csv ‗—mở file dữ liệu aam.csv‘ equation e1.ls {%0} c ar({%1}) ma({%2})

Trong đĩ {%0}-- ứng với biến dự báo, {%1} -- ứng với tham số p, {%2}-- ứng với tham số q.

37

Và kết quả đƣa ra cũng giống nhƣ cách làm thơng thƣờng(Hình 22.) với tham số đầu vào tƣơng ứng :

%0 – D(giadongcua) %1 – 1

%2 – 2

 Chƣơng trình thứ hai : đƣa ra các mơ hình khác nhau với dữ liệu đầu vào là biến phụ thuộc, tham số p, tham số q trong mơ hình. Kết quả trả về là một tập các mơ hình với các tiêu chuẩn giúp cho quá trình đánh giá, dự báo.Dƣới đây là code của chƣơng trình.

wfopen C:\aam.csv ‘---mở file aam.csv‘ !L = {%1} ‗---lấy tham số đầu vào 1‘ !M = {%2} ‗---lấy tham số đầu vào 2‘ for !i=1 to !L

for !j=1 to !M

equation e1_!i_!j.ls {%0} c ar(!i) ma(!j) ‗-- tập các mơ hình‘ next

next

Kết quả, tại bảng workfile xuất hiện các mơ hình từ ARMA(1,1), ARMA(1,2),…ARMA(%1,%2) với %1 và %2 tƣơng ứng với 2 tham số p và q.

Ví dụ khi ta sử dụng chƣơng trình trên với dữ liệu là chuỗi giá đĩng của của cơng ty cĩ mã AAM : Với tham số đầu vào tƣơng ứng :

%0 – D(giadongcua)

%1 – cho tham số p chạy từ 1 - %1 %2 – Cho tham số q chạy từ 1 - %2.

Và kết quả của chƣơng trình : với %1 = 2, % 2 = 2. Tƣơng ứng với 4 mơ hình ARMA(1, 1), ARMA(1, 2), ARMA(2, ), ARMA(2, 2) .

38

Hình 26. Tập các mơ hình đƣa ra.

Kích đúp vào tên của một mơ hình bất kì, ta đều cĩ kết quả tƣơng tự nhƣ kết quả hình 22.

Mục đích mà chƣơng trình đƣợc khĩa luận xây dựng giúp ta từ đĩ cĩ thể dễ dàng đánh giá các tiêu chí lựa chọn ở các mơ hình khác nhau một cách nhanh hơn so với cách thơng thƣờng.(Muốn xem mơ hình nào, chỉ cần kích vào mơ hình trên Workfile)

Cĩ nhiều tiêu chí chọn lựa, ở đây khĩa luận đƣa ra tiêu chí đầu tiên đƣợc xét tới : BIC nhỏ nhất, tiếp nữa là SEE min, và cuối cùng là Adjested R2

max. Dựa vào đĩ, ta thấy mơ hình ARIMA(1,1,1) ban đầu là mơ hình khá hợp lý.

Thấy rằng : Việc xác định mơ hình ban đầu là rất quan trọng, nĩ giúp ta định hƣớng đƣợc mơ hình phù hợp nhất trong quá trình ƣớc lƣợng và kiểm tra.

39

3.2.6. Thực hiện dự báo

Tại cửa sổ Equation ấn nút Forecast

Hình 27. Dự báo biến GIADONGCUA

Tại Forecast sample : ta chỉnh ngày dự báo : 14/5/2010 – 20/5/2010 Kết quả là :

40

Vẽ đồ thị của giadongcua và giadongcua dự báo nhằm đƣa ra cho ngƣời sử dụng một cái nhìn tổng quan nhất giúp khách hàng cĩ thể đƣa ra hƣớng mua hoặc bán giá chứng khốn.

Hình 29. Kết quả của bảng thống kê dự báo.

 Ta cĩ kết quả dự báo của 3 ngày 14/5/2010 – 20/5/2010

Bảng 3. Đánh giá dự báo

Ngày Giá thực tế Giá dự báo Đánh giá

+/- % so với giá thực tế 17/05/2010 33.5 32.94174 -0.55826 -1.66645 18/05/2010 33.2 32.89932 -0.30068 -0.90566 19/05/2010 32.5 32.86322 0.36322 1.1176 20/05/2010 33.2 32.83250 -0.3675 -1.10693 20 30 40 50 60 70 80 09M10 09M12 10M02 10M04 10M05 GIADONGCUA GIADONGCUAF

41

 Dự báo từ ngày 11/05/2010- 14/05/2010

Bảng 4 : Kết quả dự báo từ ngày 11/05 – 14/05/2010

Ngày Giá thực tế Giá dự báo Đánh giá

+/- % 5/11/2010 34.4 34.71 0.31 0.901163 5/12/2010 33.2 34.5 1.3 3.915663 5/13/2010 33.2 34.31 1.11 3.343373 5/14/2010 33.4 34.11 0.71 2.125749  Dự báo từ ngày 24/03/2010 – 26/03/2010

Bảng 5 : Kết quả dự báo từ ngày 24/03– 26/03/2010

Ngày Giá thực tế Giá dự báo Đánh giá

+/- %

3/24/2010 34.5 33.76565 -0.73 -2.115

3/25/2010 33.5 33.53083 0.03 0.0895

3/26/2010 33.4 33.29561 -0.10 -0.2994

Việc đánh giá ở trên chỉ mang tính chất thơ :

o Tính độ lệch giữa giá dự báo với giá thực tế

o Tính phần trăm giữa độ lệch so với giá thực tế.

Kết quả đƣa ra khá bất ngờ về mơ hình dự báo ARIMA cho bài tốn dự báo ngắn hạn.(tỉ lệ phần trăm chấp nhận đƣợc).

Cũng với cách làm tƣơng tự, khĩa luận đƣa ra dự báo cho một vài ngày khác nhau :

42

Qua thực nghiệm dự báo đƣợc một vài ngày chúng ta nhận thấy kết quả đƣa ra

Một phần của tài liệu LUẬN văn một số PHƯƠNG PHÁP KHAI PHÁ dữ LIỆU QUAN hệ TRONG tài CHÍNH và CHỨNG KHOÁN (Trang 36)

Tải bản đầy đủ (PDF)

(55 trang)