Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
655,48 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - ĐÀO XN KỲ ỨNG DỤNG MƠ HÌNH XÍCH MARKOV VÀ CHUỖI THỜI GIAN MỜ TRONG DỰ BÁO Chuyên ngành: Cơ sở Tốn học cho Tin học Mã số: 62.46.01.10 TĨM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội, 2017 Danh mục cơng trình tác giả [1] Dao Xuan Ky, Luc Tri Tuyen, Phạm Quoc Vuong, A combination of higher order markov model and fuzzy time series for stock market forecasting, Hội thảo lần thứ 19: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, Hà Nội, pages 1–6, 2016 [2] Đào Xuân Kỳ, Lục Trí Tuyen, Phạm Quốc Vương, Thạch Thị Ninh, Mơ hình markov-chuỗi thời gian mờ dự báo chứng khốn, Hội thảo lần thứ 18: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, TP HCM, pages 119–124, 2015 [3] Dao Xuan Ky, Luc Tri Tuyen, A markov-fuzzy combination model for stock market forecasting, International Journal of Applied athematics and StatisticsTM, 55(3):109–121, 2016 [4] Dao Xuan Ky, Luc Tri Tuyen, A Higher order Markov model for time series forecasting, International Journal of Applied athematics and StatisticsTM, vol 57(3), 2018 [5] Lục Trí Tuyên, Nguyễn Văn Hùng, Thạch Thị Ninh, Phạm Quốc Vương, Nguyễn Minh Đức, Đào Xuân Kỳ, A normal-hidden markov model model in forecasting stock index, Journal of Computer Science and Cybernetics, 28(3):206–216, 2012 MỞ ĐẦU Bài toán dự báo chuỗi thời gian với đối tượng dự báo biến ngẫu nhiên X thay đổi theo thời gian nhằm đạt độ xác dự báo cao thách thức nhà khoa học khơng nước mà cịn nhà khoa học giới Bởi lẽ, giá trị biến ngẫu nhiên thời điểm t sinh cách ngẫu nhiên việc tìm phân phối xác xuất phù hợp cho lúc dễ dàng Muốn làm điều liệu lịch sử cần thu thập phân tích, từ tìm phân phối ướm khít với Tuy nhiên, phân phối tìm phù hợp với liệu giai đoạn này, sai lệch lớn so với giai đoạn khác Do đó, việc sử dụng phân phối ổn định cho đối tượng dự đốn khơng phù hợp với toán dự báo chuỗi thời gian Chính lý trên, để xây dựng mơ hình dự báo chuỗi thời gian cần thiết phải có liên hệ, cập nhật liệu tương lai với liệu lịch sử, xây dựng mơ hình phụ thuộc giá trị liệu có thời điểm t với giá trị thời điểm trước t 1, t Nếu xây dựng quan hệ X t 1 X t 1 X t 2 p X t p t 1 t 1 q t q cho ta mơ hình hồi quy tuyến tính ARIMA[15] Mơ hình áp dụng rộng rãi sở lý thuyết dễ hiểu dễ thực hành, mơ hình tích hợp vào hầu hết phần mềm thống kê Eviews, SPSS, Matlab, R,… Tuy nhiên, nhiều chuỗi thời gian thực tế cho thấy khơng biến đổi tuyến tính Do mơ hình tuyến tính ARIMA khơng phù hợp R Parrelli [28], chuỗi thời gian độ dao động số kinh tế hay tài thường có quan hệ phi tuyến Mơ hình phổ biến cho dự báo chuỗi thời gian phi tuyến phải kể đến mơ hình GARCH [25,28] Hạn chế mơ hình GARCH lại nằm việc phải giả sử liệu dao động tuân theo phân phối cố định (thường phân phối chuẩn) liệu thực tế cho thấy phân phối thống kê lại phân phối nặng đuôi [39] (trong phân phối chuẩn có độ lệch cân đối) Một lựa chọn khác cho dự báo chuỗi thời gian phát triển gần mơ hình mạng thần kinh nhân tạo (ANN) Các mơ hình ANN khơng dựa phân phối tất định cho liệu mà hoạt động tương tự não người, cố gắng tìm quy luật đường liệu đào tạo, kiểm tra thực nghiệm tổng quát hóa kết Với cách hoạt động nó, mơ hình ANN thường sử dụng cho mục đích phân lớp liệu [23] Gần hơn, lý thuyết học máy thống kê nhiều nhà khoa học ý phương pháp vector học máy (SVM) cho toán phân lớp dự báo [36,11,31] SVM áp dụng rộng rãi nhiều lĩnh vực xấp xỉ hàm, ước lượng hồi quy dự báo [11,31] Tuy nhiên, hạn chế lớn SVM tập đào tạo lớn, địi hỏi lượng tính tốn khổng lồ độ phức tạp toán hồi quy tuyến tính Để khắc phục hạn chế phát huy điểm mạnh phương pháp có, mộ xu nghiên cứu trở nên thịnh hành gần hương tiếp cận kết hợp (CA), nghĩa kết hợp số phương pháp khơng giống để tăng độ xác dự báo Rất nhiều nghiên cứu thực theo hướng nhiều mơ hình kết hợp công bố [43,5,6] Một số phương pháp sử dụng xích Markov (MC) mơ hình Markov ẩn (HMM) Refiul Hassan [19] phát triển mơ hình hợp cách kết hợp HMM với ANN GA, để tạo dự báo ngày-trước giá cổ phiếu Mơ hình cố gắng để xác định mẫu liệu tương tự từ liệu lịch sử Sau ANN GA sử dụng để nội suy giá trị lân cận mơ hình liệu xác định Yang [41] kết hợp mơ hình HMM với kỹ thuật phân cụm đồng nhằm tăng độ xác cho mơ hình dự báo Mơ hình Markov với trọng số Peng [27] áp dụng dự báo phân tích tỷ lệ truyền nhiễm bệnh tỉnh Giang Tô, Trung Quốc Các mơ hình kết hợp mang lại kết có ý nghĩa thực tiễn tăng đáng kể độ xác dự báo so với mơ hình truyền thống [27,41,19] Các mơ hình có cải thiện đáng kể độ xác dự báo gặp khó khăn liệu mờ (có phân tử mà khơng biết chắc) Để đối phó với liệu mờ, hướng nghiên cứu dự báo chuỗi thời gian mở gần sử dụng mơ hình chuỗi thời gian mờ (FTS) Kết cần kể đến việc áp dụng lý thuyết Song and Chissom [34] Những nghiên cứu tập trung theo hướng cải thiện mơ hình chuỗi thời gian mờ tìm cách áp dụng vào toán dự báo Jilani et al and Nan et al.kết hợp mơ hình Heuristic với chuỗi thời gian mờ để nâng cao độ xác mơ hình [24] Chen Hwang mở rộng thêm chuỗi thời gian mờ vào mơ hình Binary [14] sau Hwang and Yu phát triển thành mơ hình N bậc để dự báo số chứng khoán [21] Trong báo gần [35], BaiQing Sun et al mở rộng mơ hình mờ cho thời gian mờ đa cấp để dự báo giá tương lai thị trường chứng khoán Qisen Cai et al [10] kết hợp mơ hình dự báo chuỗi thời gian mờ với tối ưu hóa đàn kiến tự động hồi quy để có kết tốt Ở Việt Nam, mơ hình chuỗi thời gian mờ gần áp dụng số lĩnh vực cụ thể Có thể kể đến nghiên cứu Nguyễn Duy Hiếu cộng [2] phân tích ngữ nghĩa Ngồi ra, cơng trình tác giả Nguyễn Cơng Điều [3,4] kết hợp mơ hình chuỗi thời gian mờ với số kỹ thuật điều chỉnh tham số thuật toán hay đặc trưng riêng liệu để làm tăng độ xác dự báo Nghiên cứu tác giả Nguyễn Cát Hồ [1] ứng dụng đại số gia tử vào dự báo chuỗi thời gian mờ cho thấy độ xác dự báo cao số mơ hình có Cho đến nay, có nhiều mơ hình xây dựng theo hướng kết hợp mơ hình sẵn có nhằm cải thiện độ xác dự báo mơ hình phức tạp độ xác dự báo cải thiện khơng đáng kể Do số hướng thực nhằm đơn giản hóa mơ hình đảm bảo tăng độ xác dự báo phát triển Mục tiêu luận án tập trung nghiên cứu hai vấn đề Thứ mơ hình hóa chuỗi thời gian trạng thái mà trạng thái phân phối xác xuất tất định (phân phối chuẩn) Dựa vào kết thực nghiệm để đánh giá phù hợp mơ hình Thứ hai, kết hợp xích Markov chuỗi thời gian mờ thành mơ hình nhằm cải thiện độ xác dự báo Hơn nữa, mở rộng mơ hình với xích Markov bậc cao nhằm tương thích với liệu có tính chất thời vụ Luận án gồm chương Chương I trình bày nghiên cứu tổng quan xích Markov mơ hình Marko ẩn chuỗi thời gian mờ Chương II trình bày mơ hình hóa chuỗi thời gian thành trạng thái đó: (1) trạng thái phân phối chuẩn với trung bình i , phương sai i2 , i 1, 2, , m với m số trạng thái; (2) trạng thái theo thời gian tuân theo xích Markov Sau đó, mơ hình thực nghiệm liệu số VN-Index để đánh giá hiệu dự báo mơ hình Cuối chương luận văn phân tích hạn chế khơng phù hợp mơ hình dự báo với phân phối xác suất tất định làm động cho mơ hình kết hợp đề xuất Chương Chương trình bày mơ hình kết hợp xích Markov chuỗi thời gian mờ dự báo chuỗi thời gian Chương trình bày mơ hình mở rộng cho xích Markov bậc cao với hai khái niệm xích Markov bậc cao cổ điển (CMC) xích Markov bậc cao cải tiến (IMC) Mơ hình sau lập trình ngơn ngữ R thực nghiệm với tập liệu tương ứng xác với tập liệu mơ hình so sánh Chương BÀI TOÁN ĐỀ XUẤT VÀ KIẾN THỨC TỔNG QUAN 1.1 Xích Markov 1.1.1 Các định nghĩa Ta xét hệ thống kinh tế hệ thống vật chất S với m trạng thái có thể, ký hiệu tập I : I 1, 2, , m hệ thống S tiến hóa ngẫu nhiên thời gian rời rạc ( t 0,1, 2, , n, ), đặt Cn biến ngẫu nhiên tương ứng với trạng thái hệ thống S thời điểm n (C n I ) Định nghĩa 1.1.1 Dãy biến ngẫu nhiên ( Cn , n ) xích Markov với tất c0 ,c1 , ,cn I : Pr (Cn cn | C0 c0 , C1 c1 , , Cn1 cn1 ) Pr (Cn cn | Cn1 cn1 ) (1.1.1) (với điều kiện xác suất có nghĩa) Định nghĩa 1.1.2 Một xích Markov gọi nếu xác suất (1.1.1) không phụ thuộc vào n không trường hợp lại Hiện tại, ta xét trường hợp mà với ta viết: Pr (Cn cn | Cn1 cn1 ) ij , ta đưa ma trận Γ định nghĩa: Γ ij Để định nghĩa đầy đủ tiến triển xích Markov, cần thiết phải cố định phân phối ban đầu cho trạng thái C0 , chẳng hạn, véc tơ: p ( p1 , p2 , , pm ), Vấn đề chương ta dừng lại việc xem xét xích Markov mà đặc trưng cặp (p, Γ) Định nghĩa 1.2.3 Một ma trận Markov Γ gọi quy tồn số nguyên dương k cho tất phần tử ma trận Γ( k ) thực dương 1.1.2 Phân loại trạng thái xích Markov Lấy i I đặt d (i) ước chung lớn tập số nguyên n cho ii( n ) Định nghĩa 1.2.4 Nếu d (i) , trạng thái i gọi tuần hoàn chu kỳ d (i) Nếu d (i) 1, trạng thái i khơng tuần hồn Dễ thấy, ii i khơng tuần hồn Tuy nhiên, điều ngượi lại chưa Định nghĩa 1.2.5 Một xích Markov mà tất trạng thái khơng tuần hồn gọi xích Markov khơng tuần hồn Định nghĩa 1.2.6 Một trạng thái i gọi vươn tới trạng thái j (viết i j ) tồn số nguyên dương n cho ijn iCj nghĩa i không vươn tới j Định nghĩa 1.2.7 Trạng thái i j gọi liên thông i j j i , i j Ta j viết i Định nghĩa 1.2.8 Trạng thái i gọi cốt yếu liên thơng với trạng thái mà vươn tới; trường hợp ngược lại gọi không cốt yếu xác định quan hệ tương đương không gian trạng thái I dẫn tới Quan hệ chia lớp I Lớp tương đương chứa i ký hiệu Cl (i) Định nghĩa 1.2.9 Xích Markov gọi khơng khai triển tồn lớp tương đương Định nghĩa 1.2.10 Tập E khơng gian trạng thái I gọi đóng nếu: jE ij 1, với i E Định nghĩa 1.2.11 Trạng thái i I xích Markov (Ct ) gọi hồi quy tồn trại trạng thái j I n cho nji Ngược lại, i gọi trạng thái chuyển tiếp (dịch chuyển) 1.1.3 Ước lượng ma trận Markov Xét xích Markov (Ct ), t 1, 2, giả sử quan sát n trạng thái xảy c1 , c2 , , cn Ký hiệu cn c1 , c2 , , cn sinh biến ngẫu nhiên C n hàm hợp lý ma trận xác xuất chuyển cho Pr (C n c n ) Pr (C1 c1 ) Pr Ct ct | C t 1 c t 1 n t 2 n Pr (C1 c1 ) Pr Ct ct | Ct 1 ct 1 t 2 n Pr (C1 c1 ) ct 1ct t 2 Định nghĩa số lần chuyển nij số lần mà trạng thái i chuyển sau trạng thái j dãy C n , hàm hợp lý (likelihood) có dạng k k i 1 j 1 L( p) Pr (C1 c1 ) ij ij n Ta cần tìm cực đại hàm hợp lý L( p) với ẩn ij Để giải toán đơn giản, trước tiên ta lấy logarit L( p) để thành hàm tổng nhằm mục đích lấy đạo hàm dễ dàng ( p) log L( p) log Pr (C1 c1 ) nij log ij i, j Do ràng buộc j m ij , nên với i, i1 ij , lấy đạo hàm theo tham số j 2 nij n i1 ij ij i1 Cho đạo hàm đạt ij ta có nij ni1 ˆij ˆi1 nij với j nên ni1 ˆij ˆij ˆi1 nij m n j 1 1.2 ij Mơ hình Markov ẩn Một mơ hình HMM bao gồm hai thành phần bản: chuỗi X t , t 1, , T gồm quan sát nhìn thấy Ct i, t 1, , T , i {1, 2, , m} thành phần sinh từ quan sát Thực chất, mơ hình HMM trường hợp đặc biệt mơ hình trộn phụ thuộc [16] Ct thành phần trộn 1.2.1 Định nghĩa ký hiệu Ký hiệu X(t ) C( t ) biểu diễn liệu lịch sử từ thời điểm đến thời điểm t , ta tóm tắt mơ hình đơn giản HMM sau: Pr (Ct | C(t 1) ) Pr (Ct | Ct 1 ), t 2,3, , T Pr ( X t | X(t 1) , C (t ) ) Pr ( X t | Ct ), t Bây ta giới thiệu số ký hiệu sử dụng nghiên cứu Trong trường hợp quan sát rời rạc, ta định nghĩa pi x Pr X t x | Ct i Đối với trường hợp liên tục, pi ( x) hàm mật độ xác suất X t xích Markov nhận trạng thái i thời điểm t Ta ký hiệu ma trận xác suất chuyển xích Markov Γ với thành phần ij xác định ij Pr (Ct j | Ct 1 i) Từ bây giờ, m phân phối pi ( x) gọi phân phối trạng thái phụ thuộc mơ hình 1.2.2 Likelihood ước lượng cực đại likelihood Đối với quan sát rời rạc X t , định nghĩa ui t Pr Ct i với i 1, 2, , T , ta có m Pr ( X t x) Pr (Ct i) Pr ( X t x | Ct i ) i 1 m ui (t ) pi ( x) (1.2.1) i 1 Để thuận tiện tính tốn, cơng thức (1.2.1) viết lại dạng ma trận sau: p1 ( x) Pr(Xt =x)=(u1 (t), ,u (m) (t)) u(t)P( x)1 1 pm ( x) 1 0 P(x) ma trận đường chéo với phần tử thứ i đường chéo pi ( x) Mặt khác, theo tính chất xích Markov nhất, u(t) u(1)Γt1 với u(1) phân phối trạng thái ban đầu xích Markov, thường ký hiệu chung với phân phối dừng δ Và vậy, ta có Pr ( X t x) u(1)Γt 1P( x)1 (1.2.2) Bây gọi LT hàm hợp lý (likelihood) mơ hình với T quan sát x1 , x2 , , xT LT Pr (X(T) x( T) ) Xuất phát từ công thức xác suất đồng thời T T k 1 k 1 Pr ( X( T) , C( T) ) Pr (C1 ) Pr (Ck | Ck 1 ) Pr ( X k | Ck ), (1.2.3) ta lấy tổng tất trạng thái có Ck , sau sử dụng kỹ thuật công thức (1.2.2), ta LT P( x1 )ΓP( x2 ) ΓP( xT )1 Nếu phân phối ban đầu δ phân phối dừng xích Markov, LT ΓP( x1 )ΓP( x2 ) ΓP( xT )1 Để tính tốn dễ dàng likelihood thuật toán đồng thời giảm thiểu số phép tốn mà máy tính cần thực hiện, ta định nghĩa vector α t với t 1, , T t t P( x1 )ΓP( x2 ) ΓP( xt ) P( x1 ) ΓP( xs ), (1.2.4) s 2 ta có LT T 1, t t 1ΓP( xt ), t (1.2.5) Từ đây, ta dễ dàng tính LT thuật tốn hồi quy Để tìm tham số thỏa mãn LT lớn nhất, ta thực theo hai phương pháp: Uớc lượng trực tiếp cực trị hàm LT (MLE): Trước tiên, từ phương trình (1.2.5) ta cần tính tốn logarit LT cách hiệu nhằm thuận lợi việc tìm cực đại dựa vào xác suất lũy tiến α t Với t 0,1, , T, định nghĩa vector t t / wt , wt t (i) t 1 , Bt P( xt ) i w0 1 1 1; 0 ; wtt wt 1t 1Bt ; LT t 1 wT (T 1) wT ta có T Khi LT wT ( wt / wt 1 ) Từ (1.4.13) thấy wt wt 1 Bt 1 , dẫn đến t 1 T T t 1 t 1 log LT log wt / wt 1 log t 1Bt 1 Thuật tốn EM: Thuật tốn cịn gọi thuật tốn Baum-Welch [9] áp dụng cho xích Markov (không thiết Markov dừng) Thuật toán sử dụng xác suất lũy tiến (FWP) xác suất lũy lùi (BWP) để tính LT (tính từ phía) Theo phương trình (1.2.4), xác suất FWP định nghĩa t t P( x1 )ΓP( x2 ) ΓP( xt ) P( x1 ) ΓP( xs ), (1.2.6) s 2 Bây giờ, vector BWP β t định nghĩa βt P( xt 1 )P( xt ) T P( xT )1 P( xs ) 1 s t 1 (1.2.7) 1.2.3 Phân phối dự báo Đối với quan sát có giá trị rời rặc, phân phối dự báo Pr ( X nh x | X ( n) x( n) ) thực chất tỷ lệ LT dựa vào xác suất điều kiện: Pr ( X (T ) x(T ) , X T h x) Pr ( X (T ) x (T ) ) Pr ( X T h x | X (T ) x (T ) ) P(x1 )B2B BT Γh P(x)1 P(x1 )B 2B BT 1 T Γh P(x)1 T 1 Bằng cách viết T T / T 1 $, ta có Pr ( X T h x | X (T ) x(T ) ) T h P(x)1 Phân phối dự báo từ viết phân phối xác suất trộn biến ngẫu nhiên phụ thuộc: m Pr ( X T h x | X (T ) x (T ) ) i (h) pi ( x) i 1 trọng số i (h) thành phần thứ i vector T h 1.2.4 Thuật toán Viterbi Mục tiêu thuật toán Viterbi tìm dãy trạng thái tốt i1 , i2 , , iT tương ứng với dãy quan sát x1 , x2 , , xT mà làm cực đại hàm LT Đặt 1i Pr (C1 i, X1 x1 ) i pi ( x1 ), với t 2,3, , T ti max c ,c , ,c Pr (C (t 1) c(t 1) , Ct i, X (T ) x(T ) ) Khi thấy xác suất tj thỏa mãn trình đệ quy sau t 2,3, , T t 1 i 1,2, , m: tj max i (t 1,i ij ) p j ( xt ) Dãy trạng thái tốt i1 , i2 , , iT xác định hồi quy từ iT argmax Ti và, i 1, ,m với t T 1, T 2, ,1, it argmax(ti i ,i ) t 1 i 1, , m 1.2.5 Dự báo trạng thái Đối với dự báo trạng thái, cần sử dụng công thức Bayes xác suất cổ điển Với i 1,2, , m, Pr (CT h i | X (T ) x(T ) ) αT Γh (, i) / LT T h (, i) Lưu ý rằng, h , n Γh tiến tới phân phối dừng xích Markov 1.3 Chuỗi thời gian mờ 1.3.1 Một số khái niệm Giả sử U không gian không gian xác định tập hợp đối tượng cần nghiên cứu Nếu A tập rõ U ta xác định xác hàm đặc trưng: ( ) { Định nghĩa 1.3.1 [34]: Giả sử U không gian U {u1 , u2 , , un } Tập mờ A không gian U viết sau: A=f A (u1 )/u1 +f A (u2 )/u2 + +f A (un )/un f A hàm thuộc tập mờ A f A : U [0;1], f A (ui ) độ thuộc ui vào tập A Định nghĩa 1.3.2 [34]: Cho Y (t )(t 0,1, 2, ) tập nền, tập R1 Giả sử fi (t )(i 0,1, 2, ) xác định Y t , F (t ) chứa tập f1 (t ), f (t ), , F (t ) gọi chuỗi thời gian mờ xác định tập Y t Định nghĩa 1.3.3 [34]: Giả sử F (t ) suy từ F (t 1) , kí hiệu F (t 1) F (t ) , mối quan hệ diễn đạt sau F (t ) F (t 1)oR(t , t 1) , F (t ) F (t 1)oR(t , t 1) gọi mô hình bậc F (t ), R(t, t 1) mối quan hệ mờ F (t 1) F (t ) , "o" toán tử thành phần Max–Min Định nghĩa 1.3.4 [34]: Cho R(t , t 1) mơ hình bậc F (t ) Nếu t , R(t , t 1) R(t 1, t 2) , F (t ) gọi chuỗi thời gian mờ dừng Trái lại F (t ) gọi chuỗi thời gian mờ khơng dừng Chương MƠ HÌNH MARKOV ẨN TRONG DỰ BÁO CHUỖI THỜI GIAN 2.1 Mơ hình Markov ẩn dự báo chuỗi thời gian Theo Chương 1, mơ hình HMM bao gồm hai thành phần bản: chuỗi X t , t 1, , T quan sát Ct i, t 1, , T , i {1, 2, , m} thành phần trộn Bây giờ, để dễ minh họa cho mơ hình HMM dự báo chuỗi thời gian, xét chuỗi thời gian time.b.to.t ký hiệu X t , t 1, , T Bài toán thực tế nhà đầu tư dự đoán giá trị X t tương lai để biết sau số chứng khoán từ đáy lên đỉnh Từ quan sát thực tế thấy số chứng khốn đạt đỉnh khơng thể giá trị (hoặc dao động nhẹ xung quanh giá trị đó) mãi mà xuống sau thời gian đó, tương tự dao động từ đáy lên đỉnh Vậy quy định X max thời gian lâu mà giá trị cổ phiếu từ đáy lên đỉnh Khi đó, X t X max (xem Hình 2.2.1) Nhà đầu tư muốn quy định trạng thái xảy với X t , chẳng hạn "chờ nhanh", "chờ nhanh", "chờ lâu", "chờ lâu" phải định nghĩa Để giải toán này, ta coi trạng thái phân phối Poisson với trung bình (cũng phương sai) i , i 1, 2,3, "ẩn" chuỗi X t Nếu giả thiết thêm trạng thái tn theo xích Markov, ta có mơ hình Markov ẩn cho toán dự báo chuỗi thời gian Hình 2.1 Định nghĩa chuỗi thời gian cần dự báo 2.1.1 Mơ hình HMM với phân phối Poisson Để áp dụng mơ hình HMM cho dự báo chuỗi thời gian, luận án minh họa phương pháp ước lượng tham số trình bày mục 1.3.2 Chương Đối với ước lượng MLE, luận án thực lập trình R cho mơ hình HMM với trạng thái phân phối Poisson Phân phối Poisson có tham số vừa trung bình vừa phương sai.Việc thực ước lượng tham số theo phương pháp MLE theo thuật toán sau: Thuận toán 2.1 Maximum hàm hợp lý Đầu vào: x,m, lambda0,gamma0 Đầu ra: m, lambda0, gamma0, BIC, AIC, mllk 1: procedure POIS.HMM.MLE (x,m, lambda0,gamma0, ) {Đổi mơ hình sang tham số tự do} 2: parvect0← pois.HMM.pn2pw(m, lambda0,gamma0) 3: mod ←nlm(pois.HMM.mllk, parvect0,x = x,m = m) {Ước lượng tham số làm cực đại hàm hợp lý} 4: pn← pois.HMM.pw2pn(m,mod$estimate) {Đổi tham số tự sang tham số mơ hình pm} 5: mllk ←mod$minimum {Lấy giá trị cực đại gán cho mllk} 6: np←length(parvect0) {đếm số tham số mơ hình} 7: AIC < −2 ∗ (mllk+np) {Tính tiêu chuẩn AIC} 8: n < −sum(!is.na(x)) {Tính số quan sát} 18: Khơng hội tụ sau, “maxiter”, vòng lặp Kết thực nghiệm cho HMM với phân phối Poisson 2.2 2.2.1 Ước lượng tham số Bảng 2.2.1 Ước lượng tham số mơ hình Poisson-HMM cho time.b.to.t với trạng thái m=2,3,4,5 0,8 0,2 0,51 0,49 0,46 0,47 0,07 0,33 0,47 0,02 0,2 0,8 2 11,46267 40,90969 0,6914086 0,3085914 3 5,78732 21,75877 57,17104 0,3587816 0,5121152 0,1291032 4 5,339722 16,943339 27,711948 58,394102 0,3189824 0,3159413 0,2301279 0,1349484 5 5,226109 15,679316 25,435562 38,459987 67,708874 0,31513881 0,28158191 0,22224329 0,10376304 0,07727294 0,4 0,46 0,07 0,07 0,53 0,29 0,18 0 0,51 0,49 0,19 0,56 0,25 0,38 0,4 0,15 0,07 0,14 0,5 0,36 0,13 0,33 0,19 0,35 0,53 0,47 0 0,33 0,67 0 216,8401 171,1243 159,898 154,6275 Bảng 2.2.2 Trung bình phương sai mơ hình so với mẫu M Mẫu Trung bình 20,45238 20,45238 20,45238 20,45238 20,45238 20,45238 Phương sai 20,45238 205,5624 272,6776 303,7112 303,4568 307,083 Kết cho thấy, mơ hình Poisson-HMM với trạng thái có phương sai gần với phương sai mẫu Tuy nhiên, điều khơng đủ chứng để khẳng định mơ hình trạng thái tốt Để có phương pháp lựa chọn tốt hơn, ta cần có tiêu chuẩn chọn mơ hình theo nhiều sở 2.2.2 Lựa chọn mơ hình Giả sử quan sát x1 , , xT sinh mơ hình "thật" f khơng biết ta ướm mơ hình hai họ xấp xỉ khác {g1 G1} {g2 G2 } Mục đích chọn mơ hình xác định mơ hình mà tốt theo nghĩa Bây giờ, áp dụng hai tiêu chuẩn AIC BIC mơ hình Poisson-HMM cho liệu time.b.to.t, kết liệt kê Bảng 2.3.3 Bảng 2.2.3 Tiêu chuẩn AIC BIC 441,6803 448,6309 360,2486 375,8876 351,7961 379,5988 359,2551 402,6968 m AIC BIC 2.2.3 Phân phối dự báo Như đề cập trên, liệu đào tạo mô hình HMM lấy từ 03/01/2006 đến 19/06/2013 Ta lấy liệu từ 14/06/2013 đến 22/08/2013 để so sánh với kết dự báo mơ hình Hình 2.1.2 mơ tả diễn biến số đóng VN-Index khoảng thời gian Ta thấy rằng, số phiên dao dịch để số VN-Index từ đáy (26/06/2013) lên đỉnh (19/08/2013) 35 ngày Như vậy, giá trị ứng với trạng thái mơ hình (phân phối Poisson với trung bình 27.711948) Ta chờ xem kết dự báo mơ hình Hình 2.2.1 Diễn biến số Vn-Index từ 14/06/2013 đến 22/08/2013 thời gian chờ từ đáy lên đỉnh Bây giờ, ta cần tìm cơng thức xác định phân phối dự báo Pr ( X T h x | X(T) x( T) ) Với ký hiệu dạng ma trận trình bày mục trước, phân phối tính sau: P X T h x|X T x T P X T x T , X T h x P X T x T δP x1 ΓP x2 ΓP x3 ΓP xT Γ h P x 1' δP x1 ΓP x2 ΓP x3 ΓP xT 1' Viết T αT / αT 1' , ta có T Γ h P x 1' T 1' P X T h x|X x T T Γ P x 1 h T Các phân phối tóm tắt Bảng 2.3.4 Bảng 2.2.4 Thông tin phân phối dự báo khoảng dự báo Mode dự báo Trung bình dự báo Khoảng dự báo Xác suất Thực tế 27 42,30338 26 30,16801 25,53973 23,68432 Khoảng ước lượng với xác suất 90% [ ] [ ] [ ] [ ] 0,9371394 0,9116366 0,9342868 0,9279009 35 - 5 22,48149 21,91300 [ ] [ ] 0,9237957 0,9215904 - 2.2.4 Trạng thái dự báo Ở phần trước ta tìm phân phối điều kiện trạng thái Ct cho trước quan sát X (T ) Làm ta xét trạng thái trạng thái khứ Tuy nhiên, tính phân phối điều kiện cho trạng thái tương lai CT h , việc gọi dự báo trạng thái Pr (CT h i | X( T) x( T) ) α T Γh (, i) T Γh (, i) LT với t αT / αT Ta tiến hành dự báo trạng thái mơ hình Poisson-HMM trạng thái liệu time.b.to.t với lần tiếp theo, kết Bảng 2.2.5 Bảng 2.2.5 Dự báo trạng thái lần cho time.b.to.t State = 2.3 0,006577011 0,003744827 0,506712945 0,482965217 0,09686901 0,27624774 0,37858412 0,24829913 0,2316797 0,2658957 0,3104563 0,1919683 0,2688642 0,2931431 0,2698832 0,1681095 0,2934243 0,3048425 0,2508581 0,1508750 0,3060393 0,3098824 0,2407846 0,1432937 Kết thực nghiệm mơ hình HMM với phân phối chuẩn 2.3.1 Ước lượng tham số Với phân phối ban đầu (ví dụ: (1/ 4,1/ 4,1/ 4,1/ 4) ), ước lượng EM ta được: 0,9717 0, 0283 0, 0000 0, 0000 0, 0927 0,8106 0, 0804 0, 0163 0, 0000 0, 0748 0,8624 0, 0628 0, 0000 0, 0000 0, 0818 0,9182 (453,9839;484,6801;505,9007;530,8300) (10,6857;7,1523;6, 4218;13,0746) Hình 2.3.1 mơ tả giá trị VNIndex với dãy trạng thái tốt tính theo thuật toán Viterbi Các đường nét đứt biểu diễn trạng thái chấm đen đậm thể trạng thái tốt cho giá trị thời điểm Hình 2.3.1 Dữ liệu VN-Index: dãy trạng thái tốt 2.3.2 Lựa chọn mơ hình Theo lý thuyết chọn mơ hình HMM tiêu chuẩn BIC AIC cho chuỗi số VN-index, AIC BIC chọn trạng thái Các giá trị tiêu chuẩn cho Bàng 2.4.1 Bảng 2.3.1 Dữ liệu VN-Index: chọn số trạng thái Model 2-state HM 3-state HM 4-state HM 5-state HM -logL 1.597,832 1.510,989 1.439,179 không hội tụ AIC 3.205,664 3.043,978 2.916,358 BIC 3.225,312 3.087,204 2.991,02 2.3.3 Phân phối dự báo Như trình bày mục 1.3.3 Chương 1, Hình 2.3.2 biểu diễn 10 phân phối dự báo cho giá trị VNIndex Ta thấy phân phối dự báo tiến tới phân phối dừng nhanh Hình 2.3.2 Dữ liệu VN-Index data: phân phối dự báo 10 ngày Như vậy, mơ hình HMM với phân phối định phù hợp với dự báo số trường hợp, liệu mà thực khít với phân phối lựa chọn mơ hình Tuy nhiên, chuỗi thời gian sinh biến ngẫu nhiên có ướm khít với phân phối chuẩn (hoặc trộn phân phối chuẩn) hay phân phối khác chọn hay không câu hỏi định đến phù hợp độ xác dự báo 2.3.4 Trạng thái dự báo Bảng 2.3.2 Dự báo khả (xác suất) cao trạng thái cho 30 ngày kể từ ngày cuối 13/05/2011 Days State=[1,] [2,] [3,] [4,] [1,] [2,] [3,] [4,] [1,] [2,] [3,] [,1] 0,0975 0,8062 0,0799 0,0162 [,7] 0,3579 0,3092 0,2274 0,1053 [,14] 0,4355 0,1870 0,2200 [,2] 0,1695 0,6622 0,1351 0,0330 [,8] 0,3764 0,2778 0,2296 0,1160 [,15] 0,4405 0,1803 0,2176 [,3] 0,2261 0,5517 0,1724 0,0496 [,9] 0,3915 0,2530 0,2298 0,1255 [,16] 0,4448 0,1749 0,2154 [,4] 0,2709 0,4665 0,1971 0,0653 [,10] 0,4039 0,2334 0,2288 0,1338 [,17] 0,4484 0,1705 0,2133 [,5] 0,3065 0,4005 0,2128 0,0800 [,11] 0,4141 0,2177 0,2270 0,1410 [,18] 0,4515 0,1669 0,2113 [,6] 0,3350 0,3492 0,2223 0,0933 [,12] 0,4225 0,2052 0,2248 0,1473 [,19] 0,4542 0,1639 0,2096 [,13] 0,4296 0,1951 0,2224 0,1527 [,20] 0,4565 0,1614 0,2080 [4,] [1,] [2,] [3,] [4,] 0,1573 [,21] 0,4586 0,1593 0,2066 0,1754 [1,] [2,] [3,] [4,] 0,1613 [,22] 0,4604 0,1576 0,2053 0,1766 [,28] 0,4676 0,1517 0,2000 0,1805 0,1647 [,23] 0,4619 0,1561 0,2041 0,1776 0,1676 [,24] 0,4633 0,1549 0,2031 0,1784 [,29] 0,4684 0,1512 0,1995 0,1807 0,1701 [,25] 0,4646 0,1539 0,2022 0,1791 0,1722 [,26] 0,4657 0,1530 0,2014 0,1797 [,30] 0,4692 0,1507 0,1990 0,1809 0,1739 [,27] 0,4667 0,1523 0,2007 0,1801 Ta thấy khả cao ngày đầu rơi vào trạng thái ngày sau rơi vào trạng thái Do đó, mơ hình khơng hiệu dài hạn tốt cho ngắn hạn Tuy nhiên, ta dự báo cách cập nhật liên tục liệu cách tự động Bây luận án cập nhật tiếp liệu từ 14/5/2011 đến 23/6/2011 với 30 giá đóng của cổ phiếu nhằm so sánh giá trị dự báo với giá trị thực liệu Hình 2.3.4 cho thấy giá trị 30 ngày hầu hết trạng thái Điều chứng tỏ dự báo đắn Hình 2.3.3 Dữ liệu VNIndex: So sánh trạng thái dự báo với trạng thái thực tế 2.4 Kết so sánh Mục luận án trình bày kết dự báo mơ hình HMM với số mơ hình có [19] số liệu chuỗi số chứng khoán Do đặc điểm giá trị chuỗi thời gian tăng trưởng nhận giá trị thực nên mơ hình HMM với phân phối chuẩn lựa chọn Mơ hình luận án đề xuất mơ hình so sánh thực tập đào tạo tập kiểm tra nhằm đảm bảo xác phép so sánh Độ đo độ xác sử dụng trung bình phần trăm sai số (MAPE) tính bởi: n pi MAPE *100% n i 1 Bảng 2.4.1 MAPE nhiều lần chạy HMM cho liệu Apple 1,812 1,779 1,778 1,788 1,790 1,802 1,784 1,816 1,815 1,778 1,777 1,800 1,812 1,790 1,794 1,789 Trung bình: 1,795 Độ xác trung bình 1,795 giá trị dự báo trung bình minh họa Hình 2.4.1 Hình 2.4.1 Dự báo HMM cho giá cổ phiếu apple:actual-giá thật; predict-giá dự báo Tương tự độ với liệu cổ phiếu Ryanair Airlines từ 06/01/2003 đến 17/01/2005; IBM Corporation từ 10/01/2003 đến 21/01/2005 Dell Inc từ 10/01/2003 đến 21/01/2005 Kết so sánh độ đo độ xác MAPE với 400 quan sát đào tạo Bảng 2.5.2 Bảng 2.4.2 So sánh độ xác mơ hình HMM với số mơ hình khác Mơ hình ARIMA 1,801 1,504 0,660 0,972 Dữ liệu Apple Ryanair IBM Dell Mơ hình ANN 1,801 1,504 0,660 0,972 Mơ hình HMM 1,795 1,306 0,660 0,863 Từ kết Bảng 2.4.2 ta thấy mơ hình HMM với phân phối chuẩn cho độ xác dự báo cao so với mơ hình cổ điểm ARIMA mơ hình ANN Chương MỞ RỘNG MƠ HÌNH XÍCH MARKOV BẬC CAO VÀ CHUỖI THỜI GIAN MỜ TRONG DỰ BÁO 3.1 Xích Markov bậc cao Giả sử điểm liệu Ct dãy liệu phân loại lấy giá trị tập I 1, 2, , m m hữu hạn, nghĩa dãy có m loại trạng thái Một xích Markov bậc k chuỗi biến ngẫu nhiên mà Pr (Cn cn | Cn1 cn1 , , C1 c1 ) Pr (Cn cn | Cn1 cn1, , Cnk cnk ) Trong [30], Raftery đề xuất mơ hình chuỗi Markov bậc cao (CMC) Mơ hình viết sau: k P(Cn cn | Cn1 cn1 , , Cnk cnk ) i qcnci i 1 Trong k i 1 i (3.1.1) , Q [qij ] ma trận chuyển với tổng cột , vậy: k i qcnci 1, cn , ci I i 1 (3.1.2) 3.1.1 Mơ hình Markov bậc cao (IMC) Trong tiểu mục này, luận án trình bày việc mở rộng mơ hình Raftery [30] thành mơ hình chuỗi Markov bậc cao tổng qt cách cho phép Q để thay đổi theo độ trễ khác Ở giả định trọng số i không âm thỏa mãn: k i i 0 1 (3.1.3) Ta có (3.1.1) viết lại sau: k Cn k 1 i QCn k 1i i 1 (3.1.4) Trong Cn k 1i phân phối xác suất trạng thái thời điểm (n k i) Sử dụng (3.1.3) Q ma trận xác suất chuyển, có phần tử Cn k 1 nằm , tổng tất phần tử Trong mơ hình Raftery, khơng giả sử khơng âm nên điều kiện (3.1.2) bổ sung vào để đảm bảo Cn k 1 phân phối xác suất trạng thái Mơ hình Raftery (3.1.4) khái quát sau: k Cn k 1 i Qi Cn k 1i i 1 (3.1.5) Tổng số lượng tham số độc lập mơ hình (k km2 ) 3.1.2 Ước lượng tham số Trong mục này, tác giả trình bày phương pháp hiệu để ước lượng tham số Qi i với i 1, 2, , k Để ước lượng Qi , coi Qi ma trận chuyển i bước dãy liệu phân loại Cn Cho dãy liệu phân loại Cn , ta đếm tần số chuyển f jl(i ) dãy từ trạng thái l đến trạng thái j sau i bước Hơn nữa, xây dựng ma trận chuyển i bước cho dãy Cn sau: f11(i ) (i ) f 12 (i ) f1m f m(1i ) f m(i2) (i ) F (i ) f mm Từ F (i ) , nhận ước tính cho Qi [qlj(i ) ] sau: qˆ11(i ) (i ) qˆ ˆ Qi 12 (i ) qˆ1m Ở qˆlj(i ) qˆm(i1) qˆm(i 2) (i ) qˆmm m flj(i ) neu flj(i ) m l 1 flj(i ) l 1 0 truong hop khác Chúng ta lưu ý tính tốn phức tạp việc xây dựng F (i ) phép tính O( L2 ) , L chiều dài dãy liệu Vì tổng số tính tốn phức tạp việc xây dựng F (i )ik1 phép tính O(kL2 ) Ở k số độ trễ Bây ta trình bày rõ bước ước lượng tham số i sau [15] mà luận án dùng để nhúng vào mơ hình kết hợp đề xuất Giả sử Cn C n tiến đến vô cùng, C ước lượng từ dãy Cn cách tính tỷ lệ xuất trạng thái dãy đặt Cˆ k Q Cˆ Cˆ i 1 i i Điều cho cách ước lượng tham số (1 , , k ) sau Chúng ta xét toán cực tiểu sau đây: k || i Qi Cˆ Cˆ || i 1 với điều kiện k i 1 i 1, i 0, i Ở | || chuẩn Vector Trường hợp đặc biệt, chọn || || , có tốn cực tiểu sau: k max l | [ i Qi Cˆ Cˆ ]l | i 1 với điều kiện k i 1 i 1, i 0, i Ở [.]l xác định phần tử thứ l Vector Vấn đề khó khăn việc tối ưu hóa để đảm bảo tồn phân phối ổn định C Tiếp theo, xem toán cực tiểu xây dựng tốn tuyến tính: với điều kiện 1 ˆ ˆ ˆ ˆ ˆ ˆ ˆ 2 C [Q1C | Q2C | | QnC ] n 1 Cˆ [Qˆ Cˆ | Qˆ Cˆ | | Qˆ Cˆ ] 2 n n k 0, i 1, i 0, i i 1 Chúng ta giải tốn tuyến tính có tham số i Thay giải tốn min-max, chọn || ||1 xây dựng toán cực tiểu sau đây: m k l 1 i 1 |[ i Qˆ i Cˆ Cˆ ]l | với điều kiện k i 1 i 1, i 0, i Bài tốn tuyến tính tương ứng đưa sau: m l với điều kiện l 1 1 1 2 Cˆ [Qˆ Xˆ | Qˆ Cˆ | | Qˆ Cˆ ] 2 n m k 1 1 2 Cˆ [Qˆ Cˆ | Qˆ Cˆ | | Qˆ Cˆ ] 2 n m k k i 0, i, i 1, i 0, i i 1 Trong việc xây dựng tốn tuyến tính trên, số lượng biến k số lượng điều kiện (2m 1) Sự phức tạp việc giải toán tuyến tính việc tính tốn O(k L) , n số biến L số bit nhị phân cần thiết để lưu trữ tất liệu (các điều kiện hàm mục tiêu) [18] 3.2 Lựa chọn chuỗi thời gian mờ mơ hình kết hợp Xét chuỗi thời gian có quan sát X1 , X , , X T , với chuỗi tăng trưởng x1 , x2 , , xT , (được định nghĩa mục đây) Ta muốn phân loại mức độ tăng trưởng thành trạng thái khác "chậm", "bình thường", "nhanh" hay chí nhiều mức độ Tuy nhiên, xt thời điểm t không rõ ràng thuộc mức độ cho dù ta định nghĩa rõ mức độ Nghĩa là, xt vừa thuộc mức độ vừa thuộc mức độ khác với độ rõ ràng (membership) khác Chính vậy, lý thuyết chuỗi thời gian mờ mục 1.4 chương thực điều nhằm phân lớp tập xt (định nghĩa mục sau) thành trạng thái mà xt thành viên Giả sử trạng thái tn theo xích Markov mơ hình Markov cho ta kết dự báo trạng thái tương lai Từ trạng thái tương lai, giá trị dự báo xt tính ngược từ định nghĩa chuỗi thời giam mờ trước 3.2.1 Định nghĩa phân vùng tập Xét tập đào tạo { yt }tN1 , ta định nghĩa tập cho không gian tăng trưởng U t{1, , N } yt ; max t{1, , N } yt với số dương lựa chọn cho mức tăng trưởng tương lai không vượt maxt{1, , N } yt Tùy liệu chọn khác Tuy nhiên, chọn thõa mãn cho dãy tăng trưởng chứng khốn Để mờ hóa tập U thành nhãn tăng trưởng "tăng nhanh", "tăng chậm", "tăng đều", chí k mức độ, tập U chia thành k khoảng (đơn giản chia thành khoảng liên tiếp) u1 , u2 , , uk Ví dụ, phân vùng số VN-Index (chỉ số chứng khoán Việt Nam) là: U [0.0449, 0.0150] [0.0150,0.0149] [0.0149,0.0448] kết VN-Index mã hóa Bảng 3.3.1 Bảng 3.2.1 Mờ hóa chuỗi tăng trưởng Ngày 04/11/2009 05/11/2009 06/11/2009 09/11/2009 10/11/2009 11/11/2009 xi 537,5 555,5 554,9 534,1 524,4 537,6 số -0,015997 -0,031866 -0,026580 0,054237 0,020036 0,002917 tăng trưởng ( yi ) NA 0,0334883 -0,0010801 -0,0374842 -0,0181613 0,0251716 mã hóa NA 1 3.2.2 Quy luật mờ chuỗi thời gian Bây ta xác định tập mờ Ai , tập Ai gán cho nhãn tăng trưởng xác định đoạn xác định u1 , u2 , , uk Khi tập mờ Ai biểu diễn sau: Ai Ai (u1 ) / u1 Ai (u2 ) / u2 Ai (uk ) / uk Ai hàm thành viên u j , j 1, , k Ai , i 1, , k Mỗi giá trị mờ chuỗi thời gian yt tính rõ lại dựa vào quy luật mờ hóa Ai Chẳng hạn cách mờ hóa sau: A1 1/ u1 0.5 / u2 / u3 / uk A2 0.5 / u1 1/ u2 0.5 / u3 / uk Ak / u1 / u2 / u3 1/ uk Khi với yt A2 giá trị chưa rõ, giá trị rõ tính ngược theo quy luật mờ bởi: 0.5m1 m2 0.5m3 , m1 , m2 , m3 trung điểm đoạn u1 , u2 , u3 yt Đối với quy luật mờ hóa khác quy tắc tính ngược khác 3.3 Mơ hình kết hợp xích Markov chuỗi thời gian mờ 3.3.1 Mơ hình kết hợp với xích Markov bậc Trong phần này, mơ tả chi tiết việc kết hợp mơ hình Markov- chuỗi thời gian mờ Việc kết hợp minh họa Hình 3.3.1 Chi tiết bước thể sau: Hình 3.3.1 Cấu trúc mơ hình Chi tiết công việc bước thực sau Bước 1: Cho liệu quan sát chuỗi thời gian {x1 , x2 , , xT } chuỗi tăng trưởng liệu huấn luyện tính sau: yt Ta có xt 1 xt , xt xt 1 (1 yt ).xt Cho Dmax Dmin giá trị lớn giá trị nhỏ chuỗi tăng trưởng sau bỏ giá trị ngoại lai , tập U [Dmin , Dmax ] thiết lập ngưỡng cho gia tăng thay đổi Bước 2: Phân vùng tập theo cách đơn giản chia khoảng [ Dmax , Dmin ] thành k khoảng Khi tập U u1 u2 uk u1 [ Dmin , Dmin ] uk [ Dmax , Dmax ] Bước 3: Trong nghiên cứu này, thuật ngữ A1 , A2 , A3 , , Ak chuỗi thời gian đại diện cho tập mờ, định nghĩa cách đơn giản sau: A1 1/ u1 0.5 / u2 / u3 / uk A2 0.5 / u1 1/ u2 0.5 / u3 / uk Ak / u1 / u2 / u3 1/ uk Sau Ai mã hóa i với i {1, 2, , k} Vì vậy, liệu chuỗi thời gian thuộc ui , mã hóa i ( i {1, 2, , k} ) Chúng ta có chuỗi thời gian mã hóa {ct }tT1, ct {1,2, , k} Ví dụ, phân vùng số VN-Index (chỉ số chứng khoán Việt Nam) mục 3.2.1 Bước 4: Bước giải thích làm chuỗi Markov áp dụng chuỗi thời gian mã hóa Theo phần 3.2, giả sử chuỗi thời gian mã hóa {ct } chuỗi Markov Định nghĩa 1.2.1 Ước lượng tham số xích Markov Mục 1.2.3, ta dễ dàng ước lượng ma trận xác suất chuyển Γ [γ ij ], i, j {1, 2, , k}, đó: ij Pr (ct 1 j | ct i) Trường hợp tồn trạng thái ct i trạng thái hấp thụ (xem 1.2.1), để đảm bảo tính quy Γ quy ước Pr (ct 1 j | ct i) với j 1,2, , k Nghĩa là, xác suất chuyển từ k i sang trạng thái Bước 5: Chúng ta dự báo bước phía trước cho chuỗi thời gian mã hóa từ xác định giá trị dự báo Cho ct , cột Γ[, ct ] phân phối xác suất ct 1 j, j 1, 2, , k Gọi M ( ( m1 0.5 m2), (0.5 m1 m2 0,5 m3), , khoảng ui kết dự báo thời điểm ( mk 1 0.5 m))k mi giá trị trung bình t tính sau: k yˆt 1 Γ[, ct ]*M a jct m j j 1 Ở bước này, vectơ M chọn khác tùy theo phương án mờ hóa Bước Cuối cùng, giá trị x dự báo tính sau: xˆt 1 ( yˆt 1)* xt 3.3.2 Mở rộng với xích Markov bậc cao Mơ hình kết hợp xích Markov bậc cao với chuỗi thời gian mờ khác mơ hình xích Markov bậc Bước Bước Bước 4: Đối với mơ hình Markov bậc cao cổ điển kết hợp với chuỗi thời gian mờ (gọi CMCFuz), cách cực đại hố tương tự mơ hình Markov bậc nhất, ta dễ dàng ước lượng ma trận xác suất chuyển l chiều Γ [ i i i ], i j {1, 2, , k} Theo nghĩa xích Markov bậc cao, i i i xác suất quan sát ct 1 với điều kiện biết ct , , ct l 1 : i i i Pr (ct 1 il 1 | ct il , , ct l 1 i1 ) l 1 l l 1 l 1 l 1 l l Đối với mơ hình Markov bậc cao kết hợp (gọi IMC-Fuz), ma trận chuyển m m iQi i 1 3.1.4 Bước 5: Tiếp theo ta tạo dự báo bước cho chuỗi thời gian mã hoá dựa bào ma trận xác suất chuyển tính ngược lại giá trị dự báo chuỗi thời gian gốc Đối với mơ hình CMC-Fuz, cho trước ct , , ct l 1 , cột [, ct , , ct l 1] phân bố xác suất ct 1 j khắp k giá trị mã hoá j 1, 2, , k Giá trị tăng trưởng dự báo thời điểm t tính bởi: k xˆt 1 [, ct , , ct l 1 ]* M jct ct l 1 m j j 1 Đối vơi IMC-Fuz, Giá trị tăng trưởng dự báo thời điểm t tính bởi: l xˆt 1 i Qi [, ct i 1 ] i 1 Cuối cùng, giá trị X t 1 dự báo tính bởi: Xˆ t 1 ( xˆt 1)* X t Thuật toán 3.1 Thuật toán Markov - Fuzzy kết hợp Đầu vào: Đầu ra: 1: Data, 1, nTrain, nOrder, nStates predict , RMSE, MAPE, MAE yt Datat 1 Datat , t 2, , nTrain Datat yt 2: Train nTrain 0,5mid ( A3 )), , / 3(0.5mid ( Ak 1 ) mid ( Ak ))) ⊲ tính ngược quy luật mờ với | ( Ai ) trung điểm khoảng Ai predictt (transition.Mats[, encodedt 1 , encodedt 2 , , encodedt nOrder 1 ]%*%M 1)* Datat 17: errors (RMSE, MAPE, MAE) f ( predictt actualt ) ⊲ tính tốn độ đo độ xác 16: Trong đó, nTrain số quan sát tập đào tạo; nOrder bậc xích Markov bậc cao nStates số trạng thái (các Ak ) mơ hình Như vậy, mơ hình CMC-Fuz IMC-Fuz với bậc nOrder trùng với mơ hình kết hợp bậc mục 3.4.1 Do đó, kết thực nghiệm cho mơ hình xích Markov bậc thực đồng thời mơ hình xích Markov bậc cao 3.3.3 Kết thực nghiệm Lựa chọn liệu Nhằm so sánh kết với [19, 20, 17, 26, 38, 33], ta sử dụng liệu tương tự lấy [40, 29, 7, 37] Hơn nữa, nhiều liệu khác sử dụng để kiểm tra độc xác mơ hình Chi tiết cho bảng 3.3.2 Bảng 3.3.2 Các tập liệu so sánh Tên liệu Apple Computer Inc IBM Corporation Dell Inc Ryanair Airlines TAIEX (Taiwan exchange index) SSE(Shanghai Stock Exchange) DJIA( Dow Jones Industrial Average Index) S&P500 Unemployment rate Australian electricity Poland Electricity Load From từ đến tần suất 10/01/2003 10/01/2003 10/01/2003 06/01/2003 01/01/2001 21/06/2006 04/08/2006 04/08/2006 01/01/1948 01/01/1956 1990’s 21/01/2005 21/01/2005 21/01/2005 17/01/2005 31/12/2009 31/12/2012 31/08/2012 31/08/2012 01/12/2013 01/08/1995 1500 values Daily Daily Daily Daily Daily Daily Daily Daily Monthly Monthly Daily Nghiên cứu không cố định tập đào tạo tập test cho phép độc giả thay đổi phù hợp áp dụng vào liệu cụ thể Trong nhiều trường hợp, kết thực nghiệm cho thấy liệu đào tạo vào khoảng 75% đến 85% cho kết dự báo tốt Kết so sánh với mơ hình khác Mơ hình so sánh mơ hình đề cập [19] Tập đào tạo tập test liệu Apple inc., Dell comp., IBM cor., Ryanair Airlines sử dụng hoàn toàn tương tự (nTrain = 400 ) British Airlines Delta Airlines không so sánh sở liệu http://finance.yahoo.com// không đầy đủ tương ứng với [19] Bảng 3.3.3 So sánh MAPEs cho mô hình khác Stock HMM-based forecasting model Ryanair Air Apple IBM Dell Inc 1,928 2,837 1,219 1,012 Fusion HMM-ANNGA with weighted average (MAPE) 1,377 1,925 0,849 0,699 Combination of HMM-fuzzy model(MAPE) CMC-Fuz model nStates =6 nOrder =1 IMC-Fuz model nStates =6 nOrder =2 1,356 1,796 0,779 0,405 1,275 1,783 0,660 0,837 1,271 1,783 0,656 0,823 Từ Bảng 3.3.3, với nStates =6, ta thấy mơ hình IMC-Fuz với nOrder = tốt mơ hình CMC-Fuz với nOrder = Cả hai mơ hình tốt mơ hình so sánh với liệu [19] Kết so sánh Bảng 3.3.4 Kết so sánh mơ hình IMC-Fuz CMCFuz tốt đơi chút so với mơ hình khác cho liệu SSE tốt nhiều cho liệu DJIA S&P500 Bảng 3.3.4 So sánh mơ hình khác cho liệu SSE, DJIA S\&P500 Dữ liệu Độ đo IMC-Fuz CMCFuz BPNN STNN SVM PCABPNN PCASTNN MAE RMSE MAPE 20,5491 27,4959 0,8750 20,4779 27,4319 0,8717 24,4385 30,8244 1,0579 22,8295 29,0678 0,9865 27,8603 34,5075 1,2190 22,4485 28,6826 0,9691 22,0844 28,2975 0,9540 MAE RMSE MAPE 90,1385 90,4159 258,4801 230,7871 278,2667 220,9163 192,1769 123,2051 123,2051 286,6511 258,3063 302,793 250,4738 220,4365 2,0348 1,8193 2,2677 1,7404 1,5183 0,7304 0,7304 MAE RMSE MAPE 10,4387 14,2092 0,8074 SSE DJIA S&P500 10,4387 14,2092 0,8074 24,7591 28,1231 1,8607 22,1833 25,5039 1,6725 22,9334 25,9961 1,7722 16,8138 20,5378 1,282 15,5181 19,2467 1,1872 Trong công trình [33], tác giả đề xuất mơ hình dự báo thời gian mờ so sánh với phương pháp khác dự báo số TAIEX từ 2001 đến 2009 Dữ liệu từ tháng Một đến tháng Mười năm sử dụng làm liệu đào tạo phần lại từ tháng 11 đến tháng 12 để dự báo tính độ xác Bảng 3.2.5 mơ hình chúng tơi với nStates = nOrder =1,2 tốt tất mơ hình đề cập Bảng 3.3.5 So sánh RMSEs TAIEX cho năm từ 2001 đến 2009 nStates = Method 2001 2002 2003 2004 2005 2006 2007 2008 2009 Average Chen 1996[12] ARIMA Yu 2005[42] ETS Yu 2005 [42] Huarng 2006[22] Chen 2011[13] ARFIMA Javedani 2014 [32] Sadaei2016 [33] Sadaei2016 [33] IMC-Fuz Order=1 Order=2 CMC-Fuz Order Order 104,25 97,43 100,54 96,80 98,69 97,86 96,39 95,18 94,80 89,47 86,67 119,33 121,23 119,33 119,43 119,18 116,85 114,08 115,13 111,70 104,37 101,62 68,06 71,23 65,35 68,01 63,66 61,32 61,38 59,43 59,00 49,67 45,04 73,64 70,23 71,50 72,33 70,88 70,22 66,75 58,47 64,10 59,43 55,80 60,71 58,32 57,00 54,70 54,69 52,36 52,18 50,78 49,80 37,80 34,91 64,32 64,43 63,18 63,72 60,87 58,37 55,83 51,23 55,30 47,30 45,14 171,62 169,33 168,76 165,04 167,69 167,69 165,48 163,77 163,10 154,43 152,88 310,52 306,11 310,09 303,39 308,40 306,07 304,35 315,17 301,70 294,37 293,96 92,75 94,39 91,32 95,60 89,78 87,45 85,06 89,23 84,80 78,80 74,98 118,36 116,97 116,34 115,45 114,87 113,13 111,28 110,93 109,37 101,74 99,00 117,73 115,75 68,44 67,5 55,96 53,75 56,58 56,58 55,97 55,97 51,87 51,73 159,36 159,36 106,9 105,12 71,51 71,51 82,7 81,92 116,52 119,42 68,45 71,51 55,97 54,81 56,58 56,93 55,97 60,12 51,87 53,57 159,37 164,32 106,9 106,97 71,51 82,03 82,57 85,52 Chương luận án trình bày mơ hình kết hợp xích Markov (cả bậc bậc cao) chuỗi thời gian mờ dự báo chuỗi thời gian Thứ nhất, đề xuất phương pháp mờ hóa chuỗi thời gian mà tập mờ trở thành trạng thái xích Markov Thứ hai, mở rộng mơ hình cho xích Markov bậc cao cổ điển xích Markov bậc cao cải tiến tương ứng với thuật toán ước lượng tham số xích Markov bậc cao Thứ ba, thực thực nghiệm tập đào tào tập kiểm tra mơ hình dự báo gần cho thấy mơ hình đề xuất có độ xác cao đáng kể thuật tốn đơn giản KẾT LUẬN Kết luận án Với mục tiêu phát triển mơ hình dự báo theo hướng kết hợp mơ hình sẵn có thành mơ hình nhằm cải thiện độ xác dự báo, luận án thực nội dung nghiên cứu: Nghiên cứu tổng quan xích Markov, xích Markov bậc cao phương pháp ước lượng tham số xích Markov Phân tích ứng dụng tiềm tàng xích Markov tốn dự báo chuỗi thời gian Luận án nhận thấy mơ hình chuỗi thời gian mờ dự báo chuỗi thời gian khắc phục hạn chế mặt liệu không rõ ràng chuỗi thời gian, số lý thuyết chuỗi thời gian mờ vài thuật toán dự báo sử dụng chuỗi thời gian mờ khái quát lại Từ sở ưu điểm hạn chế mơ hình dự báo có, luận án đề xuất mơ hình dự báo kết hợp cải thiện độ xác dự báo Thứ nhất, áp dụng mơ hình Markov ẩn (HMM) phân phối Poisson phân phối chuẩn (Normal) cho mơ hình dự báo chuỗi thời gian cụ thể dựa phân tích tương thích liệu với mơ hình (Mục 2.1) Một loạt thuật tốn thực chạy liệu thực cho thấy hợp lý dự báo thời gian ngắn hạn Thứ hai, để khắc phục nhược điểm mơ hình HMM (dựa vào phân phối xác xuất tất định mà phân phối thực nghiệm không tuân theo) khắc phục tính mờ (khơng rõ ràng) liệu chuỗi thời gian, luận án đề xuất mơ hình kết hợp xích Markov chuỗi thời gian mờ dự báo chuỗi thời gian Các thuật toán kết hợp hai mơ hình thiết lập thực nghiệm loạt liệu so với mô hình dự báo gần cho thấy kết dự báo có độ xác cải thiện đáng kể Đặc biệt, mơ hình Markov bậc cao kết hợp chuỗi thời gian mờ có tiềm lớn áp dụng cho dự báo chuỗi thời gian có tính thời vụ Các đóng góp luận án được cài đặt thử nghiệm ngơn ngữ lập trình R hàm cho Phụ lục Hướng phát triển đề tài luận án Kết hợp xích Markov với luật mờ phức tạp nhằm xác định xác vai trò giá trị chuỗi thời gian tập mờ Từ cải thiện thêm độ xác dự báo Mở rộng mơ hình cho chuỗi thời gian đa biến, chuỗi thời gian thành phần phụ thuộc Chuỗi thời gian mục tiêu (đối tượng dự báo) liên quan đến chuỗi khác (chuỗi tác động) theo trạng thái Markov xác định chuỗi tác động Từ nhiều chuỗi tác động, kết hợp với mơ hình ANN để xây dựng mơ hình dự báo có tính đến yếu tố phụ bên Điều phù hợp với thực tế Vấn đề tối ưu hóa tham số hướng mở Cụ thể, mơ hình luận án đề xuất thực với nOrder nStates đủ để so sánh với mơ hình khác Tuy nhiên, chúng chưa phải tham số tốt Do đó, việc xây dựng sở suy luận thuật toán xác định tham số tốt cho mơ hình vấn đề mở rộng nghiên cứu ... F (t ) gọi chuỗi thời gian mờ dừng Trái lại F (t ) gọi chuỗi thời gian mờ khơng dừng Chương MƠ HÌNH MARKOV ẨN TRONG DỰ BÁO CHUỖI THỜI GIAN 2.1 Mơ hình Markov ẩn dự báo chuỗi thời gian Theo Chương... quan xích Markov, xích Markov bậc cao phương pháp ước lượng tham số xích Markov Phân tích ứng dụng tiềm tàng xích Markov toán dự báo chuỗi thời gian Luận án nhận thấy mơ hình chuỗi thời gian mờ dự. .. trình bày mơ hình kết hợp xích Markov (cả bậc bậc cao) chuỗi thời gian mờ dự báo chuỗi thời gian Thứ nhất, đề xuất phương pháp mờ hóa chuỗi thời gian mà tập mờ trở thành trạng thái xích Markov Thứ