Tỷ lệ thất nghiệp của lao động Mỹ

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình relevance vector machine (RVM) áp dụng giải một số bài toán thực tế (Trang 31 - 45)

(2). Một số khái niệm về chuỗi thời gian:

Chuỗi thời gian là một dãy các quan sát về một biến nào đó được thu thập theo thời gian. Thơng thường, các quan sát được thực hiện theo khoảng thời gian định kỳ. Mẫu quan sát có thể như một đoạn hữu hạn của một chuỗi vô hạn:

(𝑦𝑡)−∞+∞ = {… , 𝑦−1, 𝑦0, 𝑦1, 𝑦2, … , 𝑦𝑛, … }

Ví dụ: Số liệu doanh thu hàng tháng, giá cổ phiếu hàng ngày, lãi suất hàng tuần (hàng tháng hay hàng năm), nhiệt độ tối đa một ngày là các chuỗi thời gian.

Một bước quan trọng trong việc chọn phương pháp dự báo thích hợp là xem xét các dạng của kiểu dữ liệu theo thời gian (time series pattern). Có 4 dạng dữ liệu theo thời gian: dạng nằm ngang (horizontal pattern), dạng mùa (seasonal pattern), dạng chu kỳ (cyclical pattern) và dạng xu thế (trend pattern).

- Dạng nằm ngang (H) tồn tại khi dữ liệu mà các giá trị dao động xung quanh giá trị hằng số trung bình, cịn gọi là tính dừng (stationary).

- Dạng mùa (S) tồn tại khi chuỗi bị tác động bởi yếu tố mùa (như: q, tháng, ngày), cịn gọi là tính chu kỳ (periodic).

- Dạng chu kỳ (C) tồn tại khi dữ liệu biểu hiện sự tăng giảm trên khoảng thời gian khơng cố định. Sự khác biệt chính giữa dạng mùa và dạng chu kỳ là nếu sự biến động của dữ liệu trên khoảng thời gian khơng cố định thì nó là dạng chu kỳ, nếu khoảng thời gian khơng thay đổi và có liên quan đến lịch thì nó là dạng mùa. Một cách tổng qt, khoảng thời gian của dạng chu kỳ thì dài hơn của dạng mùa.

- Dạng xu thế (T) tồn tại khi có sự tăng hoặc giảm dài hạn của dữ liệu.

Có nhiều chuỗi dữ liệu thời gian là kết hợp của các dạng được nêu ở trên. Đây cũng là điều làm cho bài toán dự báo trở nên thú vị và đầy thử thách của chuỗi dữ liệu thời gian thực.

Có nhiều phương pháp dự báo dựa trên các thành phần cơ bản tồn tại trong chuỗi thời gian, các thành phần có thể tách tính ngẫu nhiên bằng cách tính trung bình (làm trơn) dữ liệu trong quá khứ, khi đó sử dụng để dự báo. Trong nhiều trường hợp, chuỗi thời gian có thể được phân rã thành các thành phần riêng biệt, điều này giúp cho kết quả dự báo cải thiện tốt hơn.

Các phương pháp phân rã thường cố gắng tách những thành phần cơ bản dựa trên các đặc tính của chuỗi. Có hai thành phần chính xu thế - chu kỳ gọi chung là xu thế và mùa. Giả sử phân rã dữ liệu như sau:

Dữ liệu = các thành phần + sai số = f(xu thế, mùa, sai số)

Thành phần sai số (error) còn gọi là thành phần bất thường (irregular) hay phần dư (remainder), và về sau luận văn gọi là thành phần sai số.

2.3.2. Các nguyên lý phân rã (decompositions)

Mơ hình phân rã tốn học tổng quát như sau:

𝑦𝑡 = 𝑓(𝑆𝑡, 𝑇𝑡, 𝐸𝑡) Trong đó:

𝑦𝑡 là dữ liệu thực tế tại thời điểm t, 𝑆𝑡 là thành phần mùa tại thời điểm t,

𝑇𝑡 là thành phần xu thế - chu kỳ tại thời điểm t, 𝐸𝑡 là thành phần sai số tại thời điểm t.

Một các tiếp cận phổ biến của công thức trên với quy tắc cộng gọi là phân rã tổng (additive decomposition)

𝑌𝑡 = 𝑆𝑡+ 𝑇𝑡+ 𝐸𝑡

có nghĩa là các thành phần mùa, xu thế và sai số cộng lại cho ra chuỗi dữ liệu quan sát. Cách tiếp cận khác, phân rã tích (multiplicative decomposition) có dạng:

𝑌𝑡 = 𝑆𝑡 x 𝑇𝑡 x 𝐸𝑡

có nghĩa là các thành phần mùa, xu thế và sai số nhân lại cho ra chuỗi dữ liệu quan sát. Mơ hình phân rã tổng phù hợp với các chuỗi có cường độ biến đổi theo mùa khơng thay đổi theo thời gian, ngược lại mơ hình phân rã tích phù hợp với chuỗi có cường độ biến đổi theo mùa tăng theo thời gian. Với chuỗi thời gian kinh tế thì mơ hình phân rã tích được sử dụng phổ biến [19].

Một cách để thay thế sử dụng mơ hình phân rã tích, ta sử dụng phép biến đổi để chuyển dữ liệu ổn định theo thời gian, thì ta sử dụng mơ hình phân rã tổng. Phép biến đổi logarite cho phép chuyển từ mơ hình phân ra tích thành mơ hình phân rã tổng như sau:

𝑌𝑡 = 𝑆𝑡 x 𝑇𝑡 x 𝐸𝑡 qua phép biến đổi logarite:

log𝑌𝑡 = log𝑆𝑡+ log𝑇𝑡+ log𝐸𝑡

Ngồi ra, cịn phương pháp phân rã khác gọi là phân rã giả tổng (pseudo – additive decomposition) có dạng:

𝑌𝑡 = 𝑇𝑡(𝑆𝑡 + 𝐸𝑡− 1)

Loại phân rã này có ý nghĩa đối với các chuỗi mà một tháng (hay một quý) nó cao hơn hay thấp hơn rất nhiều so với các tháng (hay các quý) khác [19].

2.3.3. Dữ liệu tách mùa (seasonally adjusted data)

Nếu dữ liệu gốc được tách bỏ thành phần mùa gọi là dữ liệu tách mùa. Đối với mơ hình phân rã tổng dữ tách mùa được cho bởi công thức 𝑦𝑡 − 𝑆𝑡 = 𝑇𝑡 + 𝐸𝑡, cịn mơ hình phân rã tích thì được cho bởi cơng thức 𝑦𝑡⁄𝑆𝑡 = 𝑇𝑡 x 𝐸𝑡. Hình 2.7 dưới đây là đơn đặt hàng thiết bị điện đã tách mùa [24].

Chuỗi dữ liệu tách mùa hữu ích, hầu hết các chuỗi thời gian về kinh tế công bố đều được tách mùa vì sự biến thiên theo mùa khơng phải là mối quan tâm chính [19].

Hình 2.7. Dữ liệu tách mùa của đơn hàng thiết bị điện (màu đỏ)

2.3.4. Trung bình di động (Moving average)

điểm của trung bình di động là giữ lại được thành phần xu thế, loại bỏ thành phần mùa và giảm được nhiễu [6]. Tiếp theo luận văn trình bày một số trung bình di động thơng dụng.

 Định nghĩa trung bình di động

Trung bình di động với hệ số {𝜃𝑘} được ký hiệu 𝑀{𝜃𝑘} và định nghĩa: 𝑀(𝑋𝑡) = ∑ 𝜃𝑘

+𝑓 𝑘=−𝑝

𝑋𝑡+𝑘

Trong đó: t là chỉ số thời điểm hiện tại, p là chỉ số quá khứ và f là chỉ số tương lai của chuỗi thời gian.

 𝑝 + 𝑓 + 𝑡 gọi là bậc của trung bình di động.

 Nếu 𝑝 = 𝑓 thì gọi là trung bình di động trung tâm (centered).

 Nếu 𝜃−𝑘 = 𝜃𝑘, ∀𝑘 thì gọi là trung bình di động đối xứng. Ký hiệu của trung bình di động bậc k là: k-MA.

Để tránh mất thông tin của chuỗi dữ liệu sau khi tính trung bình di động, người ta bổ sung trung bình di động bất đối xứng.

 Hàm gain và hàm dịch chuyển pha

Cho 𝑋𝑡 = 𝑅𝑠𝑖𝑛(𝜔𝑡 + 𝜑)

thì 𝑀(𝑋𝑡) = 𝑀(𝑅𝑠𝑖𝑛(𝜔𝑡 + 𝜑)) = 𝐺(𝜔)𝑅𝑠𝑖𝑛[𝜔𝑡 + 𝜑 + Γ(𝜔)]

 |𝐺(𝜔)| gọi là hàm gain (gain function) của trung bình di động, cho phép loại bỏ hay giữ lại thành phần có dao động.

 Γ(𝜔) gọi là hàm dịch chuyển pha (phase shift function), cho thấy độ trễ.

 Trung bình di động giữ lại thành phần đa thức bậc d thì điều kiện là:

∑ 𝜃𝑘 +𝑓 𝑘=−𝑝 = 1 ∑ 𝑘𝑗𝜃𝑘 +𝑓 𝑘=−𝑝 = 0, 𝑗 = 1, 2, … , 𝑑.

 Trung bình di động bậc k muốn loại bỏ thành phần mùa chu kỳ k thì hàm gain bằng

0 tại 2𝜋/𝑘.

 Giảm thành phần sai số là giảm ∑+𝑓𝑘=−𝑝𝜃𝑘2

 Một số hàm gain thông dụng

 Ước lượng thành phần xu thế: sử dụng trung bình 2x4 và 2x12.

 𝑀2x4: {1, 2, 2, 2, 1}/8: Loại bỏ được thành phần mùa theo quý, giữ lại được thành phần xu thế tuyến tính, giảm nhiễu được 75% [6].

 𝑀2x12: {1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1}/24: Loại bỏ được thành phần mùa theo tháng, giữ được thành phần xu thế là đường thẳng, giảm nhiễu được hơn 90% [6].

 Loại bỏ thành phần mùa: 𝑀3x3: {1, 2, 3, 2, 1}/9, 𝑀3x5: {1, 2, 3, 3, 3, 2, 1}/15, 𝑀3x9: {1, 2, 3, 3, 3, 3, 3, 3, 3, 2, 1}/27: Giữ lại được thành phần tuyến tính [6].

 Trung bình di động Henderson:

 Dùng để uớc lượng thành phần xu thế trong dữ liệu tách mùa 𝐴𝑡 = 𝑇𝑡+ 𝐸𝑡.

 Trung bình di động Henderson gồm có H5, H7, H9, H13, H23 (chi tiết xem cơng trình [6]).

2.3.5. Phương pháp phân rã cổ điển (classical decomposition)

Phương pháp phân hủy cổ điển được phát triển từ những năm 1920, được sử dụng phổ biến nhiều năm sau đó và nó là nền tảng cho các phương pháp hiện đại sau này. Có hai phương pháp phân rã cổ điển là: phân rã tổng và phân rã tích [19].

Giả sử thành phần mùa là hằng số trong các năm. Giá trị m gọi là chỉ số mùa (seasonal indices).

Bước 1: Nếu m là chẵn thì ước lượng xu thế 𝑇̂𝑡 sử dụng 2 x m MA, nếu lẻ sử dụng trung bình di động m-MA.

Bước 2: Tính chuỗi đã tách thành phần xu thế

a. Phân rã tổng: 𝑅̂𝑡 = 𝑦𝑡 − 𝑇̂𝑡 b. Phân rã tích: 𝑅̂𝑡 = 𝑦𝑡/𝑇̂𝑡

Bước 3: Tách thành phần mùa mỗi tháng, đơn giản là tính trung bình 𝑅̂𝑡 cho tháng đó. Ví dụ chỉ số mùa là tháng 3, ta tính trung bình tất cả giá trị 𝑅̂𝑡 của tháng 3 (đã tách xu thế). Ta thu được 𝑆̂𝑡.

Bước 4: Thành phần sai số (Erro) được tính theo cơng thức sau

c. Phân rã tổng: 𝐸̂𝑡 = 𝑦𝑡 − 𝑇̂𝑡 − 𝑆̂𝑡 d. Phân rã tích: 𝐸̂𝑡 = 𝑦𝑡/(𝑇̂𝑡𝑆̂𝑡)

Mặc dù phương pháp phân hủy cổ điển vẫn còn được sử dụng rộng rãi, nhưng khơng khuyến khích sử dụng vì nó tồn tại một số nhược điểm. Thứ nhất, thành phần xu thế bị mất một vài dữ liệu đầu và vài dữ liệu cuối. Do đó ước lượng thành phần sai số cũng bị mất dữ liệu trong cùng khoảng thời gian trên. Thứ hai, phân rã cổ điển giả định thành phần theo mùa nó khơng đổi và lặp lại từng năm, đối với một số chuỗi dự liệu thì giả định này không phù hợp. Cuối cùng, đôi khi các giá trị của chuỗi thời gian có những giá trị bất thường trong một khoảng thời gian nào đó thì phương pháp phân rã cổ điển cũng khơng phân tích được các loạt điểm bất thường này [24], [19].

Hiện nay có một số phương pháp phân rã mới tốt hơn phương pháp phân rã cổ điển như: phân rã X-12-ARIMA, phân rã STL. Phần tiếp theo luận văn trình bày hai phương pháp phân rã này.

2.3.6. Phương pháp phân rã X-12-ARIMA

Phương pháp phân rã X-12-ARIMA được phát triển bởi Cục Điều tra dân số của Mỹ là một trong những phương pháp phổ biến để phân rã chuỗi dữ liệu mùa theo quý và theo tháng. Hiện nó được sử dụng rộng rãi cho Cục dân số và các cơ quan chính phủ trên tồn thế giới. Các phiên bản trước của phương pháp X-12-ARIMA là X-11 và X-11-ARIMA. Hiện tại phương pháp X-13-ARIMA cũng đang được phát triển bởi Cục Điều tra dân số của Mỹ [24].

X-12-ARIMA dựa trên cơ sở của phương pháp phân rã cổ điển, trong đó bổ sung nhiều tính năng và những hạn chế của phương pháp phân rã cổ điển. Đặc biệt, ước lượng thành phần xu thế không làm mất một số giá trị đầu và cuối, và thành phần mùa cho phép thay đổi theo thời gian. Nó xử lý tốt các điểm bất thường trong dữ liệu [24].

Mơ hình ARIMA là một phần trong X-12-ARIMA được luận văn trình bày trong phần mơ hình ARIMA (xem phần 2.4.4) được áp dụng để dự báo chuỗi thời gian và mở rộng chuỗi thời gian gốc trước khi chỉnh mùa. Thuật toán bắt đầu tương tự như phương pháp phân rã cổ điển, sau đó các thành phần được cải tiến thơng qua một số phép lặp. Sau đây luận văn trình bày phương pháp phân rã tích đối với chuỗi dữ liệu mùa theo tháng, và tương tự cho phương pháp phân rã tổng đối với chuỗi dữ liệu mùa theo tháng [24]. Thuật toán gồm các bước như sau:

Bước 1: Tính trung bình di động 2x12 trên dữ liệu gốc 𝑦𝑡, ước lượng được thành phần xu thế 𝑇̂𝑡.

Bước 2: Tính tỷ số trung tâm (centered ratios): 𝑦𝑡/𝑇̂𝑡 .

Bước 3: Ước lượng 𝑆̂𝑡

 Tính trung bình di động 3x3 theo tháng của tỷ số trung tâm, thu được 𝑆̂𝑡1.

 Tính trung bình di động 2x12 của 𝑆̂𝑡1, thu được 𝑆̂𝑡2.

 𝑆̂𝑡 =𝑆̂𝑡1

𝑆̂𝑡2

⁄ , thành phần mùa đã chuẩn hóa.

Bước 4: Chia tỷ số trung tâm cho 𝑆̂𝑡 thu được ước lượng thành phần sai số 𝐸̂𝑡

Bước 5: Điều chỉnh 𝐸̂𝑡 bằng cách loại bỏ các giá trị bất thường (extreme) trong thành phần sai số ở bước 4.

 Tính độ lệch chuẩn theo năm của 𝐸̂𝑡.

 Tính lại trọng số của 𝐸̂𝑡 (điều chỉnh).

Bước 6: Nhân 𝐸̂𝑡 điều chỉnh với 𝑆̂𝑡 (ở bước 3), thu được tỷ số trung tâm điều chỉnh.

Bước 7: Lặp lại bước 3 thu được 𝑆̂𝑡.

Bước 8: Chia dữ liệu gốc cho 𝑆̂𝑡 vừa ước lượng, thu được chuỗi dữ liệu tách mùa ban đầu 𝑦𝑡/𝑆̂𝑡 ≡ 𝑆𝐴

Bước 9: Tính trung bình di động theo trọng số của Henderson của chuỗi SA, thu

Bước 10: Lặp lại từ bước 2 đến bước 8, gọi là bước 2a đến bước 8a.

 Trong đó bước 3a và 7a, thay cách tính trung bình di động 3x3 theo tháng ở bước 3 và 7 thành trung bình di động 3x5 hay 3x9 (phụ thuộc vào dữ liệu).

 Bước 8a, thu được dữ liệu tách mùa sau cùng SA

Bước 11: Lấy thành phần SA ở bước 8a chia cho thành phần xu thế ở bước 9, thu

được thành phần sai số 𝐸̂𝑡 sau cùng.

Kết quả: Từ dữ liệu gốc 𝑦𝑡 thuật toán X-12-ARIMA đã phân rã :

 Thành phần xu thế 𝑇̂𝑡 thu được ở bước 9.

 Thành phần mùa 𝑆̂𝑡 thu được ở bước 7a.

 Thành phần sai số 𝐸̂𝑡 thu được ở bước 11.

 Ngoài ra, thành phần tách mùa SA thu được ở bước 8a.

Phương pháp X-12-ARIMA xử lý hiệu quả các chuỗi thời gian có biến động giao dịch theo ngày, kỳ nghỉ (mà không được đề cập ở trên). X-12-ARIMA cũng còn các nhược điểm, cụ thể chỉ áp dụng cho chuỗi thời gian theo tháng và theo quý, và thành phần mùa không thay đổi theo thời gian. Phương pháp STL luận văn trình bày tiếp theo khắc phục được hai nhược điểm trên. Ngoài ra, STL áp dụng tốt cho các chuỗi thời gian có các ngoại lệ. Mặt khác, STL cũng tồn tại các yếu điểm là phương pháp chỉ phân rã theo dạng tổng và không tự động xử lý các dữ liệu có biến động theo ngày và theo lịch [19] và [24].

2.3.7. Phương pháp phân rã STL

STL được viết tắt của cụm từ “A Season – Trend decomposition procedure base on Loess” là một phương pháp phân rã chuỗi thời gian được Cleveland et al. đề xuất năm 1990. Phương pháp phân rã STL chỉ phân rã dạng tổng [19] sẽ được luận văn mô phỏng dưới đây. Để áp dụng cho dạng tích, trước tiên dùng phép biến đổi logarite trên chuỗi thời gian gốc.

Cho chuỗi thời gian 𝑦𝑡. Khởi tạo cho thành phần xu thế bằng 0 và được cập nhật sau mỗi vòng lặp.

Bước 2: Làm trơn 𝑅𝑡 theo mùa thu được chuỗi 𝐶𝑡

Bước 3: Làm trơn chuỗi 𝐶𝑡 ở bước 2, thu được chuỗi 𝐿𝑡.

Bước 4: Chuẩn hóa thành phần mùa. 𝑆𝑡 = 𝐶𝑡− 𝐿𝑡

Bước 5: Tách mùa chuỗi thời gian gốc, 𝑦𝑡 − 𝑆𝑡

Bước 6: Ước lượng xu thế từ chuỗi tách mùa ở bước 5, thu được 𝑇𝑡 Bước 7: Tính thành phần sai số, 𝐸𝑡 = 𝑦𝑡− 𝑆𝑡 − 𝑇𝑡

Các bước 2, 3 và 6 thuật toán STL đều áp dụng kỹ thuật làm trơn dữ liệu của Loess. Loess là một kỹ thuật làm trơn dữ liệu tuyến tính cục bộ (local linear smoothing) được đề xuất bởi Bill Cleveland và đồng nghiệp [19].

Kết quả, chuỗi thời gian 𝑦𝑡 phương pháp STL phân rã:

 Thành phần mùa ở bước 4.

 Thành phần xu thế ở bước 6.

 Thành phần sai số ở bước 7.

2.4. Chuỗi ARIMA

Trong phần này trình bày một số khái niệm liên quan: nhiễu trắng, phép toán quay lui, sai phân, tính dừng của chuỗi thời gian và tiếp theo trình bày mơ hình ARIMA, SARIMA và phương pháp luận Box – Jenkins.

2.4.1. Nhiễu trắng (white noise)

Xét chuỗi thời gian {𝑢𝑡} thỏa 3 tính chất sau: - Độc lập cùng phân phối;

- Có trung bình 𝐸(𝑢𝑡) = 0 và phương sai 𝑉𝑎𝑟(𝑢𝑡) = 𝜎2; - Khơng có tương quan 𝐶𝑜𝑟(𝑢𝑖, 𝑢𝑗) ≠ 0, ∀𝑖 ≠ 𝑗.

thì ta gọi chuỗi thời gian {𝑢𝑡} là nhiễu trắng. Trường hợp đặc biệt, nếu 𝑢𝑡 được trích ra từ phân phối chuẩn chính tắc thì ta gọi là nhiễu trắng Gaussian, 𝑢𝑡~𝒩(0, 𝜎2).

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình relevance vector machine (RVM) áp dụng giải một số bài toán thực tế (Trang 31 - 45)

Tải bản đầy đủ (PDF)

(76 trang)