Khai thác phần mềm r để xử lí số liệu chuỗi thời gian thông qua mô hình arima

79 1.8K 3
Khai thác phần mềm r để xử lí số liệu chuỗi thời gian thông qua mô hình arima

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 B GIO DC V O TO TRNG I HC VINH ------------------------ Nguyễn thị sửu Khai thác phần mềm R để xửsố liệu chuỗi thời gian thông qua hình arima Chuyờn ngnh: THUYT XC SUT V THNG Kấ TON s: 60.46.15 60.46.15 Ngi hng dn khoa hc: TS. NGUYN TRUNG HềA VINH 2010 2 MỤC LỤC Trang 3 MỞ ĐẦU Việc dự đoán các xu thế phát triển của đối tượng đóng vai trò cực kì quan trọng trong việc hoạch định các chính sách kinh tế - xã hội. Tuy nhiên, việc phân tích và xửsố liệu để đưa ra được kết quả dự đoán đó không hề đơn giản và tốn khá nhiều thời gian. Vì thế việc ứng dụng công nghệ thông tin hỗ trợ cho việc phân tích thống kê là rất hữu hiệu. Đáp ứng nhu cầu thực tiễn đó có rất nhiều phần mềm hỗ trợ cho việc phân tích, xửsố liệu, tính toán xác suất đã ra đời như SAS, SPSS, Stata, Statistica, S-Plus, Eviews, Minitab Đây là những phần mềm được các công ty phần mềm phát triển và giới thiệu trên thị trường trong khoảng ba thập niên qua và đã được các trường đại học, các trung tâm nghiên cứu công ty kỹ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên cứu. Nhưng vì chi phí để sử dụng cho các phần mềm này tương đối tốn kém, nên nhiều cá nhân ngay cả tập thể hay một số nước cũng không có khả năng tài chính để sử dụng chúng một cách lâu dài. Do đó, các nhà nghiên cứu thống kê trên thế giới đã hợp tác với nhau để phát triển một phần mềm mới, với chủ trương mã nguồn mở, sao cho tất cả các thành viên trong ngành thống kê học và toán học trên thế giới có thể sử dụng một cách thống nhất và miễn phí. Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống kê học Ross Ihaka và Robert Gentleman [lúc đó] thuộc Trường đại học Auckland, New Zealand phát hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R. Sáng kiến này được rất nhiều nhà thống kê học trên thế giới tán thành và tham gia vào việc phát triển R. Tuy miễn phí, nhưng chức năng của R hơn hẳn những phần mềm vừa kể trên. Tất cả những phương pháp, hình mà các phần mềm trên có thể làm được thì R cũng có thể làm được và R còn có lợi thế hơn tất cả các phần mềm trên là R có khả năng phân tích biểu đồ tuyệt vời. Cho đến nay, qua chưa đầy 15 năm phát triển, càng ngày càng có nhiều nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh vực đã chuyển sang sử dụng R để phân tích dữ liệu khoa học. Trên toàn cầu, đã có một mạng lưới hơn hàng 4 triệu người sử dụng R, và con số này đang tăng rất nhanh. Có thể nói trong những năm sắp tới, vai trò của các phần mềm thống kê thương mại sẽ không còn lớn như trong thời gian qua nữa. Vậy R là gì? Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí, tính toán ma trận, đến các phân tích thống kê phức tạp. Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển thành các phần mềm chuyên môn cho một vấn đề tính toán cá biệt. Vì thế, những ai làm nghiên cứu khoa học, nhất là ở các nước có nền kinh tế còn khó khăn như nước ta thì việc ứng dụng R cho phân tích thống kê và vẽ đồ thị là rất hữu ích và thiết thực. Phân tích chuỗi thời gian và dự báo là phương pháp phân tích và xửsố liệu của chuỗi quan sát ban đầu nhằm dự báo được các giá trị tương lai của chuỗi quan sát. Trên cơ sở đó cùng với sự chỉ bảo định hướng của Thầy giáo TS. Nguyễn Trung Hòa tác giả đã chọn đề tài “Khai thác phần mềm R để xửsố liệu chuỗi thời gian thông qua hình ARIMAđể nghiên cứu. Nhiệm vụ chính của chúng tôi là tìm hiểu về phần mềm R, khai thác ứng dụng nó vào phân tích và xử số liệu. Cụ thể: Ứng dụng R phân tích chuỗi thời gian nhận dạng hình ARIMA ước lượng được các hệ số của quá trình AR và MA, bậc sai phân, đồng thời đưa ra được dự báo cho các giá trị tương lai. Trong luận văn chúng tôi chọn chuỗi số liệu giá vàng SJC thu thập trong 500 ngày bắt đầu từ ngày 10/02/2009 đến ngày 24/06/2010 để thực hành. Nội dung của luận văn bao gồm 2 chương: Chương 1. Các kiến thức chuẩn bị Trong chương này, chúng tôi trình bày về khái niệm chuỗi thời gianquá trình ngẫu nhiên, các công thức tính hàm tự hiệp hương sai; hàm tự tương quan; hàm tự tương quan mẫu; hàm tự tương quan riêng mẫu, về toán tử lùi, toán tử tiến, về khái niệm các quá trình tuyến tính “tự hồi quy; trung bình trượt; 5 tự hồi quy trung bình trượt; hợp nhất tự hồi quy trung bình trượt”, nhận dạng hình, dự báo. Chương 2. Ứng dụng R trong xử hình ARIMA Đây là nội dung chính của luận văn, gồm 3 tiết. Tiết 2.1 chúng tôi giới thiệu về R và trình bày chi tiết cách cài đặt và nhập dữ liệu vào R . Tiết 2.2 trình bày về cách ứng dụng R để tính ACF, PACF của một chuỗi thời gian, phỏng theo một hình ARIMA, sử dụng hàm arima và arima0 để ước lượng chuỗi thời gian một chiều sau đó kiểm tra tính phù hợp của hình và nếu hình phù hợp thì dùng hình đó để dự báo giá trị tiếp theo của chuỗi thời gian. Tiết 2.3 sử dụng các kiến thức ở Tiết 2.2 thực hành với chuỗi số liệu giá vàng. Luận văn này được hoàn thành tại Đại học Vinh dưới sự hướng dẫn khoa học của Thầy giáo TS. Nguyễn Trung Hòa. Tác giả xin bày tỏ lòng biết ơn chân thành và sâu sắc của mình đối với Thầy. Người đã dành cho tác giả nhiều thời gian quý báu, sự quan tâm giúp đỡ, hướng dẫn tận tình cho tác giả hoàn thành luận văn này. Nhân dịp này tác giả cũng xin chân thành gửi lời cảm ơn tới Thầy giáo PGS.TS Nguyễn Văn Quảng, Thầy giáo PGS.TS Trần Xuân Sinh, Thầy giáo PGS.TS Phan Đức Thành cùng các Thầy giáo, Cô giáo trong khoa Toán, khoa Sau đại học đã tham gia giảng dạy giúp đỡ tác giả trong suốt quá trình học tập nâng cao trình độ kiến thức. Cuối cùng tác giả xin cảm ơn gia đình và đồng nghiệp cùng tất cả bạn bè đã ủng hộ, động viên và tạo điều kiện tốt nhất cho tác giả trong suốt quá trình học tập và nghiên cứu. Mặc dù có nhiều cố gắng, song luận văn không thể tránh được những thiếu sót, tác giả rất mong nhận được những ý kiến đóng góp quý báu từ các Thầy giáo, Cô giáo và các bạn để đề tài được hoàn thiện hơn. 6 Vinh, tháng 12 năm 2010 Tác giả Nguyễn Thị Sửu Chương 1 CÁC KIẾN THỨC CHUẨN BỊ 1.1 Đại cương về chuỗi thời gian và dự báo Trước khi đi vào chi tiết tìm hiểu về hình ARIMA, ta sẽ nhắc lại một số khái niệm liên quan đến chuỗi thời gianquá trình ngẫu nhiên. Dù là ta đi vào chi tiết hình gì đi chăng nữa thì các khái niệm cơ bản này vẫn sẽ theo chúng ta trong suốt quá trình nghiên cứu về chuỗi thời gian. 1.1.1 Khái niệm về chuỗi thời gianquá trình ngẫu nhiên 1.1.1.1 Định nghĩa. Quá trình ngẫu nhiên ( )X t là các biến ngẫu nhiên phụ thuộc tham số t T∈ (trong đó T ⊆ ¡ và được giải thích như là thời gian). Đó là hiện tượng mang tính thống kê phát triển theo thời gian, tuân theo những quy luật của lý thuyết xác suất. 1.1.1.2 Định nghĩa. Giả sử T là tập hợp tất cả các số nguyên thuộc một khoảng nào đó ( ) { } , , ; t a b a b X t T⊆ − ∞ ≤ < ≤ +∞ ∈¡ là một dãy các đại lượng ngẫu nhiên được sắp xếp theo thứ tự trên T. Chuỗi thời gian là một dãy { } t x t T∈ (hữu hạn hoặc vô hạn) các giá trị của dãy t X . Nếu thời gian là một đoạn T [ ] ;a b= ⊆ ¡ thì chuỗi thời gian được gọi là liên tục. Nếu thời gian là một tập hợp rời rạc T ⊆ ¢ thì chuỗi thời gian được gọi là rời rạc. Khái niệm chuỗi thời gian có quan hệ trực tiếp đến khái niệm quá trình ngẫu nhiên và các chuỗi thời gian mà ta đang xét chính là thể hiện của một quá trình ngẫu nhiên. Có thể xem chuỗi thời gian là một dãy các điểm trong không gian vô hạn chiều các đại lượng ngẫu nhiên, trên đó đã xác định một độ đo xác suất. Chính 7 vì thế có thể đưa hàng loạt các khái niệm của quá trình ngẫu nhiên vào chuỗi thời gian một cách cụ thể hơn. Để phân biệt ta sẽ sử dụng thuật ngữ quá trình ( )X t để chỉ một dãy các đại lượng ngẫu nhiên mà một thể hiện của nó là chuỗi thời gian t x . Và cũng có thể hiểu rằng, một chuỗi thời gian là một dãy rời rạc các thể hiện của một quá trình, được chỉ số hóa bởi các số nguyên liên tiếp trong những khoảng thời gian cách đều nhau. Nếu tập hợp các thời điểm quan sát là 0 0 0 , , .,t t h t Nh+ + thì chuỗi thời gian được kí hiệu là 0 1 , , ., N x x x và 1N + là độ dài của chuỗi. Nếu T = ¢ thì chuỗi thời gian là dãy vô hạn về cả hai phía 2 1 0 1 2 ., , , , , , .x x x x x − − Nếu T = ¥ thì chuỗi thời gian chính là dãy 0 1 2 , , , .x x x Vì biến ngẫu nhiên thực là ánh xạ đo được từ không gian xác suất ( , Ω F,Π ) vào không gian đo được B(Ρ) nên quá trình ( )X t là hàm của cặp ( , )t ω đo được theo ω với mỗi .t T∈ Ví dụ.Các báo cáo tài chính mà ta thấy hằng ngày trên báo chí, tivi hay Internet về các chỉ số chứng khoán, tỷ giá tiền tệ, chỉ số tăng cường hay chỉ số tiêu dùng…đều là những thể hiện rất thực tế của chuỗi thời gian. Trong giới hạn của luận văn này ta chỉ xét cho trường hợp T là tập các số nguyên và chúng ta sẽ sử dụng thuật ngữ chuỗi thời gian để đồng thời chỉ dữ liệu cũng như quá trình có dữ liệu đó là một thể hiện. 1.1.2 Mục đích của việc phân tích chuỗi thời gian Mục đích của việc phân tích chuỗi thời gian là nghiên cứu các kỹ thuật để tách mẫu hình cơ bản tiềm ẩn trong các số liệu đang nghiên cứu và sử dụng nó như là cơ sở để dự báo cho tương lai. Các kỹ thuật thường dùng: 8 +) Kỹ thuật làm trơn số liệu phù hợp với kiểu dự báo ngắn hạn. +) Kỹ thuật dự báo Box-Jenkins dùng để dự báo chuỗi thời gian có độ phức tạp cao hơn, yêu cầu phải có nhiều số liệu. Trên thực tế đòi hỏi ít nhất là 50 số liệuthông thường tốt nhất là nên có khoảng 100 số liệu mới có thể nhận dạng chính xác hình. Kỹ thuật dự báo Box-Jenkins được đề xuất bởi George Box và Gwin-lym Jenkins vào năm 1976. 1.1.2.1 Dự báo Dự báo là ước lượng các giá trị tương lai , 1 t h x h + ≥ của một biến ngẫu nhiên dựa trên các quan sát các giá trị quá khứ của nó 1 2 , , ., . t x x x Dự báo của t h x + thường được kí hiệu là µ ( ) t x h . 1.1.2.2 Tách các xu thế Trong các chu kì tăng trưởng, nhiều chuỗi thời gian có sự tiến triển trung hạn tương tự nhau. Sự tiến triển trung hạn này được gọi là các xu thế. Như vậy nếu tồn tại một xu thế trong chuỗi thời gian thì ta nên tách nó ra để dễ dàng cho việc xửsố liệu còn lại. 1.1.2.3 Hiệu chỉnh theo mùa Chuỗi số nhận được sau khi loại bỏ các xu thế theo mùa trong chuỗi thời gian gọi là “chuỗi được hiệu chỉnh theo mùa”. 1.1.2.4 Phát hiện các thời điểm đột biến Phát hiện các thời điểm đột biến là phát hiện ra giá trị quan sát có sự thay đổi mạnh mẽ về xu thế cũng như mức độ tại những thời điểm nào đó. 1.1.2.5 Phương pháp chung để hình hóa chuỗi thời gian • Vẽ các số liệu của chuỗi thời gian lên mặt phẳng tọa độ và xét các đặc trưng chính của chúng chú ý đến “xu thế, thành phần theo mùa, thời điểm thay đổi dáng điệu lớn, những quan sát dị thường”. • Khử các xu thế và thành phần theo mùa. 9 - Ước lượng các xu thế hay các biểu diễn theo mùa nhờ phương pháp bình phương tối thiểu, sau đó trừ các giá trị của hàm vừa ước lượng vào các số liệu. - Sai phân số liệu tức là xét chuỗi thời gian mới { } t Y từ chuỗi ban đầu nhờ toán tử sai phân mục đích là để nhận được chuỗi ở trạng thái dừng. 1.2 Quá trình dừng và phân tích hệ số tự tương quan 1.2.1 Khái niệm về quá trình dừng 1.2.1.1 Định nghĩa. (Hàm trung bình, hàm tự hiệp phương sai) Giả sử { } t X là chuỗi thời gian. Ε 2 t X < ∞ . Khi đó a) Hàm số ( ) X t µ = Ε t X với t T∀ ∈ gọi là hàm trung bình của { } t X . b) Hàm 2 biến ( , )( , ) cov X t s X Xt s γ = = Ε ( ) ( ) ( ) ( ) t X s X X t X s µ µ − − với ,s t T∈ được gọi là hàm tự hiệp phương sai của { } t X 1.2.1.2 Định nghĩa. Chuỗi thời gian { } , t X t ∈¢ được gọi là dừng nếu thỏa mãn: +) Ε 2 t X < ∞ , t∀ ∈ ¢ . +) Ε t X m= , t∀ ∈ ¢ . +) ( , ) ( , ) X X t s t r s r γ γ = + + , , ,t s r∀ ∈ ¢ . Nhận xét. Nếu { } , t X t ∈¢ dừng thì ( , ) ( ,0) X X t s t s γ γ = − và chính vì vậy với một quá trình dừng thì có thể định nghĩa lại hàm hiệp phương sai bằng cách chỉ định nghĩa thông qua một hàm một biến. ( ) ( ,0) ( , ), , X X t h t h h Cov X X t h γ γ + = = ∀ ∈¢ Hàm số (.) X γ được gọi là hàm tự hiệp phương sai của { } t X và ( ) X h γ là giá trị của nó tại độ “trễ” h . 1.2.1.3 Định nghĩa. Hàm tự tương quan của { } t X , được định nghĩa tại biến trễ h là: ( ) ( ) ( , ), , (0) X X t h t X h h Corr X X t h γ ρ γ + = = ∀ ∈¢ . 10 Chú ý. Trong thực tế, ta chỉ quan sát được một thể hiện hữu hạn các giá trị của X { } 1, 2, ., t x t n= = của một chuỗi thời gian dừng nên về nguyên tắc ta không thể biết chính xác được các hàm tự hiệp phương sai của chuỗi thời gian đó, muốn ước lượng nó ta đưa vào khái niệm hàm tự hiệp phương sai mẫu của thể hiện X . 1.2.1.4 Định nghĩa. Quá trình ngẫu nhiên { } t X được gọi là dừng theo nghĩa “chặt” nếu như 1 2 . k t t t∀ < < < và 0h > ta có ( ) 1 2 , , ., k t t t X X X có cùng phân phối với ( ) 1 2 , , ., . k t h t h t h X X X + + + Định nghĩa này tương đương với việc đòi hỏi rằng các quy luật xác suất của chuỗi { } t X và của chuỗi { } t h X + là như nhau với mọi h . Quá trình dừng đóng vai trò bản chất trong việc phân tích chuỗi thời gian và dĩ nhiên trong thực tế, các chuỗi thời gian quan sát thường chưa phải là một chuỗi dừng. Vì vậy, khi gặp những dữ liệu như thế, phải có những xử lý thích hợp để biến chuỗi thời gian nguyên thủy thành một chuỗi mới phù hợp với điều kiện của tính dừng. Công cụ đầu tiên nghiên cứu chuỗi thời gian là hàm tự hiệp phương sai. 1.2.2 Hàm tự hiệp phương sai của một quá trình dừng 1.2.2.1 Mệnh đề. (Các tính chất cấp) Nếu (.) γ là hàm tự hiệp phương sai của một quá trình dừng { } , t X t ∈ ¢ thì: (0) 0 ( ) (0),h h γ γ γ ≥ ≤ ∀ ∈ ¢ Và (.) γ là hàm chẵn nghĩa là ( ) ( ),h h h γ γ = − ∀ ∈ ¢ . 1.2.2.2 Định nghĩa. (Tính xác định không âm) . Khai thác phần mềm R để xử lý số liệu chuỗi thời gian thông qua mô hình ARIMA ” để nghiên cứu. Nhiệm vụ chính của chúng tôi là tìm hiểu về phần mềm R, . TO TRNG I HC VINH ------------------------ Nguyễn thị sửu Khai thác phần mềm R để xử lý số liệu chuỗi thời gian thông qua mô hình arima Chuyờn ngnh: Lí

Ngày đăng: 19/12/2013, 10:40

Hình ảnh liên quan

model Một bảng danh sỏch với thành phần ar và/ hoặc ma tương ứng - Khai thác phần mềm r để xử lí số liệu chuỗi thời gian thông qua mô hình arima

model.

Một bảng danh sỏch với thành phần ar và/ hoặc ma tương ứng Xem tại trang 60 của tài liệu.
BẢNG SỐ LIỆU GIÁ VÀNG - Khai thác phần mềm r để xử lí số liệu chuỗi thời gian thông qua mô hình arima
BẢNG SỐ LIỆU GIÁ VÀNG Xem tại trang 73 của tài liệu.
Trờn đõy là bảng số liệu giỏ vàng thống kờ trong 552 ngày bắt đầu từ ngày 16/01/2009 và kết thỳc ngày 21/07/2010 - Khai thác phần mềm r để xử lí số liệu chuỗi thời gian thông qua mô hình arima

r.

ờn đõy là bảng số liệu giỏ vàng thống kờ trong 552 ngày bắt đầu từ ngày 16/01/2009 và kết thỳc ngày 21/07/2010 Xem tại trang 79 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan