Các kĩ thuật khai phá dữ liệu được áp dụng nhằm dự báo sự lên xuống của thị trường là một gợi ý giúp các nhà đầu tư có thể ra quyết định giao dịch
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Thiệp MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU QUAN HỆ TRONG TÀI CHÍNH VÀ CHỨNG KHỐN (MƠ HÌNH ARIMA) KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành : Cơng nghệ thơng tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Ngọc Thiệp MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU QUAN HỆ TRONG TÀI CHÍNH VÀ CHỨNG KHỐN (MƠ HÌNH ARIMA) KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành : Cơng nghệ thơng tin Cán hướng dẫn : PGS-TS Hà Quang Thụy Cán đồng hướng dẫn : Th.s Nguyễn Thị Oanh HÀ NỘI - 2010 LỜI CẢM ƠN Lời đầu tiên, em xin bày tỏ long biết ơn tới thầy, cô giáo trường Đại học Công Nghệ - Đại học Quốc Gia Hà nội Các thầy cô dạy bảo, dẫn em tạo điều kiện tốt cho chúng em học tập suốt trình học đại học đặc biệt thời gian làm khóa luận tốt nghiệp Em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo PGS.TS Hà Quang Thụy cô giáo ThS Trần Thị Oanh, anh chị phịng LAB 102 hướng dẫn em tận tình năm học vừa qua Tôi xin cảm ơn người bạn mình, bạn ln bên tơi, giúp đỡ cho tơi ý kiến đóng góp quý báu học tập sống Cuối xin gửi tới bố mẹ tồn thể gia đình lịng biết ơn tình cảm yêu thương Hà Nội, ngày 10/05/2010 Nguyễn Ngọc Thiệp MỞ ĐẦU Bài tốn dự báo tài ngày nhiều người quan tâm bối cảnh phát triển kinh tế xã hội Đầu tư vào thị trường chứng khốn địi hỏi nhiều kinh nghiệm hiểu biết nhà đầu tư Các kĩ thuật khai phá liệu áp dụng nhằm dự báo lên xuống thị trường gợi ý giúp nhà đầu tư định giao dịch Mơ hình ARIMA xây dựng với chức nhận dạng mơ hình, ước lượng tham số đưa kết dự báo dựa tham số ước lượng lựa chọn cách tối ưu Khóa luận nghiên cứu, thi hành mơ hình ARIMA (từ nghiên cứu BoxJenkins) ứng dụng vào toán khai phá liệu chuỗi thời gian dự báo tài chính, chứng khốn Khóa luận thực nghiệm liệu vnIndex thu kết bước đầu Với nội dung trình bày lý thuyết mơ hình ARIMA cho liệu thời gian thực (time series) cách áp dụng vào toán thực tế - dự báo lên xuống thị trường chứng khốn Khóa luận tổ chức theo cấu trúc sau : Chương GIỚI THIỆU CHUNG giới thiệu sơ lược khai phá liệu nói chung toán dự báo quan tâm khai phá liệu Bài toán dự báo áp dụng khia cạnh sử dụng mơ hình ARIMA cho chuỗi thời gian thực Chương MƠ HÌNH ARIMA VÀ PHẦN MỀM EVIEW trình bày số nội sung sở lý thuyết mơ hình ARIMA, công cụ áp dụng vào mô hình mà khóa luận đề cập : Hàm tự tương quan ACF, hàm tự tương quan riêng phần PACF…Các bước phát triển mơ hình : xác định mơ hình, ước lượng tham sổ, kiểm định độ xác dự báo Mơ hình ARIMA q tình thử sai : kiểm định khơng thỏa mãn, phải xác định lại mơ hình Tiếp đến giới thiệu qua phần mềm Eviews 5.1 cho trình thi hành Chương ÁP DỤNG MƠ HÌNH ARIMA VÀO BÀI TỐN TÀI CHÍNH, CHỨNG KHỐN trình bày thực nghiệm mơ hình ARIMA cho liệu tài chính, chứng khốn Các bước q trình thi hành chương trình với phần mềm Eviews 5.1, đưa kết đánh giá với thực tế Phần Kết luận tổng kết két khóa luận phương hướng nghiên cứu MỤC LỤC MỞ ĐẦU Chương GIỚI THIỆU CHUNG 1.2.1 Khái niệm chuối thời gian thực 10 1.2.2 Thành phần xu hướng dài hạn 10 1.2.3 Thành phần mùa 11 1.2.4 Thành phần chu kỳ 11 1.2.5 Thành phần bất thường 12 CHƯƠNG MƠ HÌNH ARIMA VÀ PHẦN MỀM EVIEWS 13 2.1.1 Hàm tự tương quan ACF 13 2.1.2 Hàm tự tương quan phần PACF 14 2.1.3 Mơ hình AR(p) 17 2.1.4 Mơ hình MA(q) 17 2.1.5 Sai phân I(d) 18 2.1.6 Mơ hình ARIMA 18 2.1.7.Các bước phát triển mơ hình ARIMA 22 2.2.1 Giới thiệu Eviews 22 2.2.2 Áp dụng Eviews thi hành bước mơ hình ARIMA 27 Chương ÁP DỤNG MƠ HÌNH ARIMA VÀO BÀI TỐN TÀI CHÍNH, CHỨNG KHỐN 30 3.1.1 Dữ liệu tài 30 3.1.2 Mơ hình ARIMA cho tốn dự báo tài 30 3.1.3 Thiết kế mơ hình ARIMA cho liệu 31 3.2.1 Môi trường thực nghiêm 33 3.2.2.Dữ liệu 33 3.2.3.Kiểm tra tính dừng chuỗi chứng khoán AAM 34 3.2.4.Nhận dạng mơ hình 35 3.2.5.Ước lượng kiểm định với mơ hình ARIMA 37 3.2.6Thực dự báo 38 KẾT LUẬN 41 Chương GIỚI THIỆU CHUNG 1.1 Bài toán dự báo Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích lũy nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10% ) ln phân tích, số cịn lại họ khơng biết phải làm làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Từ thủa xa xưa, nhà tiên tri giữ vị trí quan trọng cộng đồng Khi văn minh nhân loại phát triển làm gia tăng mối quan hệ phức tạp giai đoạn sống, người có nhu cầu quan tâm đến tương lai họ Như trình bày [2, 3], kỹ thuật dự báo hình thành từ kỉ thứ 19, nhiên dự báo có ảnh hưởng mạnh mẽ công nghệ thông tin phát triển chất mơ phương pháp dự báo cần thiết hỗ trợ máy tính Đến năm 1950, lý thuyết dự báo với phương pháp luận xây dựng phát triển có hệ thống Dự báo nhu cầu thiếu cho hoạt động người bối cảnh bùng nổ thông tin Dự báo cung cấp sở cần thiết cho hoạch định, nói khơng có khoa học dự báo dự định tương lai người vạch khơng có thuyết phục đáng kể Trong cơng tác phân tích dự báo, vấn đề quan trọng hàng đầu cần đặt việc năm bắt tối đa thông tin lĩnh vực dự báo Thơng tin hiểu cách cụ thể gồm : (1) số liệu khứ lĩnh vực dự báo, (2) diễn biến tình hình trạng động thái phát triển lĩnh vực dự báo (3) đánh giá cách đầy đủ nhân tố ảnh hưởng định lượng lẫn định tính Căn vào nội dung phương pháp mục đích dự báo, người ta chia dự báo thành hai loại: Phương pháp định tính phương pháp định lượng Phương pháp định tính thường phụ thuộc nhiều vào kinh nghiệm hay nhiều chuyên gia lĩnh vực liên quan Phương pháp thường áp dụng, kết dự báo chuyên gian lĩnh vực liên quan nhận xét, đánh giá đưa kết luận cuối Phương pháp định lượng sử dụng liệu khứ theo thời gian, dựa liệu lịch sử để phát chiều hướng vận động đối tượng phù hợp với mơ hình tốn học đồng thời sử dụng mơ hình làm mơ hình ước lượng Tiếp cận định lượng dựa giả định giá trị tương lai biến số dự báo phụ thuộc vào xu vận động đối tượng khứ Phương pháp dự báo theo chuỗi thời gian phương pháp định lượng Phương pháp chuỗi thời gian dựa việc phân tích chuỗi quan sát biến theo biến số độc lập thời gian Giả định chủ yếu biến số dự báo giữ nguyên chiều hướng phát triển xảy khứ Khóa luận tập trung nghiên cứu mơ hình ARIMA để thực phân tích liệu chứng khốn hướng tới việc dự báo chứng khốn Mơ hình ARIMA (AutoRegressive Integrate Moving Average) Box-Jenkins đề nghị năm 1976 [6, 11, 13], dựa mơ hình tự hồi quy AR mơ hình trung bình động MA ARIMA mơ hình dự báo định lượng theo thời gian, giá trị tương lai biến số dự báo phụ thuộc vào xu vận động đối tượng q khứ Mơ hình ARIMA phân tích tính tương quan liệu quan sát để đưa mô hình dự báo thơng qua giai đoạn nhận dạng mơ hình, ước lượng tham số từ liệu quan sát kiểm tra tham số ước lượng để tìm mơ hình thích hợp Mơ hình kết trình gồm tham số thể mức độ tương quan liệu, chọn để dự báo giá trị tương lai Giới hạn độ tin cậy dự báo tính dựa phương sai sai số dự báo khoán nói riêng, liệu thường biểu diễn dạng chuỗi thời gian Trong dạng liệu phân tích liệu chuỗi thời gian ln thuộc tốp đầu tính phổ biến Các bảng thống kê thăm dị kiểu liệu phân tích năm 2005-2008 (Hình 1) minh chứng điều h t h t / t Hình Chuỗi thời gian kiểu liệu phân tích phổ biến 1.2.1 Khái niệm chuối thời gian thực Theo [13, 16], liệu thời gian thực hay chuỗi thời gian chuỗi giá trị đại lượng ghi nhận thời gian Ví dụ : Số lượng hàng hóa bán 12 tháng năm 2009 công ty Các giá trị chuỗi thời gian đại lượng X kí hiệu X , X , X ,…, X t ,… , X n với X giá trị X thời điểm t Các thành phần liệu chuỗi thời gian thực Các nhà thống kê thường chia chuỗi theo thời gian thành thành phần: Thành phần xu hướng dài hạn (long –term trend component) Thành phần mùa (seasional component) Thành phần chu kỳ (cyclical component) Thành phần bất thường (irregular component) 1.2.2 Thành phần xu hướng dài hạn Thành phần dùng để xu hướng tăng hay giảm đại lượng X thời gian dài Về mặt đồ thị thành phần biểu diễn đường thẳng hay đường cong trơn Hình 1a Xu hướng tăng theo thời gian [16] BIC nhỏ (Schwarz criterion xác định : n.Log(SEE) + K.Log(n))[] SEE nhỏ [19] R lớn : R-squared = (TSS-RSS)/TSS [19] , 3.1.3.6 Dự báo ngắn hạn mơ hình Dựa vào mơ hình chọn tốt nhất, với liệu khứ tới thời điểm t, ta sử dụng để dự báo cho thời điểm t+1 3.2 Áp dụng Ứng dụng mơ hình ARIMA vào tốn dự báo chứng khốn của Cơng ty cổ phần Thủy sản Mekong(Mã CK : AAM) Sử dụng Phần mềm EVIEWS 5.1 để dự đốn (Ứng dụng mơ hình ARIMA cho tốn dự đốn chuỗi thời gian) Quy trình thực nghiệm tiến hành mô tả 2.2.2 3.2.1 Môi trường thực nghiêm Môi trường thực nghiệm Eview 5.1 chạy hệ điều hành Window XP SP2, máy tính tốc độ 2*2.0 GHz, nhớ 1GB RAM 3.2.2 Dữ liệu Chọn loại liệu dự báo: Dữ liệu lấy từ http://www.cophieu68.com/datametastock.php Trong ta chọn Cổ phiếu có mã MMA để dự đốn, sử dụng riêng Giá đóng cửa Dữ liệu đầu vào file.CSV or dat lấy từ website xuống Dữ liệu có dạng sau : M A A A A A A … Bảng Dữ liệu đầu vào Dữ liệu cho trình dự báo ngày 24/9/2009 đến ngày 14/5/2010 Ở khóa luận tập trung vào GiaDongCua, trình dự báo giúp ta xác định Giá đóng cửa ngày sau Hình 15 Chọn GIADONGCUA làm mục tiêu dự báo 3.2.3 Kiểm tra tính dừng chuỗi chứng khốn AAM Hình 16 Biểu đồ đóng cửa 3.2.4 Nhận dạng mơ hình Xác định tham số p, d, q ARIMA Hình 17 xác định d = 0,1,2 ? Hình 18 Biểu đồ SAC SPAC chuỗi GIATHAMCHIEU Nhìn vào hình 3.7, ta thấy biểu đồ hàm tự tương quan ACF giảm dần cách từ từ Chuỗi chưa dừng, ta phải sai phân lần Kiểm tra đồ thị Correlogram chuỗi sai phân bậc Hình 19 Biểu đồ SPAC SAC ứng với d=1 sau độ trễ q=1, PAC giảm nhanh sau độ trễ:p=1 3.2.5 Ước lượng kiểm định với mơ hình ARIMA Xây dựng mơ hình ARIMA(1,1,1) Chọn Quick/Estimate Equation, sau gõ"dgiathamchieu c ar(1) ma(1)", Hình 20 Ước lượng mơ hình ARIMA(1,1,1) Click OK, kết : Hình 21 Kết mơ hình ARIMA(1,1,1) Chọn “View/Residual tests/Correlogram-Q- Statistic” Hình 22 : Kiểm tra phần dư có nhiễu trắng Như vậy, sai số mơ hình ARIMA(1,1,1) chuỗi dừng có phân phối chuẩn Sai số nhiễu trắng Ta có bảng xác định tiêu chuẩn đánh giá sau thử với vài mơ hình khác : A 0 0 B T H Tại Forecast sample : ta chỉnh ngày dự báo : 14/5/2010 – 20/5/2010 Kết : Mơ hình ARIMA BIC ARIMA(1,0,0) 4.24 ARIMA(2,1,1) 4.26 ARIMA(1,1,1) Hình 24 Kết bảng thống kê dự báo Ta có kết dự báo ngày 14/5/2010 – 20/5/2010 Đánh giá -0.55826 -0.30068 0.36322 -0.3675 Bảng Đánh giá dự báo Qua thực nghiệm dự báo ngày từ ngày 17/05 – 20/05/2010, nhận thấy kết đưa xác so với giá thực tế mã chứng khoán AAM Tuy số lượng ngày dự báo thử nghiệm chưa nhiều song nhận định mơ hình ARIMA(1,1,1) phù hợp để dự báo mã CK AAM Tóm tắt chương Ngày Chương giới thiệu môi trường thực nghiệm phần mềm, liệu đầu vào Giá thực tế giá chứng khốn cơng ty với mã AAM (chọn GiaDongCua làm biến dự báo) Khóa luận tiến hành bước trình thi hành dự báo twf liệu nêu Giá dự báo 17/05/2010 33.5 32.94174 chương Đánh giá sơ thành công mơ hình chọn : Mơ hình chọn dự báo xác KẾT LUẬN Qua thời gian nghiên cứu để thực khóa luận tốt nghiệp, em nắm quy trình xây dựng mơ hình ARIMA cho liệu tài áp dụng mơ hình vào tốn thực tế - tốn dự báo tài Những kết mà khóa luận đạt tổng kết sau : Nghiên cứu số nội dung lý thuyết chuỗi thời gian, mơ hình ARIMA, cơng cụ Eviews để áp dụng Eviews thi hành mơ hình ARIMA dự báo tài chính, chứng khốn Nắm quy trình dùng phần mềm Eviews thi hành mơ hình ARIMA cho liệu thời gian thực (với bước bản) tính tốn giá trị dự báo liệu tài chính, chứng khốn Thực quy trình sử dụng phần mềm Eviews thi hành mơ hình ARIMA cho liệu mã cổ phiếu mã CK AAM để dự báo ngắn hạn giá cổ phiếu Bên cạnh kết đạt được, cịn có vấn đề mà thời điểm này, khóa luận chưa giải được: Áp dụng với chuỗi liệu có tính xu Thuật toán để ước lượng đánh giá cịn nhiều hạn chế Đây mơ hình phân tích kĩ thuật, chưa thể dự báo cách sách, phụ thuộc vào biến – Thời gian, trình dự báo phụ thuộc vào nhiều yếu tố Những nội dung cần nghiên cứu phát triển để tiếp tục nội dung khóa luận: Xây dựng mơ hình ARIMA đa biến : số giá chứng khoán phụ thuộc vào nhiều biến khác Giải yếu tố xu thể cho chuỗi liệu TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1].Đặng Thị Ánh Tuyết Tìm hiểu ứng dụng số thuật toán khai phá liệu time series áp dụng tốn dự báo tài Khóa luận tốt nghiệp đại học hệ quy, khoa Cơng nghệ thông tin – Đại học Công Nghệ - Đại học Quốc Gia Hà nội, 2009 [2] Nguyễn Thị Hiền Nhã Sử dụng mơ hình ARIMA cho việc giải toán dự báo tỷ giả Luận văn thạc sĩ tin học, Đại học Khoa Học Tự Nhiên – Đại Học Quốc Gia TP.HCM, 2002 [3] Nguyễn Thị Thanh Huyền, Nguyễn Văn Huân, Vũ Xuân Nam Phân tích dự báo kinh tế, Đại Học Thái Nguyên, http://ictu.edu.vn/LinkClick.aspx?fileticket= EKrjb8h5MaQ%3D&tabid=212&mid=910 [4] Damodar N Gujarati Kinh tế lượng Chương 21, 22 [5] Phùng Thanh Bình Hướng dẫn sử dụng Eviews 5.1 Tài liệu tham khảo tiếng Anh [6] Boris Kovalerchuk and Evgenii Vityaev (2001) Data Mining in Finance: Advances in Relational and Hybrid Methods, Kluwer Academic Publishers, Boston, Dordrecht - London, 2001 [7] Jamie Monogan ARIMA Estimation adapting Maximum Likehood to the special Issues of Time Series [8] Cao Hao Thi, Pham Phu, Pham Ngoc Thuy Application of ARIMA model for testing “serial independence” of stock prices at the HSEC, The Joint 14th Annual PBFEA and 2006 Annual FeAT Conference, Taipei, Taiwan, July, 2006 [9] Robert Yaffee and Monnie McGee Time series Analysis and forecasting [10] Box G E P & Jenkins G M Time series analysis : Forecasting and control San Francisco, CA: Holden-day, 1970 [11] Roy Batchelor Box-Jenkins Analysis Cass Business School, City of Lodon [12] http://en.wikipedia.org/wiki/Time_series Time series [13] Ramasubramanian V.I.A.S.R.I Time series analysis, Library Avenue, New Delhi110 012 [14] http://www.pstat.ucsb.edu/faculty/feldman/174-03/lectures/l13.pdf Sample PACF; Durbin - Levinson algorithm [15] http://adt.curtin.edu.au/theses/available/adtWCU20030818.095457/unrestricted/07Chapter6.pdf Chapter six Univariate ARIMA models [16] Ross Ihaka Time Series Analysis, Lecture Notes for 475.726, Statistics Department, University of Auckland, 2005 [17] http://www.barigozzi.eu/ARIMA.pdf ARIMA estimation theory and applications [18] http://www.hkbu.edu.hk/~billhung/econ3600/application/app05/app05.html ARIMA models [19] http://www.stata.com/statalist/archive/2006-06/msg00554.html R-Squared with ARIMA [20] http://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average: Autoregressive integrated moving average ... HỌC CÔNG NGHỆ Nguyễn Ngọc Thiệp MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU QUAN HỆ TRONG TÀI CHÍNH VÀ CHỨNG KHỐN (MƠ HÌNH ARIMA) KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành : Cơng nghệ thơng tin... thơng số mơ hình kiểm định mơ hình phù hợp Có nhiều phương pháp khác để ước lượng Ở đây, khóa luận tập trung vào : Khi chọn mô hình, hệ số mơ hình ước lượng theo phương pháp tối thiểu tổng bình phương. .. báo thành hai loại: Phương pháp định tính phương pháp định lượng Phương pháp định tính thường phụ thuộc nhiều vào kinh nghiệm hay nhiều chuyên gia lĩnh vực liên quan Phương pháp thường áp dụng,