Kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng trong dự báo chứng khoán (tt)

26 47 0
Kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng trong dự báo chứng khoán (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Vũ Thị Gương KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN ÁP DỤNG TRONG DỰ BÁO CHỨNG KHOÁN Chuyên ngành: Truyền liệu Mạng máy tính Mã số: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS NGUYỄN ĐỨC DŨNG Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Ngày nay, xã hội ngày phát triển lượng thông tin tăng lên với tốc độ bùng nổ Lượng liệu khổng lồ nguồn tài nguyên vô giá biết cách phát khai thác thơng tin hữu ích có Như vấn đề đặt với liệu việc lưu trữ khai thác chúng Các phương pháp khai thác liệu truyền thống ngày không đáp ứng nhu cầu thực tế Một khuynh hướng kỹ thuật đời Kỹ thuật Khai phá liệu khám phá tri thức (Knownledge Discovery and Data mining - KDD) Công nghệ khai phá liệu đời cho phép ta khai thác tri thức hữu dụng việc trích xuất thơng tin có mối quan hệ mối tương quan định từ kho liệu lớn (cực lớn) mà bình thường khơng thể nhận diện từ giải tốn tìm kiếm, dự báo xu thế, hành vi tương lai, nhiều tính thơng minh khác Ngày nay, công nghệ data mining ứng dụng rộng rãi hầu hết lĩnh vực: phân tích liệu, dự báo, … Một vấn đề quan trọng lĩnh vực tài đại tìm cách thức hiệu để tóm liệu thị khốn để trường chứng kiếm tắt hình dung cung cấp cho cá nhân tổ chức thơng tin hữu ích hành vi thị trường hỗ trợ việc định đầu tư Số lượng lớn liệu có giá trị tạo thị trường chứng khoán thu hút nhà nghiên cứu khám phá vấn đề cách sử dụng phương pháp khác Đối với Việt Nam, thị trường chứng khốn cịn mẻ, song biết tiềm lợi ích đáng kể Việc khai thác thị trường đem lại lợi ích kinh tế cao Dự báo thị trường chứng khốn cơng việc quan trọng để khai thác lĩnh vực Chính chọn đề tài “Kỹ thuật khai phá liệu chuỗi thời gian áp dụng dự báo chứng khoán” để làm luận văn tốt nghiệp với mục đích hiểu cơng nghệ data mining ứng dụng to lớn việc dự báo, dự đoán xu hướng tương lai, đặc biệt lĩnh vực thị trường tài chính, chứng khốn từ có định đầu tư, giao dịch phù hợp Mục đích nghiên cứu - Nghiên cứu khái niệm, vai trò, ứng dụng kỹ thuật khai phá liệu - Tìm hiểu kỹ thuật phân tích liệu chuỗi thời gian khai phá liệu áp dụng vào tốn dự báo nói chung dự báo thị trường chứng khốn nói riêng - Tìm hiểu mơ hình ARIMA (Auto Regressive Integrate Moving Average) với chức nhận dạng mơ hình, ước lượng tham số đưa kết dự báo dựa tham số ước lượng lựa chọn cách tối ưu Thực nghiệm mơ hình ARIMA liệu thời gian thực, áp dụng với liệu chứng khoán hướng tới việc dự báo chứng khoán Đối tượng phạm vi nghiên cứu Nghiên cứu kỹ thuật khai phá liệu, tập trung vào kỹ thuật phân tích chuỗi theo thời gian áp dụng vào toán dự báo lên xuống thị trường chứng khốn Mơ hình ARIMA thực nghiệm liệu VNIndex, ABT, ACB Phương pháp nghiên cứu Nghiên cứu, tìm hiểu lý thuyết kỹ thuật khai phá liệu Tìm hiểu, phân tích liệu tài chính, chứng khốn Tìm hiểu sở lý thuyết mơ hình ARIMA cho liệu thời gian thực (time series) cách áp dụng vào toán thực tế - dự báo lên xuống thị trường chứng khốn Xây dựng thi hành mơ hình ARIMA ứng dụng vào toán khai phá liệu chuỗi thời gian dự báo tài chính, chứng khốn Sử dụng phần mềm Eviews để thi hành chương trình Đánh giá kết dự báo Kết cấu luận văn Nội dung luận văn chia làm chương: Chương 1: Tổng quan khai phá liệu giới thiệu tổng quan trình phát tri thức khai phá liệu, kỹ thuật khai phá liệu ứng dụng khai phá liệu Chương 2: Kỹ thuật khai phá liệu chuỗi thời gian giới thiệu liệu chuỗi thời gian thực toán dự báo quan tâm khai phá liệu Giới thiệu sở lý thuyết mơ hình ARIMA bước phát triển mơ hình Bài tốn dự báo áp dụng khía cạnh sử dụng mơ hình ARIMA cho chuỗi thời gian thực Tiếp đến giới thiệu phần mềm Eviews cho trình thi hành Chương 3: Áp dụng mơ hình ARIMA cho tốn dự báo chứng khốn trình bày thực nghiệm tốn dự báo với chuỗi liệu tài chính, chứng khốn mơ hình ARIMA Thi hành bước mơ hình với phần mềm Eviews 6, đưa kết đánh giá với thực tế Cuối Phần kết luận hướng phát triển đề tài Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.Giới thiệu 1.1.1 Khái niệm Khai phá liệu (Data Mining) Khám phá tri thức (Knownledge Discovery - KD) Data Mining trình trích xuất thơng tin có mối quan hệ có mối tương quan định từ kho liệu lớn (cực lớn) nhằm mục đích dự đốn xu thế, hành vi tương lai, tìm kiếm tập thơng tin hữu ích mà bình thường khơng thể nhận diện 1.1.2.Q trình phát tri thức CSDL Hình 1.1 Quá trình phát tri thức 1.2 Các kỹ thuật khai phá liệu 1.2.1 Cây định 1.2.2 Mạng nơron 1.2.3 Phân cụm 1.2.4 Luật kết hợp 1.2.5 Factor analysis (Phân tích nhân tố) 1.2.6 Chuỗi thời gian 1.3 Ứng dụng khai phá liệu 1.3.1 Dạng liệu khai phá Data Mining ứng dụng rộng rãi nên làm việc với nhiều kiểu liệu khác nhau, số dạng liệu điển hình như: CSDL quan hệ, CSDL đa chiều (multidimentional structures, data warehouses), CSDL dạng giao dịch, CSDL quan hệ-hướng đối tượng, liệu không gian thời gian, Dữ liệu chuỗi thời gian, CSDL đa phương tiện, liệu Text Web 1.3.2 Ứng dụng khai phá liệu Khai phá liệu lĩnh vực quan tâm ứng dụng rộng rãi Một số ứng dụng điển hình khai phá liệu liệt kê: (i) phân tích liệu hỗ trợ định; (ii) điều trị y học; (iii) phát văn bản; (iv) tin sinh học; (v) tài thị trường chứng khoán; (vi) bảo hiểm 1.3.3.Ứng dụng kỹ thuật KPDL thị trường chứng khoán Ứng dụng điển hình khai phá liệu thị trường tài chính, chứng khốn là: phân tích tình hình tài dự báo giá loại cổ phiếu thị trường chứng khốn từ mang lại cho nhà đầu tư nhiều hội để chọn lựa loại cổ phiếu cần đầu tư, có hình thức quy mơ giao dịch phù hợp nhằm đạt giá trị gia tăng hiệu 1.3.3.1 Ứng dụng định 1.3.3.2 Ứng dụng mạng nơron 1.3.3.3 Ứng dụng phân cụm 1.3.3.4 Ứng dụng luật kết hợp 1.3.3.5 Ứng dụng phân tích nhân tố 1.3.3.6 Ứng dụng time series 10 nói chung tốn dự báo tài chứng khốn nói riêng, liệu thường biểu diễn dạng chuỗi thời gian Trong dạng liệu phân tích liệu chuỗi thời gian ln thuộc tốp đầu tính phổ biến 2.2.1 Chuỗi thời gian thực 2.2.2 Thành phần xu hướng dài hạn 2.2.3 Thành phần mùa 2.2.4 Thành phần chu kỳ 2.2.5 Thành phần bất thường 2.3 Mơ hình ARIMA cho liệu chuỗi thời gian 2.3.1 Các công cụ áp dụng mơ hình 2.3.1.1 Hàm tự tương quan ACF (AutoCorrelation Function) ૚ ࡺି࢑ ∑࢚ୀ૚ ሺ࢚࢟ − ࣆሻሺ࢚࢟ା࢑ − ࣆሻ ࡺ ࢘࢑ = ሺ૛ ૚ሻ ࢾ૛ 2.3.1.2 Hàm tự tương quan phần PACF y(t+k) = Ck1y(t+k-1) + Ck2y(t+k-2) + + Ckk-1y(t + 1) + Ckky(t) + e(t) (2.2) 11 Tổng quan, hàm tự tương quan phần tính theo Durbin : ‫ܥ‬௞௞ = ௥ೖ ି∑ ஼ሺೖషభሻೕ ௥ೖషೕ ଵି∑ ஼ሺೖషభሻೕ ௥ೕ (2.3) 2.3.1.3 Mơ hình AR(p) y(t)=a0+a1y(t-1)+a2y(t-2)+…apy(t-p)+e(t) (2.4) Mơ hình AR(1): y(t) = a0 + a1y(t-1) + e(t) Mơ hình AR(2): y(t) = a0 + a1y(t-1) + a2y(t-2) +e(t) 2.3.1.4 Mơ hình MA(q) y(t) = b0 + e(t) +b1e(t-1) + b2e(t-2) + +bqe(t-q) (2.5) Mơ hình MA(1) : y(t) = b0 + e(t) + b1e(t-1) Mơ hình MA(2) : y(t) = b0 + e(t) + b1e(t-1) + b2e(t-2) 2.3.1.5 Sai phân I(d) Sai phân lần (I(1)) : z(t) = y(t) – y(t-1) Sai phân lần (I(2)) : h(t) = z(t) – z(t-1) 12 2.3.2 Mơ hình ARIMA - Mơ hình ARMA(p,q): y(t) = a0+a1y(t-1)+a2y(t-2)+ +apy(t-p)+e(t) +b1e(t-1)+b2e(t-2)+ +bqe(t-q) (2.6) - Mơ hình ARIMA(p,d,q): Mơ hình ARIMA (1, 1, 1): y(t) – y(t-1) = a0 + a1(y(t-1) – y(t-2) + e(t) + b1e(t-1)) Hoặc z(t) = a0 + a1z(t-1) + e(t) + b1e(t-1), Với z(t) = y(t) – y(t-1) sai phân đầu tiên: d = Tương tự ARIMA(1,2,1): h(t) = a0 + a1z(t-1) + e(t) + b1e(t-1), Với h(t) = z(t) – z(t-1) sai phân thứ hai: d = 2.3.3 Các bước phát triển mô hình 2.3.3.1 Xác định mơ hình 2.3.3.2 Ước lượng tham số 2.3.3.3 Kiểm định độ xác 2.3.3.4 Dự báo 13 Hình 2.16 Sơ đồ mơ mơ hình Box - Jenkins 2.4 Phần mềm EVIEWS 2.4.1 Giới thiệu phần mềm ứng dụng Eviews 14 Hình 2.17.Cửa sổ Eviews [Nguồn: Eviews Users Guide, tr16] 2.4.2 Áp dụng Eviews thi hành bước mơ hình ARIMA 2.4.2.1 Xác định mơ hình 2.4.2.2 Ước lượng mơ hình, kiểm tra mơ hình 2.4.2.3 Dự báo 15 Chương 3: ÁP DỤNG MƠ HÌNH ARIMA CHO BÀI TỐN DỰ BÁO CHỨNG KHỐN 3.1 Dữ liệu tài chính, chứng khốn Dữ liệu chứng khoán biết tới chuỗi thời gian đa dạng có nhiều thuộc tính ghi thời điểm Các thuộc tính liệu chứng khốn là: Open, High, Low, Close, Volume 3.2 Mơ hình ARIMA cho dự báo chứng khốn 3.2.1 Q trình xây dựng mơ hình - Xác định mơ hình - Ước lượng, kiểm tra mơ hình - Dự báo 3.2.2 Thiết kế mơ hình ARIMA cho liệu Các bước để xây dựng mơ sau : Chọn tham biến Chuẩn bị liệu • Xác định tính dừng chuỗi liệu • Xác định yếu tố mùa vụ • Xác định yếu tố xu 16 Xác định thành phần p, q mơ hình ARMA Ước lượng tham số chẩn đốn mơ hình phù hợp Dự báo ngắn hạn 3.3 Thực nghiệm Sử dụng mơ hình ARIMA phương pháp Box – Jenkins để thực q trình dự báo giá đóng cửa của: VnIndex, mã cổ phiếu ABT (của Công ty cổ phần xuất nhập thủy sản Bến Tre) mã cổ phiếu ACB (của Ngân hàng Thương mại cổ phần Á Châu) ngắn hạn vào chuỗi liệu khứ mã CK 3.2.1 Môi trường thực nghiệm 3.2.2 Dữ liệu đầu vào Dữ liệu đầu vào luận văn lấy từ http://www.cophieu68.com/datametastock.php Đó file.CSV tương ứng với mã CK lấy từ website xuống Dữ liệu có dạng: 17 Hình 3.1 Dữ liệu đầu vào Tạo workfile 3.2.3 Xử lý liệu 3.2.3.1 Kiểm tra tính dừng chuỗi chứng khoán Dựa vào biểu đồ biến giá đóng cửa chuỗi chứng khốn 18 Hình 3.6 Biểu đồ giá đóng cửa ABT 3.2.3.2 Nhận dạng mơ hình - Xác định tham số p, d, q mơ hình ARIMA mã CK dựa vào biểu đồ tự tương quan Hình 3.9 Biểu đồ SAC SPAC chuỗi GIADONGCUA VNINDEX 19 3.2.3.3 Ước lượng kiểm định với mô hình ARIMA Hình 3.16 Ước lượng mơ hình ARIMA(1,0,1) ABT Hình 3.17 Kết mơ hình ARIMA(1,0,1) ABT 20 Hình 3.18 Kiểm tra phần dư chuỗi ABT Bảng 3.2 Bảng tiêu chuẩn đánh giá mơ hình ARIMA ABT BIC Adjusted R2 SEE ARIMA(1,0,0) 2.385271 0.814950 0.782972 ARIMA(1,0,1) 2.345217 0.825445 0.760445 ARIMA(1,0,2) 2.397569 0.816063 0.780614 Mô hình ARIMA Mơ hình chọn cho chuỗi ABT ARIMA(1,0,1) 3.2.3 Thực dự báo Thực dự báo giá đóng cửa VNINDEX, ABT, ACB vịng ngày từ 11/09/2012 đến 20/09/2012 21 Hình 3.22 Dự báo Hình 3.23 Kết dự báo VNINDEX 22 Bảng3.4 Bảng đánh giá giá dự báo VNINDEX so với giá thực tế Ngày Giá dự báo Giá thực Đánh giá tế Sai số (%) 11/09/2012 390.8433 386.6 4.2433 1.09 12/09/2012 391.1221 388.4 2.7221 0.70 13/09/2012 391.3961 391.4 -0.0039 ~0.00 14/09/2012 391.6655 398.9 -7.2345 1.85 17/09/2012 391.9303 401.8 -9.8697 2.52 18/09/2012 392.1906 394.5 -2.3094 0.59 19/09/2012 392.4465 394.6 -2.1535 0.55 20/09/2012 392.6980 389.3 3.3980 0.87 Đánh giá: kết dự báo xác (mức độ sai số thấp, từ xấp xỉ 0% đến 2.52%) 23 KẾT LUẬN Luận văn trình bày tổng quan khai phá liệu: khái niệm, kỹ thuật khai phá liệu ứng dụng khai phá liệu Trong luận văn tập trung vào kỹ thuật khai phá liệu chuỗi thời gian áp dụng vào tốn thực tế quan tâm tốn dự báo nói chung dự báo giá chứng khốn nói riêng Luận văn trình bày số nội dung sở lý thuyết chuỗi thời gian thực, mơ hình ARIMA (các cơng cụ áp dụng mơ hình, quy trình xây dựng mơ hình) phần mềm Eviews, áp dụng Eviews để thi hành bước mơ hình ARIMA dự báo chứng khoán Tác giả nắm quy trình dùng phần mềm Eviews để xây dựng mơ hình ARIMA cho liệu thời gian thực, tính tốn giá trị dự báo cho chuỗi liệu chứng khoán Luận văn áp dụng sở lý thuyết nghiên cứu tiến hành thực nghiệm ba chuỗi chứng khoán (chỉ số VnIndex, mã CK ABT, ACB) dựa liệu lịch sử chuỗi (gồm 257 quan sát khứ) dự báo giá đóng cửa 10 ngày Kết dự 24 báo phân tích, kiểm tra, đối chiếu với giá thực tế cho thấy kết xác, độ tin cậy cao Như cho thấy mơ hình ARIMA đưa cho chuỗi chứng khoán luận văn phù hợp để dự báo ngắn hạn giá cổ phiếu Bên cạnh kết đạt được, luận văn số hạn chế: - Thuật toán để ước lượng đánh giá nhiều hạn chế - Trong phiên giao dịch cịn có tác động yếu tố ngoại lai lớn tâm lý nhà đầu tư, tác động thị trường chứng khoán khác, thơng tin thay đổi sách, … làm cho sai số dự báo tăng Do kết mơ hình đưa mang tính chất tham khảo nhiều Đây mơ hình phân tích kĩ thuật, chưa thể dự báo cách sách, phụ thuộc vào biến – Thời gian, trình dự báo phụ thuộc vào nhiều yếu tố Hướng phát triển đề tài: Xây dựng mơ hình ARIMA đa biến: số giá chứng khoán phụ thuộc vào nhiều biến khác ... khái niệm, vai trò, ứng dụng kỹ thuật khai phá liệu - Tìm hiểu kỹ thuật phân tích liệu chuỗi thời gian khai phá liệu áp dụng vào tốn dự báo nói chung dự báo thị trường chứng khốn nói riêng - Tìm... 2: Kỹ thuật khai phá liệu chuỗi thời gian giới thiệu liệu chuỗi thời gian thực toán dự báo quan tâm khai phá liệu Giới thiệu sở lý thuyết mơ hình ARIMA bước phát triển mơ hình Bài tốn dự báo áp. .. chuỗi thời gian đặc biệt áp dụng dự báo ngắn hạn Trong toán dự báo 10 nói chung tốn dự báo tài chứng khốn nói riêng, liệu thường biểu diễn dạng chuỗi thời gian Trong dạng liệu phân tích liệu chuỗi

Ngày đăng: 19/03/2021, 17:59

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan