PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN TRONG CÁC BÀI TOÁN ĐÁNH GIÁ VÀ DỰ BÁO.TT LUẬN ÁN TIẾN SĨ

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN Đặng Kiên Cường PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN TRONG CÁC BÀI TOÁN ĐÁNH GIÁ VÀ DỰ BÁO (HỆ THỐNG HỖ TRỢ HỌC TẬP THÍCH NGHI DỰA TRÊN ONTOLOGY CỦA MƠ HÌNH NGƯỜI HỌC) Chun ngành: Khoa học máy tính Mã số: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH - NĂM 2020 Cơng trình hồn thành tại: Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh Người hướng dẫn khoa học: TS Trần Tích Phước TS Dương Tơn Đảm Phản biện 1: Phản biện 2: Phản biện 3: Luận án sẽ/đã bảo vệ trước Hội đồng chấm luận án cấp Trường tại: vào lúc ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Thư viện Trường Đại học Công nghệ Thông tin DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN ĐỀ TÀI LUẬN ÁN Dang Kien Cuong, Duong Ton Dam, Duong Ton Thai Duong, and Nguyen Kim Loi, Nguyen Son Vo, and Ayse Kortun, “Extreme Value Distributions In Hydrological Analysis In The Mekong Delta: Case Study In Ca Mau, An Giang Provinces”, EAI Endorsed Transactions on Industrial Networks and Intelligent Systems Journal, ISSN: 2410-0218 Vol 6, June 2019, http://dx.doi.org/10.4108/eai.13-6-2019.159122 Dang Kien Cuong, Duong Ton Dam, Duong Ton Thai Duong, and Du Thuan Ngo, “Applications of Bootstrap in Analyze General Extreme Value Distributions”, Journal of Mechanics Engineering and Automation, ISSN: 2159-5275 Vol 9, No 7, 2019 Dang Kien Cuong, Duong Ton Dam, Duong Ton Thai Duong, Du Thuan Ngo, “Solutions to the jump-diffusion linear stochastic differential equations”, Science And Technology Development Journal, Vol No 2019 Page: 115-119 DOI: https://doi.org/10.32508/stdjns.v3i2.663 Dang Kien Cuong, Duong Ton Dam, and Duong Ton Thai Duong, “Extreme value distributions in hydrological analysis of some areas in the Mekong Delta“, Proceedings of the Second Vietnam international Applied Mathematics Conference (VIAMC 2017), Information and Communications Publishing House, ISBN: 978-604-80-0608-2 MỞ ĐẦU Tính cấp thiết luận án Trong thời kỳ phát triển công nghệ số, nhu cầu sử dụng liệu ngày lớn, đặc biệt liên quan công nghệ xã hội Với kinh tế tri thức, liệu có vai trị quan trọng nhằm hỗ trợ định, thực dự báo đánh giá cho tương lai Dự báo thống kê việc tiên đoán giá trị tương lai dựa vào số liệu q khứ, mơ hình tốn học phù hợp thiết lập Dự báo đánh giá bước quan trọng đầu tiên, thiếu cho việc hoạch định sách phát triển kinh tế xã hội phù hợp, cho chiến lược kinh doanh hiệu tổ chức kinh tế, xã hội, cấp quyền quốc gia Chính thế, dự báo nhà khoa học, đặc biệt nhà thống kê, máy học, khoa học máy tính quan tâm Tuy nhiên, nay, việc dự báo đánh giá dựa liẹu tốn chưa có lời giải cuối Trong dự báo, đánh giá phương pháp thống kê, hai mơ hình sử dụng rộng rãi hồi quy chuỗi thời gian Khi xây dựng mơ hình hồi quy phải giả sử nhiều điều kiện mà thực tế liệu thường khơng thỏa kết dự báo có hạn chế Trong đó, điều kiện quan trọng để xây dựng mơ hình chuỗi thời gian tính dừng liệu Điều khắc phục qua phương pháp lấy sai phân, nên mơ hình chuỗi thời gian thường phù hợp với nhiều số liệu thực tế, đánh giá có ưu điểm mơ hình hồi quy Trong thực tế có nhiều số liệu phát triển kinh tế xã hội lưu trữ dạng chuỗi thời gian Vấn đề liệu chuỗi thời gian, việc quản lý, dự báo thiên tai (Khí tượng, Thủy văn), liên quan đến liệu lớn (trên 30 năm), toán liệu thiếu, khuyết trình quan trắc Trong năm gần vấn đề thiên tai xảy với cường độ tần suất lớn, quản lý khí tượng thủy văn chưa có nghiên cứu liên quan để giải vấn đề Luận án giải tốn vấn đề khí tượng thủy văn, nghiên cứu đánh giá dự báo dựa liệu chuỗi thời gian, tìm quy luật đặc tính tập liệu phương pháp toán học Mục tiêu luận án Đối tượng nghiên cứu: Tập liệu giá trị ghi nhận tượng ngẫu nhiên thực tế theo dòng thời gian (chuỗi thời gian), với dạng chung liệu phụ thuộc giá trị hàm ngẫu nhiên f(t, ω) Hàm ngẫu nhiên f(t, ω): 𝑅 × 𝛺 → 𝑅 dạng tổng quát dạng hàm: Hàm số thực tốn giải tích f(x): R → R Biến ngẫu nhiên xác suất f(ω): Ω → R Luận án nghiên cứu liệu chuỗi thời gian, dựa liệu khí hậu thủy văn khu vực Đồng Sông Cửu Long giai đoạn từ 1975 đến 2016, so sánh với liệu toàn cầu; nghiên cứu thực khảo sát mơ hình chuỗi thời gian mờ, cải tiến việc chọn tham số, mối quan hệ mờ vấn đề tính tốn để nâng cao hiệu áp dụng; áp dụng mơ hình cải tiến số dự báo liên quan đến Đồng Sơng Cửu long, để xuất thuật tốn, tiêu chuẩn đánh giá vấn đề tính tốn mơ hình chuỗi thời gian Công cụ xử lý: Với liệu thực tế, cơng cụ tốn để xử lý phải phù hợp mở rộng nhiều so với công cụ kinh điển (trong giải tích ngẫu nhiên có nhiều hàm khơng đâu có đạo hàm vi phân) tích phân hiểu theo nghĩa khác (tích phân Itơ, tích phân Sugeno) Vì vậy, cơng cụ phép tính vi-tích phân ngẫu nhiên với phương pháp Toán đại: (1) Toán mờ (Tương quan, hồi quy mờ, phân tích mờ giải mờ), (2) Thống kê bootstrap (jackknife, bootstrap khối, bootstrap dừng), (3) Lý thuyết q trình khuếch tán ngẫu nhiên có nhảy Luận án ứng dụng phương pháp Bootstrap phân tích chuỗi liệu thời gian lĩnh vực khí tượng thủy văn Với mục tiêu cụ thể: 1) Nghiên cứu, Phân tích liệu chuỗi thời gian dự báo chuỗi thời gian mờ; 2) Đánh giá liệu khí tượng thủy văn giai đoạn 1986 – 2015; 3) Ứng dụng nghiên cứu đánh giá dự báo biến đổi khí hậu Đồng Bằng Sơng Cửu Long, từ 2018 đến 2022 Đóng góp luận án Luận án đánh giá cách chi tiết đặc tính cực trị phân phối xác suất, khả ứng dụng bootstrap phân tích chuỗi thời gian khí tượng thuỷ văn, phương pháp giải phương trình vi phân ngẫu nhiên tuyến tính tổng qt trường hợp khuếch tán có nhảy Cụ thể, luận án đóng góp lý thuyết khả ứng dụng: a) Phân tích đặc tính cực trị phân phối xác suất Lý thuyết: Đưa Định lý Giá trị cực đại: Định lý tổng kỳ vọng tổng phương sai phân phối cực trị (EVD – Extreme Value Distributions) Ứng dụng: Nghiên cứu Phân phối cực trị số mơ hình thủy văn Tây Nam Bộ, từ thực cơng việc  Tính cực đại mực nước sông Tiền qua Tân Châu (An Giang) thông qua liệu thực tế từ 1975 đến 2017  Tính cực đại độ mặn lượng mưa qua Thành phố Cà Mau thông qua số liệu thực tế từ 1990 đến 2017  Dự báo mực nước sông Tiền sông Hậu qua Tân Châu (An Giang) thơng qua phân tích mờ liệu thủy văn từ 2018 đến 2022 b) Phân tích cách có hệ thống việc áp dụng thống kê Bootstrap cho liệu chuỗi thời gian Lý thuyết: tổng quan phương pháp Bootstrap, hướng tiếp cận lý thuyết Thống kê xử lý liệu Luận án phân tích loại Bootstrap khối (MBB, NBB, SBB, SB) liên hệ phương pháp xử lý liệu, đặc biệt mơ hình tuyến tính chuỗi thời gian Ứng dụng: đưa thuật giải cho dạng Bootstrap khác nhau, tương thích với mơ hình tuyến tính cụ thể số liệu thực tế dòng chảy, lượng mưa độ mặn Cà Mau An Giang để minh chứng cho phương pháp lý thuyết c) Đưa phương pháp giải phương trình vi phân ngẫu nhiên tuyến tính tổng qt trường hợp khuếch tán có nhảy Lý thuyết: Phương trình vi phân ngẫu nhiên thường xét đến thực tế dạng tuyến tính, luận án tìm cách giải dạng PTVP Đóng góp phần phương pháp tách nhiệm dựa vào nghiệm phương trình vi phân tuyến tính Hướng áp dụng: giải toán liệu thủy văn (dịng khếch tán có nhảy), xét với biến động (kể dị thường: lũ, bão, ngăn đập, vỡ đê) yếu tố có liên quan đến người (ngăn đập, mở đập) Bố cục luận án Sau phần mở đầu nêu vấn đề tổng quan luận án, nội dung trình bày gồm chương theo cấu trúc sau: Chương 1, sở toán học, phương pháp kết nghiên cứu lý thuyết theo hướng kinh điển chuỗi thời gian Chương 2, trình bày hướng chuỗi thời gian mờ phân tích khoa học mang tính dự báo số vấn đề liệu thủy văn ĐBSCL Chương 3, đưa cách tiếp cận đại hiệu thống kê bootstrap cho dạng liệu khó thu thập thực tế đánh giá có giá trị việc xử dụng chúng Chương 4, phân tích q trình ngẫu nhiên, giải phương trình vi phân ngẫu nhiên liên tục có nhảy Đây liệu có liên quan đến loại biến động, gần với chuỗi thời gian Kết thúc việc giải phương trình vi phân ngẫu nhiên tuyến tính nhất, giải phương trình vi phân ngẫu nhiên tuyến tính tổng quát với phương pháp tách nghiệm đề xuất, để tiếp tục giải toán liệu thủy văn xét với biến động ngẫu nhiên Phần cuối luận án hướng nghiên cứu khả thi mặt lý thuyết vấn đề áp dụng thực tế từ kết thu Về nội dung nghiên cứu cụ thể xin trình bày sau Chương CÁC PHƯƠNG PHÁP TOÁN THỐNG KÊ KINH ĐIỂN TRONG XỬ LÝ DỮ LIỆU CHUỖI THỜI GIAN 1.1 Khái niệm liệu chuỗi thời gian Chuỗi thời gian tập hợp gồm số liệu có khái niệm phạm vi thu thập liên tục thường kỳ Các giá trị quan sát theo thời gian đại lượng Y ký hiệu Y1, Y2, …, Yt, …, Yn, với Yt giá trị quan sát Y thời điểm t Căn vào đặc điểm thời gian, thường chia dãy số thời gian thành loại: (i) Dãy số thời kỳ biểu thay đổi tượng qua thời kỳ định, (ii) Dãy số thời điểm biểu mặt lượng tượng vào thời điểm cụ thể 1.2 Thành phần liệu chuỗi thời gian, gồm Chu kỳ (Period Pt), Mùa (Seasonal-St), Xu hướng (Trend-Tt), Bất thường (IrregularIt), kết hợp nhiều cách, theo dạng thức: 𝜷 𝜷 𝜷 𝜷 Yt=1𝑻𝒕 𝟏 2𝑺𝒕 𝟐 3𝑪𝒕 𝟑 4𝑰𝒕 𝟒 , đó, i trọng số (i=1,2,3,4), j hệ số biến đổi mũ (j=1,2,3,4) 1.3 Đặc tính liệu chuỗi thời gian Tính dừng chuỗi thời gian thể suy luận khứ tương lai quan sát, với 03 đặc trưng 1) Kỳ vọng 𝐸(𝑋𝑡 ) = 𝜇 (thường số hữu hạn), 2) Phương sai 𝑉𝑎𝑟 (𝑋𝑡 ) ≤ ∞, 3) Hiệp phương sai 𝐶𝑜𝑣 (𝑋𝑡 , 𝑋𝑡+𝑠 ) = 𝛾𝑠 Hàm tự tương quan, chuỗi thời gian thường xét qua hàm tự tương quan ACF (AutoCorrelation Function), không phụ thuộc vào thời gian chuỗi mà phụ thuộc vào khoảng thời gian quan sát, ký hiệu l gọi độ trễ (lag), đơn giản l trễ Quá trình dừng mạnh (dừng theo nghĩa hẹp), tính dừng có nghĩa q trình đạt đến loại cân thống kê phân phối q trình khơng thay đổi nhiều, Qúa trình dừng yếu (dừng theo nghĩa rộng) Toán tử lùi, toán tử tiến Tốn tử lùi L liên kết với q trình {Xt, t} trình {Yt, t} cho Yt = LXt = Xt-1 Nếu L toán tử tuyến tính, khả nghịch tốn tử nghịch đảo L-1 = T gọi toán tử tiến T, định nghĩa bởi: TXt = Xt+1 Trong số chuỗi thời gian, thành phần mùa thành phần bất thường thay đổi lớn làm cho việc xác định thành phần xu hướng thành phần chu kỳ gặp nhiều khó khăn Dùng phương pháp làm trơn liệu để làm giảm thay đổi lớn 1.4 Các phương pháp làm trơn liệu Phương pháp trung bình trượt, có Trung bình trượt đơn,Trung bình trượt kép, Trung bình trượt trung tâm; Phương pháp hàm mũ, có Hàm mũ đơn, Hàm mũ kép, Hiệu mơ hình Box-Jenkins 1.5 Phân tích mơ hình thống kê liệu chuỗi thời gian thơng dụng, cụ thể: Mơ hình tự hồi quy (AutoRegressive - AR), Mơ hình trung bình trượt (Moving Averages - MA), Mơ hình tự hồi quy trung bình trượt (Autoregressive Moving Average - ARMA), Mơ hình tự hồi quy tích hợp trung bình trượt (Auto Regressive Integrated Moving Average - ARIMA), Phương pháp phân tích mơ hình thống kê Box-Jenkins 1.6 Tiêu chuẩn đánh giá mơ hình Một mơ hình tốt phải mơ hình có khả dự báo với độ xác cao Để đánh giá mức độ xác dự báo mơ hình Thuật toán 1: Dự báo đỉnh mặn Algorithm Input: liệu tập huấn luyện (80%), tập kiểm tra (20%) Bắt đầu 1) Làm trơn 2) Mờ hóa với ARIMA, AM IFTS 3) Tính tham số Kết thúc Ouput: liệu xử lý, sử dụng cho việc dự báo, đánh giá Thực tất mơ hình tồn liệu, lựa chọn mơ hình tốt dựa tham số đánh giá Dự báo đỉnh mặn cho trạm đo đến năm 2022 Các tính tốn chương này, sử dụng gói AnalyzeTS với hướng dẫn sử dụng trình bày Mơ hình dự báo chuỗi thời gian chi tiết đoạn mã trình bày phần Phụ lục Bảng Dự báo đỉnh mặn trạm đo Gành Hào, Cà Mau, Ông Đốc 2018 đến 2022 Năm 2018 Gành Hào 34.85 Cà Mau 36.60 Ông Đốc 39.62 2019 35.42 36.65 40.03 2020 36.06 36.70 40.40 2021 36.69 36.75 40.76 2022 37.29 36.80 41.11 Đánh giá kết dự báo đỉnh mặn khu vực ĐBSCL: Từ kết thực cho liệu đỉnh mặn trạm đo Gành Hào, Cà Mau Ông Đốc tỉnh Cà Mau cho thấy đỉnh mặn ba có khuynh hướng tăng thời gian tới, đỉnh mặn trạm đo Gành Hào có khuynh hướng tăng nhiều 10 2.4 Phân tích liệu tốn phân phối cực trị Phân phối cực trị lớp phân phối quan trọng lý thuyết xác suất, ứng dụng để mơ hình hóa giải tốn thủy văn tính đỉnh lũ, đỉnh mặn, dịng chảy hạn; tính nghẽn mạch dịng tín hiệu, điều tiết giao thơng Bài tốn cực đại cực tiểu, Cho X1 , X , … , X n , dãy đại lượng ngẫu nhiên độc lập, với cực đại Mn = max{X1 , X , … , X n } cực tiểu, mn = min{X1 , X , … , X n } Từ xét phân phối giới hạn cho biến động cực đại cực tiểu, thông qua khái niệm miền hút qua giới hạn hàm phân phối tích lũy tương ứng FMn (x), Fmn (x) Phân phối cực trị G(x) ba loại: (i) Gumbel (phân phối mũ kép), (ii) Fréchet, (iii) Weibull Tiếp tục phát triển theo hướng nghiên cứu ta thu định lý lý thú tổng kỳ vọng tổng phương sai dạng phân phối giới hạn sau Định lý 1: Cho {ξI ; i = 1,2, … } dãy đại lượng ngẫu nhiên độc lập, thuộc miền hút max Hβi (x, λI , δi ) ≡ HI {ηI ; i = 1,2, … }, dãy đại lượng ngẫu nhiên độc lập, thuộc miền hút Lβi (x, λI , δi ) ≡ LI , 𝑛 𝑛 𝑎) ∑(𝐸𝐻𝑖 + 𝐸𝐿𝑖 ) = ∑ 𝜆𝑖 𝑖=1 𝑏) ∑𝑛𝑖=1(𝑉𝑎𝑟𝐻𝑖 𝑖=1 + 𝑉𝑎𝑟𝐿𝑖 )= 11 𝑛 𝜋2 ∑ 𝛿𝑖2 , 𝑛 ∑ 𝛿𝑖2 [𝛤 (1 + 𝑖=1 𝑛 { Hi ~MaxGD; Li ~MinGD, 𝑖=1 ) − 𝛤 (1 + )] , nếuHi ~MaxWD; Li ~MinWD, 𝛽𝑖 𝛽𝑖 ∑ 𝛿𝑖2 [𝛤 (1 − 𝑖=1 ) − 𝛤 (1 − )] , nếuHi ~MaxFD; Li ~MinFD 𝛽𝑖 𝛽𝑖 2.5 Ứng dụng phân phối cực trị dự báo thủy văn Tây Nam Trên sở nghiên cứu thấy phân phối cực hạn có dạng phân phối Gumbel thường dùng mơ hình mưa dịng chảy lũ, dạng phân phối Weibull thường dùng mơ hình dịng chảy kiệt hạn hán Xét số mơ hình để đánh giá xây dựng quy hoạch vùng kinh tế tỉnh khu vực Tây Nam Kết nghiên cứu tác giả mơ hình có phân phối Gumbel (phân tích số liệu quy luật luận án với đặc trưng: i) Kỳ vọng 𝐸𝑋 = 𝜇 + 0,577216 𝜎, 0,577216 ≡ số Euler, ii) Phương sai 𝑉𝑎𝑟 𝑋 = (𝜋𝜎)2 , 𝑋̅ = 𝜇 + 0,577216 𝜎, iii) Bằng phương pháp moment ta có: { (𝜋𝜎)2 𝑆2 = 𝑛 (𝑋 ̅ )2 ∑ 𝜇̃ ≈ 𝑋̅ − 0,4501 𝑆 ̅ ∑𝑛𝑖=1 𝑋𝑖 𝑖 −𝑋 Suy ra: { , 𝑋 = 𝑛 ; 𝑆 = 𝑖=1𝑛−1 𝜎̃ ≈ 0,7797 𝑆 2.5.1 Dự báo cực đại cho mực nước sông Tiền qua Tân Châu, An Giang Phân tích số liệu Đài Khí tượng Thủy văn Nam (từ 1976 đến 2017) Trạm thủy văn sông Tiền qua Tân Châu, An Giang 12 Thuật toán 2: Dự báo cực đại cho mực nước Algorithm Input: k, μ0 , σ0 Bắt đầu 1) Xây dựng hàm hợp lý L(μ, σ), chọn μ̂ σ ̂ thỏa (∂Ʌ/ ∂μ = ∂Ʌ/ ∂σ = 0) 2) Vòng lặp thuật toán Newton – Raphson, đến 2 ∆j = (μ(j+1) − μ(j) ) + (σ(j+1) − σ(j) ) < 𝑘 3) Hàm phân phối cực đại xác định −(x−375.3042) 𝐹2 (x) ≈ exp {−exp { 69.59 }} 4) Đánh giá Kết thúc Ouput: Mực nước xử lý qua hàm phân phối xác định Nghiên cứu thực việc đánh giá, trạm Tân Châu, An Giang với k = 10−4 , μ0 = 397,9874, σ0 = 50,00598, áp dụng thuật toán ta có kết bước lặp thể bảng Bảng 2: Mực nước Tân Châu, An Giang Bước j 𝛍𝐣 𝛔𝟎 ∆𝐣 𝟏𝟎−𝟒 379.9874 50.00598 377.0478 57.715 51.516 >10−4 376.0177 64.818 15.47 >10−4 375.4537 68.71 0.7335 >10−4 375.3104 69.5544 0.00148 >10−4 375.3042 69.58668 4.1x 10−5 10−4 72.725 18.777 0.647 >10−4 72.698 18.889 0.0134 >10−4 72.69766 18.891 3.8x10−4 < 10−4 Hàm phân phối cực đại tốn có dạng 𝐹3 (x) ≈ exp {−exp { −(x − 72.69766) }} 18.891 Sau phân tích thành phần, đặc tính chuỗi thời gian, theo mơ hình; với việc chứng minh định lý, thực việc xử lý theo liệu, cho thấy ý nghĩa việc phân tích liệu Trong có vai trị cơng tác dự báo liên quan đến độ mặn, lượng mưa, mực nước sông cho khu vực ĐBSCL Việc dự báo góp phần việc định hướng phát triển văn hóa, xã hội kinh tế cho vùng ĐBSCL Chương PHƯƠNG PHÁP THỐNG KÊ BOOTSTRAP TRONG PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN 3.1 Phương pháp bootstrap thống kê Các giá trị mẫu thu được lặp lại cách ngẫu nhiên, phương pháp bootstrap không xem mẫu thể mà xét tổng thể hay đại diện tổng thể Cho mẫu ngẫu nhiên cỡ n, {X1 , X , … X n } từ hàm phân phối F chưa biết Trong thống kê ta thường coi X i ; ∀i = 1,2, … , n đại lượng ngẫu nhiên độc lập có phân phối F Mỗi phép thử ngẫu nhiên thể mẫu tạo giá trị cụ thể (x1 , x2 , … xn ) Rn 14 Xét thống kê Tn (x1 , x2 , … xn ) phụ thuộc vào liệu ngẫu nhiên mẫu, phân phối thống kê Gn (x) = P(Tn ≤ x) thông thường phụ thuộc vào F(x), để mô tả mối phụ thuộc ta thường viết Gn (x, F) Trong trường hợp phân phối F chưa biết chưa xác định thường ước lượng hàm phân phối thực nghiệm (EDF – empirical distribution function) F̂n (x) = n ∑ni=1 I(xi ≤ x) 𝑃(𝐴) xấp xỉ 𝑃̂(𝐴), 𝐴 ∈ ß ̂(A) thể theo Quá trình lấy mẫu từ phân phối thực nghiệm P thuật giải Bootstrap độc lập có phân phối Bootstrap có số đặc tính phù hợp để phân tích liệu chuỗi thời gian: Tính vững (consistency) Cho 𝐹̂𝑛 phân phối thực nghiệm F Ước lượng bootstrap 𝐺𝑛 (𝑋, 𝐹̂𝑛 ) 𝐺𝑛 (𝑋, 𝐹) vững nếu: 𝑝 sup𝑋 |𝐺𝑛 (𝑋, 𝐹̂𝑛 ) − 𝐺∞ (𝑋, 𝐹̂𝑛 )| → (3.1) hội tụ theo xác suất Tính đắn tiệm cận (Asymtotic validity of the bootstrap) Với 𝐻0 giả thiết thống kê cần kiểm định, bootstrap tiệm 𝑑∗ ̂0 ) cận nếu: 𝑇𝑛∗ → 𝐺∞ (𝑋, 𝐹 (3.2) hội tụ theo phân phối 3.2 Các phương pháp Bootstrap khả dụng cho liệu phụ thuộc Phương pháp jackknife, cho xấp xỉ đơn giản, ước tính sai số 𝑛−1 2 chuẩn độ lệch sai số tiêu chuẩn 𝑠𝑒 ̂𝑗𝑎𝑐𝑘 = [ 𝑛 ∑𝑛𝑖=1(𝜃̂(𝑖) − 𝜃̂(.) ) ] Khoảng tin cậy lấy từ hàm hợp lý, cách sử dụng xấp xỉ ℒ(𝜃0 ) = (𝐿(𝜃̂0 ) − 𝐿(𝜃0 )) ~22 Kỹ thuật bootstrap khối (block bootstrap) cho khối cấu trúc chuỗi mang tính xu hướng chuỗi thời gian dừng Bootstrap khối không chồng (Non-overlapping Block Bootstrap), cho trường hợp chuỗi thời gian đơn biến 15 Bootstrap tự hồi quy sàng (AR-Sieve Bootstrap), Bootstrap tự hồi quy sàng – AR-SB thiết lập cho mô hình chuỗi thời gian tự hồi quy (autoregressive – AR) 𝐴𝑅(𝑝) Mơ hình chuỗi thời gian tuyến tính, biểu diễn dạng: 𝑥𝑡 = 𝜇 + ∑∞ 𝑖=0 𝜓𝑖 𝑎𝑡−𝑖 3.4 Đánh giá Bootstrap khối mô hình chuỗi thời gian Thuật tốn 3: Mơ liệu từ lý thuyết sang thực nghiệm Algorithm Input: Chuỗi thời gian lý thuyết Bắt đầu 1) arima.sim, với 𝜀𝑡 chuỗi nhiễu trắng độc lập có phân phối 𝑁(0,1), kỳ vọng mẫu thực tế không 2) AR sinh mơ hình 𝑥𝑡 = 𝜑1 𝑥𝑡1 + 𝜑2 𝑥𝑡2 + 𝜀𝑡 , với tham số 𝜑1 , 𝜑2 ; 3) MA sinh mơ hình 𝑥𝑡 = 𝜃1 𝜀𝑡1 + 𝜃2 𝑥𝑡2 + 𝜀𝑡 với tham số 𝜃1 , 𝜃2 ; 4) Lặp khối 𝑠𝑑(𝜃̂ ) = √ 𝑘−1 ∑𝑘𝑖=1(𝜃̂𝑖∗ − 𝜃̅ ∗ ) 5) Đánh giá chiều dài chuỗi thời gian chiều dài khối Kết thúc Ouput: Chuỗi thời gian thực nghiệm Kết quả: thực phương pháp lấy mẫu khối lặp MBB, NBB, CBB, CB xác định khoảng tin cậy cho giá trị 𝜃 Gía trị thực trung bình mẫu khơng mơ chuỗi thời gian Với ước lượng bootstrap với p-giá trị chọn 𝛼 = 0,05, xác định khoảng tin cậy [𝜃̂ ∗𝛼 , 𝜃̂ ∗ 𝛼 ], (Kết theo mơ hình M1 với số lặp ( ) (1− ) 1000) kết theo mô hình M1 Tiếp theo, với độ dài khối 10, theo mơ hình M1 ta có kết thể Bảng 34 (Kết theo mơ hình M1 với độ dài khoảng 10) 16 Qua số liệu thu được, thấy phương pháp MBB CBB cho kết tốt NBB SB trường hợp Thuật tốn có liệu cho dạng mơ hình M2, M3, M4 Từ kết ta xác định ước lượng bootstrap theo cách chọn khối khác tương ứng với cơng thức thống kê ta có ước lượng tham số theo mơ hình M1 dạng Bảng (các ước lượng tham số theo mơ hình M1) Kết trên, thể cỡ mẫu cấu trúc phụ thuộc đóng vai trị quan trọng việc chọn mơ hình tối ưu thuật giải Các phương pháp lấy mẫu lặp lại thường sử dụng để suy luận tham số mơ hình Cỡ mẫu cấu trúc phụ thuộc đóng vai trị việc chọn thủ tục bootstrap tối ưu Nghiên cứu đưa đánh giá so sánh dạng bootstrap khối phân tích mơ hình Đồng thời sử dụng chúng mô với kết cụ thể Chương GIẢI TÍCH NGẪU NHIÊN TRONG BÀI TỐN ĐÁNH GIÁ VÀ DỰ BÁO DỮ LIỆU 4.1 Tóm tắt trình ngẫu nhiên Quá trình ngẫu nhiên X t , họ đại lượng ngẫu nhiên (X t , t ∈ T) xác định không gian xác suất (Ω, ℱ, P) Bộ lọc trình ngẫu nhiên (Ω, ℱ) họ hàm tập không giảm {ℱt , t ∈ T} của: σ −đại số ℱ: ℱs ⊆ ℱt ⊆ ℱ ; ∀ s ≤ t Các trình ngẫu nhiên xét khơng gian xác suất có lọc tương ứng (Ω, ℱ, ℱt , P) 4.2 Quá trình Wiener q trình Poisson Thơng qua việc nghiên cứu q trình Wiener 𝑊(𝑡) tích phân Itơ với dạng suy rộng tích phân Ito-Levy, cho hướng tiếp 17 cận đại với lớp trình ngẫu nhiên liên tục có nhảy từ giải nhiều toán thực tế toán khuếch tán dẫn truyền mơi trường có nhiễu loại sóng điện từ Xuất phát điểm vấn đề xây dựng mơ hình phương trình vi phân ngẫu nhiên tuyến tính tổng qt nghiên cứu tồn nghiệm với cách giải chúng Bên cạnh phương pháp số để giải gần thông qua độ đo ngẫu nhiên liên tục độ đo Poisson 𝑃(𝑑𝑡, 𝑑𝑧) có nhảy Bằng hai hướng giải nói tốn khuếch tán giải phần quan trọng vấn đề cần mở rộng xét nhiễu phức tạp môi trường dẫn truyền thực tế 4.3 Giải phương trình vi phân ngẫu nhiên tuyến tính Phương trình vi phân tuyến tính Itơ – Levy q trình ngẫu nhiên cho trước dạng: dX(t) = [α(t, ω)X(t − ) + A(t, ω)]dt + [β(t, ω)X(t − ) + B(t, ω)]dW(t) + ̅ (dt, dz) ∫ n [γ(t, z, ω)X(t − ) + G(t, z, ω)]N (R0 ) với: 𝛾(𝑡, 𝑧, 𝜔) > −1; ∀(𝑡, 𝑧, 𝜔) ∈ [0, ∞} × 𝑅0 × 𝛺 Việc chứng minh thông qua Phương trình vi phân ngẫu nhiên tuyến tính nhất, có dạng: ̅(𝑑𝑡, 𝑑𝑧)] 𝑑𝑋(𝑡) = 𝑋(𝑡 − ) [𝛼(𝑡, 𝜔)𝑑𝑡 + 𝛽(𝑡, 𝜔)𝑑𝑊(𝑡) + ∫ 𝛾(𝑡, 𝑧, 𝜔)𝑁 Xét X1 (t) = F(t, H(t)); t ≥ với F(t, x) = ex và𝑅H(t) xác định bởi: t H(t) = ∫ [α(s, ω) − β2 (s, ω) + ∫ log(1 + γ(s, z, ω)) − γ(s, z, ω)v(dz)] ds R0 1 ̅ (ds, dz) + ∫ β(s, ω)dW(s) + ∫ ∫ log(1 + γ(s, z, ω))N 0 R0 Áp dụng công thức Ito cho X1 (t) = F(t, H(t)), ta thu được nghiệm phương trình là: 18 dX1 (t) = eH(t) [(α(t, ω) − β2 (t, ω) + ∫R [log(1 + γ(t, z, ω)) − γ(t, z, ω)]v(dz)) dt] +eH(t) [ β2 (t, ω)dt + β(t, ω)dW(t)] + ∫R eH(t) [γ ((t, z, ω) − H(t−) log(1 + γ(t, z, ω)))] v(dz)dt + + ∫R e ̃ (dt, dz) = γ(t, z, ω)N ̃ (dt, dz)] ∎ X1 (t − ) [α(t, ω)dt + β(t, ω)dW(t) + ∫R γ(t, z, ω)N 4.4 Phương pháp tách nghiệm Phương trình vi phân ngẫu nhiên tuyến tính tổng qt, cịn gọi phương trình Itơ-Levy Đề xuất phương pháp tách nghiệm để tìm nghiệm phương trình tuyến tính, nghĩa tìm nghiệm dạng tích X(t) = X1 (t − ) X (t − ) (4.1) đó, X1 (t) nghiệm phương trình tuyến tính tương ứng 𝑑𝑋1 (𝑡) 𝑋1 (𝑡 − ) ̅(𝑑𝑡, 𝑑𝑧)] = [𝛼(𝑡, 𝜔)𝑑𝑡 + 𝛽(𝑡, 𝜔)𝑑𝑊(𝑡) + ∫𝑅 𝛾(𝑡, 𝑧, 𝜔)𝑁 (4.2) X (t) nghiệm phương trình ̃ (dt, dz) dX (t) = A∗ (t, ω)dt + B ∗ (t, ω)dW(t) + ∫ G∗ (t, z, ω)N R Với điều kiện X (0) = x0 , A∗ (t, ω); B0 ∗ (t, ω); G∗ (t, z, ω) Từ phương trình tuyến tính nhất, ta có nghiệm X1 (t − ) t (4.2) cho hệ thức X1 (t) = exp {∫0 [α(s, ω) − β2 (s, ω) + ∫R log(1 + γ(s, z, ω)) − γ(s, z, ω)v(dz)] ds + ∫0 ∫R log(1 + ̅ (ds, dz)} γ(s, t, ω))N ∫0 β(s, ω)dW(s) + (4.3) Áp dụng vi phân cho tích hai hàm ngẫu nhiên X(t) = X1 (t − ) X (t − ), ta được: d(X(t) = d(X1 (t − ) X2 (t − )) = X1 (t − ) dX2 (t)+ X2 (t − )dX1 (t) + ̃ (dt, dz) = β(t, ω) X1 (t − )B ∗ (t, ω)dt + ∫ γ(t, z, ω)X1 (t − )G∗ (t, z, ω)N R0 α(t, ω)X1 (t − )X2 (t − )dt + ̃ (dt, dz) + β(t, ω)X1 (t − )X2 (t − )𝑑𝑊(t) + ∫R γ(t, z, ω)X1 (t − )X2 (t − )N 19 X1 (t − )A∗ (t, ω)dt + X1 (t − )B ∗ (t, ω)dW(t) + ̃ (dt, dz) + β(t, ω)X1 (t − )B ∗ (t, ω)dt + X1 (t − ) ∫R G∗ (t, z, ω)N γ(t, z, ω)X1 (t− )G∗ (t, z, ω)N(dt, dz) Mặt khác X(t) nghiệm phương trình tuyến tính dX(t) = [α(t, ω)X(t − ) + A(t, ω)]dt + [β(t, ω)X(t − ) + B(t, ω)]dW(t) + ∫(R n 0) ̅ (dt, dz) [γ(t, z, ω)X(t − ) + G(t, z, ω)]N (4.4) từ so sánh (4.4) (4.1), ta thu hệ phương trình: A(t, ω) = X1 (t − ) [A∗ (t, ω) + B(t, ω)B ∗ (t, ω) + ∫ γ(t, z, ω)G(t, z, ω)v(dz)] R0 B(t, ω) = X1 (t − )B ∗ (t, ω) ̃ (dt, dz) = X1 (t − ) ∫ (1 + γ(t, z, ω))G∗ (t, z, ω)N ̃ (dt, dz) ∫ G(t, z, ω)N { R0 R0 Suy ra: A∗ (t, ω) = X1 (t− ) [A(t, ω) − B(t, ω)β(t, ω) − ∫R B ∗ (t, ω) = G∗ (t, z, ω) = { Đặt ∗ (t, A X1 (t) ω); B ∗ (t, cho γ(t,z,ω)G(t,z,ω) 1+γ(t,z,ω) v(dz)] B(t,ω) X1 (t−) G(t,z,ω) X1 (t− )(1+γ(t,z,ω)) (4.3), biểu thức ∗ ω); G (t, z, ω) xác định vào (4.1), ta có nghiệm phương trình cho.∎ 4.6.3 Định hướng dự báo tài Vận dụng giải phương trình vi phân ngẫu nhiên tuyến tính theo phương pháp tách nghiệm tốn tài sản phương án đầu tư thị trường cơng cụ giải tích ngẫu nhiên Loại tài sản phi rủi ro với biến động giá X (t) xét qua phương trình vi phân: dX (t) = λ(t)X (t)dt ; X (0) = ; t ∈ [0, T] Loại tài sản rủi ro với biến động giá X1 (t) thường xét qua phương trình vi phân ngẫu nhiên có dạng: dX1 (t) = α(t)X1 (t)dt + β(t)X1 (t)dBt (ω) ; X1 (0) > 0, 𝑡 ∈ [0, T] 20 đó: λ(t) ; α(t) ; β(t) hàm tất định mang giá trị dương ta mua tài sản, mang giá trị âm bán tài sản Ta ký hiệu: τ0 (t); τ1 (t); t ∈ [0, T]; đơn vị vốn đầu tư cho loại tài sản phi rủi ro rủi ro tương ứng Khi ta gọi: 𝜙 = {(τ; X)(𝑡)} ≔ ((τ0 (t), τ1 (t)); (X (t), X1 (t))) phương án đầu tư (một danh mục đầu tư - portfolio) với tổng giá trị tài sản thời điểm t bằng: V τ (t) = τ0 (t)X (t) + τ1 (t)X1 (t) Phương án đầu tư gọi tự hạch toán (self-financing portfolio) muốn tăng đầu tư vào chứng khốn phải giảm đầu tư vào chứng khốn khác, khơng làm tăng giảm vốn đầu tư, nghĩa là: τ0 (t)X0 (t) + τ1 (t)X1 (t) = 𝜏̃ (t)X (t) + 𝜏̃1 (t)X1 (t)⇒ (τ0 (t) − 𝜏̃ (t))X (t) + (τ1 (t) − 𝜏̃1 (t))X1 (t) = Ta đặt: ∆τ0 (t) = (τ0 (t) − 𝜏̃0 (t)); ∆τ1 (t) = (τ1 (t) − 𝜏̃1 (t))⇒∆τ0 (t)X0 (t) + ∆τ1 (t)X1 (t) = Viết dạng vi phân: X (t)dτ0 (t) + X1 (t)dτ1 (t) = Mặt khác do: V τ (t) = τ0 (t)X0 (t) + τ1 (t)X1 (t) với τ0 (t), τ1 (t) hàm tất định, ta thu dV τ (t) = τ0 (t)dX0 (t) + τ1 (t)dX1 (t) + X0 (t)dτ0 (t) + X1 (t)dτ1 (t)⇒dV τ (t) = τ0 (t)dX0 (t) + τ1 (t)dX1 (t) Một phương án đầu tư {(τ; X)(𝑡)}, tự tài trợ khi: dV τ (t) = τ0 (t)dX0 (t) + τ1 (t)dX1 (t) Từ tổng giá trị tài sản thời điểm t, ta rút ra: τ0 (t) = Vτ (t)−τ1 (t)X1 (t) X0 (t) Từ điều kiện tự tài trợ dẫn đến hệ thức: dV τ (t) = λ(t)(V τ (t) − τ1 (t)X1 (t))dt + τ1 (t)dX1 (t) Dựa vào phương trình trên, có được: dV τ (t) = [λ(t)V τ (t) + (α(t) − λ(t))τ1 (t)X1 (t)]dt + β(t)τ1 (t)X1 (t)dBt Điều cho thấy phương trình phương trình vi phân ngẫu nhiên tuyến tính, sử dụng phương pháp tách nghiệm 21 Thơng qua giải phương trình vi phân tuyến tính Itơ-Levy, giải phương trình vi phân ngẫu nhiên tuyến tính nhất, giải phương trình vi phân ngẫu nhiên tuyến tính tổng qt, có đánh giá phân tích liệu tài KẾT LUẬN & KIẾN NGHỊ KẾT LUẬN Dữ liệu chuỗi thời gian dạng thường gặp tự nhiên Việc phân tích, đánh giá, dự báo tốn rộng khó Tốn học Công nghệ thông tin Kết đánh giá dự báo liệu chuỗi thời gian có ý nghĩa nghiên cứu khoa học thực tế Luận án phân tích liệu chuỗi thời gian đánh giá dự báo, với kết đạt cụ thể (1) Phân tích liệu chuỗi thời gian theo phương pháp kinh điển lý thuyết Xác suất Thống kê, theo dạng mô hình hồi quy trung bình trượt tích hợp phối hợp với dạng phân phối cực trị chuỗi Kết trình bày chương 1, mở rộng chương 4, xét đến dạng liệu ngẫu nhiên liên tục, số toán cực trị thủy văn số tỉnh Miền Tây Nam Bộ Dữ liệu thu thường giá trị loại trình ngẫu nhiên xác định có liên quan đến loại biến động nhiễu trắng, kích động có nhảy, nguồn tán xạ điện từ,… Nghiên cứu mở rộng sang loại liệu trình ngẫu nhiên liên tục rời rạc (chưỗi thời gian dạng trình ngẫu nhiên với thời gian rời rạc) môi trường phức hợp có nhiễu có biến động nhảy 22 (2) Phân tích liệu chuỗi thời gian theo phương pháp lý thuyết Xác suất Thống kê Tốn học, là: Phương pháp tốn mờ, theo mơ hình khác tính đa dạng toán thường gặp thực tế (kinh tế, xã hội, công nghệ) Kết lý thuyết liệu thực tế trình bày chương Phân tích liệu chuỗi thời gian theo hướng thống kê phương pháp Thống kê bootstrap, phương pháp tập trung vào q trình phân tích lặp liệu có để sử dụng sức mạnh máy tính mà tính tốn lý thuyết khơng thực Các nghiên cứu tập trung trình bày chương 3, với kết lý thuyết ứng dụng liệu khí tượng thủy văn vùng Tây Nam (3) Phân tích liệu chuỗi thời gian theo hướng rộng tổng quát quan điểm Giải tích ngẫu nhiên, từ giải triệt để toán phức hợp thực tế sinh liệu ngẫu nhiên (trong toán vật lý lượng tử vấn đề kinh tế vĩ mô) Kết nghiên cứu hướng ứng dụng trình bày chương Với kết có ý nghĩa lớn mặt lý thuyết ứng dụng, giải toán ứng dụng để dự báo cần phải sử dụng phối hợp nghiên cứu chỉnh thể hỗ trợ Trong đó, việc phân tích liệu chuỗi thời gian theo bootstrap, hướng thống kê, hướng tương lai hướng sử dụng mạnh máy tính trí tuệ nhân tạo, tránh phụ thuộc máy móc vào khai phá liệu thống kê kinh điển 23 KIẾN NGHỊ Từ kết đạt được, luận án tiền đề để tiếp tục giải hạn chế tập trung vào việc chuyên sâu bootstrap để giải toán thiếu liệu thực tế số lĩnh vực khác nhau, đặc biệt toán với biến ngẫu nhiên khó xác định 24

Định dạng
Số trang	27
Dung lượng	847,13 KB