Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA ppt

56 khoảng cách Magalonobis và mức thoả mãn các giả thiết phù hợp luật phân bố chuẩn. Hiện nay , kỹ thuật của phương pháp phân tích phân biệt phi tham số đang phát triển. Hệ phương pháp phân tích phân biệt dựa trên việc giải bài toán các giá trị riêng và các vectơ riêng của ma trận hiệp biến khối đã có ứng dụng trong giải quyết nhiều vấn đề hải dương học trong các công trình của Iu. V. Nhikolaev [130]. Phương pháp tiếp cận này, có tên gọi là phân tích phân biệt chuẩn hoá, cũng vẫn đang là đối tượng nghiên cứu lý thuyết [94, 95]. Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA CHIỀU Những kết luận khi tiến hành chẩn đoán thống kê cung cấp cho ta khái niệm về cơ chế của quá trình đa chiều, quá trình này được xác định với độ chính xác cho trước thông qua một số hữu hạn những biến thống kê đã biết, điều đó có thể xem là căn cứ đầy đủ để triển khai những sơ đồ dự báo các quá trình. Chúng ta sẽ xét vấn đề này trong khuôn khổ hai quan điểm t iếp cận chẩn đoán cơ bản − quan điểm cấu trúc và quan điểm phân loại các quá trình đa chiều. Nhiệm vụ chính của chương này − xác định nên ưu tiên những phương pháp dự báo thống kê xác suất nào để dự báo những đặc trưng tổng quát trong những tình huống cụ thể. Sự phong phú các phương pháp dự báo về phía mình lại đặt ra nhiệm vụ liên kết (phối hợp) hiệu quả một số phương pháp nhằm xây dựng dự báo tối ưu. Khi suy xét về những nét ưu việt quan trọng của giải pháp phương pháp luận này so với những giải pháp truyền thống, cũng không nên bỏ qua những hạn chế khách quan của nó liên quan tới bản thân tính có dự báo được hay không về mặt thống kê của quá trình nghiên cứu. Khái niệm này khi áp dụng vào những quá trình hải dương nhiều chiều còn chưa được phân tích trong các tài liệu ứng dụng, mặc dù nó rất lý t hú về mặt thực tiễn, vì nó giúp ta tránh được sự tự mãn hẹp hòi trừu tượng trong dự báo và quay về với thực tại sinh động của công tác dự báo hải dương học. 4.1. DỰ BÁO CẤU TRÚC CỦA CÁC QUÁ TRÌNH Nhờ kết quả khai triển trực giao ma trận các biến quan trắc, cấu trúc của các quá trình hải dương được khái quát trong hai tập hợp các tham số 57 thống kê − đó là tập các vectơ riêng, hay các hệ số tỷ trọng nhân tố và tập những giá trị các thành phần chính, hay những nhân tố chung. Những tỷ trọng của các thành phần và các nhân tố mô tả những mối liên hệ qua lại khá tin cậy giữa các biến quan trắc và chúng thường ổn định trong thời gian. Mỗi nhân tố chung đặc trưng cho sự tiến triển của quá trình trong thời gian. Vì vậy, thực chất của dự báo cấu trúc quá trình hải dương là bài toán ngoại suy các nhân tố chung (hay các thành phần chính). Tuân thủ những q uy ước đã chấp nhận ở chương 2, ta viết phương trình cơ bản của mô hình phân tích nhân tố có tính tới các bài toán dự báo: EAFX +⋅= T . Ở đây −X ma trận các quan trắc xuất phát, số dòng của nó Ni ,,1= tương ứng với số quan trắc; số cột Mj ,,1= bằng số chiều của quá trình. Ý nghĩa ứng dụng của mô hình phương pháp phân tích nhân tố là ở chỗ dự báo một vectơ M chiều } ˆ ,, ˆ , ˆ { ˆ )()()1()( Miiii xxx 2 =x các biến xuất phát có tính tới các mối liên hệ qua lại với khoảng báo trước ( τ ) trong điều kiện giữ nguyên mức sai số xác định ( E ). Nội dung dự báo là ở chỗ chuyển từ không gian M chiều các quan trắc xuất phát ( X ) sang không gian rút gọn K chiều các hàm tổng quát ( F ), sau đó ngoại suy các hàm F ˆ qua khoảng thời gian τ và cuối cùng khôi phục các giá trị dự báo của vectơ M chiều )( ˆ τ +i x . Những ưu điểm cơ bản của cách tiếp cận này như sau: Không cần p hải dự báo thành phần nhiễu trong các quan trắc xuất phát. Sự chú ý chính tập trung cho dự báo sự biến động hệ thống trong các tham số quan trắc, được mô tả bởi ma trận T X AF ⋅= ˆ ˆ . Những qu y luật thống kê chủ yếu trong sự tiến triển của quá trình được tích tụ trong các hàm F . Điều này làm tăng tính khả báo thống kê của các hàm đó so với tính khả báo của những tham số quan trắc riêng biệt, đồng thời giảm số lượng những biến phải ngoại suy: một quá trình M chiều được dự báo trong một không gian K chiều rút gọn, M K << . Trong phương pháp phân tích nhân tố, luôn luôn phải thoả mãn điều kiện 2/MK ≤ , ngoài ra số biến dự báo j f được quy định không chỉ bởi những chỉ tiêu thống kê chung của mô hình, mà còn do khả năng hàm tổng quát cụ thể mô tả phần mang thông tin vật lý về biến động của quá trình. Ngay thủ tục ngoại suy các hàm tổng quát cũng được giản hoá. Không gian K chiều mô tả quá trình sẽ được cho trong hệ trục trực giao nhau, điều này quyết định sự độc lập thống kê giữa các hàm tổng quát với nhau trên thời khoảng dự báo. Do đó, từng hàm có thể được ngoại suy theo thời gian nhờ những phương trình tự dự báo ít tham số đơn giản nhất:  = +−=+ p l jlifljbjif 1 )( ),1(),(),( ˆ τ τ . (4.1) Ở đây −f ˆ giá trị dự báo của nhân tố chung (thành phần) j tại thời điểm τ+i với khoảng báo trước τ ; −f giá trị của nhân tố tính theo mô hình chẩn đoán; −b hệ số thứ l của mô hình dự báo bậc p đối với nhân tố chung j với khoảng báo trước τ. Tính độc lập của các nhân tố chung cho phép chọn kiểu và bậc mô hình dự báo tối ưu cho từng nhân tố nhằm đạt cực tiểu phương sai sai số tổng cộng của phép ngoại suy. Kết quả tính t oán sẽ hình thành một vectơ các ước lượng dự báo của K nhân tố chung: )},( ,),,(),,({)( Kifififif τ+τ+τ+=τ+ 2 1 , vectơ này được chiếu vào không gian quan trắc M chiều nhờ ma trận các hệ số chuyển tiếp chẩn đoán ( A ): T 2 1 Ax ⋅τ+=τ+τ+τ+=τ+ )( ˆ )},( ˆ ,),,( ˆ ),,( ˆ {)( ˆ ifMixixixi . Ước lượng dự báo của cá c giá trị những nhân tố chung không tránh khỏi chứa sai số, sai số này về phần mình sẽ sinh ra sai số trong vectơ các 58 biến dự báo ban đầu: )( ˆ )( ˆ )( τ+=τ+−τ+ iii exx . Như vậy , trong ma trận phần dư (E ) xuất hiện những sai số bổ sung ( e ˆ ), cùng với các sai số chẩn đoán ( e ), nó sẽ quyết định chất lượng chung của mô hình chẩn đoán và dự báo. Mỗi sai số dự báo ),( ˆ ji τ+ e của biến ban đầu j sẽ chứa tổng các sai số dự báo của từng nhân tố trong số K nhân tố )( ˆ f e TT AeAfx ⋅τ++⋅τ+=τ+ )()( ˆ )( iii f , (4.2) ngoài ra phần đóng góp các sai số sẽ tỷ lệ với phần đóng góp của các số hạng khai triển, được cho bởi những hệ số tương ứng trong ma trận A . Chỉ có thể kỳ vọng sự cực tiểu các sai số dự báo trong điều kiện ngoại suy thật chính xác những số hạng khai triển quan trọng nhất (những số hạng với phần đóng góp cực đại) − những nhân tố hay những thành phần. Những phương pháp ngoại suy các nhân tố chung Một trong những thành tựu quan trọng nhất của việc chẩn đoán trên cơ sở ứng dụng khai triển trực giao là tập trung được sự biến động quan hệ của các biến xuất phát vào các thành phần khai triển đầu tiên. Vì vậy, những nhân tố chung (thành phần chính) thời gian đầu tiên là những chuỗi với các giá trị tuần tự phụ thuộc nhau, điều này thể hiện trong cấu trúc các hàm tự tương quan và tự phổ. Do đó , ta có thể tính được các ước lượng dự báo hữu hiệu cho những nhân tố chung đầu tiên dựa trên các mô hình tự hồi quy bậc )( pAPp − . Cấu trúc thống kê của những nhân tố chung đầu tiên thể hiện những quy luật quy mô lớn nhất trong sự hình thành các quá trình hải dương, thông thường những quy luật này được gây nên hoặc bởi những dao động tự thân nội tại hệ thống, hoặc bởi những tác động tuần hoàn (những biến thiên ngày, mùa và nhiều năm) từ bên ngoài cùng ảnh hưởng đến các tham số nghiên cứu. Kinh nghiệm ứng dụng các mô hình tự hồi quy (mô hình AP) vào dự báo những quá trình khí tượng thủy văn quy mô lớn cho thấy rằng bậc tối ưu của mô hình dao động trong phạm vi 10 1 =p , và thường xuyên nhất là giữ ở mức 4 1=p [142, 146, 151, 202]. Những mô hình như thế cho phép mô tả một loạt kiểu quá trình − quán tính, ngẫu nhiên, tựa tuần hoàn; tất cả tuỳ thuộc vào bậc của mô hình và những hệ số được chọn. Ở đây sẽ không thảo luận chi tiết về những vấn đề này, vì hệ phương pháp tính vectơ các hệ số tự hồi quy ( B ) đối với các nhân tố chung không có gì khác với hồi quy kinh điển đã được trình bày tỉ mỉ trong các chuyên khảo [33, 93, 146, 206]. Ngoại suy những thành phần khai triển bậc cao Nhờ những tính chất lọc của các phương pháp phân tích nhân tố và phân tích thành phần chính mà sự biến động quy mô nhỏ, ngẫu nhiên của các biến xuất phát được tập trung vào những giá trị của các thành phần và nhân tố có số hiệu lớn. Cấu trúc phổ của những dao động ấy gần với nhiễu trắng, điều đó hạn chế khả năng ngoại suy phần biến động tổng cộng nà y. Trong nhiều trường hợp, dự báo những nhân tố đó được thực hiện theo mô hình trung bình trượt bậc )( qCCq − hoặc ứng dụng mô hình hỗn hợp ( APCC q p ,− ) [33, 146, 206]. Xét thấy rằng những nhân tố này có mức ý nghĩa thấp trong động thái chung của quá trình, người ta có thể bỏ qua không cần dự báo chi tiết về chúng, mà chỉ giới hạn ở mức ước lượng chúng như là hiệu dư giữa những giá trị thực và những giá trị dự báo các nhân tố chung. Ngoại suy các nhân tố với cấu trúc bất đồng nhất Trường hợp bất đồng nhất đơn giản nhất liên quan tới hiện tượng biến thiên trong thời gian của những đặc trưng thống kê cơ bản của các nhân tố chung − những ước lượng kỳ vọng toán học và phương sai. Với những nhân tố như vậy không thể xây dựng được một mô hình dự báo duy nhất với những hệ số không đổi trong thời gian. Ngược lại, trong từng bước phải nắm bắt thêm thông tin mới và cập nhật các hệ số dự báo. Với những mô hình dự báo tự hồi quy mà người ta đã sử dụng, điều này 59 đã được thực hiện như sau: Trước hết tại bước i người ta tính lại: − Ước lượng kỳ vọng toán học: ))1()(( 1 )1()( −−+−= ifif N ifif i ; − Ước lượng độ lệch bình phương trung bình: ))1(( 1 )1()( )()( −−+−= − i N ii ifjf i σσσ ; − Ước lượng các hệ số tự tương quan với các bước dịch pl ,,1= : )]())()(())()([( 1 )()( 11 lriflififif N lrlr i i ii −− −−−−+= . Sau đó tính lại các hệ số hồi quy của phương trình tự dự báo nhân tố chung j (chỉ số j bị bỏ qua cho đơn giản). Thuật to án khác rất hiệu quả để giải quyết các bài toán dự báo những chuỗi thời gian bất đồng nhất dựa trên việc sử dụng thủ tục lọc tối ưu Kalman [40, 210, 240, 259]. Vận dụng thuật toán này đối với các mô hình tự hồi quy cho phép nhanh chóng cải tiến các hệ số hồi quy căn cứ vào những thay đổi gần nhất trong các nhân tố chung và các biến xuất phát. Chẳng hạn, với mô hình tự hồi quy bậc một 1− A P biểu thức tương ứng có dạng )1(),1()( ˆ −= ifibif (4.3) )]1,1()1( ˆ )1()[1( ˆ )()1,1(),1( −−−−−+−= ibifififisibib , )1( ˆ )1(1 ))1( ˆ )1(( )1()( 2 2 −−+ −− −−= ifis ifis isis , trong đó − )(i s hệ số tăng cường Kalman, các trị số của nó xác định mức độ mô hình nhạy cảm với biến động của dữ liệu tại bước i ; − ),1( i b hệ số tự hồi quy tại bước i , −f ˆ giá trị dự báo của nhân tố chung. Các tham số s và b được ước lượng theo những hệ thức truy hồi và là một dạng những chỉ tiêu động thái của quá trình được nghiên cứu. Nhờ những tham số này mà tiền sử của quá trình kết hợp với sự cải tổ tức thời, ngắn hạn của quá trình được sử dụng hữu hiệu trong mô hình. Vì vậy, sau này mô hình như thế được gọi là mô hình ngẫu nhiên − động lực. 4.2. DỰ BÁO NHỮNG LỚP TRẠNG THÁI CỦA CÁC QUÁ TRÌNH Ý đồ dự báo lớp trong thực tiễn thường do hai nguyên nhân − hoặc đó là con đường hữu hiệu duy nhất dự báo sự tiến triển của quá trình chuyển mạch (trigger −process) với nhiều trạng thái tựa ổn định, hoặc đơn giản đó là cơ hội duy nhất để, bằng cách nào đó, đánh giá được xu thế phát triển của một quá trình ngẫu nhiên. Nội dung bài toán dự báo là: làm sao không những phát hiện và mô tả những trạng thái ổn định của quá trình đa chiều, điều này có thể đã thực hiện được trong khuôn khổ chẩn đoán thống kê, mà còn mô tả định tính quy luật tha y thế của các trạng thái trong thời gian. Giống như tr ong trường hợp dự báo cấu trúc quá trình, ở đây một số chỉ tiêu khái quát nào đó của quá trình sẽ được ngoại suy. Những chỉ tiêu đó là những lớp trạng thái; theo kết quả chẩn đoán những lớp này được đặc trưng bởi các vectơ trọng tâm của lớp và các vectơ biến thiên của các tham số quan trắc bên trong lớp. Trọng tâm của lớp i thường là vectơ M chiều những giá trị trung bình của các quan trắc trong lớp đã cho },,{ 1 i Miii x,xx 2 =x . Sự đồng nhất của lớp thường được đặc trưng thông qua vectơ độ lệch bình phương trung bình = i σ },,{ Miii 2 1 , σσσ . Vì vậy, dự báo lớp kết cục quy về dự báo những tham số này − i x và i σ . Sơ đồ dự báo Giả sử ma trận X phản ánh N quan trắc về một quá trình ngẫu nhiên M chiều mà ta cần dự báo lớp trạng thái của nó. Kết quả nghiên cứu chẩn đoán cho " K " lớp đồng nhất ki i , 2 1 ,,, =ω , mỗi lớp trong số 60 các lớp thể hiện một trạng thái quan hệ tương hỗ điển hình của các tham số quá trình thông qua các vectơ giá trị trung bình i x và biến phân i σ . Nói một cách chính xác, mỗi lớp được đặc trưng bởi hàm phân bố thực nghiệm M chiều. Nếu hàm này khác ở mức ý nghĩa thống kê với luật phân bố chuẩn, thì phải lấy những tham số thống kê khác làm các đặc trưng của các lớp, như mốt, biên độ, tứ vị, với mỗi lớp những tham số này cũng thể hiện dưới dạng những vectơ M chiều. Về vấn đề đánh giá những đặc trưng thống kê mẫu trong khi nghiên cứu giải quyết các bài toán khí tượng thủy văn được thảo luận trong các công trình [65, 69, 76, 87, 96, 155, 202]. Dự báo lớp trạng thái của quá trình được xây dựng trên cơ sở những thủ tục xác suất ước lượng sự thay thế các lớp. Sự thay thế được đánh giá theo danh mục các lớp được lập trong khi chẩn đoán. Danh mục là một xấp xỉ về sự phát triển của quá trình X trong thời gian dưới dạng chuỗi W gồm N giá trị, trong đó mỗi lớp trong số k lớp tương ứng với mỗi một vectơ các quan trắc xuất phát },,{ 1 i Miii x,xx 2 =x . Như vậy, quá trình M chiều được thể hiện dưới dạng chuỗi sắp xếp, chứa những giá trị nguyên số hiệu các lớp từ 1 đến k , chính chuỗi này sẽ được ngoại suy bằng những phương pháp thống kê xác suất. Dưới dạng sơ đồ, những thao tác đã liệt kê có thể viết thành: iii K KN M K M N σω 1 ,Ω xPWX . Ở đây ta chú ý tới một thực tế rằng trong bản thân ma trận dự báo P vắng mặt biến thời gian. Thời gian được thay thế bằng các xác suất thay thế một lớp này bởi lớp khác ji p : j ω thay cho i ω . Ma trận các xác suất P thực tế mô tả động thái của quá trình M chiều không phải trong không gian các quan trắc, mà trong không gian pha các trạng thái. Vì vậy, nội dung dự báo quy về tìm một trạng thái (pha) khả dĩ nhất nối tiếp sau pha phát triển hiện hành của quá trình (chiến lược 1) hoặc tìm xác suất trạng thái của một pha được cho tiên định của quá trình (chiến lược 2). Chiến lược dự báo một bước Tiên đề rằng ma trận các xác suất chuyển tiếp của các lớp P là đặc trưng đầy đủ để xây dựng dự báo là một tiên đề chung nhất cho phần lớn các chiến lược dự báo xác suất. Công việc hình thành dự báo chính là ngoại suy các xác suất xuất hiện của các lớp trong khoảng thời gian báo trước theo quy tắc đã đề xuất dựa trên mô hình xác suất đã chấp nhận − danh mục các lớp. Cơ sở đề xuất quy tắc dự báo thường là giả thiết về tính Markov và tính đồng nhất của chuỗi lớp W được kiểm tra bằng tiêu chuẩn 2 χ của Pierson [44, 65, 259]. Khi thoả mãn giả thiết này, ma trận P được xấp xỉ qua các xác suất có điều kiện thông thường của sự xuất hiện các lớp: Nnp jiji / = , trong đó − ji n số trường hợp quan trắc lớp i ω . Khi đó việc thực hiện chiến lược dự báo chính là làm sao xác định được lớp i ω với xác suất chyển tiếp cực đại có thể trong pha phát triển hiện hành ( j ) của quá trình. Theo kiểu sơ đồ có thể viết chuỗi lôgic này dưới dạng sau: iji Ki j pp ωω = max , )(max 1 . Một tình huống p hức tạp hơn nhiều sẽ xuất hiện trong trường hợp xác suất i p xuất hiện các lớp dự báo i ω không cao. Khi đó sẽ tăng đáng kể tính bất định của ước lượng các trị số của những xác suất chuyển tiếp có điều kiện ii p , ji p và giảm chất lượng của việc dự báo dựa trên cách tiếp cận Markov phân tích xác suất kinh điển. Phương pháp khả dĩ thay thế trong trường hợp này có thể là phép thống kê Bayes, trong đó cơ sở để ước lượng các xác suất là tính đến ước lượng định lượng về độ bất định của các tham số dự báo. Để thực hiện điều này, đã đưa ra khái niệm xác suất chuyển tiếp kinh nghiệm, được tính theo công thức pip K l jll jii ji xa pp pp p ˆ 1  = = σ (4.4) 61 và chứa các ước lượng xác suất chuyển tiếp có điều kiện ij p và các xác suất khí hậu tiên định i p xuất hiện lớp i ω . Bằng chính cách đó, đối với mỗi pha quá trình nhờ phương pháp Bayes có thể tính được những hàm phân bố xác suất có điều kiện, dựa trên đó mà thực hiện ước lượng dự báo. Trên hình 4.1 thể hiện bằng Hình 4.1. Sự tiến triển trong thời gian của quá trình đa chiều theo quan điểm động lực xác suất )( p của các lớp trạng thái )(w được cho trước một cách tiên định sơ đồ sự tiến triển quá trình đa chiều theo quan niệm động lực xác suất của các lớp trạng thái đã biết trước một cách tiên lượng. Thấy rõ rằng trong mỗi lần, pha phát triển của quá trình được đặc trưng bởi hàm xác suất đặc thù. Ta nhận thấy rõ sự biến động của số hiệu lớp với cực đại xác suất chuyển tiếp max ji p và những dao động từ pha này sang pha khác của chính đại lượng max p . Nếu giữ nguyên chiến lược đang xét, ta có thể hiện thực hoá chiến lược này bằng cách thay thế đơn thuần các xác suất chuyển tiếp Bayes σ ji p vào chỗ ji p . Khi đó ước lượng xác suất dự báo có thể tách ra trên hình vẽ bằng đường cong gạch chấm. Hình chiếu của đường cong này lên mặt phẳng ),( tp cho phép theo dõi trong thời gian về mức độ ngẫu nhiên hoá của quá trình trong từng pha phát triển của nó. Giá trị xác suất kinh nghiệm càng cao ( 1 max → ji p ) thì tính xác định trong sự phát triển quá trình càng thể hiện mạnh, khi đó sự thay thế cặp lớp j ω và i ω trong thời gian có tính xác định đơn trị. Ngược lại, khi giảm xác suất kinh nghiệm 0 → max ji p có thể khẳng định sự ngẫu nhiên hoá của quá trình trong khuôn khổ tập hợp các lớp trạng thái đã chọn, điều này làm giảm tính hiệu quả của phương pháp luận dự báo đang xét. Khai thác thông tin trong khi dự báo lớp Sự ngẫu nhiên hoá của quá trình nhận thấy khi max ji p giảm mạnh có thể xem như nhân tố liên hệ nghịch, nếu trong chiến lược dự báo có tính tới chuỗi xích nghịch. Vấn đề là ở chỗ không hiếm khi sự giảm max ji p là do sự biến đổi cấu trúc bên trong của các mối liên hệ giữa các tham số quan trắc chưa được thể hiện trong sơ đồ phân loại ở giai đoạn chẩn đoán. Vì vậy cần phải quay trở lại nhiệm vụ phân loại tối ưu, bổ sung vào thủ tục phân chia chẩn đoán của phương pháp phân loại tự động toàn bộ thông tin mới tích luỹ. Sơ đồ lôgic tính toán cho thời điểm t sẽ có dạng ijiji Ki j K K f N M K M N pp ωωΩ σ = max , )(max 1 PWX K M t Ω (N+ Δ N) N 1 X t Ở đây − 1 X ma trận dữ liệu xuất phát được bổ sung thêm các quan trắc, −Ω 1 sự phân chia lớp có hiệu chỉnh, còn −W danh mục lớp mới. Kết thúc mục này, phải nhận xét rằng trong thực hành hải dương học, ước lượng dự báo Bayes hiện giờ đang được sử dụng rất ít. Chỉ có một số ít công trình công bố về đề tài này [155, 214, 257]. Triển vọng ứng dụng của phương pháp này tuỳ thuộc vào hiệu quả kinh tế. 4.3. KẾT HỢP CÁC MÔ HÌNH DỰ BÁO Như đã thấy trong các mục trước, khó mà chỉ ra một phương pháp tối ưu duy nhất dự báo các quá trình đa chiều. Người nghiên cứu thường có cơ hội tiến hành dự báo theo một số mô hình dự báo, sau đó chọn lấy 62 một ước lượng vectơ trạng thái quá trình nào đạt nhất. Sự chọn lựa này không phải bao giờ cũng tối ưu và tuỳ thuộc nhiều nhân tố chủ quan. Tuy nhiên vẫn có khả năng chính thức hoá thủ tục tối ưu hoá việc dự báo quá trình đa chiều, nếu sử dụng ý tưởng kết hợp thống kê các dự báo một chiều và những thuật toán tính toán hình thức thích ứng. Thực ra bản thân ý tưởng kết hợp một số phương ph áp dự báo ít tin cậy để tạo ra ước lượng dự báo tối ưu duy nhất đã được thảo luận trong những năm sáu mươi ở các công trình của N. A. Bagrov và E. P. Borixenkov đối với các bài toán khí tượng. Một phương pháp luận tương ứng đã hình thành sau đó có tính tới cả đặc thù của các dự báo khí tượng [14, 35, 36, 65]. Chúng ta sẽ thử khái quát một số phương pháp kết hợp dự báo n hững chuỗi thời gian để sau đó chuyển sang thảo luận khả năng kết hợp dự báo các quá trình đa chiều. Nội dun g cơ bản của phương pháp luận kết hợp hiện đang giới hạn trong khuôn khổ những mô hình kết hợp tuyến tính dạng  = = l p pipki xax 1 ˆˆ (4.5) trong đó − k x ˆ chuỗi các dự báo kết hợp, Ni ,,2,1= ; − pi x ˆ ước lượng dự báo của đại lượng x theo phương pháp dự báo p cho thời khoảng i ; − p a những hệ số kết hợp. Các phương pháp kết hợp khác nhau tuỳ thuộc vào dạng của các mô hình dự báo được sử dụng (định lượng hay định tính), cũng như theo phương pháp tính những hệ số kết hợp. Khi ước lượng những hệ số p a người ta sử dụng một số cách tiếp cận. Cách đơn giản nhất − kết hợp bằng trung bình số học, khi các hệ số bằng nhau: laa l /1 1 === . Cách khác − kết hợp hồi quy, khi những giá trị p a tương ứng với những hệ số hồi quy p x ˆ của x . Việc tính toán tiến hành theo sơ đồ tính của hồi quy tuyến tính đa biến (xem chương 1), điều đó cho phép trên tập xuất phát đang xét cực tiểu hoá được sai số bình phương trung bình của dự báo kết hợp ε tính theo công thức 11 DD / x σ=ε . Ở đây − D định thức, còn − 11 D ma trận con tương ứng của ma trận tương quan đầy đủ của các dự báo, −σ x độ lệch bình phương trung bình của chuỗi quan trắc x . Độ chính xác các dự báo kết hợp trong cách tiếp cận này sẽ được mô tả thông qua những hệ số tương quan giữa các quan trắc x và những giá trị dự báo p x ˆ . Trong trường hợp độc lập của các chuỗi ước lượng dự báo, công thức tương ứng có dạng 1 1 2  = −σ=ε l j jx xxr ) ˆ ( . Ta sẽ phân tí ch khả năng kết hợp dự báo đối với quá trình đa chiều X gồm N quan trắc về M biến (dấu hiệu). Giả sử đối với mỗi dấu hiệu tồn tại khả năng đưa ra N dự báo liên tiếp trong thời gian, bằng cách sử dụng l phương pháp khác nhau. Khi đó phải tối ưu hoá ma trận ba chiều các dự báo kích thước lMN ×× tương ứng với ma trận các quan trắc MN × . Nhằm mục đích này, ta thử sử dụng hệ phương pháp kết hợp hồi quy: muốn vậy với giả thiết đồng nhất các quan trắc xuất phát, ta biểu diễn ma trận X dưới dạng vectơ cột 1)( ×× MN . Bằng cách tương tự, ta biến đổi ma trận các dự báo kết hợp X ˆ thành ma trận hai chiều gồm )( MN × dòng và l cột. Để tính các dự báo kết hợp trong điều kiện biểu diễn các dữ liệu xuất phát như vậy chỉ cần đánh giá vectơ từ l hệ số hồi quy A và thiết lập phương trình: εAXX 11 +⋅= ×× l l MNMN ˆ )()( . Những tính t oán tương ứng có thể thực hiện theo thuật toán hồi quy tuyến tính đa chiều (xem chương 1), còn sai số bình phương trung bình của sự kết hợp − ước lượng theo các công thức đã dẫn ở trên. 63 Sự thành công của phép kết hợp hồi quy và cực tiểu hoá sai số sẽ được quyết định bởi hai điều kiện: − Tính đồng nhất thống kê của vectơ các quan trắc X ; − Tính ổn định của các mối liên hệ ) ˆ ,( j xxr . Trong trường hợp nếu m a trận các quan trắc là một tập hợp bất đồng nhất N quan trắc M biến, nên chuyển sang vận dụng phép kết hợp xác suất [44, 65, 76, 217]. Khi đó chuỗi các quan trắc được biểu diễn như một chuỗi tuần tự của k lớp (trạng thái) quá trình và đưa ra các dự báo theo l phương pháp. Khi đó dự báo kết hợp dưới dạng xác suất có thể viết như sau:       =                   ⋅⋅ ⋅⋅ =  = l i jii k j pa P P P P 1 2 1 P , (4.6) trong đó − i a tỉ trọng cho trước tiên định của phương pháp dự báo, − ji p xác suất dự báo bằng phương pháp i của cấp trạng thái j của quá trình. Quy tắc quyết định để ước lượng các tỉ trọng của các phương pháp riêng biệt có thể đưa ra trên cơ sở công thức Bayes. Nhờ kết quả tính toán dự báo kết hợp, quá trình đa chiều sẽ được biểu diễn bằng một bảng các xác suất xuất hiện tất cả những trạng thái có tính tới tất cả những phương pháp xuất phát. 4.4. TÍNH KHẢ BÁO THỐNG KÊ CỦA CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC Việc ước lượng sự biến động các quá trình hải dương trực tiếp liên quan tới việc phân tích tính khả báo của chúng. Để giải quyết thành công bài toán này, thứ nhất, đòi hỏi xây dựng các mô hình toán đúng đắn về các quá trình nghiên cứu; thứ hai, phải mô tả những tính chất dự báo của các mô hình này, và cụ thể, xác định những giới hạn tính khả báo của các quá trình với những quy mô không gian − thời gian khác nhau. Nhiệm vụ cơ bản của lý thuyết kinh điển về tính khả báo là làm sao đánh giá tốc độ tích luỹ những sai số bé tồn tại trong mô hình dự báo. Trong mô hình bất kỳ, tính khả báo sẽ phụ thuộc vào bản chất các sai số của mô hình quá trình chấp nhận, cũng như vào những sai số quan trắc quá trình. Đại dương được quan niệm như là một hệ đa thành phần phức tạp, sự tương tác giữa c ác hợp phần của nó mang tính chất ngẫu nhiên. Phù hợp với định nghĩa này, hoàn toàn có quyền hướng tới những mô hình thống kê, những mô hình này cho ta khái niệm về sự tiến triển các hiện tượng khí tượng thủy văn trong thời gian như về một quá trình ngẫu nhiên )(tX và cho phép đặt bài toán nghiên cứu những khả năng ngoại suy thống kê quá trính này. Các mô hình thống kê ngày càng được ứng dụng hữu hiệu cho các mục đích chẩn đoán và dự báo những quá trình khí tượng thủy văn. Nhờ chúng có thể mô tả cấu trúc thống kê, và hệ quả là xác lập được những giới hạn khả báo thống kê của các quá trình nghiên cứu [151]. Việc giải quyết đúng đắn bài toán này phụ thuộc nhiều vào dạng thông tin xuất phát (số chiều của vectơ các dấu hiệu, khoảng gián đoạn quan trắc) và dạng của mô hình thống kê được chọn. Tính khả báo của mô hình quá trình một chiều Hiện nay khi nghiên cứu những quá trình hải dương phần lớn các tác giả coi trọng những mô hình tự hồi quy bậc 1 ( 1−AP ). Chính những tham số của các mô hình là cơ sở cho các kết luận về cấu trúc thống kê của các chuỗi thời gian và những giới hạn khả báo thống kê. Điều này được giải thích là do: những quá trình khí quyển được mô tả bởi mô hình phổ loại "nhiễu trắng", còn những quá trình hải dương − bởi mô hình "nhiễu đỏ". Từ đó suy ra kết luận về tính quán tính yếu của các quá trình khí tượng thủy văn, giới hạn dự báo được về mặt thống kê là khoảng báo trước bằng một bước thời gian. 64 Những kết quả này đơn trị xác định tính khả báo loại 1 và loại 2 [234]. Chúng tôi nhắc lại rằng tính khả báo loại 1 − đó là khoảng thời gian báo trước ( τ), trong đó sai số bình phương trung bình của dự báo ( 2 ε σ ) trở nên gần bằng với phương sai của quá trình ( 2 pc σ ). Như vậy tính khả báo thống kê loại 1 được đặc trưng định lượng bằng sai số dự báo: sai số càng nhỏ, tính khả báo càng cao. Trong thực tế dự báo biển thường người ta sử dụng phương sai tương đối của các sai số dự báo d hay tiêu chuẩn chất lượng dự báo Q : dQd =σσ= Φε 22 ,/ , (4.7) trong đó −σ ε 2 phương sai sai số dự báo, −σ Φ 2 phương sai của chuỗi được dự báo. Rõ ràng, các đại lượng d và Q càng nhỏ thì mô hình dự báo càng dự báo tốt. Trong trường hợp 0 == Qd quá trình được dự báo là quá trình luật nghiệm và do đó, nó được mô tả đơn trị bằng mô hình luật nghiệm. Khi 1 == Qd quá trình là nhiễu trắng và dự báo tốt nhất là dự báo khí hậu, tức dự báo giá trị trung bình. Một ước lượng khác về hiệu quả dự báo là ước lượng gián tiếp d theo hệ số tương quan r giữa những giá trị thực và giá trị dự báo tuỳ thuộc vào thời gian báo trước của dự báo [151]: τ −= 2 1 rd , (4.8) trong đó − τ giới hạn khả báo thống kê. Từ [234] suy ra rằng: việc xác định giới hạn khả báo thống kê trực tiếp phụ thuộc vào các tham số của những xác suất thống kê được sử dụng, và cụ thể phụ thuộc vào phương sai tương đối của sai số dự báo: r d ln 2 1 ln )( − =τ , (4.9) trong đó d được chấp nhận n hỏ hơn 1. Ta nhận thấy rằng tất cả những chỉ tiêu đã dẫn là những ước lượng thống kê có độ chính xác được quy định bởi những khoảng tin cậy của các tham số có mặt trong biểu thức của chúng. Do đó, chúng tôi sẽ dẫn thêm một chỉ tiêu nữa để xác định giới hạn dự báo được: z z σ−≤τ 2 , (4.10) trong đó −z tham số Fisher       − + = r r z 1 1 2 1 ln ; −σ z sai số tính toán bình phương trung bình lý thuyết ( )/( 31 −=σ N z ). Nhiều tác giả [ 35, 65, 69, 135, 146] đã tiến hành phân tích những chuỗi khí tượng thủy văn bằng các mô hình thống kê tuyến tính. Kết quả đã nhận được những biểu thức quan hệ quan trọng giữa các tham số mô hình và các sai số dự báo có thể có. Chẳng hạn, người ta đã xác định được rằng việc dự báo sẽ có nghĩa khi 9,0 ≤d . Tuy nhiên, với tư cách là những chỉ tiêu dự báo thực tiễn, người ta đưa ra những điều kiện cụ thể hơn và khá khắc nghiệt: Φ σ6740, và −σ Φ 80, những trị số tương ứng với d45,0 và d74,0 . Vì vậy, điều quan trọng là phải xác lập được những biểu thức liên hệ giữa độ xác thực của dự báo với những chỉ tiêu về độ chính xác đang xét và các tham số của mô hình xác suất thống kê. Thí dụ, mức 45,0=d đảm bảo độ xác thực dự báo với điều kiện sai số dự báo không vượt quá Φ σ6740, trong 100% trường hợp. Mức 74,0 =d đảm bảo độ xác thực dự báo 100% khi Φ σ≤ε 80, . Từ những tương quan đã nêu dễ dàng xác lập được sự liên hệ tuyến tính giữa d và độ xác thực của phương pháp dự báo tại mức sai số đang xét, từ đó rút ra rằng về trung bình, mức 74,0 ≤d đảm bảo dự báo xác thực theo chỉ tiêu Φ σ≤ε 6740, (hình 4.2). Theo ý kiến chúng tôi, những kết quả này rất quan trọng đối với người làm công tác dự báo thực tiễn, vì nó cho phép không chỉ xác định giới hạn dự báo được về thống kê của các phương pháp, mà còn phân biệt xem các phương pháp xác suất thống kê, những vùng địa lý, quy mô thời gian và bản thân những đặc trưng được dự báo có thuận hay không thuận về phương diện dự báo. Thực tế là mô hình ngẫu nhiên cho phép tổng quát hoá, phân loại và làm căn cứ cho chẩn đoán và dự báo vật lý các quá 65 trình khí tượng thủy văn. Tính khả báo loại 2 − đó là những biến đổi có thể có của đặc trưng được dự báo phụ thuộc vào những biến đổi của các tiên lượng. Để xác định tính khả báo loại 2 phải xây dựng mô hình vật lý đúng đắn về quá trình. Sau đó, cho thay đổi các tham số mô hình để xác định giới hạn biến thiên của đại lượng được dự báo. Ta thấy rằng để xác định giới hạn dự báo được về thống kê loại 1 cũng cần xây dựng mô hình về quá trình được dự báo, dù ở mức xấp xỉ. Như vậy rõ ràng có mối liên hệ giữa tính khả báo loại 1 và loại 2, được quy định bởi kiểu của mô hình. Hình 4.2. Phụ th uộc lý thuyết giữa độ xác thực dự báo Q và phương sai tương đối của sai số dự báo dd / 0 Trong [44] cho biết rằng không thể mô tả các quá trình hải dương khác nhau chỉ bằng một mô hình nào đó. Điều này cũng đúng khi ta mô tả hành vi của từng quá trình riêng biệt trong thời gian: tại những thời đoạn khác nhau thì có những mô hình xác suất thống kê khác nhau vận hành. Vì vậy, kết luận về tính phù hợp của các mô hình 1− A P với các quá trình khí tượng thủy văn và giới hạn dự báo được tương đối không lớn của chúng chỉ nên xem là kết luận gần đúng bước đầu. Ý tưởng kết hợp những mô hình dự báo đơn và đưa ra dự báo tối ưu có những ưu việt ngay cả dưới góc độ phân tích tính khả báo thống kê. Tính khả báo của quá trình trong khuôn khổ mô hình kết hợp thường cao hơn tính khả báo trung bình của những mô hình dự báo đơn xuất phát. Điều này sẽ trở nên rõ ràng nếu tính tới điều kiện chất lượng của mô hình hồi quy kết hợp đã được chứng m inh bằng lý thuyết [13, 14, 44, 65, 153]: dự báo kết hợp bao giờ cũng không kém hơn từng dự báo thành phần. Với tính khả báo loại một, khẳng định này tương ứng với điều kiện cực tiểu hoá phương sai sai số dự báo và tăng tương quan giữa những trị số thực tế và trị số dự báo của mô hình kết hợp, tức dẫn tới tăng giới hạn cực đại của tính k hả báo τ . Tính khả báo của quá trình đa chiều Giữ nguyên những khái niệm cơ bản về tính khả báo thống kê khi chuyển sang phân tích các quá trình đa chiều, phải làm chính xác hoá một số điểm. Tính khả báo của các quá trình đa chiều sẽ được xét từ quan điểm đánh giá tính khả báo của các tham số thống kê tổng quát đặc trưng cho một kiểu cụ thể của mô hình dự báo. Tính khả báo của cấu trúc quá trình đa chiều có thể đánh giá trên cơ sở phân tích những tính chất dự báo của mô hình khai triển trực giao dạng EAFX ˆˆˆ +⋅= T . Ở đây vectơ giá trị của các thành phần độc lập (các nhân tố) là đặc trưng được dự báo, dưới dạng tổng quát đặc trưng này chuyển tải những nét quan trọng nhất trong cấu trúc quá trình nghiên cứu X . Ngay từ các công trình [71, 91, 96, 115, 154] đã cho thấy rằng những thành phần khai triển đầu tiên ( f ), với phương sai lớn gấp ít nhất hai lần phương sai sai số quan trắc, sẽ mô tả những biến thiên dài hạn của cấu trúc các quá trình. Dưới góc độ tự tương quan, tính chất này tương đương với sự tăng bán kính tương quan và tăng độ ổn định của các hàm tự tương quan đối với các thành phần khai triển đầu tiên so với các đặc trưng trung bình của các hàm tự tương quan của các biến xuất phát. Mức độ tăng tính khả báo hiện nay chưa chứng minh được bằng lý thuyết, mặc dù sự phụ thuộc này vào số chiều của quá trình xuất phát và mức độ nén thông tin trong các thành phần khai triển đầu tiên là hiển nhiên. Do sự độc lập của các thà nh phần khai triển, tính khả báo của mỗi [...]... khái niệm tính khả báo lượng tử [65, 153] mà nội dung của nó quy về phân tích xác suất về sự ổn định duy trì những trạng thái riêng lẻ và sự chuyển tiếp qua lại Tính khả báo loại 2 khi đó sẽ được ước lượng theo biến lượng của các thành phần chính mà mức ý nghĩa các dao động tự tương quan mẫu của chúng sẽ là thước đo về sự nhạy cảm của mô hình dự báo đối với những biến thiên của các tiên lượng Sự cập... khả báo chung, thì những dao động tính khả báo loại 1 có thể ước lượng qua hệ số tương quan hạng của Spirmen Chương 5 - NHỮNG KẾT QUẢ CHẨN ĐOÁN THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC Trong những chương trước đã xét một số vấn đề cụ thể khảo sát hải dương học ứng dụng, giải quyết bằng cách sử dụng một phương pháp thống kê đa biến duy nhất nào đó Khi tiến tới những bài toán tổng quát hơn về chẩn đoán các. .. tỉ trọng của thành phần j , k − số các thành phần chính được xét Việc ứng dụng các phương pháp phân loại tự động cho phép chúng ta dựa vào kết quả chẩn đoán mà xây dựng được mô hình tiến triển của quá trình được nghiên cứu theo nghĩa sự thay thế các lớp trạng thái Như vậy, chuỗi các vectơ quan trắc đa chiều X được biến đổi thành chuỗi một chiều các lớp trạng thái ( ω ), ước lượng khả báo của nó có... trình hải dương, như đã thấy ở chương 4, ta phải áp dụng một số phương pháp phân tích thống kê đa biến Dưới đây sẽ dẫn những thí dụ minh hoạ về những khả năng hiện thực và tiềm năng ứng dụng phương pháp luận chẩn đoán này trong ba bài toán điển hình của hải dương học ứng dụng: 1) Mô tả biến động không gian − thời gian của nhiệt độ mặt đại dương; 2) Mô tả cấu trúc ba chiều của nước theo một tập hợp đặc... những công thức của d , Q, τ đã dẫn ở trên Mỗi thành phần chính đặc trưng một đặc thù trong cấu trúc quá trình Vì vậy, khi đánh giá tính khả báo của từng thành phần, người nghiên cứu có cơ hội phân tích chi tiết bản chất tính khả báo của quá trình đa chiều trong khuôn khổ mô hình đang xét Tính khả báo tổng cộng của quá trình đa chiều được ước lượng bằng tổng những ước lượng đơn đối với các thành phần... nhiều hơn hai Ước lượng tính khả báo khi cập nhật thông tin Việc đánh giá tính khả báo trở thành vấn đề rất cấp thiết khi xây dựng những mô hình thích ứng tính tới mối liên hệ ngược: mô hình − thông tin Chúng ta sẽ xét hai phương án mô hình như trong mục 4. 1 và 4. 2 Sự biến đổi tính khả báo của mô hình khai triển trực giao có thể liên quan đơn trị với động thái của các hệ số tự tương quan trong quá... chiều của nước theo một tập hợp đặc trưng thủy vật lý; 3) Mô tả các khối nước Ta sẽ dần dần dẫn ra những kết quả tính toán kèm theo sự đánh giá độ tin cậy của những đặc trưng thống kê nhận được và lý giải vật lý về chúng, điều này cho thấy tính công hiệu của phương pháp luận chẩn đoán thống kê Những đối tượng địa lý được nghiên cứu là các vùng thuộc Bắc Đại Tây Dương, biển Na Uy và biển Bellinshauzen;... trong các mô hình "lớp trạng thái" trong trường hợp đơn giản nhất sẽ dẫn tới làm biến thiên độ ổn định của sự xuất hiện và chuyển tiếp qua lại giữa các lớp đã phân chia Những dao động 66 tương ứng về xác suất chuyển tiếp sẽ được theo dõi trong điều kiện sử dụng các thủ tục ước lượng Bayes (xem mục 4. 2), cho chúng ta khái niệm về sự biến thiên tính khả báo cục bộ của những cấu trúc riêng biệt của quá... bước dịch τ = 1 ; ω(i ) − số diện của nó, bao gồm cả các dự báo "độc lập" đứng ngay trước thời điểm đã cho N −1 i =1 hiệu lớp trạng thái tại thời điểm i ; N − độ dài tập mẫu Sự hiện diện của ước lượng này về nguyên tắc cho phép đưa ra đặc trưng khả báo loại 1 và loại 2 trên cơ sở tính toán các chỉ tiêu τ và d Tuy nhiên, khi quá trình thể hiện tính đa mốt rõ rệt thì cách tiếp cận kinh điển tỏ ra kém... Tính tự tương quan của các thành phần (nhân tố) chính có thể có biến động mẫu, cái đó dẫn tới những dao động về tính khả báo Tính khả báo loại một ( τi ) không còn là hằng số nữa và tại thời điểm i có thể ước lượng theo công thức 1n (1 − d i ) τi = , 21n ri r (1) = 1 − 6  (ω(i) − ω (i + 1))2 / ( N 2 − 1) N , trong đó phương sai sai số ( d i ) và tương quan giữa các ước lượng thực và dự báo ( ri ) được . người làm công tác dự báo thực tiễn, vì nó cho phép không chỉ xác định giới hạn dự báo được về thống kê của các phương pháp, mà còn phân biệt xem các phương pháp xác suất thống kê, những vùng địa. Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA CHIỀU Những kết luận khi tiến hành chẩn đoán thống kê cung cấp cho ta khái niệm về cơ chế của quá trình đa chiều, quá trình. khoảng cách Magalonobis và mức thoả mãn các giả thiết phù hợp luật phân bố chuẩn. Hiện nay , kỹ thuật của phương pháp phân tích phân biệt phi tham số đang phát triển. Hệ phương pháp phân tích phân

Định dạng
Số trang	12
Dung lượng	402,71 KB