ứng. Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm pdf

18 Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC QUÁ TRÌNH 1.1. PHÂN TÍCH HỒI QUY ĐA CHIỀU. HỒI QUY TUYẾN TÍNH ĐA CHIỀU Đặt bài toán Hiện nay, công cụ hồi quy tuyến tính đa biến là một trong những phương tiện thống kê toán học được xây dựng hoàn thiện nhất. Giống như nhiều ý tưởng khác, khái niệm phân tích hồi quy được Gauss hình thành hơn một trăm năm trước đây. Hệ phương pháp được áp dụng rộng rãi hầu như trong tất cả các khoa học ứng dụng, điều đó làm cho nó phát triển mạnh và thích hợp với nhiều bài t oán [70, 80, 139, 140,163, 190]. Trong thực tiễn nghiên cứu khí tượng thủy văn, p hương pháp hồi quy tuyến tính đa biến được sử dụng nhiều nhất để mô tả và dự báo những biến riêng rẽ trên cơ sở tính đến ảnh hưởng của một số nhân tố tác động. Ngoài ra, phương pháp hồi quy tuyến tính đa biến thường sử dụng để giải quyết những vấn đề liên quan tới nội suy các trường hải dương trong không gian cả theo phương thẳng đứng lẫn theo phương ngang. Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều phương pháp khác nghiên cứu những mối phụ thuộc giữa các biến [12, 72, 144]. Lời phát biểu tổng quát bài toán hồi quy tuyến tính đa biến dưới đây có thể phổ biến sang một loạt các mô hình phân tích hồi quy khác. Chẳng hạn, cho trường hợp hồi quy đa thức mà phương trình cơ bản của nó có thể lập trên cơ sở hồi quy tuyến tính với một phép thay thế biến tương ứng. Chúng ta muốn m ô tả biến động của một biến phụ thuộc như một hàm ảnh hưởng của một nhóm các biến độc lập M xxxx , , , , 321 . Giả sử rằng ảnh hưởng của mỗi trong số M biến độc lập j x lên biến phụ thuộc y có thể mô tả bằng ảnh hưởng tuyến tính. Khi đó phương trình cơ bản của hồi quy tuyến tính đa biến có dạng  = +=+−+= M j iiijijji eyexxaay 1 0 ˆ )( , (1.1) trong đó −i số hiệu quan trắc trong tập giá trị mẫu độ dài N , ( Ni , ,1= ), −j số hiệu biến độc lập j x ( Mj , ,1= ); − M aaaa , , , , 210 những hệ số hồi quy tuyến tính; − j x trị số trung bình của biến j         =  = N i jij x N x 1 1 ; − i y ˆ trị số quan trắc thứ i của biến phụ thuộc, được khôi phục nhờ phương trình hồi quy; − i e sai lệch giữa trị số khôi phục i y ˆ và trị số quan trắc i y . Giải bài toán xây dựng mô hình hồi quy tuyến tính đa biến quy về tìm những trị số của các hệ số hồi quy M aaaa , , , , 210 sao cho khôi phục được sự biến thiên của biến phụ thuộc y với các sai số e nhỏ nhất. Vì người ngh iên cứu chưa biết những trị số thực của các hệ số hồi quy, nên phải thực hiện ước lượng thống kê những hệ số này dựa trên cực thiểu hoá phương sai sai số R s :  = →− − = N i iiR yy N s 1 2 min) ˆ ( 1 1 . Phươn g pháp truyền thống tìm những trị số M aaaa , , , , 210 theo điều kiện này là phương pháp bình phương tối thiểu, hiệu quả sử dụng phương pháp này, và do đó, độ chính xác của phương trình hồi quy tuyến tính đa biến, phụ thuộc vào những điều kiện đơn giản sau: − Sao cho các sai số hồi quy có trị số trung bình bằng không: 19  = == N i i e N e 1 0 1 (ở đây dấu e chỉ toán tử kỳ vọng toán học của chuỗi e ); − Những biến ảnh hưởng phải độc lập thống kê với nhau: 0),( = lj xx khi lj ≠ . Nói cách khác, chúng không tương qua n với nhau: 0),( = lj xxr . Nếu thoả m ãn những tính chất kể trên, việc tính các trị số của những hệ số hồi quy sẽ quy về giải hệ phương trình chuẩn tắc dạng ,                 ⋅⋅⋅⋅ = =                 ⋅⋅⋅ ⋅                 ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅          iMi ii i M MiiMiiMiMi Miiiiii Miii yx yx y a a a xxxxxx xxxxxx xxxN 1 1 0 2 2 1 1 2 1 2 1 1 2 1 . . . . . . . . . trong đó tổng (Σ) lấy theo toàn độ dài tập mẫu gồm N quan trắc. Rõ ràng, khi số lượng biến lớn ( 3>M ) cách viết theo từng thành phần như trên trở nên rất cồng kềnh. Dạng viết ma trận sẽ thuận tiện hơn. Độc giả nên ôn lại những khái niệm cơ bản về đại số ma trận trong [12, 86]. Để chuyển sang dạng viết ma trận, ta đưa ra những khái niệm sau: −y vectơ cột các giá trị quan trắc gồm N trị số, {} −−−− , , 21 T yyyyy các giá trị quy tâm theo trung bình số học  = == N i i y N ay 1 0 1 ; −X ma trận các trị số của những biến độc lập, gồm N dòng, M cột (dòng thứ i là vectơ quan trắc về M biến, cột thứ j là vectơ gồm N trị số của biến j ); −A vectơ cột những hệ số hồi quy {} M aaaa 210 T ,,,,=A ; −E vectơ cột gồm N sai số của mô hình hồi quy. Với những ký hiệu mới này, phương trình cơ bản của hồi quy tuyến tính đa biến có dạng EAXY T +⋅= . Hệ cá c phương trình chuẩn tắc để ước lượng những hệ số hồi quy được viết như sau YXAXX ⋅=⋅⋅ TT )( , chỉ số T chỉ ma trận chuyển vị hay vectơ chuyển vị (xem [3, 12, 86]). Thấy rằng, nếu chuyển ma trận )( T XX ⋅ sang vế phải, nghiệm của hệ phương trình chuẩn tắc sẽ được viết dưới dạng YXXXA ⋅⋅⋅= − TT )( 1 . (1.2) Nghiệm của bài toán hồi quy tuyến tính đa biến dưới dạng (1.2) có một loạt những tính chất đáng giá đối với người nghiên cứu: − Theo định nghĩa, vectơ giá trị của các hệ số hồi quy {} M aaaa 210 T ,,,,=A làm cực tiểu tổng bình phương các sai số, khẳng định tính tối ưu của mô hình này so với nhiều mô hình khác cùng loại; − Bản thân những hệ số hồi quy j a là những hàm tuyến tính của các quan trắc Y và là những ước lượng không chệch của những giá trị hệ số hồi quy thực (nhưng chưa biết); − Những ước lượng các hệ số hồi quy có phương sai cực tiểu so với tất cả những ước lượng tuyến tính khác. 20 Ta sẽ xét một đặc trưng quan trọng nữa của mô hình hồi quy tuyến tính đa biến, gọi là hệ số tương quan đa biến 0 R . Chỉ tiêu này là một đặc trưng định lượng về sự tương tự giữa những trị số y quan trắc và y ˆ tính toán của biến phụ thuộc. Hệ số tương quan đa biến tính theo công thức   == = −− −− = N i i N i N i ii yyyy yyyy R 1 2 1 2 1 1 0 ) ˆ ()( ) ˆ )(( . (1.3) Đại lượng 2 0 R gọi là hệ số xác định, vì nó là đặc trưng khái quát đơn giản về hệ số tương quan ),( 2 yxr cho trường hợp nhiều biến độc lập và tỷ lệ với phần phương sai của biến y được mô tả bởi mô hình hồi quy. Trong trường hợp một biến độc lập, ta có đẳng thức ),( 22 0 yxrR = . Dễ dàng nhận thấy rằng khi 1 2 0 =R thì những giá trị quan trắc và tính toán của biến độc lập hoàn toàn trùng nhau. Ý nghĩa của hệ số tương quan đa biến có phần khác so với quan niệm về hệ số tương quan cặp kinh điển. Vấn đề là hệ số tương quan đa biến có giới hạn biến thiên từ 0 đến 1 và, do đó, nó không cho biết dấu liên hệ giữa y và tập hợp M xx , , 1 . Ngoài ra, đại lượng hệ số tương quan đa biến có thể lớn hơn hoặc bằng hệ số tương quan cặp cực đại ),( yxr jj trong ma trận số liệu đang xét. Nên giải thích hệ số tương quan đa biến như là đại lượng liên hệ tuyến tính tổng quát giữa biến phụ thuộc và các biến độc lập đã chọn, đồng thời là chỉ tiêu về hiệu quả của mô hình hồi quy tuyến tính đa biến. Điều khẳng định này xuất phát từ thực tế rằng bình phương của hệ số tương quan đa biến về trị số bằng p hần phương sai của biến y mà phương trình hồi quy tuyến tính đa biến có thể mô tả. Ý nghĩa hình học của hồi quy tuyến tính đa biến Giả sử có hệ tọa độ với ba trục: nhiệt độ, độ muối và mật độ quy ước của nước (hình 1.1). Mật độ là biến phụ thuộc vào nhiệt độ T và độ muối S . Phương trình hồi quy đa biến cần tìm được viết dưới dạng iii SaTaa 210 ++= σ . Ở đây đại lượng hệ số  = σ= N i i N a 1 0 1 là giá trị mật độ trung bình từ tập mẫu hiện có. Các giá trị tính được σ làm thành một mặt phẳng nghiêng với các trục T và S . Đại lượng hệ số hồi quy )( tg 11 α =a sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng ),( T σ . Đại lượng hệ số hồi quy )( 22 tg α=a sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng ),( S σ . Đại lượng sai số i e sẽ tương đương khoảng cách từ trị số quan trắc i σ tới hình chiếu của nó lên mặt phẳng hồi quy i σ ˆ . S T σ 0 ε i σ σ i i σ ˆ α 2 α 2 Hình 1.1. Ý nghĩa hình học của phương trình hồi quy tuyến tính Tính toán theo mô hình hồi quy tuyến tính đa biến Ta sẽ xét thuật toán tổng quát tính toán theo sơ đồ hồi quy tuyến tính đa biến. 21 1. Tính các ước lượng trung bình số học và độ lệch chuẩn của tất cả các tham số xuất phát:  == == N i jij N i i x N xy N y 1 1 1 , 1 ,  == − − =− − = N i jjix N i y xx N syy N s j 1 2 1 2 1 1 1 , 1 1 )()( . Lập các vectơ những trị số trung bình và độ lệch chuẩn: x Sx , . 2. Tính ma trận tương quan R gồm các hệ số tương quan cặp giữa tất cả các biến:               ⋅⋅⋅ ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ ⋅⋅⋅ ⋅⋅⋅ == MMMMM M M xxxxxxyx xxxxxxyx yxyxyxyy rrrr rrrr rrrr N XX T 21 121111 21 1 R . Các hệ số tương quan thường tính theo những công thức truyền thống và kiểm tra mức ý nghĩa theo tiêu chuẩn Student. 3. Tính các định thức của ma trận tươn g quan và các ma trận con của nó. Trong hồi quy tuyến tính đa biến, định thức của ma trận tương quan có dạng               ⋅⋅⋅ ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅ ⋅⋅⋅ ⋅⋅⋅ = MMMMM M M xxxxxxyx xxxxyx yxyxyx rrrr rrr rrr 1 1 D 21 1211 21 . Các ma trận con để tính những định t hức dạng j xy D tạo ra bằng cách loại bỏ dòng thứ y và cột thứ j x từ ma trận R . 4. Tính các hệ số hồi quy theo các công thức (1.2) hay yy xy x y j j j s s a D D = . 5. Dựa trên các giá trị hệ số hồi quy nhận được lập phương trình hồi quy và tính các giá trị y ˆ :  = −+= M j jjjii axxay 1 0 )( ˆ . 6. Ước lượng hệ số tương quan đa biến theo công thức (1.3) hay yy D D R 1 0 − = . 7. Tính các ước lượng độ lệch chuẩn cho các hệ số hồi qu y và kiểm tra mức ý nghĩa của các tham số hồi quy theo tiêu chuẩn Student ( ν t ): j j a j v yy y a s a t DDMN Ns s ≥ − = , )/()( . 8. Kiểm tra tính phù hợp chung của mô hình đối với số liệu xuất phát bằng cách tính tiêu chuẩn thực nghiệm Fisher: RD ssF / * = , trong đó  == − −− =− − = N i iiR N i iD yy MN syy N s 1 2 1 2 ) ˆ ( 1 1 , )( 1 1 . Nếu độ lớn của tỷ số * F lớn hơn giá trị bảng T F tại mức ý nghĩa đã cho và các bậc tự do M= 1 ν và 1 2 −−= MN ν , thì giả thiết về tính phù hợp của mô hình được chấp nhận. Sơ đồ ước lượng các tha m số mô hình hồi quy trên đây là sơ đồ tổng quát nhất và thường gặp trong các chương trình phân tích thống kê trên máy tính các loại. 22 Sự phức tạp trong khi thực hiện sơ đồ đầy đủ này trên máy tính liên quan tới vấn đề biểu diễn và xử lý ma trận số liệu trong điều kiện công suất hạn chế của các máy tính. Với những máy tính mạnh hơn, ta có thể thực hiện tính toán theo sơ đồ đầy đủ của hồi quy tuyến tính đa biến và tiến hành khảo sát toàn diện về những mối phụ thuộc hồi quy . Những phần mềm trợ giúp thực hiện phân tích hồi quy tuyến tính đa biến trên máy tính có thể tìm thấy trong [4, 12, 70, 77, 80, 139, 140, 185]. Chẳng hạn, t rong đa số các phần mềm đó, ta có thể từng bước loại bỏ hay bổ sung thêm các biến độc lập nhằm chọn số biến độc lập tối ưu. Ngoài ra, còn có thể biến đổi sơ bộ những biến xuất phát để thể hiện chúng thuận lợi hơn trong mô hình hồi quy tuyến tính (nhờ các phương pháp tuyến tính hoá đã biết). Khi kiểm tra tính phù hợp của mô hình hồi quy tuyến tính đa biến, các thủ tục vẽ đồ thị phần dư trong những phần mềm này sẽ trợ giúp người nghiên cứu rất nhiều. Ứng dụng hồi quy tuyến tính đa biến trong nghiên cứu hải dương học Trong lịch sử, các phương trình hồi quy đã được sử dụng vào nghiên cứu hải dương học ngay từ khi hình thành khoa học về đại dương. Từ việc tính toán các tham số của phương trình hồi quy một biến, dần dần với thời gian, các nhà hải dương học chuyển sang sử dụng toàn bộ hệ thống phương pháp phân tích hồi quy nói chung. Xu thế này bắt đầu hình thành rõ nét vào những năm bảy mươi, khi đó người ta bắt đầu giải quyết những bài toán về xây dựng mô hình hồi quy tối ưu cho tập mẫu quan trắc. Ngày nay, phương pháp luận phân tích hồi quy có vị trí bền vững trong nghiên cứu hải dương học ứng dụng. Tuy nhiên, vẫn còn những khó khăn trong việc ứng dụng thực tế phân tích hồi quy trong hải dương học, thường liên quan tới những vấn đề sau đây: − Chọn dạng tối ưu của phương trình hồi quy; − Ước lượng tin cậy n hững tham số hồi quy. Ta sẽ xét những kinh nghiệm phân tích hồi quy trong hải dương học có liên quan tới những vấn đề này. Cách tiếp cận hồi quy là cơ sở mô tả những quy luật vật lý cơ bản về sự phát triển các quá trình đại dương. Những công thức tính toán các đặc trưng phát triển và tan băng [62], các tham số tương tác nhiệt giữa đại dương và khí quyển [61] và các biến trong phương trình trạng thái nước biển [27] đều dựa trên nguyên tắc hồi quy tuyến tính. Nếu n hìn lại những thập niên gần đây, thì thấy rõ sự tiến triển nhanh chóng của phần lớn những phương trình hồi quy. Thoạt đầu đó là những phương trình bậc thấp, ít tham số. Theo mức độ hiểu biết sâu hơn về những quy luật vật lý và tích luỹ ngày càng nhiều quan trắc, các nhà nghiên cứu hướng tới mô tả chính xác tối đa những mối liên hệ giữa các đặc trưng hải dương học bằng những công thức hồi quy. Vì vậy, những phương trình hồi quy thường biến đổi theo hướng là dạng của chúng phức tạp dần. Thứ nhất, ngày càng có nhiều biến độc lập được đưa vào xét bổ sung cho những mối liên hệ tương quan đã phát hiện. Thứ hai, hoàn thiện dần hình thức m ô tả các mối phụ thuộc: dưới dạng các biến độc lập, người ta đã sử dụng những đặc trưng tổng hợp, đó là những tổ hợp khác nhau của những tham số vật lý xuất phát. Xu thế nà y thể hiện rõ trong các phương trình trạng thái nước biển. Hải dương học hiện đại sử dụng nhiều loại phương trình trạng thái thực nghiệm, bắt đầu từ phương trình đơn giản nhất: SaTa 210 +=− ρ ρ và cuối cùng là những công thức của Chang−Millero [87], trong đó liên hệ giữa mật độ, nhiệt độ, độ muối và áp suất được mô tả bằng đa thức hỗn hợp bậc năm. Dạng phương trình cụ thể nào được dùng là tuỳ thuộc vào độ chính xác xấp xỉ mật độ nước mà ta muốn và được xác định chủ yếu bởi tập mẫu quan trắc mật độ, nhiệt độ, độ muối. Tu y nhiên, cơ sở 23 của các tính toán hồi quy vẫn là nguyên tắc tuyến tính hoá các mối phụ thuộc và ước lượng các tham số hồi quy theo phương pháp bình phương tối thiểu [3, 78]. Khi nghiên cứu phân bố khô ng gian của các trường hải dương, phương pháp hồi quy được ứng dụng rộng rãi để giải các bài toán nội suy [25, 27]. Những nguyên tắc thường dùng trong hải dương học để xây dựng bản đồ trên cơ sở khôi phục các giá trị tại mỗi nút của vùng lưới đã sử dụng ý tưởng xấp xỉ các trường như là những hàm của tọa độ địa lý. Mối phụ thuộc này được mô tả bằng một phương trình hồi quy, bậc của phương trình, cũng như dạng của các biến, được chọn xuất phát từ điều kiện sao cho phương trình mô tả đúng những dị thường không gian ở quy mô đang xét. Quan điểm hồi quy cũng là cơ sở của phương pháp nội suy khách quan và đồng bộ hoá các trường hải dương [53, 57, 199]. Ở đây các phương trình hồi quy được ước lượng cho từng nút của vùng nước như là hàm của các quan trắc tại những điểm xung quanh. Việc hoà hợp và đồng bộ hoá các trường cũng được thực hiện bằng cách sử dụng phương pháp trên đối với những đặc trưng hải dương học khác nhau và đối với những chuỗi quan trắc [27, 101, 212, 218, 251]. Mô tả hồi quy sự biến động của các đặc trưng hải dương học trong thời gian có ý nghĩa rất quan trọng trong nghiên cứu đại dương và được thừa nhận là phương pháp quan trọng nhất để phát hiện ra những quy luật vật lý. Sự phụ thuộc tiềm năng của các quá trình hải dương học trong không gian và thời gian chính là lý do để người ta tiến tới mô tả sự phụ thuộc đó bằng các mô hình hồi quy và dự báo được những xu thế phát triển của các quá trình. Việc xây dựng thành công những mô hình hồi quy về biến động thời gian của một số đặc trưng hải dương học có vai trò quan trọng, vì nó cho phép lý giải một cách tin cậy về những dao động đồng thời được điều khiển bởi những quy luật vật lý vận hành các quá trình thủy vật lý, thủy hoá học Ta lấy thí dụ về những nghiên cứu hải dương học nghề cá, mục đích của những nghiên cứu này nhằm mô tả một cách tin cậy những dao động liên quan lẫn nhau của các đặc trưng hải dương học và các đặc trưng sinh học [202], trên cơ sở đó sau này hình thành quy luật tác động của môi trường lên những đối tượng sinh học [108]. Những mối p hụ thuộc hồi quy có ý nghĩa đặc biệt khi ta muốn khôi phục những số liệu khuyết trong lưu trữ quan trắc hải dương học. Tuy nhiên, ở đây người nghiên cứu động chạm tới vấn đề tính bất đồng nhất của các mối phụ thuộc trong thời gian. Chúng ta đã biết rằng, những dao động chu kỳ dài trong hệ thống khí hậu làm phát sinh những hiệu ứng khôn g dừng về kỳ vọng toán học và phương sai trong các chuỗi mẫu. Tính không dừng, về phần m ình, thể hiện ở sự bất ổn định của những mối liên hệ tương quan, và do đó, trong ước lượng các tham số hồi quy. Trước hết, những ảnh hưởng đó làm giảm tính phù hợp của các mô hình hồi quy đã xây dựng. Cách thường dùng nhất để khắc phục những khó khăn nêu trên là thay thế những phương trình hồi quy tổng quát bằng những phương trình bộ phận. Nói cách khác, thay vì một mô hình hồi quy chung duy nhất cho toàn khối dữ liệu, người ta xây dựng một số phương trình hồi quy bộ phận. Những phương trình này sẽ xấp xỉ tốt hơn các mối liên hệ giữa các biến hải dương học trên một khoảng biến thiên cụ thể và không vận hành tốt trên những khoảng thời gian quan trắc khác. Như vậy, ứng dụng phân tích hồi quy cho phép xây dựng những mô hình tuyến tính từng đoạn và đạt được sự mô tả tối ưu bộ phận về các đặc trưng hải dương học. Thí dụ về kiểu mô tả này có thể là kinh nghiệm phân tích hồi quy với các trường nhiệt muối đại dương [25], ở đây đã nhận được một tập hợp những mối phụ thuộc hồi quy giữa nhiệt độ và độ muối cho những độ sâu và những vùng khác nhau ở Đại dương Thế giới. Thí dụ kh ác liên quan tới bài toán kinh điển mô tả hồi quy trắc diện 24 thẳng đứng của những tham số hải dương học. Sự phân tầng phức tạp của đại dương, sự hiện diện của một số đới cấu trúc có cơ chế vật lý hình thành phân bố thẳng đứng của các đặc trưng hải dương học khác nhau đáng kể, làm cho chúng ta không thể nhận được những mô hình hồi quy tổng quát về các trắc diện nhiệt độ, độ muối, mật độ. Vì vậy, người ta hay sử dụng những mô hình tuyến tính từng đoạn, trong đó những tham số của các phương trình hồi quy được chọn riêng biệt cho từng đới cấu trúc mặt và các đới ở dưới sâu [54, 55, 89, 106, 166]. Khi mô tả thống kê về biến động thời g ian của các đặc trưng hải dương học, người nghiên cứu phải mô tả tỉ mỉ những bất đồng nhất được gây nên bởi biến trình mùa của phần lớn những quá trình ở lớp trên đại dương. Theo đó chọn ra những phương trình hồi quy bộ phận để mô tả những đặc điểm phân bố thẳng đứng của những tham số lớp nước phía trên và những mối liên hệ của các đặc trưng nhiệt động lực học cơ bản của khí quyển và đại dương [47, 54]. Lĩnh vực ứng dụng đặc biệt của phân tích hồi quy đa biến là lĩnh vực dự báo hải dương học. Hồi quy đa biến thường hay được xem như là một hình thức mô tả những mối liên hệ không đồng pha giữa biến phụ thuộc và các biến độc lập. Các phương trình được lập sao cho dao động hiện thời của các biến độc lập quyết định sự biến động tương lai của biến phụ thuộc. Bằng cách đó tọa độ "thời gian" được biến đổi thành trục tọa độ các dao động đồng pha − thành không gian pha. Bằng cách chọn thực nghiệm mức độ bất đồng pha (tức bước trễ) giữa các biến, ta làm cho các dao động trở thành đồng pha và do đó, ước lượng một cách tin cậy những tham số tương quan − hồi quy [1, 61, 104]. Phương pháp luận tương tự đã tỏ ra khả quan trong dự báo những đặc trưng trạng thái nhiệt, động lực và băng ở đại dương [62, 65, 102,130, 209]. Trong quá trình lựa chọn những biến độc lập tốt nhất cho phương trình hồi qu y tối ưu, người nghiên cứu không phải là hiếm khi đối mặt với một nghịch lý lạ lùng: thậm chí với một tập hợp lớn những biến độc lập hoàn toàn có căn cứ vật lý vẫn không đảm bảo sự tối ưu của phương trình hồi quy. Nguyên nhân của sự nghịch lý này là ở chỗ khô ng thoả mãn những đòi hỏi cơ bản trong khi lập các mô hình hồi quy. Trong nhiều trường hợp, t ính tuỳ thuộc lẫn nhau tự nhiên của các quá trình hải dương sinh ra sự liên hệ thống kê tuyến tính giữa các biến độc lập với nhau. Thực tế này mâu thuẫn với điều kiện hạn chế ban đầu của mô hình hồi quy đa biến. Nếu không tính tới điều đó, sẽ dẫn tới sự bất ổn định tính toán, mà kết cục là ước lượng kém hiệu quả các tha m số hồi quy và tính phù hợp thấp của phương trình hồi quy nói chung. Khía cạnh thứ hai của cùng vấn đề nà y liên quan tới những khó khăn có tính chất hải dương học thuần tuý, đó là do ít số liệu xuất phát. Trong nhiều trường hợp thực tế, số quan trắc chỉ bằng số các biến độc lập đưa vào phương trình. Kết quả là sự bất định của nghiệm không cho phép đạt được ước lượng đúng của các tham số hồi quy, và mô hình mất giá trị. Thông thườn g, trong những mô hình tương tự như vậy không thể lý giải được ý nghĩa của những mối liên hệ hồi quy mà ta mô tả. Rõ ràng, phải lựa chọn hết sức cẩn thận các biến xuất phát trước khi ước lượng những tham số hồi quy. Tuy nhiên, phải làm gì nếu như những biến "tồi" vẫn tham gia vào mô hình? Trong trường hợp này phải chọn mô hình hồi quy tốt nhất bằng cách tuyển chọn tuần tự tất cả những phương án biến độc lập xuất phát khả dĩ khác nhau. Có rất nhiều phương pháp tuyển chọn. Đó là hồi quy từng bước, hệ phương pháp thêm dần và bớt dần, chọn định hướng [3, 15, 122, 140, 144, 157, 158, 163]. Đối với tất cả những p hương pháp đã liệt kê, thì các chỉ tiêu chung đánh giá sự tối ưu của phương trình hồi quy là độ phù hợp cao của mô hình theo tiêu chuẩn phương sai của Fisher, độ mô tả cực đại sự biến động của các biến theo hệ số tiên định và độ tin cậy các ước lượng hệ số hồi quy theo chỉ tiêu Student. 25 1.2. PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN CHUẨN HOÁ Đặt bài toán phân tích tương quan Thực tiễn nghiên cứu hải dương học hiện đại nhiều khi đặt ra nhiệm vụ đánh giá định lượng về mối liên hệ giữa các quá trình khí tượng thủy văn tại những vùng khác nhau trên Đại dương Thế giới. Thí dụ, ng hiên cứu sự liên hệ trong chế độ các trường khí tượng thủy văn hai biển Hắc Hải và Kaxpi, trước hết đòi hỏi đánh giá mức độ hiệp đồng dao động ở những điểm khác nhau của hai thủy vực này. Có thể phân tích một tập hợp các chuỗi nhiệt độ (độ muối, mực nước, v.v ) theo kết quả tính những hệ số tương quan cặp đơn giản g iữa những tham số ở các cặp điểm thuộc hai thủy vực. Tuy nhiên, phương pháp này chỉ cho phép phát hiện những liên hệ địa phương, mà không thể khái quát thành những liên hệ cho các thủy vực nói chung. Phương p háp phân tích tương quan chuẩn hoá chính là nhằm làm sao mô tả được mức độ liên hệ tổng quát của hai (hoặc một số) đối tượng nghiên cứu trọn vẹn theo kết quả phân tích đồng thời một tập hợp những tham số quan trắc. Bản chất toán học của phương pháp phân tích tương quan chuẩn hoá là tìm những biến đổi trực giao tuyến tính đối với các dấu hiệu (biến) xuất phát, sao cho chúng vừa mô tả đư ợc những đặc điểm chung nhất của mỗi đối tượng, vừa đồng thời lại tương quan với nhau càng cao càng tốt. Những biến đổi như vậy gọi là những biến chuẩn hoá. Còn sự tương quan giữa chúng gọi là tương quan chuẩn hoá. Rõ ràng, ý tưởng phươn g pháp phân tích tương quan chuẩn hoá có nhiều nét giống với cách tiếp cận trong phương pháp các thành phần chính. Sự khác biệt căn bản là ở chỗ: trong phương pháp phân tích tương quan chuẩn hoá, người nghiên cứu phải biến đổi trực giao một ma trận số liệu xuất phát, gọi là ma trận khối, mỗi khối của ma trận đó là một tập quan trắc của một trong những đối tượng khảo sát. X M N Y M N X Y X o 2M R o R 11 R 12 R 21 R 22 2M 2M R * M M Λ 1 M A B M 2M M B M N Hình 1.2. Sơ đồ tuần tự tổng quát giải bài toán phân tích tương quan chuẩn hoá hai tập hợp qua n trắc X và Y Giả sử có dữ liệu xuất phát dưới dạng hai tập hợp: X gồm những quan trắc về 1 M biến và Y gồm những quan trắc về 2 M biến. Ta thể hiện những tập hợp này dưới dạng những ma trận hình chữ nhật có N dòng và 1 M và 2 M cột (hình 1.2). Ta sẽ liên kết các ma trận thành một ma trận số liệu tổng quát, gồm N dòng và 21 MMM += cột. Ở đây ma trận số liệu tổng quát tạo thành từ hai khối: khối 1 − ma trận X, khối 2 − ma trận Y. Để ước lượng mối liên hệ của các biến ta tính những hệ số tương quan cặp giữa tất cả các biến trong ma trận số liệu tổng quát. Nhờ kết quả tính toán, ta nhận được ma trận tương quan tổng quát R, gồm bốn khối: khối 1 − R 11 − đặc trưng cho sự tương quan của các biến thuộc ma trận X, khối 2 − R 22 − đặc trưng cho cho sự liên hệ của các biến thuộc ma trận Y, các khối 3 và 4 đặc trưng cho mức độ tương quan giữa các biến của ma trận X và Y − R 12 và R 21 . Thực chất phương pháp phân tích tương quan chuẩn hoá là tìm những tổ hợp tuyến tính của các nhóm biến nghiên cứu tương quan tối đa với nhau dạng: 26 YBVXAU iiii == , , (1.4) trong đó i U và − i V những biến chuẩn hoá, i A và − i B những hệ số chuyển đổi sang các biến chuẩn hoá từ các tập hợp xuất phát. Trong quá trình tính toán phải tuân thủ những điều kiện sau đây : − Kỳ vọng t oán học của các biến chuẩn hoá bằng không: 0== ii VU ; − Phương sai của các biến chuẩn hoá đư ợc quy chuẩn và bằng 1: 1 22 == )()( ii VU . Liên hệ giữa các biến chuẩn hoá của hai tập hợp được xác định bằng giá trị của hệ số tương quan chuẩn hoá i ρ : ),( iii VU=ρ , hệ số nà y thoả mãn điều kiện cực đại mối liên hệ này: max 21 T 12 T →⋅⋅=⋅=ρ iiiii ARBBRA . Sau khi tìm được cặp các biến chuẩn hoá thứ nhất m ô tả phần phương sai liên hệ cao nhất của các tập hợp nghiên cứu, người ta chuyển sang tính những cặp biến chuẩn hoá tiếp theo. Trong quá trình này, phải tuân thủ điều kiện sao cho cặp biến chuẩn hoá phải phản ánh tối đa tương quan dư giữa các nhóm, đồng thời tuân thủ điều kiện không tương quan giữa những biến chuẩn hoá mới 1+i U , 1+i V và các biến chuẩn hoá trước đó. 0 2221 1211 =       ⋅       ⋅− ⋅− B A RLR RRL , (1.5) trong đó − ij R các khối của ma trận tương quan tổng quát, −L nhân tử Lagrange, A và −B các hệ số chuyển đổi cần tìm. Dạng viết ma trận trên đây có thể viết lại dưới dạng    =⋅⋅−⋅ =⋅+⋅⋅− .0 ,0 2221 1211 BRLAR BRARL Từ hệ phương trình nà y, nhận được phương trình cơ bản của phương pháp phân tích tương quan chuẩn hoá: 0 Λ =− IR* . (1.6) Nhân tử 1 2212 1 11 * −− ⋅⋅= RRRR là một ma trận tương quan vuông bất đối xứng kích thước M dòng và M cột. Kết quả là quá trình giải lại quy về bài toán các giá trị riêng và các vectơ riêng của ma trận * R . Nếu triển kh ai định thức nằm trong dấu ngoặc của biểu thức (1.6), thì có thể tính được các giá trị riêng Λ, thế những giá trị riêng đó vào phương trình đã cho sẽ cho phép giải phương trình này để nhận những vectơ riêng A . Tính toán biến chuẩn hoá được thực hiện theo công thức (1.4), còn hệ số tương quan tương ứng với biến chuẩn hoá này được ước lượng theo công thức ii λ=ρ . (1.7) Bằng cách như vậy xác định đơn trị dạng của biến chuẩn hoá cho tập hợp thứ hai: ARRB ⋅⋅⋅= − 21 1 22 1 λ . (1.8) Sơ đồ tính toán của phương pháp p hân tích tương quan chuẩn hoá Thủ tục tiến hành phân tích tương quan chuẩn hoá có thể chia ra thành một số giai đoạn chính giúp dễ dàng chương trình hoá [34, 73, 77]: 1. Tính các hệ số tương quan cặp đối với tất cả những biến quan trắc trong tất cả các tập hợp và lập ma trận tương quan tổng quát R . 27 2. Tách ma trận R thành các khối và tính ma trận phụ trợ: 21 1 2212 1 11 * RRRRR ⋅⋅⋅= −− . 3. Tính những giá trị riêng λ của ma trận phụ trợ * R trên cơ sở phương trình đặc trưng nhận được từ điều kiện bằng không của định thức ma trận: 0 Λ =− IR* . 4. Tính những vectơ riêng ( A ) của m a trận phụ trợ * R bằng cách giải hệ phương trình dạng 0)Λ( * =−⋅ IRA . 5. Tính những hệ số của vectơ riêng (B ) cho tập hợp thứ hai Y theo công thức ARRB ⋅⋅⋅= − 21 1 22 1 λ . 6. Tính những hệ số tương quan chuẩn hoá ( ρ ) theo công thức ii λ=ρ . 7. Ước lượng M giá trị của các biến chuẩn hoá U và V : XAU ⋅= , YBV ⋅= . 8. Ước lượng lượng m ang thông tin tương đối của những biến chuẩn hoá theo nghĩa chúng mô tả độ biến động chung của các biến được khảo sát:  = λ λ = M j j i i d 1 . Ứng dụng phân tích tương quan chuẩn hoá trong hải dương học Phân tích tương quan chuẩn hoá đối với những quá trình và trường hải dương hiện mới được sử dụng một cách dè dặt. Trên cơ sở phân tích những ấn phẩm hải dương học về phương pháp phân tích tương quan chuẩn hoá, rất khó rút ra kết luận giống nhau về những nguyên nhân của sự dè dặt này, hơn nữa hai mươi năm trước đây trong các công trình của N. A. Bagrov [15 −19] và G. A. Karpeev [90, 91] đã phân tích so sánh tỉ mỉ những ưu việt của việc ứng dụng phương pháp này để giải quyết những bài toán khí tượng thủy văn. Chẳng hạn, ở đây đã chỉ ra rằng biến đổi chuẩn hoá cho phép giữ nguyên "thông tin dự báo" không bị sai lệch, còn vai trò của phương pháp phân tích tương quan chuẩn hoá trong khoa học dự báo rất giống vai trò của phương pháp các thành phần chính khi giải quyết những bài toán chẩn đoán. Những kết luận về sau này đã được khẳng định nhiều lần bằng các kết quả tính toán thực nghiệm về phân tích những mối liên hệ của các trường khí tượng và hải dương [58, 220], cũng như trong khi xây dựng những mối phụ thuộc dự báo những trường này [22, 134, 148, 193, 243]. Nếu xem xét toàn bộ những kết quả phân tích chuẩn hoá hiện có trong hải dương học nói chung, có thể nhận ra một sơ đồ ứng dụng phương pháp phân tích tương quan chuẩn hoá tổng quát như sau: − Những tập hợp mẫu được đưa vào khảo sát là những tập hợp trong tọa độ không gian − thời gian; − Các tác giả thường cố gắng chọn những vectơ quan trắc có cùng (hoặc gần nhau) về kích thước; − Số tập hợp được khảo sát thường bằng hai; − Khi giải quyết những bài toán chẩn đoán, những tập hợp được khảo sát được đồng bộ hoá về thời gian; khi ước lượng những mối phụ thuộc dự báo, thường xem xét những mômen tương quan không đồng [...]... đặc trưng khai triển chuẩn hoá được thực hiện chủ yếu tương tự như lý giải các thành phần chính Vì phương pháp này chưa được ứng dụng đủ rộng rãi trong thực hành nghiên cứu hải dương học, nên ngay từ bây giờ chưa thể nhận ra tất cả những ưu việt và như c điểm của nó Chúng tôi sẽ chỉ dừng lại ở một số ưu khuyết điểm chính trong số đó mà chúng ta đã được biết cho tới hiện nay thấp (ít hơn 50−60%), thì nên... những hệ số tương quan cặp và tiến hành những suy luận vật lý để đánh giá về dấu của tương quan chuẩn hoá 3 Tính định hướng hẹp trong khi xác định những chỉ tiêu, chủ yếu là chỉ tiêu nói lên sự tương quan giữa các nhóm của các tập hợp biến, chứ không phải là bản thân phương sai của các tập hợp xuất phát, có thể xem là như c điểm cơ bản trong phát biểu bài toán phân tích chuẩn hoá Do đó, nếu khi khai... nếu khi khai triển ma trận tương quan tổng quát R0 theo các giá trị riêng mà hội tụ yếu, thì sẽ xuất hiện tình huống mối phụ thuộc tìm được ít mang thông tin do phần phương sai bên trong những tập hợp được khảo sát chuyển cho các biến chuẩn hoá bị nhỏ Nếu phần đóng góp của hai ba biến chuẩn hoá đầu tiên tương đối 28 ... giá trị riêng Do đó, độ chính xác ước lượng tương quan chuẩn hoá và bản thân những biến chuẩn hoá sẽ kém 2 Đại lượng tương quan chuẩn hoá trong phương pháp phân tích tương quan chuẩn hoá, theo định nghĩa, là luôn dương, vì được ước lượng từ biểu thức (1.7) Rõ ràng rằng dấu thực của những mối liên hệ của các tập hợp biến xuất phát hoàn toàn không phải lúc nào cũng dương Vì vậy, trong thực tế người nghiên... đổi tập hợp khảo sát, hoặc là không áp dụng hệ phương pháp này nữa 4 Những ước lượng các biến chuẩn hoá tỏ ra rất nhạy cảm đối với các điều kiện dừng của các chuỗi ban đầu Vì vậy, trước khi triển khai phương pháp phân tích tương quan chuẩn hoá, nên kiểm tra giả thiết dừng và nếu cần thiết, hãy tiến hành những phép biến đổi tương ứng đối với các số liệu xuất phát 1 Nếu có nhiều hệ số tương quan cặp với . bản của nó có thể lập trên cơ sở hồi quy tuyến tính với một phép thay thế biến tương ứng. Chúng ta muốn m ô tả biến động của một biến phụ thuộc như một hàm ảnh hưởng của một nhóm các biến. khôi phục các giá trị tại mỗi nút của vùng lưới đã sử dụng ý tưởng xấp xỉ các trường như là những hàm của tọa độ địa lý. Mối phụ thuộc này được mô tả bằng một phương trình hồi quy, bậc của. cho dao động hiện thời của các biến độc lập quyết định sự biến động tương lai của biến phụ thuộc. Bằng cách đó tọa độ "thời gian" được biến đổi thành trục tọa độ các dao động đồng

Định dạng
Số trang	11
Dung lượng	375,8 KB