CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC

130 0 0
CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Điện - Điện tử - Viễn thông NXB Đại học Quốc gia Hà Nội - Hà Nội - 2005 Từ khóa: Quá trình hải dương học, chẩn đoán, dự báo, thống kê, phương pháp hồi quy, thành phần chính, nhân tố, phương pháp phân loại, cấu trúc, biến động, ma trận số liệu, nhận biết phân biệt, khai triển trường, mô hình tuyến tính, đa chiều, phân tích quan hệ, dự báo tổ hợp. Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu cá nhân. Nghiêm cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất bản và tác giả. CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC Smirnov N. P., Vainovsky P. A., Titov Iu. E. Biêndịch: Phạm Văn Huấn SMIRNOV N. P., VAINOVSKY P. A., TITOV Iu. E. CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC BIÊN DỊCH : PHẠM VĂN HUẤN NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI - 2005 Н. П. СМИРНОВ, П. А. ВАЙНОВСКИЙ, Ю. Э. ТИТОВ СТАТИСТИЧЕСКИЙ ДИАГНОЗ И ПРОГНОЗ ОКЕАНОЛОГИЧЕСКИХ ПРОЦЕССОВ Санкт-Петербург ГИДРОМЕТЕОИЗДАТ - 1998 1 Cuốn sách Chẩn đoán và dự báo thống kê các quá trình hải dương học tổng kết những kinh nghiệm ứng dụng các phương pháp thống kê nhiều biến vào nghiên cứu trường các yếu tố hải dương học diễn ra trong đại dương. Các tác giả giới thiệu tóm tắt về bản chất và ý nghĩa của các phương pháp phân tích thống kê hiện đại, quy trình tính toán thực tế khi áp dụng chúng vào các nhiệm vụ nghiên cứu cụ thể, không đi sâu vào khía cạnh toán học của vấn đề. Do đó cuốn sách sẽ là một tài liệu chỉ dẫn phù hợp cho những người không chuyên toán muốn ứng dụng công cụ thống kê toán học vào công việc nghiên cứu của mình. Đặc biệt, khi diễn đạt những bài toán nghiên cứu và dự báo thống kê các quá trình hải dương, các tác giả luôn chú trọng phương diện phương pháp luận nghiên cứu, cách đặt vấn đề, cách lý giải nội hàm của những kết quả nhận được, nhờ đó giúp chúng ta biết cách ứng dụng công cụ thống kê một cách khéo léo và hiệu quả. Các phương pháp thống kê nhiều biến cho phép người nghiên cứu phân tích toàn diện, đồng thời nhiều quá trình, nhiều đặc trưng hải dương học, từ đó nhận được quan niệm đầy đủ về những gì đang và sẽ diễn ra trong biển và đại dương, hình thành những mô hình về cấu trúc và biến động của quá trình, hiện tượng mà ta quan tâm. Hiện nay ở Việt Nam nguồn dữ liệu về các yếu tố thủy văn, thủy hoá, khí tượng, sinh học biển ngày càng được thu thập thêm, dần dần trở nên đồng bộ, phong phú. Với phương tiện tính toán ngày càng hiện đại, chắc chắn hướng nghiên cứu phân tích thống kê tự động sẽ phát triển và cuốn sách này sẽ hữu ích cho nhiều người nghiên cứu. Người biên dịch 2 MỤC LỤC MỞ ĐẦU 2 Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC QUÁ TRÌNH 18 1.1. PHÂN TÍCH HỒI QUY ĐA CHIỀU. HỒI QUY TUYẾN TÍNH ĐA CHIỀU 18 1.2. PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN CHUẨN HOÁ 25 Chương 2 - MÔ TẢ CẤU TRÚC CỦA CÁC QUÁ TRÌNH 29 2.1. PHƯƠNG PHÁP THÀNH PHẦN CHÍNH 29 2.2. PHƯƠNG PHÁP PHÂN TÍCH NHÂN TỐ 35 Chương 3 - PHÂN LOẠI CÁC QUÁ TRÌNH 43 3.1. PHƯƠNG PHÁP PHÂN LOẠI TỰ ĐỘNG 43 3.2. PHƯƠNG PHÁP PHÂN TÍCH PHÂN BIỆT 51 Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA CHIỀU 56 4.1. DỰ BÁO CẤU TRÚC CỦA CÁC QUÁ TRÌNH 56 4.2. DỰ BÁO NHỮNG LỚP TRẠNG THÁI CỦA CÁC QUÁ TRÌNH 59 4.3. KẾT HỢP CÁC MÔ HÌNH DỰ BÁO 61 4.4. TÍNH KHẢ BÁO THỐNG KÊ CỦA CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC 63 Chương 5 - NHỮNG KẾT QUẢ CHẨN ĐOÁN THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC 67 5.1. CHẨN ĐOÁN CÁC TRƯỜNG NHIỆT Ở BẮC ĐẠI TÂY DƯƠNG 68 5.2. CHẨN ĐOÁN CẤU TRÚC NƯỚC BIỂN NA UY 77 5.3. CHẨN ĐOÁN CẤU TRÚC CÁC KHỐI NƯỚC Ở BIỂN BELLINSHAUZEN 88 Chương 6 - NHỮNG KẾT QUẢ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC 93 6.1. DỰ BÁO CÁC TRƯỜNG NHIỆT Ở BẮC ĐẠI TÂY DƯƠNG 94 6.2. DỰ BÁO ĐIỀU KIỆN BĂNG BIỂN BAREN 105 6.3. DỰ BÁO PHÂN BỐ KHÔNG GIAN CỦA PHÙ DU SINH VẬT Ở BIỂN NA UY 110 KẾT LUẬN 114 TÀI LIỆU THAM KHẢO 116 MỞ ĐẦU Tính đa chiều và ngẫu nhiên trong biến động của các quá trình đại dương không cho phép người ta ngay tức khắc theo dõi, mô tả định lượng và lý giải cơ chế vật lý của chúng một cách đơn trị. Các phương pháp phân tích thống kê sẽ là một công cụ phát hiện và mô tả những mối quan hệ tương hỗ phức tạp đó để giải quyết các bài toán chẩn đoán và dự báo những quá trình đại dương. Độ chính xác và tin cậy của những kết luận nhận được phụ thuộc rất nhiều vào số lượng và sự đa dạng của thông tin ban đầu được đưa vào xử lý. Thực tế ta thấy toàn bộ cơ sở thông tin được tích luỹ trên ba mặt phẳng: không gian − thời gian ),( tlX , không gian − dấu hiệu ),( zlX , dấu hiệu − thời gian ),( tzX ; tập hợp những thông tin này làm thành một khối lập phương dữ liệu với các trục: không gian ( l ), thời gian ( t ), các biến số ( z ) (hình 0.1). Vậy các dữ liệu được sắp xếp trong khối lập phương đó như thế nào? Một quan trắc riêng lẻ x về một biến số nào đó, tại một điểm không gian, vào một thời điểm cho trước, sẽ là một ô duy nhất trong khối lập phương dữ liệu. Một chuỗi gồm N quan trắc { }Nxxx ...,,, 21 sẽ là một vectơ nằm dọc theo trục tương ứng của khối lập phương. Thí dụ, bản ghi nhiệt độ nước ở một điểm tại những thời điểm Nttt ...,,, 21 sẽ cho ta một vectơ quan trắc )(tX , trong khối lập phương dữ liệu nó sẽ song song với trục thời gian. Một quan trắc phân bố thẳng đứng của nhiệt độ nước sẽ là một vectơ dữ liệu song song với trục không gian: )(lX . Nếu ta quan trắc liên tiếp theo thời gian về phân bố thẳng đứng của nhiệt độ nước tại một điểm, ta sẽ nhận được một mặt phẳng dữ liệu nằm trong khối lập phương song song với mặt phẳng các dấu hiệu: 3 ),( ltX . Còn nếu như đồng thời với nhiệt độ, ta quan trắc nhiều lần các tham số trạng thái đại dương khác (độ muối, vận tốc dòng chảy, các yếu tố hoá học), thì kết quả là ta nhận được khối lập phương dữ liệu phủ đầy tất cả các trục tọa độ đã chọn: ),,( zltX . Trong các phương pháp phân tích dữ liệu đơn chiều, người ta xét chuỗi quan trắc trong thời gian hoặc trong không gian và nghiên cứu được tính chất của sự biến động (tuần hoàn, ngẫu nhiên...), sự đồng nhất của các dao động, sự liên hệ của vectơ quan trắc 104, 123, 201. Khi đó thực tế ta không xét tới mặt phẳng quan trắc về những tham số khác nhau. Và mặc dù có những hiệu quả nhất định, các phương pháp thống kê đơn chiều không cho phép phân tích một cách đầy đủ cần thiết về quá trình phức tạp đa tham số. X(t,l,z) X(l) X(z) X(t) X(z) X(t) X(l) X(l,z) X(z,t) X(l,t) Hình 0.1. Khối lập phương dữ liệu hải dương học: Các mặt phẳng và vectơ quan trắc hợp phần Các phương pháp phân tích cặp các chuỗi (phân tích tương quan, hồi quy, phổ) nhằm mục đích mô tả thống kê về mối liên hệ tương hỗ của hai vectơ quan trắc trong thời gian hay trong không gian: )(1 tX , )(2 tX ; )(1 lX , )(2 lX . Ở đây người ta vừa phân tích từng vectơ riêng biệt, vừa phân tích mức độ quan hệ cặp đồng bộ hay bất đồng bộ giữa chúng. Vậy là người ta đã nghiên cứu cấu trúc thống kê của quá trình một cách đầy đủ hơn so với phân tích đơn chiều. Nhưng chỉ trong các phương pháp phân tích thống kê đa chiều thì mới thực sự có khả năng khảo sát đồng thời một tập hợp các vectơ quan trắc. Các phương pháp phân tích thống kê đa chiều hướng tới giải quyết các bài toán phân tích thống kê đối với những ma trận gồm N quan trắc (các đối tượng) về M biến số (các dấu hiệu). Ở đây, những ma trận có thể là những bảng số nhận được bằng cách cắt khối lập phương dữ liệu dọc theo một mặt bất kỳ nào đó. Đây có thể là những ma trận quan trắc trong các mặt phẳng: các biến số − thời gian ),( tzX , các biến số − không gian ),( lzX hoặc thời gian − không gian ),( ltX . Ta có thể đưa trục các dấu hiệu vào phân tích thì cũng hoàn toàn như vậy, đó là ưu điểm rõ rệt của phân tích thống kê đa chiều, nó cho phép khảo sát khối lập phương dữ liệu một cách toàn thể. Những tập phân bố đồng thời của các đặc trưng quan trắc được phân tích bằng các phương pháp phân tích các vectơ và các ma trận, với chúng, bằng phép phân tích thống kê đa chiều sẽ đưa ra sự mô tả định lượng về những mối liên hệ tương hỗ ẩn bên trong các tham số ban đầu và phát hiện ra nội hàm của các mô hình chẩn đoán và dự báo các quá trình hải dương đa chiều được nghiên cứu. Khái niệm chẩn đoán Theo từ điển các từ nước ngoài, thì chẩn đoán là quá trình xác định thực chất của bệnh và trạng thái của bệnh nhân trên cơ sở khám xét toàn diện về anh ta. Áp dụng vào hải dương học thực hành, bản chất của thuật ngữ này không có gì đổi khác nhiều lắm. Ta có thể định nghĩa như sau: Chẩn đoán là tuần tự những thủ tục tổng kết, hệ thống hoá và lý giải về sự biến động quan sát thấy của các đặc trưng hải dương nhằm hình thành một mô hình tin cậy về các quá trình đang diễn ra. Chẩn đoán đòi hỏi hai giai đoạn cơ bản: phân tích và tổng hợp. Phân tích, tức tách bạch đối tượng nghiên cứu thành những hợp phần, là giai 4 đoạn nghiên cứu đầu tiên. Giai đoạn này có thể bao gồm nhiều phương pháp biến đổi dữ liệu quan trắc và các tính toán để mô tả các hợp phần và những hiện tượng riêng lẻ của các quá trình. Nội dung chính của một phương pháp phân tích bất kỳ − phương pháp vật lý, thực nghiệm, thống kê hay số trị − là làm sao phát hiện và mô tả những yếu tố hợp thành các quá trình đang diễn ra. Tổng hợp là giai đoạn kết thúc của chẩn đoán và hướng tới liên kết những bộ phận cấu thành đơn lẻ, hay những tính chất đơn giản nhất đã phát hiện được, thành một chỉnh thể nào đó. Nguyên tắc cơ bản của sự liên kết này là hình thành một cách lôgic bức tranh hoàn chỉnh về các sự kiện đang diễn ra trên cơ sở những quy luật và những mối liên hệ của các yếu tố đã phát hiện được ở giai đoạn phân tích. Thực chất thì tổng hợp bao gồm nhiều phương pháp trong số các phương pháp phân tích, nhưng chúng được áp dụng với chức năng nội dung và mục tiêu khác − để liên kết và hệ thống hoá những hợp phần đã biết. Ngoài ra, tổng hợp gồm cả sự lý giải về hệ thống các quy luật đã thấy được. Lý giải được hiểu là sự giải thích vật lý về những quy luật đã phát hiện, nêu ra cơ chế vật lý chung trong sự xuất hiện và phát triển của các hiện tượng đang diễn ra trong đại dương. Tác giả công trình này gộp vào khái niệm chẩn đoán toàn bộ những thủ tục biến đổi thông tin hải dương học đa dạng trong quá trình nghiên cứu sự vận hành của hệ thống "đại dương" trong quá khứ hay hiện tại. Vì vậy, có hai loại thủ tục chẩn đoán sau đây với tư cách là những bộ phận cấu thành của chẩn đoán: chẩn đoán vật lý và chẩn đoán thống kê. Những khái niệm này khác nhau về dấu hiệu kỹ thuật hay dấu hiệu tính toán. Chẩn đoán vật lý bao gồm các thủ tục và phương pháp xác định trạng thái đại dương, được xây dựng trên cơ sở mô tả những hiện tượng và quá trình hải dương bằng cách tính toán và phân tích những đặc trưng thủy vật lý. Theo nội dung, chẩn đoán vật lý có tính truyền thống. Trước hết, nó gồm những phương pháp hải dương học tính toán những đặc trưng trạng thái đại dương không trực tiếp quan trắc, những đặc trưng thứ sinh. Đó là những tham số đặc trưng cho các trường vật lý, động lực, năng lượng, ta có thể kể ra rất nhiều. May thay, tất cả những tham số đó liên hệ với những đặc trưng nguyên sinh thông qua những quy luật vật lý đã biết và tạo thành một tập hợp các biến đặc trưng một cách đơn trị cho những dạng quá trình hải dương cụ thể. Ý nghĩa của chẩn đoán vật lý còn ở chỗ nó khái quát những biến đổi đang diễn ra trong đại dương thông qua một hệ thống những thuật ngữ và phạm trù đã biết và chấp nhận trong hải dương học. Đó là những yếu tố cân bằng nhiệt (entalpy, các dòng nhiệt), những yếu tố cấu trúc ngang và thẳng đứng của nước (các khối nước, front và đới chuyển tiếp, các xoáy nước và các hệ thống hoàn lưu) v.v... Đối với những loại thuật ngữ cụ thể đã có những hệ phương pháp phân tích chuyên biệt. Thông thường, hệ phương pháp phân tích vật lý là một tổ hợp gồm những phương pháp kinh nghiệm phân tích định lượng kết hợp với những phương pháp thực tiễn xử lý và mô tả định tính. Có sự liên kết đó là nhờ kinh nghiệm nhiều năm nghiên cứu thực tế, thường thì không phải là kết quả của những nghiên cứu một cách hệ thống và có định hướng, mà là do người ta khái quát những điều đáng quan tâm từ hoạt động thực tiễn. Thí dụ, phương pháp luận phân tích ST , đối với các khối nước 23,125 là một thành tựu cơ bản của khoa học, cho phép hiểu và mô tả những quá trình quan trọng nhất hình thành cấu trúc khối nước. Trong khi đó hệ phương pháp mô tả điều kiện băng và trạng thái mặt biển theo thang điểm là đúc rút từ những nhu cầu thực tiễn hàng hải. Phần lớn những phương pháp phân tích vật lý các quá trình hải dương kết hợp những cơ sở của phép phân tích định lượng các quan trắc với những giải pháp lý luận tập hợp, chuẩn bị và xử lý thông tin hải dương học. Những quy tắc lý thuyết đồng thời là cơ sở để lý giải tiếp theo về những ước lượng định lượng về phương diện hải dương học. Về toàn cục thì thực tiễn phân tích vật lý đối với những quá trình hải 5 dương là một phương pháp luận đã hình thành, hoàn chỉnh và rất hiệu quả trong xử lý thông tin hải dương học. Những nguyên tắc của chẩn đoán thống kê Chẩn đoán thống kê yêu cầu sử dụng các phương pháp thống kê để xử lý, phân tích và lý giải thông tin hải dương học đa dạng. Phương pháp luận của chẩn đoán thống kê dựa trên nhiều phương pháp phân tích thống kê và thể hiện dữ liệu. Chẩn đoán thống kê có nhiều triển vọng ứng dụng thực tế trong nghiên cứu hải dương học. Đó là do hiện nay có rất nhiều phương pháp thống kê biến đổi thông tin. Song việc sử dụng chẩn đoán thống kê trong thực tế hiện còn rất hạn chế. Về điều này có một số nguyên nhân. Thứ nhất, rõ ràng rằng trong giới những người nghiên cứu ứng dụng chưa hiểu sâu sắc về chính hệ thống các tính toán thống kê và sự liên hệ ràng buộc bên trong của các phương pháp thống kê khác nhau. Thực chất điều này cản trở việc sử dụng nhiều phương pháp để hình thành và kiểm tra các giả thuyết thống kê, chấp nhận những quyết định có căn cứ thống kê để khảo sát định lượng toàn diện về những mối liên hệ lẫn nhau giữa các đặc trưng hải dương học. Chúng tôi cho rằng chính là sự thiếu hiểu biết thực dụng về bản chất của phương pháp luận thống kê đã làm nảy sinh sự hoài nghi đối với nó. Kết quả là sự chẩn đoán bị quy về ứng dụng thực tế một số thủ pháp phương pháp luận riêng biệt, những thủ pháp này mặc dù chưa phải là tối ưu để giải quyết các bài toán cụ thể, nhưng chúng được dùng quen, ổn định, thành tập tục lịch sử, không gây cho nhà nghiên cứu những bất trắc nào. Thứ hai, áp dụng những phương pháp phân tích thống kê hiện đại phải đi kèm với cơ sở kỹ thuật tương ứng. Những tính năng của các máy tính hiện có đôi khi quyết định giới hạn của việc phân tích thống kê thông tin trong thực tế. Khác với những tính toán thủy động lực, thống kê đòi hỏi không chỉ tốc độ máy tính, mà chủ yếu là dung lượng nhớ lớn. Bộ nhớ trong và bộ nhớ ngoài quy định khả năng áp dụng nhiều phương pháp tiếp cận hữu hiệu, trong đó có những phương pháp phân tích thống kê nhiều biến. Cuối cùng, nguyên nhân thứ ba là do tình trạng lưu giữ thông tin hải dương học vào máy tính rất chậm trễ. Như đã biết, hiệu quả của việc xử lý những mảng dữ liệu lớn tuỳ thuộc rất nhiều vào trình độ tổ chức thông tin. Tính tin cậy của những kết luận thống kê liên quan với độ dài tập mẫu nghiên cứu. Vì vậy, sự tích luỹ thông tin và lưu giữ chúng một cách có tổ chức có thể xem là con đường nhanh nhất để phát triển các phương pháp chẩn đoán thống kê. Bản chất của chẩn đoán thống kê là phân tích định lượng một tập hợp những đặc trưng hải dương học, thành lập những mô hình thống kê tối ưu về những quá trình được quan trắc, mô tả tiếp và lý giải những quy luật và cơ chế vật lý hình thành nên tính biến động đại dương. Phương pháp luận phân tích thống kê được phổ biến rộng rãi nhất trong phân tích sơ bộ những chuỗi quan trắc (dựng tổ chức đồ, ước lượng các mômen thống kê bậc thấp), mô tả quan hệ các chuỗi (tương quan cặp và hồi quy), phát hiện quy luật biến động thời gian của các đặc trưng hải dương học (phân tích điều hoà, phổ, hiệp phổ). Trong khi đó các phương pháp phân tích nhiều biến nói chung hiện còn ít được dùng hơn, điều này hoàn toàn không tương xứng với sức mạnh thực tế của các phương pháp đó. Ta sẽ khái quát hoá những nhận xét trên đây về chẩn đoán vật lý và thống kê dưới dạng một sơ đồ trực quan đơn giản sao cho có thể tóm lược được những ý tưởng phương pháp luận của các hướng nghiên cứu khác nhau (hình 0.2). Thấy rằng khối chẩn đoán thống kê liên quan trực tiếp với ba khâu của hệ thống xử lý: các cơ sở dữ liệu, chẩn đoán vật lý và hình thành tri thức của người dùng. Tương ứng với những mối liên hệ qua lại đó, có thể phát biểu những bài toán cơ bản của chẩn đoán thống kê gồm ba nhóm sau đây. 1. Những bài toán về xử lý sơ bộ các số liệu, bao gồm các thủ tục 6 hình thành những mảng thông tin ban đầu từ các cơ sở dữ liệu gốc và trên cơ sở những kết quả tính toán các đặc trưng hải dương học thứ sinh trong khối chẩn đoán vật lý. 2. Những bài toán phân tích thống kê thông tin, thể hiện dưới dạng một loạt vấn đề cụ thể về phân tích thống kê tối ưu đối với tài liệu. Thí dụ, những bài toán về phát hiện những hợp phần tuần hoàn trong biến thiên thời gian và không gian, đánh giá định lượng mối liên hệ giữa các dao động của những đặc trưng hải dương học trong không gian hay trong thời gian. C¬ së d liÖu ChÈn o¸n thèng kª ChÈn o¸n vËt lý H×nh thμnh bμi to¸n TÝnh c¸c Æc tr−ng vËt lý ↓ Phn tÝch vËt lý c¸c qu¸ tr×nh ↓ LËp c¸c m« h×nh vËt lý ↓ Lý gi¶i kÕt qu¶ TÝnh c¸c Æc tr−ng thèng kª ↓ Phn tÝch thèng kª c¸c qu¸ tr×nh ↓ LËp m« h×nh thèng kª ↓ Lý gi¶i kÕt qu¶ Tri thøc ↓ Ng−êi sö dông ↓ ChÊp nhËn quyÕt Þnh ↓ Dù b¸o Hình 0.2. Sơ đồ chức năng chẩn đoán các quá trình hải dương học 3. Những bài toán ở giai đoạn tổng hợp, khi những ước lượng định lượng thu được về các mối liên hệ thống kê cần phải thống nhất lại dưới hình thức những mô hình về hiện tượng, đáng tin về mặt thống kê, sau đó lý giải theo tinh thần vật lý về cơ chế hoạt động của những mô hình nhận được theo thuật ngữ hải dương học và phù hợp với những tiên đề vật lý đã chấp nhận khi phân tích. Sơ đồ khối trên đây vận hành thành công hay không tuỳ thuộc vào tương quan giữa trình độ tri thức của người sử dụng những kết quả chẩn đoán và tính hiệu quả của những quyết định thực tiễn chấp nhận trên cơ sở tri thức đó. Nếu hiệu số giữa hai hợp phần này âm thì sẽ phát sinh yêu cầu tiếp tục nghiên cứu. Nếu hiệu dương sẽ nảy sinh khả năng tiếp tục sử dụng tri thức, thí dụ, dưới dạng các dự báo sự phát triển của những quá trình hải dương trong thời gian hay trong không gian. Sự thành công trong giải quyết những bài toán chẩn đoán thống kê các quá trình hải dương tuỳ thuộc rất nhiều vào tính hiệu quả của việc áp dụng các phương pháp cụ thể xử lý thống kê thông tin. Về hình thức, khối chẩn đoán thống kê là một tuần tự nhiều phương pháp của thống kê học, việc chọn và cụ thể hoá chúng được thực hiện phù hợp với những mục tiêu chung của người nghiên cứu. Tuy nhiên, có thể nêu ra một số nguyên tắc cơ bản trong khi chọn và ứng dụng các phương pháp thống kê trong chuỗi chung chẩn đoán các quá trình hải dương. Nguyên tắc bổ sung. Theo nguyên tắc này, những phương pháp được chọn phải dẫn tới những kết quả sao cho có thể xây dựng được bức tranh đầy đủ nhất về các hiện tượng đang diễn ra. Như vậy cũng chính là nhấn mạnh rằng phải loại trừ sự lặp lại nhiều lần những kết quả. Có cần phân loại một tập mẫu mà về tập mẫu đó tất cả những chỉ tiêu đồng nhất đã được khẳng định trước không? Tuy nhiên, trong thực tế cũng có thể cần phân loại nhiều lần một tập mẫu theo nhiều chỉ tiêu và quy tắc phân loại khác nhau để làm sao chọn được một cấu trúc lớp ổn định nhất và có căn cứ vật lý nhất. Ý nghĩa của quy tắc này là ở chỗ sao cho kết quả ở lần sau mở rộng những quan niệm của chúng ta về đối tượng nghiên cứu đã thu được ở lần chẩn đoán trước. 7 Nguyên tắc kết hợp các phương pháp để liên tục áp dụng những phương pháp nghiên cứu phức tạp hơn. Những phương pháp xử lý thống kê đơn sơ hơn thì cho những kết quả thô, gần đúng, nhưng ít tốn thời gian. Phương pháp chính xác hơn thường phức tạp hơn và ít kinh tế hơn. Thông thường, sự phức tạp tính toán và tăng độ chính xác kết quả luôn dẫn tới thu hẹp phạm vi ứng dụng của hệ phương pháp. Độ tin cậy cao của một ước lượng thống kê chủ yếu là do tuân thủ nghiêm ngặt những điều giới hạn trong khi tính toán. Bài toán quen thuộc trong khí tượng thủy văn về tính các chuẩn nhiều năm của nhiệt độ nước là một minh hoạ về điều vừa nêu. Ước lượng gần đúng trung bình số học theo chuỗi quan trắc dài tỏ ra không có gì kém so với những ước lượng tinh xảo kỳ vọng toán học thực hiện bằng nhiều phương pháp phức tạp với xấp xỉ không dừng. Nguyên tắc kế thừa cho phép dần dần đạt tới độ tin cậy cực đại của kết quả tính toán với độ mạo hiểm tối thiểu. Nguyên tắc này tạo ra khả năng phân chia thành từng pha các phương pháp chẩn đoán thống kê những quá trình hải dương. Một pha là một nhóm các phương pháp xử lý thống kê gồm một số những tính toán khép kín, người sử dụng kiểm soát tính hiệu quả của nó. Thí dụ, khi tính các thành phần chính, có thể tổ chức một pha tính mỗi thành phần và khôi phục giá trị của thành phần đó. Sau khi kiểm tra tính hội tụ và tính lý giải được của các thành phần, người sử dụng quyết định cần tiếp tục khai triển hay kết thúc các thủ tục tính toán. Trình tự chẩn đoán thống kê Trong thực tế có thể thực hiện những nguyên tắc chẩn đoán thống kê chung nhất đã liệt kê trên đây dưới dạng những sơ đồ tính toán thống kê. Ta sẽ dừng lại ở một trong những phương án khả dĩ tỏ ra rất hiệu quả trong nghiên cứu các quá trình hải dương quy mô lớn. Sơ đồ chẩn đoán thống kê này (hình 0.3) hình thành trên cơ sở những nguyên tắc đã xét ở trên như một bộ phận hợp thành của một quá trình chung xử lý thông tin hải dương học. Giai đoạn phân tích gồm bốn nhóm phương pháp xử lý. Xử lý bước đầu được chia thành một khối độc lập để nhấn mạnh tầm quan trọng và sự cần thiết của việc lựa chọn ban đầu thật cẩn thận các tham số phân tích thống kê. Rõ ràng, việc chọn lựa cụ thể những tham số phải xuất phát từ các điều kiện phát biểu bài toán chẩn đoán. Sau khi có kết quả chẩn đoán vật lý, ở mức định tính chúng ta đã có thể tiên đoán khả năng đưa thêm những tham số bổ sung vào danh sách các mối liên hệ cần nghiên cứu. Trong danh sách đã có thể đưa thêm những biến không trực tiếp quan trắc, nhưng có thể tính được trong quá trình chẩn đoán vật lý. Phân tích thống kê ban đầu trong chẩn đoán thống kê có thể được xem vừa như là mục tiêu nghiên cứu, vừa như là giai đoạn tính toán trung gian. Trong mọi trường hợp thì kết quả phân tích thống kê ban đầu là nền tảng để lý giải về tính ổn định và tính biến động của các tham số, tính đồng nhất và tính dừng của các thành phần riêng biệt của các quá trình được nghiên cứu. Cần tách riêng các phương pháp ước lượng trị số của những mômen thống kê đầu tiên và thuật toán tính toán các tổ chức đồ thực nghiệm một chiều và hai chiều như là những thủ tục tính toán các đặc trưng thực nghiệm quan trọng của những quá trình hải dương. Các ước lượng thống kê − trung bình, phương sai, các hệ số biến phân, độ bất đối xứng, độ nhọn, các tham số phân bố xác suất, là thông tin quan trọng về cấu trúc nội tại của biến động thời gian hay không gian của các quá trình. Trên cơ sở đó hình thành quan niệm ban đầu về biến động nền của các hiện tượng nghiên cứu nói chung. Phân tích các chuỗi thời gian được tách thành một khối riêng biệt, vì trong đó những thuật toán ước lượng định lượng về mức độ có quy luật trong sự biến thiên các đặc trưng hải dương học theo thời gian được liên kết thành một chuỗi những tính toán liên quan nhau một cách lôgic. Những ý tưởng phân tích chuỗi thời gian đã được xét chi tiết và toàn diện 8 trong nhiều chuyên khảo về những vấn đề phân tích xác suất các quá trình hải dương 69, 151, 193. Ở đây cần nhấn mạnh ý nghĩa to lớn của phép phân tích thống kê tổng hợp đối với các quá trình hải dương đa chiều trong hệ phương pháp này. Phn tÝch Xö lý b−íc Çu ↓ Chän c¸c tham sè H×nh thμnh c¸c tËp mÉu Phn tÝch thèng kª ban Çu ↓ Phn tÝch c¸c chuçi thêi gian ↓ Phn tÝch thèng kª a chiÒu Lùa chän m« h×nh thèng kª ↓ ↑ Lý gi¶i c¸c Æc tr−ng thèng kª Tæng hîp Hình 0.3. Sơ đồ chức năng của chẩn đoán thống kê các quá trình hải dương Tách ra tính biến thiên có quy luật của chuỗi thời gian có nghĩa là nhận những ước lượng tin cậy của những đặc trưng về tính ngẫu nhiên hay tính có quy luật trong biến thiên thời gian. Rõ ràng, phát hiện ra những quy luật là kết quả quan trọng khi phân tích các chuỗi thời gian. Trước hết quy luật được hiểu là sự tuần hoàn lặp lại tiềm ẩn trong các dao động của các đặc trưng hải dương học mà người ta giải thích như là sự biểu hiện của các cơ chế hình thành các quá trình nghiên cứu bởi những nhân tố bên ngoài hay bên trong. Vì vậy các phương pháp phân tích điều hoà của Fourier, phương pháp phân tích biểu đồ chu kỳ, phân tích phổ được phát triển mạnh mẽ nhất. Đại dương là một hệ thống phức tạp gồm những mối liên hệ cấu trúc nhiều tầng, gồm cả một dải rộng tần số dao động riêng và dao động cưỡng bức. Chính tính có cấu trúc của hệ thống đã cho phép chúng ta sau khi xấp xỉ đánh giá được cấu trúc tần số của các quá trình, có thể ngay tức khắc xếp các hiện tượng đang xét vào một thang bậc nhất định trong sự đa tầng biến động đại dương. Tuy nhiên, kinh nghiệm cho thấy rằng tập hợp các tần số dao động đặc trưng là có hạn và thực tế nó nằm gọn trong dải biến động từ cỡ vài phút đến vài nghìn năm, điều khẳng định này đủ chính xác và đủ tin cậy đối với những nhu cầu thực tiễn và lý thuyết hiện nay. Ta đã biết rằng cấu trúc tần số trong sự tương tác giữa các thành tố của hệ thống khí hậu có số bậc tự do rất khác nhau. Việc mô tả những mối liên hệ qua lại trong các dao động của những đặc trưng hải dương học trong miền tần số được thực hiện bằng các phương pháp phân tích phổ tương hỗ; theo phương pháp này, từ các ước lượng phổ dao động đồng pha và không đồng pha, độ hiệp biến và pha các dao động, ta sẽ có được quan niệm về sự hiện diện hay không hiện diện của những tương tác có tính tuần hoàn giữa hai chuỗi thời gian. Còn có một nhóm các bài toán phân tích chuỗi thời gian liên quan tới việc mô tả những dao động tuần hoàn chu kỳ dài trong các quá trình ban đầu, gọi là "xu thế". Bài toán mô tả xu thế chắc chắn không nên coi là bài toán tầm thường và có lẽ nó cũng là bài toán còn lâu mới hoàn thiện. Theo truyền thống thì các nhà nghiên cứu xem xu thế là một thứ nhiễu không mong muốn. Nguyên nhân là do xu thế phá huỷ điều kiện dừng của các chuỗi thời gian, làm giảm mạnh hiệu quả của các phương pháp phân tích tương quan và phổ kinh điển. Thực vậy, tính không dừng về kỳ vọng toán học, về các đặc trưng biên độ và pha dao động làm giảm độ tin cậy của những ước lượng của các thành phần tất định, vì phần lớn trường hợp trong thực tế các ước lượng này được tính theo những thuật toán áp dụng đối với những tập mẫu dừng. Chính vì vậy mà người ta thường muốn bằng mọi cách loại bỏ các xu thế trong các chuỗi. 9 Loại bỏ xu thế được thực hiện bằng nhiều phương pháp khác nhau, cơ sở của các phương pháp đó là ý tưởng mô tả riêng rẽ từng dao động một trong các chuỗi thời gian. Và biến động xu thế ( )(tA ) trong cách tiếp cận này được xem như một biến động độc lập, không trực tiếp liên hệ với biến động chu kỳ ngắn hơn ( )(tB ). Như vậy biến động chung )(tX của các quá trình hải dương được mô tả dưới dạng mô hình tổng hợp phần: )()()( ttt BAX += . Phải thừa nhận một trong những nét quan trọng nhất của tất cả các phương pháp phân tích thông tin hải dương học là số lượng các biến đặc trưng cho mặt này hoặc mặt khác của các quá trình tăng lên theo kiểu hàm mũ. Thí dụ, ngay ở giai đoạn xử lý sơ bộ, với hai chuỗi thời gian xuất phát là nhiệt độ và độ muối đã có thể thêm vào một chuỗi mật độ. Sau quá trình phân tích ban đầu người nghiên cứu sẽ có thêm hàng chục đặc trưng định lượng. Cuối cùng, sau khi phân tích cấu trúc dao động tiềm ẩn, lượng thông tin công tác lại tăng lên một số lần nữa do có những ước lượng hàm tự tương quan, tương quan tương hỗ, hàm phổ và hiệp phổ, các tham số khai triển Fourier, theo mô hình tổng hợp phần, những ước lượng này hình thành một cách riêng rẽ cho các thành phần xu thế và các thành phần chu kỳ ngắn. Thực tế là xảy ra tình trạng dư thông tin, muốn hệ thống hoá thông tin phải có những phương pháp đặc thù, đó là các phương pháp phân tích thống kê đa chiều. Phân loại các phương pháp phân tích thống kê đa chiều Mục đích cơ bản của phần lớn các phương pháp phân tích thống kê đa chiều là biến đổi dữ liệu xuất phát, sao cho người nghiên cứu có thể một cách trực quan và khá đầy đủ ý niệm được bản chất của những mối liên hệ chủ yếu trong tài liệu phân tích. Vì có nhiều quan điểm lý thuyết khác nhau, nên cũng xuất hiện và phát triển nhiều phương pháp phân tích thống kê đa chiều, mỗi phương pháp trong số đó lý giải sự biến động của số liệu theo kiểu của mình. Những phương pháp phân tích thống kê đa chiều phổ dụng nhất là: 1) Phân tích hồi quy; 2) Phân tích thành phần và phân tích nhân tố; 3) Phân tích tương quan chuẩn hoá; 4) Phân loại hay phân tích nhóm (cluster analysis); 5) Phân tích phân biệt (discriminant analysis). Trên cơ sở những phương pháp này nảy sinh hàng trăm biến thể khác nhau. Nhiệm vụ của người nghiên cứu là làm sao định hướng tốt, lựa chọn và sử dụng những phương pháp hiệu quả nhất. Khả năng áp dụng phân tích thống kê đa chiều trong thực tế được quy định và được kiểm tra bằng sự phù hợp giữa mô hình thống kê được xây dựng và số liệu thực, ngoài ra phải xét xem những mối phụ thuộc tương hỗ nhận được theo mô hình có lý giải được về vật lý hay không. Khi ứng dụng các phương pháp phân tích thống kê đa chiều mà kết quả kém, thì điều đó không chỉ nói lên nhược điểm của bản thân phương pháp, mà chủ yếu do không phù hợp giữa phương pháp và số liệu xuất phát hay việc áp dụng nó không đúng đắn. Chỉ có thể thành công khi áp dụng những phương pháp này một cách có lựa chọn, có cơ sở và khéo léo trong thực tế. Vì vậy, điều đáng quan tâm đặc biệt là sự phù hợp giữa các phương pháp phân tích thống kê đa chiều và các nhiệm vụ cần giải quyết. Dưới dạng chung nhất, vấn đề này được xem xét trong bảng 0.1, bảng này chỉ giới thiệu những giải pháp đã từng được thử thách nhiều nhất trong thực hành hải dương học để giải quyết những bài toán điển hình bằng các phương pháp phân tích thống kê đa chiều. Ở đây, những mục tiêu nghiên cứu rất đa dạng được chia thành ba nhóm, đối với mỗi nhóm đã xác định những nguyên tắc và những phương pháp giải quyết cụ thể. Vấn đề mô tả thống kê những mối liên hệ nhằm mục đích xây dựng các mô hình hiện tượng và quá trình để chẩn đoán và dự báo, được đặt lên vị trí đầu tiên. Điều này không phải ngẫu nhiên, vì nó luôn là kết cục 10 chính của phần lớn những bài toán thực dụng mà chúng ta giải quyết. Ngoài ra, vấn đề này cũng cần được giải quyết trong nhiều quá trình nghiên cứu khác liên quan tới phân loại các quá trình hay phân tích cấu trúc của chúng. Giải pháp mô tả thống kê truyền thống về phương diện này là ứng dụng các phương pháp phân tích tương quan và hồi quy nhiều biến, nhờ những phương tiện đó người nghiên cứu mô tả mối phụ thuộc giữa các biến. Bảng 0.1. Phân loại các phương pháp phân tích thống kê đa chiều Mục tiêu Những nguyên tắc Các phương pháp Mô tả những mối liên hệ (mô hình hoá, dự báo) Mô tả định lượng những mối liên hệ giữa các biến trên cơ sở tương quan và hồi quy Hồi quy đa biến (tuyến tính, phi tuyến) Phân tích tương quan chuẩn hoá Phát hiện và mô tả cấu trúc tiềm ẩn của số liệu Biến đổi các biến thành những thành phần trực giao Khai triển thành các đa thức đại số trực giao (Chebưsev, Fourier) Phương pháp thành phần chính Phân tích nhân tố Tách các tập con trong các đối tượng quan trắc; điển hình, phân loại, phân vùng Tách biệt tự nhiên tập hợp quan trắc thành những lớp đồng nhất, đánh giá sắp xếp các quan trắc cụ thể vào những lớp xác định Phân tích nhóm (phân loại tự động) Phân tích phân biệt Một khi đã tích luỹ được nhiều thông tin rằng có những mối liên hệ tiềm ẩn, thì các phương pháp chỉ là biến những kết luận định tính thành dạng toán học − thành những phương trình hồi quy đa biến. Ở đây phân tích hồi quy đa biến là cách tiếp cận chủ yếu trong khi giải quyết các bài toán mô tả. Nhiều kết quả khoa học và thực tiễn quan trọng đã có được nhờ ứng dụng phương pháp này trong hải dương học. Thí dụ, sử dụng hồi quy đa biến cho phép mô tả sự phụ thuộc của mật độ vào nhiệt độ, độ muối, áp suất trong các phương trình trạng thái nước biển thực nghiệm. Chính phương pháp này được sử dụng khi lập những công thức tính và dự báo điều kiện băng theo các đặc trưng khí tượng. Phương pháp tiếp cận tương tự cũng được dùng khi khảo sát sự phụ thuộc của các tham số sóng vào tốc độ gió, độ dài đà gió... Tìm cấu trúc tiềm ẩn trong các dữ liệu khí tượng thủy văn có nghĩa là phát hiện những quy luật cơ bản của những biến không gian − thời gian. Trong hải dương học vấn đề này đang được giải quyết trên ba phương diện chính: phân tích cấu trúc các mối liên hệ giữa những tham số trạng thái đại dương, phân tích cấu trúc những quy mô biến động không gian của các đặc trưng hải dương học và phân tích cấu trúc biến động thời gian của các quá trình. Nguyên tắc chính thực hiện những bài toán là khai triển tập mẫu ban đầu thành chuỗi các thành phần trực giao (không phụ thuộc với nhau). Phương pháp khai triển được chọn sao cho mỗi thành phần trực giao mô tả một mối liên hệ đặc trưng nào đó giữa các biến hoặc khái quát được quy mô điển hình của biến động không gian − thời gian. Phải thừa nhận phương pháp khai triển đơn giản nhất là các thủ tục khai triển theo các đa thức đại số, trong đó các đa thức Chebưsev và Fourier là phổ dụng nhất. Phương pháp các thành phần chính cũng được sử dụng rộng rãi, mặc dù nó có phần phức tạp hơn. Phương pháp phân tích nhân tố tạm thời ít được ứng dụng trong hải dương học thực hành, song trong các lĩnh vực khoa học khác (khí tượng học, sinh học, xã hội học, kinh tế học) nó tỏ ra rất hữu hiệu. Sự hiệu quả của phương pháp phân tích nhân tố thường phải trả giá bằng sự phức tạp của các thủ tục tính toán. Quá trình hệ thống hoá khoa học đối với những tri thức tích luỹ gắn liền với phân loại hoá, phân loại các đối tượng nghiên cứu. Những vấn đề phân loại khối nước, phân loại dạng băng, phân loại cấu trúc nước thẳng đứng... có ý nghĩa thực tiễn và khoa học đặc biệt. 11 Loại (kiểu) của hiện tượng hay quá trình là kết quả khái quát thông tin tích luỹ về đại dương rất quan trọng. Thông thường, những bài toán kiểu tương tự được giải quyết bằng cách ứng dụng phương pháp phân tích phân biệt. Theo phương pháp này, dựa trên những tính chất thống kê của những lớp đã được phân ra trước đây, có thể xếp thông tin mới vào một trong những lớp đó với một sai số tối thiểu. Trong thực hành, phân tích phân biệt đã được ứng dụng hiệu quả khi nhận dạng kiểu cấu trúc thẳng đứng nhiệt độ nước, khi chẩn đoán và dự báo kiểu điều kiện băng. Trình tự chẩn đoán thống kê các quá trình đa chiều Các phương pháp phân tích thống kê đa chiều có mục đích mô tả những hệ thống đa tham số. Hai nhóm phương pháp có vị trí trung tâm trong phân tích thống kê đa chiều: đó là các phương pháp phân loại và các phương pháp phân tích cấu trúc. Khi thực hiện một khảo sát cụ thể nào đó, thì có lẽ vấn đề chính là ta phải lựa chọn tương quan giữa hai nhóm phương pháp đó. Trong thực tiễn nghiên cứu hải dương học, có thể có hai phương án trình tự ứng dụng phân tích thống kê đa chiều. Trên hình 0.4 trình bày những sơ đồ chi tiết về ứng dụng phân tích thống kê đa chiều. Rõ ràng là cả hai phương án đều nhằm một mục tiêu cuối cùng: đạt tới sự mô tả đúng đắn và tin cậy nhất về độ biến động có mặt trong các quá trình hải dương. Nhưng mục tiêu sẽ đạt được bằng những cách khác nhau, tuỳ thuộc vào cấu trúc số liệu xuất phát mà ta phát hiện được ở những giai đoạn xử lý thống kê trước đó đối với những tham số hải dương học. Nhà nghiên cứu phải đối mặt với vấn đề chọn trình tự áp dụng các phương pháp phân tích thống kê đa chiều và câu hỏi những phương pháp cụ thể nào về nguyên tắc cần thiết phải sử dụng. Người ta giải đáp những vấn đề đó không phải ở mức linh tính, mà phải ở mức luận lý. Có nên ứng dụng các phương pháp phân tích thống kê đa chiều hay không là phải dựa vào những kết quả phân tích thống kê ban đầu và những kết luận rút ra từ phân tích các chuỗi thời gian. Các nguyên tắc chọn những con đường khả dĩ ứng dụng phân tích thống kê đa chiều phải xuất phát trước hết từ sự thoả mãn các giả thiết về tính chuẩn trong các phân bố thực nghiệm của các biến xuất phát và tính dừng, tính đồng nhất của các chuỗi được nghiên cứu. Khai triÓn c¸c Æc tr−ng −îc nghiªn cøu trong hÖ quy chiÕu trùc chuÈn (c¸c a thøc chuÈn, c¸c thμnh phÇn chÝnh, c¸c nhn tè chung, c¸c biÕn chuÈn ho¸) Phn lo¹i c¸c qu¸ tr×nh −îc nghiªn cøu trong kh«ng gian c¸c biÕn xuÊt ph¸t (phn lo¹i tù éng, phn tÝch Ph−¬ng ¸n 1 M« t¶ biÕn éng c¸c qu¸ tr×nh b»ng c¸c ph−¬ng ph¸p phn tÝch b−íc Çu èi víi nhng chuçi thêi gian trong hÖ quy chiÕu trùc chuÈn Phn lo¹i c¸c qu¸ tr×nh theo c¸c kiÓu biÕn éng cña nhng tham sè khai triÓn quy chiÕu (phn lo¹i tù éng, phn tÝch nhËn d¹ng) Ph−¬ng ¸n 2 M« t¶ c¸c Æc tr−ng thèng kª cña nhng lo¹i, nhng líp · −îc t¸ch ra b»ng c¸c ph−¬ng ph¸p phn tÝch b−íc Çu vμ phn tÝch c¸c chuçi Phn tÝch cÊu tróc c¸c líp, c¸c qu¸ tr×nh bªn trong c¸c líp b»ng c¸ch khai triÓn trong hÖ quy chiÕu trùc chuÈn (c¸c a thøc, c¸c thμnh phÇn chÝnh, c¸c nhn tè chung, c¸c biÕn chuÈn) Hình 0.4. Sơ đồ chức năng trình tự phân tích thống kê đa chiều đối với thông tin hải dương học Sở dĩ phải phân loại ngay từ đầu các biến được nghiên cứu là vì có những trường hợp không thoả mãn các giả thiết về tính chuẩn trong các luật phân bố một chiều và hai chiều, đặc biệt trong trường hợp xuất hiện dao động đa mốt. Chính đặc điểm này có tính quyết định tới việc sử dụng 12 phép phân loại các quá trình được nghiên cứu. Theo kinh nghiệm của các tác giả, nếu ngay từ đầu đã thực hiện phân tích cấu trúc với những số liệu loại này bằng các phương pháp khai triển thì thường dẫn tới những mô hình thống kê kém hiệu quả. Nguyên nhân dẫn tới những kết quả kém như vậy là do tính ít thông tin của các ước lượng tham số tương quan và hồi quy, vì phần lớn các phương pháp khai triển thực nghiệm xuất phát từ những ước lượng đó. Phải lưu ý những người nghiên cứu thực hành rằng quy luật này hoàn toàn có cơ sở, vì ước lượng liên hệ tương quan tuyến tính dựa trên đòi hỏi tuân thủ tính chuẩn của phân bố xác suất hai chiều của các biến 8, 75, 96, 201. Nếu giả thiết chuẩn của luật phân bố thực nghiệm không thoả mãn với xác suất P (), thì ta chỉ có thể hy vọng nhận được kết quả khai triển với độ chính xác khai triển không cao hơn P () chứ không mong gì hơn. Cần nhấn mạnh rằng sự kết hợp, móc nối giữa một số phương pháp phân tích thống kê đa chiều ngày nay là một tất yếu, được khẳng định bằng kinh nghiệm ứng dụng thực tiễn các phương pháp, bằng căn cứ lý luận về sự liên kết này và bằng những khả năng kỹ thuật của máy tính hiện đại. Theo cách tiếp cận như vậy, nguyên tắc kết hợp các phương pháp nghiên cứu những quá trình hải dương phức tạp có thể hiện thực hoá trên trình độ hiểu biết mới về những kết luận thống kê đã nhận được. Việc kết hợp các phương pháp áp dụng đối với nhiều hệ tọa độ khác nhau (thí dụ, không gian − các biến và các biến − thời gian) cho phép mô tả cấu trúc các mối liên hệ của toàn bộ hình lập phương thông tin hải dương học đa chiều, có nghĩa là tái tạo được một bức tranh đầy đủ hơn về sự hình thành đối tượng nghiên cứu. Những thí dụ dưới đây về chẩn đoán các quá trình hải dương sẽ là những minh chứng cụ thể cho những lập luận ở trên. Dự báo các quá trình hải dương Nghiên cứu chẩn đoán không phải là mục tiêu tự thân. Thông thường các nghiên cứu chẩn đoán là để mở đầu cho giai đoạn cuối cùng, phức tạp hơn − dự báo những quá trình hải dương. Ngày nay, khi mà cái giá của một quyết định có căn cứ, có hiệu quả kinh tế trực tiếp phụ thuộc vào chất lượng thông tin khí tượng thủy văn xuất phát và các ước lượng dự báo, thì bài toán này trở nên đặc biệt cấp thiết. Trong trường hợp này, những thành công đáng kể nhất trong dự báo bao giờ cũng là do người dự báo thấu hiểu những quá trình đang diễn ra trong đại dương và bản thân những phương pháp ngoại suy đã sử dụng. Từ kinh nghiệm thấy rằng các phương pháp chẩn đoán cần phải liên hệ gắn bó với nhau trong khi khảo sát những quá trình cụ thể. Tuy nhiên, trong thực tiễn nhiều khi không phải như vậy, và điều này là do thiếu những khảo luận lý thuyết và phương pháp luận tương ứng. Công trình này cũng đặt ra mục tiêu minh hoạ tính hiệu quả và triển vọng ứng dụng các phương pháp phân tích thống kê đa chiều để giải quyết những bài toán dự báo các quá trình hải dương đa chiều. Khái niệm "dự báo" trong hải dương học thực hành hiện đại được hình thành như là sự tiên đoán có căn cứ khoa học về những biến đổi trong trạng thái các yếu tố chế độ đại dương. Bài toán dự báo các đặc trưng hải dương học không phải là bài toán tầm thường, một mặt vì tính phức tạp của các quá trình đang diễn ra trong đại dương, mặt khác vì thiếu những hiểu biết có căn cứ khoa học cho phép mô tả đúng các quá trình. Lý thuyết tổng quát về những quá trình hải dương tạo ra một hệ thống quan điểm đôi khi không phải là không còn những mâu thuẫn, trên cơ sở đó xây dựng nên những phương pháp cụ thể phân tích và dự báo các đặc trưng hải dương học. Tuy nhiên, từ lý thuyết đó chưa dẫn tới một thuật giải vạn năng, đảm bảo dự báo hiệu quả. Những quan trắc trong đại dương ít khi cho phép người ta lý giải một tính biến động nào đó một cách đơn trị, mà thường chỉ là cơ sở hình thành nên những giả thiết còn phải kiểm tra cẩn thận. Sự đa dạng của các nhân tố trực tiếp và gián tiếp 13 ảnh hưởng tới biến động thời gian của các đặc trưng hải dương học, làm chúng ta rất khó chính thức hoá một cách đơn trị những mối phụ thuộc nhân quả. Vì vậy, những phương pháp thống kê chẩn đoán và dự báo các đặc trưng hải dương học ngày càng được ứng dụng rộng hơn trong thực tiễn. Tương tự như công trình 153 có thể định nghĩa dự báo thống kê như là sự suy luận xác suất về triển vọng phát triển và trạng thái có thể có của quá trình hải dương trong tương lai dựa trên mô hình thống kê về sự tiến triển của quá trình. Những nguyên tắc dự báo thống kê Trong quá trình nghiên cứu dự báo, một trong những nhiệm vụ quan trọng nhất là hình thành những vấn đề phương pháp luận nhằm mục đích nâng cao tính căn cứ của các dự báo. Việc tuân thủ những nguyên tắc phương pháp luận phổ biến xây dựng các mô hình dự báo ở mức độ nào đó sẽ giúp người nghiên cứu tránh được những sai lầm thô thiển. Chúng ta sẽ nêu ra những nguyên tắc này. 1. Sự đồng thuận giữa mô hình và cấu trúc số liệu quan trắc xuất phát. Từ nguyên tắc này suy ra rằng trước khi tiến tới xây dựng một phương pháp dự báo cụ thể, phải đưa ra mô tả cấu trúc dữ liệu, tức thực hiện phân tích chúng bằng phương pháp thống kê đúng đắn. 2. Sự đầy đủ, khả năng thích ứng và khả năng phát triển của mô hình dự báo. Mô hình phải mô tả được dải rộng những biến thiên của quá trình được nghiên cứu, tự điều chỉnh khi mô tả một lớp quá trình cụ thể, còn các tham số của nó phải thay đổi tuỳ thuộc vào độ chính xác dự báo. Tuân thủ những nguyên tắc này cho phép hiểu sâu hơn những đặc điểm của mô hình và những lớp tham số mà nó mô tả, tức chẩn đoán thêm về các quá trình được nghiên cứu. 3. Sự đơn giản của mô hình. Theo nguyên tắc này, mô hình đảm bảo trực quan đối với người nghiên cứu và người sử dụng (người đặt hàng), bằng cách đó giúp ta thể hiện mô hình dưới dạng các khối (dưới dạng những mô đun chương trình và những chương trình vạn năng). Tính thay thế được của các khối, hoàn thiện các khối, cuối cùng cho phép người nghiên cứu xác định được những khả năng của mô hình, tức thực hiện việc kiểm tra các mô hình dự báo và đưa ra đánh giá khách quan cuối cùng về mô hình đang dùng. Phân loại các phương pháp dự báo Ngày nay, dự báo một quá trình đa chiều là một bài toán tương đối đặc biệt trong thực tiễn nghiên cứu dự báo hiện đại. Đối với hải dương học, thì điển hình nhất là dự báo quá trình một chiều, gọi là dự báo một yếu tố chế độ hay dự báo một đặc trưng hải dương học. Ở đây tính đa liên hệ, đa chiều của bản thân quá trình hình thành sự biến thiên của đặc trưng đang xét bị đẩy xuống hàng thứ yếu (được tham số hoá gián tiếp qua phương trình hồi quy đa biến) hoặc là bị bỏ qua hoàn toàn khi sử dụng những phương trình tự dự báo. Trong công trình này, chúng tôi sẽ cố gắng thử nghiệm ý tưởng bảo tồn tính đa chiều của quá trình cả trong chẩn đoán lẫn trong dự báo. Ở đây chúng tôi cho rằng nội dung quan trọng nhất của dự báo một quá trình đa chiều chính là dự báo được sự tiến triển liên hệ lẫn nhau của các tham số của vectơ m chiều các biến quan trắc. Vì vậy việc dự báo một cách tách biệt các tham số riêng lẻ không có vị trí hàng đầu, mà quan trọng là xây dựng mô hình dự báo mô tả được những quan hệ đa chiều của các tham số của quá trình. Số lượng các phương pháp có thể có để dự báo thống kê các quá trình đa chiều một mặt do nội dung kết quả chẩn đoán, mặt khác do chức năng mục tiêu của dự báo quy định. Trong bảng 0.2 biểu diễn ba mục tiêu quan trọng nhất của việc xây dựng mô hình dự báo trong nghiên cứu hải dương học ứng dụng. Chúng ta sẽ khái quát tóm tắt những nguyên tắc và những thủ pháp phương pháp luận tương ứng. Dự báo cấu trúc của quá trình đa chiều thực hiện dựa trên cơ cở ngoại suy trong thời gian các kết quả khai triển trực giao ma trận quan trắc xuất phát bằng các phương pháp phân tích thành phần chính và phân tích nhân tố. Sự biến động trong thời gian của những nhân tố chung 14 (những thành phần chính) chứa đựng động thái những mối liên hệ quan trọng nhất của các biến ban đầu. Trong phương pháp này thông tin được nén đáng kể − số nhân tố chung thực tế nhỏ hơn hai lần so với số biến xuất phát. Sự độc lập của các thành phần khai triển sẽ đảm bảo tính hiệu quả của các phương pháp tự dự báo. Bảng 0.2. Phân loại các phương pháp dự báo các quá trình đa chiều Mục tiêu Nguyên tắc Phương pháp Dự báo cấu trúc của quá trình Dự đoán sự tiến triển của các tham số tổng hợp trong mô hình khai triển trực giao Ngoại suy các số hạng khai triển bằng những phương pháp tự dự báo (tự hồi quy, trung bình trượt, hài Fourier) Dự báo lớp trạng thái của quá trình Dự đoán sự tiến triển của quá trình theo nghĩa thay thế các lớp trạng thái Ngoại suy hàm mật độ xác suất bảo tồn hay biến thiên lớp bằng những phương pháp ước lượng Bayes và lý thuyết các quá trình Markov Dự báo một biến riêng lẻ của quá trình đa chiều Dự đoán đặc trưng có tính tới ảnh hưởng của tất cả các tham số của quá trình Ngoại suy dựa trên việc tính tới các mối liên hệ không đồng bộ của những tham số xuất phát bằng các phương pháp phân tích hồi quy đa biến (tuyến tính, đa thức, phổ, hồi quy từng bước) Tính đa mốt của quá trình nhiều chiều biểu lộ rõ nét là tiền đề quan trọng để chẩn đoán và dự báo động lực của nó, với ý nghĩa là động lực chung của trạng thái quá trình. Ước lượng trạng thái tương lai của quá trình ở đây được thực hiện dựa trên ngoại suy hàm mật độ xác suất bằng các phương pháp của lý thuyết các quá trình Markov và ước lượng Bayes. Các trị số dự báo của những tham số xuất phát được xác định qua những ước lượng kỳ vọng toán học và phương sai của chúng, ứng với lớp đang xét. Trong nhiều tình huống thực tế, việc dự báo những quá trình đa chiều được đưa về việc ngoại suy một biến quan trắc duy nhất của quá trình. Về nguyên tắc thì không có gì khó khăn trong việc giải quyết bài toán này theo hai cách tiếp cận đã xét. Dựa vào chẩn đoán cấu trúc quá trình, có thể thực hiện dự báo bằng cách ngoại suy một số rất hạn chế các số hạng khai triển trực giao, những số hạng khai triển này liên hệ một cách tin cậy, về phương diện thống kê, với biến phải ngoại suy. Phương án thứ hai − xây dựng mô hình dự báo trên cơ sở tính tới những mối liên hệ bất đồng bộ giữa các tham số xuất phát của quá trình và biến phải ngoại suy. Theo truyền thống, bài toán này được giải bằng các phương pháp phân tích hồi quy đa chiều, tuỳ thuộc vào tính ổn định của các mối liên hệ và mức độ tuyến tính của chúng mà chọn mô hình hồi quy tối ưu. Tuần tự chung xử lý các quá trình hải dương đa chiều Đa phần các dự báo thống kê vật lý khí tượng thủy văn hiện đại hiện thực hoá hai ý tưởng: 1) Dự báo đa tham số, trong đó sự tiến triển của quá trình được mô tả bằng cách đưa vào phân tích một số mối liên hệ bất đồng bộ bên ngoài ổn định nhất phản ánh những cơ chế nhân quả; 2) Tự dự báo, tức sự phát triển tương lai của quá trình chỉ phụ thuộc vào sự biến động của bản thân nó trong quá khứ. Nét tiêu biểu là việc ứng dụng các sơ đồ dự báo đa tham số trong hải dương học không phải là do các phương pháp tự dự báo đã hết khả năng tiềm tàng của nó. Các tác giả cuốn sách này chưa thấy có công trình nào chứng minh theo tài liệu thực tế về tương quan giữa hai phương pháp luận. Ngược lại, chúng ta chỉ thấy rằng thường người ta đổ xô vào các sơ đồ dự báo đa tham số sau khi thất bại với tự dự báo mà chỉ sử dụng một trong những phương pháp đơn giản nhất − phân tích xu thế hoặc xấp xỉ Fourier. Trong khi đó, còn cả một loạt các phương pháp tự dự báo thống kê xác suất có rất nhiều khả năng thì nhìn chung chưa được dùng tới. Sự phát triển và hoàn thiện của các phương pháp thống kê cho phép nhìn nhận tương quan giữa các dự báo đa tham số và tự dự báo từ những quan điểm mới, trực tiếp dựa theo kết quả chẩn đoán các quá trình hải dương đa chiều. Việc ứng

Trang 1

NXB Đại học Quốc gia Hà Nội - Hà Nội - 2005

Từ khóa: Quá trình hải dương học, chẩn đoán, dự báo, thống kê, phương pháp hồi quy, thành phần chính, nhân tố, phương pháp phân loại, cấu trúc, biến động, ma trận số liệu, nhận biết phân biệt, khai triển trường, mô hình tuyến tính, đa chiều, phân tích quan hệ, dự báo tổ hợp

Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu cá nhân Nghiêm cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất bản và tác giả

CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC

Smirnov N P., Vainovsky P A., Titov Iu E

Biêndịch: Phạm Văn Huấn

Trang 2

SMIRNOV N P., VAINOVSKY P A., TITOV Iu E

CHẨN ĐOÁN VÀ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH HẢI DƯƠNG HỌC

BIÊN DỊCH : PHẠM VĂN HUẤN

NHÀ XUẤT BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI - 2005

Trang 3

Cuốn sách Chẩn đoán và dự báo thống kê các quá trình hải dương học tổng kết những kinh nghiệm ứng dụng các phương pháp

thống kê nhiều biến vào nghiên cứu trường các yếu tố hải dương học diễn ra trong đại dương Các tác giả giới thiệu tóm tắt về bản chất và ý nghĩa của các phương pháp phân tích thống kê hiện đại, quy trình tính toán thực tế khi áp dụng chúng vào các nhiệm vụ nghiên cứu cụ thể, không đi sâu vào khía cạnh toán học của vấn đề Do đó cuốn sách sẽ là một tài liệu chỉ dẫn phù hợp cho những người không chuyên toán muốn ứng dụng công cụ thống kê toán học vào công việc nghiên cứu của mình Đặc biệt, khi diễn đạt những bài toán nghiên cứu và dự báo thống kê các quá trình hải dương, các tác giả luôn chú trọng phương diện phương pháp luận nghiên cứu, cách đặt vấn đề, cách lý giải nội hàm của những kết quả nhận được, nhờ đó giúp chúng ta biết cách ứng dụng công cụ thống kê một cách khéo léo và hiệu quả

Các phương pháp thống kê nhiều biến cho phép người nghiên cứu phân tích toàn diện, đồng thời nhiều quá trình, nhiều đặc trưng hải dương học, từ đó nhận được quan niệm đầy đủ về những gì đang và sẽ diễn ra trong biển và đại dương, hình thành những mô hình về cấu trúc và biến động của quá trình, hiện tượng mà ta quan tâm Hiện nay ở Việt Nam nguồn dữ liệu về các yếu tố thủy văn, thủy hoá, khí tượng, sinh học biển ngày càng được thu thập thêm, dần dần trở nên đồng bộ, phong phú Với phương tiện tính toán ngày càng hiện đại, chắc chắn hướng nghiên cứu phân tích thống kê tự động sẽ phát triển và cuốn sách này sẽ hữu ích cho nhiều người nghiên cứu

Người biên dịch

Trang 4

MỤC LỤC

1.1 PHÂN TÍCH HỒI QUY ĐA CHIỀU HỒI QUY TUYẾN TÍNH ĐA CHIỀU 18

Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH

5.3 CHẨN ĐOÁN CẤU TRÚC CÁC KHỐI NƯỚC Ở BIỂN

Chương 6 - NHỮNG KẾT QUẢ DỰ BÁO THỐNG KÊ CÁC QUÁ TRÌNH

6.3 DỰ BÁO PHÂN BỐ KHÔNG GIAN CỦA PHÙ DU SINH VẬT Ở BIỂN

MỞ ĐẦU

Tính đa chiều và ngẫu nhiên trong biến động của các quá trình đại dương không cho phép người ta ngay tức khắc theo dõi, mô tả định lượng và lý giải cơ chế vật lý của chúng một cách đơn trị Các phương pháp phân tích thống kê sẽ là một công cụ phát hiện và mô tả những mối quan hệ tương hỗ phức tạp đó để giải quyết các bài toán chẩn đoán và dự báo những quá trình đại dương Độ chính xác và tin cậy của những kết luận nhận được phụ thuộc rất nhiều vào số lượng và sự đa dạng của thông tin ban đầu được đưa vào xử lý

Thực tế ta thấy toàn bộ cơ sở thông tin được tích luỹ trên ba mặt phẳng: không gian − thời gian X( tl, ), không gian − dấu hiệu X( zl, ), dấu hiệu − thời gian X( tz, ); tập hợp những thông tin này làm thành một khối lập phương dữ liệu với các trục: không gian (l ), thời gian ( t ), các

biến số ( z ) (hình 0.1) Vậy các dữ liệu được sắp xếp trong khối lập

phương đó như thế nào? Một quan trắc riêng lẻ x về một biến số nào đó,

tại một điểm không gian, vào một thời điểm cho trước, sẽ là một ô duy nhất trong khối lập phương dữ liệu Một chuỗi gồm N quan trắc

{x1 ,x2 , ,xN} sẽ là một vectơ nằm dọc theo trục tương ứng của khối lập

t1 ,2 , , sẽ cho ta một vectơ quan trắc X(t), trong khối lập phương dữ liệu nó sẽ song song với trục thời gian Một quan trắc phân bố thẳng đứng của nhiệt độ nước sẽ là một vectơ dữ liệu song song với trục không gian: X(l) Nếu ta quan trắc liên tiếp theo thời gian về phân bố thẳng đứng của nhiệt độ nước tại một điểm, ta sẽ nhận được một mặt phẳng dữ liệu nằm trong khối lập phương song song với mặt phẳng các dấu hiệu:

Trang 5

) ,

( lt

Còn nếu như đồng thời với nhiệt độ, ta quan trắc nhiều lần các tham số trạng thái đại dương khác (độ muối, vận tốc dòng chảy, các yếu tố hoá học), thì kết quả là ta nhận được khối lập phương dữ liệu phủ đầy tất cả các trục tọa độ đã chọn: X(t,l,z)

Trong các phương pháp phân tích dữ liệu đơn chiều, người ta xét chuỗi quan trắc trong thời gian hoặc trong không gian và nghiên cứu được tính chất của sự biến động (tuần hoàn, ngẫu nhiên ), sự đồng nhất của các dao động, sự liên hệ của vectơ quan trắc [104, 123, 201] Khi đó thực tế ta không xét tới mặt phẳng quan trắc về những tham số khác nhau Và mặc dù có những hiệu quả nhất định, các phương pháp thống kê đơn chiều không cho phép phân tích một cách đầy đủ cần thiết về quá trình

Các phương pháp phân tích cặp các chuỗi (phân tích tương quan, hồi quy, phổ) nhằm mục đích mô tả thống kê về mối liên hệ tương hỗ của hai vectơ quan trắc trong thời gian hay trong không gian: X1(t), X2(t);

) (

1 l

X , X2(l) Ở đây người ta vừa phân tích từng vectơ riêng biệt, vừa

phân tích mức độ quan hệ cặp đồng bộ hay bất đồng bộ giữa chúng Vậy là người ta đã nghiên cứu cấu trúc thống kê của quá trình một cách đầy đủ hơn so với phân tích đơn chiều

Nhưng chỉ trong các phương pháp phân tích thống kê đa chiều thì mới thực sự có khả năng khảo sát đồng thời một tập hợp các vectơ quan trắc Các phương pháp phân tích thống kê đa chiều hướng tới giải quyết các bài toán phân tích thống kê đối với những ma trận gồm N quan trắc

(các đối tượng) về M biến số (các dấu hiệu) Ở đây, những ma trận có

thể là những bảng số nhận được bằng cách cắt khối lập phương dữ liệu dọc theo một mặt bất kỳ nào đó Đây có thể là những ma trận quan trắc trong các mặt phẳng: các biến số − thời gian X( tz, ), các biến số − không gian X( lz, ) hoặc thời gian − không gian X( lt, ) Ta có thể đưa trục các dấu hiệu vào phân tích thì cũng hoàn toàn như vậy, đó là ưu điểm rõ rệt của phân tích thống kê đa chiều, nó cho phép khảo sát khối lập phương dữ liệu một cách toàn thể Những tập phân bố đồng thời của các đặc trưng quan trắc được phân tích bằng các phương pháp phân tích các vectơ và các ma trận, với chúng, bằng phép phân tích thống kê đa chiều sẽ đưa ra sự mô tả định lượng về những mối liên hệ tương hỗ ẩn bên trong các tham số ban đầu và phát hiện ra nội hàm của các mô hình chẩn đoán và dự báo các quá trình hải dương đa chiều được nghiên cứu

Khái niệm chẩn đoán

Theo từ điển các từ nước ngoài, thì chẩn đoán là quá trình xác định thực chất của bệnh và trạng thái của bệnh nhân trên cơ sở khám xét toàn diện về anh ta Áp dụng vào hải dương học thực hành, bản chất của thuật ngữ này không có gì đổi khác nhiều lắm Ta có thể định nghĩa như sau: Chẩn đoán là tuần tự những thủ tục tổng kết, hệ thống hoá và lý giải về sự biến động quan sát thấy của các đặc trưng hải dương nhằm hình thành một mô hình tin cậy về các quá trình đang diễn ra

Chẩn đoán đòi hỏi hai giai đoạn cơ bản: phân tích và tổng hợp Phân tích, tức tách bạch đối tượng nghiên cứu thành những hợp phần, là giai

Trang 6

đoạn nghiên cứu đầu tiên Giai đoạn này có thể bao gồm nhiều phương pháp biến đổi dữ liệu quan trắc và các tính toán để mô tả các hợp phần và những hiện tượng riêng lẻ của các quá trình Nội dung chính của một phương pháp phân tích bất kỳ − phương pháp vật lý, thực nghiệm, thống kê hay số trị − là làm sao phát hiện và mô tả những yếu tố hợp thành các quá trình đang diễn ra

Tổng hợp là giai đoạn kết thúc của chẩn đoán và hướng tới liên kết những bộ phận cấu thành đơn lẻ, hay những tính chất đơn giản nhất đã phát hiện được, thành một chỉnh thể nào đó Nguyên tắc cơ bản của sự liên kết này là hình thành một cách lôgic bức tranh hoàn chỉnh về các sự kiện đang diễn ra trên cơ sở những quy luật và những mối liên hệ của các yếu tố đã phát hiện được ở giai đoạn phân tích Thực chất thì tổng hợp bao gồm nhiều phương pháp trong số các phương pháp phân tích, nhưng chúng được áp dụng với chức năng nội dung và mục tiêu khác − để liên kết và hệ thống hoá những hợp phần đã biết Ngoài ra, tổng hợp gồm cả sự lý giải về hệ thống các quy luật đã thấy được Lý giải được hiểu là sự giải thích vật lý về những quy luật đã phát hiện, nêu ra cơ chế vật lý chung trong sự xuất hiện và phát triển của các hiện tượng đang diễn ra trong đại dương

Tác giả công trình này gộp vào khái niệm chẩn đoán toàn bộ những thủ tục biến đổi thông tin hải dương học đa dạng trong quá trình nghiên cứu sự vận hành của hệ thống "đại dương" trong quá khứ hay hiện tại Vì vậy, có hai loại thủ tục chẩn đoán sau đây với tư cách là những bộ phận cấu thành của chẩn đoán: chẩn đoán vật lý và chẩn đoán thống kê Những khái niệm này khác nhau về dấu hiệu kỹ thuật hay dấu hiệu tính toán

Chẩn đoán vật lý bao gồm các thủ tục và phương pháp xác định trạng thái đại dương, được xây dựng trên cơ sở mô tả những hiện tượng và quá trình hải dương bằng cách tính toán và phân tích những đặc trưng thủy vật lý Theo nội dung, chẩn đoán vật lý có tính truyền thống Trước hết, nó gồm những phương pháp hải dương học tính toán những đặc trưng trạng thái đại dương không trực tiếp quan trắc, những đặc trưng thứ

sinh Đó là những tham số đặc trưng cho các trường vật lý, động lực, năng lượng, ta có thể kể ra rất nhiều May thay, tất cả những tham số đó liên hệ với những đặc trưng nguyên sinh thông qua những quy luật vật lý đã biết và tạo thành một tập hợp các biến đặc trưng một cách đơn trị cho những dạng quá trình hải dương cụ thể

Ý nghĩa của chẩn đoán vật lý còn ở chỗ nó khái quát những biến đổi đang diễn ra trong đại dương thông qua một hệ thống những thuật ngữ và phạm trù đã biết và chấp nhận trong hải dương học Đó là những yếu tố cân bằng nhiệt (entalpy, các dòng nhiệt), những yếu tố cấu trúc ngang và thẳng đứng của nước (các khối nước, front và đới chuyển tiếp, các xoáy nước và các hệ thống hoàn lưu) v.v Đối với những loại thuật ngữ cụ thể đã có những hệ phương pháp phân tích chuyên biệt

Thông thường, hệ phương pháp phân tích vật lý là một tổ hợp gồm những phương pháp kinh nghiệm phân tích định lượng kết hợp với những phương pháp thực tiễn xử lý và mô tả định tính Có sự liên kết đó là nhờ kinh nghiệm nhiều năm nghiên cứu thực tế, thường thì không phải là kết quả của những nghiên cứu một cách hệ thống và có định hướng, mà là do người ta khái quát những điều đáng quan tâm từ hoạt động thực tiễn

Thí dụ, phương pháp luận phân tích T , đối với các khối nước S

[23,125] là một thành tựu cơ bản của khoa học, cho phép hiểu và mô tả những quá trình quan trọng nhất hình thành cấu trúc khối nước Trong khi đó hệ phương pháp mô tả điều kiện băng và trạng thái mặt biển theo thang điểm là đúc rút từ những nhu cầu thực tiễn hàng hải

Phần lớn những phương pháp phân tích vật lý các quá trình hải dương kết hợp những cơ sở của phép phân tích định lượng các quan trắc với những giải pháp lý luận tập hợp, chuẩn bị và xử lý thông tin hải dương học Những quy tắc lý thuyết đồng thời là cơ sở để lý giải tiếp theo về những ước lượng định lượng về phương diện hải dương học

Về toàn cục thì thực tiễn phân tích vật lý đối với những quá trình hải

Trang 7

dương là một phương pháp luận đã hình thành, hoàn chỉnh và rất hiệu quả trong xử lý thông tin hải dương học

Những nguyên tắc của chẩn đoán thống kê

Chẩn đoán thống kê yêu cầu sử dụng các phương pháp thống kê để xử lý, phân tích và lý giải thông tin hải dương học đa dạng Phương pháp luận của chẩn đoán thống kê dựa trên nhiều phương pháp phân tích thống kê và thể hiện dữ liệu

Chẩn đoán thống kê có nhiều triển vọng ứng dụng thực tế trong nghiên cứu hải dương học Đó là do hiện nay có rất nhiều phương pháp thống kê biến đổi thông tin Song việc sử dụng chẩn đoán thống kê trong thực tế hiện còn rất hạn chế Về điều này có một số nguyên nhân

Thứ nhất, rõ ràng rằng trong giới những người nghiên cứu ứng dụng chưa hiểu sâu sắc về chính hệ thống các tính toán thống kê và sự liên hệ ràng buộc bên trong của các phương pháp thống kê khác nhau Thực chất điều này cản trở việc sử dụng nhiều phương pháp để hình thành và kiểm tra các giả thuyết thống kê, chấp nhận những quyết định có căn cứ thống kê để khảo sát định lượng toàn diện về những mối liên hệ lẫn nhau giữa các đặc trưng hải dương học Chúng tôi cho rằng chính là sự thiếu hiểu biết thực dụng về bản chất của phương pháp luận thống kê đã làm nảy sinh sự hoài nghi đối với nó Kết quả là sự chẩn đoán bị quy về ứng dụng thực tế một số thủ pháp phương pháp luận riêng biệt, những thủ pháp này mặc dù chưa phải là tối ưu để giải quyết các bài toán cụ thể, nhưng chúng được dùng quen, ổn định, thành tập tục lịch sử, không gây cho nhà nghiên cứu những bất trắc nào

Thứ hai, áp dụng những phương pháp phân tích thống kê hiện đại phải đi kèm với cơ sở kỹ thuật tương ứng Những tính năng của các máy tính hiện có đôi khi quyết định giới hạn của việc phân tích thống kê thông tin trong thực tế Khác với những tính toán thủy động lực, thống kê đòi hỏi không chỉ tốc độ máy tính, mà chủ yếu là dung lượng nhớ lớn Bộ nhớ trong và bộ nhớ ngoài quy định khả năng áp dụng nhiều phương

pháp tiếp cận hữu hiệu, trong đó có những phương pháp phân tích thống kê nhiều biến

Cuối cùng, nguyên nhân thứ ba là do tình trạng lưu giữ thông tin hải dương học vào máy tính rất chậm trễ Như đã biết, hiệu quả của việc xử lý những mảng dữ liệu lớn tuỳ thuộc rất nhiều vào trình độ tổ chức thông tin Tính tin cậy của những kết luận thống kê liên quan với độ dài tập mẫu nghiên cứu Vì vậy, sự tích luỹ thông tin và lưu giữ chúng một cách có tổ chức có thể xem là con đường nhanh nhất để phát triển các phương pháp chẩn đoán thống kê

Bản chất của chẩn đoán thống kê là phân tích định lượng một tập hợp những đặc trưng hải dương học, thành lập những mô hình thống kê tối ưu về những quá trình được quan trắc, mô tả tiếp và lý giải những quy luật và cơ chế vật lý hình thành nên tính biến động đại dương Phương pháp luận phân tích thống kê được phổ biến rộng rãi nhất trong phân tích sơ bộ những chuỗi quan trắc (dựng tổ chức đồ, ước lượng các mômen thống kê bậc thấp), mô tả quan hệ các chuỗi (tương quan cặp và hồi quy), phát hiện quy luật biến động thời gian của các đặc trưng hải dương học (phân tích điều hoà, phổ, hiệp phổ) Trong khi đó các phương pháp phân tích nhiều biến nói chung hiện còn ít được dùng hơn, điều này hoàn toàn không tương xứng với sức mạnh thực tế của các phương pháp đó

Ta sẽ khái quát hoá những nhận xét trên đây về chẩn đoán vật lý và thống kê dưới dạng một sơ đồ trực quan đơn giản sao cho có thể tóm lược được những ý tưởng phương pháp luận của các hướng nghiên cứu khác nhau (hình 0.2)

Thấy rằng khối chẩn đoán thống kê liên quan trực tiếp với ba khâu của hệ thống xử lý: các cơ sở dữ liệu, chẩn đoán vật lý và hình thành tri thức của người dùng Tương ứng với những mối liên hệ qua lại đó, có thể phát biểu những bài toán cơ bản của chẩn đoán thống kê gồm ba nhóm sau đây

1 Những bài toán về xử lý sơ bộ các số liệu, bao gồm các thủ tục

Trang 8

hình thành những mảng thông tin ban đầu từ các cơ sở dữ liệu gốc và trên cơ sở những kết quả tính toán các đặc trưng hải dương học thứ sinh trong khối chẩn đoán vật lý

2 Những bài toán phân tích thống kê thông tin, thể hiện dưới dạng một loạt vấn đề cụ thể về phân tích thống kê tối ưu đối với tài liệu Thí dụ, những bài toán về phát hiện những hợp phần tuần hoàn trong biến thiên thời gian và không gian, đánh giá định lượng mối liên hệ giữa các dao động của những đặc trưng hải dương học trong không gian hay trong

Hình 0.2 Sơ đồ chức năng chẩn đoán các quá trình hải dương học

3 Những bài toán ở giai đoạn tổng hợp, khi những ước lượng định

lượng thu được về các mối liên hệ thống kê cần phải thống nhất lại dưới hình thức những mô hình về hiện tượng, đáng tin về mặt thống kê, sau đó lý giải theo tinh thần vật lý về cơ chế hoạt động của những mô hình nhận được theo thuật ngữ hải dương học và phù hợp với những tiên đề vật lý đã chấp nhận khi phân tích

Sơ đồ khối trên đây vận hành thành công hay không tuỳ thuộc vào tương quan giữa trình độ tri thức của người sử dụng những kết quả chẩn đoán và tính hiệu quả của những quyết định thực tiễn chấp nhận trên cơ sở tri thức đó Nếu hiệu số giữa hai hợp phần này âm thì sẽ phát sinh yêu cầu tiếp tục nghiên cứu Nếu hiệu dương sẽ nảy sinh khả năng tiếp tục sử dụng tri thức, thí dụ, dưới dạng các dự báo sự phát triển của những quá trình hải dương trong thời gian hay trong không gian

Sự thành công trong giải quyết những bài toán chẩn đoán thống kê các quá trình hải dương tuỳ thuộc rất nhiều vào tính hiệu quả của việc áp dụng các phương pháp cụ thể xử lý thống kê thông tin Về hình thức, khối chẩn đoán thống kê là một tuần tự nhiều phương pháp của thống kê học, việc chọn và cụ thể hoá chúng được thực hiện phù hợp với những mục tiêu chung của người nghiên cứu Tuy nhiên, có thể nêu ra một số nguyên tắc cơ bản trong khi chọn và ứng dụng các phương pháp thống kê trong chuỗi chung chẩn đoán các quá trình hải dương

Nguyên tắc bổ sung Theo nguyên tắc này, những phương pháp được

chọn phải dẫn tới những kết quả sao cho có thể xây dựng được bức tranh đầy đủ nhất về các hiện tượng đang diễn ra Như vậy cũng chính là nhấn mạnh rằng phải loại trừ sự lặp lại nhiều lần những kết quả Có cần phân loại một tập mẫu mà về tập mẫu đó tất cả những chỉ tiêu đồng nhất đã được khẳng định trước không? Tuy nhiên, trong thực tế cũng có thể cần phân loại nhiều lần một tập mẫu theo nhiều chỉ tiêu và quy tắc phân loại khác nhau để làm sao chọn được một cấu trúc lớp ổn định nhất và có căn cứ vật lý nhất Ý nghĩa của quy tắc này là ở chỗ sao cho kết quả ở lần sau mở rộng những quan niệm của chúng ta về đối tượng nghiên cứu đã thu được ở lần chẩn đoán trước

Trang 9

Nguyên tắc kết hợp các phương pháp để liên tục áp dụng những

phương pháp nghiên cứu phức tạp hơn Những phương pháp xử lý thống kê đơn sơ hơn thì cho những kết quả thô, gần đúng, nhưng ít tốn thời gian Phương pháp chính xác hơn thường phức tạp hơn và ít kinh tế hơn Thông thường, sự phức tạp tính toán và tăng độ chính xác kết quả luôn dẫn tới thu hẹp phạm vi ứng dụng của hệ phương pháp Độ tin cậy cao của một ước lượng thống kê chủ yếu là do tuân thủ nghiêm ngặt những điều giới hạn trong khi tính toán Bài toán quen thuộc trong khí tượng thủy văn về tính các chuẩn nhiều năm của nhiệt độ nước là một minh hoạ về điều vừa nêu Ước lượng gần đúng trung bình số học theo chuỗi quan trắc dài tỏ ra không có gì kém so với những ước lượng tinh xảo kỳ vọng toán học thực hiện bằng nhiều phương pháp phức tạp với xấp xỉ không dừng

Nguyên tắc kế thừa cho phép dần dần đạt tới độ tin cậy cực đại của

kết quả tính toán với độ mạo hiểm tối thiểu Nguyên tắc này tạo ra khả năng phân chia thành từng pha các phương pháp chẩn đoán thống kê những quá trình hải dương Một pha là một nhóm các phương pháp xử lý thống kê gồm một số những tính toán khép kín, người sử dụng kiểm soát tính hiệu quả của nó Thí dụ, khi tính các thành phần chính, có thể tổ chức một pha tính mỗi thành phần và khôi phục giá trị của thành phần đó Sau khi kiểm tra tính hội tụ và tính lý giải được của các thành phần, người sử dụng quyết định cần tiếp tục khai triển hay kết thúc các thủ tục tính toán

Trình tự chẩn đoán thống kê

Trong thực tế có thể thực hiện những nguyên tắc chẩn đoán thống kê chung nhất đã liệt kê trên đây dưới dạng những sơ đồ tính toán thống kê Ta sẽ dừng lại ở một trong những phương án khả dĩ tỏ ra rất hiệu quả trong nghiên cứu các quá trình hải dương quy mô lớn

Sơ đồ chẩn đoán thống kê này (hình 0.3) hình thành trên cơ sở những nguyên tắc đã xét ở trên như một bộ phận hợp thành của một quá

trình chung xử lý thông tin hải dương học Giai đoạn phân tích gồm bốn nhóm phương pháp xử lý Xử lý bước đầu được chia thành một khối độc lập để nhấn mạnh tầm quan trọng và sự cần thiết của việc lựa chọn ban đầu thật cẩn thận các tham số phân tích thống kê

Rõ ràng, việc chọn lựa cụ thể những tham số phải xuất phát từ các điều kiện phát biểu bài toán chẩn đoán Sau khi có kết quả chẩn đoán vật lý, ở mức định tính chúng ta đã có thể tiên đoán khả năng đưa thêm những tham số bổ sung vào danh sách các mối liên hệ cần nghiên cứu Trong danh sách đã có thể đưa thêm những biến không trực tiếp quan trắc, nhưng có thể tính được trong quá trình chẩn đoán vật lý

Phân tích thống kê ban đầu trong chẩn đoán thống kê có thể được xem vừa như là mục tiêu nghiên cứu, vừa như là giai đoạn tính toán trung gian Trong mọi trường hợp thì kết quả phân tích thống kê ban đầu là nền tảng để lý giải về tính ổn định và tính biến động của các tham số, tính đồng nhất và tính dừng của các thành phần riêng biệt của các quá trình được nghiên cứu

Cần tách riêng các phương pháp ước lượng trị số của những mômen thống kê đầu tiên và thuật toán tính toán các tổ chức đồ thực nghiệm một chiều và hai chiều như là những thủ tục tính toán các đặc trưng thực nghiệm quan trọng của những quá trình hải dương Các ước lượng thống kê − trung bình, phương sai, các hệ số biến phân, độ bất đối xứng, độ nhọn, các tham số phân bố xác suất, là thông tin quan trọng về cấu trúc nội tại của biến động thời gian hay không gian của các quá trình Trên cơ sở đó hình thành quan niệm ban đầu về biến động nền của các hiện tượng nghiên cứu nói chung

Phân tích các chuỗi thời gian được tách thành một khối riêng biệt, vì trong đó những thuật toán ước lượng định lượng về mức độ có quy luật trong sự biến thiên các đặc trưng hải dương học theo thời gian được liên kết thành một chuỗi những tính toán liên quan nhau một cách lôgic Những ý tưởng phân tích chuỗi thời gian đã được xét chi tiết và toàn diện

Trang 10

trong nhiều chuyên khảo về những vấn đề phân tích xác suất các quá trình hải dương [69, 151, 193] Ở đây cần nhấn mạnh ý nghĩa to lớn của phép phân tích thống kê tổng hợp đối với các quá trình hải dương đa chiều trong hệ phương pháp này

Hình 0.3 Sơ đồ chức năng của chẩn đoán thống kê

các quá trình hải dương

Tách ra tính biến thiên có quy luật của chuỗi thời gian có nghĩa là nhận những ước lượng tin cậy của những đặc trưng về tính ngẫu nhiên hay tính có quy luật trong biến thiên thời gian Rõ ràng, phát hiện ra những quy luật là kết quả quan trọng khi phân tích các chuỗi thời gian Trước hết quy luật được hiểu là sự tuần hoàn lặp lại tiềm ẩn trong các dao động của các đặc trưng hải dương học mà người ta giải thích như là sự biểu hiện của các cơ chế hình thành các quá trình nghiên cứu bởi những nhân tố bên ngoài hay bên trong Vì vậy các phương pháp phân tích điều hoà của Fourier, phương pháp phân tích biểu đồ chu kỳ, phân tích phổ được phát triển mạnh mẽ nhất

Đại dương là một hệ thống phức tạp gồm những mối liên hệ cấu trúc

nhiều tầng, gồm cả một dải rộng tần số dao động riêng và dao động cưỡng bức Chính tính có cấu trúc của hệ thống đã cho phép chúng ta sau khi xấp xỉ đánh giá được cấu trúc tần số của các quá trình, có thể ngay tức khắc xếp các hiện tượng đang xét vào một thang bậc nhất định trong sự đa tầng biến động đại dương Tuy nhiên, kinh nghiệm cho thấy rằng tập hợp các tần số dao động đặc trưng là có hạn và thực tế nó nằm gọn trong dải biến động từ cỡ vài phút đến vài nghìn năm, điều khẳng định này đủ chính xác và đủ tin cậy đối với những nhu cầu thực tiễn và lý thuyết hiện nay

Ta đã biết rằng cấu trúc tần số trong sự tương tác giữa các thành tố của hệ thống khí hậu có số bậc tự do rất khác nhau Việc mô tả những mối liên hệ qua lại trong các dao động của những đặc trưng hải dương học trong miền tần số được thực hiện bằng các phương pháp phân tích phổ tương hỗ; theo phương pháp này, từ các ước lượng phổ dao động đồng pha và không đồng pha, độ hiệp biến và pha các dao động, ta sẽ có được quan niệm về sự hiện diện hay không hiện diện của những tương tác có tính tuần hoàn giữa hai chuỗi thời gian

Còn có một nhóm các bài toán phân tích chuỗi thời gian liên quan tới việc mô tả những dao động tuần hoàn chu kỳ dài trong các quá trình ban đầu, gọi là "xu thế" Bài toán mô tả xu thế chắc chắn không nên coi là bài toán tầm thường và có lẽ nó cũng là bài toán còn lâu mới hoàn thiện

Theo truyền thống thì các nhà nghiên cứu xem xu thế là một thứ nhiễu không mong muốn Nguyên nhân là do xu thế phá huỷ điều kiện dừng của các chuỗi thời gian, làm giảm mạnh hiệu quả của các phương pháp phân tích tương quan và phổ kinh điển Thực vậy, tính không dừng về kỳ vọng toán học, về các đặc trưng biên độ và pha dao động làm giảm độ tin cậy của những ước lượng của các thành phần tất định, vì phần lớn trường hợp trong thực tế các ước lượng này được tính theo những thuật toán áp dụng đối với những tập mẫu dừng Chính vì vậy mà người ta thường muốn bằng mọi cách loại bỏ các xu thế trong các chuỗi

Trang 11

Loại bỏ xu thế được thực hiện bằng nhiều phương pháp khác nhau, cơ sở của các phương pháp đó là ý tưởng mô tả riêng rẽ từng dao động một trong các chuỗi thời gian Và biến động xu thế (A(t)) trong cách tiếp cận này được xem như một biến động độc lập, không trực tiếp liên hệ với biến động chu kỳ ngắn hơn (B(t)) Như vậy biến động chung X(t) của các quá trình hải dương được mô tả dưới dạng mô hình tổng hợp phần:

Phải thừa nhận một trong những nét quan trọng nhất của tất cả các phương pháp phân tích thông tin hải dương học là số lượng các biến đặc trưng cho mặt này hoặc mặt khác của các quá trình tăng lên theo kiểu hàm mũ

Thí dụ, ngay ở giai đoạn xử lý sơ bộ, với hai chuỗi thời gian xuất phát là nhiệt độ và độ muối đã có thể thêm vào một chuỗi mật độ Sau quá trình phân tích ban đầu người nghiên cứu sẽ có thêm hàng chục đặc trưng định lượng Cuối cùng, sau khi phân tích cấu trúc dao động tiềm ẩn, lượng thông tin công tác lại tăng lên một số lần nữa do có những ước lượng hàm tự tương quan, tương quan tương hỗ, hàm phổ và hiệp phổ, các tham số khai triển Fourier, theo mô hình tổng hợp phần, những ước lượng này hình thành một cách riêng rẽ cho các thành phần xu thế và các thành phần chu kỳ ngắn Thực tế là xảy ra tình trạng dư thông tin, muốn hệ thống hoá thông tin phải có những phương pháp đặc thù, đó là các phương pháp phân tích thống kê đa chiều

Phân loại các phương pháp phân tích thống kê đa chiều

Mục đích cơ bản của phần lớn các phương pháp phân tích thống kê đa chiều là biến đổi dữ liệu xuất phát, sao cho người nghiên cứu có thể một cách trực quan và khá đầy đủ ý niệm được bản chất của những mối liên hệ chủ yếu trong tài liệu phân tích Vì có nhiều quan điểm lý thuyết khác nhau, nên cũng xuất hiện và phát triển nhiều phương pháp phân tích thống kê đa chiều, mỗi phương pháp trong số đó lý giải sự biến động của

số liệu theo kiểu của mình Những phương pháp phân tích thống kê đa chiều phổ dụng nhất là:

1) Phân tích hồi quy;

2) Phân tích thành phần và phân tích nhân tố; 3) Phân tích tương quan chuẩn hoá;

4) Phân loại hay phân tích nhóm (cluster analysis); 5) Phân tích phân biệt (discriminant analysis)

Trên cơ sở những phương pháp này nảy sinh hàng trăm biến thể khác nhau Nhiệm vụ của người nghiên cứu là làm sao định hướng tốt, lựa chọn và sử dụng những phương pháp hiệu quả nhất Khả năng áp dụng phân tích thống kê đa chiều trong thực tế được quy định và được kiểm tra bằng sự phù hợp giữa mô hình thống kê được xây dựng và số liệu thực, ngoài ra phải xét xem những mối phụ thuộc tương hỗ nhận được theo mô hình có lý giải được về vật lý hay không Khi ứng dụng các phương pháp phân tích thống kê đa chiều mà kết quả kém, thì điều đó không chỉ nói lên nhược điểm của bản thân phương pháp, mà chủ yếu do không phù hợp giữa phương pháp và số liệu xuất phát hay việc áp dụng nó không đúng đắn Chỉ có thể thành công khi áp dụng những phương pháp này một cách có lựa chọn, có cơ sở và khéo léo trong thực tế Vì vậy, điều đáng quan tâm đặc biệt là sự phù hợp giữa các phương pháp phân tích thống kê đa chiều và các nhiệm vụ cần giải quyết Dưới dạng chung nhất, vấn đề này được xem xét trong bảng 0.1, bảng này chỉ giới thiệu những giải pháp đã từng được thử thách nhiều nhất trong thực hành hải dương học để giải quyết những bài toán điển hình bằng các phương pháp phân tích thống kê đa chiều Ở đây, những mục tiêu nghiên cứu rất đa dạng được chia thành ba nhóm, đối với mỗi nhóm đã xác định những nguyên tắc và những phương pháp giải quyết cụ thể

Vấn đề mô tả thống kê những mối liên hệ nhằm mục đích xây dựng các mô hình hiện tượng và quá trình để chẩn đoán và dự báo, được đặt lên vị trí đầu tiên Điều này không phải ngẫu nhiên, vì nó luôn là kết cục

Trang 12

chính của phần lớn những bài toán thực dụng mà chúng ta giải quyết Ngoài ra, vấn đề này cũng cần được giải quyết trong nhiều quá trình nghiên cứu khác liên quan tới phân loại các quá trình hay phân tích cấu trúc của chúng Giải pháp mô tả thống kê truyền thống về phương diện này là ứng dụng các phương pháp phân tích tương quan và hồi quy nhiều biến, nhờ những phương tiện đó người nghiên cứu mô tả mối phụ thuộc giữa các biến

Bảng 0.1 Phân loại các phương pháp phân tích thống kê đa chiều

Mục tiêu Những nguyên tắc Các phương pháp Mô tả những mối liên

hệ (mô hình hoá, dự báo)

Mô tả định lượng những mối liên hệ giữa các biến trên cơ sở tương quan và

Biến đổi các biến thành

những thành phần trực giao Khai triển thành các đa thức đại số trực giao (Chebưsev,

Phân tích phân biệt

Một khi đã tích luỹ được nhiều thông tin rằng có những mối liên hệ tiềm ẩn, thì các phương pháp chỉ là biến những kết luận định tính thành dạng toán học − thành những phương trình hồi quy đa biến Ở đây phân tích hồi quy đa biến là cách tiếp cận chủ yếu trong khi giải quyết các bài toán mô tả Nhiều kết quả khoa học và thực tiễn quan trọng đã có được nhờ ứng dụng phương pháp này trong hải dương học Thí dụ, sử dụng hồi quy đa biến cho phép mô tả sự phụ thuộc của mật độ vào nhiệt độ, độ

muối, áp suất trong các phương trình trạng thái nước biển thực nghiệm Chính phương pháp này được sử dụng khi lập những công thức tính và dự báo điều kiện băng theo các đặc trưng khí tượng Phương pháp tiếp cận tương tự cũng được dùng khi khảo sát sự phụ thuộc của các tham số sóng vào tốc độ gió, độ dài đà gió

Tìm cấu trúc tiềm ẩn trong các dữ liệu khí tượng thủy văn có nghĩa là phát hiện những quy luật cơ bản của những biến không gian − thời gian Trong hải dương học vấn đề này đang được giải quyết trên ba phương diện chính: phân tích cấu trúc các mối liên hệ giữa những tham số trạng thái đại dương, phân tích cấu trúc những quy mô biến động không gian của các đặc trưng hải dương học và phân tích cấu trúc biến động thời gian của các quá trình

Nguyên tắc chính thực hiện những bài toán là khai triển tập mẫu ban đầu thành chuỗi các thành phần trực giao (không phụ thuộc với nhau) Phương pháp khai triển được chọn sao cho mỗi thành phần trực giao mô tả một mối liên hệ đặc trưng nào đó giữa các biến hoặc khái quát được quy mô điển hình của biến động không gian − thời gian

Phải thừa nhận phương pháp khai triển đơn giản nhất là các thủ tục khai triển theo các đa thức đại số, trong đó các đa thức Chebưsev và Fourier là phổ dụng nhất Phương pháp các thành phần chính cũng được sử dụng rộng rãi, mặc dù nó có phần phức tạp hơn Phương pháp phân tích nhân tố tạm thời ít được ứng dụng trong hải dương học thực hành, song trong các lĩnh vực khoa học khác (khí tượng học, sinh học, xã hội học, kinh tế học) nó tỏ ra rất hữu hiệu Sự hiệu quả của phương pháp phân tích nhân tố thường phải trả giá bằng sự phức tạp của các thủ tục tính toán

Quá trình hệ thống hoá khoa học đối với những tri thức tích luỹ gắn liền với phân loại hoá, phân loại các đối tượng nghiên cứu Những vấn đề phân loại khối nước, phân loại dạng băng, phân loại cấu trúc nước thẳng đứng có ý nghĩa thực tiễn và khoa học đặc biệt

Trang 13

Loại (kiểu) của hiện tượng hay quỏ trỡnh là kết quả khỏi quỏt thụng tin tớch luỹ về đại dương rất quan trọng Thụng thường, những bài toỏn kiểu tương tự được giải quyết bằng cỏch ứng dụng phương phỏp phõn tớch phõn biệt Theo phương phỏp này, dựa trờn những tớnh chất thống kờ của những lớp đó được phõn ra trước đõy, cú thể xếp thụng tin mới vào một trong những lớp đú với một sai số tối thiểu Trong thực hành, phõn tớch phõn biệt đó được ứng dụng hiệu quả khi nhận dạng kiểu cấu trỳc thẳng đứng nhiệt độ nước, khi chẩn đoỏn và dự bỏo kiểu điều kiện băng

Trỡnh tự chẩn đoỏn thống kờ cỏc quỏ trỡnh đa chiều

Cỏc phương phỏp phõn tớch thống kờ đa chiều cú mục đớch mụ tả những hệ thống đa tham số Hai nhúm phương phỏp cú vị trớ trung tõm trong phõn tớch thống kờ đa chiều: đú là cỏc phương phỏp phõn loại và cỏc phương phỏp phõn tớch cấu trỳc Khi thực hiện một khảo sỏt cụ thể nào đú, thỡ cú lẽ vấn đề chớnh là ta phải lựa chọn tương quan giữa hai nhúm phương phỏp đú

Trong thực tiễn nghiờn cứu hải dương học, cú thể cú hai phương ỏn trỡnh tự ứng dụng phõn tớch thống kờ đa chiều Trờn hỡnh 0.4 trỡnh bày những sơ đồ chi tiết về ứng dụng phõn tớch thống kờ đa chiều Rừ ràng là cả hai phương ỏn đều nhằm một mục tiờu cuối cựng: đạt tới sự mụ tả đỳng đắn và tin cậy nhất về độ biến động cú mặt trong cỏc quỏ trỡnh hải dương Nhưng mục tiờu sẽ đạt được bằng những cỏch khỏc nhau, tuỳ thuộc vào cấu trỳc số liệu xuất phỏt mà ta phỏt hiện được ở những giai đoạn xử lý thống kờ trước đú đối với những tham số hải dương học

Nhà nghiờn cứu phải đối mặt với vấn đề chọn trỡnh tự ỏp dụng cỏc phương phỏp phõn tớch thống kờ đa chiều và cõu hỏi những phương phỏp cụ thể nào về nguyờn tắc cần thiết phải sử dụng Người ta giải đỏp những vấn đề đú khụng phải ở mức linh tớnh, mà phải ở mức luận lý Cú nờn ứng dụng cỏc phương phỏp phõn tớch thống kờ đa chiều hay khụng là phải dựa vào những kết quả phõn tớch thống kờ ban đầu và những kết luận rỳt ra từ phõn tớch cỏc chuỗi thời gian Cỏc nguyờn tắc chọn những con

đường khả dĩ ứng dụng phõn tớch thống kờ đa chiều phải xuất phỏt trước hết từ sự thoả món cỏc giả thiết về tớnh chuẩn trong cỏc phõn bố thực nghiệm của cỏc biến xuất phỏt và tớnh dừng, tớnh đồng nhất của cỏc chuỗi được nghiờn cứu

Khai triển các đặc trưng được nghiên cứu trong hệ quy chiếu trực chuẩn (các bước đầu đối với những chuỗi thời gian trong hệ quy chiếu trực chuẩnkhai triển trong hệ quy chiếu trực chuẩn (các đa thức, các thμnh phần chính, các nhân tố chung, các biến chuẩn)

Hỡnh 0.4 Sơ đồ chức năng trỡnh tự phõn tớch thống kờ

đa chiều đối với thụng tin hải dương học

Sở dĩ phải phõn loại ngay từ đầu cỏc biến được nghiờn cứu là vỡ cú những trường hợp khụng thoả món cỏc giả thiết về tớnh chuẩn trong cỏc luật phõn bố một chiều và hai chiều, đặc biệt trong trường hợp xuất hiện dao động đa mốt Chớnh đặc điểm này cú tớnh quyết định tới việc sử dụng

Trang 14

phép phân loại các quá trình được nghiên cứu Theo kinh nghiệm của các tác giả, nếu ngay từ đầu đã thực hiện phân tích cấu trúc với những số liệu loại này bằng các phương pháp khai triển thì thường dẫn tới những mô hình thống kê kém hiệu quả Nguyên nhân dẫn tới những kết quả kém như vậy là do tính ít thông tin của các ước lượng tham số tương quan và hồi quy, vì phần lớn các phương pháp khai triển thực nghiệm xuất phát từ những ước lượng đó

Phải lưu ý những người nghiên cứu thực hành rằng quy luật này hoàn toàn có cơ sở, vì ước lượng liên hệ tương quan tuyến tính dựa trên đòi hỏi tuân thủ tính chuẩn của phân bố xác suất hai chiều của các biến [8, 75, 96, 201] Nếu giả thiết chuẩn của luật phân bố thực nghiệm không

thoả mãn với xác suất P (%), thì ta chỉ có thể hy vọng nhận được kết quả

khai triển với độ chính xác khai triển không cao hơn P (%) chứ không

mong gì hơn

Cần nhấn mạnh rằng sự kết hợp, móc nối giữa một số phương pháp phân tích thống kê đa chiều ngày nay là một tất yếu, được khẳng định bằng kinh nghiệm ứng dụng thực tiễn các phương pháp, bằng căn cứ lý luận về sự liên kết này và bằng những khả năng kỹ thuật của máy tính hiện đại Theo cách tiếp cận như vậy, nguyên tắc kết hợp các phương pháp nghiên cứu những quá trình hải dương phức tạp có thể hiện thực hoá trên trình độ hiểu biết mới về những kết luận thống kê đã nhận được Việc kết hợp các phương pháp áp dụng đối với nhiều hệ tọa độ khác nhau (thí dụ, không gian − các biến và các biến − thời gian) cho phép mô tả cấu trúc các mối liên hệ của toàn bộ hình lập phương thông tin hải dương học đa chiều, có nghĩa là tái tạo được một bức tranh đầy đủ hơn về sự hình thành đối tượng nghiên cứu

Những thí dụ dưới đây về chẩn đoán các quá trình hải dương sẽ là những minh chứng cụ thể cho những lập luận ở trên

Dự báo các quá trình hải dương

Nghiên cứu chẩn đoán không phải là mục tiêu tự thân Thông thường các nghiên cứu chẩn đoán là để mở đầu cho giai đoạn cuối cùng, phức tạp hơn − dự báo những quá trình hải dương Ngày nay, khi mà cái giá của một quyết định có căn cứ, có hiệu quả kinh tế trực tiếp phụ thuộc vào chất lượng thông tin khí tượng thủy văn xuất phát và các ước lượng dự báo, thì bài toán này trở nên đặc biệt cấp thiết Trong trường hợp này, những thành công đáng kể nhất trong dự báo bao giờ cũng là do người dự báo thấu hiểu những quá trình đang diễn ra trong đại dương và bản thân những phương pháp ngoại suy đã sử dụng

Từ kinh nghiệm thấy rằng các phương pháp chẩn đoán cần phải liên hệ gắn bó với nhau trong khi khảo sát những quá trình cụ thể Tuy nhiên, trong thực tiễn nhiều khi không phải như vậy, và điều này là do thiếu những khảo luận lý thuyết và phương pháp luận tương ứng Công trình này cũng đặt ra mục tiêu minh hoạ tính hiệu quả và triển vọng ứng dụng các phương pháp phân tích thống kê đa chiều để giải quyết những bài toán dự báo các quá trình hải dương đa chiều

Khái niệm "dự báo" trong hải dương học thực hành hiện đại được hình thành như là sự tiên đoán có căn cứ khoa học về những biến đổi trong trạng thái các yếu tố chế độ đại dương Bài toán dự báo các đặc trưng hải dương học không phải là bài toán tầm thường, một mặt vì tính phức tạp của các quá trình đang diễn ra trong đại dương, mặt khác vì thiếu những hiểu biết có căn cứ khoa học cho phép mô tả đúng các quá trình Lý thuyết tổng quát về những quá trình hải dương tạo ra một hệ thống quan điểm đôi khi không phải là không còn những mâu thuẫn, trên cơ sở đó xây dựng nên những phương pháp cụ thể phân tích và dự báo các đặc trưng hải dương học Tuy nhiên, từ lý thuyết đó chưa dẫn tới một thuật giải vạn năng, đảm bảo dự báo hiệu quả Những quan trắc trong đại dương ít khi cho phép người ta lý giải một tính biến động nào đó một cách đơn trị, mà thường chỉ là cơ sở hình thành nên những giả thiết còn phải kiểm tra cẩn thận Sự đa dạng của các nhân tố trực tiếp và gián tiếp

Trang 15

ảnh hưởng tới biến động thời gian của các đặc trưng hải dương học, làm chúng ta rất khó chính thức hoá một cách đơn trị những mối phụ thuộc nhân quả Vì vậy, những phương pháp thống kê chẩn đoán và dự báo các đặc trưng hải dương học ngày càng được ứng dụng rộng hơn trong thực tiễn Tương tự như công trình [153] có thể định nghĩa dự báo thống kê như là sự suy luận xác suất về triển vọng phát triển và trạng thái có thể có của quá trình hải dương trong tương lai dựa trên mô hình thống kê về sự tiến triển của quá trình

Những nguyên tắc dự báo thống kê

Trong quá trình nghiên cứu dự báo, một trong những nhiệm vụ quan trọng nhất là hình thành những vấn đề phương pháp luận nhằm mục đích nâng cao tính căn cứ của các dự báo Việc tuân thủ những nguyên tắc phương pháp luận phổ biến xây dựng các mô hình dự báo ở mức độ nào đó sẽ giúp người nghiên cứu tránh được những sai lầm thô thiển Chúng ta sẽ nêu ra những nguyên tắc này

1 Sự đồng thuận giữa mô hình và cấu trúc số liệu quan trắc xuất phát Từ nguyên tắc này suy ra rằng trước khi tiến tới xây dựng một

phương pháp dự báo cụ thể, phải đưa ra mô tả cấu trúc dữ liệu, tức thực hiện phân tích chúng bằng phương pháp thống kê đúng đắn

2 Sự đầy đủ, khả năng thích ứng và khả năng phát triển của mô hình dự báo Mô hình phải mô tả được dải rộng những biến thiên của quá

trình được nghiên cứu, tự điều chỉnh khi mô tả một lớp quá trình cụ thể, còn các tham số của nó phải thay đổi tuỳ thuộc vào độ chính xác dự báo Tuân thủ những nguyên tắc này cho phép hiểu sâu hơn những đặc điểm của mô hình và những lớp tham số mà nó mô tả, tức chẩn đoán thêm về các quá trình được nghiên cứu

3 Sự đơn giản của mô hình Theo nguyên tắc này, mô hình đảm bảo

trực quan đối với người nghiên cứu và người sử dụng (người đặt hàng), bằng cách đó giúp ta thể hiện mô hình dưới dạng các khối (dưới dạng những mô đun chương trình và những chương trình vạn năng) Tính thay

thế được của các khối, hoàn thiện các khối, cuối cùng cho phép người nghiên cứu xác định được những khả năng của mô hình, tức thực hiện việc kiểm tra các mô hình dự báo và đưa ra đánh giá khách quan cuối cùng về mô hình đang dùng

Phân loại các phương pháp dự báo

Ngày nay, dự báo một quá trình đa chiều là một bài toán tương đối đặc biệt trong thực tiễn nghiên cứu dự báo hiện đại Đối với hải dương học, thì điển hình nhất là dự báo quá trình một chiều, gọi là dự báo một yếu tố chế độ hay dự báo một đặc trưng hải dương học Ở đây tính đa liên hệ, đa chiều của bản thân quá trình hình thành sự biến thiên của đặc trưng đang xét bị đẩy xuống hàng thứ yếu (được tham số hoá gián tiếp qua phương trình hồi quy đa biến) hoặc là bị bỏ qua hoàn toàn khi sử dụng những phương trình tự dự báo Trong công trình này, chúng tôi sẽ cố gắng thử nghiệm ý tưởng bảo tồn tính đa chiều của quá trình cả trong chẩn đoán lẫn trong dự báo Ở đây chúng tôi cho rằng nội dung quan trọng nhất của dự báo một quá trình đa chiều chính là dự báo được sự tiến triển liên hệ lẫn nhau của các tham số của vectơ m chiều các biến quan

trắc Vì vậy việc dự báo một cách tách biệt các tham số riêng lẻ không có vị trí hàng đầu, mà quan trọng là xây dựng mô hình dự báo mô tả được những quan hệ đa chiều của các tham số của quá trình

Số lượng các phương pháp có thể có để dự báo thống kê các quá trình đa chiều một mặt do nội dung kết quả chẩn đoán, mặt khác do chức năng mục tiêu của dự báo quy định Trong bảng 0.2 biểu diễn ba mục tiêu quan trọng nhất của việc xây dựng mô hình dự báo trong nghiên cứu hải dương học ứng dụng Chúng ta sẽ khái quát tóm tắt những nguyên tắc và những thủ pháp phương pháp luận tương ứng

Dự báo cấu trúc của quá trình đa chiều thực hiện dựa trên cơ cở ngoại suy trong thời gian các kết quả khai triển trực giao ma trận quan trắc xuất phát bằng các phương pháp phân tích thành phần chính và phân tích nhân tố Sự biến động trong thời gian của những nhân tố chung

Trang 16

(những thành phần chính) chứa đựng động thái những mối liên hệ quan trọng nhất của các biến ban đầu Trong phương pháp này thông tin được nén đáng kể − số nhân tố chung thực tế nhỏ hơn hai lần so với số biến xuất phát Sự độc lập của các thành phần khai triển sẽ đảm bảo tính hiệu quả của các phương pháp tự dự báo

Bảng 0.2 Phân loại các phương pháp dự báo các quá trình đa chiều mô hình khai triển trực giao

Ngoại suy các số hạng khai triển bằng những phương pháp tự dự báo (tự hồi quy, trung bình trượt, hài Fourier) Dự báo lớp

trạng thái của quá trình

Dự đoán sự tiến triển của quá trình theo nghĩa thay thế các lớp trạng thái

Ngoại suy hàm mật độ xác suất bảo tồn hay biến thiên lớp bằng những phương pháp ước lượng Bayes và lý thuyết các tới ảnh hưởng của tất cả các tham số của quá trình

Ngoại suy dựa trên việc tính tới các mối liên hệ không đồng bộ của những tham số xuất phát bằng các phương pháp phân tích hồi quy đa biến (tuyến tính, đa thức, phổ, hồi quy từng bước)

Tính đa mốt của quá trình nhiều chiều biểu lộ rõ nét là tiền đề quan trọng để chẩn đoán và dự báo động lực của nó, với ý nghĩa là động lực chung của trạng thái quá trình Ước lượng trạng thái tương lai của quá trình ở đây được thực hiện dựa trên ngoại suy hàm mật độ xác suất bằng các phương pháp của lý thuyết các quá trình Markov và ước lượng Bayes Các trị số dự báo của những tham số xuất phát được xác định qua những ước lượng kỳ vọng toán học và phương sai của chúng, ứng với lớp đang xét

Trong nhiều tình huống thực tế, việc dự báo những quá trình đa chiều được đưa về việc ngoại suy một biến quan trắc duy nhất của quá trình Về nguyên tắc thì không có gì khó khăn trong việc giải quyết bài toán này theo hai cách tiếp cận đã xét Dựa vào chẩn đoán cấu trúc quá trình, có thể thực hiện dự báo bằng cách ngoại suy một số rất hạn chế các

số hạng khai triển trực giao, những số hạng khai triển này liên hệ một cách tin cậy, về phương diện thống kê, với biến phải ngoại suy Phương án thứ hai − xây dựng mô hình dự báo trên cơ sở tính tới những mối liên hệ bất đồng bộ giữa các tham số xuất phát của quá trình và biến phải ngoại suy Theo truyền thống, bài toán này được giải bằng các phương pháp phân tích hồi quy đa chiều, tuỳ thuộc vào tính ổn định của các mối liên hệ và mức độ tuyến tính của chúng mà chọn mô hình hồi quy tối ưu

Tuần tự chung xử lý các quá trình hải dương đa chiều

Đa phần các dự báo thống kê vật lý khí tượng thủy văn hiện đại hiện thực hoá hai ý tưởng:

1) Dự báo đa tham số, trong đó sự tiến triển của quá trình được mô tả bằng cách đưa vào phân tích một số mối liên hệ bất đồng bộ bên ngoài ổn định nhất phản ánh những cơ chế nhân quả;

2) Tự dự báo, tức sự phát triển tương lai của quá trình chỉ phụ thuộc vào sự biến động của bản thân nó trong quá khứ

Nét tiêu biểu là việc ứng dụng các sơ đồ dự báo đa tham số trong hải dương học không phải là do các phương pháp tự dự báo đã hết khả năng tiềm tàng của nó Các tác giả cuốn sách này chưa thấy có công trình nào chứng minh theo tài liệu thực tế về tương quan giữa hai phương pháp luận Ngược lại, chúng ta chỉ thấy rằng thường người ta đổ xô vào các sơ đồ dự báo đa tham số sau khi thất bại với tự dự báo mà chỉ sử dụng một trong những phương pháp đơn giản nhất − phân tích xu thế hoặc xấp xỉ Fourier Trong khi đó, còn cả một loạt các phương pháp tự dự báo thống kê xác suất có rất nhiều khả năng thì nhìn chung chưa được dùng tới

Sự phát triển và hoàn thiện của các phương pháp thống kê cho phép nhìn nhận tương quan giữa các dự báo đa tham số và tự dự báo từ những quan điểm mới, trực tiếp dựa theo kết quả chẩn đoán các quá trình hải dương đa chiều Việc ứng dụng các phương pháp phân tích thống kê đa biến trong chẩn đoán tạo ra một khả năng hấp dẫn mô tả tin cậy quá trình

Trang 17

hải dương bằng những mô hình thống kê xác suất khép kín với số tham số độc lập tổng quát tối thiểu − các thành phần chính, các nhân tố chung, các lớp Giá trị dự báo của những tham số này rất hiển nhiên Phương pháp luận tự dự báo kinh điển khi áp dụng với những chỉ tiêu chẩn đoán tổng quát này sẽ có một nội hàm mới

Nét mới của phương pháp tiếp cận này chính là ở chỗ xem xét lại khái niệm đa chiều trong chẩn đoán và dự báo Sự đa chiều không chỉ được xem đơn thuần là có nhiều tiên lượng xuất phát, được quan trắc hay được tính trực tiếp cho phương trình dự báo Nó được hiểu là sự đa chiều của bản thân yếu tố được dự báo, sự đa chiều này mô tả tin cậy trạng thái của quá trình hải dương và chứa lượng thông tin đủ để tự dự báo Vì vậy trong khi chẩn đoán, mỗi tham số trạng thái quá trình hải dương được quan trắc không phải được nghiên cứu riêng rẽ, mà trong toàn bộ tập hợp những mối liên hệ thống kê của nó với các biến khác, kết cục là chính điều này cho phép hình thành những chỉ tiêu tổng hợp về cấu trúc và động lực của quá trình Nội dung của dự báo khi đó trở thành việc giải quyết bài toán dự báo hữu hiệu những tham số chẩn đoán tổng hợp không cần phải tính tới một cách tường minh những mối liên hệ bên ngoài, tức giảm nhẹ đáng kể phương diện tính toán khi xây dựng các sơ đồ dự báo

Biểu diễn hình thức tổng quát nhất của mô hình chẩn đoán trong phân tích thống kê đa chiều theo quan điểm tiếp cận trên đây có thể theo

Ở đây X− ma trận các tham số trạng thái đại dương quan trắc; F− ma trận các tham số tổng quát, nhận được qua chẩn đoán, A− ma trận các hệ số liên hệ, E ma trận các sai số không được mô tả bởi mô hình chẩn − đoán tổng quát

Khi giải quyết nhiệm vụ dự báo, cần dự báo được những tham số tổng hợp tạo thành ma trận Diễn biến trong thời gian của chúng được mô tả bằng nhiều mô hình ngoại suy dạng

trong đó ma trận các hệ số dự báo thống kê xác suất B liên hệ trạng thái

quá khứ F và trạng thái tương lai Fˆ của quá trình hải dương Ở đây

cũng xuất hiện phần dư ε gồm những sai số dự báo

Mối liên hệ giữa chẩn đoán và dự báo được thực hiện không chỉ thông qua ma trận các tham số tổng hợp F duy nhất đối với hai giai đoạn chẩn đoán và dự báo Trong trường hợp nếu ma trận phần dư của các mô hình chẩn đoán khác với quá trình kiểu nhiễu trắng, thì nó cũng có thể được đưa vào dự báo độc lập Khi đó sẽ có một thành phần chịu trách nhiệm dự báo bản thân ma trận ε cũng được đưa vào mô hình dự báo

Trên hình 0.5 trình bày sơ đồ tổng quát tuần tự xử lý các quá trình hải dương đa chiều Những khía cạnh quan trọng nhất trong các giai đoạn chẩn đoán và dự báo đã được bàn luận ở trên và sẽ còn được phân tích tiếp theo Ở đây sẽ khái quát về các mối liên hệ giữa những khối lớn của sơ đồ này để bước đầu đánh giá những khả năng tiềm tàng của việc ứng dụng phương pháp tiếp cận này trong thực tế Nguyên tắc tổ chức cơ bản mối liên hệ giữa các khối là nhằm thực hiện ý tưởng về sự liên hệ ngược của các phương pháp xử lý riêng lẻ và các giai đoạn phân tích Việc đưa ra những mối liên hệ ngược ở mức độ nào đó làm phức tạp quá trình xử lý thông tin Sở dĩ phải có những mối liên hệ ngược đó là vì hiểu biết hiện thời của chúng ta về bản chất của các quá trình hải dương còn hạn chế Vì vậy thực tế là hiện nay chưa thể đề xuất một tuần tự khả dĩ duy nhất để xử lý và trình bày dữ liệu thoả mãn nhiều yêu cầu của các hướng phân tích khác nhau Việc ứng dụng những mối liên hệ ngược, về nguyên tắc, sẽ đảm bảo chọn ra một mô hình chẩn đoán và dự báo tối ưu trong khuôn khổ một bài toán cụ thể và trong điều kiện thông tin hiện có

Ta sẽ làm rõ ý nghĩa của những mối liên hệ ngược trong tuần tự chẩn đoán và dự báo Thông tin hiện có về biến động của các quá trình không thể đặc trưng đầy đủ về quá trình, nếu không bổ sung thêm những đặc trưng vật lý không trực tiếp quan trắc, những

Trang 18

đặc trưng này tính theo những quy luật của thủy nhiệt động lực học Những đặc trưng nhận được bổ sung danh sách các tham số xuất phát và tham gia vào thủ tục phân tích thống kê

Hình 0.5 Sơ đồ chức năng chẩn đoán và dự báo các quá trình hải dương

Phân tích thống kê tác động qua lại trực tiếp với lý giải vật lý về những kết quả định lượng bộ phận nhận được nhờ áp dụng những phương pháp riêng rẽ Nếu lý giải vật lý như vậy chưa đạt thì lặp lại các tính toán

để nhận được những kết luận vật lý tin cậy hơn về bản chất của các quá trình được nghiên cứu

Trong giai đoạn tổng hợp các kết quả tính toán có thể nảy sinh sự cần thiết phải tính toán giải tích lặp lại để gắn kết tốt hơn các kết quả của những phương pháp khác nhau và xây dựng nên mô hình thống kê chung hoàn thiện về quá trình Sự đồng thuận giữa các kết quả tính toán trong khuôn khổ mô hình chung về quá trình phải có căn cứ vật lý, vì vậy mà phải quay về chẩn đoán vật lý Khi cần phải mở rộng mô hình chẩn đoán chung, thì tập hợp những tham số xuất phát có thể lại được bổ sung lần nữa dựa trên những bất cập phát hiện ra trong quá trình lý giải

Mối liên hệ hai chiều giữa chẩn đoán và dự báo thể hiện ý tưởng xây dựng mối phụ thuộc dự báo dựa theo kết quả chẩn đoán, và ngược lại, chính xác hoá thêm những tính toán chẩn đoán căn cứ vào yêu cầu xây dựng các mô hình dự báo có đáp ứng mong muốn của chúng ta hay không Khi chất lượng các dự báo không đạt, giá trị dự báo của mô hình kém, thì phải quay lại quá trình chẩn đoán Khi chọn các mô hình, phải hiểu rằng người nghiên cứu chọn một số kiểu mô hình ít nhiều phù hợp với kết quả chẩn đoán

Một sơ đồ dự báo bất kỳ − đó là mô hình thống kê về sự phát triển quá trình Nó cho khả năng nhìn vào tương lai căn cứ vào lý giải của mô hình về lịch sử phát triển của quá trình, và sự lý giải này nhiều khi không hoàn toàn phù hợp với dữ liệu thực Chính điều này dẫn tới những kết luận mâu thuẫn, theo đó khó mà phân biệt được tính ích lợi của những sơ đồ dự báo các đặc trưng hải dương học Nguyên nhân của điều này là do mỗi mô hình có xu thế thích ứng với dự báo một kiểu quá trình nhất định Khi các quá trình tiến triển sang một kiểu khác, thì mô hình không hoạt động được nữa, còn khi lặp lại kiểu quá trình xuất phát, thì nó lại cho kết quả thoả mãn Còn những mô hình khác thì lại dự báo các kiểu quá trình "của mình" một cách tốt hơn, nhưng chúng cũng có nhược điểm như vậy: không thể dự báo được những quá trình kiểu khác với kiểu nó thích ứng

Từ đó thấy rằng hiệu quả dự báo phụ thuộc không chỉ vào dạng mô

Trang 19

hình, mà quan trọng là vào kiểu quá trình được dự báo Nhiều mô hình dự báo là những mô hình thích nghi (nguyên tắc thứ hai), và sự thay đổi cấu trúc của chúng, sự thay thế các tham số mô hình trực tiếp do quá trình quy định, tức ở đây nảy sinh tác động ảnh hưởng của quá trình tới mô hình Vì vậy, cần phải làm rõ: trong những tình huống nào thì sử dụng những mô hình dự báo này hay mô hình dự báo khác là có lợi

Ta suy ra, trước khi tiến tới dự báo, phải phân tích và phân loại các quá trình, với quá trình nào thì dự báo thành công, với quá trình nào thì thất bại, làm rõ bản chất vật lý của nó Khối chẩn đoán phải bao gồm cả chẩn đoán bản chất vật lý của các quá trình, lẫn chẩn đoán mối liên hệ của chúng với những phương pháp cụ thể chẩn đoán thống kê và dự báo Tiếp theo, theo mong muốn của người nghiên cứu, khối chẩn đoán có thể bao gồm những mô hình nào mô tả được lớp quá trình một cách tốt nhất theo nghĩa cực tiểu sai số

Như vậy là khía cạnh phương pháp luận đã trình bày trên đây dẫn tới một luận điểm rằng các mô hình dự báo chỉ vận hành với những kiểu quá trình "của mình", những quá trình này có thể phân biệt theo mức độ tất định và theo tính chất phát triển trong thời gian Từ đây rút ra một kết luận có tính nguyên tắc rằng: không tồn tại một hệ phương pháp vạn năng duy nhất dự báo các đặc trưng hải dương học Kết luận này cũng đúng với nhiều quá trình tự nhiên khác [135, 142, 143, 146, 151, 171, 215], điều đó làm cho chúng ta hiểu phải sử dụng đồng thời một số mô hình dự báo Thủ tục này gọi là kết hợp các dự báo Nhờ kết hợp mà có thể nâng cao được chất lượng dự báo khí tượng thủy văn [35, 36, 43, 44, 76, 206, 235]

Phương pháp luận xây dựng mô hình dự báo chung (mô hình cộng sinh) quy về bốn giai đoạn tính toán chính:

1) Tuyển chọn các mô hình xuất phát;

2) Lai tạo các mô hình (chọn phương pháp kết hợp); 3) Hiện thực hoá mô hình (ước lượng các tham số); 4) Kiểm chứng mô hình (phân tích so sánh sai số)

Trong số những nhiệm vụ chính của dự báo thống kê thì nhiệm vụ

làm tăng tính khả báo thống kê có vị trí đặc biệt Muốn tăng tính khả báo cần chọn mô hình tối ưu mô tả những quy luật ổn định trong thời gian của sự biến thiên đặc trưng hải dương học được dự báo Kết hợp một số mô hình khác nhau (bổ sung cho nhau) là một trong những cách làm tăng giới hạn tính khả báo, cũng như tăng độ xác thực của các dự báo Điều này khá rõ: mô hình kết hợp phản ánh những đặc điểm cơ bản trong biến động của đặc trưng được dự báo và có thể điều chỉnh trong trường hợp thay thế kiểu của quá trình được dự báo

Những ước lượng về tính khả báo sẽ giúp sử dụng đúng đắn những mô hình dự báo trong khi dự báo nghiệp vụ, chọn ra những mô hình bộ phận tối ưu và tối ưu hoá việc kết hợp, xác định và sử dụng khoảng báo trước hiệu quả của dự báo ứng với độ chính xác đặt ra

Lý giải các dự báo − giai đoạn cuối cùng của dự báo, là thể hiện các giá trị dự báo bằng những thuật ngữ của người sử dụng dự báo, chỉ ra những ước lượng khoảng tin cậy và giải thích vật lý về sự phát triển của quá trình đa chiều trong thời khoảng dự báo

Trang 20

Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC QUÁ TRÌNH

1.1 PHÂN TÍCH HỒI QUY ĐA CHIỀU HỒI QUY TUYẾN TÍNH ĐA CHIỀU

Đặt bài toán

Hiện nay, công cụ hồi quy tuyến tính đa biến là một trong những phương tiện thống kê toán học được xây dựng hoàn thiện nhất Giống như nhiều ý tưởng khác, khái niệm phân tích hồi quy được Gauss hình thành hơn một trăm năm trước đây Hệ phương pháp được áp dụng rộng rãi hầu như trong tất cả các khoa học ứng dụng, điều đó làm cho nó phát triển mạnh và thích hợp với nhiều bài toán [70, 80, 139, 140,163, 190]

Trong thực tiễn nghiên cứu khí tượng thủy văn, phương pháp hồi quy tuyến tính đa biến được sử dụng nhiều nhất để mô tả và dự báo những biến riêng rẽ trên cơ sở tính đến ảnh hưởng của một số nhân tố tác động Ngoài ra, phương pháp hồi quy tuyến tính đa biến thường sử dụng để giải quyết những vấn đề liên quan tới nội suy các trường hải dương trong không gian cả theo phương thẳng đứng lẫn theo phương ngang Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều phương pháp khác nghiên cứu những mối phụ thuộc giữa các biến [12, 72, 144]

Lời phát biểu tổng quát bài toán hồi quy tuyến tính đa biến dưới đây có thể phổ biến sang một loạt các mô hình phân tích hồi quy khác Chẳng hạn, cho trường hợp hồi quy đa thức mà phương trình cơ bản của nó có thể lập trên cơ sở hồi quy tuyến tính với một phép thay thế biến tương

ứng

Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm ảnh hưởng của một nhóm các biến độc lập x1 ,x2 ,x3 , ,xM Giả sử

rằng ảnh hưởng của mỗi trong số M biến độc lập x lên biến phụ thuộc jy có thể mô tả bằng ảnh hưởng tuyến tính Khi đó phương trình cơ bản

của hồi quy tuyến tính đa biến có dạng

; yˆi − trị số quan trắc thứ i của biến phụ

thuộc, được khôi phục nhờ phương trình hồi quy; ei − sai lệch giữa trị số khôi phục yˆ và trị số quan trắc iy i

Giải bài toán xây dựng mô hình hồi quy tuyến tính đa biến quy về tìm những trị số của các hệ số hồi quy a0 ,a1 ,a2 , ,aM sao cho khôi phục được sự biến thiên của biến phụ thuộc y với các sai số e nhỏ nhất

Vì người nghiên cứu chưa biết những trị số thực của các hệ số hồi quy, nên phải thực hiện ước lượng thống kê những hệ số này dựa trên cực thiểu hoá phương sai sai số s : R

Phương pháp truyền thống tìm những trị số a0 ,a1 ,a2 , ,aM theo điều kiện này là phương pháp bình phương tối thiểu, hiệu quả sử dụng phương pháp này, và do đó, độ chính xác của phương trình hồi quy tuyến tính đa biến, phụ thuộc vào những điều kiện đơn giản sau:

− Sao cho các sai số hồi quy có trị số trung bình bằng không:

Trang 21

(ở đây dấu e chỉ toán tử kỳ vọng toán học của chuỗi e );

− Những biến ảnh hưởng phải độc lập thống kê với nhau:

Nếu thoả mãn những tính chất kể trên, việc tính các trị số của những hệ số hồi quy sẽ quy về giải hệ phương trình chuẩn tắc dạng

trong đó tổng (Σ) lấy theo toàn độ dài tập mẫu gồm N quan trắc Rõ

ràng, khi số lượng biến lớn (M >3) cách viết theo từng thành phần như trên trở nên rất cồng kềnh Dạng viết ma trận sẽ thuận tiện hơn Độc giả nên ôn lại những khái niệm cơ bản về đại số ma trận trong [12, 86]

Để chuyển sang dạng viết ma trận, ta đưa ra những khái niệm sau:

E vectơ cột gồm N sai số của mô hình hồi quy

Với những ký hiệu mới này, phương trình cơ bản của hồi quy tuyến

Hệ các phương trình chuẩn tắc để ước lượng những hệ số hồi quy được viết như sau

chỉ số T chỉ ma trận chuyển vị hay vectơ chuyển vị (xem [3, 12, 86]) Thấy rằng, nếu chuyển ma trận (XT ⋅X) sang vế phải, nghiệm của hệ phương trình chuẩn tắc sẽ được viết dưới dạng Nghiệm của bài toán hồi quy tuyến tính đa biến dưới dạng (1.2) có một loạt những tính chất đáng giá đối với người nghiên cứu:

− Theo định nghĩa, vectơ giá trị của các hệ số hồi quy

{a0 a1 a2 aM} T= , , , ,

A làm cực tiểu tổng bình phương các sai số, khẳng định tính tối ưu của mô hình này so với nhiều mô hình khác cùng loại;

− Bản thân những hệ số hồi quy aj là những hàm tuyến tính của các quan trắc Y và là những ước lượng không chệch của những giá trị hệ số

hồi quy thực (nhưng chưa biết);

− Những ước lượng các hệ số hồi quy có phương sai cực tiểu so với tất cả những ước lượng tuyến tính khác

Trang 22

Ta sẽ xét một đặc trưng quan trọng nữa của mô hình hồi quy tuyến tính đa biến, gọi là hệ số tương quan đa biến R Chỉ tiêu này là một đặc 0

trưng định lượng về sự tương tự giữa những trị số y quan trắc và yˆ tính

toán của biến phụ thuộc Hệ số tương quan đa biến tính theo công thức

R gọi là hệ số xác định, vì nó là đặc trưng khái quát đơn

giản về hệ số tương quan r2(x,y) cho trường hợp nhiều biến độc lập và

tỷ lệ với phần phương sai của biến y được mô tả bởi mô hình hồi quy

Trong trường hợp một biến độc lập, ta có đẳng thức 22( , )

dàng nhận thấy rằng khi 2 1

R thì những giá trị quan trắc và tính toán của biến độc lập hoàn toàn trùng nhau

Ý nghĩa của hệ số tương quan đa biến có phần khác so với quan niệm về hệ số tương quan cặp kinh điển Vấn đề là hệ số tương quan đa biến có giới hạn biến thiên từ 0 đến 1 và, do đó, nó không cho biết dấu liên hệ giữa y và tập hợp x1 , ,xM Ngoài ra, đại lượng hệ số tương quan đa biến có thể lớn hơn hoặc bằng hệ số tương quan cặp cực đại

) ,

rjj trong ma trận số liệu đang xét

Nên giải thích hệ số tương quan đa biến như là đại lượng liên hệ tuyến tính tổng quát giữa biến phụ thuộc và các biến độc lập đã chọn, đồng thời là chỉ tiêu về hiệu quả của mô hình hồi quy tuyến tính đa biến Điều khẳng định này xuất phát từ thực tế rằng bình phương của hệ số tương quan đa biến về trị số bằng phần phương sai của biến y mà

phương trình hồi quy tuyến tính đa biến có thể mô tả

Ý nghĩa hình học của hồi quy tuyến tính đa biến

Giả sử có hệ tọa độ với ba trục: nhiệt độ, độ muối và mật độ quy ước

của nước (hình 1.1) Mật độ là biến phụ thuộc vào nhiệt độ T và độ muối

S Phương trình hồi quy đa biến cần tìm được viết dưới dạng tập mẫu hiện có Các giá trị tính được σ làm thành một mặt phẳng

nghiêng với các trục T và S Đại lượng hệ số hồi quy a1 =tg( α1) sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng

) ,

T Đại lượng hệ số hồi quy a2=tg(α2) sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng ( Sσ, ) Đại lượng sai số e sẽ tương đương khoảng cách từ trị số quan trắc i σi tới hình chiếu của nó lên mặt phẳng hồi quy σˆi

Hình 1.1 Ý nghĩa hình học của phương trình hồi quy tuyến tính

Tính toán theo mô hình hồi quy tuyến tính đa biến

Ta sẽ xét thuật toán tổng quát tính toán theo sơ đồ hồi quy tuyến tính đa biến

Trang 23

1 Tính các ước lượng trung bình số học và độ lệch chuẩn của tất cả

Lập các vectơ những trị số trung bình và độ lệch chuẩn: x , Sx

2 Tính ma trận tương quan R gồm các hệ số tương quan cặp giữa

Các hệ số tương quan thường tính theo những công thức truyền thống và kiểm tra mức ý nghĩa theo tiêu chuẩn Student

3 Tính các định thức của ma trận tương quan và các ma trận con của nó Trong hồi quy tuyến tính đa biến, định thức của ma trận tương quan

5 Dựa trên các giá trị hệ số hồi quy nhận được lập phương trình hồi

quy và tính các giá trị yˆ :

7 Tính các ước lượng độ lệch chuẩn cho các hệ số hồi quy và kiểm tra mức ý nghĩa của các tham số hồi quy theo tiêu chuẩn Student (t ): ν

8 Kiểm tra tính phù hợp chung của mô hình đối với số liệu xuất phát bằng cách tính tiêu chuẩn thực nghiệm Fisher: hợp của mô hình được chấp nhận

Sơ đồ ước lượng các tham số mô hình hồi quy trên đây là sơ đồ tổng quát nhất và thường gặp trong các chương trình phân tích thống kê trên máy tính các loại

Trang 24

Sự phức tạp trong khi thực hiện sơ đồ đầy đủ này trên máy tính liên quan tới vấn đề biểu diễn và xử lý ma trận số liệu trong điều kiện công suất hạn chế của các máy tính Với những máy tính mạnh hơn, ta có thể thực hiện tính toán theo sơ đồ đầy đủ của hồi quy tuyến tính đa biến và tiến hành khảo sát toàn diện về những mối phụ thuộc hồi quy Những phần mềm trợ giúp thực hiện phân tích hồi quy tuyến tính đa biến trên máy tính có thể tìm thấy trong [4, 12, 70, 77, 80, 139, 140, 185]

Chẳng hạn, trong đa số các phần mềm đó, ta có thể từng bước loại bỏ hay bổ sung thêm các biến độc lập nhằm chọn số biến độc lập tối ưu

Ngoài ra, còn có thể biến đổi sơ bộ những biến xuất phát để thể hiện chúng thuận lợi hơn trong mô hình hồi quy tuyến tính (nhờ các phương pháp tuyến tính hoá đã biết) Khi kiểm tra tính phù hợp của mô hình hồi quy tuyến tính đa biến, các thủ tục vẽ đồ thị phần dư trong những phần mềm này sẽ trợ giúp người nghiên cứu rất nhiều

Ứng dụng hồi quy tuyến tính đa biến trong nghiên cứu hải dương học

Trong lịch sử, các phương trình hồi quy đã được sử dụng vào nghiên cứu hải dương học ngay từ khi hình thành khoa học về đại dương Từ việc tính toán các tham số của phương trình hồi quy một biến, dần dần với thời gian, các nhà hải dương học chuyển sang sử dụng toàn bộ hệ thống phương pháp phân tích hồi quy nói chung Xu thế này bắt đầu hình thành rõ nét vào những năm bảy mươi, khi đó người ta bắt đầu giải quyết những bài toán về xây dựng mô hình hồi quy tối ưu cho tập mẫu quan trắc Ngày nay, phương pháp luận phân tích hồi quy có vị trí bền vững trong nghiên cứu hải dương học ứng dụng Tuy nhiên, vẫn còn những khó khăn trong việc ứng dụng thực tế phân tích hồi quy trong hải dương học, thường liên quan tới những vấn đề sau đây:

− Chọn dạng tối ưu của phương trình hồi quy;

− Ước lượng tin cậy những tham số hồi quy

Ta sẽ xét những kinh nghiệm phân tích hồi quy trong hải dương học có liên quan tới những vấn đề này

Cách tiếp cận hồi quy là cơ sở mô tả những quy luật vật lý cơ bản về sự phát triển các quá trình đại dương Những công thức tính toán các đặc trưng phát triển và tan băng [62], các tham số tương tác nhiệt giữa đại dương và khí quyển [61] và các biến trong phương trình trạng thái nước biển [27] đều dựa trên nguyên tắc hồi quy tuyến tính

Nếu nhìn lại những thập niên gần đây, thì thấy rõ sự tiến triển nhanh chóng của phần lớn những phương trình hồi quy Thoạt đầu đó là những phương trình bậc thấp, ít tham số Theo mức độ hiểu biết sâu hơn về những quy luật vật lý và tích luỹ ngày càng nhiều quan trắc, các nhà nghiên cứu hướng tới mô tả chính xác tối đa những mối liên hệ giữa các đặc trưng hải dương học bằng những công thức hồi quy Vì vậy, những phương trình hồi quy thường biến đổi theo hướng là dạng của chúng phức tạp dần

Thứ nhất, ngày càng có nhiều biến độc lập được đưa vào xét bổ sung cho những mối liên hệ tương quan đã phát hiện

Thứ hai, hoàn thiện dần hình thức mô tả các mối phụ thuộc: dưới dạng các biến độc lập, người ta đã sử dụng những đặc trưng tổng hợp, đó là những tổ hợp khác nhau của những tham số vật lý xuất phát

Xu thế này thể hiện rõ trong các phương trình trạng thái nước biển Hải dương học hiện đại sử dụng nhiều loại phương trình trạng thái thực nghiệm, bắt đầu từ phương trình đơn giản nhất:

và cuối cùng là những công thức của Chang−Millero [87], trong đó liên hệ giữa mật độ, nhiệt độ, độ muối và áp suất được mô tả bằng đa thức hỗn hợp bậc năm Dạng phương trình cụ thể nào được dùng là tuỳ thuộc vào độ chính xác xấp xỉ mật độ nước mà ta muốn và được xác định chủ yếu bởi tập mẫu quan trắc mật độ, nhiệt độ, độ muối Tuy nhiên, cơ sở

Trang 25

của các tính toán hồi quy vẫn là nguyên tắc tuyến tính hoá các mối phụ thuộc và ước lượng các tham số hồi quy theo phương pháp bình phương tối thiểu [3, 78]

Khi nghiên cứu phân bố không gian của các trường hải dương, phương pháp hồi quy được ứng dụng rộng rãi để giải các bài toán nội suy [25, 27] Những nguyên tắc thường dùng trong hải dương học để xây dựng bản đồ trên cơ sở khôi phục các giá trị tại mỗi nút của vùng lưới đã sử dụng ý tưởng xấp xỉ các trường như là những hàm của tọa độ địa lý Mối phụ thuộc này được mô tả bằng một phương trình hồi quy, bậc của phương trình, cũng như dạng của các biến, được chọn xuất phát từ điều kiện sao cho phương trình mô tả đúng những dị thường không gian ở quy mô đang xét

Quan điểm hồi quy cũng là cơ sở của phương pháp nội suy khách quan và đồng bộ hoá các trường hải dương [53, 57, 199] Ở đây các phương trình hồi quy được ước lượng cho từng nút của vùng nước như là hàm của các quan trắc tại những điểm xung quanh Việc hoà hợp và đồng bộ hoá các trường cũng được thực hiện bằng cách sử dụng phương pháp trên đối với những đặc trưng hải dương học khác nhau và đối với những chuỗi quan trắc [27, 101, 212, 218, 251]

Mô tả hồi quy sự biến động của các đặc trưng hải dương học trong thời gian có ý nghĩa rất quan trọng trong nghiên cứu đại dương và được thừa nhận là phương pháp quan trọng nhất để phát hiện ra những quy luật vật lý Sự phụ thuộc tiềm năng của các quá trình hải dương học trong không gian và thời gian chính là lý do để người ta tiến tới mô tả sự phụ thuộc đó bằng các mô hình hồi quy và dự báo được những xu thế phát triển của các quá trình

Việc xây dựng thành công những mô hình hồi quy về biến động thời gian của một số đặc trưng hải dương học có vai trò quan trọng, vì nó cho phép lý giải một cách tin cậy về những dao động đồng thời được điều khiển bởi những quy luật vật lý vận hành các quá trình thủy vật lý, thủy

hoá học

Ta lấy thí dụ về những nghiên cứu hải dương học nghề cá, mục đích của những nghiên cứu này nhằm mô tả một cách tin cậy những dao động liên quan lẫn nhau của các đặc trưng hải dương học và các đặc trưng sinh học [202], trên cơ sở đó sau này hình thành quy luật tác động của môi trường lên những đối tượng sinh học [108]

Những mối phụ thuộc hồi quy có ý nghĩa đặc biệt khi ta muốn khôi phục những số liệu khuyết trong lưu trữ quan trắc hải dương học Tuy nhiên, ở đây người nghiên cứu động chạm tới vấn đề tính bất đồng nhất của các mối phụ thuộc trong thời gian Chúng ta đã biết rằng, những dao động chu kỳ dài trong hệ thống khí hậu làm phát sinh những hiệu ứng không dừng về kỳ vọng toán học và phương sai trong các chuỗi mẫu

Tính không dừng, về phần mình, thể hiện ở sự bất ổn định của những mối liên hệ tương quan, và do đó, trong ước lượng các tham số hồi quy Trước hết, những ảnh hưởng đó làm giảm tính phù hợp của các mô hình hồi quy đã xây dựng Cách thường dùng nhất để khắc phục những khó khăn nêu trên là thay thế những phương trình hồi quy tổng quát bằng những phương trình bộ phận

Nói cách khác, thay vì một mô hình hồi quy chung duy nhất cho toàn khối dữ liệu, người ta xây dựng một số phương trình hồi quy bộ phận Những phương trình này sẽ xấp xỉ tốt hơn các mối liên hệ giữa các biến hải dương học trên một khoảng biến thiên cụ thể và không vận hành tốt trên những khoảng thời gian quan trắc khác

Như vậy, ứng dụng phân tích hồi quy cho phép xây dựng những mô hình tuyến tính từng đoạn và đạt được sự mô tả tối ưu bộ phận về các đặc trưng hải dương học Thí dụ về kiểu mô tả này có thể là kinh nghiệm phân tích hồi quy với các trường nhiệt muối đại dương [25], ở đây đã nhận được một tập hợp những mối phụ thuộc hồi quy giữa nhiệt độ và độ muối cho những độ sâu và những vùng khác nhau ở Đại dương Thế giới

Thí dụ khác liên quan tới bài toán kinh điển mô tả hồi quy trắc diện

Trang 26

thẳng đứng của những tham số hải dương học Sự phân tầng phức tạp của đại dương, sự hiện diện của một số đới cấu trúc có cơ chế vật lý hình thành phân bố thẳng đứng của các đặc trưng hải dương học khác nhau đáng kể, làm cho chúng ta không thể nhận được những mô hình hồi quy tổng quát về các trắc diện nhiệt độ, độ muối, mật độ Vì vậy, người ta hay sử dụng những mô hình tuyến tính từng đoạn, trong đó những tham số của các phương trình hồi quy được chọn riêng biệt cho từng đới cấu trúc mặt và các đới ở dưới sâu [54, 55, 89, 106, 166]

Khi mô tả thống kê về biến động thời gian của các đặc trưng hải dương học, người nghiên cứu phải mô tả tỉ mỉ những bất đồng nhất được gây nên bởi biến trình mùa của phần lớn những quá trình ở lớp trên đại dương Theo đó chọn ra những phương trình hồi quy bộ phận để mô tả những đặc điểm phân bố thẳng đứng của những tham số lớp nước phía trên và những mối liên hệ của các đặc trưng nhiệt động lực học cơ bản của khí quyển và đại dương [47, 54]

Lĩnh vực ứng dụng đặc biệt của phân tích hồi quy đa biến là lĩnh vực dự báo hải dương học Hồi quy đa biến thường hay được xem như là một hình thức mô tả những mối liên hệ không đồng pha giữa biến phụ thuộc và các biến độc lập Các phương trình được lập sao cho dao động hiện thời của các biến độc lập quyết định sự biến động tương lai của biến phụ thuộc Bằng cách đó tọa độ "thời gian" được biến đổi thành trục tọa độ các dao động đồng pha − thành không gian pha Bằng cách chọn thực nghiệm mức độ bất đồng pha (tức bước trễ) giữa các biến, ta làm cho các dao động trở thành đồng pha và do đó, ước lượng một cách tin cậy những tham số tương quan − hồi quy [1, 61, 104]

Phương pháp luận tương tự đã tỏ ra khả quan trong dự báo những đặc trưng trạng thái nhiệt, động lực và băng ở đại dương [62, 65, 102,130, 209]

Trong quá trình lựa chọn những biến độc lập tốt nhất cho phương trình hồi quy tối ưu, người nghiên cứu không phải là hiếm khi đối mặt với

một nghịch lý lạ lùng: thậm chí với một tập hợp lớn những biến độc lập hoàn toàn có căn cứ vật lý vẫn không đảm bảo sự tối ưu của phương trình hồi quy Nguyên nhân của sự nghịch lý này là ở chỗ không thoả mãn những đòi hỏi cơ bản trong khi lập các mô hình hồi quy

Trong nhiều trường hợp, tính tuỳ thuộc lẫn nhau tự nhiên của các quá trình hải dương sinh ra sự liên hệ thống kê tuyến tính giữa các biến độc lập với nhau Thực tế này mâu thuẫn với điều kiện hạn chế ban đầu của mô hình hồi quy đa biến Nếu không tính tới điều đó, sẽ dẫn tới sự bất ổn định tính toán, mà kết cục là ước lượng kém hiệu quả các tham số hồi quy và tính phù hợp thấp của phương trình hồi quy nói chung

Khía cạnh thứ hai của cùng vấn đề này liên quan tới những khó khăn có tính chất hải dương học thuần tuý, đó là do ít số liệu xuất phát Trong nhiều trường hợp thực tế, số quan trắc chỉ bằng số các biến độc lập đưa vào phương trình Kết quả là sự bất định của nghiệm không cho phép đạt được ước lượng đúng của các tham số hồi quy, và mô hình mất giá trị Thông thường, trong những mô hình tương tự như vậy không thể lý giải được ý nghĩa của những mối liên hệ hồi quy mà ta mô tả

Rõ ràng, phải lựa chọn hết sức cẩn thận các biến xuất phát trước khi ước lượng những tham số hồi quy Tuy nhiên, phải làm gì nếu như những biến "tồi" vẫn tham gia vào mô hình? Trong trường hợp này phải chọn mô hình hồi quy tốt nhất bằng cách tuyển chọn tuần tự tất cả những phương án biến độc lập xuất phát khả dĩ khác nhau Có rất nhiều phương pháp tuyển chọn Đó là hồi quy từng bước, hệ phương pháp thêm dần và bớt dần, chọn định hướng [3, 15, 122, 140, 144, 157, 158, 163]

Đối với tất cả những phương pháp đã liệt kê, thì các chỉ tiêu chung đánh giá sự tối ưu của phương trình hồi quy là độ phù hợp cao của mô hình theo tiêu chuẩn phương sai của Fisher, độ mô tả cực đại sự biến động của các biến theo hệ số tiên định và độ tin cậy các ước lượng hệ số hồi quy theo chỉ tiêu Student

Trang 27

1.2 PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN CHUẨN HOÁ

Đặt bài toán phân tích tương quan

Thực tiễn nghiên cứu hải dương học hiện đại nhiều khi đặt ra nhiệm vụ đánh giá định lượng về mối liên hệ giữa các quá trình khí tượng thủy văn tại những vùng khác nhau trên Đại dương Thế giới

Thí dụ, nghiên cứu sự liên hệ trong chế độ các trường khí tượng thủy văn hai biển Hắc Hải và Kaxpi, trước hết đòi hỏi đánh giá mức độ hiệp đồng dao động ở những điểm khác nhau của hai thủy vực này Có thể phân tích một tập hợp các chuỗi nhiệt độ (độ muối, mực nước, v.v ) theo kết quả tính những hệ số tương quan cặp đơn giản giữa những tham số ở các cặp điểm thuộc hai thủy vực Tuy nhiên, phương pháp này chỉ cho phép phát hiện những liên hệ địa phương, mà không thể khái quát thành những liên hệ cho các thủy vực nói chung

Phương pháp phân tích tương quan chuẩn hoá chính là nhằm làm sao mô tả được mức độ liên hệ tổng quát của hai (hoặc một số) đối tượng nghiên cứu trọn vẹn theo kết quả phân tích đồng thời một tập hợp những tham số quan trắc Bản chất toán học của phương pháp phân tích tương quan chuẩn hoá là tìm những biến đổi trực giao tuyến tính đối với các dấu hiệu (biến) xuất phát, sao cho chúng vừa mô tả được những đặc điểm chung nhất của mỗi đối tượng, vừa đồng thời lại tương quan với nhau càng cao càng tốt Những biến đổi như vậy gọi là những biến chuẩn hoá Còn sự tương quan giữa chúng gọi là tương quan chuẩn hoá

Rõ ràng, ý tưởng phương pháp phân tích tương quan chuẩn hoá có nhiều nét giống với cách tiếp cận trong phương pháp các thành phần chính Sự khác biệt căn bản là ở chỗ: trong phương pháp phân tích tương quan chuẩn hoá, người nghiên cứu phải biến đổi trực giao một ma trận số liệu xuất phát, gọi là ma trận khối, mỗi khối của ma trận đó là một tập quan trắc của một trong những đối tượng khảo sát

Hình 1.2 Sơ đồ tuần tự tổng quát giải bài toán phân tích tương quan

chuẩn hoá hai tập hợp quan trắc X và Y

Giả sử có dữ liệu xuất phát dưới dạng hai tập hợp: X gồm những

quan trắc về M1 biến và Y gồm những quan trắc về M2 biến Ta thể

hiện những tập hợp này dưới dạng những ma trận hình chữ nhật có N

dòng và M1 và M cột (hình 1.2) Ta sẽ liên kết các ma trận thành một 2

ma trận số liệu tổng quát, gồm N dòng và M =M1 +M2 cột Ở đây ma trận số liệu tổng quát tạo thành từ hai khối: khối 1 − ma trận X, khối 2 − ma trận Y Để ước lượng mối liên hệ của các biến ta tính những hệ số

tương quan cặp giữa tất cả các biến trong ma trận số liệu tổng quát

Nhờ kết quả tính toán, ta nhận được ma trận tương quan tổng quát R,

gồm bốn khối: khối 1 − R11 − đặc trưng cho sự tương quan của các biến thuộc ma trận X, khối 2 − R22− đặc trưng cho cho sự liên hệ của các biến thuộc ma trận Y, các khối 3 và 4 đặc trưng cho mức độ tương quan giữa các biến của ma trận XY − R12 và R21 Thực chất phương pháp phân tích tương quan chuẩn hoá là tìm những tổ hợp tuyến tính của các nhóm biến nghiên cứu tương quan tối đa với nhau dạng:

Trang 28

trong đó UiVi− những biến chuẩn hoá, AiBi− những hệ số chuyển đổi sang các biến chuẩn hoá từ các tập hợp xuất phát

Trong quá trình tính toán phải tuân thủ những điều kiện sau đây: − Kỳ vọng toán học của các biến chuẩn hoá bằng không:

Liên hệ giữa các biến chuẩn hoá của hai tập hợp được xác định bằng giá trị của hệ số tương quan chuẩn hoá ρi:

Sau khi tìm được cặp các biến chuẩn hoá thứ nhất mô tả phần phương sai liên hệ cao nhất của các tập hợp nghiên cứu, người ta chuyển sang tính những cặp biến chuẩn hoá tiếp theo Trong quá trình này, phải tuân thủ điều kiện sao cho cặp biến chuẩn hoá phải phản ánh tối đa tương quan dư giữa các nhóm, đồng thời tuân thủ điều kiện không tương quan giữa những biến chuẩn hoá mới U , i+1 V và các biến chuẩn hoá trước i+1

trong đó Rij − các khối của ma trận tương quan tổng quát, L nhân tử

Lagrange, A và B các hệ số chuyển đổi cần tìm − Dạng viết ma trận trên đây có thể viết lại dưới dạng

Từ hệ phương trình này, nhận được phương trình cơ bản của phương pháp phân tích tương quan chuẩn hoá:

− I

R* (1.6) Nhân tử R*=R11−1⋅R12 ⋅R22−1 là một ma trận tương quan vuông bất đối xứng kích thước M dòng và M cột Kết quả là quá trình giải lại quy

về bài toán các giá trị riêng và các vectơ riêng của ma trận R*

Nếu triển khai định thức nằm trong dấu ngoặc của biểu thức (1.6), thì có thể tính được các giá trị riêng Λ, thế những giá trị riêng đó vào phương trình đã cho sẽ cho phép giải phương trình này để nhận những

vectơ riêng A Tính toán biến chuẩn hoá được thực hiện theo công

thức (1.4), còn hệ số tương quan tương ứng với biến chuẩn hoá này được ước lượng theo công thức

Thủ tục tiến hành phân tích tương quan chuẩn hoá có thể chia ra thành một số giai đoạn chính giúp dễ dàng chương trình hoá [34, 73, 77]:

1 Tính các hệ số tương quan cặp đối với tất cả những biến quan trắc

trong tất cả các tập hợp và lập ma trận tương quan tổng quát R

Trang 29

3 Tính những giá trị riêng λ của ma trận phụ trợ R trên cơ sở * phương trình đặc trưng nhận được từ điều kiện bằng không của định thức

8 Ước lượng lượng mang thông tin tương đối của những biến chuẩn hoá theo nghĩa chúng mô tả độ biến động chung của các biến được khảo

Ứng dụng phân tích tương quan chuẩn hoá trong hải dương học

Phân tích tương quan chuẩn hoá đối với những quá trình và trường hải dương hiện mới được sử dụng một cách dè dặt Trên cơ sở phân tích những ấn phẩm hải dương học về phương pháp phân tích tương quan chuẩn hoá, rất khó rút ra kết luận giống nhau về những nguyên nhân của sự dè dặt này, hơn nữa hai mươi năm trước đây trong các công trình của N A Bagrov [15−19] và G A Karpeev [90, 91] đã phân tích so sánh tỉ mỉ những ưu việt của việc ứng dụng phương pháp này để giải quyết những bài toán khí tượng thủy văn Chẳng hạn, ở đây đã chỉ ra rằng biến đổi chuẩn hoá cho phép giữ nguyên "thông tin dự báo" không bị sai lệch, còn vai trò của phương pháp phân tích tương quan chuẩn hoá trong khoa học dự báo rất giống vai trò của phương pháp các thành phần chính khi giải quyết những bài toán chẩn đoán

Những kết luận về sau này đã được khẳng định nhiều lần bằng các kết quả tính toán thực nghiệm về phân tích những mối liên hệ của các trường khí tượng và hải dương [58, 220], cũng như trong khi xây dựng những mối phụ thuộc dự báo những trường này [22, 134, 148, 193, 243]

Nếu xem xét toàn bộ những kết quả phân tích chuẩn hoá hiện có trong hải dương học nói chung, có thể nhận ra một sơ đồ ứng dụng phương pháp phân tích tương quan chuẩn hoá tổng quát như sau:

− Những tập hợp mẫu được đưa vào khảo sát là những tập hợp trong tọa độ không gian − thời gian;

− Các tác giả thường cố gắng chọn những vectơ quan trắc có cùng (hoặc gần nhau) về kích thước;

− Số tập hợp được khảo sát thường bằng hai;

− Khi giải quyết những bài toán chẩn đoán, những tập hợp được khảo sát được đồng bộ hoá về thời gian; khi ước lượng những mối phụ thuộc dự báo, thường xem xét những mômen tương quan không đồng

Trang 30

pha;

− Lý giải những đặc trưng khai triển chuẩn hoá được thực hiện chủ yếu tương tự như lý giải các thành phần chính

Vì phương pháp này chưa được ứng dụng đủ rộng rãi trong thực hành nghiên cứu hải dương học, nên ngay từ bây giờ chưa thể nhận ra tất cả những ưu việt và nhược điểm của nó Chúng tôi sẽ chỉ dừng lại ở một số ưu khuyết điểm chính trong số đó mà chúng ta đã được biết cho tới hiện nay

1 Nếu có nhiều hệ số tương quan cặp với trị số lớn trong ma trận số liệu tổng quát R , thì sẽ dẫn tới khó quay ma trận này trong khi giải bài 0

toán các giá trị riêng Do đó, độ chính xác ước lượng tương quan chuẩn hoá và bản thân những biến chuẩn hoá sẽ kém

2 Đại lượng tương quan chuẩn hoá trong phương pháp phân tích tương quan chuẩn hoá, theo định nghĩa, là luôn dương, vì được ước lượng từ biểu thức (1.7) Rõ ràng rằng dấu thực của những mối liên hệ của các tập hợp biến xuất phát hoàn toàn không phải lúc nào cũng dương Vì vậy, trong thực tế người nghiên cứu buộc phải khảo sát thêm những hệ số tương quan cặp và tiến hành những suy luận vật lý để đánh giá về dấu của tương quan chuẩn hoá

3 Tính định hướng hẹp trong khi xác định những chỉ tiêu, chủ yếu là chỉ tiêu nói lên sự tương quan giữa các nhóm của các tập hợp biến, chứ không phải là bản thân phương sai của các tập hợp xuất phát, có thể xem là nhược điểm cơ bản trong phát biểu bài toán phân tích chuẩn hoá Do đó, nếu khi khai triển ma trận tương quan tổng quát R0 theo các giá trị riêng mà hội tụ yếu, thì sẽ xuất hiện tình huống mối phụ thuộc tìm được ít mang thông tin do phần phương sai bên trong những tập hợp được khảo sát chuyển cho các biến chuẩn hoá bị nhỏ

Nếu phần đóng góp của hai ba biến chuẩn hoá đầu tiên tương đối

thấp (ít hơn 50−60%), thì nên hoặc là thay đổi tập hợp khảo sát, hoặc là không áp dụng hệ phương pháp này nữa

4 Những ước lượng các biến chuẩn hoá tỏ ra rất nhạy cảm đối với các điều kiện dừng của các chuỗi ban đầu Vì vậy, trước khi triển khai phương pháp phân tích tương quan chuẩn hoá, nên kiểm tra giả thiết dừng và nếu cần thiết, hãy tiến hành những phép biến đổi tương ứng đối với các số liệu xuất phát

Trang 31

Chương 2 - MÔ TẢ CẤU TRÚC CỦA CÁC QUÁ TRÌNH

2.1 PHƯƠNG PHÁP THÀNH PHẦN CHÍNH

Phát biểu bài toán, phương trình cơ bản

Ý tưởng của phương pháp các thành phần chính là biểu diễn một quá trình phức tạp thành tổng của các thành phần đơn giản hơn, không phụ thuộc nhau (các số hạng khai triển) Tuy nhiên, khác với khai triển theo các đa thức Chebưsev hay khai triển Fourier, trong phương pháp các thành phần chính, cấu trúc các tham số khai triển không được cho trước Nó được xác định đơn trị và khách quan chỉ bởi nội dung bên trong của quá trình được nghiên cứu và mức liên hệ giữa các chuỗi quan trắc với nhau Vì vậy, phương pháp các thành phần chính thường còn được gọi là khai triển theo các hàm trực giao tự nhiên (hay thực nghiệm) [155]

Quy tắc đối với phương pháp các thành phần chính là: mỗi số hạng khai triển chứa đựng trong nó sự biến động tương ứng của một số biến xuất phát Theo nghĩa này, phương pháp các thành phần chính giống như một công cụ nén thông tin hữu hiệu và khái quát thông tin, cho phép bằng một số ít các tham số khai triển, phản ánh và phân tích được sự biến động toàn diện của nhiều đặc trưng trạng thái của hệ thống tự nhiên Theo phương pháp này, từ những quan trắc rời rạc khác nhau, có thể tách ra cái chung nhất cho phép khôi phục bản chất của những biến đổi đang diễn ra, những biến đổi này nhiều khi không trực tiếp lộ rõ ra trước mắt người nghiên cứu

Những số liệu quan trắc xuất phát dùng trong phương pháp các thành phần chính được hình thành dưới dạng các bảng số phân bố theo:

không gian − thời gian, không gian − các biến hoặc thời gian − các biến Mỗi trường hợp cụ thể sẽ có một mức khái quát dữ liệu của nó

Trong hệ tọa độ không gian − thời gian, nhờ phương pháp các thành phần chính, có thể phát hiện ra những quy mô dao động cơ bản trong không gian và trong thời gian của biến được nghiên cứu Trong hệ tọa độ không gian − các biến, người ta quan tâm mô tả phạm vi ảnh hưởng của từng biến trong số các biến và khái quát sự biến động cùng nhau của các biến Trong hệ tọa độ thời gian − các biến, mục tiêu phân tích sẽ là mô tả tổng quát đối tượng nghiên cứu như một hệ thống phụ thuộc vào tập hợp những tham số khác loại với nhau

Xuất hiện câu hỏi: vậy chuyển từ những quan trắc hiện có sang những biến mới nào đó để làm gì? Vấn đề là ở chỗ: đối với phần lớn những tình huống thực tế, sự biến động thấy được của các tham số chưa cho phép người nghiên cứu thấu hiểu về bản chất của các quá trình đang diễn ra Trong dữ liệu luôn luôn chứa đựng những thành phần nhiễu, những quy mô biến động không gian, thời gian không được biết chính xác, một bộ phận các tham số quan trắc có thể liên hệ với nhau và cùng mô tả một quá trình Vì vậy mà đặt ra bài toán khai triển quá trình phức tạp thành những dao động đơn sao cho: 1) chuyển sang những biến mới không liên hệ lẫn nhau, trong khi vẫn giữ nguyên độ chính xác của phép mô tả; 2) từng biến trong số các biến mới chứa đựng trong nó một trong những xu thế quan trọng nhất của những số liệu xuất phát; 3) tất cả các biến mới được sắp xếp theo thứ tự giảm dần mức đóng góp (mức ảnh hưởng) của chúng vào sự biến động chung

Điều rất quan trọng là tất cả những nhiệm vụ quan trọng như vậy được giải quyết một cách đơn giản về kỹ thuật − biến đổi tuyến tính các số liệu xuất phát, hay nói cách khác, bằng cách nhân từng phần tử của mỗi biến với các hệ số liên hệ tuyến tính của biến đang xét với biến mới Vấn đề cơ bản của phương pháp các thành phần chính chính là làm sao tìm được những hệ số liên hệ giữa các biến ban đầu và các thành phần chính một cách tốt nhất

Trang 32

Phát biểu toán học của mô hình phương pháp các thành phần chính như sau: Giả sử có tập số liệu gồm N quan trắc về M biến Tập số liệu

này tương đương với M vectơ quan trắc dạng x={x1,x2,x3 , ,xM} làm thành ma trận số liệu X gồm N dòng và M cột Ma trận số liệu này

được đặt tương ứng với ma trận những giá trị của các thành phần chính

F , cũng có N dòng và M cột Mỗi cột trong ma trận F mô tả biến

thiên của một thành phần chính f , thành phần chính này được biểu diễn j

dưới dạng một vectơ fj ={f1j,f2j,f3j, ,fNj} Số biến M và số thành

phần chính trùng nhau Số quan trắc N trong số liệu xuất phát và số các

trị số của từng thành phần chính trùng nhau Khi đó phương trình cơ bản

của ma trận A gồm những hệ số liên hệ giữa thành phần chính đang

xét và tất cả những biến ban đầu Theo quy tắc đại số ma trận, ma trận A trong phương trình (2.1) được chuyển vị thành A (tức quay T

90°)

Theo phương trình (2.1), công thức của phương pháp các thành phần chính để tính quan trắc thứ i của biến j trong ma trận số liệu

Ý nghĩa hình học của phương pháp các thành phần chính

Một cách đơn giản nhất, ta xét vấn đề này qua thí dụ phân tích hai biến xuất phát Giả sử đó là hai chuỗi quan trắc nhiệt độ nước tại hai tầng Ta sẽ biểu thị đám mây quan trắc trong hệ tọa độ: trục hoành là biến thiên nhiệt độ tại tầng thứ nhất (x ), trục tung là biến thiên nhiệt độ tại tầng thứ 1

hai (x ) Nếu đám mây biến động có dạng hình ellip (hình 2.1), thì điều 2

đó cho ta thấy rằng các dao động nhiệt độ nước tại hai tầng có liên quan với nhau

Biến động tổng cộng của các dao động ứng với trục lớn của hình ellip có thể đánh giá theo quy mô dao động tại mỗi tầng:

Các thành phần chính có thể xem như những trục của hệ tọa độ trực giao mới Khi đó, quá trình tìm những thành phần chính cần lý giải như là thủ tục quay các trục tọa độ Việc định hướng lại các trục thực hiện theo quy tắc sau: trục thứ nhất (thành phần chính) được hướng theo trục của tản mạn cực đại của quan trắc, trục thứ hai hướng theo hướng của tản mạn dư cực đại sau khi đã trừ đi ảnh hưởng của thành phần trước đó và với điều kiện trục này phải vuông góc với trục thứ nhất

Theo cách như vậy, việc chuyển từ các tọa độ các biến x1 ,x2 sang tọa độ các thành phần chính f ,1 f2 được thực hiện bằng cách quay đơn giản hệ tọa độ đi một góc α ngược chiều kim đồng hồ, kết quả là hình chiếu của các quan trắc lên các trục thành phần sẽ biến đổi Rõ ràng, phương sai của các hình chiếu quan trắc lên trục thành phần thứ nhất sẽ lớn hơn nhiều so với thành phần thứ hai, mặc dù phương sai tổng cộng không thay đổi (do tính tuyến tính của phép biến đổi hệ tọa độ, hình dạng đám mây không thay đổi):

Kiểu lý giải hình học đã trình bày cho phép hiểu nội hàm của các vectơ riêng theo một cách khác Ma trận các vectơ riêng A chứa những

hệ số chuyển đổi từ các biến xuất phát sang các thành phần chính Từ quan điểm lượng giác, những hệ số chuyển đổi này thực chất là cosin và sin của các góc quay các thành phần chính so với các biến xuất phát Từ

đây dễ dàng viết ma trận A dưới dạng lượng giác:

Trang 33

Sự lý giải hình học trên đây về phương pháp các thành phần chính cho thấy rằng: trong phương pháp này đã diễn ra quá trình nén thông tin Điều này thể hiện ở việc định hướng các thành phần chính đầu tiên dọc theo những trục tản mạn cực đại của đám mây quan trắc Kết quả là một phần lớn độ biến động của quá trình được tập trung vào những thành phần đầu tiên, vì thế chúng có tên là các thành phần chính Còn mỗi một thành phần tiếp sau, theo định nghĩa, chỉ mô tả phần phương sai nhỏ dần, số hiệu của thành phần càng cao, thì nó càng mang ít thông tin

Những tính chất của các thành phần chính

Những tính chất của các thành phần chính có thể hình thành trên cơ sở phân tích phương trình cơ bản của phương pháp và ý nghĩa hình học của nó như sau:

1) Các thành phần chính không liên hệ tuyến tính với nhau (trực

giao); do đó, tương quan cặp giữa chúng bằng không:

2) Các thành phần chính mô tả độ biến động của số liệu sao cho thành phần chính thứ nhất mô tả sự tản mạn cực đại của đám mây quan trắc, thành phần chính thứ hai trực giao với thành phần thứ nhất và mô tả phần tản mạn dư cực đại, thành phần thứ ba trục giao với những thành phần trước nó và mô tả phần tản mạn dư cực đại và v.v

3) Ứng dụng phương pháp các thành phần chính cho phép mô tả phương sai của các biến nghiên cứu một cách tối ưu trong số tất cả những phép biến đổi tuyến tính khác

4) Sử dụng các thành phần chính cho phép mô tả thông tin xuất phát với một độ sai lệch cực tiểu về cấu trúc hình học của đám mây quan trắc trong không gian các thành phần chính

5) Phần đóng góp của một thành phần chính vào mô tả phương sai chung của các biến tỷ lệ với bình phương giá trị riêng của ma trận tương quan các biến xuất phát tương ứng với thành phần chính đó

6) Những thành phần chính mô tả một cách tối ưu độ biến động của các biến xuất phát, điều này trực tiếp suy ra từ tính chất cực đại của

ở đây r(fk ,xj)− hệ số tương quan giữa biến j và thành phần chính k

Công cụ toán học của phương pháp các thành phần chính

Như đã trình bày, phương trình cơ bản của phương pháp các thành phần chính viết dưới dạng ma trận:

Trang 34

AFX= ⋅

Bài toán phương pháp các thành phần chính đã phát biểu ở trên là bài toán tìm những biến đổi tuyến tính fj với những tính chất:

− Mỗi thành phần chính sẽ thâu tóm được tối đa phương sai: max

(fj2 → ;

− Các thành phần chính không phụ thuộc lẫn nhau: (fj, fk)=0 Để tìm thành phần chính, trước hết phải xác định những hệ số liên hệ

từng biến j với từng thành phần k , những hệ số này lập thành ma trận

A − các tỉ trọng của những thành phần chính (hay các hệ số khai triển) Điều này sẽ trở thành có thể, nếu chấp nhận điều kiện khôi phục hoàn

toàn tương quan của các biến xuất phát theo ma trận A :

Trong trường hợp này, toàn bộ thủ tục phương pháp các thành phần chính thực tế quy về việc tìm những vectơ riêng của ma trận tương quan của các biến, bởi vì điều kiện (2.3) chỉ thoả mãn trong trường hợp ma

trận A được tạo thành từ M vectơ riêng của ma trận tương quan R

Quá trình tìm những vectơ riêng bắt đầu từ việc tính các giá trị riêng của ma trận tương quan bằng cách giải phương trình đặc trưng: Giải phương trình ma trận (2.4) có nghĩa là tìm M nghiệm của phương trình đặc trưng đối với định thức dạng

Mỗi hệ chứa một giá trị riêng tương ứng (λi) và khi giải sẽ cho M

nghiệm − tức M giá trị của vectơ riêng thứ i , làm thành các cột của ma

trận A

Điều kiện bổ sung để tìm các vectơ riêng là điều kiện quy chuẩn phương sai của các phần tử của mỗi vectơ riêng:

đối với từng vectơ ,i i=1 , ,M

Lưu ý rằng, các bài toán tính những giá trị riêng (đặc trưng) và những vectơ riêng (đặc trưng) là những bài toán truyền thống của đại số tuyến tính, không hề có gì phức tạp và người ta đã từng thực hiện trong

Trang 35

nhiều thập niên [3, 30, 34, 81, 86, 94]

Sau khi tìm các giá trị riêng và các vectơ riêng A , còn phải giải hai

bài toán Bài toán thứ nhất − đánh giá tầm quan trọng của từng thành phần Việc đánh giá trực tiếp suy ra từ đẳng thức: phương sai của mỗi thành phần chính bằng giá trị riêng tương ứng với nó Do đó, phần đóng

góp tương đối của thành phần i vào mô tả phương sai chung của các biến

Một chi tiết cuối cùng trong phương pháp các thành phần chính là ước lượng bản thân các giá trị của thành phần chính, tức các vectơ fj Theo truyền thống, bài toán này thực hiện bằng cách sử dụng hồi quy

tuyến tính kinh điển, theo đó ma trận các hệ số hồi quy ( B ) được tính

theo vectơ các giá trị riêng (Λ ) và ma trận các vectơ riêng ( A ):

trong đó k=1 , ,M− số hiệu của biến xuất phát

Ứng dụng phương pháp các thành phần chính trong hải dương học

Theo truyền thống hình thành trong hải dương học ứng dụng, phương pháp các thành phần chính trước hết được ứng dụng khi nghiên cứu cấu trúc không gian − thời gian của các quá trình, hay được dùng nhất để phân tích biến động điều kiện nhiệt mặt đại dương [20, 60, 67, 105, 111, 255] Phương pháp được ứng dụng thành công để khai triển theo không gian và theo thời gian Những quy luật biến động thời gian của các thành phần chính thể hiện những xu thế chung trong dao động của các trường nghiên cứu, điều này được dùng rất thành công cho các mục đích dự báo [6, 61, 64, 71, 91] Về những vấn đề này sẽ xét một cách chi tiết trong chương 6

Khu vực ứng dụng đặc biệt của phương pháp các thành phần chính kinh điển trong hải dương học liên quan tới vấn đề tìm hiểu cấu trúc nước Bài toán thường được xét trong hệ tọa độ không gian − các biến Các biến ở đây là những trị số quan trắc của những đặc trưng thủy lý và thủy hoá Mục tiêu ứng dụng phương pháp các thành phần chính là làm sao thông qua các thành phần chính, mô tả được những mối liên hệ quan trọng nhất của các đặc trưng hải dương học và trong tọa độ địa lý xác định cấu trúc của những trường xuất phát Theo cách tiếp cận này, những yếu tố cấu trúc gồm: các khối nước chính [32, 37, 99, 197], sự phân tầng thẳng đứng của nước đại dương [149, 191], các kiểu nước và các front [96], các thành tạo xoáy động lực [48, 49, 112] Kết quả cuối cùng của việc ứng dụng phương pháp các thành phần chính có tốt hay không hoàn toàn do cách chọn tập hợp những dấu hiệu (biến) khảo sát, vị trí của chúng trong không gian và quy mô lấy trung bình [114, 138, 183, 184, 192, 213, 226, 231, 239, 241, 254, 261, 268]

Một trong những vấn đề hàng đầu được tranh cãi trong quá trình ứng dụng phương pháp các thành phần chính là ước lượng số các số hạng khai triển tối ưu để lý giải vật lý và mô tả định lượng những tính chất của các trường nghiên cứu Thường hay sử dụng nhất là phương pháp căn cứ vào

Trang 36

ước lượng sai số tiềm năng trong khi tính các tham số khai triển [59, 66,

Chỉ những thành phần nào mà λj >δλj mới được xem xét lý giải Tiêu chuẩn này nói chung tỏ ra không tồi trong nghiên cứu ứng dụng Tuy nhiên, trong nhiều trường hợp, nó tỏ ra kém hiệu quả, do phương sai của những dao động nhiễu vượt hơn phương sai của thành phần tuần

hoàn Với những trường hợp đó, người ta sử dụng cái gọi là đặc trưng

trong đó r(τ)− ước lượng hàm tự tương quan của thành phần chính thời gian trễ τ , σ2(τ)− phương sai mẫu của ước lượng này

Nếu so sánh giá trị tính được của đặc trưng Q với tiêu chuẩn χ2 của Pierson, ta sẽ đưa vào phân tích những thành phần nào mà trong cấu trúc của nó có chứa những dao động có nghĩa về mặt thống kê Ý tưởng về phân tích nội hàm những thành phần có cấu trúc mang ý nghĩa của các hàm tự tương quan đang được sử dụng thành công khi nghiên cứu những dao động của các đặc trưng nhiệt và băng biển [102, 128, 154, 175]

Tuy nhiên, trong khuôn khổ phương pháp các thành phần chính kinh điển, không thể bao quát hết những vấn đề phân tích những dao động không gian − thời gian của các quá trình khí tượng thủy văn, chính điều này là lý do để phát triển tiếp những căn cứ lý luận nền tảng của phương pháp

Kỹ thuật các thành phần chính trong miền tần số đã là một kỹ thuật hoàn thiện hơn so với phương pháp các thành phần chính truyền thống [126, 260] Kỹ thuật này dựa trên các nguyên tắc biểu diễn trực giao ma trận các hàm hiệp phổ của một số chuỗi thời gian Nghiệm nhận được đã chứa đựng cấu trúc pha của những dao động sóng cơ

bản, cấu trúc này được mô tả nhờ biểu diễn các vectơ riêng như là những tập hợp các số phức

Kỹ thuật các thành phần chính trong miền tần số dựa trên khái niệm ma trận hiệp biến C(τ), tạo thành từ các hệ số tương quan chéo

có M giá trị riêng λ, liên hệ với những vectơ riêng trực giao phức A

Trong công trình [265] có một thí dụ rất hay về ứng dụng thành công kỹ thuật này, ở đó đã nghiên cứu cấu trúc sóng của những dị thường chu kỳ dài, quy mô lớn của nhiệt độ nước ở phần phía bắc Thái Bình Dương Nhờ kết quả phân tích thống kê, đã phát hiện và mô tả quá trình lan truyền các dị thường nhiệt độ từ phần tây nam vùng nghiên cứu lên hướng đông bắc

Một trong những hướng triển vọng nhất phát triển phương pháp luận các thành phần chính là kỹ thuật các thành phần chính phức Nguyên nhân của điều này là do người ta muốn khắc phục một trong những nhược điểm cơ bản của phương pháp các thành phần chính kinh điển là nó không thể mô tả một cách tin cậy những sóng tiến chuyển động trong không gian

Phương pháp các thành phần chính kinh điển cho phép khái quát một cách tin cậy về những sóng đứng Còn nếu như trong cấu trúc không gian − thời gian của các quan trắc có những sóng tiến, thì phương pháp các thành phần chính thể hiện một cách sai lệch những sóng này dưới dạng một tập hợp các dao động đứng Con đường tiến tới mô tả các sóng không gian − thời gian trong phương pháp các thành phần chính là thay

đổi hệ phương pháp lập ma trận tương quan (hiệp biến) R Bước đầu tiên đã được thực hiện khi ma trận R được lập từ những hệ số bất đồng pha

của các hàm tương quan chéo [221, 222, 231, 263, 264]

Trang 37

Tuy nhiên, không phải lúc nào hiệu quả của hệ phương pháp này cũng cao, vì lựa chọn những hệ số tương quan chéo tối ưu rất phức tạp

Việc xây dựng phương pháp luận phân tích thành phần chính phức có lẽ hiện là một cấp phát triển cao nhất của phương pháp các thành phần chính [109, 225] Để ứng dụng phương pháp các thầnh phần chính phức, phải thực hiện biến đổi Gilbert đối với các chuỗi thời gian xuất phát, sau đó, trên cơ sở biểu diễn phức các chuỗi thời gian, tính những hàm tương quan chéo phức của chúng và lập ra ma trận tương quan Những vectơ riêng phức và những thành phần chính nhận được sau đó sẽ đặc trưng cho cấu trúc biên độ − pha của các dao động trong không gian và thời gian mà ta nghiên cứu

Kinh nghiệm ứng dụng phương pháp này trong nghiên cứu hải dương học còn rất hạn chế, chưa cho phép đánh giá những nhược điểm tiềm ẩn có thể có của các thành phần chính phức

2.2 PHƯƠNG PHÁP PHÂN TÍCH NHÂN TỐ

Phát biểu bài toán và phương trình cơ bản

Tính hiệu quả khi sử dụng phương pháp các thành phần chính nghiên cứu những quá trình tự nhiên là một trong những nguyên nhân chính thúc đẩy phát triển những cơ sở lý thuyết của nguyên tắc khai triển trực giao Sự phát triển của phương pháp các thành phần chính trong khoa học tự nhiên tiến theo con đường cập nhật dần những giai đoạn tính toán bổ sung vào sơ đồ truyền thống của phương pháp

Kết quả là tới nay, trong thống kê đa chiều đã hình thành một lĩnh vực chuyên biệt biến đổi trực giao những số liệu, có tên là phương pháp phân tích nhân tố Phát triển trên cơ sở phương pháp các thành phần chính, phương pháp phân tích nhân tố hiện đại là một tập hợp phức tạp những thủ tục tính toán có sơ đồ giống như hình cây

Xuất phát từ những mục tiêu và nhiệm vụ nghiên cứu, những đặc điểm của số liệu ban đầu, trong số vô vàn những phương án giải quyết

vấn đề khai triển trực giao theo phương pháp phân tích nhân tố, nhà khoa học sẽ chọn lấy một phương án nào đó tỏ ra tối ưu trong những điều kiện đang xét và cho phép đạt được kết quả đơn giản nhất và dễ hiểu nhất về phương diện vật lý

Ý tưởng phân tích nhân tố dựa trên giả thiết rằng những đặc trưng ghi nhận được trong tự nhiên tự nó không phải là những nguyên nhân của những biến đổi đang diễn ra Chúng chẳng qua chỉ là những hệ quả hay những chỉ thị về sự ảnh hưởng của các ngoại lực và nội lực ẩn dấu đối với người quan sát đang theo dõi động thái phức tạp của những mối liên hệ giữa các biến Mỗi lực ảnh hưởng cùng một lúc đang tác động đến một số biến quan trắc Và mặc dù các biến phản ứng với những tác động cưỡng bức ấy theo kiểu của mình, nhưng sự liên hệ lẫn nhau giữa chúng chứa đựng một hạt nhân chung, hạt nhân này mô tả sự biến thiên của lực ảnh hưởng Ngoài những lực, hay những nhân tố (như người ta quy ước gọi như vậy trong phương pháp phân tích nhân tố) chung này, trong tự nhiên còn tồn tại những lực cưỡng bức khác, có tính chất riêng đối với mỗi biến quan trắc và không ảnh hưởng tới những biến khác Những nhân tố như vậy gọi là những nhân tố đặc thù, vì chúng phản ánh đặc thù biến thiên của một biến cụ thể Ngoài ra, trong các quan trắc và đo đạc luôn luôn có thêm những lỗi, những sai số ngẫu nhiên, gọi là những nhân tố ngẫu nhiên

Khái quát những điều vừa nói trên, có thể biểu diễn độ biến động chung của các biến quan trắc dưới dạng ba số hạng:

EAF

X= ⋅ T + ,

trong đó X− biến động của các biến quan trắc, FAT − biến động của những nhân tố chung tiềm ẩn, E− biến động của những nhân tố đặc thù cộng với biến động của những nhân tố ngẫu nhiên

Trong thực tế, rất khó tách bạch phạm vi ảnh hưởng của những nhân tố đặc thù và ngẫu nhiên và mô tả chúng riêng rẽ Muốn vậy đòi hỏi phải phân tích số liệu một cách rất tinh xảo Vì vậy, trong phương pháp phân

Trang 38

tích nhân tố kinh điển, biến động của các nhân tố đặc thù và ngẫu nhiên cùng được xem xét như một thể duy nhất Hạn chế này có phần nào làm cho kết quả thô thiển, nhưng cho phép tập trung vào mô tả những nhân tố chung cơ bản hình thành nên biến động chung của các biến

Nhìn vào một hệ thống đa liên hệ phức tạp như đại dương thế giới, ta có thể thấy rất nhiều thí dụ tự nhiên tương ứng với sơ đồ tương tác nhân tố đã đưa ra trên đây Chẳng hạn, trường nhiệt độ mặt đại dương toàn cầu sẽ chịu ảnh hưởng trước hết của các lực Mặt Trời − địa vật lý hình thành biến trình ngày, mùa và thế kỷ của nhiệt độ Vì vậy, những lực này có thể xem như những nhân tố chung đối với toàn đại dương Đồng thời, mỗi điểm ở đại dương có những đặc thù địa phương về tương tác với khí quyển và với các lớp nước nằm dưới, có thể mô tả như là những nhân tố đặc thù

Cuối cùng, độ chính xác quan trắc nhiệt độ trong đại dương rất khác nhau trong không gian và tuỳ thuộc nhiều vào loại dụng cụ đo và điều kiện quan trắc Nhóm nguyên nhân biến thiên nhiệt độ này có thể xem là ảnh hưởng của các nhân tố ngẫu nhiên

Toàn bộ nội dung hệ phương pháp của phương pháp phân tích nhân tố chính là nhằm làm sao: với độ chính xác và tin cậy tối đa, kiểm tra giả thiết rằng chỉ tồn tại một số nhỏ các nhân tố ảnh hưởng và đưa ra mô tả thống kê về những nhân tố đó Sơ đồ hình thành độ biến động của các

biến quan trắc ( x ) dưới ảnh hưởng của các nhân tố tiềm ẩn chung đối với một số biến ( f ) và những sai số quan trắc đặc thù, cá thể ( e ) thể hiện

trên hình 2.2 [4, 73, 86]

Ảnh hưởng của các nhân tố lên các biến quan trắc được thực hiện và được ước lượng trên cơ sở những hệ số liên hệ tuyến tính (aj), những hệ

số này cho thấy mức độ liên hệ của nhân tố chung i và biến j Trên cơ

sở những lập luận ở trên, ta viết biểu thức đại số của mô hình phân tích

Ở đây X− ma trận các số liệu xuất phát, gồm N quan trắc (dòng)

về M biến (cột), F− ma trận giá trị của các nhân tố chung, gồm N giá trị của K nhân tố, A− ma trận các hệ số liên hệ giữa những nhân tố

chung và những biến xuất phát, gồm M dòng và K cột, E− ma trận

các phần dư hay các nhân tố đặc thù gồm N giá trị quan trắc của M

biến

Để nhận được nghiệm duy nhất của phương trình này, phải đưa thêm những điều kiện về dạng của các ma trận A , và E Khi hình thành F

những điều kiện này, thường người ta giả thiết rằng: trong số vô vàn những mô hình toán về các quá trình diễn ra trong tự nhiên, ta cần một mô hình đơn giản tối đa, nhưng đồng thuận với cấu trúc tương quan của

− Các nhân tố chung f1 ,f2 , ,fk cần được quy chuẩn (không thứ nguyên) và dẫn về độ dài đơn vị σ2(fj)=1;

− Các nhân tố chung không được liên hệ với những sai số và những

Trang 39

Hình 2.2 Sơ đồ liên hệ các biến trong mô hình phân tích nhân tố:

(a) biểu diễn thành phần; (b) biểu diễn ma trận

− Các sai số không tương quan với nhau:

trong đó xj trị số quan trắc thứ i của biến j, fip − những trị số của

K nhân tố chung đối với quan trắc thứ i , api các trị số tỷ trọng của K

nhân tố chung lên biến j, ej − sai số quan trắc, hay nhân tố đặc thù đối

với quan trắc thứ i của biến j

Ý nghĩa hình học của phương pháp phân tích nhân tố

Lý giải hình học của phân tích nhân tố có phần phức tạp hơn so với phương pháp các thành phần chính, vì thủ tục tính toán của nó phức tạp hơn Trong phương pháp phân tích nhân tố, người ta chiếu đám mây các

quan trắc xuất phát từ không gian các biến M chiều lên không gian các nhân tố chung K chiều (hình 2.3)

K<M , chắc chắn sẽ xuất hiện những sai lệch của đám mây quan trắc trong khi chiếu nó lên không gian có chiều nhỏ hơn Tại giai đoạn thứ nhất của phương pháp phân tích nhân tố, sơ đồ tính thực tế tương đương với thủ tục quay các tọa độ xuất phát để định hướng các trục những nhân tố chung dọc theo các hướng có độ tương quan cực đại giữa các quan trắc (chuyển từ x1 ,x2 ,x3 sang f1 ,f2 ,f3 trên hình 2.3a), nói chung tương ứng với thủ tục của phương pháp các thành phần chính

Tiếp theo, tiến hành tối ưu hoá việc xác định nhân tố Muốn vậy, người ta loại bỏ các trục nhân tố đặc thù (f3), độ biến động dọc theo những trục này nằm trong phạm vi những sai số cho phép Đồng thời, thực hiện chiếu đám mây quan trắc lên các trục nhân tố chung còn lại (hình 2.3b) Nói cách khác, người ta bỏ bớt những trục tản mạn nào mà đám mây quan trắc xuất phát chiếu lên nó chỉ còn là một vùng với tản mạn cực tiểu Việc giảm bớt các trục nhân tố như vậy cho phép trong khi giữ lại các sai số quan trắc trên các trục nhân tố đặc thù, vẫn bảo tồn những quan trắc xuất phát quan trọng nhất trên các trục nhân tố chung (f 1

Trang 40

a) chuyển từ các trục biến xuất phát x1 ,x2 ,x3

sang các trục nhân tố ban đầu f1, f2, f3; b) chuyển sang các nhân tố chung f1′ ,f2′ ,f3′

sau khi quay trực giao các trục nhân tố ban đầu

Hình 2.3 Ý nghĩa hình học của phương pháp phân tích nhân tố

Bây giờ ở trong không gian K chiều mới, người ta tìm vị trí tối ưu

của các trục nhân tố Các trục được quay sao cho các nhân tố được bố trí một cách chính xác tối đa dọc theo những hướng tản mạn lớn nhất, điều này cho phép đạt được điều kiện mô tả cấu trúc các nhân tố một cách đơn giản (xem hình 2.3b)

Trong một số trường hợp, có thể phép quay trục trực giao không đảm bảo đạt được cấu trúc đơn giản của các nhân tố Nhưng bài toán sẽ dễ dàng giải quyết bằng các phép chiếu lên các trục nhân tố không trực giao, góc giữa chúng β ≠90 Kiểu mô tả các biến như vậy gọi là quay nghiêng và nó là một phương tiện hữu hiệu để mô tả những cấu trúc nhân tố phức tạp Ở đây sẽ không xem xét vấn đề này, vì thủ tục tính toán của phép quay nghiêng rất phức tạp

Tìm nghiệm nhân tố

Quá trình tìm nghiệm nhân tố là một tập hợp những thủ tục cụ thể phân tích ma trận nhằm giải quyết những nhiệm vụ cụ thể Trong thực tế, mỗi giai đoạn tính toán sẽ xét dưới đây có thể có những cách giải quyết khác, chọn cách nào là tuỳ thuộc vào sự thành thạo của người nghiên cứu và xu hướng tính toán chung Ở đây sẽ chỉ xét một phương án đơn giản và trực quan trong số những phương án khả dĩ

Quá trình giải bắt đầu từ việc lập ma trận số liệu ban đầu Trong ma trận số liệu chỉ đưa vào những biến nào, mà theo ý kiến người nghiên cứu, nó tiên định cho phép giải quyết vấn đề tìm những nhân tố tiềm ẩn Đó có thể là những đặc trưng trạng thái biển được quan trắc thực, cũng có thể là những đặc trưng thứ sinh (như các građien, các dòng vật chất ) Khi lập ma trận số liệu cần nhớ rằng số quan trắc phải lớn hơn số biến ít nhất 3−5 lần để đảm bảo nhận được những ước lượng ổn định của nghiệm nhân tố

Tiếp theo, tiến hành tính những trị số trung bình và độ lệch chuẩn của các biến Sau đó, ma trận số liệu được chuẩn hoá [86, 95] Từ những trị số chuẩn hoá, tính các hệ số tương quan cặp giữa các biến, từ đó lập

ma trận tương quan R Ma trận R là ma trận vuông, đối xứng, gồm M

dòng và M cột Toàn bộ thủ tục tính toán của phương pháp phân tích

nhân tố được xây dựng trên cơ sở khai triển ma trận tương quan này Vì vậy, người ta muốn rằng những ước lượng hệ số tương quan phải phản ánh xu thế thực trong các quan trắc xuất phát

Để thuận tiện tính toán, phương trình cơ bản của phương pháp phân tích nhân tố được viết dưới dạng:

Ngày đăng: 27/04/2024, 02:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan