3 ỨNG DỤNG
3.7.5 Biến đổi các dấu hiệu trước khi phân tích
Có thể biến đổi trước các dấu hiệu X = (x1, . . . , xn) để làm cho dự báo được tốt hơn. G.S.Sebestian đề xuất một phép biến đổi tuyến tính không thoái hóa có tính chất cực tiểu hóa trung bình của bình phương khoảng cách Euclide giữa các cặp điểm của một mẫu
Y = ∧−21C0X (3.33) trong đó C = C(VXX) là ma trận trực giao các vectơ riêng của ma trận hiệp phương sai VXX của vectơ dự báo X, và ∧ = ∧(VXX) là ma trận đường chéo các giá trị riêng của ma trận VXX.
Trước khi dùng các phương pháp phân biệt phi tham số, có thể thực hiện phép biến đổi tuyến tính tọa độ (3.33). Có thể ước lượng được lợi ích của phép biến đổi đó, và do đó xem có nên dùng phép biến đổi đó hay không. Chẳng hạn, trong trường hợp hai tập tổng quát chuẩn N(M(A), V) và
N(M( ¯A), V), nếu gọi ∆P = P(Y) −P(X), P(X) và P(Y) là xác suất phân loại đúng trong không gian xuất phát X và trong không gian mới Y
M(−) =M(A)−M( ¯A)
Thì khi dùng phương pháp đại diện, lấy đại diện của mỗi lớp là vectơ kỳ vọng a = M(A) và ¯a = M( ¯A), ta sẽ có: ∆P = r 2 π Z b2 b1 e−x 2 2 dx = 2[φ(b2)−φ(b1)] trong đó φ(x) = √1 2π Rx −∞e−t 2 2 dt b1 = 1 2 M0(−)M(−) p M0(−)V M(−) b2 = 1 2 p M0(−)V−1M(−)
Khi nghiên cứu dự báo hiện tượng đóng băng, Ter-Mkrtchian đã tính giá trị ∆P cho tất cả các cặp dấu hiệu ( tức là xét các dấu hiệu từng đôi một ). Tác giả thấy với hai cặp (x2, x4) và (x4, x5) ∆P lấy giá trị lớn nhất (5%). Với các cặp khác ∆P chỉ vào khoảng 1%,2%. Tác giả kết luận phép biến đổi (3.33) trong trường hợp này không đưa lại một cải tiến gì đáng kể.
Còn có nhiều phép biến đổi số liệu khác ( xem Cochran (1970) [10], Fuk (1970) [18], Nagy (1968) [25] ), người ta thường áp dụng phép biến đổi cực đại hóa khoảng cách trung bình giữa các phần tử của các mẫu khác
nhau và giữ không đổi tổng các khoảng cách trung bình trong mẫu và giữa các mẫu. Mục đích của phép biến đổi các dấu hiệu trước khi phân tích, là lấy ra những dấu hiệu có thể hiện khác nhau từ lớp này sang lớp khác. Các dấu hiệu đó không nhất thiết trùng với các dấu hiệu quan trọng nhất đối với việc biểu diễn các lớp. Đặc biệt các dấu hiệu chính của hai lớp có thể trùng hẳn với nhau.
Trong thực hành khí tượng người ta thường dùng phương pháp khai triển vectơ dấu hiệu xuất phát thành các thành phần chính ( các thành phần tự nhiên ). Các thành phần chính có tính chất quan trọng là độc lập ngẫu nhiên điều này đơn giản nhiều sơ đồ tính toán.
Tuy nhiên phương pháp này có nhược điểm lớn trong bài toán phân biệt, vì bằng phương pháp đó người ta không nhất thiết chọn ra được những dấu hiệu quan trọng nhất cho việc phân biệt các lớp, mà chỉ chọn được những dấu hiệu quan trọng cho việc biểu diễn các lớp đó. Khi hai lớp chứa những dấu hiệu quan trọng như nhau, thì các giá trị tương ứng sẽ lớn và chiếm ưu thế. Nhưng các vectơ riêng đó không bổ ích cho việc phân biệt các lớp. Vì lý do đó, biện pháp nén thông tin thông thường, theo biện pháp này người ta giữ lại những thành phần chính đầu tiên ( các thành phần tự nhiên đầu tiên ) tương ứng với các giá trị riêng lớn, và bỏ đi các thành phần còn lại, có thể làm mất thông tin một cách đáng kể.