PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH I. Giới thiệu phương pháp PCA Phân tích thành phần chính là một kỹ thuật phân tích biến đổi được nghiên cứu rộng rãi và biết đến nhiều. Thuật toán này lần đầu tiên được giới thiệu bởi Pearson (1901), và được phát triển một cách độc lập bởi Hotelling (1933). Giống như các phương pháp phân tích biến đổi, thuật toán này không được sử dụng rộng rãi cho tới khi kỹ thuật máy tính ra đời. Ý tưởng chính của thuật toán phân tích thành phần chính là giảm chiều của tập dữ liệu có sự tương quan lớn giữa các biến. Ảnh vệ tinh là tập dữ liệu đa kênh phổ điển hình có độ tương quan lớn (tương quan giữa hai kênh ảnh thể hiện mức độ chứa thông tin giống nhau cho bởi 2 kênh này). Những kênh có độ tương quan cao thường không được sử dụng đồng thời để hiển thị màu hoặc chiết tách các đối tượng tương đồng về phản xạ phổ. Kết quả phân tích tương quan giữa 7 kênh phổ của ảnh Landsat được thể hiện ở ma trận tương quan (thể hiện trong bảng 3.1) cho thấy: Kênh 1, 2 và 3 có sự tương quan rất cao (>95%) nên có sự dư thừa khi sử dụng đồng thời ba kênh này để hiển thị hoặc tổ hợp màu. Ở mức thấp hơn có sự tương quan giữa các kênh 4, 5, 6 từ 76% đến 95%. Tương quan thấp 39% giữa kênh 1 và kênh 4 cũng như 44% giữa kênh 2 và kênh 4. Thực tế cho thấy kênh 4 ít tương quan với các kênh 1, 2, 3 và kênh 7 thường không có sự tương quan lớn với bất kỳ kênh còn lại. Tóm lại, các kênh phổ khác nhau của ảnh vệ tinh đa phổ được gọi là tương quan thấp nến các phần tử ngoài đường chéo gần bằng 0, điều này có nghĩa là nếu ma trận hiệp phương sai là ma trận chéo thì các kênh ảnh vệ tinh không tương quan hay ít dư thừa thông tin. Phân tích thành phần chính (PCA) là kỹ thuật chuyển đổi các giá trị độ xám của pixel và sự chuyển đổi này sẽ nén dữ liệu ảnh bằng cách giữ tối đa lượng thông tin hữu ích và loại bỏ các thông tin trùng lặp (các yếu tố tương quan). Kết quả là dữ liệu ảnh thu được (gọi là ảnh thành phần chính) chỉ chứa các kênh ảnh ít tương quan (độc lập tuyến tính) thường được sử dụng rất hiệu quả trong tổ hợp màu và phân loại ảnh. Phân tích thành phần chính được sử dụng để giảm số lượng các kênh phổ mà vẫn giữa được thông tin không bị thay đổi đáng kể. Thực chất là thuật toán tạo ảnh chứa thông tin chủ yếu dễ nhận biết hơn so với ảnh gốc. Phương pháp này được áp dụng trong viễn thám trên cơ sở thực tế là ảnh chụp ở các kênh phổ gần nhau có độ tương quan rất cao, vì vậy các thông tin của chúng có sự trùng lặp rất lớn, hay nói cách khác là ảnh đa phổ chứa nhiễu cũng như sự dư thừa thông tin. 1 Bảng 3.1. Ma trận tương quan của ảnh Landsat K ênh µ m 1 2 3 4 5 6 7 0. 45-0.52 0. 52-0.6 0.6 3-0.69 0. 76-0.9 1. 55-1.75 10 .4-12.5 2.08 -2.35 1 1. 00 2 0. 96 1. 00 3 0. 95 0. 96 1.0 0 4 0. 39 0. 44 0.5 3 1. 00 5 0. 56 0. 61 0.7 1 0. 88 1. 00 6 0. 72 0. 76 0.8 4 0. 76 0. 95 1. 00 7 0. 56 0. 58 0.6 6 0. 66 0. 78 0. 81 1.00 Phương pháp phân tích thành phần chính là chiết tách một lượng nhỏ phương sai tồn tại giữa hai kênh ảnh có sự tương quan cao và loại bỏ hiệu quả những thông tin trùng lặp trong dữ liệu ảnh. Để thấy rõ các biến đổi trong phân tích thành phần chính, ta giả sử rằng ảnh chụp trên hai kênh phổ có giá trị độ sáng của pixel thể hiện bởi trục tọa độ X 1 và X 2 . Sự phân tán các giá trị độ sáng tương ứng từng pixel ở mỗi kênh được thể hiện trên hình 3.1a cùng với vị trí trung bình giá trị độ sáng là µ 1 và µ 2 tương ứng trên hai kênh phổ. Sự phân tán xung quanh giá trị trung bình (phương sai) mô tả mối tương quan cũng như lượng thông tin trùng lặp cho bởi ảnh chụp trên hai kênh phổ. Mục tiêu của phân tích thành phần chính là loại bỏ thông tin thừa (tạo ảnh chứa thông tin không tương quan). Do đó, nếu tịnh tiến trục tọa độ gốc để cho các giá trị độ sáng của pixel thể hiện bởi X 1 và X 2 phân bố lại theo hệ tọa độ mới thể hiện ở và với = x 1 - µ 1 ; = x 2 - µ 2 . Từ đó, gốc hệ tọa độ mới chính là vị trí của trung bình µ 1 và µ 2 tương ứng trên hai kênh phổ thể hiện bởi hình 3.1b. 2 Hình 3.1. Phép biến đổi phân tích thành phần chính giữa hai kênh ảnh 1 và 2 Nếu xoay trục ngang sao cho nó song song với đường hồi quy số bình phương nhỏ nhất dùng để ước tính dữ liệu thì trục được biến đổi được gọi là thành phần chính thứ nhất (PC 1 ) và trục đứng cũng được xoay để trở thành thành phần chính thứ hai (PC 2 ) như được thể hiện trong hình 3.1c. Giá trị độ sáng của pixel thể hiện bởi x 1 và x 2 của dữ liệu ảnh gốc sẽ được phân bố lại theo hệ tọa độ mới đã được biến đổi. Kết quả phép biến đổi là nhận được hệ trục tọa độ mới gọi là thành phần chính PC (Principal Component) và ảnh mới (ảnh thành phần chính) có thể lưu lại theo từng file riêng biệt ứng với thành phần chính thứ nhất và thành phần chính thứ hai. Thực tế, ảnh viễn thám là tập dữ liệu đa phổ nhiều kênh. Giả sử ảnh viễn thám có k kênh, phân tích thành phần chính được sử dụng dể tìm vector không gian p chiều thể hiện bởi vector Z (giá trị độ sáng mới tương ứng từng pixel trên ảnh thành phần chính). Giả sử ảnh gốc viễn thám có mỗi pixel mang giá trị độ sáng được thể hiện bởi vector tương ứng x i (i = 1, 2, …, k), các pixel tương ứng trênh ảnh thành phần chính thể hiện bởi vector Z i (i = 1, 2, …, k). Quan hệ có thể được mô tả theo tổ hợp tuyến tính: Z i = a i1 x 1 + a i2 x 2 + … + a ik x k Hay: = (3.1) Viết lại dưới dạng ma trận như sau: Z = A.X Để nhận được các thành phần chính, cần phải giải hệ phương trình trên để tìm các hệ số a ik theo những điều kiện sau: ik 2 = 1 (3.2) Giá trị phương sai của Z i phải cực đại Các đại lượng Z i và Z i+1 phải độc lập tuyến tính với nhau. Đặc điểm của thành phần chính: 3 - Lượng thông tin trên các thành phần chính (PC) giảm dần từ PC1, PC2,… PC3 chỉ chữa 3% lượng thông tin trên ảnh. - Lượng thông tin tập trung chủ yếu vào 3 thành phần chính đầu tiên (PC1, PC2, PC3). Có khoảng trên 90% lượng thông tin trên ảnh nằm trong các thành phần chính này. - Có thể kết hợp các thành phần chính để tạo ảnh màu sử dụng trong các bài toán cụ thể. Tạo ảnh thành phần chính là kỹ thuật quan trọng nhằm sử dụng vào các mục đích sau đây: - Nén nội dung thông tin của dữ liệu ảnh có nhiều kênh phổ sang ảnh chỉ số có ba kênh phổ tạo thuận lợi cho việc lưu trữ và giải đoán ảnh (hiện ảnh tổ hợp màu ba kênh phổ ứng với ba màu cơ bản). - Phân loại hiện trạng sử dụng đất trên cơ sở ảnh đa phổ (không có nhiễu và tương quan giữa các biến). - Phát hiện biến động trên cơ sở dữ liệu đa thời gian (so sánh ảnh thành phần chính trên cùng khu vực tại các thời điểm khác nhau). - Nghiên cứu, phát hiện một số loại khoáng sản lộ thiên như khoáng sản oxit sắt, khoáng sản sét. II. Các bước tính thành phần chính Để nhận bộ dữ liệu ảnh mới không tương quan (ảnh thành phần chính) Z=A.X, ta có thể áp dụng phép biến đổi thành phần chính với số kênh bất kỳ theo các bước tính toán sau: - Bước 1: Tính giá trị trung bình của mỗi kênh ảnh (µ k ): µ k = (3.3) - Bước 2: Tính hiệp phương sai giữa các giá trị của pixel ở kênh k và kênh l: = E (3.4) C kl = (3.5) Trong đó: E là một kỳ vọng toán học C kl : là hiệp phương sai giữa hai kênh ảnh k và l Khi đó, ta được ma trận hiệp phương sai C: 4 C= - Bước 3: Lập ma trận hiệp phương sai giữa các giá trị pixel ở dữ liệu ảnh mới: = E (3.6) Trong đó: • µ z = Eµ x là vector giá trị trung bình của các kênh ảnh ở thành phần chính (ảnh mới); • µ x là vector giá trị trung bình của các kênh ảnh gốc. Do đó: = = Hay: = (3.7) Để ảnh thành phần chính không tương quan thì phải là ma trận đường chéo. - Bước 4: Tìm ma trận A trong phương trình Z= A.X, cần phải xác định vector và các giá trị riêng của . Những giá trị riêng nhận được thông qua giải phương trình: = 0 (3.8) Với I là ma trận đơn vị. - Bước 5: Tính các vector riêng b i : b i = 0 (3.9) Kết quả tạo ra ảnh thành phần chính không tương quan có là ma trận đường chéo của các giá trị riêng của . Trong trường hợp tổng quát, ảnh gốc có k kênh, ma trận hiệp phương sai được tính như sau: = (3.10) Các giá trị , , …, có ý nghĩa rất quan trọng trong việc xác định thông tin chứa trong từng thành phần. Tổng các giá trị (trong đó là giá trị riêng ứng với thành phần chính thứ p) cho ta tổng phương sai thể hiện trong toàn bộ thành phần chính. Phần trăm thông tin chứa trong từng thành phần chính được xác định bởi tỷ lệ phần trăm của tổng phương sai và được thể hiện bởi công thức tính như sau: = (3.11) Giá trị mới của pixel trong từng thành phần chính được xác định bởi: = (3.12) 5 6 . PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH I. Giới thiệu phương pháp PCA Phân tích thành phần chính là một kỹ thuật phân tích biến đổi được nghiên cứu rộng rãi. biệt ứng với thành phần chính thứ nhất và thành phần chính thứ hai. Thực tế, ảnh viễn thám là tập dữ liệu đa phổ nhiều kênh. Giả sử ảnh viễn thám có k kênh, phân tích thành phần chính được sử. thành phần. Tổng các giá trị (trong đó là giá trị riêng ứng với thành phần chính thứ p) cho ta tổng phương sai thể hiện trong toàn bộ thành phần chính. Phần trăm thông tin chứa trong từng thành