Thành phần chính

Một phần của tài liệu Phát hiện lỗi màu trên gạch men (Trang 31 - 36)

Xem vector dữ liệu x được biểu diễn ngẫu nhiên có n phần tử

rời rạc. Những phần tử đại diện của x là các giá trị được lấy từ

các giá trị của tín hiệu hay các giá trị mức xám của ảnh tại những thời điểm khác nhau. Điều này cũng rất cần thiết vì phép biến đổi PCA cần mối tương quan giữa các đại diện với nhau, nếu các phần tử là độc lập thì quá trình PCA không còn hiệu quả nữa. Các mẫu dữ liệu được biểu diễn như công thức 2.9 ( )T n x ,..., x , x x= 1 2 (2.9)

với trị trung bình của vector x được định nghĩa là { }x

E

x =

μ (2.10)

ma trận hiệp phương sai của tập dữ liệu tương tự là

( )( ) { T} x x x E x x C = −μ −μ (2.11) Các thành phần của Cx được định nghĩa bằng thừa số cij, mô tả các hiệp phương sai giữa các thành phần biến đổi ngẫu nhiên của xixj.

Thành phần cii là biến đổi của thành phần xi. Khi biến đổi một thành phần nào đó sẽ quyết định sự xuất hiện giá trị của thành

phần đó xung quanh giá trị trung bình của nó. Nếu hai thành phần xi và xj của dữ liệu không tương quan nhau, khi đó phương sai của nó sẽ bằng không (cij =cji =0). Lúc này ma trận hiệp phương sai luôn đối xứng.

• Từ tập dữ liệu của vector x1,x2,...,xM, chúng ta có thể tính trung bình và ma trận hiệp phương sai của tập dữ liệu này,

đó cũng chính là phép ước lượng theo trị trung bình và ma trận hiệp phương sai của tập dữ liệu đó.

• Từ ma trận đối xứng của ma trận hiệp phương sai, chúng ta có thể tính cơ sở trực giao bằng cách tìm giá trị riêng và vector riêng của nó. Vector riêng là ei và giá trị riêng tương

ứng là λi được tính theo biểu thức (2.12) n ,..., , i, e e Cx i =λi i =12 (2.12)

Để đơn giản chúng ta giả sử λi là độc lập, giá trị này có thể được tìm bằng cách giải phương trình theo công thức tính đặc trưng (2.13) 0 = − I Cx λ (2.13) ởđây I là ma trận đơn vị có cùng bậc với Cx, chú ý . là định thức của ma trận. Nếu vector dữ liệu có n phần tử thì công thức tính đặc trưng có bậc là n, điều này sẽ dễ dàng thực hiện nếu n nhỏ. Việc giải để tìm giá trị riêng tương ứng với vector riêng là một công việc rất phức tạp. Thường cách để tìm giá trị riêng được giải bằng cách sử dụng mạng neural, dữ liệu được đưa vào ngõ vào của mạng neural và giá trị hội tụ chính là giá trị ta muốn tìm.

• Sự sắp xếp các vector riêng theo giá trị riêng giảm dần, sẽ tạo ra một cơ sở trực giao với vector riêng đầu tiên cho ta khác biệt lớn

nhất theo chiều của tập dữ liệu đó. Trong trường hợp này chúng ta có thể tìm số chiều mà tập dữ liệu có thể chứa các thành phần năng lượng quan trọng đại diện được cho tập dữ liệu đó

Giả sử rằng một tập dữ liệu có trị trung bình và ma trận hiệp phương sai của các mẫu đã được tính toán. Với A là một ma trận bao gồm các vector riêng của ma trận hiệp phương sai theo các vector hàng. Bằng phép biến đổi cho vector dữ liệu x

(x x)

A

y = −μ (2.14)

đó chính là một điểm được xác định bởi các vector riêng trong hệ

trục tọa độ trực giao. Các thành phần của y có thể được xem như

là các trục tọa độ trong cơ sở trực giao. Chúng ta có thể xây dựng vector dữ liệu nguyên thuỷ x từ vector y như sau

x Ty A

x = +μ (2.15)

sử dụng tính chất của ma trận trực giao A−1 =AT, với AT là ma trận chuyển của A. Vector nguyên thuỷ x được xác định bằng cách chiếu trên các trục tọa độ của cơ sở trực giao, vector nguyên thủy được xây dựng dựa vào cách kết hợp tuyến tính của các vector trong cơ sở trực giao.

Vì thế nếu sử dụng tất cả các vector riêng của ma trận hiệp phương sai. Chúng ta có thể mô tả một tập dữ liệu bằng các thừa số của một vector cơ sở theo cở sở trực giao. Nếu chúng ta định nghĩa ma trận có K vector riêng đầu tiên của các hàng là AK

chúng ta có thể tạo ra một phép biến đổi như trên ( x) K x A y= −μ và T x Ky A x= +μ (2.16)

Điều này chính là chúng ta đã tạo ra một vector trực giao nguyên thủy từ các hệ trục tọa độ có K chiều và biến đổi lại vector

bằng phép biến đổi kết hợp tuyến tính của các vector cơ sở. Điều này được tối thiểu hoá bằng trung bình bình phương sai số giữa dữ liệu và các thành phần của vector riêng.

• Nếu dữ liệu được quan tâm trong không gian con là tuyến tính, phép biến đổi PCA cho dữ liệu này chính là cách để nén dữ liệu mà thông tin không mất và mô tả đơn giản hơn. Bằng cách chọn các vector riêng theo giá trị riêng lớn nhất chúng ta sẽ mất ít thông tin dương theo đặc tính về bình phương trung bình. Một cách có thể chọn cố định thành phần của các vector riêng và các giá trị riêng tương ứng để phù hợp cách thể hiện hay rút trích dữ

liệu. Với ràng buộc này sẽ làm thay đổi giá trị các mức năng lượng của dữ liệu gốc. Vì thế chúng ta chỉ có thể chọn xấp xỉ với giá trị của mức năng lượng, và thay đổi một giá trị của vector riêng tương ứng với giá trị riêng đó. Khi đó sẽ trả về một giá trị

xấp xỉ với giá trị để mô tả thông tin, cách thay đổi sẽ làm giảm số

chiều của không gian con.

• Ở đây chúng ta phải đối mặt với các mục đích trái ngược nhau. Thứ nhất là chúng ta cần giảm bớt dữ liệu bằng cách giảm số

chiều. Nhưng khi đó chúng ta muốn đảm bảo đầy đủ nội dung của thông tin gốc. Theo đề nghị của PCA để thuận lợi trong khi điều khiển cân bằng giữa các yếu tố, giảm lượng thông tin và đơn giản cho công việc làm bằng tay, vì thế phải tạo ra các cửa sổ tuyến tính, sau đó chia dữ liệu đầu vào thành các vùng nhỏ và điều chỉnh các chếđộ phù hợp cho từng vị trí dữ liệu cục bộ.

• Bây giờ ta xét một ví dụ để chỉ các đặc tính của vector riêng . Dữ

liệu được tạo ra theo cách nhân tạo, nó được mô tả như hình vẽ

2.6 bao gồm các điểm nhạt và các điểm đậm trong một tập dữ

Hình 2.6 Tập dữ liệu mô tả vector đặc trưng [9]

Giá trị trung bình và ma trận hiệp phương sai của các dữ liệu có thể dễ dàng tính được từ dữ liệu này. Các vector riêng và giá trị riêng thì được tính từ ma trận hiệp phương sai. Chiều của các vector riêng được vẽ như trên hình 2.6 bằng hai đường. Vector riêng đầu tiên có các điểm trị riêng lớn nhất theo chiều biến đổi lớn nhất (từ bên phải và hướng lên trên). Ngay cả vector riêng thứ hai thì trực giao đến vector thứ nhất (điểm từ trái hướng lên trên). Trong ví dụ này giá trị riêng đầu tiên tương ứng tới vector riêng thứ nhất là λ1 =0.1737, trong khi đó giá trị thứ hai là

0001 . 0 2 = λ có được bằng cách so sánh trị số của từng trị riêng đến tổng tất cả của các trị riêng. Chúng ta có nhiều cách để có thể tính đến năng lượng theo từng vector riêng khác nhau. Trong trường hợp vector riêng đầu tiên chứa hầu hết tất cả các mức năng lượng. thì dữ liệu có thể xấp xỉ tốt để mô tả trong không gian một chiều.

Một phần của tài liệu Phát hiện lỗi màu trên gạch men (Trang 31 - 36)

Tải bản đầy đủ (PDF)

(130 trang)