Tổng quan về phân tích tương quan chính tắc (Canonical Correlation Analysis)

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp dự đoán lỗi phần mềm liên dự án (Trang 31 - 40)

Analysis)

Phân tích tương quan chính tắc là một phương pháp để khám phá mối quan hệ giữa hai bộ đa biến của các biến (vector).

Hãy xem xét một ví dụ biến liên quan đến thể dục và sức khỏe. Một mặt bạn có các biến liên quan tới thể dục, các quan sát như tỷ lệ leo lên một bước cầu thang, bạn có thể chạy nhanh như thế nào, bạn có thể nâng được bao nhiêu kg khi thực hiện bench press, số lượng push-up mỗi phút, vv... Tuy nhiên, bạn cũng có có thể có các biến sức khỏe như huyết áp, nồng độ cholesterol, lượng đường, chỉ số khối cơ, vv... vì vậy, hai loại biến được đo lường và các mối quan hệ giữa các biến thể dục và các biến sức khỏe cần được xem xét.

Như một ví dụ thứ hai xem xét các biến đo về sức khỏe môi trường và độc tố môi trường. Một số biến môi trường sức khỏe chẳng hạn như tần số của các loài nhạy cảm, đa dạng loài, sinh khối, năng suất của môi trường, vv... có thể được đo trên một mặt; mặt khác một bộ thứ hai các biến khác như độc tố môi trường mà có thể bao gồm nồng độ của kim loại nặng, thuốc trừ sâu, dioxin, vv... được đo.

Đối với một ví dụ thứ ba xem xét một nhóm các đại diện bán hàng, khám phá các mối quan hệ giữa các biến hoạt động bán hàng và các biến liên quan đến năng lực.

Một cách tiếp cận để nghiên cứu mối quan hệ giữa hai bộ biến là sử dụng phân tích tương quan chính tắc trong đó mô tả mối quan hệ giữa tập đầu tiên của các biến và tập thứ hai của các biến.

Có thể tạo ra các dạng biểu đồ cặp với các biến trong tập đầu tiên (ví dụ, các biến thể dục), và các biến trong tập thứ hai (ví dụ, các biến sức khỏe). Nhưng nếu kích thước của tập đầu tiên là p và của tập thứ hai là q, sẽ có pq điểm phân tán như vậy, sẽ rất khó khăn, hoặc gần như là không thể để xem xét tất cả các đồ thị với nhau và có thể giải thích các kết quả.

Tương tự như vậy, có thể tính toán tất cả các mối tương quan giữa các biến từ tập đầu tiên (ví dụ, các biến thể dục), và sau đó tính toán tất cả các mối tương quan giữa các biến trong tập thứ hai (ví dụ, các biến sức khỏe). Nhưng với pq một số lượng lớn, sẽ rất khó để giải thích các kết quả.

Phân tích tương quan chính tắc cho phép chúng ta tổng hợp các mối quan hệ vào số ít số liệu thống kê trong khi bảo toàn các khía cạnh chính của các mối quan hệ. Đây là một kỹ thuật giảm kích thước.

Bắt đầu với 2 tập biến X và Y. Giả sử có p biến trong X và q biến trong Y. X = '(')....

'+ Y = ,(,)....

,- (2.1)

Để thuận tiện cho việc tính toán, chọn X và Y dựa trên số lượng các biến tồn tại trong mỗi bộ để p ≤ q.

Cũng như thực hiện trong phân tích thành phần chủ yếu chúng ta nhìn vào sự kết hợp tuyến tính của dữ liệu. Chúng ta định nghĩa một tập hợp các tổ hợp tuyến tính tên là U và V. U sẽ tương ứng với các tổ hợp tuyến tính từ tập các biến đầu tiên, X, V

sẽ tương ứng với tập các biến thứ hai, Y. Mỗi thành viên của U sẽ được ghép nối với một thành viên của V. Ví dụ, ./ dưới đây là một sự kết hợp tuyến tính của p các biến X và 0/ là sự kết hợp tuyến tính tương ứng của q các biến Y.

Tương tự như vậy, U2 là một sự kết hợp tuyến tính của p các biến X, và V2 là sự kết hợp tuyến tính tương ứng của q các biến Y vv...

./ = 1//2/ +1/424 + 1/52/+ . . . + 1/626 .4 = 14/2/ +14424 + 1452/+ . . . + 14626 ... .6 = 16/2/ +16424 + 1652/+ . . . + 16626 0/ = 7//8/ +7/484 + 7/58/+ . . . + 7/989 04 = 74/8/ +74484 + 7458/+ . . . + 74989 ... 09 = 79/8/ +79484 + 7958/+ . . . + 79989 (2.2)

Và định nghĩa (.: , 0:) là cặp biến chính tắc, với p <= q thì sẽ có p cặp như thế. Chúng ta sẽ đi tìm tổ hợp tuyến tính tối đa hóa các mối tương quan giữa các thành viên của mỗi cặp biến chính tắc. Phương sai của biến .: được tính theo công thức sau:

var (.:) = < C /6 6= C /1:<1:=>?@(2<, 2=) (2.3)

trong định nghĩa của .:. Các hiệp phương sai giữa các biến thứ k và l của được nhân với hệ số tương ứng để tạo nên các biến trong .:.

Tương tự ta tính được các phương sai của 0Dbằng công thức sau:

var (0D) = < C /9 9= C /7D<7D=>?@(8<, 8=) (2.4) Sau đó tính toán phương sai giữa .: và 0D như sau:

cov (.:, 0D) = < C /6 9= C /1:<7D=>?@(2<, 8=) (2.5) Mối tương quan giữa .: và 0D được tính bằng công thức bên dưới:

EFG(HI,JK)

GLM(HI) GLM(JK) (2.6)

Mối tương quan chính tắc là một hình thức cụ thể của sự tương quan. Các tương quan chuẩn cho cặp biến thứ i chỉ đơn giản chính là sự tương quan giữa .: và 0D:

N:∗ = EFG(HI,JK)

GLM(HI) GLM(JK) (2.7)

Điều cần tìm ở đây chính là các tổ hợp tuyến tính của X và các tổ hợp tuyến tính của Y sao cho sự tương quan trên là lớn nhất.

Xét từng cặp biến chính tắc trong p cặp. Đầu tiên cặp biến: (./, 0/):

Các hệ số 1//, 1/4, ..., 1/6 và 7//, 7/4, ..., 7/9 được lựa chọn để tối đa hóa tương quan chính tắc N/∗ của cặp biến chính tắc đầu tiên . Điều này phụ thuộc vào ràng

buộc: phương sai của hai biến chính tắc trong cặp phải bằng một. var (./) = var (0/) = 1 (2.8)

Điều này cần thiết để thu được các giá trị duy nhất cho các hệ số.

Cặp biến chính tắc thứ hai: (.4, 04). Tương tự như vậy, chúng ta sẽ đi tìm các hệ số 1//, 1/4, ..., 1/6 và 7//, 7/4, ..., 7/9 để tối đa hóa tương quan chính tắc N4∗ của cặp biến chính tắc thứ hai, (.4, 04). Một lần nữa, chúng ta sẽ tối đa hóa tương quan chính tắc để các phương sai của các biến chính tắc độc lập đều bằng một. Ngoài ra, một yêu cầu nữa cũng cần được thỏa mãn là (./, .4) và (0/, 04) phải là không tương quan. Ngoài ra, sự kết hợp (./, 04) và (.4, 0/) cũng phải không tương quan. Tóm lại ta có các ràng buộc sau:

var (.4) = var (04) = 1,

cov (./, .4) = cov (0/, 04) = 0,

cov (./, 04) = cov (.4, 0/) = 0. (2.9)

và tương tự với cặp biến chính tắc thứ i: (.:, 0:), tìm các hệ số 1/4, ..., 1/6 và

7//, 7/4, ..., 7/9 nhằm tối đa hóa sự tương quan chuẩn N:∗ với các ràng buộc tương tự var (.:) = var (0:) = 1,

cov (./, .:) = cov (0/, 0:) = 0, cov (.4, 0:) = cov (.4, 0:) = 0. ...

cov (./, .:) = cov (0/, 0:) = 0,

cov (.4, 0:) = cov (.4, 0:) = 0. (2.10)

Cụ thể hơn phân tích tương quan chính tắc phụ thuộc vào sự phối hợp hệ thống mà các biến được mô tả trong đó, vì thậm chí nếu có một quan hệ tuyến tính giữa hai bộ biến đa chiều, tùy thuộc trên hệ thống phối hợp sử dụng, mối quan hệ này có thể không được coi như là một sự tương quan. Phân tích tương quan chính tắc tìm kiếm một cặp biến đổi tuyến tính một cho mỗi tập của các biến như vậy mà khi tập hợp các biến được chuyển đổi sang các tọa độ tương ứng là tương quan tối đa.

Xem xét một vector đa biến ngẫu nhiên có dạng (x, y). Giả sử có một mẫu S = ((Q/, R/),..., (QS, RS)) của (x, y), và sử dụng để TU biểu thị (Q/,..., QS) và tương tự TV để biểu thị (R/,..., RS). Chúng ta có thể xem xét xác định một kết hợp mới cho x bằng cách chọn một WU hướng và chiếu x vào hướng đó.

x < WU, x >

làm tương tự đối với y bằng cách lựa chọn một hướng WV chúng ta có được một mẫu của các phối hợp mới của x như

TU,XY = ( <WU, Q/>, . . . , <WU, QS>)

với các giá trị phối hợp tương ứng của y là

TV,XZ = ( <WV, R/>, . . . , <WV, RS>)

Giai đoạn đầu của tương quan chính tắc là chọn WUvà WV để tối đa hóa mối tương quan giữa hai vectơ. Nói cách khác, chức năng được tối đa hóa là

p = [1QXY,XZ>?\\(TUWU, TVWV) (2.11) = [1QXY,XZ ("YXY,"ZXZ)

||"YXY|| ||"ZXZ||

Nếu chúng ta sử dụng E [f (x, y)] để biểu thị kỳ vọng của hàm f (x, y) E [f (x, y)] = ^/ ^ _(Q:, R:)

: C / (2.12)

chúng ta có thể viết lại biểu thức tương quan phía trên như sau: p = [1QXY,XZ `[bXY,UcbXZ,Vc] `[bXY,Uc)]`[bXZ,Vc)] (2.13) = [1QXY,XZ `[XYeUVeXZc] `[XYeUUeXY]`[XZeVVeXZ] sau đó p = [1QXY,XZ XYe`[UVe]XZ XYe`[UUe]XYXZe`[VVe]XZ (2.14)

trong đó fg được sử dụng để biểu thị sự chuyển vị của một vector hoặc ma trận A.

Bây giờ chúng ta sẽ được ma trận hiệp phương sai của (x, y) là C(x, y) = E UV UV g = hUU hUV

Tổng ma trận hiệp phương sai C là ma trận chứa các ma trận hiệp phương sai con là hUU, hVV, hUV, hVU và hUV = hVUg

Do đó, chúng ta có thể viết lại hàm ρ như sau:

p = [1QXY,XZ XYeiYZXZ

XYeiYYXYXZeiZZXZ (2.16)

mối tương quan chính tắc tối đa là max của ρ với WUvà WV tương ứng.

Quan sát thấy phương trình trên không bị ảnh hưởng bởi tái rộng WU hay WV

cùng nhau hoặc độc lập, do đó giả sử thay thế WU bởi αWU ta được: jXYeiYZXZ

j)XYeiYYXYXZeiZZXZ

= XYeiYZXZ

XYeiYYXYXZeiZZXZ (2.17)

Do lựa chọn k tùy ý, vấn đề tối ưu hóa CCA xây dựng trong phương trình (2.2) là tương đương với việc tối đa hóa các đối tượng tử số:

WUghUUWU = 1

WVghVVWV = 1 (2.18) Biểu thức Lagrangian tương ứng:

L (m, WU, WV) = WUghUVWV − oY

4 (WUghUUWU − 1) − oZ

4 (WVghVVWV − 1) (2.19)

p _

pWU = hUVWV − mUhUUWU = 0

r s

rXZ = hVUWU − mVhVVWV = 0 (2.20)

Trừ WV lần phương trình thứ hai từ WU lần phương trình đầu tiên ta được: 0 = WUghUVWV − WUgmUhUUWU − WVghVUWU + WVgmVhVVWV

= mVWVghVVWV − mUWUghUUWU (2.21)

phương trình trên đi kèm với những ràng buộc hàm ý rằng mV - mU = 0, đặt λ =

mU = mV.

Giả sử hVV là khả nghịch ta được:

WV = iZZt(iZYXY

o (2.22) và vì vậy thay vào phương trình (3.1) ta được:

iYZiZZt(iZYXY

o − mhUUWU = 0 (2.23) hoặc:

hUVhVVu/hVUWU = m4hUUWU (2.24)

Đây chính là vấn đề giá trị riêng tổng quát có dạng Ax = λBx. Ta có thể do đó tìm thấy hệ thống phối hợp tối ưu hóa sự tương quan giữa phối hợp tương ứng bằng cách giải quyết đầu tiên cho các vector riêng tổng quát của phương trình (3.4) để có được trình tự của WU và sau đó sử dụng phương trình (3.3) để tìm WV tương ứng.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp dự đoán lỗi phần mềm liên dự án (Trang 31 - 40)