Phương pháp phân tích thành phần chính trong xử lý dữ liệu nhiều chiều Phương pháp phân tích thành phần chính trong xử lý dữ liệu nhiều chiều
Kiến thức liên quan đến đại số
Tích trong
Tích trong của hai véc tơ cột x , y ∈ C m là tích của liên hợp của x và y: x ′ y=
Tích trong là một dạng song tuyến tính, tức:
Chuẩn
Các khái niệm cơ bản về kích thước và khoảng cách trong một không gian véc tơ được thể hiện qua chuẩn.
Chuẩn là một ánh xạ: ∥ ∥ :C m → R Với mọi véc tơ x , y ∈ C m và đại lượng vô hướng α ∈ C, chuẩn phải thỏa mãn ba điều kiện sau:
Lớp chuẩn quan trọng nhất trong chuẩn véc tơ - chuẩn ∥ ∥ p được định nghĩa như sau:
Các chuẩn thường gặp nhất là chuẩn ∥ ∥ 1 , ∥ ∥ 2và ∥ ∥ ∞ :
′ Khoảng cách giữa hai véc tơ tính theo chuẩn ∥ ∥ 1được gọi là khoảng cách Manhattan, tính theo chuẩn ∥ ∥ 2được gọi là khoảng cách Euclide. d(a , b) =
Chuẩn ma trận tương thích với chuẩn véc tơ
Một ma trận cỡ (m × n) có thể được xem xét như một véc tơ trong không gian mn chiều.
Xét các chuẩn véc tơ ∥ ∥ (n) , ∥ ∥ (m) lần lượt trong tập xác định và miền giá trị của
A ∈ C m×n , chuẩn cảm sinh của ma trận ∥ A ∥ (m,n) là số C nhỏ nhất để bất đẳng thức sau đúng với mọi x ∈ C n :
Nói cách khác, ∥ A ∥ (m,n) là cận trên đúng của tỉ số ∥ Ax ∥ (m)
∥ x ∥ (n) với mọi véc tơ x ∈ C n Khi đó ∥ ∥ (m,n) là chuẩn ma trận cảm sinh bởi ∥ ∥ (m) và ∥ ∥ (n):
Chuẩn ma trận tổng quát
Chuẩn ma trận là khái niệm mở rộng từ chuẩn vectơ trong không gian vectơ mn chiều Trong khi chuẩn vectơ chỉ áp dụng cho vectơ, chuẩn ma trận được áp dụng cho ma trận Giống như chuẩn vectơ, chuẩn ma trận cũng phải thỏa mãn ba điều kiện cơ bản, bao gồm tính không âm, tính đồng nhất và tính bất đẳng thức tam giác.
Chuẩn ma trận quan trọng nhất mà không cảm sinh từ chuẩn véc tơ là chuẩn Frobenius, được xác định như sau:
Ta thấy nó chính là chuẩn ∥ ∥ 2khi xem ma trận như một véc tơ mn chiều Công thức cho chuẩn Frobenius có thể được viết lại dưới dạng chỉ có các hàng hoặc các cột Giả sử a j là cột thứ j của ma trận A ta có:
∥ A ∥ F =p tr(A ′ A) =p tr(AA ′ ), với tr(B) biểu thị cho vết của ma trận B, được tính bằng tổng của các phần tử trên đường chéo.
Một số ma trận đặc biệt
Ma trận Unita (Ma trận trực giao)
Hai véc tơ x và y được gọi là trực giao nếu x ′ y= 0 Một hệ S các véc tơ khác0là trực giao nếu mọi phần tử của nó là đôi một trực giao, tức nếu x , y ∈ S , x ̸ =y ⇒ x ′ y= 0.
Hệ các véc tơ được gọi là trực chuẩn nếu nó là trực giao và với mọi x ∈ S , ∥ x ∥ = 1. Nếu hệ các véc tơ trực giao S ⊆ C m chứa m véc tơ thì S là một cơ sở choC m
Một ma trận vuông U ∈ C m × m được gọi là ma trận Unita (trong trường hợp ma trận thực ta gọi là ma trận trực giao) nếu U ′ =U − 1 , tức U ′ U=I, hay các cột của ma trận Unita U tạo thành một cơ sở trực chuẩn củaC m
Ma trận Hermit (Ma trận đối xứng)
Ma trận vuông A có A=A ′ được gọi là ma trận Hermit (trong trường hợp ma trận thực ta gọi là ma trận đối xứng).
Ma trận chéo là một ma trận có các phần tử nằm ngoài đường chéo chính bằng0 Các phần tử nằm trên đường chéo chính có thể bằng0hoặc khác0.
Ma trận chéo hóa được
Ma trận A được gọi là chéo hóa được nếu tồn tại một ma trận khả nghịch P sao cho
P −1 AP là ma trận chéo.
Ma trận trực giao chéo hóa được
Ma trận vuông A được gọi là ma trận trực giao chéo hóa được nếu tồn tại một ma trận trực giao P (với P −1 =P ′ và P có các cột trực chuẩn) và ma trận chéo D sao cho
Các vấn đề về giá trị riêng
Giá trị riêng và véc tơ riêng
Cho ma trận vuông A ∈ C m × m Một véc tơ u khác0thuộcC m là một véc tơ riêng của
A, và λ ∈ Clà giá trị riêng tương ứng, nếu:
Không gian con S của C^m chứa các véc tơ riêng được gọi là không gian riêng, mọi véc tơ u thuộc S đều là véc tơ riêng Tập hợp các giá trị riêng của A được gọi là phổ của A, ký hiệu là Λ(A) Đa thức đặc trưng của A ∈ C^m×m được ký hiệu là pA là đa thức bậc m được xác định như sau: pA(z) = det(zI - A).
Chứng minh Từ định nghĩa của giá trị riêng ta được: λ là giá trị riêng ⇔ tồn tại véc tơ u khác0sao cho λ u − Au= 0
⇔ det(λ I − A) = 0 Định lý 1.1 có một hệ quả quan trọng đó là ngay cả khi một ma trận là thực thì nó vẫn có thể có giá trị riêng là phức Tức là, nếu đầu vào của bài toán tìm giá trị riêng của một ma trận đều là giá trị thực thì đầu ra (các giá trị riêng) vẫn có thể là giá trị phức.
Tập hợp các véc tơ riêng tương ứng với các giá trị riêng cùng với véc tơ 0lập thành một không gian con trongC m , gọi là không gian riêng Nếu λ là một giá trị riêng của
A, ta đặt E λ là không gian con tương ứng E λ là một không gian con bất biến của A do AE λ ⊆ E λ
Số chiều của E λ có thể được hiểu như số véc tơ độc lập tuyến tính tối đa có thể được tìm thấy với cùng giá trị riêng λ và được gọi là số bội hình học của λ
Theo định lý cơ bản của đại số, đa thức đặc trưng của ma trận A có dạng: $p_A(z) = (z - \lambda_1)(z - \lambda_2) (z - \lambda_m)$ với $\lambda_j \in \mathbb{C}, j = 1, 2, , m$ Theo định lý 1.1, mỗi $\lambda_j$ là một giá trị riêng của A và tất cả các giá trị riêng của A đều có mặt trong tập hợp $\{\lambda_1, \lambda_2, , \lambda_m\}$, có thể có các giá trị riêng xuất hiện nhiều lần.
Số bội đại số của một giá trị riêng λ của ma trận A là số bội của nghiệm đó của p A Giá trị riêng là đơn nếu số bội đại số của nó là1. Định lý 1.2 NếuXlà ma trận không suy biến thì AvàX −1 AX có cùng đa thức đặc trưng, giá trị riêng, số bội hình học và số bội đại số.
Chứng minh. p X − 1 AX (z) = det z I − X − 1 AX
Vì chúng đã có cùng đa thức đặc trưng nên sẽ có cùng giá trị riêng và số bội đại số Lại có E λ là một không gian riêng cho A nên X − 1 E λ là một không gian riêng cho X − 1 AX,tức có cùng số bội hình học.
Kiến thức liên quan đến Thống kê
Trung bình cộng
Xét ma trận X biểu diễn bộ dữ liệu của n - cá thể × p - biến:
= [x1 , x j , , x p ] , với cột j là x j = [x 1j , , x nj ] ′ đại diện cho biến thứ j
Trung bình cộng của biến j (tức cột thứ j trong ma trận X) được xác định như sau: x j = 1 n (x 1j + ã ã ã + x nj ) = 1 n
Điểm trung tâm, ma trận trung tâm
Điểm trung tâm được tính bằng điểm dữ liệu trừ đi trung bình cộng véc tơ điểm trung tâm của biến j được kí hiệu là y j = [y 1j , , y nj ] ′ y j =
I n − 1 n 1 n 1 ′ n x j =Jx j với J=I n − 1 n 1 n 1 ′ n được gọi là ma trận trung tâm với các tính chất như sau:
1 J là ma trận đối xứng.
2 J là ma trận lũy đẳng (tức J 2 =JJ=J).
Tính chất thứ2và thứ3của J dẫn đến những hệ quả quan trọng sau:
Một ma trận s JA với A là ma trận cỡ(n × p)và s là đại lượng vô hướng sẽ thỏa mãn
Khi đó ta thấy tổng và trung bình cộng của điểm trung tâm luôn bằng0:
1 ′ n y j = 1 n 1 ′ n y j = 0 Đồng thời nếu véc tơ điểm trung tâm nhân với ma trận trung tâm thì nó sẽ không đổi:
Phương sai và độ lệch chuẩn
Phương sai bằng tổng bình phương khoảng cách giữa điểm và trung bình cộng chia cho số lượng điểm: v jj = 1 n (x 1j − x j ) 2 + ã ã ã + (x nj − x j ) 2
(x ij − x j ) 2 v jj = 1 n (Jx j ) ′ Jx j = 1 n x ′ j J ′ Jx j = 1 n y ′ j y j = 1 n ∥ y j ∥ 2 Độ lệch chuẩn là căn bậc hai của phương sai, thường được dùng để xét đến độ phân tán của dữ liệu:
Điểm chuẩn, ma trận điểm chuẩn
Điểm chuẩn được tính bằng điểm trung tâm chia cho độ lệch chuẩn Giả sử véc tơ điểm chuẩn của biến j là z j = [z 1j , , z nj ] ′ , z j được biểu diễn như sau: z j =
Hai tính chất quan trọng của điểm chuẩn là:
1 Tổng và trung bình của điểm chuẩn luôn bằng0:
2 Phương sai của điểm chuẩn luôn bằng1.
1 n ∥ z j ∥ 2 = 1 nv jj ∥ y j ∥ 2 = nv jj nv jj
Xét Z= [z1 , , z p ]là ma trận cỡ(n × p)của điểm chuẩn với cột thứ j (zj )được xác định như trên Z được biểu diễn như sau:
là ma trận chéo cỡ(p × p)có các phần tử trên đường chéo là độ lệch chuẩn của p biến và các phần tử còn lại bằng0.
Hiệp phương sai, ma trận hiệp phương sai
Tương quan giữa hai biến j và k được biểu thị bởi hiệp phương sai Hiệp phương sai được định nghĩa như sau: v jk = 1 n
Hệ số hiệp phương sai v jk được tính bằng tích của hiệu giữa giá trị trung bình của biến j và k với nhau Giá trị của v jk mang giá trị dương khi biến j và k có tương quan dương, âm khi có tương quan âm và gần 0 khi không tương quan Ngoài ra, v jk có thể được biểu diễn dưới các dạng sau: 1/n (Jx j ) ′ Jx k, 1/n x ′ j J ′ Jx k, 1/n x ′ j JJx k, 1/n x ′ j Jx k hoặc 1/n y ′ j y k.
Khi đó, ma trận vuông V = (v jk ) cỡ (p × p) chứa các hiệp phương sai được gọi là ma trận hiệp phương sai Mỗi phần tử nằm trên đường chéo là hiệp phương sai của cùng biến v jj = 1 n x ′ j Jx j = 1 n y ′ j y j đồng thời chính là phương sai của biến đó Tức phương sai là một trường hợp đặc biệt của hiệp phương sai giữa hai biến.
Hệ số tương quan, ma trận tương quan
Mặc dù hiệp phương sai là một thống kê quan trọng nhưng giá trị của hiệp phương sai khó có thể cho biết mức độ mạnh yếu trong tương quan dương/âm giữa hai biến Để xem xét mức độ đó, ta cần đến hệ số tương quan.
Hệ số tương quan Pearson giữa biến j và k được xác định như sau: r jk = v jk
Rút gọn biểu thức trên ta được: r jk = x ′ j Jx k q x ′ j Jx j px ′ k Jx k
= x ′ j Jx k p(Jx j ) ′ Jx j p(Jx k ) ′ Jx k
Từ đó ta thấy hệ số tương quan được xác định bởi tích vô hướng của véc tơ điểm trung tâm y j =Jx j và y k =Jx k chia cho tích độ dài của chúng.
Hệ số tương quan r jk giữa biến j và k có các tính chất sau:
2 Nếu biến j và biến k có tương quan dương thì r jk dương.
3 Nếu biến j và biến k có tương quan âm thì r jk âm.
4 Nếu biến j và biến k không có tương quan thì r jk xấp xỉ bằng0.
Ma trận vuông R = (r jk )cỡ (p × p)chứa các hệ số tương quan được gọi là ma trận tương quan:
= 1 n Z ′ Z với Z= [z1 , , z p ]là ma trận n - cá thể × p - biến của ma trận điểm chuẩn.
Ma trận dữ liệu trung tâm
Ma trận dữ liệu X chứa các điểm trung tâm, hoặc 1 ′ n X = 0 ′ p hoặc X=JX với J =
I n − 1 n 1 n 1 ′ n là ma trận trung tâm thì X được gọi là ma trận dữ liệu trung tâm,
Nếu X là ma trận dữ liệu trung tâm thì khi đó ta có thể đơn giản hóa biểu diễn của ma trận hiệp phương sai và ma trận tương quan:
Ma trận hiệp phương sai chứa hiệp phương sai giữa các biến trong một ma trận dữ liệu X Ta xét ma trận cỡ(p × m) chứa hiệp phương sai giữa các biến trong ma trận
X(n × p) và các cột tương ứng của F(n × m) Khi đó ma trận hiệp phương sai được biểu diễn là:
Nếu cả X và F đều là ma trận dữ liệu trung tâm với X=JX và F=JF thì 1.6 được viết lại như sau:
Nếu cả X và F đều là ma trận chứa các điểm chuẩn thì 1.7 biểu diễn cho ma trận tương quan.
Các chỉ số đánh giá mô hình trong bài toán phân lớp
Hiệu năng của một mô hình thường được đánh giá dựa trên tập dữ liệu kiểm nghiệm. Giả sử đầu ra của mô hình khi đầu vào là tập kiểm nghiệm được mô tả bởi véc tơ y-pred (véc tơ dự đoán đầu ra với mỗi phần tử là lớp dược dự đoán của một điểm dữ liệu trong tập kiểm nghiệm) Ta cần so sánh giữa véc tơ dự đoán y-pred với véc tơ thật của dữ liệu, được mô tả bởi véc tơ y-test Các chỉ số thường được sử dụng để đánh giá là độ chính xác (accuracy score), độ chuẩn xác (precision), độ nhạy (recall) và độ đo f1 (f1 score).
Ma trận nhầm lẫn là ma trận thể hiện sự phân bố của các điểm dữ liệu thực tế và các điểm dữ liệu dự đoán cho từng lớp Các giá trị trên đường chéo ma trận cho biết số điểm dữ liệu được phân loại chính xác, thể hiện hiệu suất phân loại của mô hình học máy cho từng lớp.
Dương tính TP FP Âm tính FN TN
Bảng 1.1 Ma trận nhầm lẫn Ý nghĩa các thuật ngữ:
• TP: số điểm dự đoán dương tính đúng.
• TN: số điểm dự đoán âm tính đúng.
• FP: số điểm dự đoán dương tính sai.
• FN: số điểm dự đoán âm tính sai. Độ chính xác Độ chính xác được xác định bởi số điểm được dự đoán đúng so với tổng số điểm dữ liệu trong tập kiểm nghiệm.
TP+FP+TN+FN Độ chuẩn xác, độ nhạy Độ chính xác chỉ cho biết phần trăm lượng dữ liệu được phân loại đúng mà không chỉ ra cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại vào lớp khác Do vậy ta sẽ xét đến độ chuẩn xác và độ nhạy. Độ chuẩn xác (Tỉ lệ dương tính dự đoán đúng):
TP+FP Độ nhạy (Tỉ lệ dương tính thực):
TP+FN Độ chuẩn xác trung bình micro, độ nhạy trung bình micro:
(TP(c i ) +FN(c i )) với TP(c i ), FP(c i ), FN(c i )lần lượt là TP , FP , FN của lớp c i tương ứng. Độ chuẩn xác trung bình macro, độ nhạy trung bình macro:
Trong nhiều trường hợp thì một mô hình có độ nhạy cao, độ chuẩn xác thấp và ngược lại Khi đó sẽ khó để chọn ra chỉ số nào làm tiêu chuẩn để đánh giá mô hình Vì vậy ta sẽ tìm cách kết hợp cả độ nhạy và độ chuẩn xác vào một chỉ số mới, đó là chỉ số độ đo F1. Độ đo F1 là trung bình điều hòa của độ nhạy và độ chuẩn xác, vì vậy nó đại diện cho độ chính xác trên đồng thời cả độ nhạy và độ chuẩn xác.
PHÂN TÍCH THÀNH PHẦN CHÍNH
Giảm chiều dữ liệu là một trong những kỹ thuật quan trọng trong Học Máy Các véc tơ dữ liệu trong thực tế có thể có số chiều rất lớn, ngoài ra số lượng các điểm dữ liệu cũng thường lớn nên nếu thực hiện lưu trữ và tính toán trực tiếp trên dữ liệu với số chiều cao như vậy thì sẽ gặp nhiều khó khăn Vì vậy giảm chiều số liệu là một bước quan trọng trong nhiều bài toán Một phương pháp phổ biến và đơn giản trong các thuật toán giảm chiều dữ liệu là Phân tích thành phần chính (PCA) PCA được xây dựng bởi Hotelling (1933) và cũng được xây dựng bởi Pearson (1901) Theo như ten Berge và Kiers (1996) thì tùy thuộc vào công thức mà PCA được phân ra làm3loại dựa trênHotelling (1933), Pearson (1991) và Rao (1973) Trong chương2này, các công thức được trình bày dựa trên Pearson và chương3được trình bày dựa trên Hotelling Nội dung chương được tham khảo từ [1].
Định nghĩa
Phân tích thành phần chính (PCA) là một kỹ thuật được sử dụng rộng rãi cho các ứng dụng như giảm chiều dữ liệu, nén dữ liệu, trích xuất đặc trưng, trực quan hóa dữ liệu,
Có hai định nghĩa thường được sử dụng cho PCA dẫn đến cùng thuật toán.
PCA có thể được định nghĩa là phép chiếu trực giao của dữ liệu lên một không gian tuyến tính có chiều thấp hơn, thường được gọi là không gian con chính, sao cho phương sai của dữ liệu được chiếu là cực đại (Hotelling, 1933) Tuy nhiên, nó cũng có thể được định nghĩa là phép chiếu tuyến tính giúp cực tiểu hóa chi phí phép chiếu trung bình
- được định nghĩa là trung bình bình phương khoảng cách giữa điểm dữ liệu và hình chiếu của nó (Pearson, 1901), xem thêm trong [5].
Hình 2.1 Phân tích thành phần chính
Phân tích thành phần chính (PCA) nhằm tìm kiếm không gian con chính có chiều thấp hơn, giúp tối ưu hóa phương sai của dữ liệu được chiếu xuống không gian này PCA cũng có thể được định nghĩa là quá trình giảm thiểu tổng bình phương sai số của phép chiếu dữ liệu ban đầu xuống không gian con chính.
Sự giảm bớt các biến thành các thành phần
PCA thường được sử dụng để phân tích ma trận X (n cá thể × p biến) bằng cách xấp xỉ X bằng tích của ma trận F không xác định và ma trận chuyển vị A Số cột của F và A nhỏ hơn số cột của X, giúp giảm chiều dữ liệu và giữ lại thông tin quan trọng.
X=FA ′ +E (2.1) Ở đây F là ma trận n – cá thể × m – thành phần với các phần tử được gọi là điểm thành phần chính A là ma trận p – biến × m – thành phần với các phần tử được gọi là thành phần kèm theo và E chứa sai số, và m ≤ rank X ≤ min(n, p) Cột thứ k của F và A được gọi là thành phần thứ k
Hình 2.2 Phân tích thành phần chính đối với ma trận X
Ma trận thu được bởi PCA là ma trận thành phần chính F và ma trận kèm A Để thu được chúng, ta cần sử dụng phương pháp bình phương tối thiểu áp dụng cho tổng bình phương các sai số, tức tìm F và A sao cho f (F , A) = ∥ E ∥ 2 F = ∥ E ∥ 2 = ∥ X − FA ′ ∥ 2 , (2.2) đạt cực tiểu.
Nghiệm của bài toán cực tiểu hóa được thu được thông qua khai triển kỳ dị, một phương pháp phân tích ma trận hiệu quả trong đại số tuyến tính Khai triển kỳ dị đem lại nhiều lợi ích, bao gồm giảm chiều dữ liệu, nén dữ liệu, tìm hiểu đặc tính dữ liệu, giải hệ phương trình tuyến tính, phân lớp và nhiều ứng dụng khác Nội dung của phần 2.3 được tham khảo từ [10].
Khai triển kì dị
Ý nghĩa hình học
Một ma trận X cỡ(m × n)có khai triển kì dị X=UΣV ′ ánh xạ hình cầu đơn vị S trong
R n thành một siêu ê-lip trongR m
Ma trận unita V ′ bảo toàn hình cầu, ma trận chéoΣkéo giãn hình cầu thành một siêu ê-lip thẳng với cơ sở chính tắc, và ma trận unita U quay hoặc phản chiếu siêu ê-lip mà không làm thay đổi hình dạng của nó.
Thứ nhất, ta xác định n giá trị kì dị của X là các σ 1 , σ 2 , , σ n Đó là độ dài của n bán trục chính của XS.
Thứ hai, ta xác định n véc tơ kì dị trái của X Đó là các véc tơ đơn vị { u1 , u2 , , u n } định hướng theo hướng của các bán trục chính của XS, tương ứng với các giá trị kì dị. véc tơ σ i u i là bán trục chính lớn thứ i của XS.
Cuối cùng, ta xác định n véc tơ kì dị phải của X Đó là các véc tơ đơn vị { v1 , v2 , , v n } ∈
S là các nghịch ảnh của các trục chính của XS, do đó Xv j = σ j u j
Hình 2.3 Khai triển kì dị của ma trận2 × 2
Khai triển kì dị và phân tích giá trị riêng
Chéo hóa ma trận bằng cách biểu diễn ma trận theo một cơ sở mới được sử dụng cả trong khai triển kì dị và phân tích giá trị riêng, tuy nhiên có những điểm khác biệt căn bản giữa chúng.
Khai triển kì dị khiến cho mọi ma trận chéo hóa được - nếu sử dụng cơ sở hợp lý cho tập xác định và tập giá trị.
Mọi b ∈ C m đều có thể được mở rộng trong cơ sở các véc tơ kì dị trái của X (các cột của ma trận U) với tọa độ b ∗ =U ′ b Tương tự, mọi x ∈ C n đều có thể được mở rộng trong cơ sở các véc tơ kì dị phải của X (các cột của V) với tọa độ x ∗ =V ′ x.
Do X=UΣV ′ nên quan hệ b =Xx có thể được biểu diễn thông qua b ∗ và x ∗ : b=Xx ⇔ U ′ b=U ′ Xx=U ′ UΣV ′ x ⇔ b ∗ = Σx ∗
Vậy nếu b=Xx thì ta được b ∗ = Σx ∗ Vậy ma trận X giảm thành ma trận chéoΣkhi tập giá trị được biểu diễn trong cơ sở các cột của U và tập xác định được biểu diễn trong cơ sở các cột của V.
Phân tích giá trị riêng
Một ma trận vuông chéo hóa được X có thể biểu diễn dưới dạng một ma trận chéo của các giá trị riêngΛ, nếu tập xác định và tập giá trị được biếu diễn trên cơ sở các véc tơ riêng.
Nếu các cột của ma trận K ∈ C m × m chứa các véc tơ riêng độc lập tuyến tính của
X ∈ C m × m thì X có phân tích giá trị riêng là
X=KΛK − 1 , (2.5) vớiΛlà ma trận chéo cỡ(m × m)với các phần tử là các giá trị riêng của X.
Khi đó, nếu ta định nghĩa, với b , x ∈ C m thỏa mãn b =Xx, các véc tơ mở rộng là b ∗ =K − 1 b , x ∗ =K − 1 x , thì các véc tơ mở rộng b ∗ , x ∗ thỏa mãn b ∗ = Λx ∗
Mối liên hệ giữa khai triển kì dị và phân tích giá trị riêng
Ma trận ΣΣ' là ma trận đường chéo với giá trị trên đường chéo là các giá trị riêng dương của XX' Phân tích giá trị riêng của XX' là XX' = UΣV', trong đó U là ma trận các vectơ riêng; V' là ma trận chuyển vị của V; Σ là ma trận chéo chứa các giá trị riêng trên đường chéo Từ đó, XX' = UΣΣ'U', chứng minh XX' cũng có phân tích giá trị riêng.
Tương tự, X ′ X=VΣ ′ ΣV ′ nên các cột của ma trận V là các véc tơ riêng của X ′ X.
Sự khác nhau căn bản giữa khai triển kì dị và phân tích giá trị riêng:
1 Thứ nhất, khai triển kì dị dùng hai cơ sở khác nhau (các véc tơ kì dị trái và véc tơ kì dị phải), trong khi đó phân tích giá trị riêng chỉ dùng một cơ sở (các giá trị riêng).
2 Thứ hai, khai triển kì dị dùng cơ sở trực chuẩn, trong khi đó phân tích giá trị riêng dùng cơ sở mà tổng quát là không trực giao.
3 Thứ ba, không phải mọi ma trận (thậm chí cả ma trận vuông) đều có phân tích giá trị riêng, trong khi đó mọi ma trận đều có khai triển kì dị.
Một số tính chất của ma trận thông qua khai triển kì dị
Giả sử X có cỡ(m × n) Đặt p =min(m, n), r ≤ p là số lượng giá trị kì dị khác0của X. Định lý 2.3 Hạng củaXlà r , tức số lượng giá trị kì dị khác 0
Chứng minh Vì hạng của ma trận chéo là số lượng phần tử khác0, kết hợp với trong khai triển X=UΣV ′ thì U và V là các ma trận có hạng đầy đủ nên rank X=rankΣ = r Định lý 2.4 ∥ X ∥ 2 = σ 1 và ∥ X ∥ F =p σ 2 1 + σ 2 2 + ã ã ã + σ r 2
Chứng minh Vì X=UΣV ′ với ma trận unita U và V nên ∥ X || 2 = ∥ Σ || 2 =max {| σ j |} = σ 1.
Vì chuẩn Frobenius ở 1.3 là bất biến đối với phép nhân ma trận unita nên ∥ X ∥ F =
Tiêu chuẩn Frobenius của ma trận X có thể biểu diễn theo tổng các giá trị kỳ dị là ∥X∥F = √σ12 + σ22 + … + σr2 Các giá trị kỳ dị khác 0 của X chính là các căn bậc hai của các giá trị riêng khác 0 của X’X hoặc XX’ (hai ma trận này có chung các giá trị riêng khác 0).
Ma trận X'X có phân tích giá trị riêng, nghĩa là nó có n giá trị riêng với p giá trị riêng khác 0 Những giá trị riêng này cũng là giá trị riêng của ma trận Σ'Σ, còn lại (n - p) giá trị riêng bằng 0 Tương tự, ma trận XX' cũng có các giá trị riêng này Do đó, các giá trị kỳ dị khác 0 của X là căn bậc hai của các giá trị riêng khác 0 của X'X hoặc XX'.
Chứng minh Một ma trận Hermit có hệ các véc tơ riêng trực giao và mọi giá trị riêng đều là thực Khi đó ta có thể viết lại phân tích giá trị riêng của X: X=KΛK −1 với K bằng một ma trận unita Q vàΛlà ma trận chéo thực.
, (2.7) với | Λ | biểu diễn cho ma trận chéo có các phần tử nằm trên đường chéo là | λ j | và sign(Λ)biểu diễn cho dấu của các λ j Vì (sign(Λ)Q ′ )là unita (do Q là ma trận unita) nên 2.7 chính là một khai triển kì dị của X Như vậy các giá trị kì dị của X bằng với các phần tử nằm trên đường chéo của | Λ | - tức các | λ j | Định lý 2.7 VớiX ∈ C m × m , | det(X) | =
Chứng minh Định thức của tích các ma trận vuông bằng tích các định thức của ma trận thành phần Hơn nữa định thức của ma trận unita luôn có giá trị tuyệt đối bằng1 (do U ′ U=I và tính chất det(U ′ ) = (det(U)) ′ ) Từ đó,
| det(X) | = | det(UΣV ′ ) | = | det(U) || det(Σ) || det(V ′ ) | = | det(Σ) | =
Xấp xỉ tốt nhất của ma trận
Một cách khác để giải thích về khai triển kì dị là một ma trận X có thể được biểu diễn bằng tổng của các ma trận có hạng bằng 1 Theo định lý 2.8, ma trận X bằng tổng của r ma trận có hạng bằng 1.
Chứng minh Ta viếtΣdưới dạng tổng của r ma trậnΣ j với Σ j =diag(0, , 0, σ j , 0, , 0), kết hợp với 2.3 ta được X=
Công thức 2.8 biểu thị một ma trận có khai triển thành tổng các ma trận có hạng bằng
1 có một tính chất rất quan trọng: tổng thành phần thứ ν chứa đựng nhiều ”thông tin”như ma trận X ”Thông tin”ở đây sẽ được định nghĩa thông qua chuẩn ∥ ∥ 2 hoặc chuẩn Frobenius ∥ ∥ F Ta viết lại một cách chính xác bằng cách công thức hóa vấn đề xấp xỉ tốt nhất của một ma trận X bởi các ma trận hạng thấp. Định lý 2.9 Với ν bất kỳ, 0 ≤ ν ≤ r , đặt
Chứng minh Giả sử tồn tại B với rank(B) ≤ ν sao cho ∥ X − B ∥ 2 < ∥ X − X ν ∥ 2 = σ ν+1 Khi đó tồn tại một không gian con(n − ν)chiều W ⊆ C n sao cho w ∈ W ⇒
Bw= 0 Theo đó, với w bất kỳ trong W, ta có Xw= (X − B)w và
Vì vậy W là một không gian con(n − ν)chiều mà ∥ Xw ∥ < σ ν+1 ∥ w ∥ Nhưng không gian mở rộng bởi ν + 1véc tơ kì dị phải đầu tiên của X là không gian con(ν + 1)chiều mà ∥ Xw ∥ ≥ σ ν+1 ∥ w ∥ Do tổng số chiều của các không gian này vượt quá n nên sẽ tồn tại một véc tơ khác0nằm ở cả hai không gian Điều này vô lý. Định lí 2.9 cũng có cách hiểu thông qua hình học Xấp xỉ tốt nhất của một siêu ê-lip bởi một đoạn thẳng là gì? Lấy đoạn thẳng đó là trục dài nhất Vậy xấp xỉ tốt nhất bởi một hình ê-lip hai chiều là gì? Lấy hình ê-lip mở rộng bởi hai trục dài nhất Tiếp tục quá trình tương tự, tại mỗi bước ta sẽ cải tiến xấp xỉ bằng cách thêm vào trục lớn nhất của siêu ê-lip trong các trục còn lại Sau r bước ta sẽ thu được mọi thông tin của X Ý tưởng này có sự phát triển và ứng dụng trong lĩnh vực nén ảnh và giải tích hàm. Tương tự ta cũng được kết quả tương tự đối với chuẩn Frobenius: Định lý 2.10 Với ν bất kỳ thỏa mãn 0 ≤ ν ≤ r , ma trậnX ν của 2.9 cũng thỏa mãn:
Như vậy ma trận X có thể được biểu diễn bằng tổng của các ma trận có hạng bằng1 và sai số do cách xấp xỉ trên chính là căn bậc hai của tổng bình phương của các giá trị kì dị mà ta đã bỏ qua ở phần cuối củaΣ Sai số do xấp xỉ càng nhỏ nếu phần giá trị kì dị bị bỏ lại có giá trị càng nhỏ so với phần giá trị kì dị được giữ lại.
Vai trò của khai triển kì dị trong phân tích thành phần chính
Phát biểu về khai triển kì dị
Một ma trận X bất kì cỡ(n × p)với hạng bằng r luôn có thể phân tích thành
X=KΛL ′ , (2.10) trong đó ma trận K(n × r), L(p × r)thỏa mãn
(2.12) là ma trận chéo cỡ(r × r)có các phần tử nằm trên đường chéo dương và sắp xếp theo thứ tự không tăng: λ 1 ≥ ≥ λ r > 0 (2.13)
Ta biểu diễn ma trận K và L là
Do một số tính chất đặc biệt mà SVD trực tiếp liên quan đến vấn đề cực tiểu hóa 2.2.
SVD và nghiệm bình phương tối thiểu
Giả sử X là ma trận cỡ(n × p)có khai triển kì dị SVD như xác định ở trên, F là ma trận cỡ(n × m), A là ma trận cỡ(p × m)với m ≤ rank(X) ≤ min(n, p).
Khi đó f (FA ′ ) = ∥ X − FA ′ ∥ 2 (2.18) được cực tiểu hóa với
FA ′ =K m Λ m L ′ m (2.19) với K m , L m , Λ m được xác định như ở 2.15 Để chứng minh điều trên ta sẽ chứng minh định lý sau: Định lý 2.11 Xét bài toán cực tiểu hóa: min f(M) = ∥ X − M ∥ 2 s.t rank(M) ≤ m ≤ rank(X) f(M) đạt cực tiểu khiM=K m Λ m L ′ m
Chứng minh Do mọi ma trận đều có khai triển SVD nên ta được M=PΩQ ′ , với
P ′ P=Q ′ Q=I m và Ω là một ma trận chéo cỡ(m × m) với các phần tử đường chéo không âm Khi đó, f(M)được viết lại thành: f (PΩQ ′ ) = ∥ X − PΩQ ′ ∥ 2
Do Q ′ Q=I m ta được: c =tr(X − XQQ ′ ) ′ (XQQ ′ − PΩQ ′ )
=tr X ′ XQQ ′ − tr X ′ PΩQ ′ − tr QQ ′ X ′ XQQ ′ +tr QQ ′ X ′ PΩQ ′
=tr Q ′ X ′ XQ − tr X ′ PΩQ ′ − tr Q ′ X ′ XQ+tr X ′ PΩQ ′ = 0
∥ X − XQQ ′ ∥ 2 = ∥ X ∥ 2 − 2tr X ′ XQQ ′ +tr QQ ′ X ′ XQQ ′ = ∥ X ∥ 2 − tr Q ′ X ′ XQ (2.22)
Ta thế 2.22 và 2.21 vào 2.20 và được f (PΩQ ′ ) = ∥ X ∥ 2 − tr Q ′ X ′ XQ+ ∥ XQQ ′ − PΩQ ′ ∥ 2
Hàm số này có thể đạt cực tiểu nếu P , Ω, Q đồng thời cực đại hóa tr Q ′ X ′ XQ và cực tiểu hóa ∥ XQQ ′ − PΩQ ′ ∥ 2
Do ∥ XL m L ′ m − K m Λ m L ′ m ∥ 2 = 0 nên 2.23 cực tiểu hóa ∥ XQQ ′ − PΩQ ′ ∥ 2 (= 0). Đồng thời Q=L m sẽ cực đại hóa tr Q ′ X ′ XQ với ràng buộc Q ′ Q=I m
Thật vậy, do X=KΛL ′ nên tr Q ′ X ′ XQ=tr Q ′ LΛ 2 L ′ Q=tr L ′ QQ ′ LΛ 2
Với các cột trực chuẩn của L và Q, L'QQ'L cũng trực chuẩn Rank(L'QQ'L) ≤ m ≤ r, Λ² là ma trận đường chéo r × r chứa các phần tử chéo dương Do đó, f(Q) = tr(Q'X'XQ) ≤ tr(Λ²m), trong đó Λm được định nghĩa tại (2.17) Dấu bằng đạt được khi Q = Lm với f(Lm) = tr(L'Lm)'LmΛ² = tr(Λ²m) và đáp ứng ràng buộc Q'Q = Im.
Việc thế 2.23 vào M=PΩQ ′ dẫn đến M=K m Λ m L ′ m Đồng thời ta thay M=FA ′ với F là ma trận cỡ(n × m) và A là ma trận cỡ(p × m). Khi đó ta sẽ thu được 2.19.
SVD cho ta nghiệm FA ′ ở dạng hàm số nhưng không nói rõ từng nghiệm F , A Các nghiệm F và A được biểu diễn tổng quát như sau:
A=L m Λ 1−α m S − 1 ′ (2.25) với α và S là đại hướng vô hướng và ma trận khả nghịch bất kì Do vậy các nghiệm là không duy nhất và có vô số nghiệm cho { F , A }
Công thức với ma trận trọng số
Giả sử K m , L m , Λ m được xác định như ở 2.14, 2.15 và 2.17 Tích của K m và L m nhân bởiΛ m được biểu diễn như sau
Khi đó kết hợp 2.26 với 2.24 ta có thể viết lại F=K m Λ m Λ α−1 m S=XL m Λ α−1 m S, hay
W=L m Λ α m − 1 S (2.29) là ma trận p – biến × m – thành phần mà ta gọi là ma trận trọng số Phương trình trên cho thấy ma trận điểm thành phần chính F được biểu diễn bằng tích của ma trận dữ liệu với ma trận trọng số.
Thay 2.28 vào 2.2 PCA được viết lại là cực tiểu hóa f (W , A) = ∥ X − XWA ′ ∥ 2 (2.30) thông qua W và A Hàm số f(W , A)ở 2.30 được gọi là hàm mất mát trong PCA, tức hàm số cần được cực tiểu hóa.
Phương trình ở 2.28 cho thấy các điểm thành phần chính là trung tâm khi ta phân tích thành phần chính cho ma trận dữ liệu trung tâm:
Chứng minh Thật vậy, do1 ′ n X=0 ′ p nên1 ′ n F= 1 ′ n XW= 0 ′ p W = 0 ′ n , tức F là ma trận dữ liệu trung tâm.
Ràng buộc đối với các thành phần
Với nghiệm tổng quát F và A đã đưa ra ở2.4.2, có rất nhiều nghiệm thỏa mãn 2.24 và 2.25 nên ta cần áp các ràng buộc đối với F và A Ta chọn các ràng buộc là:
A ′ A là ma trận chéo có các phần tử đường chéo (2.33) được sắp xếp theo thứ tự giảm dần.
Chọn α = 0và S= √ n I m ta được các nghiệm thỏa mãn các ràng buộc trên là:
√ n L m Λ m , (2.35) và ma trận trọng số
W= √ n L m Λ − m 1 (2.36) Để xem xét ý nghĩa của các ràng buộc trên ta biểu diễn F = [f1 , , f m ] và A = [a1 , , a m ] với các phần tử của f k được gọi là điểm thành phần chính thứ k và các phần tử của a k là kèm theo thứ k(k = 1, , m).
Vế trái của phương trình 2.32 (n - 1)F'F là ma trận hiệp phương sai giữa các thành phần của điểm thành phần chính Các phần tử trên đường chéo (n - 1)f'kf là phương sai, trong khi các phần tử ngoài đường chéo (n - 1)f'kf (k ≠ l) là hiệp phương sai Điều này biểu thị rằng các thành phần của điểm thành phần chính có phương sai và hiệp phương sai không ràng buộc (lần lượt là 1 và 0).
[1] Các điểm thành phần chính là chuẩn hóa.
[2] Điểm thành phần chính thứ k không tương quan với điểm thành phần chính thứ l do f ′ k f l = 0 (k ̸ = l).
Tương tự, ràng buộc của A ′ A là ma trận chéo ở 2.33 cũng được viết lại dưới dạng a ′ k a l = 0 (k ̸ = l)nhưng do tổng quát thì1 ′ p A ̸ = 0 m (A không phải ma trận dữ liệu trung tâm) nên không có nghĩa là a k không tương quan với a l nhưng nó cho phép các kèm theo có những tính chất sau:
[3] véc tơ kèm theo thứ k a k là trực giao với véc tơ kèm theo thứ l a l
Các tính chất[2] và[3] cho phép các thành phần khác nhau là phân biệt và[1]giúp ta dễ so sánh thành phần chính với các thành phần khác Ngoài ra,[1] dẫn tới tính chất:
[4] Ma trận A ( p × m ) là ma trận hiệp phương sai giữa p – biến và m – thành phần, và nếu X là chuẩn hóa thì A là ma trận tương quan.
Chứng minh Từ L m Λ m =X ′ K m ở 2.27 và F= √ n K m ở 2.34 ta có:
√ n X ′ K m = 1 n X ′ F , (2.37) giống với 1.7 Như vậy A ma trận hiệp phương sai cho X và F do1 ′ n X= 0 ′ p và JF=F ở 2.31 Hơn nữa, nếu X được chuẩn hóa thì A ở 2.37 là ma trận tương quan do tính chất[1](các thành phần chính là chuẩn hóa) và do 1.7.
Ý nghĩa của các thành phần
Ý nghĩa của các kèm theo
Ta định nghĩa các ma trận X= [x1 , , x p ], A ′ = [a1 , , a p ]và E = [e1 , , e p ]với x j , a j , e j
(j = 1, p)tương ứng với các biến j
Khi đó mô hình PCA ở 2.1 được viết lại thành: x j =Fa j +e j và PCA có thể hiểu như hồi quy của x j vào F.
Các f j có thể được xem như biến giải thích cho biến phụ thuộc x j với các kèm theo a j là các hệ số hồi quy.
Ý nghĩa của các trọng số
Ý nghĩa của ma trận trọng số W có thể dễ dàng hiểu được bằng cách viết lại 2.28 như sau: f k =Xw k = w 1k x1 + + w pk x p , (2.38) với w k = [w 1k , , w pk ] ′ là cột thứ k của ma trận W= (w jk ).
Từ đó ta thấy các phần tử trong W cho các trọng số để nhân với biến, từ đó hình thành nên các điểm thành phần chính trong F.
Phần trăm của phương sai giải thích
Ta tính được lượng sai số trong kết quả cuối Thay SVD trong công thức 2.10 và nghiệm trong công thức 2.19 lần lượt vào X và FA' vào tổng bình phương của sai số, ta được:
Tại đây ta đã dùng K ′ m K m =L ′ m L m =I m và
Tức là \(K'K_m = L'L_m\) bằng ma trận cỡ \((r \times m)\) có m hàng đầu tiên của ma trận đơn vị \(I_m\) và các hàng còn lại đều chứa số 0 (do 2.11 có thể viết lại dưới dạng \(k_u'k_u = l_u'l_u = 1, k_u'k_v = l_u'l_v = 0\) nếu \(u \ne v, u = 1, , m; v = 1, , m\)) Chia cả hai vế của 2.39 cho \(tr\Lambda^2\), ta được:
Sai số tuyệt đối 2.40 biểu diễn giá trị sai số cực đại đối với giá trị không âm, còn 2.41 thể hiện giá trị sai số cực tiểu Nói cách khác, FA' gần với X trong khoảng [0, 1].
PEV m còn có tên gọi là phần trăm của phương sai giải thích, biểu thị phần trăm phương sai của dữ liệu được giải thích bởi m thành phần.
Ngoài ra PEV m còn có công thức xác định như sau
1 n tr(FA ′ ) ′ FA ′ tr V , (2.43) với V = n −1 X ′ X là ma trận hiệp phương sai ở 1.4; mẫu số trong 2.43 là tổng các phương sai của p biến trong khi tử số là tổng các phương sai các cột của FA ′
PHÂN TÍCH THÀNH PHẦN CHÍNH VỚI CÁC
Trong chương này hàm mất mát vẫn được cực tiểu hóa như ở phần trước nhưng các ràng buộc đối với các ma trận sẽ được thay đổi Việc thay đổi này có hai mục đích. Thứ nhất, nó hình thành nên điểm hỗn hợp trọng số với phương sai cực đại và thứ hai, nó trực quan hóa phân bố vô hình có số chiều lớn của các cá thể Phần3.1và3.2trình bày phân tích thành phần chính được công thức hóa lại và hai mục đích chính của việc công thức hóa được trình bày ở3.3, 3.4 và 3.5 Phần3.6 trình bày chủ đề song song với phần2.8 Phần3.7trình bày khái quát về một số phương pháp giảm chiều dữ liệu khác, đồng thời so sánh tổng quan giữa các phương pháp.
PCA với các ràng buộc khác
Giả sử X là ma trận dữ liệu trung tâm n – cá thể × p – biến với1 ′ n X = 0 ′ p PCA được xây dựng để tối thiểu hóa 2.10 và tương đương thì PCA tối thiểu hóa f (F , A) = ∥ X − FA ′ ∥ 2 = ∥ X − XWA ′ ∥ 2 (2.30) thông qua ma trận trọng số W và ma trận kèm theo A với F=XW chứa các điểm thành phần chính.
Các nghiệm A và W được biểu diễn như sau:
A=L m Λ 1 m − α S ′− 1 , W=L m Λ α m − 1 S Ở đây α là đại lượng vô hướng bất kì và S là ma trận không suy biến, từ đó ta thấy tồn tại rất nhiều nghiệm Để chọn được nghiệm trong các nghiệm đó ta xét các ràng buộc:
F ′ F=W ′ X ′ XW là ma trận chéo có các phần tử đường chéo (3.1) được sắp xếp theo thứ tự giảm dần.
Hai ràng buộc trên khác với các ràng buộc 2.32, 2.33 ở chương2 Nghiệm W và A được biểu diễn như sau:
Ta thấy 3.3 thỏa mãn 3.2 Đồng thời F=XW thỏa mãn ràng buộc 3.1.
Chứng minh Thật vậy, 3.3 kết hợp với 2.26 ta được F=XW=XL m = K m Λ m Lại có K ′ m K m =I m ta được
F ′ F=W ′ X ′ XW= Λ 2 m , (3.4) với các phần tử trên đường chéo của Λ 2 m được sắp xếp theo thứ tự giảm dần do 2.13 và 2.17.
Ngoài ra ta cũng viết được 2.30 dưới dạng f (W) = ∥ X − XWW ′ ∥ 2 (3.5) không chứa A.
Cực đại hóa tổng các phương sai
Cực tiểu hóa 3.5 với hai ràng buộc 3.1, 3.2 tương đương với cực đại hóa g(W) = tr 1 n F ′ F= 1 n tr W ′ X ′ XW (3.6) với cùng ràng buộc.
Chứng minh. f(W) = tr X ′ X − 2tr X ′ XWW ′ +tr WW ′ X ′ XWW ′
=tr X ′ X − 2tr W ′ X ′ XW+tr W ′ X ′ XWW ′ W
=tr X ′ X − 2tr W ′ X ′ XW+tr W ′ X ′ XW
Việc tìm cực tiểu của hàm số f(W) thông qua W tương đương với việc tìm cực đại của hàm số - tr W ′ X ′ XW, hay chính là tìm cực đại của tr W ′ X ′ XW chia cho n.
Ma trận hiệp phương sai của các điểm thành phần chính giữa các thành phần chính bằng ma trận n −1 F ′ F, trong đó F là ma trận dữ liệu đã được trung tâm hóa Vì vậy, tối đa hóa hàm mục tiêu của PCA (3.6) với ràng buộc (3.1) và (3.2) tương đương với việc tối đa hóa ma trận hiệp phương sai của các điểm thành phần chính.
Do đó các phần tử đường chéo của n −1 F ′ F là phương sai của m điểm thành phần chính, nghĩa là 3.6 là tổng của các phương sai của các điểm thành phần chính thứ nhất, , thứ m : g(W) = 1 n f ′ 1 f1 + + 1 n f ′ m f m =
Ta cũng có thể viết lại 3.6 dưới dạng: g (W) =tr W ′ 1 n X ′ X
V= 1 n X ′ X (3.9) là ma trận hiệp phương sai của ma trận dữ liệu trung tâm X.
Điểm hỗn hợp trọng số với phương sai cực đại
Ta biểu diễn ma trận X= [x1 , , x p ].
Ta biểu diễn PCA cho dữ liệu với số thành phần m = 1 Khi đó W=w1 (p × 1), F=f1 =
Xw1 (n × 1)là các véc tơ Ta định nghĩa w1 = [w 11 , , w p1 ] ′ , véc tơ điểm thành phần chính f1 được viết lại như sau: f1 =Xw1 = w 11 x1 + ã ã ã + w p1 x p (3.10) f1 chứa các điểm hỗn hợp trọng số và bằng tổng của các biến trong x j nhân bởi trọng số w j1.
Dùng W=w1 , F=f1 =Xw1, hàm số 3.6 được viết lại thành: g(w1 ) =w ′ 1
3.11 đại diện cho phương sai của các điểm hỗn hợp trọng số trong 3.10; phương sai của chúng được định nghĩa là n − 1 f ′ 1 Jf1 =w ′ 1 n − 1 X ′ JX w1 =w ′ 1 n − 1 X ′ X w1 = n − 1 f ′ 1 f1
Phương sai này được cực đại với ràng buộc 3.2 Các điểm thành phần chính trong f1 là các điểm hỗn hợp thu được bởi việc thêm trọng số cho các biến để phương sai của điểm được cực đại Nói cách khác, các cá thể sẽ được phân biệt rõ ràng nhất.
Phép chiếu véc tơ 3 chiều xuống không gian 2 chiều
Mục đích chính của phần 3.4 là giải thích cho việc cực tiểu hóa hàm 3.5, bản chất là việc chiếu một không gian 3 chiều (3D) xuống một không gian 2 chiều (2D).
Ta viết lại 3.5: f (W) = ∥ X − XWW ′ ∥ 2 = ∥ X − FW ′ ∥ 2 (3.12)
Ta dùng véc tơ hàngx ˜ ′ i (1 × p)cho véc tơ của cá thể thứ i và ˜ f ′ i (1 × m)cho véc tơ điểm thành phần chính của i :
Khi đó các hàng của FW ′ =XWW ′ được viết như sau:
Dùng 3.13 và 3.14 để thay vào 3.12 ta được: f (W) =
Khi p = 3 và m = 2, việc cực tiểu hóa 3.15 chính là việc khớp các véc tơ của cá thể ˜x ′ i = [x i1 , x i2 , x i3 ]vớix ˜ i ′ WW ′ = ˜f ′ i W ′ (1 × 3), được biểu diễn dưới dạng: ˜x ′ i WW ′ = ˜f ′ i W ′ = [f i1 , f i2 ]
Vì véc tơ dữ liệux ˜ ′ i = [x i1 , x i2 , x i3 ]có cỡ (1 × 3) nên nó có thể biểu diễn được trong không gian3chiều như ở Hình 3.1a ( ˜ x ′ i là đường thẳng mở rộng từ tọa độ[x i1 , x i2 , x i3 ] ) Ta có thể biểu diễn một mặt phẳng trong không gian3chiều có hướng xác định bởi các véc tơ w1 ′ và w ′ 2 Khi đó hình chiếu của ˜ x ′ i trên mặt phẳng được mô tả như biểu thức 3.16 Phép chiếu ám chỉ đến véc tơ mở rộng tới giao điểm của mặt phẳng và đường thẳng kẻ từ ˜ x ′ i vuông góc với mặt phẳng Ngoài ra các điểm thành phần chính trong ˜ f ′ i = [f i1 , f 12 ] = ˜x ′ i W đại diện cho tọa độ của hình chiếu trong mặt phẳng Hình ảnh trực diện của mặt phẳng được biểu diễn ở Hình 3.1b Ở đây, các điểm thành phần chính thứ nhất và thứ hai trong[f i1 , f i2 ] ′ là các tọa độ trên trục ngang và trục dọc của mặt phẳng.
Hình 3.1 Phép chiếu véc tơ3chiều lên không gian2chiều
Giải thích:Ta xét một không gian con2chiều (mặt phẳng) nằm trong không gian p − chiều và được mở rộng bởi các véc tơ w1và w2lần lượt là các véc tơ có độ dài đơn vị và trực giao với nhau:
[ w1 , w2 ] =W ′ W =I m , (3.17) với m = 2 và W= [w1 , w2 ](p × 2) Điều này có nghĩa là w1 và w2 xác định các trục trực giao của mặt phẳng Giả sử f= [f 1 , f 2 ] ′ với các phần tử là các giá trị thực bất kỳ, mọi điểm thuộc mặt phẳng đều có thể biểu diễn dưới dạng g=Wf= f 1 w1 + f 2 w2 (3.18)
Ta xem xét xem giá trị nào mà các phần tử của f = [f 1 , f 2 ] ′ nên nhận với ràng buộc g(p × 1)là hình chiếu củax ˜ i (p × 1)trên mặt phẳng mở rộng bởi w1 và w2 Điều kiện này còn được phát biểu là véc tơ sai khácx ˜ i − g trực giao với mặt phẳng, tứcx ˜ i − g trực giao với w1 và w2
Ta thế 3.18 vào 3.19 và được
(˜x i − Wf) ′ W= 0 ′ 2 tứcx ˜ i W =f ′ W ′ W Trong phương trình này, ta dùng 3.17 và thu được f ′ = ˜x i ′ W ⇔ f =W ′ ~x i (3.20)
Nói một cách tổng quát, 3.20 biểu diễn tọa độ của phép chiếu điểm xi lên không gian con sinh bởi các cột của ma trận W= [w1, , wm] thỏa mãn W′W = Im (3.17) PCA tìm ra ma trận W = [w′1, w′2]′ xác định hướng mặt phẳng sao cho phép chiếu 3.16 gần nhất với vectơ dữ liệu gốc xi′ Mặt phẳng do PCA xác định được gọi là mặt phẳng phù hợp nhất (hoặc gần nhất) so với tập các vectơ dữ liệu.
Trường hợp mô tả ở phần này thể hiện tính logic của PCA khi chiếu dữ liệu ban đầu từ không gian 3 chiều (các x ˜ i ) xuống không gian 2 chiều (mặt phẳng màu xanh trong Hình 3.1a) được thể hiện trực diện bằng biểu đồ phân tán (Hình 3.1b) Biểu đồ 2 chiều giúp nắm bắt thông tin dễ dàng hơn so với không gian 3 chiều Mặc dù phần 3.4 mới chỉ là trường hợp thu nhỏ so với phần 3.5, khi chiếu dữ liệu trong không gian chiều cao hơn xuống không gian chiều thấp hơn theo cách tương tự Đây là một trong những lợi ích quan trọng nhất khi sử dụng PCA.
Trực quan hóa các phân phối không nhìn thấy
Với các không gian có số chiều lớn hơn3ta sẽ không thể vẽ hay nhìn thấy do thế giới đang sống là thế giới3chiều Tuy nhiên, các không gian có chiều lớn có thể được xem xét trong suy luận logic toán học.
Giả sửx ˜ ′ i = [x i1 , , x in ](i = 1, , m), (n > 3)được phân phối trong không gian n chiều được mô tả ở Hình 3.2a Phân tích thành phần chính cho X thu được ma trận trọng số W= [w1 , w2 ] Các véc tơ này sẽ xác định mặt phẳng phù hợp nhất mà hình chiếu ~f ′ i W ′ nằm trên, được mô tả ở Hình 3.2b với hình ảnh trực diện được mô tả ở hình Hình 3.2c Ở đây, m điểm được biểu diễn với tọa độ là các điểm thành phần chính ˜f i = [f i1 , f i2 ], là các giá trị thu được thông qua điểm trung tâm và các trọng số Các điểm gần nhau có thể được coi là tương tự nhau, trong khi đó các điểm cách xa nhau có thể được coi là không tương tự.
Như vậy, mặc dù phân phối ban đầu củax ˜ ′ i ở Hình 3.2a là vô hình, phép chiếu của nó trên mặt phẳng2chiều phù hợp nhất là hữu hình Điều đó khẳng định một lợi ích của phân tích thành phần chính là trực quan hóa các không gian chiều cao vô hình.
Hình 3.2 Phép chiếu phân phối trong không gian n chiều lên không gian 2chiều và hình ảnh trực diện
Độ chính xác của phép chiếu
Ta có thể thấy rằng phân phối ban đầu ở Hình 3.2a không được phản chiếu hoàn hảo trong mặt phẳng ở Hình 3.2b; một số thông tin của phân phối ban đầu bị mất trong Hình 3.2b và Hình 3.2c Lượng thông tin mất mát đó được tính bằng giá trị của hàm mất mát 3.5 hoặc 3.12 do nó biểu diễn sai khác giữa véc tơ dữ liệux ˜ ′ i ở Hình 3.2a và hình chiếu của nóx˜ ′ i WW ′ = ˜f ′ i W ′ ở Hình 3.2b.
Ta thay 2.10, 2.26, 3.3 vào 3.5 ta được:
Khi đó ta thấy 3.21 tương đương với 2.39, tức phần trăm của phương sai giải thích
(2.41), tức PEV m = tr tr Λ Λ 2 m 2 = tr ∥ X Λ ∥ 2 m 2 cũng chính là một chỉ số của độ chính xác của phép chiếu.
Một số phương pháp giảm chiều dữ liệu khác
Phân tích phân biệt tuyến tính
Phân tích phân biệt tuyến tính LDA, hay còn gọi là Phân tích phân biệt Fisher, là một kỹ thuật giảm chiều Nó tìm một không gian con sao cho độ phân tán giữa các lớp là tối đa, trong khi độ phân tán trong các lớp là không đổi Từ m đặc trưng ban đầu của bộ dữ liệu, LDA tách ra k đặc trưng mới độc lập, phân chia rõ ràng các lớp Số lượng thành phần được sinh ra nhỏ hơn số lượng lớp trừ đi 1.
LDA xây dựng hai ma trận:
1 Ma trận S w bên trong các lớp tính khoảng cách giữa trung bình của mỗi lớp và dữ liệu trong lớp đó.
2 Ma trận S b giữa các lớp tính khoảng cách giữa trung bình của mỗi lớp.
N k (à k − à)(à k − à) ′ với m là số lớp, à là trung bỡnh tổng thể, à k và N k lần lượt là trung bỡnh và cỡ của lớp k và à ′ k là vộc tơ trung bỡnh của lớp.
LDA tìm một phép chiếu cực đại hóa tỉ lệ giữa ma trận phân tán giữa các lớp với ma trận phân tán bên trong các lớp Từ đó dẫn đến việc tìm W cực đại hàm mục tiêu sau:
J(W) = tr W ′ S b W tr W ′ S w W Công thức này có thể được viết lại thành:
S w W = λ S b W với λ là các giá trị riêng của ma trận W Nếu S w là ma trận không suy biến thì nghiệm của bài toán này có thể thu được bằng cách tính giá trị riêng λ = { λ 1 , , λ m } và véc tơ riêng V= { v1 , , v m } của W=S −1 w S b
Các giá trị riêng là các đại lượng vô hướng và các véc tơ riêng đều khác véc tơ0nên thỏa mãn phương trình S w W = λ S b W và cho ta thông tin về không gian LDA Các véc tơ riêng biểu diễn hướng của không gian mới và các giá trị riêng tương ứng biểu diễn độ dài của của các véc tơ riêng Do đó, mỗi véc tơ riêng biểu diễn một trục của không gian LDA và giá trị riêng tương ứng cho thấy độ mạnh của véc tơ đó Độ mạnh của véc tơ riêng cho thấy khả năng phân biệt giữa các lớp khác nhau, nói cách khác, nó tăng phương sai giữa các lớp và giảm phương sai bên trong mỗi lớp Các véc tơ riêng với k giá trị riêng lớn nhất tạo thành không gian có chiều thấp hơn V k
Sau phép chiếu vào không gian có chiều thấp hơn của LDA thì chiều của ma trận dữ liệu giảm còn k Mỗi mẫu (x i ) lúc trước được biểu diễn bởi một điểm trong không gian m chiều thì giờ được biểu diễn trong không gian k chiều: y i =x i V k , tức Y=XV k
Thuật toán của LDA được trình bày như sau (xem thêm trong [2]):
Thuật toán:LDA Đầu vào:X ∈ R n × m Đầu ra:Y ∈ R n × k
1: Xây dựng hai ma trận phân tán của X: giữa các lớp và bên trong lớp. 2: Tính toán giá trị riêng và véc tơ riêng tương ứng của các ma trận.
3: Sắp xếp các giá trị riêng theo chiều giảm dần của giá trị riêng.
4: Xây dựng ma trận V k (m × k)với k véc tơ riêng đầu tiên.
5: Biến đổi X bằng cách dùng V k để thu được không gian con mới Y =XV k
So sánh giữa các phương pháp
Ta lập bảng so sánh giữa các phương pháp trên các phương diện:
• Mục tiêu của phương pháp.
• Phương thức học (có giám sát/ không giám sát).
• Tính tuyến tính (tuyến tính/ phi tuyến).
Mục tiêu Phương thức học Tính tuyến tính
PCA Cực đại hóa phương sai Học KGS Tuyến tính
LDA Cực đại hóa phân biệt giữa các lớp Học CGS Tuyến tính SVD Cực tiểu hóa sai số xây dựng lại Học KGS Tuyến tính Đặc tính dữ liệu Cấu trúc tô pô
Đối với dữ liệu lệch, PCA xử lý hiệu quả hơn Phép chiếu ngẫu nhiên Trong khi đó, LDA vượt trội hơn Phép chiếu ngẫu nhiên khi dữ liệu có phân phối đều Riêng SVD phù hợp hơn với dữ liệu thưa so với Phép chiếu ngẫu nhiên.
Bảng 3.1 So sánh3phương pháp giảm chiều dữ liệu
PHÂN TÍCH THÀNH PHẦN CHÍNH TRONG BÀI TOÁN TÌM KHUÔN MẶT ĐẶC TRƯNG VÀ ỨNG DỤNG
Giới thiệu bài toán
Một cách tiếp cận để phát hiện và nhận diện khuôn mặt người là sử dụng một hệ thống nhận diện khuôn mặt theo thời gian thực, theo dõi phần đầu của đối tượng và nhận diện đối tượng đó bằng cách so sánh đặc điểm của khuôn mặt với bộ dữ liệu sẵn có. Cách tiếp cận này coi nhận diện khuôn mặt là một bài toán nhận diện hai chiều, tận dụng lợi thế của thực tế là các khuôn mặt thường thẳng đứng và do đó có thể được mô tả bằng một tập hợp nhỏ các khung nhìn đặc trưng 2D Không gian khuôn mặt được xác định bởi các khuôn mặt đặc trưng - eigenfaces, là các đặc trưng riêng của tập hợp các khuôn mặt; chúng không nhất thiết phải tương ứng với các đặc điểm riêng biệt như mắt, tai và mũi.
Nhận diện khuôn mặt dựa vào phân tích thành phần chính
Phân tích thành phần chính biến đổi một tập hợp dữ liệu thu được từ các biến có thể tương quan thành một tập hợp các giá trị của các biến không tương quan được gọi là thành phần chính Số lượng thành phần có thể nhỏ hơn hoặc bằng số lượng biến ban đầu Thành phần chính đầu tiên có phương sai cao nhất, thành phần thứ hai có phương sai cao thứ hai, và các thành phần sau phải trực giao với thành phần trước đó Các thành phần chính trong bài toán nhận diện khuôn mặt là các véc tơ riêng của ma trận hiệp phương sai của hình ảnh khuôn mặt.
Tiền xử lý dữ liệu
• Trước hết ta chuyển các bức ảnh về các véc tơ bằng cách nối các pixel của các bức ảnh thành các cột, từ đó ta sẽ thu được ma trận có cỡ400 × 4096.
• Việc chuẩn hóa dữ liệu là bắt buộc trước khi phân tích thành phần chính, bởi nếu không chuẩn hóa thì sẽ khó tìm được các thành phần chính tối ưu nhất Ở đây, luận văn sử dụng phương pháp Scaling là phương pháp biến đổi khoảng giá trị của dữ liệu Phương pháp này lấy các giá trị thuộc cùng một đặc trưng, chia cho giá trị lớn nhất của đặc trưng đó Trong xử lý ảnh ta thường chia giá trị của các pixel trên một bức ảnh cho 255, là giá trị lớn nhất của pixel, do vậy các giá trị pixel của một bức ảnh trong bộ dữ liệu thuộc(0, 1)
• Như đã trình bày ở phần lý thuyết, ma trận dữ liệu X là ma trận dữ liệu trung tâm, do vậy cần biến đổi ma trận dữ liệu ban đầu thành ma trận dữ liệu trung tâm Trước hết, tính véc tơ trung bình của toàn bộ dữ liệu: x= 1
X N n=1 x n sau đó trừ mỗi điểm dữ liệu đi véc tơ trung bình của toàn bộ dữ liệu. ˆx n =x n − x
Từ đó thu được ma trận dữ liệu trung tâmX ˆ
Phần xử lý dữ liệu sử dụng phân tích thành phần chính theo định nghĩa của Hotelling, tức cực đại hóa tổng phương sai của hình chiếu.
Phương sai của hình chiếu được xác định như sau:
X(u ′ 1 x n − u ′ 1 x) 2 =u ′ 1 Su1 với S là ma trận hiệp phương sai của ma trậnX Do vậy, ta cần giải quyết bài toán cực ˆ đại hóa u ′ 1 Su1 với ràng buộc u ′ 1 u1 = 1.
Giả sử giá trị cực đại củau ′ 1 Su1 là λ 1 Khi đó: u ′ 1 Su 1 = λ 1
Phương sai của hình chiếu đạt cực đại khi véc tơ chiếu thuộc không gian con tạo bởi các véc tơ riêng ứng với giá trị riêng lớn nhất của ma trận Sử dụng quy nạp toán học, ta chứng minh được hệ số dự đoán tối ưu thu được khi chiếu dữ liệu vào không gian con sinh bởi m véc tơ riêng ứng với m giá trị riêng lớn nhất Vì vậy, số lượng thành phần chính cần giữ lại, hay còn gọi là m, được xác định bằng cách tối ưu hóa PEV theo m.
Các bước thực hiện phân tích thành phần chính:
• Bước3: Tính ma trận hiệp phương sai:
Do tập huấn luyện được biến đổi dưới dạng ma trận cỡ280 × 4096nên ma trận hiệp phương sai của nó có cỡ4096 × 4096.
• Bước4: Tính các giá trị riêng và các véc tơ riêng tương ứng của ma trận S, sắp xếp chúng theo thứ tự giảm dần của giá trị riêng.
• Bước5: Chọn k véc tơ riêng ứng với k giá trị riêng lớn nhất để xây dựng ma trận
U k có các cột tạo thành một hệ trực giao k véc tơ này chính là các thành phần chính, tạo thành một không gian con gần với phân phối của dữ liệu ban đầu đã chuẩn hóa.
• Bước6: Chiếu dữ liệu ban đầu đã chuẩn hóaX xuống không gian con tìm được ˆ
• Bước7: Dữ liệu mới là tọa độ của các véc tơ trong không gian mới:
Các bức ảnh được xây dựng lại bằng cách thêm bức ảnh trung bình vào tổng các véc tơ có trọng số: x=U ′ k Z+x
Sau khi thực hiện phân tích thành phần chính PCA, các thuật toán khác nhau đã được áp dụng cho mô hình để so sánh độ chính xác phân loại, bao gồm KNN, DT, GaussianNB, LR, SVM và LDA.
Cuối cùng ta thực hiện nhận diện khuôn mặt Hình ảnh của người mà chúng ta muốn nhận diện trong tập huấn luyện được biến đổi thành véc tơ P trừ đi véc tơ trung bình x và chiếu với ma trận các véc tơ riêng (các khuôn mặt đặc trưng): ω =U ′ k (P − x)
Việc phân loại được thực hiện bởi việc xác định khoảng cách ϵ i giữa ω và mỗi véc tơ của ma trận Z Luận văn sử dụng khoảng cách Euclide và khoảng cách Manhattan được nhắc ở 1.1 và 1.2.
Nếu khoảng cách nhỏ nhất giữa khuôn mặt thử nghiệm và khuôn mặt huấn luyện lớn hơn ngưỡng θ thì khuôn mặt thử nghiệm được coi là không xác định, ngược lại thì nó sẽ được xác định thuộc về người s =argmin i [ϵ i ].
Cách xác định ngưỡng θ : Tính khoảng cách nhỏ nhất giữa hai bức ảnh trong tập huấn luyện và lưu vào một véc tơ mdist Ngưỡng θ bằng0.8nhân với giá trị lớn nhất trong véc tơ mdist đó: θ = 0.8 ∗ max(mdist)
Phần lập trình có sự tham khảo ý tưởng trong [7].
Mô tả dữ liệu
Bộ dữ liệu gồm 400 ảnh kích thước 64 × 64 của 40 người khác nhau, mỗi người có 10 ảnh chụp ở thời điểm, độ sáng, nét mặt và chi tiết khuôn mặt khác nhau Bộ dữ liệu do tác giả tự thu thập, được sự đồng ý của người tham gia và chưa từng được công bố trước đó.
Hình ảnh được chuyển về dạng256mức độ xám và được lưu trữ dưới dạng số nguyên không dấu với độ lớn8 bits(uint8) và các giá trị này được chuyển đổi thành các số thực dấu phẩy động trên khoảng[0, 1].
Danh tính của người trong bức hình được biểu thị bởi một số nguyên từ0đến39.
40bức ảnh đại diện của40người khác nhau trong bộ dữ liệu:
Hình 4.1.40bức ảnh đại diện của40người khác nhau
So sánh giữa các phương pháp giảm chiều dữ liệu
Luận văn áp dụng 3 phương pháp giảm chiều dữ liệu là phân tích thành phần chính PCA, phân tích phân biệt tuyến tính LDA và khai triển kì dị SVD Sau khi thực hiện giảm chiều dữ liệu bởi3phương pháp với cùng số thành phần, triển khai mô hình học máy (áp dụng mô hình hồi quy logistics) và so sánh độ chính xác để chọn ra phương pháp tối ưu nhất. độ chính xác macro avg weighted avg
Bảng 4.1 So sánh độ chính xác của mô hình giữa3phương pháp giảm chiều dữ liệu
Từ Bảng 4.1 ta thấy phương pháp PCA và LDA có mức thể hiện tương đương nhau, trong khi đó phương pháp SVD thể hiện kém hơn hẳn so với2phương pháp còn lại.
Từ đó, luận văn chọn phương pháp giảm chiều dữ liệu PCA để áp dụng cho bộ dữ liệu khuôn mặt người.
Số lượng thành phần chính
Phân tách dữ liệu thành tập huấn luyện (train) và tập thử nghiệm (test):
Tập dữ liệu chứa10hình ảnh của mỗi đối tượng Trong các hình ảnh này thì 70% được dùng cho tập huấn luyện và 30 % được dùng cho tập thử nghiệm, tức mỗi đối tượng có7bức ảnh dùng để huấn luyện và3bức ảnh để thử nghiệm.
Hình 4.2 Số lượng mẫu dùng trong huấn luyện của mỗi đối tượng Để xác định số lượng thành phần chính, luận văn sử dụng phần trăm của phương sai giải thích.
Với phần trăm của tổng phương sai ta chọn t ∗ = 87.5% với mong muốn các thành phần chính được chọn sẽ đại diện cho87.5% phương sai của cả bộ dữ liệu Với ngưỡng là 87.5%, ta tìm được k = 39là giá trị nhỏ nhất của số lượng thành phần để các thành phần chính đại diện cho 87.61% phương sai của cả bộ dữ liệu Như vậy ta sẽ giữ lại
39véc tơ riêng đầu tiên với giá trị riêng cao nhất.
So với số lượng giá trị riêng ban đầu là4096 (do ma trận hiệp phương sai X ′ X có cỡ
4096 × 4096) thì số lượng giá trị riêng giữ lại là39nhỏ hơn rất nhiều.
Hình 4.3 Số lượng thành phần chính cần giữ lại
Khuôn mặt đặc trưng
Ta biểu diễn khuôn mặt trung bình của cả bộ dữ liệu.
Hình 4.4 Khuôn mặt trung bình của bộ dữ liệu
Sau đó ta hiển thị39khuôn mặt đặc trưng eigenfaces:
Hình 4.5.39khuôn mặt đặc trưng
Từ Hình 4.5 ta có thể thấy các khuôn mặt đặc trưng là những khuôn mặt bị mờ dần (tương ứng với giá trị riêng giảm dần) nhưng chúng đều có các đặc điểm đặc trưng để có thể xây dựng lại hình ảnh các khuôn mặt.
Kết quả và so sánh
Với số lượng thành phần là 39, ta biểu diễn độ chính xác khi phân loại qua biểu đồ nhiệt đồng thời tính toán kết quả độ chính xác của PCA qua các chỉ số.
Hình 4.6 Biểu đồ nhiệt biểu diễn độ chính xác khi phân loại
Từ biểu đồ nhiệt ta thấy các phần tử đường chéo là các mẫu được dự đoán chính xác. Độ chính xác tổng thể là 94% Đối tượng có id1, id7, id13, id23, id26 và id31 có độ chính xác thấp hơn các đối tượng còn lại. precision recall f1-score micro avg 0.94 0.94 0.94 macro avg 0.96 0.94 0.94 weighted avg 0.96 0.94 0.94
Bảng 4.2 Kết quả độ chính xác phân loại của PCA
Từ Bảng 4.2 ta có thể thấy độ chuẩn xác trung bình micro là 94% trong khi đó độ chuẩn xác trung bình marco và độ chuẩn xác trung bình trọng số đều là96%.
Sau khi thực hiện phân tích thành phần chính ta áp dụng các thuật toán khác nhau cho mô hình để so sánh độ chính xác phân loại giữa các thuật toán Luận văn đã sử dụng thư viện scikit-learn và áp dụng các thuật toán cho mô hình là K hàng xóm gần nhất (KNN), Cây quyết định (DT), Gauss Naive Bayes (GaussianNB), Hồi quy Logistic (LR), véc tơ máy hỗ trợ (SVM), Phân tích biệt thức tuyến tính (LDA).
Hình 4.7 Kết quả độ chính xác phân loại giữa các thuật toán
Từ Hình 4.7 ta có thể thấy mô hình phân tích biệt thức tuyến tính LDA có độ chính xác cao nhất (96%), tiếp đó là véc tơ hỗ trợ SVM (94%) Thuật toán hồi quy logistics có độ chính xác92% và thuật toán cây quyết định DT có độ chính xác thấp nhất, chỉ khoảng65%.
Trong bộ dữ liệu, mỗi người chỉ có10 bức ảnh bao gồm7 bức ảnh huấn luyện và 3 bức ảnh thử nghiệm Đây là số lượng khá nhỏ đối với tập huấn luyện và thử nghiệm đối với các mô hình học máy Do vậy luận văn sử dụng thêm phương pháp thẩm định chéo (cross validation) để đánh giá tốt hơn các mô hình học máy khi có ít mẫu trong mỗi lớp Luận văn sử dụng thẩm định k nhóm (k-fold cross validation) và thẩm định một phần tử (leave-one-out cross validation).
Chia tập huấn luyện ra k tập con không có phần tử chung Tại mỗi lần thử nghiệm, một trong số k tập con được lấy ra làm tập thẩm định Mô hình được xây dựng dựa vào hợp của k − 1 tập còn lại Mô hình cuối được xác định dựa trên trung bình của các tập huấn luyện và tập thẩm định.
Hình 4.8 Kết quả độ chính xác thẩm định chéo giữa các thuật toán
• Thẩm định một phần tử:
Trong thẩm định k nhóm, khi k bằng với số lượng phần tử trong tập huấn luyện ban đầu, tức mỗi tập con có đúng một phần tử, ta gọi kỹ thuật này là thẩm định một phần tử.
Hình 4.9 Kết quả độ chính xác thẩm định chéo LOO giữa các thuật toán
Áp dụng kỹ thuật thẩm định chéo giúp tăng độ chính xác khi phân loại cho mô hình Trong số các thuật toán, LDA vẫn là lựa chọn tối ưu nhất khi mang lại độ chính xác phân loại cao nhất.
Cuối cùng với hệ thống các khuôn mặt đặc trưng ta sử dụng hình ảnh của người trong tập thử nghiệm để kiểm tra xem mô hình có nhận dạng được đúng người hay không. Để nhận diện khuôn mặt ta tính khoảng cách từ bức ảnh thử nghiệm tới từng bức ảnh trong tập huấn luyện Khoảng cách nhỏ nhất sẽ đưa ra bức ảnh trong bộ dữ liệu khớp với bức ảnh thử nghiệm nhất. Ở Hình 4.10 bức ảnh thử nghiệm có khoảng cách nhỏ nhất là0, tức bức ảnh thử nghiệm hoàn toàn khớp với bức ảnh thứ9trong tập huấn luyện.
Hình 4.10 Nhận diện khuôn mặt 1 Ở Hình 4.11, bức ảnh thử nghiệm có khoảng cách nhỏ nhất là6.86, nhỏ hơn ngưỡng θ = 12.26nên nó là một bức ảnh của người đã biết với sự khác nhau trong biểu cảm trên khuôn mặt.
Hình 4.11 Nhận diện khuôn mặt 2
Các khuôn mặt bị nhận diện sai:
Hình 4.12 Các khuôn mặt bị nhận diện sai
Ta thấy các khuôn mặt bị nhận diện sai đều có nét khá tương đồng và các khuôn mặt trên thuộc vào các người có id7, id23là những người có độ chính xác phân loại thấp hơn trong biểu đồ nhiệt ở Hình 4.6.
Ngoài ra, tác giả đã thêm một bức ảnh của một người khác vào tập thử nghiệm (trong tập huấn luyện không có ảnh của người này), và khi thực hiện nhận diện khuôn mặt thì thấy khoảng cách nhỏ nhất của bức ảnh người lạ lớn hơn ngưỡng θ = 12.26 nên bức ảnh đó không nhận diện được (Hình 4.13).
Hình 4.13 Khuôn mặt không nhận diện được
Bảng 4.3 dưới đây biễu diễn kết quả tỉ lệ nhận diện Tỉ lệ nhận diện khi sử dụng khoảng cách Manhattan cao hơn khi sử dụng khoảng cách Euclide.
Bảng 4.3 Tỉ lệ nhận diện khuôn mặt
Như vậy, ta đã thực hiện tìm khuôn mặt đặc trưng và nhận diện khuôn mặt thông qua khuôn mặt đặc trưng Tập dữ liệu huấn luyện gồm280bức ảnh của40người khác nhau
(mỗi người có7bức ảnh) Từ các kết quả trên ta thấy chỉ cần39khuôn mặt đặc trưng với các giá trị riêng cao nhất Nếu khoảng cách nhỏ nhất giữa bức ảnh thử nghiệm vs các bức ảnh khác bằng0thì bức ảnh đó khớp hoàn toàn với bức ảnh có trong tập huấn luyện Nếu khoảng cách đó lớn hơn 0 và nhỏ hơn ngưỡng θ thì đó là một người đã biết với biểu cảm khác trên khuôn mặt Ngược lại, nếu khoảng cách lớn hơn ngưỡng θ thì đó là một người không biết Hơn nữa, do bộ dữ liệu khá nhỏ và ít nhiễu nên các phương pháp giảm chiều dữ liệu PCA, LDA thực hiện tốt hơn so với phương phápSVD và các thuật toán phân loại áp dụng lên mô hình sau khi thực hiện phân tích thành phần chính đều có độ chính xác cao.
KẾT LUẬN VÀ KIẾN NGHỊ
Các kết quả nghiên cứu chính của luận văn bao gồm:
1 Trình bày về phương pháp phân tích thành phần chính (PCA) trong bài toán xử lý dữ liệu nhiều chiều.
2 Ứng dụng phương pháp phân tích thành phần chính (PCA) vào bài toán xác định khuôn mặt đặc trưng của con người.
Dựa vào các kết quả đạt được, một số hướng phát triển của luận văn như sau:
1 Nghiên cứu về các phương pháp khác trong các bài toán xử lý dữ liệu nhiều chiều.
2 Ứng dụng các phương pháp trong các bài toán thực tế xử lý ảnh, nhận diện.
[1] Adachi, K (2018) Matrix-Based Introduction To Multivariate Data Analysis.
[2] Anowar, F., Sadaoui, S., and Selim, B (2021) Conceptual and empirical compar- ison of dimensionality reduction algorithms (pca, kpca, lda, mds, svd, lle, isomap, le, ica, t-sne) Computer Science Review, 40:100378.
[3] Bouzalmat, A., Kharroubi, J., and ZARGHILI, A (2014) Comparative study of pca, ica, lda using svm classifier Journal of Emerging Technologies in Web Intelligence, 6.
[4] Jolliffe, I (2002).Principal Component Analysis Springer, New York, NY, USA.
[5] M.Bishop, C (2006) Pattern Recognition and Machine Learning Springer,
[6] Rencher, A and Christensen, W (1998) Methods of multivariate analysis Jour- nal of the American Statistical Association, 93.
[7] Slavković, M and Jevtić, D (2012) Face recognition using eigenface approach*.
Serbian Journal of electrical engineering, 9:121–130.
[8] Sokolova, M and Lapalme, G (2009) A systematic analysis of performance measures for classification tasks Elsevier, 45(4):427–437.
[9] Tharwat, A., Gaber, T., Ibrahim, A., and Hassanien, A E (2017) Linear discrim- inant analysis: A detailed tutorial Ai Communications, 30:169–190,.