Ước lượng ICA

Một phần của tài liệu nhận dạng mặt người dùng svm và mạng nơron (Trang 32 - 37)

X 200x320 512000 double array

4.Ước lượng ICA

Ước tính ICA là một công việc khá chi lị Người ta đã phát triển nhiều cách để giải quyết bài tốn [1]:

 Cực đại hóa tính phi Gauss (nongaussianity)

 Ước lượng khả năng cực đại (maximum likelihood)  Cực tiểu hố thơng tin hỗ tương (mutual information)…

Trong các phương pháp, trước tiên định ra một hàm đối tượng (objective function), còn gọi hàm trị giá (cost function), rồi dùng một thuật tốn tối ưu hóa để cực đại hóa hoặc cực tiểu hóa (nói chung là cực đại hóa trị tuyệt đối) hàm đối tượng này để ước lượng các thành phần độc lập.

Theo định lý giới hạn trung tâm (central limit theorem), tổng của nhiều biến ngẫu nhiên có phân bố gần Gauss hơn bất cứ biến ngẫu nhiên gốc nàọ Ở mơ hình ICA (2.2) vector ngẫu nhiên x gồm các biến ngẫu nhiên là trộn tuyến của các vector biến ngẫu nhiên nguồn s. Các nguồn

được giả sử độc lập nhau nhưng khi trộn lại (cộng nhau) thì các trộn trở nên gần Gauss hơn. Nếu việc trộn được đảo ngược lại theo cách nào đó thì các tín hiệu nhận được sẽ ít Gauss hơn. Do đó ước lượng ICA

nhắm đến cực tiểu hóa tính Gauss tức cực đại hóa tính phi Gauss bởi vì điều này sẽ cho ta các thành phần độc lập.

4.1. Đo tính phi Gauss bằng kurtosis

Đầu tiên là phép đo dựa trên kurtosis của một biến ngẫu nhiên y có trung bình bằng khơng là cumulant bậc bốn:

kurt(y) = E{y4} – 3 (E{y2}2 (2.10)

Thật ra vì ta giả sử y có phương sai đơn vị, nên kurtosis là kurt(y) =

E{y4} – 3, tức kurtosis là phiên bản chuẩn hóa của momen thứ tư

E{y4}. Khi y có phân bố Gauss momen thứ tư bằng 3(E{y2})2 nên kurtosis bằng không đối với các biến ngẫu nhiên Gauss. Hầu hết các biến ngẫu nhiên không phải Gauss kurtosis khác khơng. Nếu kurtosis là dương biến ngẫu nhiên có phân bố siêu Gauss (supergaussian), cịn nếu kurotsis là âm thì biến ngẫu nhiên có phân bố dưới Gauss (subgaussian). Phân bố siêu Gauss không cịn dạng hình chng như Gauss mà tăng nhanh ở trung tâm tương tự như phân bố Laplace, còn phân bố dưới Gauss không nhô lên ở phần giữa như Gauss mà tiến đến phân bố đều với biên độ rất nhỏ ở xa trung tâm. Hình dưới đây thể hiện rõ điều đó

Việc đo tính phi Gauss bằng kurtosis có vài bất lợi khi các giá trị của nó được tính từ các mẫu quan sát được, vì kurtosis rất bị ảnh hưởng bởi các trị biên (outlier) quan sát được ở hai đi của phân bố.

4.2. Đo tính phi Gauss bằng Negentropy

Một số đo tính phi Gauss quan trọng hơn là negentropỵ Negentropy là đại lượng dựa trên lý thuyết thông tin gọi là entropy vi saị Entropy

của một biến ngẫu nhiên là số đo lượng thơng tin trung bình của nó. Càng ngẫu nhiên, các biến càng khơng có cấu trúc thì entropy càng lớn. Các biến chặt chẽ entropy càng gần chiều dài mã hóa của biến ngẫu nhiên.

Entropy (vi sai) H của vector ngẫu nhiên y có hàm phân bố f(y) định nghĩa như sau:

( ) ( i) log ( i)

H y = −∑P y a= P y a=

Trong đó ai là giá trị có thể có của Ỵ Đây là định nghĩa nổi tiếng dùng để tổng hợp cho các biến hay các vector ngẫu nhiên có giá trị liên tục, trong trường hợp đó thường gọi là entropy vi phân. Entropy vi phân của vector ngẫu nhiên y với mật độ f(y):

( ) ( ) log ( )

H y = −∫ f y f y dy

Đặc tính quan trọng của entropy là biến ngẫu nhiên Gauss có entropy lớn nhất trong các biến ngẫu nhiên có cùng phương saị Như vậy entropy, và negentropy định nghĩa theo entropy, có thể dùng để đo tính phi Gauss của một biến ngẫu nhiên. Thực tế, điều đó chỉ ra rằng phân bố Gauss là “ngẫu nhiên nhất” hay ít cấu trúc nhất trong tất cả phân bố. Entropy là nhỏ, trong đó các phân bố hầu như chỉ tập trung trong một số giá trị nhất định, biến số hội tụ, hay hàm mật độ phân bố có dạng nhọn. Để có được một số đo tính phi Gauss sao cho bằng không đối với biến Gauss và luôn không âm, người ta định nghĩa negentropy của vector ngẫu nhiên y:

J(y) = H(yGauss) – H(y)

trong đó yGauss là một vector ngẫu nhiên Gauss cùng ma trận hiệp phương sai (hay ma trận tương quan vì các dữ liệu được giả sử có trung bình là khơng). Do đặc tính đề cập ở trên ,negentropy sẽ khơng bao giờ âm, nó chỉ bằng khơng nếu và chỉ nếu y có phân bố dạng Gauss. Negentropy có đặc tính rất hay, chính là đại lượng bất biến trong phép biến đổi tuyến tính ngược.

Ưu điểm của negentropy, hay tương đương entropy vi phân, như một đại lượng đo đạc tính phi Gauss thỏa mãn lý thuyết thống kê. Trong thực tế, negentropy là số chiều trong xấp xỉ tối ưu hóa phi Gauss. Khó khăn trong việc ứng dụng negentropy là việc tính tốn rất phức tạp. Việc xấp xỉ negentropy bằng định nghĩa cần phải xấp xỉ hàm mật độ xác xuất. Cho nên, việc đơn giản hóa việc xấp xỉ negentropy là rất cần thiết.

Tuy nhiên tính tốn negentropy lại khó khăn. Một số tính tốn xấp xỉ đã được phát triển, mà một là:

2

( ) [ { ( )} { ( Gauss)}]

J yE G yE G y

Hàm phi tuyến G(.) có thể chọn theo một hai biểu thức sau:

1 1 1 1 ( ) log cosh G y a y a = 2 2( ) exp( ) 2 y G y = − − 3 3( ) G y = y với1≤ ≤ai 2 và thường chọn bằng a1 = 1.

Trong mơ hình ICA, ta muốn tìm các hàng của ma trận W. Khi dùng

negentropy người ta xây dựng thuật toán FastICA dựa trên thuật toán điểm cố định (fixed-point algorithm).

FastICA cho một đối tượng:

Chúng ta sẽ xem xét loại một đơn vị của FastICẠ Chúng ta quy việc tính tốn về mức đơn vị, như mạng neural nhân tạo, có vector trọng số mà các neural có thể cập nhật theo luật học. Đối với fastICA luật học là tìm ra hướng vector đơn vị w sao cho hình chiếu wTx cực đại tính phi Gauss. Tính phi Gauss ở đây đo đạc theo xấp xỉ negentropy J(wTx). Các phương sai của wTx phải đưa về dạng đơn vị. Tương tự q trình làm trắng hóa cũng đưa w về dạng chuẩn đơn vị.

FastICA dựa trên mơ hình điểm cố định được lập đi lập lại nhiều lần nhằm tìm ra giá trị cực đại của wTx. Nó cũng bắt nguồn từ phép lặp Newton [1].

Bước 1: Chọn một vector ngẫu nhiên w Bước 2: { ( )} { ( )} / T T w E zg w z E g w z w w w w ′ = − ¬

Nếu khơng hội tụ thì quay lại bước 2

Hội tụ có nghĩa là giá trị mới và cũ của điểm w phải có cùng hướng , tích vơ hướng của chúng là 1. Tuy nhiên thực tế ta chọn ngưỡng hội tụ Sig cho trước sao cho:

new old

Sigww

Trong đó g′là đạo hàm của các hàm G1, G2, G3

Fast ICA cho nhiều đối tượng

Tuy nhiên thường ta khơng có một thành phần độc lập đơn (chỉ một mà thơi), do đó phải tính nhiều hơn một hàng của W. Lúc bấy giờ

các dòng w khác nhau của ma trận W có thể hội tụ đến cùng các cực đại của hàm đối tượng. Để khắc phục vấn đề này, các vector w1, w2, … wnphải được trực giao hóa sau mỗi lần lặp.

Để tránh trường hợp các vector cùng hội tụ về một hướng duy nhất chúng ta phải giải tương quan ngõ ra w1Tx,…, wnTx sau mỗi lần lặp lạị Chúng ta sẽ đề cập đến các phương pháp giải quyết vấn đề nàỵ Một cách giải tương quan đơn giản là mơ hình hạ cấp ma trận dựa trên lý thuyết giải tương quan của Gram-Schmidth. Điều đó có nghĩa là ta xấp xỉ các đối tượng tương quan từng cái một. khi chúng ta xấp xỉ p đối tượng độc lập, hay p vector w1,…,wp chúng ta sẽ chạy thuật toán fixed-point một đơn vị cho vector wp+1 và sau mỗi bước lập lại wp+1 từ hình chiếu (wp+1T wj)wj ; j=1…p của p vector trước đó, sau đó chuẩn hóa wp+1.

Các bước thực hiện

Bước 2: Chọn ngẫu nhiên wp Bước 3: { ( T )} { ( T )} p p p p w =E zg w zE g w z w′ Bước 4: 1 1 ( ) p T p p p j j j w ww w w = = −∑ Bước 5: wp ¬ wp/ wp

Bước 6: nếu wp khơng hội tụ thì quay lại bước 3.

Bước 7: Đặt p¬ p+1và cứ tăng p thêm 1 đến khi p= m

Khi chọn xong wp ta lưu lại trong ma trận W (wp ứng với một cột của W)

Các tính chất của FastICA :

 Sự hội tụ có dạng lập phương; điều này chống lại các thuật tốn ICA thơng thường dựa theo phương pháp gradient descent (trong đó nói rằng sự hội tụ là tuyến tính). Điều đó có nghĩa là sự hội tụ diễn ra rất nhanh, được kiểm chứng bằng các thí nghiệm dựa trên dữ liệu thực.

 Chống lại lý thuyết dựa trên gradient, khơng có bước lựa chọn thơng số tham số kích thước. Điều đó có nghĩa là thuật tốn dễ sử dụng.

 Thuật tốn tìm trực tiếp các đối tượng độc lập của phân bố phi Gauss dùng hàm khơng tuyến tính .

 Các đối tượng độc lập xấp xỉ từng cái một. Do đó rất hữu hiệu trong phân tích dữ liệu thăm dị, và cắt giảm sự tính tốn trong trường hợp chỉ cần xấp xỉ một số đối tượng đôc lập.

 Phương pháp Fast ICA hầu như có tất cả sự tiện lợi của thuật tốn neural. Nó có tính song song, phân bố, dễ tính tốn, cần ít khơng gian bộ nhớ hơn

Một phần của tài liệu nhận dạng mặt người dùng svm và mạng nơron (Trang 32 - 37)