Mạng RBF trong phân loại mẫu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu nhân bản chuyển động khuôn mặt trên các mô hình khuôn mặt 3D khác nhau (Trang 49 - 53)

Ngƣời ta đã kiểm định các hàm khác nhau trong quá trình xác định các hàm kích hoạt cho mạng RBF. Trong xây dựng mô hình chuỗi thời gian, hàm kích hoạt thông dụng nhất là hàm spline đĩa dẹt (thin-plate spline). Trong các ứng dụng phân loại mẫu, các hàm Gauss đƣợc ƣa chuộng hơn. Các hàm Gauss tổng hợp đã đƣợc sử dụng trong nhiều lĩnh vực khoa học khác nhau. Hàm Gauss kích hoạt cho các mạng RBF đƣợc biểu diễn nhƣ sau:

1

( ) exp ( )T ( )

j X X j j X j

       với j1,...,L (1) trong đó X là vectơ đặc trƣng đầu vào, L là số các đơn vị ẩn, j và j là trung bình và ma trận hiệp phƣơng sai (covariance) của hàm Gauss thứ j. Theo một số cách tiếp cận, ngƣời ta đƣa một đa thức vào biểu thức (1), còn trong những cách tiếp cận khác, hàm Gauss đƣợc lấy chuẩn bằng tổng các thành phần Gauss (ví dụ nhƣ trong phép ƣớc lƣợng tổng hợp Gauss). Dƣới dạng hình học, một hàm cơ sở bán kính đƣợc biểu diễn nhƣ một “ngọn đồi” trên không gian đa chiều, số chiều của không gian này chính bằng

số đầu vào. Vectơ trung bình j biểu diễn vị trí, còn j tạo mô hình cho hình dạng hàm kích hoạt. Về ý nghĩa thống kê, một hàm kích hoạt tƣơng ứng với một hàm mật độ xác suất, trong đó j và j biểu diễn các thống kê bậc 1 và bậc 2.

Lớp đầu ra đƣợc tính bằng tổng trọng số các đầu ra đơn vị ẩn:

1 ( ) ( ) L k jk j j X X      với k1,..., M

trong đó jk là các trọng số đầu ra, mỗi trọng số tƣơng ứng với mối liên kết giữa một đơn vị ẩn và một đơn vị đầu ra; và M biểu diễn số đơn vị đầu ra. Trọng số

jk

 cho biết mức đóng góp của một đơn vị ẩn đối với đơn vị đầu ra tƣơng ứng. Trong một bài toán phân loại, nếu jk > 0, thì khoảng kích hoạt của đơn vị ẩn j đƣợc chứa trong khoảng kích hoạt của đơn vị đầu ra k.

Trong các ứng dụng phân loại mẫu, đầu ra của hàm cơ sở bán kính giới hạn trong khoảng (0,1) bởi một hàm xích ma:

1 ( ) 1 exp[ ( ] i k Y X X     với k1,...,M

Các mạng RBF còn đƣợc ứng dụng trong phần cứng song song có sử dụng các siêu mảng (systolic array).

2.3.1.3 Các tính chất

Các RBF đƣợc định dạng bởi tâm của chúng và bởi một siêu phẳng kích hoạt (activation hypersurface) (xem Phụ lục 1). Trong trƣờng hợp các hàm Gauss, chúng đƣợc xây dựng bởi hai tham số j và j. Siêu phẳng là một siêu cầu (hypersphere) trong trƣờng hợp ma trận hiệp phƣơng sai là một ma trận chéo và có các phần tử trên đƣờng chéo bằng nhau, trong các phần lớn các trƣờng hợp khác, siêu phẳng là một siêu ellipsoid (xem Phụ lục 2) [46]. Trong trƣờng hợp là một siêu ellipsoid, tác động của hàm kích hoạt giảm dần, tƣơng ứng với khoảng cách Mahalanobis (xem Phụ lục 3) [48] tới tâm. Điều này có nghĩa là các mẫu dữ liệu nằm cách tâm RBF một khoảng Mahalanobis lớn sẽ không thể kích hoạt hàm cơ sở đó. Kích hoạt tối đa đạt đƣợc khi mẫu dữ liệu trùng với vectơ trung bình. Các hàm cơ sở Gauss có dạng gần trực giao (quasi-orthogonal). Tích của hai hàm cơ sở (mà có tâm cách xa nhau xét trong tƣơng quan với bề rộng của chúng) là xấp xỉ bằng 0.

Ta có thể coi các RBF là những hàm tiềm năng. Các đơn vị ẩn (mà với mỗi đơn vị đầu ra nhất định thì các trọng số đầu ra jk của các đơn vị ẩn này mang cùng dấu với nhau) khiến các vùng kích hoạt của chúng liên kết với nhau theo cùng cách thức các điện tích cùng dấu hình thành nên điện trƣờng. Với các đơn vị ẩn mà trọng số đầu

ra khác dấu nhau, thì vùng kích hoạt của chúng sẽ tƣơng ứng với điện trƣờng của các điện tích trái dấu.

Các tính chất của RBF khiến chúng thích hợp để sử dụng trong các phép nội suy và xây dựng hàm số. Do đó, RBF đƣợc dùng để xây dựng nên các hàm mật độ xác suất. Ngƣời ta đã chứng minh đƣợc rằng các mạng RBF tuân theo quy tắc Bayes [5].

2.3.1.4 Các thuật toán huấn luyện

Dựa trên thuật toán huấn luyện, mạng nơron tạo dựng đƣợc các hàm cơ sở cho một phép ánh xạ nhất định. Để xây dựng một phép ánh xạ nhƣ vậy, ta phải tìm đƣợc các trọng số của mạng và tôpô. Có hai loại thuật toán huấn luyện: có giám sát và không giám sát. Các mạng RBF thƣờng đƣợc dùng trong các ứng dụng có giám sát. Với một ứng dụng có giám sát, ta có một tập các mẫu dữ liệu (đƣợc gọi là tập huấn luyện), trong đó các đầu ra tƣơng ứng của mạng đã đƣợc cho trƣớc. Trong trƣờng hợp này, ta tìm đƣợc các tham số mạng bằng phép lấy min một hàm chi phí:

    Q i i k i k T i k i k X F X Y X F X Y 1 )) ( ) ( ( )) ( ) ( ( min (2)

trong đó Q là tổng số các vectơ từ tập huấn luyện, Yk(Xi) biểu diễn vectơ đầu ra RBF và Fk(Xi) biểu diễn vectơ đầu ra tƣơng ứng với một mẫu dữ liệu Xi từ tập huấn luyện. Trong huấn luyện không giám sát, ta không xác định đƣợc đầu ra cho một tập cho trƣớc.

Rất nhiều thuật toán huấn luyện đã đƣợc kiểm định để huấn luyện các mạng RBF. Theo cách thức ban đầu, mỗi mẫu dữ liệu đƣợc gán với một hàm cơ sở. Cách làm này đòi hỏi bộ nhớ lớn và số tham số cũng rất nhiều. Mặt khác, việc tìm ra duy nhất một hàm phù hợp với mẫu dữ liệu huấn luyện có thể làm mất ý nghĩa tổng quát. Các cách tiếp cận khác lựa chọn (ngẫu nhiên hoặc giả định) các trọng số đơn vị ẩn và tính ra các trọng số đầu ra jk bằng cách giải một hệ các phƣơng trình mà nghiệm của hệ này đƣợc cho trƣớc trong tập huấn luyện. Cách làm này dẫn đến ma trận nghịch đảo khá phức tạp, đòi hỏi nhiều tính toán, và có thể gây nên những vấn đề cần xử lý trong những tình huống nhất định (khi ma trận là ma trận đơn – ma trận suy biến với định thức của nó bằng 0). Ở một số nghiên cứu, các tâm của RBF phân phối đều trong không gian dữ liệu. Bằng phép nội suy, ta sẽ có đƣợc hàm cần xây dựng. Trong một nghiên cứu khác, số lƣợng các hàm cơ sở đƣợc sử dụng ít hơn số mẫu dữ liệu cho trƣớc. Khi đó, một nghiệm bình phƣơng nhỏ nhất (trong phép lấy min sai số nội suy) là giá trị cần tìm.

Các bình phƣơng nhỏ nhất trực giao sử dụng thuật toán Gram-Schmidt đã đƣợc đề xuất [12]. Một thuật toán huấn luyện dựa trên phép lấy min một hàm chi phí cho trƣớc là một thuật toán giảm theo gradien. Thuật toán truyền ngƣợc lại sửa các trọng số mạng lặp đi lặp lại nhiều lần để xét các đạo hàm của hàm chi phí (2) theo các trọng

số này. Ngƣời ta cũng đã tìm hiểu các thuật toán lấy max kỳ vọng trong đó sử dụng thuật toán giảm dần theo gradien để xây dựng các phân phối đầu vào – đầu ra. Các thuật toán truyền ngƣợc có thể đòi hỏi một vài vòng lặp và có thể bị mắc vào một cực tiểu địa phƣơng của hàm chi phí (2).

Nhƣ đã nói ở phần 2.2.1.2, tôpô mạng RBF đƣợc xác định bởi số lƣợng các đơn vị ẩn. Ngƣời ta đã sử dụng nhiều thủ tục khác nhau để tìm ra tôpô mạng thích hợp. Thông thƣờng cách tiếp cận tìm tôpô đƣa một số hạng quy tắc hóa bổ sung (additional regularization term) vào hàm chi phí (2) phụ thuộc vào số lƣợng đơn vị ẩn. Các tiêu chí nhƣ Độ dài Mô tả Nhỏ nhất (Minimum Description Length) đƣợc dùng trong trƣờng hợp này. Những cách tiếp cận khác sử dụng hợp nhất cụm hoặc tách cụm.

2.3.2 Các thuật toán di truyền học

Các thuật toán di truyền học là những thuật toán tìm kiếm dựa trên quá trình tiến hóa và tồn tại tự nhiên của những cá thể thích nghi nhất trong thế giới sinh học [16]. Trong khi các kỹ thuật tối ƣu hóa truyền thống tìm kiếm một nghiệm tối ƣu từ một điểm đơn nhất, thì GA lại tìm từ một tổng thể các nghiệm [47]. Theo cách thức truyền thống, các nghiệm đƣợc biểu diễn dƣới dạng nhị phân, là các dãy 0 và 1, nhƣng các cách mã hóa khác cũng khả thi. Sự tiến hóa thƣờng bắt đầu từ một tổng thể các cá thể đƣợc tạo ngẫu nhiên và diễn ra qua nhiều thế hệ. Trong mỗi thế hệ, độ thích nghi của mỗi cá thể trong tổng thể đƣợc đánh giá, nhiều cá thể đƣợc chọn ngẫu nhiên từ tổng thể các nghiệm (dựa trên mức độ thích nghi của chúng), và điều chỉnh (lai ghép và đột biến ngẫu nhiên) để hình thành nên một tổng thể mới. Sau đó, tổng thể mới đƣợc sử dụng ở vòng lặp kế tiếp của thuật toán. Nói chung, thuật toán kết thúc khi xảy ra một trong hai trƣờng hợp: (1) đã tạo đƣợc số lƣợng thế hệ lớn nhất (maximum number of generations); hoặc (2) đã đạt tới mức thích nghi thỏa mãn (satisfactory fitness level) đối với tổng thể. Nếu thuật toán kết thúc do trƣờng hợp thứ nhất, thì ta có thể có hoặc không đạt tới một nghiệm thỏa mãn.

Các thuật toán di truyền đƣợc ứng dụng trong tin sinh học, phân loại di truyền, khoa học máy tính, kỹ thuật, kinh tế học, hóa học, toán học, vật lý và nhiều lĩnh vực khác.

Một thuật toán di truyền điển hình đòi hỏi xác định: 1. Biểu diễn di truyền của tập nghiệm

2. Hàm thích nghi (fitnesss function) để đánh giá tập nghiệm

Một biểu diễn tiêu chuẩn của nghiệm là một mảng các bit. Cũng có thể sử dụng các mảng thuộc loại và cấu trúc khác theo cách thức cơ bản nhƣ vậy. Tính chất chủ yếu khiến cho các biểu diễn di truyền trở nên thuận tiện là rất dễ sắp xếp các phần của chúng do có kích thƣớc cố định, và điều này tạo điều kiện cho các phép lai đơn giản. Cũng có thể sử dụng các biểu diễn độ dài của biến, nhƣng trong trƣờng hợp này, việc

tiến hành lai trở nên phức tạp hơn. Các biểu diễn hình cây đƣợc khai thác trong việc lập trình di truyền và các biểu diễn dạng đồ thị đƣợc sử dụng trong lập trình tiến hóa.

Hàm thích nghi đƣợc xác định dựa trên biểu diễn di truyền và các thƣớc đo chất lƣợng nghiệm đƣợc biểu diễn. Hàm thích nghi luôn luôn phụ thuộc vào bài toán đặt ra. Ví dụ, trong bài toán ba lô, ta muốn lấy tổng giá trị lớn nhất của các vật mà ta có thể bỏ vào ba lô với sức chứa đƣợc xác định trƣớc. Biểu diễn nghiệm của bài toán này có thể là một mảng các bít, trong đó mỗi bit biểu diễn một vật khác nhau, và giá trị của bit (0 hoặc 1) biểu diễn việc vật đó có trong ba lô hay không. Không phải mọi biểu diễn nhƣ vậy đều đúng, vì kích thƣớc của vật có thể vƣợt quá sức chứa của ba lô. Độ thích nghi của nghiệm là tổng giá trị của tất cả các vật trong ba lô nếu biểu diễn đúng, hoặc bằng 0 trong trƣờng hợp ngƣợc lại. Trong một số bài toán, việc xác định biểu thức thích nghi rất khó, hoặc thậm chí bất khả thi; trong trƣờng hợp này, ta sử dụng thuật toán di truyền tƣơng tác [47].

Một khi ta đã xác định đƣợc biểu diễn di truyền và hàm thích nghi, thì bƣớc tiếp theo của GA là khởi tạo một tổng thể các nghiệm một cách ngẫu nhiên, rồi nâng cấp nó thông qua việc áp dụng lặp đi lặp lại các phép đột biến, lai ghép, nghịch đảo và chọn lọc.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu nhân bản chuyển động khuôn mặt trên các mô hình khuôn mặt 3D khác nhau (Trang 49 - 53)

Tải bản đầy đủ (PDF)

(82 trang)