Hàm mục tiêu - Ứng dụng mạng Nôron vào dự báo phụ- 123docz.net

Đè huấn luyện một m ạn g và xét xem nó thực hiện tốt đến đâu, ta cần xây dự ng một hàm mục tiêu đê cung câp cách thức đá n h giá kh ả n ă n g của hệ thông. Việc chọn hàm mục tiêu là rất quan trọng bởi vì h à m này thê hiện các mục tiêu thiết kế và quyết định thuật toán huấn luyện nào có thể được sử dụng. Đê xây dự n g một hàm mục tiêu đo được chính xác cái c h ú n g ta m u ố n k h ô n g phải là việc dễ dàng. Trong số những hàm cơ bản được sử d ụ n g r ộn g rãi là hà m tông bình phươnu lồi (su m o f squares error function)

J Q N

^ ~ s y<„)

ÍỊ = \ i = 1

Ở đày:

Q : sô ví dụ tro ng tập ví dụ huân luyện N : sô đơn vị đầu ra

t q i : đâu ra m o n g muô n của nơron ra i trên ví dụ t h ứ q

- 2 5 -

( H Ư ƠN G IV: M Ạ N G N Ơ R O N T R U Y Ề N T H Á N G VÀ T H U Ậ T T O Á N L AN T R U Y Ề N N G Ư Ợ C

4.1 Kiên trúc co bán

Kiên true m ạ n g truyền thăng nhiêu lớp là kiên trúc chứ đạo của các mạng nơron niệu tại. Mặc dù có khá nhiêu biên thê như ng đặc trưng củ a kiên trúc này là câu trúc và thuật toán học là đơn giản và nhanh (Masters 1993).

\1 ạ 11 £2, truyên thăng nhiêu lớp bao gôm một lớp vào, mộ t hoặc nhiêu lớp ân và một lóp ra. Các noron đầu vào thực chất k h ông phải là nơron theo đúng nghĩa, bivi lè chúng k h ô n g thực hiện bất kỳ một tính toán nào trên dừ liệu vào, đơn giản no chi tiếp n h ậ n các d ừ liệu vào và chuyển cho các lớp kế tiếp. Các nơron ở lớp ân và lóp ra mới thực sự thực hiện các tính toán, kêt quả được định dạng bởi hàm kích hoạt cua nơron đẩu ra.

Hình 4.1: M ạ n g noron truyền thẳng nhiều lóp

ở đây:

P: ma trận đầu vào(R h à n g , 1 cột)

W : ma trận t rọ ng sổ của các nơron lớp thứ i b' ma trận độ lệch cua lớp thứ i

n' : lònu liên két đâu vào(net input) f : hàm kích hoạt cua lớp thứ i a': ma trận dâu ra của lớp thứ i ©: I làm tính tông liên kết đầu vào

Mồi liên kết gan với một trọng số, trọng số này được điều chỉnh trong quá trình till hiệu đi qua liên kêt đó. Trọng số dương thê hiện trạng thái kích thích, các irọim sô âm thê hiện trạng thái kiêm chê. Mồi nơron tính toán mức kích hoạt của ch Ún 12, băng cách tính tông các đâu vào và đưa đên hàm kích hoạt. Khi tất cả các noron trong một lớp m ạ n g cụ thể đã tính toán xon g đầu ra thì lớp kế tiếp có thể bắt dâu thực hiện, bởi vì đầu ra của lớp hiện tại chính là đầu vào của lớp kế tiếp.

Khi tàt cá các nơron của m ạ n g đà thực hiện xo n g tính toán thì đầu ra của nơron lớp ra là kết quả của m ạn g . Tuy nhiên, có thể chưa là kết quả m o ng muốn, khi dó ta cần điều chỉnh các trọng số bằng cách áp dụ n g một th uật toán huấn luyện. Mạng có nhiều lớp có kh ả năng tốt hơn là các mạng chỉ có một lớp, chẳng hạn như mạng hai lớp với lớp thứ nhất sử dụng hà m Sigmoid và lớp thứ hai sử dụng hàm tuyên tính có thê áp dụ n g đê xấp xỉ các hà m toán học khá tốt, trong khi các mạng chi có m ột lớp thi không có khả năng này

Chẳng hạn, đầu ra của lớp thứ 2 là:

a2=f2(n2)=fỉ ( al * w 2+b2) = f !(W2 (f1( P W 1+b' ))+b2)

4.2 Kha nă ng biêu diễn

Chẳng h ạ n [7]:

• M ạ n g mộ t lớp có khả năng biêu diễn các hàm tách được tuyến tính, chăng hạn hà m logic A N D có the phân chia được bằng một đ ườ n g thẳng trong khi miền uiá trị cua hàm X O R thì không.

-27-

• M ạ n g có hai lớp ân có khá tiăng biêu diễn một đ ư ờ n g phân chia tuỳ ý với một độ chính xác bât kỳ với các hàm kích hoạt phân n g ư ỡ ng và có thế xấp xi bât kỳ ánh xạ mịn nào với độ chính xác bất kỳ với các hàm kích hoạt có dạno, Simnoid.

• M ạ ng có một lớp ân có thê xấp xi tot bất kỳ m ột ánh xạ liên tục nào từ một k h ô n g gian hừu hạn sang một khôn g gian hữ u hạn khác, chỉ cần cung eâp đu sô nơron trong lớp ân.

4.3 Vấn đề thiết kế cấu trúc mạng

Vẻ mặt lý thuy ết có tồn tại m ột mạng có thê mô phỏ n g mộ t bài toán với độ chính xác bât kỳ. N h ư n g kh ôn g phải đơn giản đê có thê tìm ra được m ạn g này. Với một bài toán cụ thê đê xác định chính xác mộ t kiên trúc m ạ n g như: cần bao nhiêu lớp ẩn, mồi lớp ẩn cần bao nhiêu nơron là một công việc hết sức khó khăn.

4.3.1 S ổ lớp ẩn

Vê mặt lý thuyết, các m ạn g có hai lớp ân có thê biêu diễn các hà m với dáng điệu bất kỳ, nên k h ô n g có lý do nào sử dụng m ạn g có nhiều hơn hai lớp ẩn. Người ta đã xác định ràn g đối với phần lớn các bài toán cụ thể, chỉ cần sử dụng một lớp ẩn là đủ. Các bài toán sử dụng hai lớp ẩn hiếm khi xảy ra trong thực tế. Việc huấn luyện m ạ n g th ư ờ n g rất chậm khi sử dụng nhiều lớp ấn. Bởi lẽ:

• Phân lớn các thuật toán luyện mạng cho các m ạ n g nơron truyền thắng đều dựa trẽn ph ư ơ n g pháp gradient. Các lớp thêm vào sẽ thêm việc phải lan truyên các lôi làm cho vé ct ơ gradient rât k h ông ôn định. Sự thành công của bât kỳ một thuật toán tối ưu theo gradient phụ thuộc vào độ không thay đôi cua h ư ớ n g khi mà các tham số thay đôi.

• Số các cực trị địa p h ư ơ n g tăng lên rất lớn khi có nhiều lớp ấn. Phần lớn các thuật toán tối ưu dựa trên gradient chi có thê tìm r a c á c c ự c trị địa

- 2 8 -

phuơng, do vậy c h ú n g có thê không tìm ra cực trị toàn cục. Mặc dù thuật toán luyện m ạn g có thê tìm ra cực trị toàn cục, n h ư n g xác suất khá cao là chúng ta sẽ bị tăc tro ng một cực trị địa phương.

• Tuy nhiên, có thê đổi với mộ t bài toán cụ thế, sử dụ n g nhiều hơn một lớp ân với sô ít noron thì tôt hơn là sử dụng ít lớp ân với số nơron là lớn, đặc biệt đôi các m ạn g cân phải học các hàm không liên tục. v ề tông thê người ta cho rằng việc đầu tiên là nên xem xét m ạn g chi có mộ t lớp ẩn. Nếu dùng một lớp ân với m ột lượng lớn các nơron mà k h ô n g có hiệu quả thì nên sử dụng thêm một lớp ân nữa với mộ t sô ít các nơron.

4.3.2 Số II o r on trong lớp ẩn

Vấn đề quan trọng tro ng thiết kế mộ t m ạng là mỗi tần g cần có bao nhiêu nơron. Số nơron tro ng mỗi lớp quá ít có thể dẫn đến việc k hô n g thể nhận dạng được tín hiệu đây đủ trong m ộ t tập dừ liệu phức tạp, hay thiếu ăn khớp. Sử dụng quá nhiều noron sẽ tăng thời gian luyện mạng, có lẽ là quá nhiều để luyện khi mà không thê luyện m ạn g trong mộ t thời gian hợp lý. Sô lượng lớn các nơron có thê dần đen tình trạng quá khớp, trong t rường hợp này m ạ n g có quá nhiều thông tin, hoặc lượng thông tin trong tập ví dụ huấn luyện khô n g đủ các dữ liệu đặc trưng dê huân luyện mạng.

Số lượng thích hợp các nơro n ẩn phụ thuộc vào rất nhiều yếu tố như: sổ đầu vào, sổ đầu ra cua mạng, số t rư ờng hợp trong tập mẫu, độ nhiễu của dữ liệu đích, độ phức tạp của hàm lồi, kiến trúc m ạ n g và thuật toán luyện mạng.

Cỏ rất nhiều luật để lựa chọn sổ nơron trong các lớp ẩ n ( x e m [ l 0]), chẳng hạn: • III e [/,//] : giữa k h o ả n g kích thước lớp vào, lớp ra

-29-

• I I I < 2/ : n h ỏ h ơ n h a i l ầ n k í c h t h ư ớ c l ớ p v à o

• ni \t.n : căn bậc hai cua tích kích thước lớp vào và lớp ra

Các luật này chi được coi n h ư là các lựa chọn thô khi chọn lựa kích thước cua các lớp. C h ú n g không phản ánh được thực tế, bởi lẽ c h ún g chỉ xem xét đến nhân lố kích thước đầu vào, đầu ra m à bó qua các nhân tố quan trọng khác như: sô trirờim hợp dưa vào huấn luyện, độ nhiễu ơ các đâu ra m o n g muôn, độ phức tạp cua hàm lỗi, kiến trúc củ a m ạn g và thuật toán học,

Tronu phần lớn các t r ườ ng hợp, k h ô n g có mộ t cách để có thế dề dàng xác định dược số tối ưu các đơn vị trong lớp ấn mà cách tốt nhất là dùng phương pháp T h ử - Sai. Trong thực tế có thể lựa chọn ph ươ ng pháp Lựa chọn tiến hay Lựa chọn lùi đê xác định số đơn vị trong lớp ân.

Lụa chọn tiến bat đâu với việc chọn m ộ t luật hợp lý cho việc đánh giá hiệu năng cua mạng. Sau đó, ta ch ọ n mộ t sổ nhỏ các nơro n ẩn, luyện và thử mạng, ghi lại hiệu năng c ủa mạng. Tiế p theo tăng m ộ t số ít các nơron ẩn, luyện và thử lại cho den khi lồi là chấp nhận được, hoặc không có tiến triên đáng kê so với trước. Ngược lại, Lựa chọn lùi bắt đầu với m ột sổ lớn nơron trong lớp ẩn, sau đó giảm dần. Quá trình này rất mất thời gian nhưng sẽ giúp ta tìm được số lượng nơron phù hợp cho lớp ân.

4.4 Thuật toán lan truyền n g u ọ c ( B a c k - Propagation Algorithm)

Phần này mô tả thuật toán học sử d ụ n g để điều chỉnh hiệu năng của mạng sao cho mạng có khả năng sinh ra được các kết quả m o n g muôn.

Các mạng nơron truyền th ẳn g nhiều lớp được huấn luyện bằng ph ươ ng pháp học có thầy. Ph ư ơn g pháp này căn bản dựa trên việc yêu cầu m ạn g thực hiện chức nănu cua nó và sau đó trả lại kết quả, kết hợp kết quả này với các đầu ra mong muôn dè diêu chỉnh các tham số của mạng.

-30-

Vê căn ban, thuật toán lan truyên ngược là dạng tông quát của thuật toán trung hình bình p h ư ơ n g tôi thiêu(Least Me ans Square - L M S ) bởi lẽ nó cùng sử dụng kỳ thuật giảm theo h ư ớ n g véct ơ gradient nhưn g với độ phức tạp cua hàm lồi lớn hơn. Thuật toán này thuộc d ạn g thuật toán xấp xỉ để tìm các điểm mà tại đó hiệu năn Lĩ, cua m ạ n g là tôi ưu. Chỉ sô tôi ưu (performance index) thường được xác (.lịnh bơi một hà m sô c ủa ma trận trọng sô và các đâu vào nào đó mà trong quá trình tìm hiêu bài toán đặt ra.

4.4. ỉ Mô tá thuật toán

Ta sẽ sư d ụ n g d ạ n g t ôn g quát của m ạ n g nơron truyên thăng nhiêu lớp như ơ hình 4.1. Khi đó đầu ra c ủa m ộ t lớp trớ thành đầu vào của lớp kế tiếp:

am+1= r +l( W m+1a m+ b nvH) với m = 0 , 1

ớ đây M là sổ lớp t ro ng mạng, các nơron lớp thứ nhất nhận tín hiệu từ bên ngoài: a°=p

đâu ra cua lớp cuôi c ù n g là đầu ra của m ạng a = a m

C h i số hiệu năng (perform ance index)

Thuật toán lan truy ền ngượ c sử d ụ n g chi số hiệu năng là trung bình bình phương lồi cua đầu ra so với giá trị đích. Đầu vào của m ạn g là tập ví dụ huấn luyện:

Upi.ti), (P2,t2),...(Pqtq)}

ơ đây p, là đầu vào và tj là đầu ra đích tương ứng (với i=l,2,...q). Mồi đầu vào đưa vào mạng, sau khi tính toán cho đầu ra, đầu ra này được đem so sánh với đầu ra morm muốn. T h u â t toán sẽ điều chỉnh các th am số của manẹ, để tối thiểu hoá trim ụ bình bình p h ư ơ n g lỗi:

- 3 1 -

Vdây X là b i ê n đ ư ợ c t ạ o t h à n h b ở i c á c t r ọ n g s ô v à đ ộ l ệ c h , E là k ý h i ệ u kỷ v ọ n g ‘oán học. N’ếu n h ư mạng có nhiều đầu ra, ta có thể viết lại ph ư ơ ng trình trên ở dạiiíi ma trận như sau:

F(x) = E\c' e\= E (t - a ) T (t - a)ị

Ký h i ệ u F(.\) là giá trị xấp xỉ của F(x) thì ta có xấp xỉ của trung bình bình phương lỗi n h ư sau:

F(.x) = ( í ( k ) - a ( k ) ) r ( t ( k ) - a ( k ) ) = e r ( k ) e ( k )

iroim đó kỳ v ọ n g toán học của bình p hươ ng lồi được thay bởi bình ph ươ ng lỗi tại bước thứ k.

Thuật toán giảm theo h ướ ng cho trung bình bình p h ư ơ n g lỗi xấp xỉ là: w,;(A + l) = « * ) - a ^ (1) w 7i Õ F b ”(k + ỉ) = b'”( k ) - a ^ r (2) ớ đây a là hệ sổ học L u ậ t x í c h ( C h a i n Rule)

Đòi với m ạ n g nơr on truyền thẳng nhiều lớp, lồi kh ô n g chi là một hàm của chỉ các trọng sô tro ng lớp ân, do vậy việc tính các đạo h à m từng phần này là không đơn gián. C h í nh vì lý do đó mà ta phải sử dụng luật xích đê tính. Luật này được mỏ ta nh ư sau:

Giá SƯ ta có t' là hàm của biên n, ta muô n đạo hà m của f có liên quan đên một biên \Y khác, luật xích này như sau:

df(n{w) df(n) dn{w)

-32-

Vậy dạo hàm trong (1) và (2) sẽ là :

Õ F Õ F on]

0') ir'/í

7 /w ^ m ->/ m

bị õn " ỡbị

tron li đó hạnu, thức thứ hai ở vê phải cua ph ư ơ ng trình (1 ’) và (2’) được tính một c á c h d ề d à n g , b ơ i vì đ â u v à o c ủ a l ớ p m c ủ a m ạ n g là m ộ t h à m c ủ a t r ọ n g s ố v à đ ộ lệch trong tang đó: S'"' m \ ’ m m - \ . 1 m " , = L w ĩia i + b i i=l do vậy Õn"‘ _ , Õnn; — i - = a ” - . _ i _ _ Ị ỡw; aỏ; A ^ /T A , ,

Ta ký hiêu s m = —— là đô nhay cảm của F đôi với các thay đôi của phân tử thứ j

õnn;

cua đầu vào của m ạn g tại lớp thứ m. Khi đó ta có:

ÕF _ ÕF dnj _

—— = — .— — = s : a

wn;: õnn; õw"

0 f _ = dF^ dn J_= m b"; õnn; ' õ b n; j

rhuật toán giảm theo hướng được biêu diễn như sau:

w "( * + l) = w '; { k ) ~ a s " ; a " " A b';‘(k + \) = b " ; ( k ) - a s " ;

- 3 3 - O' đ à ) : W"'(k + 1) = w m ( k ) - a s m {am~' y bm(k + ]) = hm( k ) - a s m ÔF ÕF õ n m õn[ ÕF ôn” ÕF m on „

La n truyền ngược độ nhạy cảm

Bây gi ừ ta cần tính toán nốt ma trận độ nhạy cảm s m. Đ e thực hiện điều này cần sứ dụng m ột áp dụ ng khác của luật xích. Qu á trình này cho ta khái niệm về sự “ Lan truyền ngược” bởi vi nó mô tả mối quan hệ hồi qui trong đó độ nhạy cảm

s ’" được tính qua độ nhạy cảm 5m+l của lớp m +1.

-34- ■ ”\ Iti *■ I ^ m •+• 1 '"N /// + Ì an I on I 67/, m I I I w 07/, <7//' (7; ,,, 1 i s m +1 m + 1 ^ /M +1 on 2 on" on 2 m m rs m on. 1 otu - on ,,,s r\ til +1 ^ m + 1 nt + 1 on zI on m.\ on ^ m 3 m '’S in on, on\ on ,,, 1 - 5

Xét thành phần thử j,i cua ma trận trên :

III T em'] -*> I CI1 í s"‘ Z m +1 ni , Ì i n + ì » a , + h, V /=l da. vv ơn II õlla - w m + 1 m II d f mự ; ' ) ôn? = U’m +1 / ( O ớ đày : a / ' > n

Như vậy ma trận Jaco bia n có thể viết lại như sau: ổ//m+l ^ m+1F ( n m) ổ/i' ơ dây: F («' f 0 ... 0 0 / « ) 0 0 0 / (/>;,)_

-35- ĩ" ( -5 'H * I \ ^ '"i r7 <"/• ồ tì o r T 111 t 1 V 7' r m 1 1 V 7 ' /?/ 4 1 ) -V V m +1 Ồn

Bây uiờ ta có thê thây độ nhạy cảm được lan truyền ngược qua m ạng từ lớp cuối cù nu trơ vê lớp đâu tiên:

( ’ăn nhân m ạn h răng ơ đây thuật toán lan truyền ngược lồi sư dụng cùng một kỳ thuật uiám theo h ư ớ n g như thuật toán LMS. Sự phức tạp duy nhất là ở chỗ đế tính gradient ta cân phải lan truyền n2,ược độ nhạy cảm từ các lớp về các lớp trước.

Bây uiò ta cần biết điểm bắt đầu lan truyền ngược, xét độ nhạy cảm s mtại lớp

cuối cùnu:

nên ta có thê viêt :

sỴ = -2( t j- « , ) / («")

Biêu diễn dưới dạ ng m a trận:

sA/ = -2 F (nM) ( t - a )

- 3 6 -

I III Ạ I T O Á N L A N TRLỈYÈN NGƯỢC - B A C K P R O P A G A T I O N A L G O R I T H M

lì n ó c 1: 1 .an truyên xuôi đâu vào qua mạng

a" = p

a m" = f m" ( W m" a m) + hw" với 111=0 ,1... M -l