V NGăGIAăH I1,2*,ăNGUY NăTH ăH NGăMINH1,ăNGUY Nă CăTOÀN
H c sõu (Deep learning) làm tl nh vc conc al nhv ch c mỏy (machine learning) vi cỏc mụ hỡnh toỏn h c g i là m ng n ron (neural netаork) cú c u trỳc đ c xсy d ng d a trờn s mụ
ph ng c u trỳc và ch c n ng c a b nóo con ng i. Khỏi ni m m ng n ron khụng ph i là m t khỏi ni m m i mà đó đ c đ xu t t n m 19η9 [1]. Tuy nhiờn cỏc m ng n ron th i k đ u (cũn đ c g i là cỏc m ng n ron truy n th ng ho c nụng - sаalloа) cú c u trỳc đ n gi n v i 2-3 l p n n m gi a l p input và output cú nh ng h n ch c h u: do c u trỳc đ n gi n nờn s c m nh c a m ng khụng l n, đ chớnh xỏc khi ỏp d ng vào cỏc bài toỏn nh n d ng v i d li u cú tớnh đa d ng khụng cao, khụng t n d ng đ c ngu n d li u l n đ c i ti n s cm nh c a m ng. M ng h c sсu (deep neural netаork) là m t m r ng c a m ng n ron truy n th ng v i nhi u l p n ph c t p gi a l p input và output, s d ng cỏc hàm bi n đ i phi tuy n cho vi c trớch ch n đ c tr ng và bi n đ i cỏc đ c tr ng, trong đú k t qu output c a l p tr c s là d li u input cho l p sau. Do c u trỳc ph c t p nờn m ng h c sсu khụng cú c u trỳc k t n i đ y đ cho t t c cỏc l p n. Cỏc m ng h c sсu
s d ng cỏc k thu t h c cú giỏm sỏt và khụng cú giỏm sỏt cho cỏc bài toỏn phсn l p. S c m nh c a m ng h c sсu so v i m ng n ron truy n th ng cú đ c là do c u trỳc c a m ng cho phộp chỳng cú th h c và trớch ch n đ c cỏc bi u di n đ c tr ng c a d li u đ u vào nhi u m c khỏc nhau. Cú nhi u mụ hỡnh m ng h c sсu khỏc nhau và chỳng thớch h p cho cỏc bài toỏn khỏc nhau nh ng trong n i dung c a bài bỏo này, chỳng tụi t p trung vào m ng n ron nhсn ch p (Convolutional neural netаork) vỡ đсy là mụ hỡnh m ng phự h p nh t v i cỏc bài toỏn nh n d ng hỡnh nh núi chung và bài toỏn nh n d ng gi i tớnh núi riờng.
C u trỳc cỏc ph n ti p theo c a bài toỏn bao g m: ph n 2 trỡnh bày v m t s nghiờn c u liờn quan, ph n 3 trỡnh bày v h th ng đ xu t và cỏc k thu t t ng c ng d li u đ c s d ng, ph n 4 trỡnh bày v k t qu th c nghi m trờn c s d li u nh LFW, cu i cựng là ph n k t lu n.
2.ăCỏcănghiờnăc uăliờnăquan
Cỏc h th ng nh n d ng gi i tớnh truy n th ng th ng d a trờn cỏc ph ng phỏp trớch ch n đ c tr ng c c b , ch ng h n nh cỏc cụng b [2], [3], [4]. Tuy nhiờn g n đсy cỏc đ xu t m i d n chuy n sang s d ng cỏc ti p c n d a trờn cỏc m ng h c sсu. Trong [5], cỏc tỏc gi đó s d ng m t m ng nhсn ch p cho c hai bài toỏn nh n d ng tu i và gi i tớnh v i k t qu t t h n so v i cỏc ti p c n truy n th ng. Eidinger và cỏc c ng s [6] đó xсy d ng m t mụ hỡnh d a trờn m ng tin sсu (deep bilief netаork) đ nh n d ng cỏc nh cỏc đi u ki n ph c t p. C ng d a trờn m ng tin sсu, m t cụng trỡnh khỏc ph i k đ n do Гhang và cỏc c ng s đ xu t trong [7]. Lao và cỏc c ng s [8] đó d a trờn m ng h c sсu v i cỏc k thu t và đ c tr ng c c b đ nh n d ng gi i tớnh. Núi chung so v i cỏch ti p c n truy n th ng cỏch ti p c n d a trờn m ng h c sсu cú cỏc u đi m sau: đ chớnh xỏc cao h n đ c bi t là khi làm vi c v i cỏc nh cú đi u ki n ph c t p, đa d ng v ỏnh sỏng, đ m , c m xỳc, che khu t. Bờn c nh đú, cỏc m ng h c sсu c ng s d ng đ c h t ngu n d li u nh cú s l ng và kớch th c l n. Ng c l i cỏc h th ng d a trờn h c sсu c ng cú m t s yờu c u: c n d li u l n đ hu n luy n mụ hỡnh m ng, c n cú ph n c ng đ c thự đ m nh đ th c hi n vi c hu n luy n (cỏc h th ng cú chip GPU chuyờn d ng v i b nh l n) và th i gian hu n luy n lсu (t vài gi , cho t i vài ngày ho c th m chớ vài tu n).
3.ăThi tăk ămụăhỡnhăm ngăn ăronănhơnăch păvàăỏpăd ngăcỏcăk ăthu tăt ngăc ngăd ăli uăchoă bàiătoỏnănh năd ngăgi iătớnh
3.1. Mụ hỡnh m ng n ron nhõn ch p đ xu t
M ng n ron h c sсu khi s d ng cho bài toỏn nh n d ng gi i tớnh d a trờn nh m t ng i s th c hi n 3 cụng vi c t ng ng v i 3 b c trong h th ng nh n d ng nh đó đ c p ph n 1: trớch ch n đ c tr ng, h c và phсn l p. Do đú, đ chớnh xỏc c a h th ng hoàn toàn ph thu c vào s c m nh c a m ng n ron s d ng. Cỏc thành ph n c a m t m ng n ron nhсn ch p (Hỡnh 1) g m cú: l p input, l p nhсn ch p (convolution), l p t ng h p đ c tr ng (pooling), l p dropout, l p output. L p input g m cỏc d li u t nh input đ a vào m ng, l p output là l p cú s nỳt t ng ng v i s nhón đ u ra, trong bài toỏn nh n d ng gi i tớnh là 2 nỳt. L p input đ c k t n i đ y đ v i l p n đ u tiờn c a m ng, cũn l p n cu i cựng c a m ng (n m tr c l p output) s k t n i v i l p output.
Hỡnh 1. Mụ hỡnh m ng nhõn ch p đ xu t b i LeCun và cỏc c ng s [9]
Cỏc thành ph n c a m ng n ron nhсn ch p cú vai trũ khỏc nhau. L p nhсn ch p đúng vai trũ là cỏc b l c v i m c đớch sinh ra cỏc ma tr n đ c tr ng (feature map) t d li u input nh n đ c t l p tr c. L p t ng h p (pooling) th c hi n vi c ch n l c và gi l i cỏc đ c tr ng quantr ng nh t. Vi c ch n l c là c n thi t vỡ m i m ng s d ng nhi u nhсn khỏc nhau và s sinh ra s ma tr n đ c tr ng r t l n, n u gi nguyờn s nсng chi phớ tớnh toỏn lờn r t l n m t cỏch khụng c n thi t. Riờng l p dropout m i đ c b sung trong cỏc mụ hỡnh g n đсy [10] và th ng đ c dựng sau m i kh i (block) g m l p nhсn ch p và l p t ng h p d a trờn m t quan sỏt là m ng s m nh h nn u m t ph n ng u nhiờn c a m i block đ c b ra ngoài quỏ trỡnh h c (gi ng nh m t giỏm đ c cú n tr lý nh ng luụn ch dựng kho ng 80% s tr lý đ n u cú ai đú ngh thỡ h th ng v n ho t đ ng t t).
Mụ hỡnh chỳng tụi đ xu t cho bài toỏn nh n d ng gi i tớnh t nh m t ng i cú c u trỳc nh trong Hỡnh 2 bờn d i.
Hỡnh 2. Mụ hỡnh m ng n ron nhõn ch p đ xu t cho bài toỏn nh n d ng gi i tớnh
Cú th th y trờn Hỡnh 2 mụ hỡnh đ xu t c a chỳng tụi g m 8 kh i chớnh, m i kh i g m l n l t θ4, θ4, 128, 128, 128, 2ηθ, 2ηθ, 2ηθ b nhсn ch p. Cỏc l p t ng h p s d ng hàm max (maxpooling) l n l t đ c s d ng sau m i kh i nhсn ch p. Cỏc l p dropout v i t l 0,η đ c s d ng sau hàm t ng h p c a m i kh i. T ng s tham s c a mụ hỡnh m ng là h n 40 tri u.
3.2. K thu t t ng c ng d li u
Bờn c nh vai trũ ch đ o c a mụ hỡnh m ng s d ng cho m i h th ng nh n d ng gi i tớnh d a trờn nh m t đ i v i đ chớnh xỏc c a h th ng, m t y u t c ng r t quan tr ng n a là d li u. Thụng th ng khi ch a đ t t i ng ng, cỏc h th ng s càng chớnh xỏc h n n u d li u h c c a nú càng nhi u. Tuy nhiờn đ i v i bài toỏn nh n d ng hỡnh nh, s d li u nh cho h th ng h c th ng quỏ ớt (vớ d c s d li u LFW [11] ch cú 13.233 b c nh) do đú c n cỏc k thu t t ng c ng s l ng nh đ trỏnh hi n t ng quỏ kh p (overfitting) và c i thi n hi u n ng c a m ng. Trong bài bỏo này chỳng tụi s d ng η k thu t x lý nh (Hỡnh 3) đ sinh η nh t 1 nh input và do đú t ng s nh hu n luy n s là θ*N v i N là s nh hu n luy n. Cỏc k thu t c th g m cú: cсn b ng histogram, xoay, d ch, c t xộn (shear), l y đ i x ng.
Hỡnh 3. nh m t ng i và m t s k thu t t ng c ng d li u
4.ăK tăqu ăth cănghi măvàăphơnătớch