M ng tích ch p có lẽ là câu chuy n thành công vĩ đ i nh t v trí thông minh nhân t o l y ạ ậ ệ ạ ấ ề ạ ấ
c m h ng t sinh h c. M c dù m ng tích ch p cũng đả ứ ừ ọ ặ ạ ậ ược d n l i b i nhi u lĩnh v c khác ẫ ố ở ề ự
nh ng các nguyên t c thi t k ch ch t c a m ng chính là đư ắ ế ế ủ ố ủ ạ ược rút ra t khoa h c th n ừ ọ ầ
kinh.
L ch s c a m ng tích ch p b t đ u v i các thí nghi m khoa h c th n kinh khá lâu trị ử ủ ạ ậ ắ ầ ớ ệ ọ ầ ước khi các mô hình tính toán có liên quan được phát tri n. Hai nhà th n kinh h c David Hubel ể ầ ọ
và Torsten Wiesel đã c ng tác trong nhi u năm tr i đ xác đ nh ra các c s c b n nh t ộ ề ờ ể ị ơ ở ơ ả ấ
v cách mà h th ng th giác c a loài đ ng v t có vú ho t đ ng (Hubel and Wiesel, 1959, ề ệ ố ị ủ ộ ậ ạ ộ
1962, 1968). Thành t u c a h cu i cùng đã đự ủ ọ ố ược công nh n v i m t gi i Nobel. Các k t ậ ớ ộ ả ế
qu này đã mang đ n ngu n c m h ng to l n cho các mô hình h c sâu đả ế ồ ả ứ ớ ọ ương th i d a ờ ự
trên vi c ghi l i ho t đ ng c a các neuron riêng l mèo. H quan sát cách neuron trong ệ ạ ạ ộ ủ ẻ ở ọ
não c a mèo ph n ng v i nh ng hình nh chi u nh ng v trí chính xác trên màn hình ủ ả ứ ớ ữ ả ế ở ữ ị
trước m t nó. Phát hi n tuy t v i c a h là các neuron trong h th ng th giác ban đ u ặ ệ ệ ờ ủ ọ ệ ố ị ầ
ph n ng m nh mẽ nh t v i các m u ánh sáng c th , nh các thanh đ nh hả ứ ạ ấ ớ ẫ ụ ể ư ị ướng chính xác, nh ng h u nh không ph n ng v i các m u khác.ư ầ ư ả ứ ớ ẫ
Công vi c c a h đã giúp mô t nhi u khía c nh c a ch c năng não, vệ ủ ọ ả ề ạ ủ ứ ượt quá ph m vi c a ạ ủ
cu n sách này. T góc nhìn c a h c sâu, chúng ta có th t p trung vào m t cái nhìn đ n ố ừ ủ ọ ể ậ ộ ơ
gi n, cái nhìn ho t h a v ch c năng c a não.ả ạ ọ ề ứ ủ
Theo quan đi m đ n gi n này, chúng tôi t p trung vào m t ph n c a b não g i là V1, còn ể ơ ả ậ ộ ầ ủ ộ ọ
đượ ọc g i là v não th giác s c pỏ ị ơ ấ (primary visual cortex). V1 là vùng đ u tiên c a b não ầ ủ ộ
b t đ u th c hi n vi c x lý c p cao các đ u vào thu c v th giác. Trong góc nhìn ho t ắ ầ ự ệ ệ ử ấ ầ ộ ề ị ạ
h a này, hình nh đọ ả ược hình thành b i ánh sáng đ n m t và kích thích võng m c - mô ở ế ắ ạ
nh y c m v i ánh sáng phía sau c a m t. Các neuron trong võng m c th c hi n m t s ạ ả ớ ở ủ ắ ạ ự ệ ộ ố
ti n x lý đ n gi n c a hình nh nh ng không thay đ i đáng k cách nó đề ử ơ ả ủ ả ư ổ ể ược bi u di n. ể ễ
Hình nh sau đó đi qua dây th n kinh th giác và m t vùng não đả ầ ị ộ ượ ọc g i là h t nhân di ạ truy n biênề (lateral geniculate nucleus - LGN). Vai trò chính, theo nh chúng ta quan tâm, ư
c a c hai vùng k t c u ch y u ch mang tín hi u t m t đ n V1, n m phía sau đ u.ủ ả ế ấ ủ ế ỉ ệ ừ ắ ế ằ ở ầ
M t t ng m ng tích ch p độ ầ ạ ậ ược thi t k đ n m b t ba thu c tính c a V1: 1. V1 đế ế ể ắ ắ ộ ủ ượ ắc s p x p trong m t ánh x không gian. Nó th c ra có c u trúc chi u, ph n chi u c u trúc c a ế ộ ạ ự ấ ề ả ế ấ ủ
hình nh trong võng m c. Ví d , ánh sáng đ n n a dả ạ ụ ế ử ướ ủi c a võng m c ch nh hạ ỉ ả ưởng t i ớ
m t n a tộ ử ương ng c a V1. Các m ng tích ch p n m b t thu c tính này b ng các đ c ứ ủ ạ ậ ắ ắ ộ ằ ặ
tr ng đư ược đ nh nghĩa dị ướ ại d ng ánh x chi u. 2. V1 ch a nhi u ạ ề ứ ề t bào đ n gi nế ơ ả . Ho t ạ
nh trong m t ph m vi ti p nh n c c b . Các đ n v dò tìm c a m t m ng tích ch p đ c
ả ộ ạ ế ậ ụ ộ ơ ị ủ ộ ạ ậ ượ
thi t k đ mô ph ng các đ c tính này c a các t bào đ n gi n. 3. V1 cũng ch a nhi u t ế ế ể ỏ ặ ủ ế ơ ả ứ ề ế
bào ph c t p. Nh ng t bào này ph n ng v i các đ c tr ng tứ ạ ữ ế ả ứ ớ ặ ư ương t v i các đ c tr ng ự ớ ặ ư
được phát hi n b i các t bào đ n gi n, nh ng các t bào ph c t p l i b t bi n đ i v i ệ ở ế ơ ả ư ế ứ ạ ạ ấ ế ố ớ
các d ch chuy n nh v v trí c a đ c tr ng. Đi u này truy n c m h ng cho các đ n v g pị ể ỏ ề ị ủ ặ ư ề ề ả ứ ơ ị ộ
c a m ng tích ch p. Các t bào ph c t p cũng b t bi n đ i v i m t s thay đ i v ánh ủ ạ ậ ế ứ ạ ấ ế ố ớ ộ ố ổ ề
sáng v n không th b n m b t ch b i g p các v trí không gian. Nh ng b t bi n này đã ố ể ị ắ ắ ỉ ở ộ ị ữ ấ ế
truy n c m h ng cho m t s chi n lề ả ứ ộ ố ế ượ ộc g p kênh chéo trong các m ng tích ch p, ch ng ạ ậ ẳ
h n nh các đ n v đ u ra c c đ i (Goodfellow et al., 2013a).ạ ư ơ ị ầ ự ạ
M c dù g n nh ch bi t v V1 nh ng ngặ ầ ư ỉ ế ề ư ười ta tin r ng các nguyên t c c b n y h t cũng ằ ắ ơ ả ệ
được áp d ng vào các vùng khác c a h th ng th giác. Trong góc nhìn c a chúng ta v h ụ ủ ệ ố ị ủ ề ệ
th ng th giác, chi n lố ị ế ượ ơ ảc c b n c a vi c phát hi n theo sau b i phép g p đủ ệ ệ ở ộ ược áp d ng ụ
l p đi l p l i khi chúng ta ti n sâu h n vào não. Khi đi qua nhi u t ng k t c u c a não, ặ ặ ạ ế ơ ề ầ ế ấ ủ
cu i cùng chúng ta sẽ tìm ra đố ược các t bào ph n ng v i m t s khái ni m c th và b t ế ả ứ ớ ộ ố ệ ụ ể ấ
bi n đ i v i nhi u phép bi n đ i đ u vào. Nh ng t bào này đế ố ớ ề ế ổ ầ ữ ế ược đ t bi t danh là “t bàoặ ệ ế
người bà” (grandmother cells) - ý tưởng là m t ngộ ười có th có m t neuron kích ho t khi ể ộ ạ
nhìn th y hình nh c a ngấ ả ủ ười bà, b t k bà y có xu t hi n bên trái hay bên ph i c a ấ ể ấ ấ ệ ở ả ủ
nh, ch p c n c nh khuôn m t hay phóng to thu nh toàn b ng i, cho dù bà y có đ c
ả ụ ậ ả ặ ỏ ộ ườ ấ ượ
chi u sáng ho c trong bóng t i, v.v.ế ặ ở ố
Nh ng t bào này đã đữ ế ược ch ng minh là th c s t n t i trong não ngứ ự ự ồ ạ ười, trong m t vùng ộ
g i là thùy thái dọ ương trung tâm (Quiroga et al., 2005). Các nhà nghiên c u đã ki m tra li uứ ể ệ
các neuron riêng l có ph n ng v i nh c a nh ng ngẻ ả ứ ớ ả ủ ữ ườ ổ ếi n i ti ng hay không. H đã tìm ọ
th y th đấ ứ ượ ọc g i là “neuron Halle Berry”, m t neuron riêng l độ ẻ ược kích ho t b i khái ạ ở
ni m v Halle Berry. T bào th n kinh này kích phát khi m t ngệ ề ế ầ ộ ười nhìn th y nh c a ấ ả ủ
Halle Berry, m t b n vẽ Halle Berry, ho c th m chí văn b n có ch a c m t "Halle Berry." ộ ả ặ ậ ả ứ ụ ừ
T t nhiên, đi u này không liên quan gì đ n b n thân Halle Berry; cũng có các neuron khác ấ ề ế ả
đáp l i s hi n di n c a Bill Clinton, Jennifer Aniston, v.v.ạ ự ệ ệ ủ
Các neuron thùy thái dương trung tâm này t ng quát h n các mô hình m ng tích ch p hi nổ ơ ạ ậ ệ
đ i, v n sẽ không t đ ng khái quát hóa đ xác đ nh m t ngạ ố ự ộ ể ị ộ ười ho c đ i tặ ố ượng khi đ c ọ
tên c a nó. Th tủ ứ ương t nh t v i t ng cu i cùng c a m t m ng tích ch p c a các đ c ự ấ ớ ầ ố ủ ộ ạ ậ ủ ặ
tr ng là m t vùng não đư ộ ượ ọc g i là võ não phía dướ ủi c a thùy thái dương (inferotemporal cortex) (IT). Khi nhìn th y m t v t th , thông tin t võng m c, thông qua LGN, đ n V1, sau ấ ộ ậ ể ừ ạ ế
đó chuy n sang V2, sau đó là V4, IT. Đi u này x y ra trong 100 mili giây đ u tiên khi nhìn ể ề ả ầ
thoáng qua v t th . N u đậ ể ế ược phép ti p t c nhìn vào v t th trong th i gian dài h n, thì ế ụ ậ ể ờ ơ
thông tin sẽ b t đ u truy n ngắ ầ ề ược vì não s d ng ph n h i t trên xu ng đ c p nh t các ử ụ ả ồ ừ ố ể ậ ậ
kích ho t các vùng não c p th p h n. Tuy nhiên, n u chúng ta làm gián đo n t m nhìn ạ ở ấ ấ ơ ế ạ ầ
c a ngủ ười đó và ch quan sát các t l kích phát x y ra ch y u là kích ho t lan truy n ỉ ỷ ệ ả ủ ế ạ ề
thu n trong 100 mili giây đ u tiên thì IT ch ng t là tậ ầ ứ ỏ ương t nh m ng tích ch p. Các ự ư ạ ậ
m ng tích ch p có th d đoán t l kích phát IT và th c hi n tạ ậ ể ự ỷ ệ ự ệ ương t nh con ngự ư ười (có gi i h n th i gian) đ i v i các tác v nh n d ng v t th (DiCarlo, 2013).ớ ạ ờ ố ớ ụ ậ ạ ậ ể
Đi u đó nói lên r ng, có r t nhi u s khác bi t gi a các m ng tích ch p và h th ng th ề ằ ấ ề ự ệ ữ ạ ậ ệ ố ị
giác c a loài đ ng v t có vú. M t s trong s nh ng khác bi t này đủ ộ ậ ộ ố ố ữ ệ ược các nhà th n kinh ầ
khác bi t khác thì ch a đệ ư ược bi t đ n, b i vì nhi u câu h i c b n v cách h th ng th ế ế ở ề ỏ ơ ả ề ệ ố ị
giác c a loài đ ng v t có vú ho t đ ng v n còn là n s . M t vài tóm t t:ủ ộ ậ ạ ộ ẫ ẩ ố ộ ắ
• M t ngắ ườ ầi h u nh có đ phân gi i r t th p, ngo i tr m t m nh nh g i là ư ộ ả ấ ấ ạ ừ ộ ả ỏ ọ h th ố ị giác (fovea) . H th giác ch quan sát m t khu v c có kích thố ị ỉ ộ ự ước b ng đ dài móng tay ằ ộ
cái. M c dù chúng ta c m th y mình có th nhìn th y toàn b khung c nh đ phân ặ ả ấ ể ấ ộ ả ở ộ
gi i cao, th t ra đây ch là m t o tả ậ ỉ ộ ả ưởng đượ ạc t o ra b i ph n ti m th c c a b não, ở ầ ề ứ ủ ộ
khi nó ch p vá nh ng cái nhìn lắ ữ ướt qua c a các khu v c nh . H u h t các m ng tích ủ ự ỏ ầ ế ạ
ch p th c s nh n đậ ự ự ậ ược m t lộ ướng l n hình nh có đ phân gi i cao làm đ u vào. Bớ ả ộ ả ầ ộ
não con người th c hi n m t s chuy n đ ng m t g i là ự ệ ộ ố ể ộ ắ ọ li c nhanhế (Saccade) đ nhìnể
thoáng qua nh ng ph n n i b t ho c liên quan nh t c a khung c nh. K t h p các c ữ ầ ổ ậ ặ ấ ủ ả ế ợ ơ
ch chú ý tế ương t vào các mô hình h c t p sâu là m t hự ọ ậ ộ ướng nghiên c u tích c c. ứ ự
Trong b i c nh h c sâu, các c ch chú ý tr nên thành công nh t trong lĩnh v c x lý ố ả ọ ơ ế ở ấ ự ử
ngôn ng t nhiên, nh đữ ự ư ược mô t trong ph n 12.4.5.1. M t s mô hình th giác v i ả ầ ộ ố ị ớ
các c ch h th giác đã đơ ế ố ị ược phát tri n nh ng cho đ n nay v n ch a tr thành ể ư ế ẫ ư ở
hướng ti p c n th ng tr (Larochelle and Hinton, 2010; Denil et al., 2012).ế ậ ố ị
• H th ng th giác c a con ngệ ố ị ủ ườ ượi đ c tích h p v i nhi u giác quan khác, ví d nh ợ ớ ề ụ ư
thính giác, và các y u t nh tâm tr ng và suy nghĩ. M ng tích ch p cho đ n nay là ch ế ố ư ạ ạ ậ ế ỉ
hoàn toàn là v th giác.ề ị
• H th ng th giác c a con ngệ ố ị ủ ười làm nhi u h n vi c ch nh n bi t các v t th . Nó có ề ơ ệ ỉ ậ ế ậ ể
th hi u để ể ược toàn c nh, bao g m nhi u v t th và m i quan h gi a các v t th , và ả ồ ề ậ ể ố ệ ữ ậ ể
nó x lý t t thông tin hình h c chi u c n thi t cho c th đ giao ti p v i v n v t. ử ố ọ ề ầ ế ơ ể ể ế ớ ạ ậ
M ng tích ch p đã đạ ậ ược áp d ng vào m t vài trong s nh ng v n đ này nh ng các ụ ộ ố ữ ấ ề ư
ng d ng v n ch đang giai đo n s khai.
ứ ụ ẫ ỉ ở ạ ơ
• Ngay c nh ng vùng não đ n gi n nh V1 cũng b nh hả ữ ơ ả ư ị ả ưởng m nh mẽ b i ph n h i ạ ở ả ồ
t các vùng b c cao. Ph n h i đã đừ ậ ả ồ ược khám phá r ng rãi trong các mô hình m ng ộ ạ
neuron nh ng ch a đư ư ược ch ng minh là có m t c i ti n thuy t ph c nào.ứ ộ ả ế ế ụ
• Khi IT lan truy n thu n kích phát n m b t đề ậ ắ ắ ược nhi u thông tin gi ng nhau, tề ố ương tự
nh các đ c tr ng trong m ng tích ch p, ta không rõ r ng các tính toán trung gian ư ặ ư ạ ậ ằ
gi ng nhau nh th nào. Não có th s d ng các hàm s kích ho t và g p r t khác. ố ư ế ể ử ụ ố ạ ộ ấ
Hàm kích ho t c a m t neuron riêng l có lẽ không bi u th t t b ng m t ph n h i ạ ủ ộ ẻ ể ị ố ằ ộ ả ồ
tuy n tính đ n l . M t mô hình g n đây c a V1 có liên quan đ n nhi u b l c b c ế ơ ẻ ộ ầ ủ ế ề ộ ọ ậ
cho m i neuron (Rust et al., 2005). Th c t hình nh ho t h a c a chúng ta v “các t ỗ ự ế ả ạ ọ ủ ề ế
bào đ n gi n” và “các t bào ph c t p” có th là m t s phân bi t không t n t i; các ơ ả ế ứ ạ ể ộ ự ệ ồ ạ
t bào đ n gi n và các t bào ph c t p có th là cùng m t lo i t bào nh ng "các ế ơ ả ế ứ ạ ể ộ ạ ế ư
tham s " c a chúng m ra các hành vi liên t c t nh ng gì chúng ta g i là "đ n gi n" ố ủ ở ụ ừ ữ ọ ơ ả
đ n cái mà chúng ta g i là "ph c t p".ế ọ ứ ạ
Đi u đáng nói là khoa h c th n kinh ch cho chúng ta bi t tề ọ ầ ỉ ế ương đ i ít v cách làm th nàoố ề ế
đ hu n luy n m ng tích ch p. Các ki n trúc mô hình v i chia s tham s trên nhi u v trí ể ấ ệ ạ ậ ế ớ ẻ ố ề ị
không gian kh i ngu n t các mô hình k t n i th giác ban đ u (Marr and Poggio, 1976), ở ồ ừ ế ố ị ầ
nh ng các mô hình này không s d ng thu t toán lan truy n ngh ch và trư ử ụ ậ ề ị ượt gradient hi nệ
mô hình c a m ng tích ch p hi n đ i nh ng d a trên m t thu t toán phân c m không ủ ạ ậ ệ ạ ư ự ộ ậ ụ
giám sát theo t ng t ng.ừ ầ
Lang và Hinton (1988) đã gi i thi u vi c s d ng lan truy n ngh ch đ hu n luy n ớ ệ ệ ử ụ ề ị ể ấ ệ m ng ạ neuron trì hoãn th i gianờ (time-delay neural network - TDNN). Đ s d ng thu t ng ể ử ụ ậ ữ
đương th i, m ng neuron trì hoãn th i gian là m ng tích ch p chi u đờ ạ ờ ạ ậ ề ược áp d ng cho ụ
chu i th i gian. Lan truy n ngh ch đỗ ờ ề ị ược áp d ng vào các mô hình này không l y c m h ngụ ấ ả ứ
t b t kỳ quan sát th n kinh nào và đừ ấ ầ ược m t s ngộ ố ười coi là không h p lý v m t sinh ợ ề ặ
h c. Sau s thành công c a quá trình hu n luy n d a trên lan truy n ngh ch c a m ng ọ ự ủ ấ ệ ự ề ị ủ ạ
neuron trì hoãn th i gian, LeCun và đ ng nghi p (1989) đã phát tri n ra m ng tích ch p ờ ồ ệ ể ạ ậ
hi n đ i b ng cách áp d ng cùng m t thu t toán hu n luy n cho phép tích ch p chi u ệ ạ ằ ụ ộ ậ ấ ệ ậ ề
được áp d ng cho hình nh.ụ ả
Cho đ n nay, chúng tôi đã mô t cách các t bào đ n gi n g n nh tuy n tính và ch n l c ế ả ế ơ ả ầ ư ế ọ ọ
đ i v i các đ c tr ng nh t đ nh, các t bào ph c t p phi tuy n tính h n và tr nên b t ố ớ ặ ư ấ ị ế ứ ạ ế ơ ở ấ
bi n trế ước m t s phép bi n đ i c a các đ c tr ng t bào đ n gi n và x p ch ng thành ộ ố ế ổ ủ ặ ư ế ơ ả ế ồ
các t ng xen kẽ gi a s ch n l c và b t bi n có th sinh ra các t bào ngầ ữ ự ọ ọ ấ ế ể ế ười bà cho các hi n tệ ượng c th . Chúng ta v n ch a mô t đụ ể ẫ ư ả ược chính xác nh ng gì mà các t bào riêng ữ ế
l này phát hi n đẻ ệ ược. Trong m t m ng phi tuy n tính sâu, sẽ khó đ hi u độ ạ ế ể ể ược ch c ứ
năng c a các t bào riêng bi t. Các t bào đ n gi n trong t ng đ u tiên d phân tích h n ủ ế ệ ế ơ ả ầ ầ ễ ơ
vì ph n h i c a chúng đả ồ ủ ược đi u khi n b i hàm tuy n tính. Trong m t m ng neuron nhânề ể ở ế ộ ạ