Trong luận văn này, tác giả tập trung nghiên cứu tóm tắt văn bản tự động theo hướng tóm lược, các mô hình kiến trúc mạng học sâu và các kỹ thuật xử lý những thách thức trong tóm tắt văn bản. Mời các bạn cùng tham khảo nội dung chi tiết.
Trang 1Đ I H C QU C GIA HÀ N I Ạ Ọ Ố Ộ
TR ƯỜ NG Đ I H C CÔNG NGH Ạ Ọ Ệ
Trang 3M C L CỤ Ụ
Trang 4DANH M C HÌNH VỤ Ẽ
Trang 6M Đ UỞ Ầ
V i s phát tri n m nh m c a công ngh thông tin và m ng máy tính, lớ ự ể ạ ẽ ủ ệ ạ ượng tài li u văn b n kh ngệ ả ổ
l đồ ượ ạc t o ra v i nhi u m c đích s d ng khác nhau khi n cho vi c đ c hi u và trích lớ ề ụ ử ụ ế ệ ọ ể ược các thông tin c n thi t trong kh i tri th c đ s này t n r t nhi u th i gian và chi phí (đ c bi t là chi phí cho hầ ế ố ứ ồ ộ ố ấ ề ờ ặ ệ ạ
t ng và truy n d n thông tin đáp ng yêu c u cho m t s lầ ề ẫ ứ ầ ộ ố ượng ngày càng nhi u các thi t b c m tay).ề ế ị ầ
Đ tăng hi u qu cũng nh d dàng h n trong vi c ti p nh n thông tin c a ngể ệ ả ư ễ ơ ệ ế ậ ủ ười dùng, nhi u nghiênề
c u v khai phá d li u và x lý ngôn ng t nhiên đã đứ ề ữ ệ ử ữ ự ược th c hi n.ự ệ M t trong nh ng nghiên c uộ ữ ứ quan tr ng đóng vai trò then ch t đó tóm t t văn b n t đ ng. ọ ố ắ ả ự ộ
Bài toán tóm t t văn b n ti ng Vi t cũng đắ ả ế ệ ược nghiên c u và áp d ng nhi u k thu t nh đ i v iứ ụ ề ỹ ậ ư ố ớ
ti ng Anh; tuy nhiên, tóm t t văn b n nói riêng và x lý ngôn ng t nhiên nói chung áp d ng cho ti ngế ắ ả ử ữ ự ụ ế
Vi t ệ g p nhi u thách th c h nặ ề ứ ơ S dĩ ở là vì ti ng Vi t v i đ c tr ng là ti ng đ n âm và có thanh đi uế ệ ớ ặ ư ế ơ ệ nên vi c tách t , tách các thành ph n ng nghĩa trong câu ti ng Vi t đòi h i x lý ph c t p h n so v iệ ừ ầ ữ ế ệ ỏ ử ứ ạ ơ ớ
x lý câu ti ng Anhử ế , thêm vào đó, không có nhi u kho d li u ti ng Vi t đề ữ ệ ế ệ ược chu n hóa và công b ẩ ốTrong lu n văn này, chúng tôi t p trung nghiên c u tóm t t văn b n t đ ng theo hậ ậ ứ ắ ả ự ộ ướng tóm lược, các
mô hình ki n trúc m ng h c sâu và các k thu t x lý nh ng thách th c trong tóm t t văn b n. B c cế ạ ọ ỹ ậ ử ữ ứ ắ ả ố ụ
c a lu n văn đủ ậ ượ ổc t ch c thành nh sau:ứ ư
Chương 1: Khái quát bài toán tóm t t văn b nắ ả gi i thi u t ng quan v bài toán tóm t t văn b n tớ ệ ổ ề ắ ả ự
đ ng, đ nh nghĩa và các hộ ị ướng ti p c n.ế ậ
Chương 2: M t s nghiên c u v tóm t t văn b nộ ố ứ ề ắ ả gi i thi u m t s phớ ệ ộ ố ương pháp, k thu t đãỹ ậ
được nghiên c u và áp d ng cho bài toán tóm t t văn b n t đ ng.ứ ụ ắ ả ự ộ
Chương 3: M ng n ron nhân t oạ ơ ạ gi i thi u c s lý thuy t và cách ho t đ ng c a các mô hìnhớ ệ ơ ở ế ạ ộ ủ
ki n trúc t m ng ANN t i RNN và LSTM.ế ừ ạ ớ
Chương 4: Xây d ng h th ng tóm t t văn b n theo hự ệ ố ắ ả ướng tóm lượ trình bày mô hình bài toán ctóm t t văn b n t đ ng, quy trình th c hi n gi i quy t bài toán trong lu n văn, các xây d ng mô hìnhắ ả ự ộ ự ệ ả ế ậ ự
h c sâu d a trên ki n trúc m ng LSTM áp d ng cho bài toán tóm t t văn b n.ọ ự ế ạ ụ ắ ả
Chương 5: Th nghi m và đánh giáử ệ trình bày quá trình th nghi m mô hình đã xây d ng cho t p dử ệ ự ậ ữ
li u ti ng Anh và ti ng Vi t và th c hi n đánh giá đ chính xác c a mô hình b ng phệ ế ế ệ ự ệ ộ ủ ằ ương pháp ROUGE
K t lu n:ế ậ ph n này t ng k t các đóng góp và k t qu đ t đầ ổ ế ế ả ạ ược trong quá trình nghiên c u và th cứ ự
hi n lu n văn, cũng nh hệ ậ ư ướng phát tri n trong tể ương lai đ hoàn thi n h n k t qu nghiên c u.ể ệ ơ ế ả ứ
Trang 7KHÁI QUÁT BÀI TOÁN TÓM T T VĂN B NẮ Ả
1.1. Bài toán tóm t t văn b n t đ ngắ ả ự ộ
Tóm t t văn b n t đ ng là tác v đ t o ra m t tóm t t chính xác và h p ng pháp trong khi v n giắ ả ự ộ ụ ể ạ ộ ắ ợ ữ ẫ ữ
được các thông tin chính và ý nghĩa c a văn b n g c. Trong các năm g n đây, có r t nhi u hủ ả ố ầ ấ ề ướng ti pế
c n đã đậ ược nghiên c u cho tóm t t văn b n t đ ng và đã đứ ắ ả ự ộ ược áp d ng r ng rãi trong nhi u lĩnhụ ộ ề
v c. Ví d , máy tìm ki m sinh ra các trích đo n nh là các b n xem trự ụ ế ạ ư ả ước c a tài li uủ ệ [], các website tin t c sinh ra các đo n mô t ng n g n cho bài vi t (thứ ạ ả ắ ọ ế ường là tiêu đ c a bài vi t)ề ủ ế []
M c tiêu c a tóm t t văn b n là t o ra b n tóm t t gi ng nh cách con ngụ ủ ắ ả ạ ả ắ ố ư ười tóm t t, đây là bài toánắ
đ y thách th c, b i vì khi con ngầ ứ ở ười th c hi n tóm t t m t văn b n, chúng ta thự ệ ắ ộ ả ường đ c toàn b n iọ ộ ộ dung r i d a trên s hi u bi t và c m th c a mình đ vi t l i m t đo n tóm t t nh m làm n i b tồ ự ự ể ế ả ụ ủ ể ế ạ ộ ạ ắ ằ ổ ậ các ý chính c a văn b n g c. Nh ng vì máy tính khó có th có đủ ả ố ư ể ược tri th c và kh năng ngôn ng nhứ ả ữ ư
c a con ngủ ười, nên vi c th c hi n tóm t t văn b n t đ ng là m t công vi c ph c t p.ệ ự ệ ắ ả ự ộ ộ ệ ứ ạ
1.2. Các hướng ti p c n tóm t t văn b n.ế ậ ắ ả
Nhìn chung, có hai hướng ti p c n cho tóm t t văn b n t đ ng là trích ch n (extraction) và tóm lế ậ ắ ả ự ộ ọ ượ c(abstraction). Theo [], tóm t t văn b n có th đắ ả ể ược phân lo i d a trên đ u vào (đ n hay đa văn b n),ạ ự ầ ơ ả
m c đích (t ng quát, theo lĩnh v c c th , hay d a trên truy v n) và lo i đ u ra (ụ ổ ự ụ ể ự ấ ạ ầ trích ch n hay tómọ
lược)
Phương pháp tóm t t trích ch n th c hi n đánh giá các ph n quan tr ng c a văn b n và đ a chúng m tắ ọ ự ệ ầ ọ ủ ả ư ộ cách nguyên b n vào b n tóm t t, do đó, phả ả ắ ương pháp này ch ph thu c vào vi c trích ch n các câu tỉ ụ ộ ệ ọ ừ văn b n g c d a trên vi c x p h ng m c đ liên quan c a các c m t đ ch ch n nh ng c m t liênả ố ự ệ ế ạ ứ ộ ủ ụ ừ ể ỉ ọ ữ ụ ừ quan nh t t i n i dung c a tài li u g c. Trong khi đó, phấ ớ ộ ủ ệ ố ương pháp tóm t t tóm lắ ược nh m t o ra vănằ ạ
b n tóm t t m i có th không g m các t hay các c m t trong văn b n g c. Nó c g ng hi u và đánhả ắ ớ ể ồ ừ ụ ừ ả ố ố ắ ể giá văn b n s d ng các k thu t x lý ngôn ng t nhiên tiên ti n đ t o ra m t văn b n ng n h n,ả ử ụ ỹ ậ ử ữ ự ế ể ạ ộ ả ắ ơ truy n đ t đề ạ ược nh ng thông tin quan tr ng nh t t văn b n g c. M c dù các tóm t t đữ ọ ấ ừ ả ố ặ ắ ược con ngườ i
th c hi n thự ệ ường không gi ng nh trích ch n, song h u h t các nghiên c u v tóm t t văn b n hi nố ư ọ ầ ế ứ ề ắ ả ệ
t i v n t p trung vào tóm t t b ng phạ ẫ ậ ắ ằ ương pháp trích ch n vì v c b n các tóm t t sinh b i phọ ề ơ ả ắ ở ươ ngpháp trích ch n cho k t qu t t h n so v i tóm t t b ng phọ ế ả ố ơ ớ ắ ằ ương pháp tóm lược. Đi u này là b i vìề ở
phương pháp tóm t t b ng tóm lắ ằ ược ph i đ i m t v i các v n đ nh th h n ng nghĩa, suy lu n vàả ố ặ ớ ấ ề ư ể ệ ữ ậ sinh ngôn ng t nhiên, các v n đ này ph c t p h n nhi u l n so v i vi c trích ch n câu. Hữ ự ấ ề ứ ạ ơ ề ầ ớ ệ ọ ướng ti pế
c n tóm t t b ng tóm lậ ắ ằ ược khó h n so v i tóm t t b ng trích ch n, song phơ ớ ắ ằ ọ ương pháp này được kỳ
v ng có th t o ra đọ ể ạ ược các văn b n tóm t t gi ng nh cách con ngả ắ ố ư ười th c hi n.ự ệ
M T S NGHIÊN C U V TÓM T T VĂN B NỘ Ố Ứ Ề Ắ Ả
2.1. Tóm t t văn b n theo hắ ả ướng trích ch n.ọ
Các h th ng tóm t t văn b n theo hệ ố ắ ả ướng trích ch n thọ ường g m các tác v : xây d ng m t đ i di nồ ụ ự ộ ạ ệ trung gian (intermediate representation) c a văn b n đ u vào th hi n các đ c đi m chính c a văn b n;ủ ả ầ ể ệ ặ ể ủ ả
Trang 8tính đi m (x p h ng) các câu d a trên đ i di n trung gian đã xây d ng; ch n các câu đ a vào tóm t tể ế ạ ự ạ ệ ự ọ ư ắ
[]
M i h th ng tóm t t văn b n t o ra m t s đ i di n trung gian c a văn b n mà nó s th c hi n tómỗ ệ ố ắ ả ạ ộ ố ạ ệ ủ ả ẽ ự ệ
t t và tìm các n i dung n i b t d a trên đ i di n trung gian này. Có hai hắ ộ ổ ậ ự ạ ệ ướng ti p c n d a trên d iế ậ ự ạ
di n trung gian là ch đ đ i di n (topic representation) và các đ c tr ng đ i di n (indicatorệ ủ ề ạ ệ ặ ư ạ ệ representation). Các phương pháp d a trên ch đ đ i di n bi n đ i văn b n đ u vào thành m t đ iự ủ ề ạ ệ ế ổ ả ầ ộ ạ
di n trung gian và tìm ki m các ch đ đệ ế ủ ề ược th o lu n trong văn b n. K thu t tóm t t d a trên chả ậ ả ỹ ậ ắ ự ủ
đ đ i di n tiêu bi u là phề ạ ệ ể ương pháp ti p c n d a trên t n xu t (word probabilityế ậ ự ầ ấ và TFIDF). Phươ ngpháp d a trên các đ c tr ng đ i di n th c hi n mô t các câu trong văn b n nh m t danh sách các đ cự ặ ư ạ ệ ự ệ ả ả ư ộ ặ
tr ng quan tr ng ch ng h n nh đ dài câu, v trí c a câu trong tài li u hay câu có ch a nh ng c m tư ọ ẳ ạ ư ộ ị ủ ệ ứ ữ ụ ừ
nh t đ nh.ấ ị Tiêu bi u c a phể ủ ương pháp d a trên đ c tr ng g m phự ặ ư ồ ương pháp đ th (ví d TextRank)ồ ị ụ
và k thu t h c máy (ví d mô hình Markov n). ỹ ậ ọ ụ ẩ
Khi các đ i di n trung gian đã đạ ệ ượ ạc t o ra, m t đi m s th hi n m c đ quan tr ng s độ ể ố ể ệ ứ ộ ọ ẽ ược gán cho
m i câu. Đ i v i phỗ ố ớ ương pháp d a trên ch đ đ i di n, đi m s c a m t câu th hi n m c đ gi iự ủ ề ạ ệ ể ố ủ ộ ể ệ ứ ộ ả thích c a câu đ i v i m t vài ch đ quan tr ng nh t c a văn b n. Trong h u h t các phủ ố ớ ộ ủ ề ọ ấ ủ ả ầ ế ương pháp
d a trên đ c tr ng đ i di n, đi m s đự ặ ư ạ ệ ể ố ược tính b ng t ng h p các d u hi u t các đ c tr ng khácằ ổ ợ ấ ệ ừ ặ ư nhau. Các k thu t h c máy thỹ ậ ọ ường đượ ử ục s d ng đ tìm tr ng s cho các đ c tr ng.ể ọ ố ặ ư
Cu i cùng h th ng tóm t t s l a ch n các câu quan tr ng nh t đ t o ra b n tóm t t. Có th áp d ngố ệ ố ắ ẽ ự ọ ọ ấ ể ạ ả ắ ể ụ các thu t toán tham lam đ ch n các câu quan tr ng nh t t văn b n g c, ho c bi n vi c l a ch n câuậ ể ọ ọ ấ ừ ả ố ặ ế ệ ự ọ thành m t bài toán t i u trong đó xem xét ràng bu c t i đa hóa t m quan tr ng t ng th và s g n k tộ ố ư ộ ố ầ ọ ổ ể ự ắ ế
ng nghĩa trong khi t i thi u hóa s d th a. Có nhi u y u t khác c n đữ ố ể ự ư ừ ề ế ố ầ ược cân nh c khi l a ch nắ ự ọ các câu quan tr ng, ví d ng c nh c a b n tóm t t hay lo i tài li u c n tóm t t (bài báo tin t c, email,ọ ụ ữ ả ủ ả ắ ạ ệ ầ ắ ứ báo cáo khoa h c). Các tiêu chí này có th tr thành các tr ng s b sung cho vi c l a ch n các câuọ ể ở ọ ố ổ ệ ự ọ quan tr ng đ a vào b n tóm t t.ọ ư ả ắ
2.2. Tóm t t văn b n theo hắ ả ướng tóm lược
Nallapati và c ng sộ ự [] áp d ng mô hình ụ chu i sang chu i (ỗ ỗ sequencetosequence) v i c ch attentionớ ơ ế
k t h p v i các đ c tr ng ngôn ng (partofspeech, nameentity và TFIDF) đ th c hi n tóm t t vănế ợ ớ ặ ư ữ ể ự ệ ắ
b n theo hả ướng tóm lượ (hình 2.1). K t qu cho th y mô hình có kh năng sinh ra các t không cóc ế ả ấ ả ừ trong văn b n đ u vàoả ầ , nhi u ví d cho th y mô hình có th sinh ra đề ụ ấ ể ược đo n tóm t t g n gi ng v iạ ắ ầ ố ớ con người vi t.ế
Trang 9Hình 2 Mô hình sequencetosequence v i c ch attentionớ ơ ế
Tác gi Seeả và c ng s trongộ ự [] đ xu t c i ti n m ng pointergenerator trên mô hình ề ấ ả ế ạ chu i sang chu iỗ ỗ cho phép th c hi n sao chép m t (các t ) t văn b n g c vào văn b n tóm t t trong trự ệ ộ ừ ừ ả ố ả ắ ường h p môợ hình sinh ra m t t không có trong tộ ừ ậ ừ ựp t v ng (unknown word). Mô hình được th nghi m trên b dử ệ ộ ữ
li u ti ng anh các bài báo c a CNN/DailyMail cho k t qu khá kh quan. Hình 2.2. minh h a ví dệ ế ủ ế ả ả ọ ụ
ch y th nghi m đạ ử ệ ược tác gi công b ả ố
Hình 2 Ví d văn b n tóm t t đụ ả ắ ược sinh b i mô hình pointergenerator networksở
M NG N RON NHÂN T OẠ Ơ Ạ
3.1. M ng n ron nhân t o ANNạ ơ ạ
M ng n ron nhân t o (ANN – Artificial Neural Network) là m t mô ph ng x lý thông tin, đạ ơ ạ ộ ỏ ử ượ cnghiên c u ra t h th ng th n kinh c a con ngứ ừ ệ ố ầ ủ ười, gi ng nh b não đ x lý thông tin. M ng ANNố ư ộ ể ử ạ bao g m s lồ ố ượng l n các m i g n k t c p cao đ x lý các thông tin trong m i liên h rõ ràng. Nó cóớ ố ắ ế ấ ể ử ố ệ
kh năng h c b i kinh nghi m t hu n luy n, l u nh ng kinh nghi m thành tri th c và áp d ng trongả ọ ở ệ ừ ấ ệ ư ữ ệ ứ ụ
nh ng d li u m i trong tữ ữ ệ ớ ương lai
3.1.1. C u trúc m ng n ron nhân t oấ ạ ơ ạ
M i n ron (g i là nút m ng) là y u t c b n nh t c u t o nên m ng n ron, tham gia vào x lýỗ ơ ọ ạ ế ố ơ ả ấ ấ ạ ạ ơ ử thông tin trong m ng. Các n ron trong m ng liên k t v i nhau, x lý và chuy n ti p thông tin d a trênạ ơ ạ ế ớ ử ể ế ự các tr ng s liên k t và hàm kích ho t. C u trúc m ng n ron nhân t o v c b n g m ba l p: l p đ uọ ố ế ạ ấ ạ ơ ạ ề ơ ả ồ ớ ớ ầ
Trang 10vào (input layer), l p n (hidden layer) và l p đ u ra (output layer). Khi m t m ng ANN có nhi u h nớ ẩ ớ ầ ộ ạ ề ơ hai l p n thì đớ ẩ ược g i là m t m ng n ron sâu (deep neural network hay DNN)ọ ộ ạ ơ [].
3.1.2. Ho t đ ng c a m ng ANNạ ộ ủ ạ
Ho t đ ng c a m ng ANN đạ ộ ủ ạ ược minh h a trong hình 3.2ọ []. Thông tin t i m t n ron đớ ộ ơ ược nhân v iớ
m t tr ng s (m i đ u vào có th độ ọ ố ỗ ầ ể ược nhân v i m t tr ng s khác nhau), sau đó n ron s tính t ngớ ộ ọ ố ơ ẽ ổ các đ u vào đã tính tr ng s và tham s hi u ch nh (bias) và x lý t ng này thông qua m t hàm kíchầ ọ ố ố ệ ỉ ử ổ ộ
ho t (activation function) hay còn g i là chuy n đ i (transfer function).ạ ọ ể ổ
Hình 3 Nguyên lý ho t đ ng c a m ng ANNạ ộ ủ ạ
M t s hàm kích ho t thộ ố ạ ường được s d ng là hàm bử ụ ước nh y (step function), hàm logit (hay hàmả sigmoid), hàm tanh và hàm Rectified Linear Unit (ReLU) []. Đ th c a các hàm kích ho t này và đ oồ ị ủ ạ ạ hàm c a nó đủ ược th hi n trong hình 3.3.ể ệ
Hình 3 Đ th c a các hàm kích ho t ph bi n và đ o hàm c a chúng.ồ ị ủ ạ ổ ế ạ ủ
3.2. M ng n ron h i quy RNNạ ơ ồ
Vi c s d ng thông tin có tính chu i tu n t chính là t tệ ử ụ ỗ ầ ự ư ưởng cho vi c nghiên c u và phát tri n m ngệ ứ ể ạ
n ron h i quy RNN (Recurrent Neural Network)ơ ồ []. Các m ng RNN đạ ược g i là h i quy (hay h i ti p)ọ ồ ồ ế
b i vì chúng th c thi cùng m t tác v cho m i thành ph n c a chu i v i đ u ra ph thu c vào các k tở ự ộ ụ ỗ ầ ủ ỗ ớ ầ ụ ộ ế
qu tính toán trả ước đó. V lý thuy t thì m ng RNN có th x lý thông tin cho m t chu i dài tùy ý, songề ế ạ ể ử ộ ỗ trên th c t thì kh năng này khá gi i h n trong ch vài bự ế ả ớ ạ ỉ ướ c[]. M t m ng RNN tiêu bi u có c u trúcộ ạ ể ấ
nh hình 3.5:ư
Trang 11Hình 3 C u trúc m ng RNN tiêu bi uấ ạ ể
Hình 3.5 minh h a m t m ng RNN tr i ra thành m t m ng đ y đọ ộ ạ ả ộ ạ ầ ủ []. Đi u này có nghĩa là ta có thề ể
tr i m t m ng RNN đ x lý cho m t chu i đ y đ Ví d , n u m t chu i là m t câu g m năm t , thìả ộ ạ ể ử ộ ỗ ầ ủ ụ ế ộ ỗ ộ ồ ừ
m ng có th tr i ra thành năm l p m ng n ron, m i l p x lý m t t Các công th c tính toán trongạ ể ả ớ ạ ơ ỗ ớ ử ộ ừ ứ
m ng RNN c th nh sau:ạ ụ ể ư
xt là đ u vào t i th i đi m t, ví d , xầ ạ ờ ể ụ 1 có th là m t véc t onehot tể ộ ơ ương ng v i t th hai c a m tứ ớ ừ ứ ủ ộ câu
st là tr ng thái n t i th i đi m t. Nó gi ng nh là b nh c a m ng, st đạ ẩ ạ ờ ể ố ư ộ ớ ủ ạ ược tính d a vào tr ng tháiự ạ
n tr c đó và đ u vào c a b c hi n t i: st = f(Ux
ẩ ướ ầ ủ ướ ệ ạ t + Wst1). Hàm f thường là m t hàm phi tuy n nhộ ế ư
là hàm tanh ho c hàm ReLU, sặ t1 thường được kh i t o là 0 khi tính toán tr ng thái n th nh t.ở ạ ạ ẩ ứ ấ
Ot là đ u ra (output) t i bầ ạ ước t. Ví d v i bài toán d đoán t ti p theo trong câu thì Oụ ớ ự ừ ế t có th là m tể ộ véc t xác su t các t trong t đi n: Oơ ấ ừ ừ ể t = softmax(Vst)
3.3. M ng n ron có nh LSTMạ ơ ớ
V lý thuy t thì m ng n ron h i ti p (recurrent neural network) có th ho t đ ng, nh ng th c t trongề ế ạ ơ ồ ế ể ạ ộ ư ự ế nhi u nghiên c u ch ra h n ch c a m ng RNN là s h i t và phân k gradient (vanishing gradient vàề ứ ỉ ạ ế ủ ạ ự ộ ụ ỳ exploding gradient) []. H n ch này khi n RNN không hi u qu đ i v i các bài toán c n x lý d li uạ ế ế ệ ả ố ớ ầ ử ữ ệ theo th i gian đòi h i tr ng thái nh trung gian.ờ ỏ ạ ớ LSTM (Long short term memory) [] ra đ i đ gi iờ ể ả quy t h n ch c a RNN b ng vi c đ a vào m ng m t đ n v nh đế ạ ế ủ ằ ệ ư ạ ộ ơ ị ớ ược g i là memory unit hay Cell.ọ
Đ u vào g m ba thành ph n. Xt là đ u vào t i bầ ồ ầ ầ ạ ước hi n t i. hệ ạ t1 là đ u ra t m t kh i LSTM trầ ừ ộ ố ước và
Ct1 là “nh ” c a kh i trớ ủ ố ước, và đây cũng chính là đi m quan tr ng nh t c a LSTM. Đ u ra c a nó g mể ọ ấ ủ ầ ủ ồ
ht là k t qu c a kh i LSTM hi n t i và Cế ả ủ ố ệ ạ t là nh c a nó. Nh v y, m t kh i đ n LSTM đ a ra quy tớ ủ ư ậ ộ ố ơ ư ế
đ nh d a vào vi c xem xét đ u vào hi n t i, k t qu và nh c a kh i trị ự ệ ầ ệ ạ ế ả ớ ủ ố ước và nó sinh ra m t đ u raộ ầ
m i cũng nh là nh c a nó. M t mô hình m ng LSTMớ ư ớ ủ ộ ạ [] được minh h a trong ọ hình 3.7
Trang 12Hình 3 Ki n trúc m ng LSTMế ạ
C th cách ho t đ ng c a LSTMụ ể ạ ộ ủ [] nh sau:ư
Đ u tiên kh i LSTM là quy t đ nh thông tin nào s lo i b kh i cell state. Quá trình quy t đ nh này doầ ố ế ị ẽ ạ ỏ ỏ ế ị
m t ộ l p ớ sigmoid g i là “forget gate layer” th c hi n. ọ ự ệ C ng b nhổ ỏ ớ l y đ u vào là hấ ầ ?−1 và ?? và cho đ uầ
ra là m t giá tr n m trong kho ng [0, 1] cho cell state ộ ị ằ ả ??−1. N u k t qu đ u ra là 1 th hi n cho vi cế ế ả ầ ể ệ ệ
“gi l i thông tin”, và 0 th hi n r ng “thông tin b lo i b ”.ữ ạ ể ệ ằ ị ạ ỏ
Ti p theo LSTM quy t đ nh thông tin m i s đế ế ị ớ ẽ ượ ư ạ ạc l u l i t i cell state nh th nào. Vi c này đư ế ệ ượ c
g m hai ph n, m t là l p sigmoid g i là “input gate layer”ồ ầ ộ ớ ọ (l p đ u vào)ớ ầ quy t đ nh giá tr s đế ị ị ẽ ượ ậ c c p
nh t, và m t l p tanh t o ra m t ậ ộ ớ ạ ộ véc tơ các giá tr m i, , mà có th đị ớ ể ược thêm vào cell state.
K ti p, tr ng thái cell state cũ Cế ế ạ t1 đượ ậc c p nh t t i tr ng thái cell state m i Cậ ạ ạ ớ t theo công th c: ứ
Tr ng thái nh cũ Cạ ớ t1 được nhân v i giá tr k t qu c a ớ ị ế ả ủ c ng b nhổ ỏ ớ ft, th c hi n vi c lo i b nh ngự ệ ệ ạ ỏ ữ
gì đã được quy t đ nh lo i b bế ị ạ ỏ ở ước trước. Giá tr iị t* th hi n giá tr ng viên m i cho cell state để ệ ị ứ ớ ượ cquy t đ nh b i h s giãn n iế ị ở ệ ố ở t c th cho vi c c p nh t giá tr cho m i cell state. ụ ể ệ ậ ậ ị ỗ
Bước cu i cùng, kh i LSTM quy t đ nh đ u ra c a nó d a trên cell state. L p sigmoid đố ố ế ị ầ ủ ự ớ ược dùng để tính toán thành ph n cầ ủa cell state s đẽ ược xu t ra. Sau đó, giá tr cell state đấ ị ược đ a vào hàm tanh (k tư ế
qu s thu c kho ng [1,1]) và nhân v i k t qu đ u ra c a c ng sigmoid, đ quy t đ nh cái gì sả ẽ ộ ả ớ ế ả ầ ủ ổ ể ế ị ẽ
được kh i LSTM xu t ra. Công th c tính toán cho các thành ph n c a bố ấ ứ ầ ủ ước này nh sau:ư