DANH MỤC TỪ VIET TATSTT | Từ viết tắt Tên đầy đủ Giải thích 1 TF-IDF Term Frequency — Một phương pháp đánh gia độ Inverse Document quan trong cua cac tu trong cac Frequency van ban 2 NLP
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
TRAN CONG MINH NGUYEN THANH TU
KHOA LUAN TOT NGHIEP
ENCODER-DECODER VOI CAU TRUC HIERARCHICAL NEURAL SEMANTIC ENCODER
CU NHAN NGANH KHOA HOC MAY TINH
TP HO CHi MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRAN CONG MINH - 17520763
NGUYEN THANH TU — 17521201
KHOA LUAN TOT NGHIEP
TOM TAT VAN BAN TIENG VIET SU DUNG MO HINH
ENCODER-DECODER VỚI CẤU TRÚC HIERARCHICAL NEURAL SEMANTIC ENCODER
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN:
THS TRINH QUOC SON
TS NGO DUC THANH
TP HO CHi MINH, 2021
Trang 3DANH SÁCH HỌI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
| Ẽ — Chủ tịch.
Boeke c cece ence eee n neces ene e eae ene eee sean en ees — Ủy viên
—— — Ủy viên
Trang 4LỜI CẢM ƠN
Lời đầu tiên, chúng em xin chân thành cám ơn sâu sắc đối với Thầy Thạc sĩ Trịnh
Quốc Sơn và Thay Tiến sĩ Ngô Đức Thanh — giảng viên hướng dẫn trực tiếp của chúng
em Thay Sơn va Thay Thành đã cho chúng em những gợi ý và chỉ dẫn quý báu trong quátrình nghiên cứu và hoàn thiện khóa luận tốt nghiệp
Chúng em cũng xin gửi lời cảm ơn tới các thầy cô trong khoa Khoa học máy tính,trường Dai học Công Nghệ Thông Tin, Dai học Quốc Gia Thành phố Hồ Chí Minh đãhướng dẫn, chỉ bảo và tạo điều kiện cho chúng em học tập và nghiên cứu tại trường trongsuốt thời gian qua
Chúng em cũng xin gửi lời cảm ơn gia đình, những người thân và bạn bẻ đã quan tâm,
động viên, giới thiệu các tài liệu hữu ích trong suốt thời gian học tập và nghiên cứu khóa
luận.
Mặc dù chúng em đã cố gắng hoàn thành khóa luận nhưng chắc chắn sẽ không tránh
khỏi những sai sót, chúng em kính mong nhận được sự thông cảm và chỉ bảo của các thầy
Trang 5MỤC LỤC
IM.908)//0/905)0)1842ã5 viiiDANH MỤC BẢNG - 5: 2t tt HH ng re ixM9058 10/9/1004) x
TOM TAT 40.00090057 — 1Chương 1 MG DAU viceececscsssessssssesssesssesssessscssscsusssusssecssecsuscsscssecsuscsscssecssecaseesessnes 2
1.1 Vấn dbo eeceecccseeecssseecssseeesssneecssssecssseeessnneecssnsecssnecssneeesssnsecsansecssneeessneeeesneees 2
1.2 Mục tiêu của khóa luận - <2 5E E3 2211111111223 1 1111119551111 ca 4
1.3 Đối tượng và phạm vi nghiên cứu ¿- 2 + + £+x+ExerkezEzrerrxerxeee 4
1.4, Cấu trúc của khóa luận -.c¿¿++t+cc++tccEkrrtrktrrttrtrrrtrtrrrrrrrrrrrrree 4Chương 2 MO HÌNH BÀI TOÁN -+¿©5¿++2E++EEE2EE++Exrtrkerkrerkrrrree 6
2.1 Mô hình bài toán tóm tắt văn bản tóm lược s- ¿s s+x+zzEerzxerxsrs 62.2 Đánh giá mô hình bằng phương pháp ROUGE ¿52 2 s2 2 +2 8Chương3 CƠ SỞ LÝ THUYÊT ¿2 E+2E+2E££EE+EEtEEtEEEEEEerkrrreree 10
3.1 Mô hình Encoder-IÖe€O(€T - -s + + +33 E3 ESvEEseEssEsskersersee 10
3.1.1 Mang neural truy hồi ¿2 s+Sx+2E22E22EEEEEEEEEEEEEEEEEEEEErrrrkerkerree 10
3.1.2 Mạng neural LS”TÌM - - c1 SH HH nh 12
3.1.3 Mô hình Encoder-Decoder với cơ chế attention -:-s:s¿ 183.2 Mô hình Pointer Generater và cơ chế Coverage c.sscsssessesssessseestecstesseesses 21
3.2.1 Mô hình Pointer Cen€rafOT- 5 cess nen 22
3.2.2 Cơ chế Coverage cccccccsessesssessessessessessessesssessessessessiessessessussseeseeses 24
3.3 Cấu trúc Neural Semantic Encoder (NSE) và các cải tiến 25
“6n 25
3.3.2 Mô hình NSE cải tiến ¿2 St tt SEvESE5EE51111515151115EE55251E1 E131 seE 27
Trang 63.4 Mô hình Hierarchical NSE giải quyết bài toán tóm tắt văn bản tự động 29
Chương4 XAY DUNG HE THONG TOM TAT VĂN BẢN TIENG VIỆT TỰDONG BANG MÔ HINH HIERARCHICAL NSE sssssssssssssssessesssneeseesnneeeeesnes 34
4.1 Xây dựng mô hình Hierarchical NSIE series 34 4.2 Xây dựng bộ dữ liệu thực nghiệm - 5 3 SE +kEskEeeeesreeersee 36
4.3 Môi trường thử nghiỆm - c2 12211112301 11911 1 11 91111 vn ng kg rưy 37
4.4 Quá trình huấn luyện mô hình ¿2s +2 ££E£2E£+E££Eerxerxerxerszrx 384.5 Kết quả thực nghiệm và nhận X6t - 5 + SE + +vEEsseeesersreere 40
4.4.1 Thực nghiỆm 1 - <6 2133231831189 1 91 19 11 911g ng ng ngư 40
4.4.2 Thực nghiỆm 2 - Án HT TH HH Hà Hưng ng 4I
4.4.3 Thurc i36 ee 42
4.6 Đánh giá chất lượng ngữ nghĩa của mô hình -. -2- ¿+ ©5+c++ 45Chương 5 KÉT LUẬN, HAN CHE VÀ HƯỚNG PHAT TRIÊỀN 59
5.1 Kếtluận itm xem sượm / ii 595.2, Han ché hSh ` Ý"“ Ấđ 595.3 Hướng phát triỀn ¿+ + ©k9SE+EE2EE2E2EEEEE21EE1212112112112171 2121 xe 60TÀI LIEU THAM KHẢO - - St EESE+EEEESESEEEEEEEEEEEEESESEEEESEEEEEEEkekrrrrkrree 61
Trang 7DANH MỤC HÌNH VẼ
Hình 2.1: Minh họa mô hình bài toán tóm tắt tự động - 2-2 z+cz+cscxeez 6Hình 2.2: Quy trình thực hiện tóm tắt văn bản tiếng Việt tự động - 7Hình 3.1: Minh họa cấu trúc 00001909) 4 10
Hình 3.1.a: Minh họa một RNN - 2G Q21 111v ng 1 khen, 10
Hình 3.1.b: Minh họa mạng RNN khi duỗi thăng 2-2 252 +E£x+zxezszse2 10
Hình 3.2: Cấu trúc LSTM -c¿¿222++ttttEEktrtttEktrrrrtttrirrrrtrrrrrrrrirrrrrieg 11Hình 3.3: Cau trúc mạng LSTM ou.cecceccessessesssessessessssssessessesssessessecsecssessesseesssneeseeseees 12
Hình 3.4: "Ong nhớ" trong mang LSTM scssscsssesssessesssesssecssecsessecssecssessesssessseess 13Hình 3.5: "Công quên" trong mạng LSTM - ¿2 2 +2 + +2 £+E£+Ee£ke£xerxerszxez 14
Hình 3.6: LSTM tinh giá trị lưu tại cell SfAf€ - - ¿5555 *+**k+veeeeeeeeereeeers 14
HÌnh 3.7: Minh họa việc cập nhật giá tri cell staf€- ¿55+ s+scxssssesess 15Hình 3.8: Đầu ra của khối LSTM -c2cccc+ccEveerrtrrkkrrrrrrtrrrtrrirrrrrrrreg 16Hinh 3.9: Co ché hoat động của mô hình Encoder-Decodetr -« + 17Hình 3.10: Cơ chế hoạt động của mô hình Encoder-Decoder với cơ chế Attention.18
Hình 3.11: So sánh đầu ra của ba mô hình tóm tắt Abstractive trên cùng một bài báo
¬ Ố 21
Hình 3.12: Mô hình Pointer — Generator với Pointer Network thực hiện việc chon từ
được tạo ra từ mới hay sao chép từ đầu VẢO -.Sc St n St E1 2121111112111111 51111 cre 22
Hình 3.13: Mô hình NSE đơn giản, gồm các thành phần chính là bộ nhớ (Memory)
và các quá trình Read, Compose, WTI{€ -c 11v vn kg TH HH rry 25
Hình 3.14: Cấu trúc phân cấp của văn bản - 2 ©5¿+2++cx+cxczxzreerxerxeres 29
Hình 3.15: Mô hình Hierarchical NSIE - ch ngư 31
Vili
Trang 8Hình 4.1: Ví dụ đữ liệu cho bài toán tóm tắt tiếng Việt từ trang báo điện tử VnExpess
Hình 4.2: Mẫu dit liệu sau khi tiền xử lý - 2-2 ©5225£2EE+ExeEEerkrrkerkerreres 35
Hình 4.3: Ví dụ của tác giả Xuan-Son Vu là biểu diễn của từ “yêu” bằng các từ lân
cận trong không gian ngữ nghĩa sử dung embedding Vector - -«- 37
Hình 4.4: Training Loss của thực nghiệm 1 từ bước lặp 4500 tới 5000 38
Hình 4.5: Training Loss của thực nghiệm 2 sau hơn 6000 bước lặp 39
Hình 4.6: Validation Loss của thực nghiêm 3 sau hơn 7000 bước lặp 40
Hình 4.7: So sánh hiệu suất của 3 mô hình ở 3 thực nghiệm ‹++-+++++ 41
1X
Trang 9DANH MỤC BANG
Bảng 4.1: Hiệu suất của mô hình trong thực nghiệm I 2-2 22 5+2 41Bảng 4.2: Hiệu suất của mô hình trong thực nghiệm 2 2- ¿5252252 42Bảng 4.3: Hiệu suất của mô hình trong thực nghiệm 3 .2- 22 52522552 43
Bảng: 4.4: Kết quả của các mô hình tóm tắt văn bản tự động sử dụng dataset lấy từ
các trang báo điỆn tỬ: + c 121 1121119911 911111111111 11H KH HH rry 44
Bang 4.5: Đánh giá ngữ nghĩa của các mô hình qua 6 mẫu kết quả - 51
Trang 10DANH MỤC TỪ VIET TAT
STT | Từ viết tắt Tên đầy đủ Giải thích
1 TF-IDF Term Frequency — Một phương pháp đánh gia độ
Inverse Document quan trong cua cac tu trong cac
Frequency van ban
2 NLP Natural Language Xử lí ngôn ngữ tự nhiên
Processing
3 RNN Recurrent Neural Mang nơ ron hồi quy sử dung dé
Network xử ly thong tin có tính tuần tự
4 GRU Gated-Recurrent Unit Là một cơ chế gating trong các
mạng nơ ron hồi quy, GRU giốngvới LSTM nhưng có ít thông sốhơn, vì kiến trúc này không có
công đầu ra
5 LSTM Long-Short Term Kiến trúc mạng học sâu cải tiễn
Memory của RNN, giải quyết hạn chế của
mạng RNN với các bài toán cần
xử lý dữ liệu theo thời gian đòi hỏi trạng thái nhớ trung gian.
6 ROUGE Recall Oriented Phương pháp đánh giá độ chính
Understudy of Gisting xác của văn bản tóm tắt
Evaluation
7 Seq2seq | Sequence-to-sequence | Là một mô hình Deep Learning
với mục đích tao ra một output sequence từ một input sequence
mà độ dai của 2 sequences này có
XI
Trang 11write giúp “ghi nhớ” được một
chuỗi đầu vào dài một cách có
hiệu quả
PointerGen Pointer Generator M6 hinh Pointer Generator 1a su
kết hop giữa mô hình seq2seq và
một mạng con trỏ Pointer
Network, nhằm giải quyết nhượcđiểm từ mô hình seq2seq với cơ
chế attention
10 Ptr-Net Pointer Network Sử dụng cơ chê chú ý như một
con trỏ đê chọn thành viên của
chuỗi dau vào làm dau ra
11 HierNSE Hierarchical Neural
Semantic Encoder
La mô hình cải tiễn của mô hìnhNSE, sử dụng thêm tính phân cấp
của văn bản vào mô hình.
12 MLP Multi-layer Perception La một trong những mang truyền
thăng điển hình nhất, thường
được dùng trong bài toán nhận
XH
Trang 12dạng Bao gồm nhiêu lớp: một lớp
vào, một lớp ra và một hoặc nhiều
lớp an
XH
Trang 13TÓM TẮT KHÓA LUẬN
Khóa luận này tập trung nghiên cứu áp dụng mô hình Encoder — Decoder với
cau trúc Hierarchical NSE dé giải quyết cho bài toán tóm tắt văn bản tiếng Việt tự
động Day là một bài toán quen thuộc trong lĩnh vực NLP, với mục tiêu là trích chon
ra những thông tin được xem là có giá trị cao trong văn bản đầu vào, nhằm tiết kiệm
được công sức và chi phí phải bỏ ra dé năm bắt được thông tin của văn bản đó Da sốcác nghiên cứu được thực hiện theo hai hướng tiếp cận chính, tóm tắt trích xuất, sử
dụng trực tiếp các câu trong văn bản gốc dé tạo thành bản tóm tắt, thường dựa vàocác thuật toán heuristic hoặc học máy để đánh giá mức độ quan trọng của từng câu,hướng còn lại là tóm tắt tóm lược, sử dụng các mô hình và kỹ thuật học sâu dé biên
soạn ra một bản tóm tắt hoàn toàn mới, mô phỏng lại cách tóm tắt của con người
Cũng có những nghiên cứu sử dụng kết hợp cả hai hướng, nhưng trong phạm vi khóaluận này, nhóm em sẽ chỉ tập trung vào hướng thứ hai, cụ thé là tìm hiểu, áp dụng vađánh giá mô hình Encoder — Decoder với cau trúc Hierarchical NSE giải quyết chobài toán tóm tắt văn bản tiếng Việt Kết quả thực nghiệm của khóa luận cũng chỉ rarang mô hình có thé đạt được hiệu suất tóm tắt khá tốt trên tập dữ liệu là các bài báotiếng Việt
Trang 14Chương 1 MỞ ĐẦU
1.1 Vấn đề
Với sự phát triển mạnh mẽ của công nghệ thông tin và mạng máy tính, lượng
tài liệu văn bản khổng lồ được tạo ra với nhiều mục đích sử dụng khiến cho việc đọc
hiểu và trích lược các thông tin cần thiết trong khối tri thức đồ sộ này tốn rất nhiềuthời gian và chi phí Với việc có quá nhiều văn ban cần được đọc trong một khoảngthời gian ngắn, chúng ta thường trông chờ vào một phiên bản rút gọn của văn bản gốc
— những bản tóm tắt
Vậy như thế nào là một bản tóm tắt? Mục đích của việc tóm tắt văn bản là gì?Các tiêu chí để đánh giá một bản tóm tắt? Làm thế nào để tạo ra được một bản tóm
tắt? Chúng ta hãy cùng tìm hiéu về các câu hỏi này đưới đây
Trước hêt, một bản tóm tat là một phiên bản rút gọn của văn bản gôc, được tạo
ra với mục đích rút gọn tối đa khoảng thời gian cho việc đọc văn bản, mà vẫn bảo
đảm tính chính xác và đầy đủ của thông tin chứa trong văn bản gốc
Một bản tóm tắt có chất lượng tốt không chỉ mang đầy đủ các thông tin quan
trọng mà còn phải được diễn đạt một cách mạch lạc và tự nhiên nhất có thê Cụ thé,
các tiêu chí dé đánh giá chất lượng của một bản tóm tat bao gồm: độ chính xác củanội dung, thông tin phải tương đương với văn bản gốc; sự mạch lạc, đúng ngữ pháp,làm cho bản tóm tắt có thé đọc hiểu được; tỉ lệ nén, bản tóm tat phải có kích thước
nhỏ hơn so với văn bản gôc.
Có 2 hướng tiếp cận chính đề thực hiện việc tóm tắt văn bản Hướng đầu tiên làtóm tắt trích xuất (Extractive Summarize), ý tưởng là sẽ sử dụng chính các câu củavăn bản gốc đề tạo thành bản tóm tắt mới
Trong hướng này, bài toán tóm tắt văn bản sẽ trở thành bài toán làm thê nào đê xác định được những câu trong văn bản gôc sẽ xuât hiện ở bán tóm tat, nói cách khác, bài toán yêu câu cân phải xác định những câu được xem là quan trọng dé thêm vào tập câu sẽ được sử dụng dé tạo nên ban tóm tat Tại đây, một vân đê mới sé phát sinh
Trang 15đó là làm thế nào để biết một câu có quan trọng hay không? Có hai hướng chính
thường được các nghiên cứu sử dụng để xác định mức độ quan trọng của các câu
trong một văn bản Hướng đầu tiên là sử dụng các thuật toán heuristic là TF-IDF, thứ
tự và vi trí của câu đang xét ở trong văn ban sốc (ví dụ như đối với bài báo khoa học,các câu quan trọng thường sẽ nằm ở vị trí đầu tiên của văn bản, trong phần abstract).Hướng thứ hai thường được các nghiên cứu áp dụng cho bài toán tóm tắt văn bản, là
mô phỏng văn bản thành một đồ thị với các đỉnh là các câu trong văn bản, các cạnh
nối giữa hai đỉnh tương ứng với độ liên quan về mặt ngữ nghĩa của hai đỉnh đó Saukhi hoàn tất mô phỏng văn bản bằng phương pháp đồ thị, các thuật toán học máykhông giám sát (Unsupervised Learning) sẽ được sử dụng để gom các câu thành cácnhóm theo độ liên quan ngữ nghĩa, sau đó các câu năm ở “nhóm những câu được xem
là quan trọng” sẽ được sử dụng để tạo ra bản tóm tắt
Hướng tiếp cận phổ biến còn lại cho bài toán tóm tắt văn bản đó là tóm tắt tómlược (Abstractive Summarize) Với hướng tiếp cận này, các mô hình học sâu, cụ thể
là mạng neuron nhân tạo sẽ được sử dụng để tạo ra bản tóm tắt hoàn toàn mới, dựavào đặc trưng riêng của văn bản gốc Tóm tắt tóm lược xây dựng một biểu diễn ngữnghĩa bên trong và sau đó sử dụng kỹ thuật xử lý ngôn ngữ dé tạo ra một bản tóm tatgần gũi hơn so với những gì con người có thể tạo ra, một bản tóm tắt như vậy có thêchứa các từ không có trong văn bản gốc Một trong những mô hình phổ biến nhất
được sử dụng đó là mô hình Seuqence-to-Sequence (seq2seq), hay còn goi là mô hình
Encoder — Decoder, mô hình gom hai thanh phan chính là Encoder va Decoder là haimang neuron nhân tạo được nối với nhau Encoder đảm nhận nhiệm vu mã hóa vanbản đầu vào nhăm trích xuất ra các đặc trưng chính của văn bản gốc thành một vector
mã hóa, còn lại là Decoder đóng vai trò là bộ giải mã, trực tiếp sinh ra bản tóm tắtdựa vào vector mã hóa Ngoài ra, nhiều kỹ thuật và cơ chế khác nhau cũng được pháttriển đề làm tăng hiệu suất cho mô hình, có thé kế đến như cơ chế tập trung (attention),
kỹ thuật sử dụng mạng LSTM,
Hướng tiếp cận tóm tắt trích xuất với ý tưởng đơn giản đã được nghiên cứu từ
rat sớm với nhiêu công trình va mô hình đã được thử nghiệm, cho hiệu suat tot hon
Trang 16so với hướng tóm tắt tóm lược Tuy nhiên, tóm tắt tóm lược với việc sử dụng các mô
hình học sâu đang là xu hướng của các nghiên cứu mới hiện nay, hứa hẹn nhiều kết
quả đang mong đợi trong tương lai Việc phát sinh ra một bản tóm tắt mang tính con
người vẫn được đề cao hơn trong lĩnh vực NLP nói riêng và trí tuệ nhân tạo nói chung.
Bài toán tóm tắt văn bản tiếng Việt cũng được nghiên cứu và áp dụng nhiều kỹ
thuật như đối với tiếng Anh; tuy nhiên tóm tắt văn bản nói riêng và xử lý ngôn ngữ
tự nhiên nói chung áp dụng cho tiếng Việt gặp nhiều thách thức hơn Sở dĩ là vì tiếngViệt với đặc trưng là tiếng đơn âm và có thanh điệu nên việc tách từ, tác các thànhphần ngữ nghĩa trong câu tiếng Việt đòi hỏi xử lý phức tạp hơn so với xử lý câu tiếngAnh, thêm vào đó, không có nhiều kho dữ liệu tiếng Việt được chuẩn hóa và công
bô.
Trong phạm vi của khóa luận này nhóm em sẽ nghiên cứu tóm tắt văn bản theo
hướng tóm lược, cụ thể là thử nghiệm sử dung mô hình Encoder-Decoder, kết hợp
với câu trúc Hierarchical NSE giải quyết cho bài toán tóm tắt văn bản tiếng Việt trên
bộ dữ liệu thu thập thực tế từ các trang báo điện tử ở Việt Nam
1.2 Mục tiêu của khóa luận
Thử nghiệm, phân tích và đánh giá hiệu suất của mô hình Hierarchical NSEtrong bài toán tóm tắt văn bản tiếng Việt, cụ thể là các bài báo trên các trang báo điện
tử.
1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu trong khóa luận là bài toán tóm tắt văn bản, các mô hìnhhọc sâu sử dung cho bài toán tóm tắt văn bản bắt đầu từ mô hình cơ bản Encoder-
Decoder, kiến trúc mạng neuron nhân tạo sử dụng trong mô hình như RNN và LSTM
1.4 Cấu trúc của khóa luận
e Chương 1: Mở đầu
e Chương 2: Mô hình bài toán.
Trang 17e Chương 3: Cơ sở lý thuyết.
e Chương 4: Xây dựng hệ thống tóm tắt văn bản tiếng Việt tự động bằng mô hình
Hierarchical NSE.
e Chương 5: Kết luận, hạn chế và hướng phát triển
Trang 18Chương 2 MO HÌNH BÀI TOÁN
Ở chương này, trình bày mô hình bài toán tóm tắt văn bản tự động theo hướng
tóm lược cũng như cách đánh giá mô hình dựa trên phương pháp đánh giá ROUGE.
2.1 Mô hình bài toán tóm tắt văn bản tóm lược
Bài toán tóm tắt văn bản tự động theo hướng tóm lược có thé được phát biểunhư sau: đầu vào của bài toán là một văn bản D gồm M từ: xi, X2, , Xn Mục tiêu sẽ
là ánh xạ chuỗi M từ này thành một chuỗi đầu ra y gồm N từ yi, yo, , ym, trong đóchiều dai của bản tóm tắt phải ngắn hơn chiều dài của văn bản đầu vào (N < M) Việctạo ra chuỗi N dựa trên một tập từ vựng có kích thước có định V Các từ thuộc Skhông nhất định phải thuộc D Mục tiêu là tìm một chuỗi đầu ra y làm cực đại xácsuất có điều kiện của S theo chuỗi đầu vào D:
— ban diuvio dau vao Van sn ban tom it tom tat
Hình 2.1: Minh họa mô hình bài toán tóm tắt tự động [1]
Quy trình giải quyết bài toán tóm tắt văn bản tự động được trình bày như sau:
- Thu thập dit liệu phù hợp: dữ liệu phù hợp cho bài toán tóm tắt văn bản tiếng
Việt là bộ dit liệu gồm có một cặp tương ứng: văn bản đầy đủ và văn bản tómtắt mẫu (do con người thực hiện tóm tắt)
Trang 19- Xử lý dữ liệu: làm sạch dữ liệu, loại bỏ các ký tự không cần thiết, các lỗi phân
tách cau,
- Word Embedding: vector hóa dữ liệu về dạng số dé thực hiện tính toán trên
mạng neuron nhân tạo.
- Xây dựng mô hình mạng neuron nhân tạo: sử dung các cau trúc mang neuron,
kết hợp với cấu trúc Encoder — Decoder là sự kết hợp của các khối mạngneuron, dé xây dựng mô hình xử lý chuỗi đầu vào và tạo ra chuỗi văn bản tómtắt
- Huấn luyện và đánh giá hiệu suất của mô hình sử dụng bộ dữ liệu đã thu thập
Thu thập dữ liệu phù hợp
Tiền xử lý đữ liệu
Word Embedding
Xay dung Model Deeplearning
Thu nghiém va danh gia
Hình 2.2: Quy trình thực hiện tóm tắt văn bản tiếng Việt tự động
Trang 202.2 Đánh giá mô hình bằng phương pháp ROUGE
Hiệu suất của mô hình tóm tắt tự động sẽ được đánh giá thông qua phương pháp
ROUGE, quá trình training thực chất là quá trình điều chỉnh các siêu tham số (hyper
parameters) bên trong các mạng neuron nhân tạo với mục đích cực đại hóa điểmROUGE của mô hình nhất có thé
Recall Oriented Understudy of Gisting Evaluation (ROUGE) [2] là một phương
pháp đề xuất bởi Lin và Hovy (2003), có hiệu quả nhanh, độc lập với ngôn ngữ và sự
liên quan với các đánh giá của con người Với ý tưởng chính là so sánh sự khớp nhau
giữa bản tóm tắt sinh ra bởi mô hình với bản tóm tắt gốc của con người, phương phápnày sử dụng n-gram để đánh giá sự tương quan giữa các kết quả của mô hình tóm tắt
và tập dữ liệu đánh giá.
Các phương pháp phố biến được dùng dé đánh giá cho bài toán tom tắt văn ban
tự động là ROUGE-1, ROUGE-2 và ROUGE-L tương ứng với một từ, cặp từ và chuỗi
L từ Trong đó, ROUGE-1 so sánh sự trùng khớp của các từ đơn (unigrams) giữa
chuỗi văn bản tóm tắt được sinh ra bới mô hình và chuỗi thực tế (ground truth) Tương
tự, ROUGE-2 so sánh từng cặp từ là sự kết hợp của hai từ đơn trong chuỗi được sinh
ra với chuỗi thực tế ROUGE-L so sánh độ tương quan giữa các từ của chuỗi conchung dài nhất (Longest common subsequence) giữa hai chuỗi cần so sánh Được
tính theo công thức sau:
Xce Rss Ygram-n eC Countmatcnh(gramy)
ROUGE-n =
Xce Rss Lgram-nec Count(gramy)
Với Count match (GTAMn) là số lượng n-grams lớn nhất có trong kết quả tóm tat
và bản tóm tắt tham khảo, Count(gram,,) là số lượng n-grams có trong bản tóm tắt
tham khảo RSS là viết tắt của Reference Summaries
Ví dụ minh họa về cách tính điểm ROUGE, ta có:
Câu tóm tắt được sinh ra từ mô hình:
“The cat was found under the bed”
Trang 21Câu tóm tắt tham khảo:
“The cat was under the bed”
Bigrams câu tóm tắt được sinh ra từ mô hình ta được các cụm từ:
ouge — — SA th nỗ trang câm famg recall `” số từ có trong câu tóm tắt tham khảo 5 tắt tham thân 5S 6
Điểm ROUGE-2 precision:
R 2 số từ lặp 4 067
ouge — ision = —X aA A PEP TA TH = ZY:9 precision số từ có trong câu tém tắt của mô hình 6
Điểm ROUGE-2 FI score là giá trị đánh giá hiệu suất mô hình:
2 1 1
————=—— + _—~ >> Rouge - 2;¡ = 0.7292
Rouge~2F1 RoWg€~2recall Rog€~2precision
Trang 22Chương 3 CƠ SỞ LÝ THUYET
Ở chương này, trình bày khái quát mô hình Encoder-Decoder [3], mô hìnhPointer Generator với cơ chế Coverage [4] và cơ sở lý thuyết của cấu trúc NeuralSemantic Encoder (NSE) [5] với các cải tiễn Cuối cùng, đề xuất cấu trúc áp dụng
cho bài toán là Hierarchical NSE [6].
3.1 Mô hình Encoder-Decoder
Trong lĩnh vực NLP, Encoder-Decoder hay còn gọi là sequence-to-sequence
(seq2seq) là một mô hình đã được đề xuất và phát triển từ lâu để giải quyết các bàitoán đặc trưng như: dịch máy (Machine Translate), tốm tắt văn bản (Text
Summarize), robot tra lời tự động (chatbot) và đã đạt được những thành công nhất
định Với mục đích cần phát sinh một chuỗi đầu ra từ một chuỗi đầu vào cho trước,
mô hình Encoder-Decoder sử dụng hai mạng neural truy hồi (Recurrent Neural
Network) đóng vai trò là các bộ mã hóa, giải mã tương ứng Mục này sẽ trình bày
khái quát về mạng neural truy hồi và mô hình Encoder - Decoder với kỹ thuậtattention, sau đó sẽ phân tích những hạn chế của mô hình này đối với bài toán tóm tắt
văn bản tự động.
3.1.1 Mạng neural truy hồi
Lần đầu được đề xuất vào năm 1982 bởi John Hopfield [7], được ứng dụng rộngrãi trong những năm gần đây trong lĩnh vực NLP Mạng RNN có thể mô hình hóa
được bản chất của dữ liệu trong các đoạn văn bản hoặc chuỗi từ (có tính chuỗi và cácthành phần như từ, cụm từ trong dữ liệu phụ thuộc lẫn nhau) thông qua việc thực hiệncùng một tác vụ cho tất cả các phần tử của một chuỗi với đầu ra phụ thuộc vào tất cả
các phép tính trước đó Nói cách khác, RNN có khả năng nhớ các thông tin được tính toán trước đó.
Mạng RNN nhận vào một chuỗi các vector x¡, , xạ và trả về một vector yp,
sô chiêu của hai vector xi va yi không nhât thiệt phải băng nhau Ví dụ dau vào là một
câu gồm nhiều từ, mỗi từ được biéu diễn băng một vector ngữ nghĩa (có thé là
one-10
Trang 23hot vector hoặc được tạo bởi các mô hình pre-trained như GloVe, word2vec), mô
hình sử dụng một đơn vị RNN có bản chất là một hàm đệ quy để tính trạng thái đầu
ra dựa vào trạng thái trước va dau vào hiện tại Cụ thê như sau:
Hình 3.1: Minh họa cấu trúc mạng RNN [8]
(a) Một mạng RNN với Xj, sị, Vị lần lượt là vector của từ dau vào tại thời điểm i,
trạng thái ân của mang tại thời diém i và vector đâu ra tại thời diém i.
(b) Minh họa mạng RNN khi duối thăng, 6 là tham số của mạng.!
Yn = RNN"(® Sion) (1)
yi = 0(s¡) (2)
sj = R(Si-1, i) (3)
xi E Riin ; yi € Roout ; 5, € Rf Gout)
Hàm R nhận đầu vào là một vector trạng thái s;_, và một vector của từ đầu vàox; Và trả vé vector trạng thái hiện tai là s; Vector trạng thái hiện tai s; sau đó đượcánh xạ trở thành vector đầu ra y; thông qua hàm O Thông thường, hàm R được sửdụng là ham tanh còn hàm O có thé là sigmoid hoặc softmax Vector y, là vector
đầu ra cuối cùng của mạng, được xem là vector nén (compressed vector) của toàn bộ
chuỗi đâu vào.
Mạng RNN đơn giản sẽ kém hiệu qua với các chuỗi đầu vào dài do van dé
vanishing gradients, xảy ra khi gradient bị cộng dôn quá nhiêu lân Các kiên trúc
11
Trang 24Long-Short Term Memory (LSTM) va Gated-Recurrent Unit (GRU) là các mang
RNN với các cau trúc công phức tạp bên trong, sẽ quyết định thông tin nào được giữ
lại hoặc bị loại bỏ, giúp các node trong mạng RNN “ghi nhớ” thông tin tốt hơn
3.1.2 Mạng neural LSTM
Mạng RNN cơ bản không có khả năng ghi nhớ các thông tin qua nhiều bước do
đó mạng RNN tỏ ra không hiệu quả đối với các bài toán cần xử lý dữ liệu theo thời
gian đòi hỏi phải có trạng thái trung gian dé ghi nhớ thông tin của các bước trước Từhạn chế này, mạng LSTM (Long-Short Term Memory) được ra đời nhằm giải quyếthạn chế của mạng RNN bằng cách đưa vào mang một đơn vi nhớ được gọi là LSTMmemory unit hay cell Mạng LSTM được giới thiệu lần đầu bởi Hochreiter &Schimidhuber (1997) [9], mạng LSTM hoạt động hiệu quả trên nhiều bài toán khác
nhau nên dân trở nên phô biên.
Tại mỗi thời điểm ¿, đầu vào của một LSTM nhận vào ba thành phan, trong đó
x, là đầu vào ở bước hiện tai, fy) là đầu ra của khối LSTM trước đó /-J và C,; là các
thông tin được “nhớ” của khối LSTM trước Đầu ra là các thông tin 7, là kết quả củakhối LSTM hiện tai và C, là “nhớ” của khối hiện tại Do đó, quyết định của một khối
LSTM dựa vào đâu vào của khôi tại thời diém đang xét, kêt quả dau ra và “nhớ” của
12
Trang 25khôi trước dé tạo ra kêt quả dau ra h; và “nhớ” C; của khôi hiện tai Câu trúc tông quát
của mạng LSTM được biéu diễn trong hình 3.3
Hình 3.3: Cấu trúc mạng LSTM [10]
Trong cấu trúc của LSTM ở hình 3.2, cau tạo bên trong một LSTM có 3 cổng(gate), ba công đó lần lượt là công forget gate, input gate va output gate, các céng
này được cấu tạo bởi một lớp mang sigmoid và một phép nhân, phép nhân ở đây là
phép nhân ma trận element-wise multiphication matrix Các công này là nơi sàng lọcthông tin, đây chính là điểm mau chốt giúp mạng LSTM có khả năng loại bỏ haythêm vào các thông tin cần thiết cho cell state Đầu ra của các lớp sigmoid là một giátrị trong khoảng [0,1], giá trị này mang ý nghĩa quyết định sẽ có bao nhiêu thông tin
có thé được đi tiếp hoặc bị bỏ đi Nếu dau ra là 0 có nghĩa là không có thông tin nàoqua cả mà sẽ bị loại bỏ, ngược lại nếu đầu ra là 1 có nghĩa là tất cả các thông tin sẽ
được đi tiếp
Trong hình 3.4, có một “đường” chạy xuyên suốt qua các nút mạng, “đường”
này chính là trạng thái nhớ (cell state), đây là điểm quan trọng nhất trong mạng
LSTM.
13
Trang 26vào giá trị đầu ra ở “cổng quên” Cách hoạt động của mạng LSTM cụ thê như sau:
Bước đầu tiên, đầu vào J„; và x; sẽ được đưa vào lớp sigmoid đầu tiên, đó chính
là “cổng quên” fi (forget gate layer) “Cổng quén” sẽ tinh theo công thức (4) và có
đầu ra là một giá trị trong khoảng [0,1] cho cell state C„¡ Giá trị này góp phần quyếtđịnh loại bỏ những thông tin không quan trọng khỏi cell state Nếu giá trị bằng 0,
thông tin bị loại bỏ, ngược lại nếu giá tri bang 1, thông tin được giữ lai Cụ thê như
hình 3.5 dưới đây.
14
Trang 27fe = ø(MW?.|h¿_+,x¿] + by) (4)
Trong đó, W7 là ma trận trọng số trong LSTM và br là vector bias.
Hình 3.5: “cong quên” của mang LSTM [10]
Bước tiếp theo, các đầu vào sau khi được tiếp nhận sẽ được lưu trữ tại cell state
qua hai phần Đầu tiên sẽ quyết định giá trị nào sẽ được cập nhật thông qua lớpsigmoid thứ hai, đây là “cổng dau vào” i, (input gate layer), và một lớp tanh dé tao
ra một vector cho giá tri mới G nhằm thêm vào cell state Trong công thức (5) va
(6), các thông số W;, W, là các mạ trận trọng số trong LSTM và b;, b„ là các vector
bias.
15
Trang 28í, = ø(M;.|h,_+,x¿] + bị) (5)
C, = tanh(W,.[h,_,x¿] + be) (6)
Hình 3.6: LSTM tính giá trị lưu tai cell state [10]
Tiép theo, trang thai cell state cũ C;.; sẽ được cập nhật thành trang thai cell state
mới C, theo công thức (7) Trang thái “nhd” cũ C¿¡ nhân với kết qua của “cổng quên”
ƒ, dé bỏ đi những thông tin đã quyết định bỏ di ở trước đó Sau đó, cộng với giá tri
i, * C, biểu diễn những “ứng viên” mới C, cho cell state (được quyết định bởi hệ sốdan nở i,), cụ thé là cho việc cập nhật giá trị cho mỗi cell state
Ch= fix Creat ip*G, (7)
Hình 3.7: Minh họa việc cập nhật giá tri cell state [10]
16
Trang 29Cuối cùng, các thông tin sẽ được sàng lọc lần cuối và đầu ra sẽ được lựa chọn
phụ thuộc vào trạng thái cell state Đầu tiên, các phần của cell state được chon dé
xuất ra sẽ được quyết định thông qua lớp sigmoid cuối cùng, đây là “cổng đầu ra” 0¿
(output gate layer) Trạng thái cell state được đưa vào một ham tanh (tanh activation
function), đầu ra của ham tanh sẽ có giá trị thuộc khoảng [-1,1] và nhân với đầu ra ở
“cổng dau ra” dé đưa ra quyết định cuối cùng thành phan sẽ được khối LSTM xuất
ra Công thức được áp dụng ở bước này Trong đó, W, là ma trận trọng số trong
LSTM và b, là vector bias.
9 + II o(W, [he-1, X12] + bạ) (8)
= + Il 0, * tanh (C;) (9)
Hình 3.8: Dau ra của khối LSTM [10]
Mạng LSTM là sự kết nối giữa nhiều khối LSTM với nhau theo chuỗi thời gian.Tại mỗi thời diém, mỗi khối LSTM hoạt động dựa vào các lớp: lớp “cổng quên” fr,lớp “cổng dau vào” i, và lớp “cổng dau ra” o¿ Trong đó, “cổng quên” là điểm đángchú ý nhất của mạng LSTM, mạng lại khả năng sử dụng thông tin một cách hiệu quả
17
Trang 303.1.3 Mô hình Encoder-Decoder với cơ chế attention
Mô hình Encoder-Decoder được giới thiệu lần đầu bởi nhóm nghiên cứu của
Google (2014) [3] trong bài báo Sequence to Sequence Learning with Neural
Network Mô hình cơ bản gồm hai mạng neural thường là RNNs, đóng vai trò mạng
mã hóa (encoder) và mạng giải mã (decoder) nhằm phát sinh chuỗi đầu ra dựa vào
chuỗi đầu vào cho trước, điều này đã làm cho việc tóm tắt tóm lược trở nên khả thi
hơn (Chorpa et al, 2016 [11]; Nallapati et al, 2016 [12]; Rush et al, 2015 [13]; Zeng
et al, 2016 [14]) Mang neural ở encoder mã hóa chuỗi đầu vào thành một vector ¢ có
độ dài có định, mạng neural ở decoder sẽ lần lượt sinh ra chuỗi đầu ra dựa trên vector
c và những từ được dự đoán trước đó cho tới khi gặp kí tự kết thúc câu Dưới đây là
ví dụ cụ thê cho quá trình sinh ra câu của mô hình Encoder-Decoder:
the black fox jumped </s>
Hình 3.9: Cơ chế hoạt động của mô hình Encoder-Decoder, E [word] là embedding
vector cua word và e là vector mã hóa cudi cua công đoạn encoding [8]
18
Trang 31Có thé thấy vector mã hóa e được sử dụng ở công đoạn decoding dé phát sinh
ra tất cả các từ của chuỗi đầu ra Nếu phải xử lý với chuỗi đầu vào dài, chỉ vector ¢
sẽ không đủ dé lưu trữ thông tin của toàn bộ chuỗi, vì vậy cơ chế Attention [15] được
dé xuất dé tăng hiệu qua cho mô hình Encoder-Decoder như sau:
the black fox jumped </s>
Hình 3.10: Cơ chế hoạt động của mô hình Encoder-Decoder với cơ chế Attention
c¡ là dau ra cua encoder tại thời điểm i [8]
Thay vì chỉ sử dụng một vector mã hóa c tại thời điểm cuối của công đoạn
encoder, cơ chế attention cho phép decoder sử dụng nhiều vector mã hóa c; tại mỗithời điểm i khác nhau Cơ chế Attention cũng cho phép decoder có thé “tập trung”vào những từ có khả năng chứa nhiều thông tin cho quá trình decoding, thay vì cả
19
Trang 32chuỗi đâu vào thông qua việc tính toán xác suât của các từ trong chuôi dau vào Cu
thê tính được thực hiện như sau:
Thong tin của dau vào sẽ thực hiện encode sinh ra trạng thái ân ở từng cell trong
encoder Với mỗi bước thực hiện t, decoder sẽ nhận từ nhúng của từ trước đó và trạng
thái ân h; của nó Dé đánh giá mức độ liên quan giữa đâu vào của encoder với dau ra
tiếp theo của decoder, được tính theo công thức như Bahdanau (2015) [15]:
ef =v" tanh (W,h; + W%s¿ + Daten) (4)
Trong đó, v, W;, , We, Daten là các thông số học được
Sau đó, diém phân tán chú ý a‘ được tính toán thông qua hàm softmax đề đánh
giá mức độ tương quan giữa đâu vào encoder tại từng bước với đâu ra hiện tai của decoder:
a‘ = softmax (e‡) (5)
Ngoài ra, a‘ còn tham gia vào quá trình tính toán vector ngữ cảnh hj cùng với
toàn bộ trạng thái ân ở bước encoder:
he = Di ajh; (6)
Vector ngữ cảnh biêu diễn những gi ma nó doc được từ dau vào và cùng với
trạng thái an decoder St dé thực hiện quá trình tính phân tán từ vựng P;s;ap :
Đsscạp = soƒtmax(V'(V[s,,h;]+b)+ b') (7)
Trong đó, V', V , b’, b la các thông số học được
Pyocap là phân tán xác suất trên tat cả từ trong bộ từ vựng và chúng được sửdụng dé dự đoán từ w:
Trang 33Và độ mắt mát trên toàn bộ đầu vào được tính theo công thức:
1
loss = 7 XT, lossy (10)
3.1.3 Những han chế của mô hình Encoder-Decoder với bài toán tóm tat văn
bản tự động.
Mô hình Encoder-Decoder với cơ ché Attention mac đù tỏ ra hiệu quả với bài
toán dich máy, tuy nhiên chiều dai tối đa của chuỗi đầu vào ở bài toán này thườngkhông lớn hơn 100 từ Đối với bài toán tóm tắt tự động, chiều dài của chuỗi đầu vàothường nằm trong khoảng 400 tới 800 từ dựa theo chiều dài thực tế của văn bản gốc
và mô hình này bộc lộ những hạn chế khi phải xử lý với những chuỗi dài Cụ thê làvan dé mat mát bộ nhớ theo thời gian khi các từ của chuỗi đầu vào liên tục được cộng
dồn vào một bộ nhớ, các từ được thêm lúc ban đầu sẽ dần bị “quên đi”, làm cho quá
trình decoding bị giảm đi hiệu quả bởi việc thông tin bị loãng.
3.2 Mô hình Pointer Generater và cơ chế Coverage
Cơ chế attention được thêm vào dé tăng hiệu quả của mô hình seq2seq giúp môhình sẽ dành sự “tập trung” vào những từ được cho là chứa nhiều thông tin Nhưngnhược điểm của các mô hình seg2seq nói chung đó là không thể mô tả chính xác các
từ không nằm trong bộ từ vựng (Out-of-Vocabulary, gọi tắt là OOV) ví dụ như tênriêng, số điện thoại, địa danh, mà sẽ được thay thành các UNKNOW token (UNK)
tại dau ra.
21
Trang 34Original Text (truncated): lagos, nigeria (cnn) a day after winning nige Hình 3.11: So sánh đâu ra
ria's presidency, mafanmeds buheri told cnn’s christiane amanpour that > A ` 2 ⁄
he plans to aggressively fight corruption that has long plagued nigeria cua 3 mô hình tóm tat
and go after the root of the nation’s unrest, buhari said he'll “rapidly give
attention” to curbing violence in the northeast part of nigeria, where the ter Abstractive trén cung mot
rurisL group boko haram operates by cooperating with neighboring nations
chad, camenoon and niger, be said bis administration is confident it will bài báo: Mô hình seq2seq +
be able to thwart criminals and others contributing to nigeria’s instability.
for the first time in nigeria’s history, the opposition defeated the ruling party
in democratic elections buhari defeated incumbent goodluck jonathan by
about 2 million votes, according to nigeria’s independent national clectoral os A LS
commission the win comes after a long history of military rule, coups bởi OOV Mô hình Pointer
and botched attempts at democracy in africa’s most populous nation.
Attenttion cơ ban bị hạn chế
——————————- — Generator (PointerGen)
Baseline Seq2Seq + Attention: UNK LINK says his administration is conti
dent it will be able to destabilize nigeria’s economy UNK says his admin- giải quyết vấn đề OOV
istration is confident it will be able to thwart criminals and other nigerians.
he says the country has long nigeria and nigeria‘’s economy.
nhưng bi lặp từ Mô hình
Pointer-Gen: muhanmadu buhart says he plans to aggressively fight
cor-ruption in the northeast part of nigeria, he says he'll “rapidly give at- PointerGen + Coverage xử
tention” to curbing violence in the northeast part of nigeria he says his , F ` `
administration is confident it will be able to thwart criminals lí được van dé lặp từ và cho
Pointer-Gen + Coverage: muammadu bubari says be plans to aggressively két qua tóm tat tot nhất
fight corruption that has long plagued nigeria he says his administration is
confident it will be able to thwart criminals the win comes after a long his- AL
tory of military rule, coups and botched attempts at democracy in africa’s trong 3 mô hình [4]
most populous nation,
Đối với van dé nay, See và các cộng sự của minh đã giải quyết van đề bằng cáchcho phép mô hình có khả năng sao chép và sử dụng trực tiếp các OOV từ văn bản đầuvào thay vi sinh ra một từ mới dựa vào tập từ vựng vocab Trong phan tiếp theo sẽlàm rõ hơn về mô hình seg2seq với cơ chế Pointer-Generator, dé giải quyết các hạn
chế của mô hình seg2se truyền thống
3.2.1 Mô hình Pointer Generator
Mô hình Pointer Generator (PointerGen) [4] được See cùng với những cộng sự
của mình giới thiệu vào năm 2017, mô hình này được đề xuất nhằm giải quyết cácnhược điểm của mô hình seq2seq đang gặp phải Mô hình PointerGen là sự kết hợpgiữa mô hình seq2seq và một Pointer Network (Ptr-Net) [16] — sử dụng cơ chế chú ýnhư một con trỏ dé chọn thành viên của chuỗi đầu vào làm đầu ra, trong khi cơ chế
chú ý trước đó chỉ được sử dụng dé trộn các đơn vị ân ở bước encoder với một vectorngữ cảnh (context vector) ở bước decoder Một Prr-Net được dùng trong mô hình dé
đưa ra quyết định sao chép một từ từ đầu vào hay sinh ra từ từ một từ vựng cô định
22
Trang 35Encoder Hidden States Germany emerge victorious in 2 W against Argentina on S8]E1S UAPPIH Japooag
Source Text Partial Summary
Hình 3.12: Mô hình Pointer — Generator voi Pointer Network thực hiện việc chon
từ được tao ra từ mới hay sao chép tw dau vao [4]
Ở mỗi thời điểm t, PointerGen nhận các thông tin từ Context Vector hj, trạngthái của decoder s; và đầu vào của decoder x; đề tính xác suất, từ đó dựa vào xác suất
dé đưa ra quyết định:
Pgen = Ø(w¡,„h; SP W Sự + Wy Xe + Dytr) (17)
Các vectors wh , w¿`, w¿ va Dye, là các thông số có thé huấn luyện được và o
là ham sigmoid Pgen tham gia vào quá trình đưa ra quyết định tạo một từ mới thông
qua các từ có trong bộ từ vựng Ø;sc„p hoặc sao chép từ từ đầu vào ở lớp phân tán
“chú y” at Việc sao chép từ từ đầu vào giúp bộ từ vựng được mở rộng với mỗi đầuVào ở encoder Quyết định chọn từ cho câu được tạo cho đầu ra dựa vào xác suất chọn
từ được tính như sau:
P(w) = PgenP vocab (w) +(- Pgen) di:w;=w aj (18)
Nếu w là từ thuộc OOV thì P,ocqp(w) bang 0 sẽ thực hiện sao chép trực tiếp từ
ở a‘, tương tự nếu w không xuất hiện trong đầu vào thi 3 wi=w at bang 0 sẽ thực
23
Trang 36hiện tạo một từ mới từ Pyocay Khả năng tao các từ OOV là ưu điểm của mô hình
Pointer-Generator dù mô hình có bị hạn chế về từ vựng Nhưng bên cạnh ưu điểm
đó, mô hình PointerGen bị nhược điểm về việc lặp từ trong câu tóm tắt như tronghình 3.11 Đối mặt với vẫn đề này, một nhóm nghiên cứu đã dé xuất một cơ chế dé
khắc phục nhược điểm này Trong phan tiếp theo sẽ trình bày cụ thé về cơ chế giải
quyết nhược điểm của mô hình PointerGen
3.2.2 Cơ chế Coverage
Cơ chế “sao chép” từ đã giải quyết van đề về OOV của các mô hình seq2seq cơbản nhưng nhược điểm của cơ chế này là xuất hiện từ trùng lặp trong đoạn văn bản
tóm tắt được sinh ra (Tu et al, 2016 [17]; Mi et al, 2016 [18]; Sankaran et al, 2016
[19]; Suzuki and Nagata, 2016 [20]) Trong bài toán dịch văn bản tự động thì lỗi lặp
từ cũng xảy ra khi dùng cơ chế “sao chép”, thành công khi khắc phục được lỗi lặp từbăng mô hình Coverage (được giới thiệu lần đầu bởi Tu cùng với các cộng sự vào
năm 2016) [17] Mô hình Coverage sử dụng một vector gọi là Coverage Vector CÌ,
vector này là tông trọng số sự phân tán chú ý toàn bộ các bước của decoder trước đó:
r
là Tay (19)
Ở bước dau tiên, c° là vector 0 vì dau vào lúc này rỗng Vector Coverage được
dùng làm đầu vào bồ sung cho cơ chế chú ý dé tính điểm chú ý:
ef =v" tanh (W„ạh¡ + W⁄S, + wee? + Daten) (20)
Trong đó, w, là một vector tham số được huấn luyện có cùng độ dài với v Quyết
định chon vi trí tiếp theo của cơ chế attention sẽ được thông báo bằng một “nhắc nhở”
về quyết định trước đó của nó g1úp cơ chế attention tránh việc chon lại từ đã chọn ởbước trước, do đó tránh được việc trùng lặp Việc “phạt” khi xuất hiện trùng lặp làcần thiết, hàm Coverage Loss sẽ thực hiện việc kiểm tra xem có xảy ra lặp không và
được tính như sau:
cowloss, =; min (aj, c/) (21)
24
Trang 37Và hàm /oss được tính như sau:
loss, = -log P(wỷ) + AX, min (af,cf) (22)
Nêu như xuât hiện trùng, covloss cao làm cho loss cao và ngược lại Khi loss
đạt cực tiêu và không thê giảm được nữa thì lúc này mô hình đã đạt được hiệu suât
tốt nhất
3.3 Cấu trúc Neural Semantic Encoder (NSE) và các cải tiến
Neural Semantic Encoder [5] là một mạng nhớ tăng cường, được dé xuất bởiMunkhdalai và Yu (2017), được sử dụng dé giai quyét các bài toán của lĩnh vực NLP
như dịch máy, phân tích cảm xúc văn bản, phân lớp cho câu, Khác với những mô
hình Encoder-Decoder truyền thống, NSE sử dụng thêm bộ nhớ mã hóa (encoding
memory) với các bộ phận chính là read, compose, write giúp “ghi nhớ” được một
chuỗi đầu vào dài một cách có hiệu quả Mục này trình bày về mô hình NSE cơ bản,
sau đó sẽ trình bày các cải tiễn dé làm tăng hiệu suất của mô hình với bài toán tóm
nhớ là một vector , € R*, lưu trữ thông tin của một từ w¿ bên trong bộ nhớ mã hóa.
Ban đầu, bộ nhớ mã hóa được khởi tạo giá tri là các vector ngữ cảnh của các từ trong
chuỗi đầu vào (embedding vector) {xf}‡_¡ và bộ nhớ này sẽ được cập nhật theo thời
gian, thông qua các quá trình read, compose, write.
25
Trang 38Hình 3.13: Mô hình NSE đơn giản, gồm các thành phan chính là bộ nhớ (Memory)
và các quá trình Read, Compose, Write [6]
Ở hình vẽ trên, có thé thấy chuỗi đầu vào (Input) được dùng dé khởi tạo bộ nhớ
và tại mỗi bước lặp - khi một từ mới của Input được đưa vào xử lý, NSE sử dụng cả
ba quá trình chính dé cập nhật lại bộ nhớ Chúng ta sẽ di sâu hơn vào phân tích cách
các quá trình Read, Compose, Write hoạt động sau đây:
M, =M,_¡(1 — (% @ e)") + (h, @ e,)Œ, @ ex)" (9)
Read: Sau khi bộ nhớ được khởi tạo băng các vector ngữ cảnh của chuỗi đầu
vào {x¿}¿_¡ Thay vi sử dụng các vector dau vào thô là x‘, lần lượt các vector x;~; tới
x¿-¡ sẽ được đưa vào hàm ƒ⁄S”M_ thực chất là một mạng neural sử dụng LSTM dé
26