1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt văn bản tiếng Việt sử dụng mô hình Encoder-Decoder với cấu trúc Hierarchical Neural Semantic Encoder

76 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tóm tắt văn bản tiếng Việt sử dụng mô hình Encoder-Decoder với cấu trúc Hierarchical Neural Semantic Encoder
Tác giả Trần Công Minh, Nguyễn Thanh Tú
Người hướng dẫn THS. Trịnh Quốc Sơn, TS. Ngô Đức Thành
Trường học Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 76
Dung lượng 39,63 MB

Nội dung

DANH MỤC TỪ VIET TATSTT | Từ viết tắt Tên đầy đủ Giải thích 1 TF-IDF Term Frequency — Một phương pháp đánh gia độ Inverse Document quan trong cua cac tu trong cac Frequency van ban 2 NLP

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

TRAN CONG MINH NGUYEN THANH TU

KHOA LUAN TOT NGHIEP

ENCODER-DECODER VOI CAU TRUC HIERARCHICAL NEURAL SEMANTIC ENCODER

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRAN CONG MINH - 17520763

NGUYEN THANH TU — 17521201

KHOA LUAN TOT NGHIEP

TOM TAT VAN BAN TIENG VIET SU DUNG MO HINH

ENCODER-DECODER VỚI CẤU TRÚC HIERARCHICAL NEURAL SEMANTIC ENCODER

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN:

THS TRINH QUOC SON

TS NGO DUC THANH

TP HO CHi MINH, 2021

Trang 3

DANH SÁCH HỌI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

| Ẽ — Chủ tịch.

Boeke c cece ence eee n neces ene e eae ene eee sean en ees — Ủy viên

—— — Ủy viên

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin chân thành cám ơn sâu sắc đối với Thầy Thạc sĩ Trịnh

Quốc Sơn và Thay Tiến sĩ Ngô Đức Thanh — giảng viên hướng dẫn trực tiếp của chúng

em Thay Sơn va Thay Thành đã cho chúng em những gợi ý và chỉ dẫn quý báu trong quátrình nghiên cứu và hoàn thiện khóa luận tốt nghiệp

Chúng em cũng xin gửi lời cảm ơn tới các thầy cô trong khoa Khoa học máy tính,trường Dai học Công Nghệ Thông Tin, Dai học Quốc Gia Thành phố Hồ Chí Minh đãhướng dẫn, chỉ bảo và tạo điều kiện cho chúng em học tập và nghiên cứu tại trường trongsuốt thời gian qua

Chúng em cũng xin gửi lời cảm ơn gia đình, những người thân và bạn bẻ đã quan tâm,

động viên, giới thiệu các tài liệu hữu ích trong suốt thời gian học tập và nghiên cứu khóa

luận.

Mặc dù chúng em đã cố gắng hoàn thành khóa luận nhưng chắc chắn sẽ không tránh

khỏi những sai sót, chúng em kính mong nhận được sự thông cảm và chỉ bảo của các thầy

Trang 5

MỤC LỤC

IM.908)//0/905)0)1842ã5 viiiDANH MỤC BẢNG - 5: 2t tt HH ng re ixM9058 10/9/1004) x

TOM TAT 40.00090057 — 1Chương 1 MG DAU viceececscsssessssssesssesssesssessscssscsusssusssecssecsuscsscssecsuscsscssecssecaseesessnes 2

1.1 Vấn dbo eeceecccseeecssseecssseeesssneecssssecssseeessnneecssnsecssnecssneeesssnsecsansecssneeessneeeesneees 2

1.2 Mục tiêu của khóa luận - <2 5E E3 2211111111223 1 1111119551111 ca 4

1.3 Đối tượng và phạm vi nghiên cứu ¿- 2 + + £+x+ExerkezEzrerrxerxeee 4

1.4, Cấu trúc của khóa luận -.c¿¿++t+cc++tccEkrrtrktrrttrtrrrtrtrrrrrrrrrrrrree 4Chương 2 MO HÌNH BÀI TOÁN -+¿©5¿++2E++EEE2EE++Exrtrkerkrerkrrrree 6

2.1 Mô hình bài toán tóm tắt văn bản tóm lược s- ¿s s+x+zzEerzxerxsrs 62.2 Đánh giá mô hình bằng phương pháp ROUGE ¿52 2 s2 2 +2 8Chương3 CƠ SỞ LÝ THUYÊT ¿2 E+2E+2E££EE+EEtEEtEEEEEEerkrrreree 10

3.1 Mô hình Encoder-IÖe€O(€T - -s + + +33 E3 ESvEEseEssEsskersersee 10

3.1.1 Mang neural truy hồi ¿2 s+Sx+2E22E22EEEEEEEEEEEEEEEEEEEEErrrrkerkerree 10

3.1.2 Mạng neural LS”TÌM - - c1 SH HH nh 12

3.1.3 Mô hình Encoder-Decoder với cơ chế attention -:-s:s¿ 183.2 Mô hình Pointer Generater và cơ chế Coverage c.sscsssessesssessseestecstesseesses 21

3.2.1 Mô hình Pointer Cen€rafOT- 5 cess nen 22

3.2.2 Cơ chế Coverage cccccccsessesssessessessessessessesssessessessessiessessessussseeseeses 24

3.3 Cấu trúc Neural Semantic Encoder (NSE) và các cải tiến 25

“6n 25

3.3.2 Mô hình NSE cải tiến ¿2 St tt SEvESE5EE51111515151115EE55251E1 E131 seE 27

Trang 6

3.4 Mô hình Hierarchical NSE giải quyết bài toán tóm tắt văn bản tự động 29

Chương4 XAY DUNG HE THONG TOM TAT VĂN BẢN TIENG VIỆT TỰDONG BANG MÔ HINH HIERARCHICAL NSE sssssssssssssssessesssneeseesnneeeeesnes 34

4.1 Xây dựng mô hình Hierarchical NSIE series 34 4.2 Xây dựng bộ dữ liệu thực nghiệm - 5 3 SE +kEskEeeeesreeersee 36

4.3 Môi trường thử nghiỆm - c2 12211112301 11911 1 11 91111 vn ng kg rưy 37

4.4 Quá trình huấn luyện mô hình ¿2s +2 ££E£2E£+E££Eerxerxerxerszrx 384.5 Kết quả thực nghiệm và nhận X6t - 5 + SE + +vEEsseeesersreere 40

4.4.1 Thực nghiỆm 1 - <6 2133231831189 1 91 19 11 911g ng ng ngư 40

4.4.2 Thực nghiỆm 2 - Án HT TH HH Hà Hưng ng 4I

4.4.3 Thurc i36 ee 42

4.6 Đánh giá chất lượng ngữ nghĩa của mô hình -. -2- ¿+ ©5+c++ 45Chương 5 KÉT LUẬN, HAN CHE VÀ HƯỚNG PHAT TRIÊỀN 59

5.1 Kếtluận itm xem sượm / ii 595.2, Han ché hSh ` Ý"“ Ấđ 595.3 Hướng phát triỀn ¿+ + ©k9SE+EE2EE2E2EEEEE21EE1212112112112171 2121 xe 60TÀI LIEU THAM KHẢO - - St EESE+EEEESESEEEEEEEEEEEEESESEEEESEEEEEEEkekrrrrkrree 61

Trang 7

DANH MỤC HÌNH VẼ

Hình 2.1: Minh họa mô hình bài toán tóm tắt tự động - 2-2 z+cz+cscxeez 6Hình 2.2: Quy trình thực hiện tóm tắt văn bản tiếng Việt tự động - 7Hình 3.1: Minh họa cấu trúc 00001909) 4 10

Hình 3.1.a: Minh họa một RNN - 2G Q21 111v ng 1 khen, 10

Hình 3.1.b: Minh họa mạng RNN khi duỗi thăng 2-2 252 +E£x+zxezszse2 10

Hình 3.2: Cấu trúc LSTM -c¿¿222++ttttEEktrtttEktrrrrtttrirrrrtrrrrrrrrirrrrrieg 11Hình 3.3: Cau trúc mạng LSTM ou.cecceccessessesssessessessssssessessesssessessecsecssessesseesssneeseeseees 12

Hình 3.4: "Ong nhớ" trong mang LSTM scssscsssesssessesssesssecssecsessecssecssessesssessseess 13Hình 3.5: "Công quên" trong mạng LSTM - ¿2 2 +2 + +2 £+E£+Ee£ke£xerxerszxez 14

Hình 3.6: LSTM tinh giá trị lưu tại cell SfAf€ - - ¿5555 *+**k+veeeeeeeeereeeers 14

HÌnh 3.7: Minh họa việc cập nhật giá tri cell staf€- ¿55+ s+scxssssesess 15Hình 3.8: Đầu ra của khối LSTM -c2cccc+ccEveerrtrrkkrrrrrrtrrrtrrirrrrrrrreg 16Hinh 3.9: Co ché hoat động của mô hình Encoder-Decodetr -« + 17Hình 3.10: Cơ chế hoạt động của mô hình Encoder-Decoder với cơ chế Attention.18

Hình 3.11: So sánh đầu ra của ba mô hình tóm tắt Abstractive trên cùng một bài báo

¬ Ố 21

Hình 3.12: Mô hình Pointer — Generator với Pointer Network thực hiện việc chon từ

được tạo ra từ mới hay sao chép từ đầu VẢO -.Sc St n St E1 2121111112111111 51111 cre 22

Hình 3.13: Mô hình NSE đơn giản, gồm các thành phần chính là bộ nhớ (Memory)

và các quá trình Read, Compose, WTI{€ -c 11v vn kg TH HH rry 25

Hình 3.14: Cấu trúc phân cấp của văn bản - 2 ©5¿+2++cx+cxczxzreerxerxeres 29

Hình 3.15: Mô hình Hierarchical NSIE - ch ngư 31

Vili

Trang 8

Hình 4.1: Ví dụ đữ liệu cho bài toán tóm tắt tiếng Việt từ trang báo điện tử VnExpess

Hình 4.2: Mẫu dit liệu sau khi tiền xử lý - 2-2 ©5225£2EE+ExeEEerkrrkerkerreres 35

Hình 4.3: Ví dụ của tác giả Xuan-Son Vu là biểu diễn của từ “yêu” bằng các từ lân

cận trong không gian ngữ nghĩa sử dung embedding Vector - -«- 37

Hình 4.4: Training Loss của thực nghiệm 1 từ bước lặp 4500 tới 5000 38

Hình 4.5: Training Loss của thực nghiệm 2 sau hơn 6000 bước lặp 39

Hình 4.6: Validation Loss của thực nghiêm 3 sau hơn 7000 bước lặp 40

Hình 4.7: So sánh hiệu suất của 3 mô hình ở 3 thực nghiệm ‹++-+++++ 41

1X

Trang 9

DANH MỤC BANG

Bảng 4.1: Hiệu suất của mô hình trong thực nghiệm I 2-2 22 5+2 41Bảng 4.2: Hiệu suất của mô hình trong thực nghiệm 2 2- ¿5252252 42Bảng 4.3: Hiệu suất của mô hình trong thực nghiệm 3 .2- 22 52522552 43

Bảng: 4.4: Kết quả của các mô hình tóm tắt văn bản tự động sử dụng dataset lấy từ

các trang báo điỆn tỬ: + c 121 1121119911 911111111111 11H KH HH rry 44

Bang 4.5: Đánh giá ngữ nghĩa của các mô hình qua 6 mẫu kết quả - 51

Trang 10

DANH MỤC TỪ VIET TAT

STT | Từ viết tắt Tên đầy đủ Giải thích

1 TF-IDF Term Frequency — Một phương pháp đánh gia độ

Inverse Document quan trong cua cac tu trong cac

Frequency van ban

2 NLP Natural Language Xử lí ngôn ngữ tự nhiên

Processing

3 RNN Recurrent Neural Mang nơ ron hồi quy sử dung dé

Network xử ly thong tin có tính tuần tự

4 GRU Gated-Recurrent Unit Là một cơ chế gating trong các

mạng nơ ron hồi quy, GRU giốngvới LSTM nhưng có ít thông sốhơn, vì kiến trúc này không có

công đầu ra

5 LSTM Long-Short Term Kiến trúc mạng học sâu cải tiễn

Memory của RNN, giải quyết hạn chế của

mạng RNN với các bài toán cần

xử lý dữ liệu theo thời gian đòi hỏi trạng thái nhớ trung gian.

6 ROUGE Recall Oriented Phương pháp đánh giá độ chính

Understudy of Gisting xác của văn bản tóm tắt

Evaluation

7 Seq2seq | Sequence-to-sequence | Là một mô hình Deep Learning

với mục đích tao ra một output sequence từ một input sequence

mà độ dai của 2 sequences này có

XI

Trang 11

write giúp “ghi nhớ” được một

chuỗi đầu vào dài một cách có

hiệu quả

PointerGen Pointer Generator M6 hinh Pointer Generator 1a su

kết hop giữa mô hình seq2seq và

một mạng con trỏ Pointer

Network, nhằm giải quyết nhượcđiểm từ mô hình seq2seq với cơ

chế attention

10 Ptr-Net Pointer Network Sử dụng cơ chê chú ý như một

con trỏ đê chọn thành viên của

chuỗi dau vào làm dau ra

11 HierNSE Hierarchical Neural

Semantic Encoder

La mô hình cải tiễn của mô hìnhNSE, sử dụng thêm tính phân cấp

của văn bản vào mô hình.

12 MLP Multi-layer Perception La một trong những mang truyền

thăng điển hình nhất, thường

được dùng trong bài toán nhận

XH

Trang 12

dạng Bao gồm nhiêu lớp: một lớp

vào, một lớp ra và một hoặc nhiều

lớp an

XH

Trang 13

TÓM TẮT KHÓA LUẬN

Khóa luận này tập trung nghiên cứu áp dụng mô hình Encoder — Decoder với

cau trúc Hierarchical NSE dé giải quyết cho bài toán tóm tắt văn bản tiếng Việt tự

động Day là một bài toán quen thuộc trong lĩnh vực NLP, với mục tiêu là trích chon

ra những thông tin được xem là có giá trị cao trong văn bản đầu vào, nhằm tiết kiệm

được công sức và chi phí phải bỏ ra dé năm bắt được thông tin của văn bản đó Da sốcác nghiên cứu được thực hiện theo hai hướng tiếp cận chính, tóm tắt trích xuất, sử

dụng trực tiếp các câu trong văn bản gốc dé tạo thành bản tóm tắt, thường dựa vàocác thuật toán heuristic hoặc học máy để đánh giá mức độ quan trọng của từng câu,hướng còn lại là tóm tắt tóm lược, sử dụng các mô hình và kỹ thuật học sâu dé biên

soạn ra một bản tóm tắt hoàn toàn mới, mô phỏng lại cách tóm tắt của con người

Cũng có những nghiên cứu sử dụng kết hợp cả hai hướng, nhưng trong phạm vi khóaluận này, nhóm em sẽ chỉ tập trung vào hướng thứ hai, cụ thé là tìm hiểu, áp dụng vađánh giá mô hình Encoder — Decoder với cau trúc Hierarchical NSE giải quyết chobài toán tóm tắt văn bản tiếng Việt Kết quả thực nghiệm của khóa luận cũng chỉ rarang mô hình có thé đạt được hiệu suất tóm tắt khá tốt trên tập dữ liệu là các bài báotiếng Việt

Trang 14

Chương 1 MỞ ĐẦU

1.1 Vấn đề

Với sự phát triển mạnh mẽ của công nghệ thông tin và mạng máy tính, lượng

tài liệu văn bản khổng lồ được tạo ra với nhiều mục đích sử dụng khiến cho việc đọc

hiểu và trích lược các thông tin cần thiết trong khối tri thức đồ sộ này tốn rất nhiềuthời gian và chi phí Với việc có quá nhiều văn ban cần được đọc trong một khoảngthời gian ngắn, chúng ta thường trông chờ vào một phiên bản rút gọn của văn bản gốc

— những bản tóm tắt

Vậy như thế nào là một bản tóm tắt? Mục đích của việc tóm tắt văn bản là gì?Các tiêu chí để đánh giá một bản tóm tắt? Làm thế nào để tạo ra được một bản tóm

tắt? Chúng ta hãy cùng tìm hiéu về các câu hỏi này đưới đây

Trước hêt, một bản tóm tat là một phiên bản rút gọn của văn bản gôc, được tạo

ra với mục đích rút gọn tối đa khoảng thời gian cho việc đọc văn bản, mà vẫn bảo

đảm tính chính xác và đầy đủ của thông tin chứa trong văn bản gốc

Một bản tóm tắt có chất lượng tốt không chỉ mang đầy đủ các thông tin quan

trọng mà còn phải được diễn đạt một cách mạch lạc và tự nhiên nhất có thê Cụ thé,

các tiêu chí dé đánh giá chất lượng của một bản tóm tat bao gồm: độ chính xác củanội dung, thông tin phải tương đương với văn bản gốc; sự mạch lạc, đúng ngữ pháp,làm cho bản tóm tắt có thé đọc hiểu được; tỉ lệ nén, bản tóm tat phải có kích thước

nhỏ hơn so với văn bản gôc.

Có 2 hướng tiếp cận chính đề thực hiện việc tóm tắt văn bản Hướng đầu tiên làtóm tắt trích xuất (Extractive Summarize), ý tưởng là sẽ sử dụng chính các câu củavăn bản gốc đề tạo thành bản tóm tắt mới

Trong hướng này, bài toán tóm tắt văn bản sẽ trở thành bài toán làm thê nào đê xác định được những câu trong văn bản gôc sẽ xuât hiện ở bán tóm tat, nói cách khác, bài toán yêu câu cân phải xác định những câu được xem là quan trọng dé thêm vào tập câu sẽ được sử dụng dé tạo nên ban tóm tat Tại đây, một vân đê mới sé phát sinh

Trang 15

đó là làm thế nào để biết một câu có quan trọng hay không? Có hai hướng chính

thường được các nghiên cứu sử dụng để xác định mức độ quan trọng của các câu

trong một văn bản Hướng đầu tiên là sử dụng các thuật toán heuristic là TF-IDF, thứ

tự và vi trí của câu đang xét ở trong văn ban sốc (ví dụ như đối với bài báo khoa học,các câu quan trọng thường sẽ nằm ở vị trí đầu tiên của văn bản, trong phần abstract).Hướng thứ hai thường được các nghiên cứu áp dụng cho bài toán tóm tắt văn bản, là

mô phỏng văn bản thành một đồ thị với các đỉnh là các câu trong văn bản, các cạnh

nối giữa hai đỉnh tương ứng với độ liên quan về mặt ngữ nghĩa của hai đỉnh đó Saukhi hoàn tất mô phỏng văn bản bằng phương pháp đồ thị, các thuật toán học máykhông giám sát (Unsupervised Learning) sẽ được sử dụng để gom các câu thành cácnhóm theo độ liên quan ngữ nghĩa, sau đó các câu năm ở “nhóm những câu được xem

là quan trọng” sẽ được sử dụng để tạo ra bản tóm tắt

Hướng tiếp cận phổ biến còn lại cho bài toán tóm tắt văn bản đó là tóm tắt tómlược (Abstractive Summarize) Với hướng tiếp cận này, các mô hình học sâu, cụ thể

là mạng neuron nhân tạo sẽ được sử dụng để tạo ra bản tóm tắt hoàn toàn mới, dựavào đặc trưng riêng của văn bản gốc Tóm tắt tóm lược xây dựng một biểu diễn ngữnghĩa bên trong và sau đó sử dụng kỹ thuật xử lý ngôn ngữ dé tạo ra một bản tóm tatgần gũi hơn so với những gì con người có thể tạo ra, một bản tóm tắt như vậy có thêchứa các từ không có trong văn bản gốc Một trong những mô hình phổ biến nhất

được sử dụng đó là mô hình Seuqence-to-Sequence (seq2seq), hay còn goi là mô hình

Encoder — Decoder, mô hình gom hai thanh phan chính là Encoder va Decoder là haimang neuron nhân tạo được nối với nhau Encoder đảm nhận nhiệm vu mã hóa vanbản đầu vào nhăm trích xuất ra các đặc trưng chính của văn bản gốc thành một vector

mã hóa, còn lại là Decoder đóng vai trò là bộ giải mã, trực tiếp sinh ra bản tóm tắtdựa vào vector mã hóa Ngoài ra, nhiều kỹ thuật và cơ chế khác nhau cũng được pháttriển đề làm tăng hiệu suất cho mô hình, có thé kế đến như cơ chế tập trung (attention),

kỹ thuật sử dụng mạng LSTM,

Hướng tiếp cận tóm tắt trích xuất với ý tưởng đơn giản đã được nghiên cứu từ

rat sớm với nhiêu công trình va mô hình đã được thử nghiệm, cho hiệu suat tot hon

Trang 16

so với hướng tóm tắt tóm lược Tuy nhiên, tóm tắt tóm lược với việc sử dụng các mô

hình học sâu đang là xu hướng của các nghiên cứu mới hiện nay, hứa hẹn nhiều kết

quả đang mong đợi trong tương lai Việc phát sinh ra một bản tóm tắt mang tính con

người vẫn được đề cao hơn trong lĩnh vực NLP nói riêng và trí tuệ nhân tạo nói chung.

Bài toán tóm tắt văn bản tiếng Việt cũng được nghiên cứu và áp dụng nhiều kỹ

thuật như đối với tiếng Anh; tuy nhiên tóm tắt văn bản nói riêng và xử lý ngôn ngữ

tự nhiên nói chung áp dụng cho tiếng Việt gặp nhiều thách thức hơn Sở dĩ là vì tiếngViệt với đặc trưng là tiếng đơn âm và có thanh điệu nên việc tách từ, tác các thànhphần ngữ nghĩa trong câu tiếng Việt đòi hỏi xử lý phức tạp hơn so với xử lý câu tiếngAnh, thêm vào đó, không có nhiều kho dữ liệu tiếng Việt được chuẩn hóa và công

bô.

Trong phạm vi của khóa luận này nhóm em sẽ nghiên cứu tóm tắt văn bản theo

hướng tóm lược, cụ thể là thử nghiệm sử dung mô hình Encoder-Decoder, kết hợp

với câu trúc Hierarchical NSE giải quyết cho bài toán tóm tắt văn bản tiếng Việt trên

bộ dữ liệu thu thập thực tế từ các trang báo điện tử ở Việt Nam

1.2 Mục tiêu của khóa luận

Thử nghiệm, phân tích và đánh giá hiệu suất của mô hình Hierarchical NSEtrong bài toán tóm tắt văn bản tiếng Việt, cụ thể là các bài báo trên các trang báo điện

tử.

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu trong khóa luận là bài toán tóm tắt văn bản, các mô hìnhhọc sâu sử dung cho bài toán tóm tắt văn bản bắt đầu từ mô hình cơ bản Encoder-

Decoder, kiến trúc mạng neuron nhân tạo sử dụng trong mô hình như RNN và LSTM

1.4 Cấu trúc của khóa luận

e Chương 1: Mở đầu

e Chương 2: Mô hình bài toán.

Trang 17

e Chương 3: Cơ sở lý thuyết.

e Chương 4: Xây dựng hệ thống tóm tắt văn bản tiếng Việt tự động bằng mô hình

Hierarchical NSE.

e Chương 5: Kết luận, hạn chế và hướng phát triển

Trang 18

Chương 2 MO HÌNH BÀI TOÁN

Ở chương này, trình bày mô hình bài toán tóm tắt văn bản tự động theo hướng

tóm lược cũng như cách đánh giá mô hình dựa trên phương pháp đánh giá ROUGE.

2.1 Mô hình bài toán tóm tắt văn bản tóm lược

Bài toán tóm tắt văn bản tự động theo hướng tóm lược có thé được phát biểunhư sau: đầu vào của bài toán là một văn bản D gồm M từ: xi, X2, , Xn Mục tiêu sẽ

là ánh xạ chuỗi M từ này thành một chuỗi đầu ra y gồm N từ yi, yo, , ym, trong đóchiều dai của bản tóm tắt phải ngắn hơn chiều dài của văn bản đầu vào (N < M) Việctạo ra chuỗi N dựa trên một tập từ vựng có kích thước có định V Các từ thuộc Skhông nhất định phải thuộc D Mục tiêu là tìm một chuỗi đầu ra y làm cực đại xácsuất có điều kiện của S theo chuỗi đầu vào D:

— ban diuvio dau vao Van sn ban tom it tom tat

Hình 2.1: Minh họa mô hình bài toán tóm tắt tự động [1]

Quy trình giải quyết bài toán tóm tắt văn bản tự động được trình bày như sau:

- Thu thập dit liệu phù hợp: dữ liệu phù hợp cho bài toán tóm tắt văn bản tiếng

Việt là bộ dit liệu gồm có một cặp tương ứng: văn bản đầy đủ và văn bản tómtắt mẫu (do con người thực hiện tóm tắt)

Trang 19

- Xử lý dữ liệu: làm sạch dữ liệu, loại bỏ các ký tự không cần thiết, các lỗi phân

tách cau,

- Word Embedding: vector hóa dữ liệu về dạng số dé thực hiện tính toán trên

mạng neuron nhân tạo.

- Xây dựng mô hình mạng neuron nhân tạo: sử dung các cau trúc mang neuron,

kết hợp với cấu trúc Encoder — Decoder là sự kết hợp của các khối mạngneuron, dé xây dựng mô hình xử lý chuỗi đầu vào và tạo ra chuỗi văn bản tómtắt

- Huấn luyện và đánh giá hiệu suất của mô hình sử dụng bộ dữ liệu đã thu thập

Thu thập dữ liệu phù hợp

Tiền xử lý đữ liệu

Word Embedding

Xay dung Model Deeplearning

Thu nghiém va danh gia

Hình 2.2: Quy trình thực hiện tóm tắt văn bản tiếng Việt tự động

Trang 20

2.2 Đánh giá mô hình bằng phương pháp ROUGE

Hiệu suất của mô hình tóm tắt tự động sẽ được đánh giá thông qua phương pháp

ROUGE, quá trình training thực chất là quá trình điều chỉnh các siêu tham số (hyper

parameters) bên trong các mạng neuron nhân tạo với mục đích cực đại hóa điểmROUGE của mô hình nhất có thé

Recall Oriented Understudy of Gisting Evaluation (ROUGE) [2] là một phương

pháp đề xuất bởi Lin và Hovy (2003), có hiệu quả nhanh, độc lập với ngôn ngữ và sự

liên quan với các đánh giá của con người Với ý tưởng chính là so sánh sự khớp nhau

giữa bản tóm tắt sinh ra bởi mô hình với bản tóm tắt gốc của con người, phương phápnày sử dụng n-gram để đánh giá sự tương quan giữa các kết quả của mô hình tóm tắt

và tập dữ liệu đánh giá.

Các phương pháp phố biến được dùng dé đánh giá cho bài toán tom tắt văn ban

tự động là ROUGE-1, ROUGE-2 và ROUGE-L tương ứng với một từ, cặp từ và chuỗi

L từ Trong đó, ROUGE-1 so sánh sự trùng khớp của các từ đơn (unigrams) giữa

chuỗi văn bản tóm tắt được sinh ra bới mô hình và chuỗi thực tế (ground truth) Tương

tự, ROUGE-2 so sánh từng cặp từ là sự kết hợp của hai từ đơn trong chuỗi được sinh

ra với chuỗi thực tế ROUGE-L so sánh độ tương quan giữa các từ của chuỗi conchung dài nhất (Longest common subsequence) giữa hai chuỗi cần so sánh Được

tính theo công thức sau:

Xce Rss Ygram-n eC Countmatcnh(gramy)

ROUGE-n =

Xce Rss Lgram-nec Count(gramy)

Với Count match (GTAMn) là số lượng n-grams lớn nhất có trong kết quả tóm tat

và bản tóm tắt tham khảo, Count(gram,,) là số lượng n-grams có trong bản tóm tắt

tham khảo RSS là viết tắt của Reference Summaries

Ví dụ minh họa về cách tính điểm ROUGE, ta có:

Câu tóm tắt được sinh ra từ mô hình:

“The cat was found under the bed”

Trang 21

Câu tóm tắt tham khảo:

“The cat was under the bed”

Bigrams câu tóm tắt được sinh ra từ mô hình ta được các cụm từ:

ouge — — SA th nỗ trang câm famg recall `” số từ có trong câu tóm tắt tham khảo 5 tắt tham thân 5S 6

Điểm ROUGE-2 precision:

R 2 số từ lặp 4 067

ouge — ision = —X aA A PEP TA TH = ZY:9 precision số từ có trong câu tém tắt của mô hình 6

Điểm ROUGE-2 FI score là giá trị đánh giá hiệu suất mô hình:

2 1 1

————=—— + _—~ >> Rouge - 2;¡ = 0.7292

Rouge~2F1 RoWg€~2recall Rog€~2precision

Trang 22

Chương 3 CƠ SỞ LÝ THUYET

Ở chương này, trình bày khái quát mô hình Encoder-Decoder [3], mô hìnhPointer Generator với cơ chế Coverage [4] và cơ sở lý thuyết của cấu trúc NeuralSemantic Encoder (NSE) [5] với các cải tiễn Cuối cùng, đề xuất cấu trúc áp dụng

cho bài toán là Hierarchical NSE [6].

3.1 Mô hình Encoder-Decoder

Trong lĩnh vực NLP, Encoder-Decoder hay còn gọi là sequence-to-sequence

(seq2seq) là một mô hình đã được đề xuất và phát triển từ lâu để giải quyết các bàitoán đặc trưng như: dịch máy (Machine Translate), tốm tắt văn bản (Text

Summarize), robot tra lời tự động (chatbot) và đã đạt được những thành công nhất

định Với mục đích cần phát sinh một chuỗi đầu ra từ một chuỗi đầu vào cho trước,

mô hình Encoder-Decoder sử dụng hai mạng neural truy hồi (Recurrent Neural

Network) đóng vai trò là các bộ mã hóa, giải mã tương ứng Mục này sẽ trình bày

khái quát về mạng neural truy hồi và mô hình Encoder - Decoder với kỹ thuậtattention, sau đó sẽ phân tích những hạn chế của mô hình này đối với bài toán tóm tắt

văn bản tự động.

3.1.1 Mạng neural truy hồi

Lần đầu được đề xuất vào năm 1982 bởi John Hopfield [7], được ứng dụng rộngrãi trong những năm gần đây trong lĩnh vực NLP Mạng RNN có thể mô hình hóa

được bản chất của dữ liệu trong các đoạn văn bản hoặc chuỗi từ (có tính chuỗi và cácthành phần như từ, cụm từ trong dữ liệu phụ thuộc lẫn nhau) thông qua việc thực hiệncùng một tác vụ cho tất cả các phần tử của một chuỗi với đầu ra phụ thuộc vào tất cả

các phép tính trước đó Nói cách khác, RNN có khả năng nhớ các thông tin được tính toán trước đó.

Mạng RNN nhận vào một chuỗi các vector x¡, , xạ và trả về một vector yp,

sô chiêu của hai vector xi va yi không nhât thiệt phải băng nhau Ví dụ dau vào là một

câu gồm nhiều từ, mỗi từ được biéu diễn băng một vector ngữ nghĩa (có thé là

one-10

Trang 23

hot vector hoặc được tạo bởi các mô hình pre-trained như GloVe, word2vec), mô

hình sử dụng một đơn vị RNN có bản chất là một hàm đệ quy để tính trạng thái đầu

ra dựa vào trạng thái trước va dau vào hiện tại Cụ thê như sau:

Hình 3.1: Minh họa cấu trúc mạng RNN [8]

(a) Một mạng RNN với Xj, sị, Vị lần lượt là vector của từ dau vào tại thời điểm i,

trạng thái ân của mang tại thời diém i và vector đâu ra tại thời diém i.

(b) Minh họa mạng RNN khi duối thăng, 6 là tham số của mạng.!

Yn = RNN"(® Sion) (1)

yi = 0(s¡) (2)

sj = R(Si-1, i) (3)

xi E Riin ; yi € Roout ; 5, € Rf Gout)

Hàm R nhận đầu vào là một vector trạng thái s;_, và một vector của từ đầu vàox; Và trả vé vector trạng thái hiện tai là s; Vector trạng thái hiện tai s; sau đó đượcánh xạ trở thành vector đầu ra y; thông qua hàm O Thông thường, hàm R được sửdụng là ham tanh còn hàm O có thé là sigmoid hoặc softmax Vector y, là vector

đầu ra cuối cùng của mạng, được xem là vector nén (compressed vector) của toàn bộ

chuỗi đâu vào.

Mạng RNN đơn giản sẽ kém hiệu qua với các chuỗi đầu vào dài do van dé

vanishing gradients, xảy ra khi gradient bị cộng dôn quá nhiêu lân Các kiên trúc

11

Trang 24

Long-Short Term Memory (LSTM) va Gated-Recurrent Unit (GRU) là các mang

RNN với các cau trúc công phức tạp bên trong, sẽ quyết định thông tin nào được giữ

lại hoặc bị loại bỏ, giúp các node trong mạng RNN “ghi nhớ” thông tin tốt hơn

3.1.2 Mạng neural LSTM

Mạng RNN cơ bản không có khả năng ghi nhớ các thông tin qua nhiều bước do

đó mạng RNN tỏ ra không hiệu quả đối với các bài toán cần xử lý dữ liệu theo thời

gian đòi hỏi phải có trạng thái trung gian dé ghi nhớ thông tin của các bước trước Từhạn chế này, mạng LSTM (Long-Short Term Memory) được ra đời nhằm giải quyếthạn chế của mạng RNN bằng cách đưa vào mang một đơn vi nhớ được gọi là LSTMmemory unit hay cell Mạng LSTM được giới thiệu lần đầu bởi Hochreiter &Schimidhuber (1997) [9], mạng LSTM hoạt động hiệu quả trên nhiều bài toán khác

nhau nên dân trở nên phô biên.

Tại mỗi thời điểm ¿, đầu vào của một LSTM nhận vào ba thành phan, trong đó

x, là đầu vào ở bước hiện tai, fy) là đầu ra của khối LSTM trước đó /-J và C,; là các

thông tin được “nhớ” của khối LSTM trước Đầu ra là các thông tin 7, là kết quả củakhối LSTM hiện tai và C, là “nhớ” của khối hiện tại Do đó, quyết định của một khối

LSTM dựa vào đâu vào của khôi tại thời diém đang xét, kêt quả dau ra và “nhớ” của

12

Trang 25

khôi trước dé tạo ra kêt quả dau ra h; và “nhớ” C; của khôi hiện tai Câu trúc tông quát

của mạng LSTM được biéu diễn trong hình 3.3

Hình 3.3: Cấu trúc mạng LSTM [10]

Trong cấu trúc của LSTM ở hình 3.2, cau tạo bên trong một LSTM có 3 cổng(gate), ba công đó lần lượt là công forget gate, input gate va output gate, các céng

này được cấu tạo bởi một lớp mang sigmoid và một phép nhân, phép nhân ở đây là

phép nhân ma trận element-wise multiphication matrix Các công này là nơi sàng lọcthông tin, đây chính là điểm mau chốt giúp mạng LSTM có khả năng loại bỏ haythêm vào các thông tin cần thiết cho cell state Đầu ra của các lớp sigmoid là một giátrị trong khoảng [0,1], giá trị này mang ý nghĩa quyết định sẽ có bao nhiêu thông tin

có thé được đi tiếp hoặc bị bỏ đi Nếu dau ra là 0 có nghĩa là không có thông tin nàoqua cả mà sẽ bị loại bỏ, ngược lại nếu đầu ra là 1 có nghĩa là tất cả các thông tin sẽ

được đi tiếp

Trong hình 3.4, có một “đường” chạy xuyên suốt qua các nút mạng, “đường”

này chính là trạng thái nhớ (cell state), đây là điểm quan trọng nhất trong mạng

LSTM.

13

Trang 26

vào giá trị đầu ra ở “cổng quên” Cách hoạt động của mạng LSTM cụ thê như sau:

Bước đầu tiên, đầu vào J„; và x; sẽ được đưa vào lớp sigmoid đầu tiên, đó chính

là “cổng quên” fi (forget gate layer) “Cổng quén” sẽ tinh theo công thức (4) và có

đầu ra là một giá trị trong khoảng [0,1] cho cell state C„¡ Giá trị này góp phần quyếtđịnh loại bỏ những thông tin không quan trọng khỏi cell state Nếu giá trị bằng 0,

thông tin bị loại bỏ, ngược lại nếu giá tri bang 1, thông tin được giữ lai Cụ thê như

hình 3.5 dưới đây.

14

Trang 27

fe = ø(MW?.|h¿_+,x¿] + by) (4)

Trong đó, W7 là ma trận trọng số trong LSTM và br là vector bias.

Hình 3.5: “cong quên” của mang LSTM [10]

Bước tiếp theo, các đầu vào sau khi được tiếp nhận sẽ được lưu trữ tại cell state

qua hai phần Đầu tiên sẽ quyết định giá trị nào sẽ được cập nhật thông qua lớpsigmoid thứ hai, đây là “cổng dau vào” i, (input gate layer), và một lớp tanh dé tao

ra một vector cho giá tri mới G nhằm thêm vào cell state Trong công thức (5) va

(6), các thông số W;, W, là các mạ trận trọng số trong LSTM và b;, b„ là các vector

bias.

15

Trang 28

í, = ø(M;.|h,_+,x¿] + bị) (5)

C, = tanh(W,.[h,_,x¿] + be) (6)

Hình 3.6: LSTM tính giá trị lưu tai cell state [10]

Tiép theo, trang thai cell state cũ C;.; sẽ được cập nhật thành trang thai cell state

mới C, theo công thức (7) Trang thái “nhd” cũ C¿¡ nhân với kết qua của “cổng quên”

ƒ, dé bỏ đi những thông tin đã quyết định bỏ di ở trước đó Sau đó, cộng với giá tri

i, * C, biểu diễn những “ứng viên” mới C, cho cell state (được quyết định bởi hệ sốdan nở i,), cụ thé là cho việc cập nhật giá trị cho mỗi cell state

Ch= fix Creat ip*G, (7)

Hình 3.7: Minh họa việc cập nhật giá tri cell state [10]

16

Trang 29

Cuối cùng, các thông tin sẽ được sàng lọc lần cuối và đầu ra sẽ được lựa chọn

phụ thuộc vào trạng thái cell state Đầu tiên, các phần của cell state được chon dé

xuất ra sẽ được quyết định thông qua lớp sigmoid cuối cùng, đây là “cổng đầu ra” 0¿

(output gate layer) Trạng thái cell state được đưa vào một ham tanh (tanh activation

function), đầu ra của ham tanh sẽ có giá trị thuộc khoảng [-1,1] và nhân với đầu ra ở

“cổng dau ra” dé đưa ra quyết định cuối cùng thành phan sẽ được khối LSTM xuất

ra Công thức được áp dụng ở bước này Trong đó, W, là ma trận trọng số trong

LSTM và b, là vector bias.

9 + II o(W, [he-1, X12] + bạ) (8)

= + Il 0, * tanh (C;) (9)

Hình 3.8: Dau ra của khối LSTM [10]

Mạng LSTM là sự kết nối giữa nhiều khối LSTM với nhau theo chuỗi thời gian.Tại mỗi thời diém, mỗi khối LSTM hoạt động dựa vào các lớp: lớp “cổng quên” fr,lớp “cổng dau vào” i, và lớp “cổng dau ra” o¿ Trong đó, “cổng quên” là điểm đángchú ý nhất của mạng LSTM, mạng lại khả năng sử dụng thông tin một cách hiệu quả

17

Trang 30

3.1.3 Mô hình Encoder-Decoder với cơ chế attention

Mô hình Encoder-Decoder được giới thiệu lần đầu bởi nhóm nghiên cứu của

Google (2014) [3] trong bài báo Sequence to Sequence Learning with Neural

Network Mô hình cơ bản gồm hai mạng neural thường là RNNs, đóng vai trò mạng

mã hóa (encoder) và mạng giải mã (decoder) nhằm phát sinh chuỗi đầu ra dựa vào

chuỗi đầu vào cho trước, điều này đã làm cho việc tóm tắt tóm lược trở nên khả thi

hơn (Chorpa et al, 2016 [11]; Nallapati et al, 2016 [12]; Rush et al, 2015 [13]; Zeng

et al, 2016 [14]) Mang neural ở encoder mã hóa chuỗi đầu vào thành một vector ¢ có

độ dài có định, mạng neural ở decoder sẽ lần lượt sinh ra chuỗi đầu ra dựa trên vector

c và những từ được dự đoán trước đó cho tới khi gặp kí tự kết thúc câu Dưới đây là

ví dụ cụ thê cho quá trình sinh ra câu của mô hình Encoder-Decoder:

the black fox jumped </s>

Hình 3.9: Cơ chế hoạt động của mô hình Encoder-Decoder, E [word] là embedding

vector cua word và e là vector mã hóa cudi cua công đoạn encoding [8]

18

Trang 31

Có thé thấy vector mã hóa e được sử dụng ở công đoạn decoding dé phát sinh

ra tất cả các từ của chuỗi đầu ra Nếu phải xử lý với chuỗi đầu vào dài, chỉ vector ¢

sẽ không đủ dé lưu trữ thông tin của toàn bộ chuỗi, vì vậy cơ chế Attention [15] được

dé xuất dé tăng hiệu qua cho mô hình Encoder-Decoder như sau:

the black fox jumped </s>

Hình 3.10: Cơ chế hoạt động của mô hình Encoder-Decoder với cơ chế Attention

c¡ là dau ra cua encoder tại thời điểm i [8]

Thay vì chỉ sử dụng một vector mã hóa c tại thời điểm cuối của công đoạn

encoder, cơ chế attention cho phép decoder sử dụng nhiều vector mã hóa c; tại mỗithời điểm i khác nhau Cơ chế Attention cũng cho phép decoder có thé “tập trung”vào những từ có khả năng chứa nhiều thông tin cho quá trình decoding, thay vì cả

19

Trang 32

chuỗi đâu vào thông qua việc tính toán xác suât của các từ trong chuôi dau vào Cu

thê tính được thực hiện như sau:

Thong tin của dau vào sẽ thực hiện encode sinh ra trạng thái ân ở từng cell trong

encoder Với mỗi bước thực hiện t, decoder sẽ nhận từ nhúng của từ trước đó và trạng

thái ân h; của nó Dé đánh giá mức độ liên quan giữa đâu vào của encoder với dau ra

tiếp theo của decoder, được tính theo công thức như Bahdanau (2015) [15]:

ef =v" tanh (W,h; + W%s¿ + Daten) (4)

Trong đó, v, W;, , We, Daten là các thông số học được

Sau đó, diém phân tán chú ý a‘ được tính toán thông qua hàm softmax đề đánh

giá mức độ tương quan giữa đâu vào encoder tại từng bước với đâu ra hiện tai của decoder:

a‘ = softmax (e‡) (5)

Ngoài ra, a‘ còn tham gia vào quá trình tính toán vector ngữ cảnh hj cùng với

toàn bộ trạng thái ân ở bước encoder:

he = Di ajh; (6)

Vector ngữ cảnh biêu diễn những gi ma nó doc được từ dau vào và cùng với

trạng thái an decoder St dé thực hiện quá trình tính phân tán từ vựng P;s;ap :

Đsscạp = soƒtmax(V'(V[s,,h;]+b)+ b') (7)

Trong đó, V', V , b’, b la các thông số học được

Pyocap là phân tán xác suất trên tat cả từ trong bộ từ vựng và chúng được sửdụng dé dự đoán từ w:

Trang 33

Và độ mắt mát trên toàn bộ đầu vào được tính theo công thức:

1

loss = 7 XT, lossy (10)

3.1.3 Những han chế của mô hình Encoder-Decoder với bài toán tóm tat văn

bản tự động.

Mô hình Encoder-Decoder với cơ ché Attention mac đù tỏ ra hiệu quả với bài

toán dich máy, tuy nhiên chiều dai tối đa của chuỗi đầu vào ở bài toán này thườngkhông lớn hơn 100 từ Đối với bài toán tóm tắt tự động, chiều dài của chuỗi đầu vàothường nằm trong khoảng 400 tới 800 từ dựa theo chiều dài thực tế của văn bản gốc

và mô hình này bộc lộ những hạn chế khi phải xử lý với những chuỗi dài Cụ thê làvan dé mat mát bộ nhớ theo thời gian khi các từ của chuỗi đầu vào liên tục được cộng

dồn vào một bộ nhớ, các từ được thêm lúc ban đầu sẽ dần bị “quên đi”, làm cho quá

trình decoding bị giảm đi hiệu quả bởi việc thông tin bị loãng.

3.2 Mô hình Pointer Generater và cơ chế Coverage

Cơ chế attention được thêm vào dé tăng hiệu quả của mô hình seq2seq giúp môhình sẽ dành sự “tập trung” vào những từ được cho là chứa nhiều thông tin Nhưngnhược điểm của các mô hình seg2seq nói chung đó là không thể mô tả chính xác các

từ không nằm trong bộ từ vựng (Out-of-Vocabulary, gọi tắt là OOV) ví dụ như tênriêng, số điện thoại, địa danh, mà sẽ được thay thành các UNKNOW token (UNK)

tại dau ra.

21

Trang 34

Original Text (truncated): lagos, nigeria (cnn) a day after winning nige Hình 3.11: So sánh đâu ra

ria's presidency, mafanmeds buheri told cnn’s christiane amanpour that > A ` 2 ⁄

he plans to aggressively fight corruption that has long plagued nigeria cua 3 mô hình tóm tat

and go after the root of the nation’s unrest, buhari said he'll “rapidly give

attention” to curbing violence in the northeast part of nigeria, where the ter Abstractive trén cung mot

rurisL group boko haram operates by cooperating with neighboring nations

chad, camenoon and niger, be said bis administration is confident it will bài báo: Mô hình seq2seq +

be able to thwart criminals and others contributing to nigeria’s instability.

for the first time in nigeria’s history, the opposition defeated the ruling party

in democratic elections buhari defeated incumbent goodluck jonathan by

about 2 million votes, according to nigeria’s independent national clectoral os A LS

commission the win comes after a long history of military rule, coups bởi OOV Mô hình Pointer

and botched attempts at democracy in africa’s most populous nation.

Attenttion cơ ban bị hạn chế

——————————- — Generator (PointerGen)

Baseline Seq2Seq + Attention: UNK LINK says his administration is conti

dent it will be able to destabilize nigeria’s economy UNK says his admin- giải quyết vấn đề OOV

istration is confident it will be able to thwart criminals and other nigerians.

he says the country has long nigeria and nigeria‘’s economy.

nhưng bi lặp từ Mô hình

Pointer-Gen: muhanmadu buhart says he plans to aggressively fight

cor-ruption in the northeast part of nigeria, he says he'll “rapidly give at- PointerGen + Coverage xử

tention” to curbing violence in the northeast part of nigeria he says his , F ` `

administration is confident it will be able to thwart criminals lí được van dé lặp từ và cho

Pointer-Gen + Coverage: muammadu bubari says be plans to aggressively két qua tóm tat tot nhất

fight corruption that has long plagued nigeria he says his administration is

confident it will be able to thwart criminals the win comes after a long his- AL

tory of military rule, coups and botched attempts at democracy in africa’s trong 3 mô hình [4]

most populous nation,

Đối với van dé nay, See và các cộng sự của minh đã giải quyết van đề bằng cáchcho phép mô hình có khả năng sao chép và sử dụng trực tiếp các OOV từ văn bản đầuvào thay vi sinh ra một từ mới dựa vào tập từ vựng vocab Trong phan tiếp theo sẽlàm rõ hơn về mô hình seg2seq với cơ chế Pointer-Generator, dé giải quyết các hạn

chế của mô hình seg2se truyền thống

3.2.1 Mô hình Pointer Generator

Mô hình Pointer Generator (PointerGen) [4] được See cùng với những cộng sự

của mình giới thiệu vào năm 2017, mô hình này được đề xuất nhằm giải quyết cácnhược điểm của mô hình seq2seq đang gặp phải Mô hình PointerGen là sự kết hợpgiữa mô hình seq2seq và một Pointer Network (Ptr-Net) [16] — sử dụng cơ chế chú ýnhư một con trỏ dé chọn thành viên của chuỗi đầu vào làm đầu ra, trong khi cơ chế

chú ý trước đó chỉ được sử dụng dé trộn các đơn vị ân ở bước encoder với một vectorngữ cảnh (context vector) ở bước decoder Một Prr-Net được dùng trong mô hình dé

đưa ra quyết định sao chép một từ từ đầu vào hay sinh ra từ từ một từ vựng cô định

22

Trang 35

Encoder Hidden States Germany emerge victorious in 2 W against Argentina on S8]E1S UAPPIH Japooag

Source Text Partial Summary

Hình 3.12: Mô hình Pointer — Generator voi Pointer Network thực hiện việc chon

từ được tao ra từ mới hay sao chép tw dau vao [4]

Ở mỗi thời điểm t, PointerGen nhận các thông tin từ Context Vector hj, trạngthái của decoder s; và đầu vào của decoder x; đề tính xác suất, từ đó dựa vào xác suất

dé đưa ra quyết định:

Pgen = Ø(w¡,„h; SP W Sự + Wy Xe + Dytr) (17)

Các vectors wh , w¿`, w¿ va Dye, là các thông số có thé huấn luyện được và o

là ham sigmoid Pgen tham gia vào quá trình đưa ra quyết định tạo một từ mới thông

qua các từ có trong bộ từ vựng Ø;sc„p hoặc sao chép từ từ đầu vào ở lớp phân tán

“chú y” at Việc sao chép từ từ đầu vào giúp bộ từ vựng được mở rộng với mỗi đầuVào ở encoder Quyết định chọn từ cho câu được tạo cho đầu ra dựa vào xác suất chọn

từ được tính như sau:

P(w) = PgenP vocab (w) +(- Pgen) di:w;=w aj (18)

Nếu w là từ thuộc OOV thì P,ocqp(w) bang 0 sẽ thực hiện sao chép trực tiếp từ

ở a‘, tương tự nếu w không xuất hiện trong đầu vào thi 3 wi=w at bang 0 sẽ thực

23

Trang 36

hiện tạo một từ mới từ Pyocay Khả năng tao các từ OOV là ưu điểm của mô hình

Pointer-Generator dù mô hình có bị hạn chế về từ vựng Nhưng bên cạnh ưu điểm

đó, mô hình PointerGen bị nhược điểm về việc lặp từ trong câu tóm tắt như tronghình 3.11 Đối mặt với vẫn đề này, một nhóm nghiên cứu đã dé xuất một cơ chế dé

khắc phục nhược điểm này Trong phan tiếp theo sẽ trình bày cụ thé về cơ chế giải

quyết nhược điểm của mô hình PointerGen

3.2.2 Cơ chế Coverage

Cơ chế “sao chép” từ đã giải quyết van đề về OOV của các mô hình seq2seq cơbản nhưng nhược điểm của cơ chế này là xuất hiện từ trùng lặp trong đoạn văn bản

tóm tắt được sinh ra (Tu et al, 2016 [17]; Mi et al, 2016 [18]; Sankaran et al, 2016

[19]; Suzuki and Nagata, 2016 [20]) Trong bài toán dịch văn bản tự động thì lỗi lặp

từ cũng xảy ra khi dùng cơ chế “sao chép”, thành công khi khắc phục được lỗi lặp từbăng mô hình Coverage (được giới thiệu lần đầu bởi Tu cùng với các cộng sự vào

năm 2016) [17] Mô hình Coverage sử dụng một vector gọi là Coverage Vector CÌ,

vector này là tông trọng số sự phân tán chú ý toàn bộ các bước của decoder trước đó:

r

là Tay (19)

Ở bước dau tiên, c° là vector 0 vì dau vào lúc này rỗng Vector Coverage được

dùng làm đầu vào bồ sung cho cơ chế chú ý dé tính điểm chú ý:

ef =v" tanh (W„ạh¡ + W⁄S, + wee? + Daten) (20)

Trong đó, w, là một vector tham số được huấn luyện có cùng độ dài với v Quyết

định chon vi trí tiếp theo của cơ chế attention sẽ được thông báo bằng một “nhắc nhở”

về quyết định trước đó của nó g1úp cơ chế attention tránh việc chon lại từ đã chọn ởbước trước, do đó tránh được việc trùng lặp Việc “phạt” khi xuất hiện trùng lặp làcần thiết, hàm Coverage Loss sẽ thực hiện việc kiểm tra xem có xảy ra lặp không và

được tính như sau:

cowloss, =; min (aj, c/) (21)

24

Trang 37

Và hàm /oss được tính như sau:

loss, = -log P(wỷ) + AX, min (af,cf) (22)

Nêu như xuât hiện trùng, covloss cao làm cho loss cao và ngược lại Khi loss

đạt cực tiêu và không thê giảm được nữa thì lúc này mô hình đã đạt được hiệu suât

tốt nhất

3.3 Cấu trúc Neural Semantic Encoder (NSE) và các cải tiến

Neural Semantic Encoder [5] là một mạng nhớ tăng cường, được dé xuất bởiMunkhdalai và Yu (2017), được sử dụng dé giai quyét các bài toán của lĩnh vực NLP

như dịch máy, phân tích cảm xúc văn bản, phân lớp cho câu, Khác với những mô

hình Encoder-Decoder truyền thống, NSE sử dụng thêm bộ nhớ mã hóa (encoding

memory) với các bộ phận chính là read, compose, write giúp “ghi nhớ” được một

chuỗi đầu vào dài một cách có hiệu quả Mục này trình bày về mô hình NSE cơ bản,

sau đó sẽ trình bày các cải tiễn dé làm tăng hiệu suất của mô hình với bài toán tóm

nhớ là một vector , € R*, lưu trữ thông tin của một từ w¿ bên trong bộ nhớ mã hóa.

Ban đầu, bộ nhớ mã hóa được khởi tạo giá tri là các vector ngữ cảnh của các từ trong

chuỗi đầu vào (embedding vector) {xf}‡_¡ và bộ nhớ này sẽ được cập nhật theo thời

gian, thông qua các quá trình read, compose, write.

25

Trang 38

Hình 3.13: Mô hình NSE đơn giản, gồm các thành phan chính là bộ nhớ (Memory)

và các quá trình Read, Compose, Write [6]

Ở hình vẽ trên, có thé thấy chuỗi đầu vào (Input) được dùng dé khởi tạo bộ nhớ

và tại mỗi bước lặp - khi một từ mới của Input được đưa vào xử lý, NSE sử dụng cả

ba quá trình chính dé cập nhật lại bộ nhớ Chúng ta sẽ di sâu hơn vào phân tích cách

các quá trình Read, Compose, Write hoạt động sau đây:

M, =M,_¡(1 — (% @ e)") + (h, @ e,)Œ, @ ex)" (9)

Read: Sau khi bộ nhớ được khởi tạo băng các vector ngữ cảnh của chuỗi đầu

vào {x¿}¿_¡ Thay vi sử dụng các vector dau vào thô là x‘, lần lượt các vector x;~; tới

x¿-¡ sẽ được đưa vào hàm ƒ⁄S”M_ thực chất là một mạng neural sử dụng LSTM dé

26

Ngày đăng: 02/10/2024, 03:08

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN