- Pham vi: Khảo sát về các hướng tiếp cận đã có của bài toán tóm tắt văn bản cho tiếng Anh và tiếng Việt; Khảo sát về các bộ dữ liệu đã có sẵn cho bài toán này; Khao sát về các mô hình n
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
LÊ NGUYÊN MINH HUY - 20521394
LUONG TRIEU VY - 20520094
KHOA LUAN TOT NGHIEP
TANG CƯỜNG DỮ LIEU BANG MÔ HÌNH NGÔN NGỮ LON
CHO BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT
DATA AUGMENTATION WITH LARGE LANGUAGE
MODELS FOR VIETNAMESE ABSTRACTIVE TEXT
SUMMARIZATION
CU NHAN TAI NANG NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN
TS MAI TIEN DUNG
TP HO CHÍ MINH, 2024
Trang 2DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 TS Ngô Đức Thành — Chủ tịch.
2 ThS Nguyễn Thanh Sơn — Thu ký.
3 TS Duong Viét Hang — Uy viên.
ee — Uy viên.
Trang 3ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TP HCM, ngày
NHAN XÉT KHÓA LUẬN TOT NGHIỆP
(CUA CÁN BỘ HƯỚNG DAN)
Tên khóa luận:
TANG CƯỜNG DU LIEU BANG MÔ HÌNH NGÔN NGỮ LỚN
CHO BÀI TOÁN TÓM TAT VĂN BẢN TIENG VIỆT
Nhóm SV thực hiên:
20520094
Đánh gia Khóa luận
I Về cuốn báo cáo:
Số trang - 80 Số chương
So bang sô liệu 12 SỐ hình vẽ
Sô tài liệu tham khảo 61 Sản phâm
Một sô nhận xét về hình thức cuôn báo cáo:
Cán bô hướng dẫn:
05 19
Mai Tiến Dũng
<nhận xét về định dạng, cách thức viết bảo cáo, phân bó nội dung, chương mục có hợp lý
không >
2 Về nội dung nghiên cứu:
<nhận xét về kiên thức, phương pháp mà sinh viên đã tim hiệu, nghiên cứu nhận xét ưu điêm va
hạn chê>
3 Về chương trình ứng dụng:
<nhận xét về việc xây dựng ung dung demo, nhận xét wu điểm và hạn ché>
Trang 44 Vé thái độ làm việc của sinh viên:
<nhận xét về thái độ, wu khuyết điêm của từng sinh viên tham gia>
Đánh gia chung:Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử nhân, xếp loại Giỏi/ Khá/ Trung bình
Điểm từng sinh viên:
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 5ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TP HCM, ngay thang
NHAN XET KHOA LUAN TOT NGHIEP
(CUA CAN BO PHAN BIEN)
Tén khoa luan:
TANG CUONG DU LIEU BANG MO HINH NGON NGU LON
CHO BAI TOAN TOM TAT VAN BAN TIENG VIET
Nhóm SV thực hiên:
20520094
Đánh gia Khóa luận
I Về cuốn báo cáo:
Số trang - 80 Số chương
So bang sô liệu 12 SỐ hình vẽ
Sô tài liệu tham khảo 61 Sản phâm
Một sô nhận xét về hình thức cuôn báo cáo:
Cán bô phản biên:
05 19
Duong Viét Hang
<nhận xét về định dạng, cách thức viết bảo cáo, phân bó nội dung, chương mục có hop lý
không >
2 Về nội dung nghiên cứu:
<nhận xét về kiên thức, phương pháp mà sinh viên đã tim hiệu, nghiên cứu nhận xét ưu điêm va
hạn chê>
3 Về chương trình ứng dụng:
<nhận xét về việc xây dựng ung dung demo, nhận xét wu điểm và hạn ché>
Trang 64 Vé thái độ làm việc của sinh viên:
<nhận xét về thái độ, wu khuyết điêm của từng sinh viên tham gia>
Đánh gia chung:Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử nhân, xếp loại Giỏi/ Khá/ Trung bình
Điểm từng sinh viên:
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 7ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN
ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP
Tên dé tài: TANG CƯỜNG DU LIEU BANG MÔ HÌNH NGÔN NGỮ LỚN CHO BÀI
TOÁN TOM TAT VĂN BẢN TIENG VIỆT.
Tên đề tài tiếng Anh: DATA AUGMENTATION WITH LARGE LANGUAGE MODELS
FOR VIETNAMESE ABSTRACTIVE TEXT SUMMARIZATION.
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: Mai Tiến Dũng
Thời gian thực hiện: Từ ngày 12/09/2023 đến ngày 30/12/2023.
Sinh viên thực hiện:
Lê Nguyễn Minh Huy - 20521394 Lớp: KHTN2020
Email: 20521394@gm.uit.edu.vn Điện thoại: 0906497909
Lương Triều Vỹ - 20520094 Lớp: KHTN2020
Email: 20520094(@gm.uif.edu.vn Điện thoại: 0582794168
Nội dung đề tài:
- Muc tiêu: Tan dụng được sức mạnh có san của các Mô hình ngôn ngữ lớn hiện tại
(cụ thé là Chat GPT, vietcuna) dé khắc phục sự thiếu sót về dữ liệu huấn luyện
cho bài toán tóm tắt văn bản tiếng Việt Qua đó tăng cường độ chính xác của các
mô hình có sẵn
- Pham vi: Khảo sát về các hướng tiếp cận đã có của bài toán tóm tắt văn bản cho
tiếng Anh và tiếng Việt; Khảo sát về các bộ dữ liệu đã có sẵn cho bài toán này;
Khao sát về các mô hình ngôn ngữ lớn có khả năng sinh dit liệu cho bai toán này
với tài nguyên cho phép; Phát sinh bộ dữ liệu sử dụng mô hình ngôn ngữ lớn một
cách tự động; Điều chỉnh, huấn luyện các mô hình đã có với bộ dữ liệu do người làm, bộ dữ liệu tự động sinh ra, bộ dữ liệu cộng gộp; Đánh giá kết quả đạt được.
- Déi tượng: Các mô hình ngôn ngữ lớn có săn (ưu tiên các mô hình ngôn ngữ
cung cấp khả năng truy cập qua API, có thé sinh dit liệu nhanh, rẻ, hiệu quả); Các
mô hình tóm tắt văn bản (Ưu tiên các mô hình nhẹ, không đòi hỏi quá nhiều tài
nguyên tính toán, lưu trữ).
- _ Phương pháp thực hiện: Gồm có 3 bước chính:
Trang 81 Khảo sát: Khảo sát các công trình nghiên cứu hiện đang có của bài toán Tóm
tắt văn bản (cả tiếng Anh và tiếng Việt); các bộ đữ liệu hiện có cho bài toán
Tóm tắt văn bản tiếng Việt; các phương pháp sinh thêm dữ liệu bằng các Mô
hình ngôn ngữ lớn hiện có với chi phí phù hợp.
2 Thiết kế và tinh chỉnh mô hình tóm tắt văn bản:
e Đầu tiên chọn bộ dữ liệu để huấn luyện mô hình; chuẩn bị mô hình
ngôn ngữ lớn dé tăng cường dữ liệu tiếng Việt: Dựa vào các khảo sát đã
có, chọn ra một mô hình làm baseline (dựa trên các điều kiện vé cơ sở
vật chất, máy móc; kết quả của mô hình trên các bộ dữ liệu trước; có source code hay không, ); chọn ra các mô hình khác dùng dé so sánh với mô hình baseline (gồm cả mô hình được pre-trained và chưa được pre-trained) Baseline dự kiến là mô hình Fast Abs Mô hình dùng so
sánh dự kiến sẽ là PhoBERT, ViT5.
e Sau đó, chọn bộ dữ liệu tiếng Anh và tiếng Việt (do con người làm) với
kích thước phù hợp dé chuẩn bị cho việc huấn luyện và so sánh — gọi
bộ dữ liệu này là “bộ dữ liệu do người làm” Bộ dữ liệu tiếng Anh dự
kiến là CNN/DailyMail và bộ dit liệu tiếng Việt dự kiến là Vietnews.
e Cuối cùng, tinh chỉnh mô hình dé có thể thực nghiệm trên các bộ dữ
eu tiếng Việt (sử dụng các kỹ thuật tách từ, tokenize từ, embedding
dành riêng cho tiếng ViệU; điều chỉnh đầu vào của mô hình cho
hop với những bộ dữ liệu tiếng Việt Cuối cùng, chon mô hình ngôn
ngữ lớn dung để sinh dữ liệu, thu thập các bài báo từ các trang báo mạng, sử dụng để sinh ra thêm dữ liệu cho bài toán tóm tắt văn ban tiếng Việt Mô hình dự kiến sẽ là text-davinci-003 từ OpenAI va vietcuna.
3 Thực nghiệm va so sánh:
e Thực nghiệm huấn luyện mô hình baseline trên bộ dữ liệu tóm tắt văn
bản tiếng Việt do người làm và đánh giá trên tập test của bộ đữ liệu do
người làm.
e Thực nghiệm mô hình baseline trên bộ dữ liệu tóm tắt văn bản tiếng
Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánh giá trên tập test
của bộ dữ liệu do người làm.
e Thực nghiệm các mô hình tóm tắt văn bản khác trên bộ đữ liệu do
người làm và đánh giá trên tập test của bộ dữ liệu do người làm.
e Thực nghiệm mô hình tóm tắt văn bản khác trên bộ đữ liệu tóm tắt văn
bản tiếng Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánh giá trên
tập test của bộ dữ liệu do người làm.
- _ Kết quả mong đợi: Một bài báo chỉ tiết về:
© Các công trình nghiên cứu hiện có của bài toán tóm tắt văn bản tiếng Việt,
các bộ dữ liệu hiện có của bài toán này.
e_ Các phương pháp sinh dữ liệu bằng mô hình ngôn ngữ lón.
Trang 9e_ Một bộ dữ liệu cho bài toán tóm tắt văn bản tiếng việt được sinh ra từ mô
hình ngôn ngữ lon.
e Phân tích, đánh giá so sánh sự khác biệt giữa các mô hình hiện có của bài
toán tóm tắt văn bản tiếng Việt khi có và không có sử dụng thêm bộ dữ liệu
do mô hình ngôn ngữ lớn sinh ra để huấn luyện.
Kế hoạch thực hiện:
1 Tháng 9: Tiến hành nội dung 1: Khao sát các công trình nghiên cứu hiện đang có
của bài toán Tóm tắt văn bản (cả tiếng Anh và tiếng Việt); các bộ dữ liệu hiện có cho
bài toán Tóm tắt văn bản tiếng Việt; các phương pháp sinh thêm dữ liệu bằng các Mô
hình ngôn ngữ lớn hiện có với giá cả phù hợp (Phân công: Cả hai sinh viên)
2 Tháng 10: Tiến hành nội dung 2: Thiết kế và tinh chỉnh mô hình tóm tắt văn bản;
Chọn bộ dữ liệu dé huấn luyện mô hình (Phân công: Vỹ); Chuẩn bị mô hình ngônngữ lớn dé tăng cường dữ liệu tiếng Việt (Phân công: Vỹ) Tiến hành nội dung 3:Thiết lập thực nghiệm trên mô hình baseline và trên bộ dữ liệu người làm (Phân
công: Huy)
3 Tháng 11-12: Tiếp tục tiến hành nội dung 3: Thực nghiệm mô hình baseline trên bộ
dữ liệu tóm tắt văn bản tiếng Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánhgiá trên tập test của bộ dữ liệu do người làm Thực nghiệm các mô hình tóm tắt văn
bản khác trên bộ dữ liệu dongười làm và đánh giá trên tập test của bộ dữ liệu do
người làm.Thực nghiệm mô hình tóm tắt văn bản khác trên bộ đữ liệu tóm tắt vănbản tiếng Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánh giá trên tập test của
bộ dé liệu do người làm Viết báo cáo trình bày chi tiết về phương pháp đề xuất, các
kết quả đạt được (Phân công: Cả hai sinh viên)
Xác nhận của CBHD TP HCM, ngày 08 tháng 9 năm 2023
(Ký tên và ghi rõ họ tên) Sinh viên
(Ky tên và ghi rõ họ tên)
Mai Tiến Dũng
Lê Nguyễn Minh Huy
Lương Triều Vỹ
Trang 10LỜI CẢM ƠN
Lời đầu tiên, chúng tôi xin được gửi một lời cảm ơn sâu sắc đến thầy LươngNgọc Hoàng và thầy Mai Tiến Dũng vì đã tận tình giúp đỡ, động viên, địnhhướng cho chúng tôi trong những ngày dau, xuyên suốt quá trình nghiên cứu vahoàn thiện dé tài khóa luận Nếu không có sự hướng dan từ các thầy, mục tiêu
của khóa luận sẽ không thể hoàn thành.
Tiếp theo, chúng tôi xin được gửi lời cảm ơn đến quý thầy cô giảng viên trong
trường Đại học Công Nghệ Thông Tin nói chung và khoa Khoa Học Máy Tính nói
riêng vì đã tận tình giảng dạy và giúp chúng tôi có được nhiều kiến thức chuyênmôn để làm hành trang cho việc hoàn thành đề tài nghiên cứu này
Và cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn to lớn của mình đối vớinhững thành viên trong gia đình chúng tôi vì họ là luôn là điểm tựa vững chắc
trong suốt những ngày tháng sinh viên của chúng tôi, và là nguồn động lực to
lớn để thôi thúc chúng tôi hoàn thành tốt dé tài này
Nhóm xin chân thành cảm ơn.
Trang 11Mục lục
¬ bbb bbb bebe bebe eees
¬ ee
1.2.1 Phátbiểu bài toán|
s” À AÁ
À }
141 Đô tưếti @ ⁄.SÀ \ /
B | /
P WO fo 6
We w'{
2 CAC CONG TRINH LIEN QUAN VA CO SO LY THUYET ¬ ee 2.1.1 Mô hình ngôn ngư
lớn| -2.1.2 Sử dụng mô hình ngôn ngữ lớn để sinh dữ liệu|
2.1.3 Cac phương pháp được sử dụng|
2.1.3.1 Tóm tắtrúttrch|
2.1.3.2 Tóm tắttrừu tượng
-2.1.3.3 Kết hợp tóm tat rút trích và tóm tắt trừu tượng|_
¬ 2.1.4.1 Trong tiếng Anh|
2.1.4.2 Trong tiếng Việt|
215 Thách thức|
2.2 Cơsở lý thuyết| ee
xii
xviii
18
Trang 122.2.2 Actor - Critic và Thuật toán Advantage Actor Critic)
26
28 30
33
33 37 38 39 39 40
41
43
Trang 134.3.6 Các mô hình pretrained word embeddingl 62
¬ sầ—ẰằẰằẰẰĂẰ 634.41 Hiệu chỉnh siêu thamsô| - 63
Trang 14Danh sách hình ve
1.2 Minh họa hướng tiếp cận rút trích cho bài toán tóm tắt văn ban}
2.5 Mô tả cấu trúc của mô hình Sequence to Sequence.| 29
2.6 Cau trúc của mô hình Pointer NetworkÌ] - 31
sư _r::rẻỀỄỀểếr 38
Trang 15Danh sách bảng
21 Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tom tắt văn bản
cho tiếng Anh| ee 19
2.2 Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tóm tắt văn bản
a-———ẰẰẰẰĂẰĂẰẰ 20
3.1 Hyperparameter của mô hình GPT dùng để sinh dữ liệu| 41
3.2 Các mâu dữ liệu được sinhratừGPTI| - 44
4.1 Thông kê về bộ dữ liệu vietnews
44 Bảng so sánh các độ đo được sửduụng| 56
4.5_ Các siêu tham sô của Extractor và Abstractor| 64
trên thang ROUGE-1, ROUGE-2, ROUGE-L, BLEU, BERT Score và
Trang 16Danh mục từ viết tắt
A2C
BPTT
CAD CNN EDA EOE GPT LSTM
LLM MLE
NHI NLTK
NLP
OOV
RD RL
RI RLHF
RNN
RS Seq2seq SOTA
SNLI SR
Long Short-Term Memory
Large Language Model Maximum Likelihood Estimation Natural Language Inference
Natural Language Toolkit
Natural Language Processing Out-of-Vocabulary
Randomly Delete Reinforcement Learning Randomly Insert
Reinforcement Learning with Human Feedback Recurrent Neural Network
Randomly Swap Sequence to Sequence
State of the Art
Stanford Natural Language Inference Synonym Replace
Support Vector Machine
Term Frequency - Inverse Document Trequency
XVII
Trang 17TOM TAT KHOA LUAN
Trong thời kỳ hiện đại, với sự bùng nổ và phát triển nhanh chóng của công
nghệ, khối lượng thông tin ngày càng mở rộng và phong phú Mỗi ngày, hàngtrăm triệu tác phẩm, văn bản xuất hiện và lan truyền trên internet cũng như trêncác nền tảng mang xã hội Đối mặt với lượng thông tin khổng 16 như vậy, việc thuthập và rút trích thông tin từ các nguồn dữ liệu này trở nên hết sức quan trong
và cấp thiết, một giải pháp được đặt ra lúc này là tóm tắt văn bản Tuy nhiên, với
nguồn tài nguyên dữ liệu văn bản khổng 16, việc giải quyết chúng một cách hiệu
quả là thách thức lớn của bài toán tóm tắt văn bản nói riêng và trong lĩnh vực xử
lí ngôn ngữ tự nhiên nói chung Đặc biệt khi mà trong bài toán tóm tắt văn bảnhiện nay, hầu hết các bộ dữ liệu cho bài toán vẫn chưa đủ đa dang và phong phú,
cả về số lượng lẫn chất lượng
Vào đầu năm 2023, với sự ra đời của ChatGPT - một mô hình ngôn ngữ lớn
được phát triển bởi OpenAl, đã đánh dấu một bước tiến quan trọng và là mộtthành tựu nổi bật trong lĩnh vực trí tuệ nhân tạo Mô hình này, dựa trên kiến trúcGPT-3.5, được huấn luyện trên một lượng lớn dữ liệu đa dạng, giúp nó hiểu và
tạo ra văn bản một cách tự nhiên và thông minh Ưu điểm lớn của ChatGPT là khả
năng tạo ra văn bản phức tạp và logic, mang lại trải nghiệm tương tác người-máy
mạnh mẽ Nhờ đó, ChatGPT có thể tạo ra những đoạn tóm tắt từ dữ liệu có sẵn,điều này giúp nâng cao khả năng đa dang và chất lượng của tập dit liệu Qua đó,
là một công cụ mạnh mẽ có thể đóng góp vào việc giải quyết van dé thiếu dữ liệu
trong bài toán tóm tat văn bản
Vì vậy, trong khoá luận tốt nghiệp này, chúng tôi xin trình bày những nghiêncứu về cách ứng dụng mô hình ngôn ngữ lớn - mà cụ thể ở đây là GPT 3.5 Turbo
vào việc sinh tập dữ liệu để đáp ứng cho bài toán tóm tắt văn bản Chúng tôi sẽ
tạo ra một pipeline các bước để tạo ra một bộ dữ liệu mới từ nó Sau đó, chúng
tôi sẽ sử dụng một phương pháp sẵn có trong bài toán tóm tat văn bản để huân
luyện tap dtr liệu trên.
Cuối cùng, để so sánh và đánh giá các kết quả, chúng tôi sẽ thực nghiệm dựatrên tập dữ liệu lớn nhất của tóm tắt văn bản trong tiếng Việt là viewnews
Trang 18Chương 1
TỔNG QUAN
Trong chương này, chúng tôi sẽ giới thiệu tổng quan về bài toán tóm tắt văn
bản, bao gồm những hướng nghiên cứu trước đó, những khó khăn và thách thức
mà bài toán này đang gặp phải Đồng thời, chúng tôi cũng sẽ nói về đối tượng,
phạm vi cũng như mục đích nghiên cứu trong khoá luận này Ở cuối chương,
chúng tôi sẽ trình bày những nội dung đã thực hiện và bố cục chính của khoá
luận.
1.1 Đặt van đề
Trong thời đại thông tin hiện nay, với khối lượng lớn thông tin được tạo ra mỗingày, đặc biệt là dưới dạng văn bản, tin tức, báo chí trực tuyến, thì nhu cầu khaithác thông tin từ các văn bản ngày càng tăng cao Điều này xuất phát từ nhiều
nguyên nhân, có thể kể tới như sự bùng nổ thông tin trên mạng internet, sự phát
triển của các phương tiện truyền thông đại chúng, của các hoạt động nghiên cứuhọc tập Tuy nhiên, việc đọc và hiểu hết nội dung của một văn bản dài, đặc biệt
là đối với những văn bản có nội dung phức tạp, là một nhiệm vụ khó khăn đốivới con người Điều này là do thời gian và công sức bỏ ra để đọc và hiểu một văn
bản dài là rất lớn Khả năng hiểu và ghi nhớ của con người có giới hạn khiến việchiểu và nắm bắt nội dung trở nên khó khăn hơn
Do đó, việc phát triển các hệ thống tự động tóm tắt văn bản là một yêu cầu
cấp thiết Các hệ thống này có thể giúp con người tiết kiệm thời gian và công sức,đồng thời giúp họ hiểu và nắm bắt được nội dung của văn bản dài một cách dễ
dàng hơn Tóm tắt văn bản là một bài toán khó trong lĩnh vực xử lý ngôn ngữ tự
Trang 19Chương 1 TỔNG QUAN 2
nhiên (NLP) Bài toán này đòi hỏi hệ thống phải có khả năng hiểu được nội dungcủa văn bản và trích xuất những thông tin quan trọng nhất
Mặc dù hiện nay đã có nhiều mô hình ngôn ngữ hay phương pháp cho bài
toán tóm tắt văn bản, nhưng khả năng tóm tắt của những mô hình này vẫn còn
hạn chế, một phan do thiếu dữ liệu Phần lớn dữ liệu hiện có vẫn chưa đủ nhiều,
đa dạng và phong phú để các mô hình học hỏi và phát triển Cụ thể, các mô hình
tóm tat văn bản hiện nay thường gặp khó khăn trong việc tóm tat các văn bản có
nội dung phức tạp hoặc có nhiều thông tin không liên quan Nguyên nhân là do
các mô hình này được đào tạo trên các tap dữ liệu có kích thước và độ đa dạng
hạn chế Điều này khiến các mô hình không thể học hỏi được đầy đủ các kiến
thức cần thiết để hiểu và tóm tắt chính xác các văn bản phức tạp Để cải thiện khảnăng tóm tat văn bản của các mô hình, cần có thêm nhiều dữ liệu chất lượng cao
Dữ liệu này cần da dạng về nội dung, phong phú về thể loại và có độ dài phù hợp
với các mô hình tóm tắt văn bản
Tuy nhiên việc xây dung một di liệu đa dạng phù hợp cho bài toán tóm tắt
văn bản cũng là một công việc khó khăn và vô cùng tốn kém Những khó khăn
có thể kể đến như là:
¢ Khó khăn về mặt thời gian: Việc thu thập và xây dung một bộ dt liệu đa
dang cần rất nhiều thời gian và công sức Các nhà nghiên cứu cần phải tìmkiếm và thu thập các văn bản từ nhiều nguồn khác nhau, bao gồm các trangweb, báo chí, tạp chí, sách vở, Sau đó, các văn bản này cần được xử lý vàchuẩn hóa để đảm bảo chất lượng
¢ Khó khăn về mặt chi phí: Việc thu thập và xây dung một bộ dit liệu da dạng
cũng tốn kém về mặt chi phí Các nhà nghiên cứu cần phải trả phí cho cácnguồn dit liệu, cũng như chi phí cho việc xử lý và chuẩn hóa dit liệu
¢ Khó khăn về mặt kỹ thuật: Việc xây dựng một bộ dữ liệu da dạng cũng đòi
hỏi các kỹ thuật cao Các nhà nghiên cứu cần phải có kiến thức về xử lýngôn ngữ tự nhiên, cũng như các kỹ năng về thu thập và phân tích dữ liệu
© Khó khăn về mặt đánh giá: Việc đánh giá chất lượng của một bộ dữ liệu đa
dang cũng là một van dé khó khăn Các nhà nghiên cứu cần phải có các tiêu
chí đánh giá phù hợp dé đảm bảo chất lượng của bộ dit liệu
Trang 20Chương 1 TỔNG QUAN 3
Để giải quyết những khó khăn này, cần có một phương pháp xây dựng bộ dữ
liệu mới, có thể tự động hóa các công đoạn thu thập, xử lý và đánh giá dữ liệu.
Một phương pháp tiềm năng là sử dụng các mô hình ngôn ngữ lớn để tóm tắt các
đoạn văn bản đã có và xử lý chúng để tạo thành tập dữ liệu cho bài toán Mô hình
ngôn ngữ lớn có thể học hỏi được các đặc trưng của văn bản và có thể tóm tắt vănbản một cách chính xác và đầy đủ thông tin Ngoài ra, các mô hình ngôn ngữ lớn
có thể được sử dụng để xử lý và chuẩn hóa dữ liệu một cách tự động, giúp giảm thiểu thời gian và chi phí cho các nhà nghiên cứu.
1.2 Bài toán tóm tắt văn ban
1.2.1 Phát biểu bài toán
Tóm tắt văn bản là bài toán xử lý ngôn ngữ tự nhiên nhằm tạo ra một bảntóm tắt ngắn gọn và xúc tích của một văn bản dài Bản tóm tắt cần phải bao gồm
những thông tin quan trọng nhất của văn bản gốc, đồng thời đảm bảo tính chính
xác và mạch lạc.
© Dau vào: Một văn bản dai, có thể là một bài báo, một cuốn sách, một trang
web, hoặc một đoạn hội thoại Văn bản này có thể được viết bằng nhiềungôn ngữ khác nhau, bao gồm tiếng Anh, tiếng Việt, tiếng Trung, tiếng
Nhật, v.v.
se Đầu ra: Một bản tóm tắt ngắn gọn của văn bản gốc Bản tóm tắt này cần phải
có dung lượng nhỏ hơn văn bản gốc, nhưng vẫn đảm bảo bao gồm những
thông tin quan trọng nhất
Bài toán tóm tất có thể chia thành các dạng nhỏ như tóm tắt đơn văn bản,
tóm tắt đa văn bản Trong công trình này, chúng tôi sẽ tập trung chủ yếu vào tómtắt đơn văn bản Tóm tắt văn bản hoạt động thông qua hai phương pháp chính:
Extractive (rút trích) và Abstractive (trừu tượng) Rút trích văn bản là một phương
pháp truyền thống nơi mô hình chọn ra một tập con những câu quan trọng từ văn
bản gốc để hình thành bản tóm tắt Do đó, rút trích văn bản không thay đổi ngôn
ngữ gốc trong văn bản (minh họa trong hinh{1.1) Ngược lại, trừu tượng hoá van
bản sắp xếp lại từ ngữ trong văn ban và thêm các từ/cụm từ mới vào bản tóm tat
nếu cần thiết (minh họa ở hình[1.2).
Trang 21Chương 1 TỔNG QUAN 4
¢ Phương pháp rút trích văn ban:
HÌNH 11: Minh họa hướng tiếp cận rút trích cho bài toán tóm tắt
văn bảr| ]
Như đã đề cập ở trên, rút trích văn bản hoạt động bằng cách trích xuất và
cô lập thông tin chính từ một van bản đã tồn tại, từ những thông tin đó tạo
thành một phiên bản tóm tắt của văn bản Có nhiều cách để làm điều này,bao gồm việc xem xét tần suất của các từ quan trọng trong văn bản Ví dụ,chúng ta có thể gán mỗi từ trong văn bản một giá trị, giá trị này có thể bằng
tổng số lần xuất hiện của từ đó trong văn bản Từ đó, chúng ta có thể xác
định một giá trị cho mỗi câu bằng cách đơn giản là tính tổng giá trị của các
từ xuất hiện trong đó Bây giờ, chúng ta chỉ cần xếp hạng các câu theo giá
trị của chúng và chọn những câu có giá trị cao nhất Ý tưởng ở đây là các
câu chứa từ có tần suất cao có thể liên quan đến các câu khác và do đó tóm
tắt thông tin liên quan đến tất cả các câu Nhìn chung, ý tưởng của phươngpháp trích xuất văn bản tương đối đơn giản, bằng việc coi bài toán như là
một bài toán phân loại nhị phân Với mỗi câu trong văn bản gốc, chúng ta
Hình vẽ lấy cảm hứng từ
https://www.abstractivehealth.com/extractive-vs-abstractive-summarization-in-healthcare
Trang 22Chương 1 TỔNG QUAN 5
có thể xem xét cho việc chọn hoặc không chọn câu đó cho bản tóm tắt Qua
đó chúng ta có thể đánh giá khách quan bằng độ chính xác
¢ Phương pháp trừu tượng hóa văn ban:
HÌNH 1.2: Minh họa hướng tiếp cận rút trích cho bài toán tóm tắt
văn barf]
Khác với phương pháp rút trích van ban, trừu tượng hóa van ban cho phép
chúng ta được quyền sắp xếp lại các từ ngữ trong câu và sinh những từ/cụm
từ không có trong văn bản gốc Đây là một ưu điểm rất lớn vì chúng ta có
thể sinh ra những văn bản có tính mạch lạc và đa dạng hơn so với phương
pháp rút trích văn bản Do đó, để sinh ra những bản tóm tắt như vậy, các
mô hình trừu tượng hóa văn bản thường bao gồm mô đun tạo văn bản, kiến
trúc của các mô dun này có thể tuỳ biến dựa vào lựa chọn của tác giả mà bao
gồm một mạng RNN hay Transformer [1| (sẽ được đề cập ở các phần
Trang 23Chương 1 TỔNG QUAN 6
¢ Tính mạch lạc, dé doc: Do phương pháp rút trích văn ban chỉ chọn những
câu quan trọng trong văn bản gốc và ghép chúng lại với nhau, vì vậy đôi
lúc các câu sẽ không có tính liên kết, dẫn đến khó hiểu cho người đọc Với
những văn bản có nhiều câu dài mang nội dung chính có thể dẫn tới bản
tóm tắt đài dòng Ngược lại, phương pháp tóm tắt trừu tượng bắt buộc mô
hình phải học ngữ cảnh của văn bản để viết lại bản tóm tắt mới Qua đógiúp mô hình học được văn phong viết của con người, dẫn tới những bản
tóm tat sinh ra bởi tóm tắt trừu tượng thường lưu loát, dé hiểu cũng như
ngắn gọn hơn so với tóm tắt rút trích
© Truyền tải được ý nghĩa tổng thể: Bởi vì trong tóm tắt trừu tượng, mô hình
tự sinh ra bản tóm tắt mới thông qua thông tin học được từ văn bản đầu
vào Do đó, bản tóm tắt sinh ra bởi phương pháp này có thể truyền tải được
ý nghĩa tổng thể của văn bản gốc, bao gồm cả những thông tin không được
thể hiện trực tiếp trong văn bản Trong khi đó, bản tóm tắt rút trích chỉ có
thể truyền tải được những thông tin có trong văn bản gốc
Dựa vào những ưu điểm trên, trong khoá luận này, nhóm chúng tôi sẽ tập
trung vào nghiên cứu phương pháp tóm tắt trừu tượng hóa văn bản cho bài toántóm tắt văn bản nói chung và bài toán tóm tắt văn bản trong Tiếng Việt nói riêng
1.3 Mục tiêu của khóa luận
Trong khóa luận này, chúng tôi hướng đến việc hoàn thành hai mục tiêu chínhbao gồm:
e Xây dựng một bộ dữ liệu văn bản tiếng Việt cho bài toán tóm tắt bằng cách
sử dụng mô hình ngôn ngữ lớn (cụ thể ở đây là GPT 3.5 Turbo)
® So sánh, đánh giá độ hiệu quả và chất lượng của tập dir liệu tạo ra so với
một tập dữ liệu đã có sẵn Chúng tôi sẽ đánh giá dựa trên một mô hình
baseline mà chúng tôi đã chọn trước đó.
Trang 24Chương 1 TỔNG QUAN 7
1.4 Đối tượng và phạm vi nghiên cứu
1.4.1 Doi tượng
Trong dé tài khóa luận này, chúng tôi sé nghiên cứu về các mô hình lớn, tập
trung vào cách sử dụng các mô hình lớn để tạo ra các đoạn tóm tắt bằng tiếng
Việt Qua đó sử dụng những đoạn tóm tắt nay làm "nhãn" cho một bộ dtr liệutóm tat văn bản trong tiếng Việt Sau đó, chúng tôi sẽ sử dụng bộ dữ liệu này
nhằm cải thiện độ chính xác của một mô hình tóm tắt văn bản
1.4.2 Phạm vi nghiên cứu
Về phạm vi nghiên cứu, chúng tôi sẽ xem xét, đánh giá và phân tích bộ dir liệutóm tắt văn bản tiếng Việt được sinh ra từ mô hình ngôn ngữ lớn Bên cạnh đó,
chúng tôi còn dùng bộ dữ liệu nay để huấn luyện mô hình tóm tắt văn bản, sau
đó sẽ đánh giá độ hiệu quả khi sử dụng bộ dữ liệu do mô hình ngôn ngữ lớn sinh
ra để huấn luyện so với khi dùng bộ đữ liệu do con người tạo ra
1.5 Nội dung thực hiện
Nội dung mà chúng tôi thực hiện trong khóa luận này được trình bày như sau:
¢ Tìm hiểu về bài toán tóm tắt văn bản, bài toán tóm tắt văn bản tiếng Việt và
những hướng tiếp cận đã có trước đó để giải quyết bài toán
© Tìm hiểu về các mô hình ngôn ngữ lớn
© Tìm hiểu về các nghiên cứu liên quan đến việc sử dụng mô hình ngôn ngữ
lớn để sinh ra dữ liệu trong tiếng Anh và cả tiếng Việt
¢ Sử dụng mô hình ngôn ngữ lớn để sinh đữ liệu và định dạng lại bộ dữ liệu
được sinh ra để có thể sử dụng cho việc huấn luyện mô hình
® Tìm hiểu về các mô hình tóm tắt văn bản có sẵn và chọn ra mô hình co sở.
Trang 25Chương 1 TỔNG QUAN 8
1.6
Chạy thực nghiệm và đánh giá, so sánh độ hiệu quả giữa bộ dữ liệu được sinh ra bởi mô hình ngôn ngữ lớn và bộ dw liệu do con người làm trên mô hình cơ sở.
Câu trúc khóa luận
Khóa luận được chia thành 5 chương chính, câu trúc được trình bày như sau
Chương] Trình bày tổng quan về bài toán tóm tắt văn bản.
Chương] Trình bày những nghiên cứu về các công trình liên quan và đưa
ra các cơ sở lý thuyết
Chương} Trình bày chỉ tiết về cách sử dung mô hình ngôn ngữ lớn để tạo
ra dit liệu và mô hình cơ sở được sử dung trong đề tài
Chương|4| Trình bày chỉ tiết về cách thiết lập thực nghiệm, cách cài đặt thực
nghiệm, kết quả thực nghiệm và đánh giá thực nghiệm
Chương] Rút ra kết luận và hướng phát triển trong tương lai.
Trang 26Chương 2
CÁC CÔNG TRÌNH LIÊN QUAN VÀ
CƠ SỞ LÝ THUYÊT
Trong chương này, chúng tôi sẽ trình bày một số công trình nghiên cứu liên
quan việc giải quyết bài toán tóm tắt văn ban và tóm tat văn bản tiếng Việt, cùng
với đó là tổng quan về các cơ sở lý thuyết làm nên tảng trong khóa luận nay Phần
E.1|trình bày về các mô hình ngôn ngữ lớn hiện nay, một số phương pháp sinh dữ
liệu từ các mô hình ngôn ngữ lớn, các bộ dtr liệu đã có và những khó khăn về dữ
liệu trong tiếng Việt cho bài toán tóm tắt văn bản hiện nay Phẳn||2.2|sẽ giới thiệu
các kiến trúc cơ sở cần thiết để giải quyết bài toán này
2.1 Các công trình liên quan
Trong nội dung này, chúng tôi trình bày một số công trình liên quan đến bàitoán tóm tắt văn bản trong tiếng Anh và tiếng Việt Bên cạnh đó, chúng tôi cũng
trình bày những công trình nghiên cứu liên quan được thực hiện trên những bộ
dw liệu khác nhau.
2.1.1 Mô hình ngôn ngư lớn
Mô hình ngôn ngữ lớn (LLM) là kết quả của một chuỗi quá trình phát triển
lâu dài trong lĩnh vực học máy và trí tuệ nhân tạo Trong quá khứ, mô hình ngôn
ngữ thường dựa trên các phương pháp thống kê truyền thống và có kích thước
nhỏ Tuy nhiên, với sự phát triển của công nghệ và sự tăng lên của dữ liệu, các
mô hình ngôn ngữ đã trở nên ngày càng lớn và phức tạp hơn.
Trang 27Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 10
LLMs bắt đầu trở nên phổ biến vào những năm cuối của thập kỷ trước, khicác nhà nghiên cứu bắt đầu sử dụng các mạng nơ-ron sâu để huấn luyện mô hình
ngôn ngữ Một trong những mô hình tiên phong là mô hình Transformer, được
giới thiệu bởi Vaswani và cộng sự trong bài báo "Attention is All You Need" [1|
năm 2017.
Một mô hình ngôn ngữ là một mô hình học máy được huấn luyện để dự đoán
từ tiếp theo trong một chuỗi văn bản dựa trên các từ trước đó Điều này nghe có
vẻ đơn giản, nhưng đòi hỏi một lượng lớn đữ liệu và công suất tính toán để thực
hiện hiệu quả Mô hình ngôn ngữ lớn, như GPT-3 [4] của OpenAl, có thể được
huấn luyện trên hàng tỷ từ văn bản, học hỏi từ nhiều nguồn thông tin khác nhau
và tạo ra văn bản một cách tự nhiên và sáng tạo.
Những mô hình ngôn ngữ lớn này rất mạnh mẽ và linh hoạt, có thể được áp
dụng trong nhiều tình huống khác nhau Ví dụ, chúng có thể được sử dụng đểviết bài, trả lời câu hỏi, tạo nội dung đào tạo, hoặc thậm chí làm việc như một trợ
lý ảo Chúng cũng có thể dịch văn bản giữa các ngôn ngữ khác nhau, hoặc tạo
ra tóm tắt của các bài viết dài Sức mạnh của LLMs đến từ khả năng của chúng
trong việc hiểu ngữ cảnh và sử dụng thông tin này để tạo ra văn bản một cách tự
nhiên và chính xác.
Các mô hình ngôn ngữ lớn liên tục dẫn đầu trong các tác vụ thông thường như
tóm tắt văn bản (PEGASUS [60]), dich máy (T5 [43]), đọc hiểu văn bản (RoBERTa
[23))).
Tuy nhiên, sức mạnh của mô hình ngôn ngữ lớn cũng đi kèm với những thách
thức Một thách thức lớn là việc kiểm soát đầu ra của mô hình Vì chúng đượchuấn luyện trên dữ liệu từ internet, chúng có thể học và tái tạo lại thông tinkhông chính xác, thiên vị hoặc có hại Điều này đòi hỏi cải tiến kỹ thuật và quyđịnh để đảm bảo rằng mô hình ngôn ngữ lớn được sử dụng một cách an toàn và
đạo đức.
Một thách thức khác là việc triển khai thực hiện mô hình ngôn ngữ lớn Vìchúng đòi hỏi một lượng lớn đữ liệu và công suất tính toán để huấn luyện, việctriển khai chúng có thể tốn kém và phức tạp
Trang 28Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 11
2.1.2 Sử dụng mô hình ngôn ngữ lớn để sinh dữ liệu
Song song với sự phát triển của các mô hình lớn, việc khai phá sức mạnh của
chúng dé sử dụng cho những mục đích cụ thể cũng là một vấn dé cần quan tâm,
việc tăng cường du liệu sử dụng các mô hình lớn cũng là một trong số đó Vào
năm 2021, Schick và cộng sự đề xuất bài báo DINO [44], trong đó dé cập đến việc
thiết kế câu prompt để sử dụng GPT-3 nhằm mục đích phát sinh văn bản cho bài
toán Natural Language Inference (NLI) trong tiếng Anh, điều này đã giúp tác giả
đạt được SOTA trong bài toán này, công trình này đã dẫn theo một vài công trình
khác với cùng mục tiêu Năm 2023, Solomon và cộng sự đã sử dụng ChatGPT
để sinh ra bộ đữ liệu cho 3 bài toán khác nhau: phân tích cảm xúc, tương tác ngôn
ngữ tiếng nói và phân loại câu hỏi Trong công trình này, tác giả đã sử dụng
các mô hình thuộc họ nhà mô hình BERT kết hợp với phương pháp Masked
Language Model, một phương pháp mà tác giả sẽ che đi một số từ trong văn bảngốc, sau đó sẽ sử dụng mô hình ngôn ngữ để dự đoán ra các từ đó Bên cạnh đó,
tác giả còn so sánh việc sử dụng bộ dữ liệu sinh ra từ mô hình ngôn ngữ lớn với
bộ dữ liệu sử dụng các phương pháp tăng cường dữ liệu truyền thống như Easy
Data Augmentation [57] hay Back-Translation [45]
Trong tiếng Việt, các công trình tăng cường dữ liệu chủ yếu liên quan đến
bài toán phân tích cảm xúc, cụ thể là hai công trình của Lưu và Hương (14).
Nhung các công trình này chưa hề sử dung mô hình ngôn ngữ lớn, ma chi sử
dụng các phương pháp thay đổi từ ngữ Trong hai công trình này, nhóm tác giả
đã đề xuất các kỹ thuật tăng cường dữ liệu để tạo ra văn bản mới từ một câu cho
trước, bao gồm: Thay Thế Từ Đồng Nghia (SR), Chen N gau Nhiên (RI), Hoan Đổi
Ngẫu Nhiên (RS), và Xóa Ngẫu Nhiên (RD), sử dung bộ từ đồng nghĩa tiếng Việt
và một từ điển từ dừng Số lượng từ được thay đổi (n) trong SR, RI va RS được
xác định bởi công thức n = ø «1, trong đó a là tỷ lệ từ được thay thé và | là độ dàicâu, xác suất xóa từ (p) trong RD bang a, do người dùng định nghĩa
2.1.3 Các phương pháp được sử dụng
Nghiên cứu đã chỉ ra rằng các phương pháp tóm tắt văn bản thay đổi tùy
thuộc vào số lượng văn bản đầu vào, chẳng hạn như đơn văn bản hay đa văn bản,
Trang 29Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 12
Concept- Deep Template- :
based Neural Learning based Information
A Network ewe Item
Latent Bose Rule Based
Semantic | Semantic
Analysis ) Conditional graph based
ø Random Ontology
Fields )
HINH 2.1: Các hướng tiếp cận cụ thể trong bài toán tóm tắt văn bản]
mục tiêu chung chung hay cụ thể theo lĩnh vực Hình trình bày các hướng
tiếp cận chính trong hai kiểu tóm tắt văn bản
dụng các thuật toán như:
° Dựa trên quy tắc mơ hồ (Fuzzy Logic Based): Trong quy tắc mơ hồ, thông tin
sẽ được xử lý dựa trên mức độ chứ không phải đúng sai tuyệt đối Phương
pháp này bao gồm bốn thành phần: một bộ mơ hồ hóa (fuzzifier), một động
cơ suy luận (inference engine), một bộ xác định mức độ mơ hồ (defuzzifier),
và một cơ sở kién thức [39] Cách tiếp cận dựa trên quy tắc mơ hồ cũng được
ÌHình vẽ lấy cảm hứng từ
Trang 30Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 13
sử dụng để chọn lựa câu quan trọng nhất từ văn bản nguồn Tuy nhiên,
phương pháp dựa trên quy tắc mơ hồ yêu cầu một kỹ thuật loại bỏ thôngtin thừa để đạt được kết quả tốt hơn
¢ Dựa trên khái niệm (Concept Based): Phương pháp tóm tắt dựa trên khái
niệm hoạt động bằng cách trích xuất các khái niệm từ tài liệu và sử dụng các
phương pháp đánh giá độ tương đồng để loại bỏ thông tin dư thừa trong
văn bản gốc 0l Các khái niệm sau khi được xác định sẽ được sử dụng
để đánh giá và cham điểm từng câu dựa trên tầm quan trong của chúng.Mặc dù phương pháp này và quy tac mơ hồ đều có những hạn chế riêng,nhưng quy tắc mơ hồ lại được đánh giá cao hơn vì khả năng xử lý tốt các
tình huống không rõ ràng Một công trình về tóm tắt văn bản dựa trên khái
niệm được trình bày trong [Bé].
Còn trong học có giám sát, bước đầu tiên là học cách phân loại tài liệu bằng
việc đào tạo để phân biệt giữa văn bản đã tóm tắt và chưa tóm tắt Để thực hiệnviệc này, việc cần có là một bộ dữ liệu đã được phân loại từ trước, trong đó chứa
thông tin về văn bản đã được gắn nhãn là đã tóm tắt hay chưa [30] Sau đó bộ dữ
liệu này sẽ được đưa qua các mô hình như sau để thực hiện việc tóm tắt:
¢ Phương pháp học máy: Phương pháp học máy được áp dụng dé phân loại
các câu văn trong một tài liệu thành hai loại: câu thuộc phần tóm tắt hoặc
không Quá trình này dựa vào du liệu đã được huấn luyện trước Phương
pháp này rất hữu ích khi chúng ta cần tạo ra bản tóm tắt từ nhiều văn bản
khác nhau Ngoài ra, các phương pháp học máy cũng dé xuất sử dụng cácthuật toán tiền xử lý thông tin cơ bản như loại bỏ từ đừng, chuyển chữ hoathành chữ thường và tìm dạng gốc của từ
¢ Phương pháp mạng nơ-ron: Phương pháp này áp dụng các lớp nơ-ron dé
học các đặc điểm của câu văn, sau đó loại bỏ những đặc điểm ít xuất hiện
và kết hợp các đặc điểm xuất hiện nhiều lại với nhau, cuối cùng xếp hạng
các câu này và chọn ra các câu văn có ý nghĩa Với việc tăng sỐ lượng lớp ẩn,
thuật toán mạng nơ-ron hoạt động hiệu quả hơn so với thuật toán học máy
thông thường, đánh dấu sự tiến hóa của mô hình học máy Một framework
được giới thiệu trong là kỹ thuật RankNet, cũng dựa trên mạng no-ron
để tự động phân loại các câu quan trọng trong văn bản Nó sử dụng một
Trang 31Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 14
mạng nơ-ron hai lớp với thuật toán lan truyền ngược, được huấn luyện theo
thuật toán RankNet.
Ngoài ra còn có một số phương pháp khác không được dé cập ở đây như
phương pháp dựa trên tối ưu (Optimization), dựa trên thống kê (Statistics), dựa
trên chủ dé (Topic),
2.1.3.2 Tóm tat trừu tượng
Trong việc tạo ra bản tóm tắt trừu tượng, tài liệu nguồn cần được tóm lượcbằng cách tạo ra những câu mới Với các phương pháp dựa trên cầu trúc, cum
từ được lay từ tài liệu gốc sẽ được sắp xếp lại trong một câu trúc đặc biệt nhưng
vẫn giữ nguyên ý nghĩa ban đầu Nhìn chung, các cách tiếp cận dựa trên cấu trúcdựa vào các khuôn mẫu cô định và các khuôn mẫu suy luận không gian đã đượcthiết lập sẵn, như là sử dụng các khuôn mẫu, cấu trúc dựa trên cây, dựa trên
ontologies, hoặc dựa trên các quy tắc cụ thể
¢ Dựa trên khuôn mẫu (Template Based): Trong phương pháp sử dụng khuôn
mẫu, nội dung được rút trích thành các cạm từ bằng cách tìm ra điểm chung
với một không gian khuôn mẫu được xác định trước [12] Phuong phap nay
phù hợp khi cần tóm tắt một tài liệu theo hướng dẫn cu thé hoặc theo mộtkhuôn mẫu do người đặt ra Nó tạo ra những bản tóm tắt đầy đủ thông tin
và có sự liên kết, bởi các phần nội dung được chọn lọc cẩn thận Tuy nhiên,phương pháp này có hạn chế là việc sử dung các khuôn mẫu tóm tắt có địnhkhiến cho các bản tóm tắt thiếu đa dang và không mềm mại so với phươngpháp dựa trên cấu trúc cây
e Dựa trên các quy tac (Rule Based): Phuong phap dua trén cac quy tac hoat
động bằng cách xác định và phân tích các khái niệm chính trong các tài liệu
nguồn dựa trên việc đặt câu hỏi Các câu hỏi có thể như "Chủ dé là gi?",
"Câu chuyện này xảy ra trong bao lâu?”, và các câu trả lời cho những câu
hỏi này được dùng để tạo nên một bản tóm tắt mang tính trừu tượng Ví
dụ, Laskar và cộng sự cũng đã giới thiệu một phương pháp sử dụng
mô hình BERTSUM để thực hiện việc tóm tắt trừu tượng Các phương pháp
dựa trên quy tắc được ưu tiên khi các tài liệu đầu vào cần được phân loại
thành từng nhóm và liệt kê theo các đặc điểm Tuy nhiên, phương pháp này
Trang 32Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 15
đòi hỏi phải thiết lập các quy tắc trước, một quá trình thường tốn khá nhiềuthời gian Việc viết quy tắc bằng tay làm giảm hiệu quả của phương phápnày so với các phương pháp khác được nhắc đến trước đó trong phần này
Các phương pháp dựa vào ngữ nghĩa sẽ biểu diễn ngữ nghĩa của văn bản
thành dang một hệ thống tạo sinh ngôn ngữ, thứ sẽ chú trọng đặc biệt vào việc
xác định cụm danh từ và động từ [29] Chung rat hiéu qua trong viéc tao ra
những câu van it lặp lại và chính xác ngữ pháp Tuy nhiên, mot han chế củanhững phương pháp này là chúng có thể không chú ý đến những thông tin hoặc
dữ liệu quan trọng, dù câu văn được xây dựng đã đúng ngữ pháp.
e Dựa trên ngữ nghĩa đa phương tiện (Multimodal Semantic method): Phương
pháp dựa vào đa phương tiện được áp dụng để hiểu và xử lý cả hình ảnh
lẫn văn bản trong một tài liệu [29] Mô hình ngữ nghĩa đa phương tiện nay
thu thập các khái niệm và xây dựng mối quan hệ giữa chúng thông qua việcbiểu đạt cả văn bản và hình ảnh trong nội dung đa phương tiện Mô hìnhngữ nghĩa này biểu diễn kiến thức qua các đối tượng Trong các đối tượngnày, các khái niệm được đại diện bởi các nút, còn các liên kết giữa chúng thểhiện mối quan hệ giữa các khái niệm Độ day đủ, sự kết nói với các yếu tốkhác và tần suất lặp lại của một biểu hiện được đánh giá qua mật độ thôngtin Kết thúc quá trình, những đối tượng được chọn lựa sẽ được chuyển thể
thành văn bản để tạo ra bản tóm tắt Nghiên cứu [8] là một ví dụ về cách áp
dụng phương pháp ngữ nghĩa đa phương tiện trong việc tóm tắt văn bản
® Semantic Graph Based method: Phương pháp sử dung đồ thị ngữ nghĩa
tóm tắt nội dung của một tài liệu bằng cách tạo ra một dé thị ngữ nghĩa
phức hợp, hay còn gọi là Rich Semantic Graph [28], sau đó làm giản lược đồ
thị này Điểm mạnh của phương pháp này là khả năng tạo ra các câu ngắngọn, rõ ràng và chính xác về mặt ngữ pháp từ những mạng lưới đã đượctỉnh giản Mô hình dựa trên đồ thị ngữ nghĩa chủ yếu trích xuất thông tinngữ nghĩa bằng cách gán trọng số cho các nút và liên kết giữa các câu Do
đó, mô hình này thường hoạt động hiệu quả nhưng cần đến một hình thức
biểu diễn ngữ nghĩa của văn bản.
Trang 33Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 16
2.1.3.3 Kết hợp tóm tắt rút trích và tóm tắt trừu tượng
Ngoài hai kiểu truyền thống, hiện nay, nhờ vào sự phát triển của các kỹ thuậttiên tiến, việc kết hợp hai kiểu tiếp cận truyền thống được chứng minh là cho kếtquả tốt hơn so với khi chỉ sử dụng riêng lẻ từng cách Việc kết hợp này có thể
được thực hiện thông qua một vài phương pháp sau:
¢ LexRank: Là hướng tiếp cận không giám sát cho bài toán tóm tat văn bản
dựa trên việc đánh giá các câu trọng tâm thông qua đồ thị các câu Ý tưởng
chính của phương pháp này là các câu sẽ gợi ý những câu tương đồng với
nó cho người đọc Do đó, néu một câu tương đồng với nhiều câu khác trongvăn bản, thì nhiều khả năng nó là một câu rất quan trọng Giá trị quan trọngcủa một câu còn thể hiện thông qua tầm quan trọng của những câu gợi ý nó
Do đó, để một câu được xếp hạng cao và có mặt trong bản tóm tắt, nó phải
tương đồng với nhiều câu trong văn bản, đồng thời những câu này cũng
tương đồng với nhiều câu khác.|36] đã đề xuất thuật toán LexRank cho bài
toán tóm tắt văn bản dựa trên đồ thị
® PageRank: Là thuật toán tính toán chất lượng của một trang thông qua số
lượng và chất lượng của các trang có liên kết đến nó 71, từ đó giúp sắp xếp
lại các kết quả tìm kiếm thông qua giá trị của chúng
¢ TextRank: La một thuật toán không giám sát cho bài toán tóm tat văn bản tự
động 2s], được sử dụng để tóm tắt văn bản hoặc xác định các từ khoá quan
trọng của văn bản Trong đó, mỗi từ trong văn bản sẽ được biểu diễn dướidang đỉnh của dé thị và được gán một trọng số ngẫu nhiên, các cạnh giữacác đỉnh được tạo ra và đánh trọng số dựa trên sự xuất hiện cùng nhau của
các từ đó trong văn bản Trong quá trình huấn luyện, trọng số của các đỉnh
sẽ liên tục được cập nhật dựa trên trọng số của các đỉnh và cạnh mà nó liên
kết Cuối cùng, những đỉnh có trọng số cao nhất sẽ được coi là từ khoá quantrọng, những câu có chứa từ khoá này sẽ được chọn để hình thành bản tóm
tất.
Ngoài những hướng tiếp cận trên, hướng tiếp cận phổ biến nhất cũng như
thành công nhất hiện nay có thể kể đến là hướng tiếp cận sử dụng mô hình học
Trang 34Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 17
sâu Cùng với sự bùng nổ của Transformerl1], hướng tiếp cận này đã đạt được
nhiều thành công lớn cùng với các kết quả khả quan ngoài mong đợi
¢ Recurrent Neural Network: Là một trong những kiến trúc mạng no-ron sâu
đầu tiên được thiết kế để xử lý dữ liệu chuỗi Kiến trúc của RNN bao gồm
một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu ra Điểm đặc biệtcủa RNN là trong lớp ẩn, đầu ra của mỗi bước thời gian không chỉ phụthuộc vào đầu vào hiện tại mà còn phụ thuộc vào trạng thái ẩn từ bước thờigian trước đó Điều này cho phép RNN lưu trữ và sử dụng thông tin từ quá
khứ để đưa ra dự đoán cho tương lai.
¢ Long Short Term Memory: LSTM là một phiên ban nâng cao của RNN, được
sinh ra nhằm giải quyết những hạn chế tồn đọng của RNN Chi tiết về kiến
trúc của mô hình sẽ được giải thích kĩ hơn ở|2.2}
* Query Based: Day là thuật toán tóm tắt văn bản dựa trên truy van Trong
đó, mỗi câu trong văn bản sẽ được tính điểm dựa trên tần suất xuất hiện của
từ hoặc cụm từ của câu đó cũng đồng thời xuất hiện ở câu truy vấn Những
câu có cụm từ truy vấn sẽ được đánh giá cao hơn những câu có từ riêng lẻ
nằm trong câu truy vân Cuối cùng, những câu có điểm số cao nhất sẽ được
chọn để hình thành bản tóm tắt
© Large Language Model: Ngoài những mô hình trên, một số mô hình ngôn
ngữ được dao tạo trước trên một lượng lớn dữ liệu văn bản như BERT [11],
GPT-2 [42] cũng được sử dụng rộng rãi trong bài toán tóm tắt văn bản.
2.1.4 Các bộ dư liệu đã có
2.14.1 Trong tiếng Anh:
¢ CNN/DailyMail: Bộ dữ liệu CNN/Daily Mail là bộ dữ liệu bao gồm
hơn 300,000 bài báo được viết bởi các nhà báo ở hai toà soạn CNN và Daily
Mail, bộ dữ liệu được chia thành 287,113 mẫu dữ liệu để huấn luyện, 13,368
để xác thực và 11,490 để kiểm tra Trung bình, có khoảng 28 câu trong mỗitài liệu trong bộ huấn luyện Bộ dữ liệu này bao gồm phiên bản ẩn danh vàphiên bản không ẩn danh Phiên bản đầu tiên là tất cả các tên thực thể của
Trang 35Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 18
dữ liệu được thay thế bằng các từ thẻ đặc biệt, trong khi phiên bản thứ hai
là dữ liệu gốc Dữ liệu CNN/Daily Mail bao gồm nhiều cặp tài liệu-tóm tat,mỗi cặp tương ứng với một vài câu được đánh dấu trong tài liệu được chú
thích thủ công.
s® The New York Times: Bộ dữ liệu The New York TimesPllà tập dữ liệu chứa
hơn 1.8 triệu bài báo được viết và xuất bản bởi The New York Times từ ngày
1 tháng 1 năm 1987 đến ngày 19 tháng 6 năm 2007 Bộ dữ liệu này bao gồm
hơn 1.8 triệu bài báo, hơn 650,000 bản tóm tắt được viết thủ công bởi các thủthư, hơn 1,500,000 bản tóm tắt được gắn thẻ thủ công bởi các thủ thư vàomột trong các mục như con người, vị trí, tổ chức, và hơn 275,000 bài viết
được gắn nhãn tự động bởi thuật toán đã được xác minh bởi nhân viên tại
New York Times.
® Extreme Summarization: Bộ dữ liệu XSum là một bộ dữ liệu dùng để
đánh giá các mô hình tóm tắt trừu tượng đơn lẻ với mục tiêu tạo ra những
bản tóm tắt ngắn gọn, một câu trả lời cho câu hỏi "Nội dung của bài báo
là gì?" Tập dữ liệu bao gồm 226,711 bài báo tin tức kèm theo một câu tóm
tắt toàn bộ nội dung của bài báo đó Các bài báo được thu thập từ các bàibáo BBC (2010 đến 2017) và bao gồm nhiều lĩnh vực khác nhau (ví dụ: Tin
tức, Chính trị, Thể thao, Thời tiết, Kinh doanh, Công nghệ, Khoa học, Y
tế, Gia đình, Giáo dục, Giải trí và Nghệ thuật) Bộ dir liệu được chia ngẫunhiên thành ba tập huấn luyện , xác thực và thực nghiệm với tỉ lệ lần lượt là
204,045 (90%), 11,332 (5%) và 11,334 (5%).
2.14.2 Trong tiếng Việt:
se VN-MDS: Bộ dữ liệu VN-MDS| đã được xây dựng và công bồ bởi tác giả
Trần Mai Vũ và đồng nghiệp tại Phòng thí nghiệm Công nghệ tri thức, Đại
học Công nghệ, ĐHQG: Hà Nội Bộ dt liệu này được thu thập từ các trang
báo tin tức trực tuyến tại Việt Nam, cụ thể là Baomoi, và bao gồm 200 cụm
văn bản được phân bổ đều trên tat cả các chủ dé trên Baomoi (khoảng 8-10
chủ dé chính: Thế giới, Xã hội, Văn hóa, Kinh tế, KH-CN, Thể thao, Giải trí,
*https: //catalog.ldc.upenn.edu/LDC2008T19
Shttps: //github.com/lupanh/VietnameseMDS
Trang 36Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 19
Pháp luật, Giáo dục, Sức khỏe, Ô tô - Xe máy, Nhà đất) Bộ dữ liệu này đượcdùng chủ yếu cho bài toán tóm tắt đa văn bản
® ViMs: Bộ dữ liệu ViMs 1], được thu thập và công bố bởi tác giả Nghiêm
Quốc Minh tại Trường Đại học Khoa học Tự Nhiên, Đại học Quốc gia Thànhphó Hồ Chí Minh Bộ dữ liệu này được thu thập thủ công từ các lĩnh vựckhác nhau từ phiên bản tiếng Việt của Google News với số lượng 300 nhóm
văn bản (mỗi nhóm văn bản sẽ có từ 5 - 10 bài) bao gồm các bài báo từ
các trang web tin tức phổ biến tại Việt Nam (ví dụ như vnexpress, dantri,
tuoitre) với 600 bản tóm tắt Tương tự như VN-MDS, bộ đữ liệu này cũngđược dùng cho bài toán tóm tắt đa văn bản
® VSoLSCSum: Bộ dữ liệu VSoLSCSum [34], đây là bộ dữ liệu về xã hội bao
gồm cả tài liệu và ý kiến phản hồi từ người dùng liên quan Bao gồm 141chủ đề với hơn 3,760 câu, 2,448 câu trích xuất tiêu chuẩn và bình luận được
xem như là bản tóm tắt và 6,926 bình luận cho 12 sự kiện Bộ dữ liệu này
được đánh nhãn thủ công bởi con người.
* Vietnews: Bộ dữ liệu Vietnews [35], là một tập dữ liệu lớn về tóm tat văn
bản tiếng Việt, bao gồm 105,418 cặp bài báo - tóm tắt trong tập huấn luyện,
22,642 cặp trong tập đánh giá và 22,644 cặp trong tập kiểm tra Tập dữ liệu
này bao gồm các bài báo được xuất bản từ năm 2016 đến 2019 trong cácdanh mục "thé giới", "tin tức”, "pháp luật" và "kinh doanh" từ ba nguồn tin
đáng chú ý là tuoitre.vn, vnexpress.net và nguoiduatin.vn.
2.1.5 Thách thức
BANG 2.1: Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tóm tất
văn bản cho tiếng Anh
Dataset Number of samples
Trang 37Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 20
BẢNG 2.2: Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tóm
tắt văn bản cho tiếng Việt
Dataset Number of samples
Vietnews 150,597
ViMs [51| 25,100
VN-MDS* 9,802
VSoLCSum 3,760
Bảng |2.1| và |2.2|thể hiện số lượng mẫu trong các bộ di liệu cho bài toán tóm
tắt văn bản trong tiếng Anh và tiếng Việt Ta có thể thấy sự chênh lệch đáng kể
trong số lượng mẫu giữa các tập dữ liệu tiếng Anh và tiếng Việt, sự chênh lệch
này có thể ảnh hưởng đối với việc huấn luyện cũng như đánh giá trong bài toántóm tắt văn bản
e Mất cân bằng dữ liệu: Cac tập dữ liệu tiếng Anh như CNN/DailyMail
và XSum [33] có kích thước mẫu lớn hơn đáng kể so với các tập tiếng Việt
tương tự Sự mắt cân bằng này có thể ảnh hưởng đến hiệu suất của các mô
hình được đào tạo trên các tap dữ liệu này Các mô hình được đào tạo trên
các tập dữ liệu lớn hơn có thể hiểu biết rộng rãi hơn về những sắc thái ngôn
ngữ và các chủ dé đa dạng
¢ Tính tổng quát của mô hình: Các mô hình được đào tạo trên các tập dữ liệu
lớn hơn thường có khả năng tổng quát tốt hơn Chúng có thể nắm bắt được
một loạt các mẫu ngôn ngữ và thông tin chuyên ngành một cách rộng rãi
hơn Do đó, mô hình tóm tắt tiếng Anh có thể có ưu thế về mặt tổng quát so
với các mô hình tiếng Việt do kích thước lớn của tập dữ liệu
¢ Hạn chế về mặt tài nguyên: Kích thước nhỏ của các tập dữ liệu tiếng Việt
như VN-MDS và VSoLCSum [34] có thể gây ra những thách thức trong việc
đào tạo mô hình Dữ liệu hạn chế có thể dẫn đến mô hình dễ bị quá khớp,đặc biệt khi phải đối mặt với đầu vào da dang và phong phú
¢ Sự đa dang của bộ dữ liệu: Sự chênh lệch trong kích thước tập dữ liệu cũng
liên quan đến sự đa dạng về chủ đề và lĩnh vực được bao phủ Các tập dữliệu tiếng Anh, với kích thước lớn, có thể bao quát một phổ rộng các chủ
dé, trong khi các tập dữ liệu tiếng Việt nhỏ hơn có thể hạn chế về phạm vi
Trang 38Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 21
Điều này có thể ảnh hưởng đến khả năng ứng dụng của các mô hình tóm
tắt trong các lĩnh vực cụ thể, tùy thuộc vào tập dữ liệu được sử dụng để đào
tạo.
s® Thách thức trong việc thu nhập dt liệu: Sự thiếu hụt về kích thước của các
tập dir liệu tóm tắt tiếng Việt (so với tiếng Anh) có thể là dau hiệu của các
thách thức trong việc thu thập dữ liệu hoặc là nhu cầu cần thêm nỗ lực để
tổng hợp các tập dữ liệu toàn diện hơn Giải quyết những thách thức này có
thể góp phần lớn vào việc phát triển các mô hình ngôn ngữ tiếng Việt hiệu
quả và mạnh mẽ hơn.
2.2 Cơ sở lý thuyết
2.2.1 Học tang cường
Học tăng cường, hay Reinforcement Leaning [48], là một phần của học máy,
nơi mà một tác tử (agent) học cách thực hiện các hành động (action) trong một
môi trường (environment) để tối đa hóa một phần thưởng (reward) nhất định.Khác với các phương pháp học máy truyền thống, trong học tăng cường, không
có dữ liệu được gán nhãn trước Thay vào đó, tác tử học bằng cách tương tác với
môi trường của nó và nhận phản hồi theo thời gian Trong RL, khi tác tử thực hiện
một hành động, môi trường phản hồi bằng cách cung cấp cho tác tử một trạng
thái mới và một phần thưởng (hoặc phạt) Phần thưởng có thể là một số đương(nếu hành động là tốt) hoặc một số âm (nếu hành động là xấu) Mục tiêu của tác
tử là tìm ra chiến lược (một chuỗi các hành động) để tối đa hóa tổng phần thưởng
qua thời gian Tổng quát, như trong hình|2.2| trong RL có các thành phần cần chú
Trang 39Chương 2 CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 22
HÌNH 2.2: Mô tả tổng quan cách hoạt động của học tăng cường ]
* Điểm thưởng (Reward): Điểm thưởng/phạt mà tác tử nhận được khi thực
hiện 1 hành động.
e Chiến lược: Chuỗi hành động mà tác tử thực hiện để đạt được điểm thưởng
2.2.2 Actor - Critic và Thuật toán Advantage Actor Critic
Actor-Critic là một phương pháp hoc tăng cường trong đó có hai mô hình
song song: Actor và Critic Actor chịu trách nhiệm đưa ra quyết định hành động,
còn Critic đánh giá giá trị của một trạng thái và hành động.
Cơ bản, Advantage Actor Critic (A2C) hoạt động như sau:
1 Actor và Critic được khởi tạo với các tham số ngẫu nhiên
2 Actor đưa ra một hành động trong một trạng thái hiện tại.
3 Môi trường phản hồi cho hành động đó bằng cách cung cấp một điểm
thưởng và chuyển sang trạng thái mới
4 Critic tính toán giá trị của trạng thái hiện tại và hành động được thực hiện.
5 Actor cập nhật các tham số của mình để tăng giá trị của advantage
6 Lặp lại các bước 2-5 cho đến khi đạt được độ chính xác mong muốn
Trang 40Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 23
7 Advantage là một cách tính toán giá trị của một trạng thái và hành động
dựa trên điểm thưởng nhận được trong tương lai Advantage được tính
theo công thức sau:
Advantage = Reward + + x V(s”) — V(s) (2.1)
Trong đó:
¢ Reward là phần thưởng nhận được trong trang thái hiện tại
e + là hệ số chiết khấu
e V(s) là giá tri của trạng thái s.
® V(s’) là giá trị của trang thái s’.
8 Actor được cập nhật theo hướng giảm thiểu hàm mat mát sau:
J(8) = E[Q(s,a) — A(s,a) + loe(7r(s,a;6))] (2.2)
Trong đó:
© 0 là các tham số của Actor
® Q(s,a) là giá trị của trạng thái s và hành động a.
e A(s,a) là advantage của trạng thái s và hành động a.
® 7(s,a;0) là phân phối xác suất của các hành động có thể tại trạng thái
s được tạo ra bởi Actor.
9 Critic được cập nhật theo hướng giảm thiểu hàm mat mát sau:
J{() = E[(r + + * V(s”) — V(s)) x *2] (2.3)
Trong đó:
® zø là các tham số của Critic
erla phan thưởng nhận được trong trạng thai hiện tại
® + là hệ số chiết khấu
e V(s”) là giá trị của trạng thái s’.