Khóa luận tốt nghiệp Khoa học máy tính: Tăng cường dữ liệu bằng mô hình ngôn ngữ lớn cho bài toán tóm tắt văn bản tiếng Việt

- Pham vi: Khảo sát về các hướng tiếp cận đã có của bài toán tóm tắt văn bản cho tiếng Anh và tiếng Việt; Khảo sát về các bộ dữ liệu đã có sẵn cho bài toán này; Khao sát về các mô hình n

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

LÊ NGUYÊN MINH HUY - 20521394

LUONG TRIEU VY - 20520094

KHOA LUAN TOT NGHIEP

TANG CƯỜNG DỮ LIEU BANG MÔ HÌNH NGÔN NGỮ LON

CHO BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT

DATA AUGMENTATION WITH LARGE LANGUAGE

MODELS FOR VIETNAMESE ABSTRACTIVE TEXT

SUMMARIZATION

CU NHAN TAI NANG NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN

TS MAI TIEN DUNG

TP HO CHÍ MINH, 2024

Trang 2

DANH SÁCH HOI DONG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 TS Ngô Đức Thành — Chủ tịch.

2 ThS Nguyễn Thanh Sơn — Thu ký.

3 TS Duong Viét Hang — Uy viên.

ee — Uy viên.

Trang 3

ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

Độc Lập - Tự Do - Hạnh Phúc

TP HCM, ngày

NHAN XÉT KHÓA LUẬN TOT NGHIỆP

(CUA CÁN BỘ HƯỚNG DAN)

Tên khóa luận:

TANG CƯỜNG DU LIEU BANG MÔ HÌNH NGÔN NGỮ LỚN

CHO BÀI TOÁN TÓM TAT VĂN BẢN TIENG VIỆT

Nhóm SV thực hiên:

20520094

Đánh gia Khóa luận

I Về cuốn báo cáo:

Số trang - 80 Số chương

So bang sô liệu 12 SỐ hình vẽ

Sô tài liệu tham khảo 61 Sản phâm

Một sô nhận xét về hình thức cuôn báo cáo:

Cán bô hướng dẫn:

05 19

Mai Tiến Dũng

<nhận xét về định dạng, cách thức viết bảo cáo, phân bó nội dung, chương mục có hợp lý

không >

2 Về nội dung nghiên cứu:

<nhận xét về kiên thức, phương pháp mà sinh viên đã tim hiệu, nghiên cứu nhận xét ưu điêm va

hạn chê>

3 Về chương trình ứng dụng:

<nhận xét về việc xây dựng ung dung demo, nhận xét wu điểm và hạn ché>

Trang 4

4 Vé thái độ làm việc của sinh viên:

<nhận xét về thái độ, wu khuyết điêm của từng sinh viên tham gia>

Đánh gia chung:Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử nhân, xếp loại Giỏi/ Khá/ Trung bình

Điểm từng sinh viên:

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 5

ĐẠI HỌC QUỐC GIA TP HO CHÍMINH CONG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM

Độc Lập - Tự Do - Hạnh Phúc

TP HCM, ngay thang

NHAN XET KHOA LUAN TOT NGHIEP

(CUA CAN BO PHAN BIEN)

Tén khoa luan:

TANG CUONG DU LIEU BANG MO HINH NGON NGU LON

CHO BAI TOAN TOM TAT VAN BAN TIENG VIET

Nhóm SV thực hiên:

20520094

Đánh gia Khóa luận

I Về cuốn báo cáo:

Số trang - 80 Số chương

So bang sô liệu 12 SỐ hình vẽ

Sô tài liệu tham khảo 61 Sản phâm

Một sô nhận xét về hình thức cuôn báo cáo:

Cán bô phản biên:

05 19

Duong Viét Hang

<nhận xét về định dạng, cách thức viết bảo cáo, phân bó nội dung, chương mục có hop lý

không >

2 Về nội dung nghiên cứu:

<nhận xét về kiên thức, phương pháp mà sinh viên đã tim hiệu, nghiên cứu nhận xét ưu điêm va

hạn chê>

3 Về chương trình ứng dụng:

<nhận xét về việc xây dựng ung dung demo, nhận xét wu điểm và hạn ché>

Trang 6

4 Vé thái độ làm việc của sinh viên:

<nhận xét về thái độ, wu khuyết điêm của từng sinh viên tham gia>

Đánh gia chung:Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử nhân, xếp loại Giỏi/ Khá/ Trung bình

Điểm từng sinh viên:

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 7

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN

ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP

Tên dé tài: TANG CƯỜNG DU LIEU BANG MÔ HÌNH NGÔN NGỮ LỚN CHO BÀI

TOÁN TOM TAT VĂN BẢN TIENG VIỆT.

Tên đề tài tiếng Anh: DATA AUGMENTATION WITH LARGE LANGUAGE MODELS

FOR VIETNAMESE ABSTRACTIVE TEXT SUMMARIZATION.

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: Mai Tiến Dũng

Thời gian thực hiện: Từ ngày 12/09/2023 đến ngày 30/12/2023.

Sinh viên thực hiện:

Lê Nguyễn Minh Huy - 20521394 Lớp: KHTN2020

Email: 20521394@gm.uit.edu.vn Điện thoại: 0906497909

Lương Triều Vỹ - 20520094 Lớp: KHTN2020

Email: 20520094(@gm.uif.edu.vn Điện thoại: 0582794168

Nội dung đề tài:

- Muc tiêu: Tan dụng được sức mạnh có san của các Mô hình ngôn ngữ lớn hiện tại

(cụ thé là Chat GPT, vietcuna) dé khắc phục sự thiếu sót về dữ liệu huấn luyện

cho bài toán tóm tắt văn bản tiếng Việt Qua đó tăng cường độ chính xác của các

mô hình có sẵn

- Pham vi: Khảo sát về các hướng tiếp cận đã có của bài toán tóm tắt văn bản cho

tiếng Anh và tiếng Việt; Khảo sát về các bộ dữ liệu đã có sẵn cho bài toán này;

Khao sát về các mô hình ngôn ngữ lớn có khả năng sinh dit liệu cho bai toán này

với tài nguyên cho phép; Phát sinh bộ dữ liệu sử dụng mô hình ngôn ngữ lớn một

cách tự động; Điều chỉnh, huấn luyện các mô hình đã có với bộ dữ liệu do người làm, bộ dữ liệu tự động sinh ra, bộ dữ liệu cộng gộp; Đánh giá kết quả đạt được.

- Déi tượng: Các mô hình ngôn ngữ lớn có săn (ưu tiên các mô hình ngôn ngữ

cung cấp khả năng truy cập qua API, có thé sinh dit liệu nhanh, rẻ, hiệu quả); Các

mô hình tóm tắt văn bản (Ưu tiên các mô hình nhẹ, không đòi hỏi quá nhiều tài

nguyên tính toán, lưu trữ).

- _ Phương pháp thực hiện: Gồm có 3 bước chính:

Trang 8

1 Khảo sát: Khảo sát các công trình nghiên cứu hiện đang có của bài toán Tóm

tắt văn bản (cả tiếng Anh và tiếng Việt); các bộ đữ liệu hiện có cho bài toán

Tóm tắt văn bản tiếng Việt; các phương pháp sinh thêm dữ liệu bằng các Mô

hình ngôn ngữ lớn hiện có với chi phí phù hợp.

2 Thiết kế và tinh chỉnh mô hình tóm tắt văn bản:

e Đầu tiên chọn bộ dữ liệu để huấn luyện mô hình; chuẩn bị mô hình

ngôn ngữ lớn dé tăng cường dữ liệu tiếng Việt: Dựa vào các khảo sát đã

có, chọn ra một mô hình làm baseline (dựa trên các điều kiện vé cơ sở

vật chất, máy móc; kết quả của mô hình trên các bộ dữ liệu trước; có source code hay không, ); chọn ra các mô hình khác dùng dé so sánh với mô hình baseline (gồm cả mô hình được pre-trained và chưa được pre-trained) Baseline dự kiến là mô hình Fast Abs Mô hình dùng so

sánh dự kiến sẽ là PhoBERT, ViT5.

e Sau đó, chọn bộ dữ liệu tiếng Anh và tiếng Việt (do con người làm) với

kích thước phù hợp dé chuẩn bị cho việc huấn luyện và so sánh — gọi

bộ dữ liệu này là “bộ dữ liệu do người làm” Bộ dữ liệu tiếng Anh dự

kiến là CNN/DailyMail và bộ dit liệu tiếng Việt dự kiến là Vietnews.

e Cuối cùng, tinh chỉnh mô hình dé có thể thực nghiệm trên các bộ dữ

eu tiếng Việt (sử dụng các kỹ thuật tách từ, tokenize từ, embedding

dành riêng cho tiếng ViệU; điều chỉnh đầu vào của mô hình cho

hop với những bộ dữ liệu tiếng Việt Cuối cùng, chon mô hình ngôn

ngữ lớn dung để sinh dữ liệu, thu thập các bài báo từ các trang báo mạng, sử dụng để sinh ra thêm dữ liệu cho bài toán tóm tắt văn ban tiếng Việt Mô hình dự kiến sẽ là text-davinci-003 từ OpenAI va vietcuna.

3 Thực nghiệm va so sánh:

e Thực nghiệm huấn luyện mô hình baseline trên bộ dữ liệu tóm tắt văn

bản tiếng Việt do người làm và đánh giá trên tập test của bộ đữ liệu do

người làm.

e Thực nghiệm mô hình baseline trên bộ dữ liệu tóm tắt văn bản tiếng

Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánh giá trên tập test

của bộ dữ liệu do người làm.

e Thực nghiệm các mô hình tóm tắt văn bản khác trên bộ đữ liệu do

người làm và đánh giá trên tập test của bộ dữ liệu do người làm.

e Thực nghiệm mô hình tóm tắt văn bản khác trên bộ đữ liệu tóm tắt văn

bản tiếng Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánh giá trên

tập test của bộ dữ liệu do người làm.

- _ Kết quả mong đợi: Một bài báo chỉ tiết về:

các bộ dữ liệu hiện có của bài toán này.

e_ Các phương pháp sinh dữ liệu bằng mô hình ngôn ngữ lón.

Trang 9

e_ Một bộ dữ liệu cho bài toán tóm tắt văn bản tiếng việt được sinh ra từ mô

hình ngôn ngữ lon.

e Phân tích, đánh giá so sánh sự khác biệt giữa các mô hình hiện có của bài

toán tóm tắt văn bản tiếng Việt khi có và không có sử dụng thêm bộ dữ liệu

do mô hình ngôn ngữ lớn sinh ra để huấn luyện.

Kế hoạch thực hiện:

1 Tháng 9: Tiến hành nội dung 1: Khao sát các công trình nghiên cứu hiện đang có

của bài toán Tóm tắt văn bản (cả tiếng Anh và tiếng Việt); các bộ dữ liệu hiện có cho

bài toán Tóm tắt văn bản tiếng Việt; các phương pháp sinh thêm dữ liệu bằng các Mô

hình ngôn ngữ lớn hiện có với giá cả phù hợp (Phân công: Cả hai sinh viên)

2 Tháng 10: Tiến hành nội dung 2: Thiết kế và tinh chỉnh mô hình tóm tắt văn bản;

Chọn bộ dữ liệu dé huấn luyện mô hình (Phân công: Vỹ); Chuẩn bị mô hình ngônngữ lớn dé tăng cường dữ liệu tiếng Việt (Phân công: Vỹ) Tiến hành nội dung 3:Thiết lập thực nghiệm trên mô hình baseline và trên bộ dữ liệu người làm (Phân

công: Huy)

3 Tháng 11-12: Tiếp tục tiến hành nội dung 3: Thực nghiệm mô hình baseline trên bộ

dữ liệu tóm tắt văn bản tiếng Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánhgiá trên tập test của bộ dữ liệu do người làm Thực nghiệm các mô hình tóm tắt văn

bản khác trên bộ dữ liệu dongười làm và đánh giá trên tập test của bộ dữ liệu do

người làm.Thực nghiệm mô hình tóm tắt văn bản khác trên bộ đữ liệu tóm tắt vănbản tiếng Việt được sinh ra bởi mô hình ngôn ngữ lớn và đánh giá trên tập test của

bộ dé liệu do người làm Viết báo cáo trình bày chi tiết về phương pháp đề xuất, các

kết quả đạt được (Phân công: Cả hai sinh viên)

Xác nhận của CBHD TP HCM, ngày 08 tháng 9 năm 2023

(Ký tên và ghi rõ họ tên) Sinh viên

(Ky tên và ghi rõ họ tên)

Mai Tiến Dũng

Lê Nguyễn Minh Huy

Lương Triều Vỹ

Trang 10

LỜI CẢM ƠN

Lời đầu tiên, chúng tôi xin được gửi một lời cảm ơn sâu sắc đến thầy LươngNgọc Hoàng và thầy Mai Tiến Dũng vì đã tận tình giúp đỡ, động viên, địnhhướng cho chúng tôi trong những ngày dau, xuyên suốt quá trình nghiên cứu vahoàn thiện dé tài khóa luận Nếu không có sự hướng dan từ các thầy, mục tiêu

của khóa luận sẽ không thể hoàn thành.

Tiếp theo, chúng tôi xin được gửi lời cảm ơn đến quý thầy cô giảng viên trong

trường Đại học Công Nghệ Thông Tin nói chung và khoa Khoa Học Máy Tính nói

riêng vì đã tận tình giảng dạy và giúp chúng tôi có được nhiều kiến thức chuyênmôn để làm hành trang cho việc hoàn thành đề tài nghiên cứu này

Và cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn to lớn của mình đối vớinhững thành viên trong gia đình chúng tôi vì họ là luôn là điểm tựa vững chắc

trong suốt những ngày tháng sinh viên của chúng tôi, và là nguồn động lực to

lớn để thôi thúc chúng tôi hoàn thành tốt dé tài này

Nhóm xin chân thành cảm ơn.

Trang 11

Mục lục

¬ bbb bbb bebe bebe eees

¬ ee

1.2.1 Phátbiểu bài toán|

s” À AÁ

À }

141 Đô tưếti @ ⁄.SÀ \ /

B | /

P WO fo 6

We w'{

2 CAC CONG TRINH LIEN QUAN VA CO SO LY THUYET ¬ ee 2.1.1 Mô hình ngôn ngư

lớn| -2.1.2 Sử dụng mô hình ngôn ngữ lớn để sinh dữ liệu|

2.1.3 Cac phương pháp được sử dụng|

2.1.3.1 Tóm tắtrúttrch|

2.1.3.2 Tóm tắttrừu tượng

-2.1.3.3 Kết hợp tóm tat rút trích và tóm tắt trừu tượng|_

¬ 2.1.4.1 Trong tiếng Anh|

2.1.4.2 Trong tiếng Việt|

215 Thách thức|

2.2 Cơsở lý thuyết| ee

xii

xviii

18

Trang 12

2.2.2 Actor - Critic và Thuật toán Advantage Actor Critic)

26

28 30

33

33 37 38 39 39 40

41

43

Trang 13

4.3.6 Các mô hình pretrained word embeddingl 62

¬ sầ—ẰằẰằẰẰĂẰ 634.41 Hiệu chỉnh siêu thamsô| - 63

Trang 14

Danh sách hình ve

1.2 Minh họa hướng tiếp cận rút trích cho bài toán tóm tắt văn ban}

2.5 Mô tả cấu trúc của mô hình Sequence to Sequence.| 29

2.6 Cau trúc của mô hình Pointer NetworkÌ] - 31

sư _r::rẻỀỄỀểếr 38

Trang 15

Danh sách bảng

21 Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tom tắt văn bản

cho tiếng Anh| ee 19

2.2 Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tóm tắt văn bản

a-———ẰẰẰẰĂẰĂẰẰ 20

3.1 Hyperparameter của mô hình GPT dùng để sinh dữ liệu| 41

3.2 Các mâu dữ liệu được sinhratừGPTI| - 44

4.1 Thông kê về bộ dữ liệu vietnews

44 Bảng so sánh các độ đo được sửduụng| 56

4.5_ Các siêu tham sô của Extractor và Abstractor| 64

trên thang ROUGE-1, ROUGE-2, ROUGE-L, BLEU, BERT Score và

Trang 16

Danh mục từ viết tắt

A2C

BPTT

CAD CNN EDA EOE GPT LSTM

LLM MLE

NHI NLTK

NLP

OOV

RD RL

RI RLHF

RNN

RS Seq2seq SOTA

SNLI SR

Long Short-Term Memory

Large Language Model Maximum Likelihood Estimation Natural Language Inference

Natural Language Toolkit

Natural Language Processing Out-of-Vocabulary

Randomly Delete Reinforcement Learning Randomly Insert

Reinforcement Learning with Human Feedback Recurrent Neural Network

Randomly Swap Sequence to Sequence

State of the Art

Stanford Natural Language Inference Synonym Replace

Support Vector Machine

Term Frequency - Inverse Document Trequency

XVII

Trang 17

TOM TAT KHOA LUAN

Trong thời kỳ hiện đại, với sự bùng nổ và phát triển nhanh chóng của công

nghệ, khối lượng thông tin ngày càng mở rộng và phong phú Mỗi ngày, hàngtrăm triệu tác phẩm, văn bản xuất hiện và lan truyền trên internet cũng như trêncác nền tảng mang xã hội Đối mặt với lượng thông tin khổng 16 như vậy, việc thuthập và rút trích thông tin từ các nguồn dữ liệu này trở nên hết sức quan trong

và cấp thiết, một giải pháp được đặt ra lúc này là tóm tắt văn bản Tuy nhiên, với

nguồn tài nguyên dữ liệu văn bản khổng 16, việc giải quyết chúng một cách hiệu

quả là thách thức lớn của bài toán tóm tắt văn bản nói riêng và trong lĩnh vực xử

lí ngôn ngữ tự nhiên nói chung Đặc biệt khi mà trong bài toán tóm tắt văn bảnhiện nay, hầu hết các bộ dữ liệu cho bài toán vẫn chưa đủ đa dang và phong phú,

cả về số lượng lẫn chất lượng

Vào đầu năm 2023, với sự ra đời của ChatGPT - một mô hình ngôn ngữ lớn

được phát triển bởi OpenAl, đã đánh dấu một bước tiến quan trọng và là mộtthành tựu nổi bật trong lĩnh vực trí tuệ nhân tạo Mô hình này, dựa trên kiến trúcGPT-3.5, được huấn luyện trên một lượng lớn dữ liệu đa dạng, giúp nó hiểu và

tạo ra văn bản một cách tự nhiên và thông minh Ưu điểm lớn của ChatGPT là khả

năng tạo ra văn bản phức tạp và logic, mang lại trải nghiệm tương tác người-máy

mạnh mẽ Nhờ đó, ChatGPT có thể tạo ra những đoạn tóm tắt từ dữ liệu có sẵn,điều này giúp nâng cao khả năng đa dang và chất lượng của tập dit liệu Qua đó,

là một công cụ mạnh mẽ có thể đóng góp vào việc giải quyết van dé thiếu dữ liệu

trong bài toán tóm tat văn bản

Vì vậy, trong khoá luận tốt nghiệp này, chúng tôi xin trình bày những nghiêncứu về cách ứng dụng mô hình ngôn ngữ lớn - mà cụ thể ở đây là GPT 3.5 Turbo

vào việc sinh tập dữ liệu để đáp ứng cho bài toán tóm tắt văn bản Chúng tôi sẽ

tạo ra một pipeline các bước để tạo ra một bộ dữ liệu mới từ nó Sau đó, chúng

tôi sẽ sử dụng một phương pháp sẵn có trong bài toán tóm tat văn bản để huân

luyện tap dtr liệu trên.

Cuối cùng, để so sánh và đánh giá các kết quả, chúng tôi sẽ thực nghiệm dựatrên tập dữ liệu lớn nhất của tóm tắt văn bản trong tiếng Việt là viewnews

Trang 18

Chương 1

TỔNG QUAN

Trong chương này, chúng tôi sẽ giới thiệu tổng quan về bài toán tóm tắt văn

bản, bao gồm những hướng nghiên cứu trước đó, những khó khăn và thách thức

mà bài toán này đang gặp phải Đồng thời, chúng tôi cũng sẽ nói về đối tượng,

phạm vi cũng như mục đích nghiên cứu trong khoá luận này Ở cuối chương,

chúng tôi sẽ trình bày những nội dung đã thực hiện và bố cục chính của khoá

luận.

1.1 Đặt van đề

Trong thời đại thông tin hiện nay, với khối lượng lớn thông tin được tạo ra mỗingày, đặc biệt là dưới dạng văn bản, tin tức, báo chí trực tuyến, thì nhu cầu khaithác thông tin từ các văn bản ngày càng tăng cao Điều này xuất phát từ nhiều

nguyên nhân, có thể kể tới như sự bùng nổ thông tin trên mạng internet, sự phát

triển của các phương tiện truyền thông đại chúng, của các hoạt động nghiên cứuhọc tập Tuy nhiên, việc đọc và hiểu hết nội dung của một văn bản dài, đặc biệt

là đối với những văn bản có nội dung phức tạp, là một nhiệm vụ khó khăn đốivới con người Điều này là do thời gian và công sức bỏ ra để đọc và hiểu một văn

bản dài là rất lớn Khả năng hiểu và ghi nhớ của con người có giới hạn khiến việchiểu và nắm bắt nội dung trở nên khó khăn hơn

Do đó, việc phát triển các hệ thống tự động tóm tắt văn bản là một yêu cầu

cấp thiết Các hệ thống này có thể giúp con người tiết kiệm thời gian và công sức,đồng thời giúp họ hiểu và nắm bắt được nội dung của văn bản dài một cách dễ

dàng hơn Tóm tắt văn bản là một bài toán khó trong lĩnh vực xử lý ngôn ngữ tự

Trang 19

Chương 1 TỔNG QUAN 2

nhiên (NLP) Bài toán này đòi hỏi hệ thống phải có khả năng hiểu được nội dungcủa văn bản và trích xuất những thông tin quan trọng nhất

Mặc dù hiện nay đã có nhiều mô hình ngôn ngữ hay phương pháp cho bài

toán tóm tắt văn bản, nhưng khả năng tóm tắt của những mô hình này vẫn còn

hạn chế, một phan do thiếu dữ liệu Phần lớn dữ liệu hiện có vẫn chưa đủ nhiều,

đa dạng và phong phú để các mô hình học hỏi và phát triển Cụ thể, các mô hình

tóm tat văn bản hiện nay thường gặp khó khăn trong việc tóm tat các văn bản có

nội dung phức tạp hoặc có nhiều thông tin không liên quan Nguyên nhân là do

các mô hình này được đào tạo trên các tap dữ liệu có kích thước và độ đa dạng

hạn chế Điều này khiến các mô hình không thể học hỏi được đầy đủ các kiến

thức cần thiết để hiểu và tóm tắt chính xác các văn bản phức tạp Để cải thiện khảnăng tóm tat văn bản của các mô hình, cần có thêm nhiều dữ liệu chất lượng cao

Dữ liệu này cần da dạng về nội dung, phong phú về thể loại và có độ dài phù hợp

với các mô hình tóm tắt văn bản

Tuy nhiên việc xây dung một di liệu đa dạng phù hợp cho bài toán tóm tắt

văn bản cũng là một công việc khó khăn và vô cùng tốn kém Những khó khăn

có thể kể đến như là:

¢ Khó khăn về mặt thời gian: Việc thu thập và xây dung một bộ dt liệu đa

dang cần rất nhiều thời gian và công sức Các nhà nghiên cứu cần phải tìmkiếm và thu thập các văn bản từ nhiều nguồn khác nhau, bao gồm các trangweb, báo chí, tạp chí, sách vở, Sau đó, các văn bản này cần được xử lý vàchuẩn hóa để đảm bảo chất lượng

¢ Khó khăn về mặt chi phí: Việc thu thập và xây dung một bộ dit liệu da dạng

cũng tốn kém về mặt chi phí Các nhà nghiên cứu cần phải trả phí cho cácnguồn dit liệu, cũng như chi phí cho việc xử lý và chuẩn hóa dit liệu

¢ Khó khăn về mặt kỹ thuật: Việc xây dựng một bộ dữ liệu da dạng cũng đòi

hỏi các kỹ thuật cao Các nhà nghiên cứu cần phải có kiến thức về xử lýngôn ngữ tự nhiên, cũng như các kỹ năng về thu thập và phân tích dữ liệu

dang cũng là một van dé khó khăn Các nhà nghiên cứu cần phải có các tiêu

chí đánh giá phù hợp dé đảm bảo chất lượng của bộ dit liệu

Trang 20

Để giải quyết những khó khăn này, cần có một phương pháp xây dựng bộ dữ

liệu mới, có thể tự động hóa các công đoạn thu thập, xử lý và đánh giá dữ liệu.

Một phương pháp tiềm năng là sử dụng các mô hình ngôn ngữ lớn để tóm tắt các

đoạn văn bản đã có và xử lý chúng để tạo thành tập dữ liệu cho bài toán Mô hình

ngôn ngữ lớn có thể học hỏi được các đặc trưng của văn bản và có thể tóm tắt vănbản một cách chính xác và đầy đủ thông tin Ngoài ra, các mô hình ngôn ngữ lớn

có thể được sử dụng để xử lý và chuẩn hóa dữ liệu một cách tự động, giúp giảm thiểu thời gian và chi phí cho các nhà nghiên cứu.

1.2 Bài toán tóm tắt văn ban

1.2.1 Phát biểu bài toán

Tóm tắt văn bản là bài toán xử lý ngôn ngữ tự nhiên nhằm tạo ra một bảntóm tắt ngắn gọn và xúc tích của một văn bản dài Bản tóm tắt cần phải bao gồm

những thông tin quan trọng nhất của văn bản gốc, đồng thời đảm bảo tính chính

xác và mạch lạc.

web, hoặc một đoạn hội thoại Văn bản này có thể được viết bằng nhiềungôn ngữ khác nhau, bao gồm tiếng Anh, tiếng Việt, tiếng Trung, tiếng

Nhật, v.v.

se Đầu ra: Một bản tóm tắt ngắn gọn của văn bản gốc Bản tóm tắt này cần phải

có dung lượng nhỏ hơn văn bản gốc, nhưng vẫn đảm bảo bao gồm những

thông tin quan trọng nhất

Bài toán tóm tất có thể chia thành các dạng nhỏ như tóm tắt đơn văn bản,

tóm tắt đa văn bản Trong công trình này, chúng tôi sẽ tập trung chủ yếu vào tómtắt đơn văn bản Tóm tắt văn bản hoạt động thông qua hai phương pháp chính:

Extractive (rút trích) và Abstractive (trừu tượng) Rút trích văn bản là một phương

pháp truyền thống nơi mô hình chọn ra một tập con những câu quan trọng từ văn

bản gốc để hình thành bản tóm tắt Do đó, rút trích văn bản không thay đổi ngôn

ngữ gốc trong văn bản (minh họa trong hinh{1.1) Ngược lại, trừu tượng hoá van

bản sắp xếp lại từ ngữ trong văn ban và thêm các từ/cụm từ mới vào bản tóm tat

nếu cần thiết (minh họa ở hình[1.2).

Trang 21

¢ Phương pháp rút trích văn ban:

HÌNH 11: Minh họa hướng tiếp cận rút trích cho bài toán tóm tắt

văn bảr| ]

Như đã đề cập ở trên, rút trích văn bản hoạt động bằng cách trích xuất và

cô lập thông tin chính từ một van bản đã tồn tại, từ những thông tin đó tạo

thành một phiên bản tóm tắt của văn bản Có nhiều cách để làm điều này,bao gồm việc xem xét tần suất của các từ quan trọng trong văn bản Ví dụ,chúng ta có thể gán mỗi từ trong văn bản một giá trị, giá trị này có thể bằng

tổng số lần xuất hiện của từ đó trong văn bản Từ đó, chúng ta có thể xác

định một giá trị cho mỗi câu bằng cách đơn giản là tính tổng giá trị của các

từ xuất hiện trong đó Bây giờ, chúng ta chỉ cần xếp hạng các câu theo giá

trị của chúng và chọn những câu có giá trị cao nhất Ý tưởng ở đây là các

câu chứa từ có tần suất cao có thể liên quan đến các câu khác và do đó tóm

tắt thông tin liên quan đến tất cả các câu Nhìn chung, ý tưởng của phươngpháp trích xuất văn bản tương đối đơn giản, bằng việc coi bài toán như là

một bài toán phân loại nhị phân Với mỗi câu trong văn bản gốc, chúng ta

Hình vẽ lấy cảm hứng từ

https://www.abstractivehealth.com/extractive-vs-abstractive-summarization-in-healthcare

Trang 22

có thể xem xét cho việc chọn hoặc không chọn câu đó cho bản tóm tắt Qua

đó chúng ta có thể đánh giá khách quan bằng độ chính xác

¢ Phương pháp trừu tượng hóa văn ban:

HÌNH 1.2: Minh họa hướng tiếp cận rút trích cho bài toán tóm tắt

văn barf]

Khác với phương pháp rút trích van ban, trừu tượng hóa van ban cho phép

chúng ta được quyền sắp xếp lại các từ ngữ trong câu và sinh những từ/cụm

từ không có trong văn bản gốc Đây là một ưu điểm rất lớn vì chúng ta có

thể sinh ra những văn bản có tính mạch lạc và đa dạng hơn so với phương

pháp rút trích văn bản Do đó, để sinh ra những bản tóm tắt như vậy, các

mô hình trừu tượng hóa văn bản thường bao gồm mô đun tạo văn bản, kiến

trúc của các mô dun này có thể tuỳ biến dựa vào lựa chọn của tác giả mà bao

gồm một mạng RNN hay Transformer [1| (sẽ được đề cập ở các phần

Trang 23

¢ Tính mạch lạc, dé doc: Do phương pháp rút trích văn ban chỉ chọn những

câu quan trọng trong văn bản gốc và ghép chúng lại với nhau, vì vậy đôi

lúc các câu sẽ không có tính liên kết, dẫn đến khó hiểu cho người đọc Với

những văn bản có nhiều câu dài mang nội dung chính có thể dẫn tới bản

tóm tắt đài dòng Ngược lại, phương pháp tóm tắt trừu tượng bắt buộc mô

hình phải học ngữ cảnh của văn bản để viết lại bản tóm tắt mới Qua đógiúp mô hình học được văn phong viết của con người, dẫn tới những bản

tóm tat sinh ra bởi tóm tắt trừu tượng thường lưu loát, dé hiểu cũng như

ngắn gọn hơn so với tóm tắt rút trích

tự sinh ra bản tóm tắt mới thông qua thông tin học được từ văn bản đầu

vào Do đó, bản tóm tắt sinh ra bởi phương pháp này có thể truyền tải được

ý nghĩa tổng thể của văn bản gốc, bao gồm cả những thông tin không được

thể hiện trực tiếp trong văn bản Trong khi đó, bản tóm tắt rút trích chỉ có

thể truyền tải được những thông tin có trong văn bản gốc

Dựa vào những ưu điểm trên, trong khoá luận này, nhóm chúng tôi sẽ tập

trung vào nghiên cứu phương pháp tóm tắt trừu tượng hóa văn bản cho bài toántóm tắt văn bản nói chung và bài toán tóm tắt văn bản trong Tiếng Việt nói riêng

1.3 Mục tiêu của khóa luận

Trong khóa luận này, chúng tôi hướng đến việc hoàn thành hai mục tiêu chínhbao gồm:

e Xây dựng một bộ dữ liệu văn bản tiếng Việt cho bài toán tóm tắt bằng cách

sử dụng mô hình ngôn ngữ lớn (cụ thể ở đây là GPT 3.5 Turbo)

® So sánh, đánh giá độ hiệu quả và chất lượng của tập dir liệu tạo ra so với

một tập dữ liệu đã có sẵn Chúng tôi sẽ đánh giá dựa trên một mô hình

baseline mà chúng tôi đã chọn trước đó.

Trang 24

1.4 Đối tượng và phạm vi nghiên cứu

1.4.1 Doi tượng

Trong dé tài khóa luận này, chúng tôi sé nghiên cứu về các mô hình lớn, tập

trung vào cách sử dụng các mô hình lớn để tạo ra các đoạn tóm tắt bằng tiếng

Việt Qua đó sử dụng những đoạn tóm tắt nay làm "nhãn" cho một bộ dtr liệutóm tat văn bản trong tiếng Việt Sau đó, chúng tôi sẽ sử dụng bộ dữ liệu này

nhằm cải thiện độ chính xác của một mô hình tóm tắt văn bản

1.4.2 Phạm vi nghiên cứu

Về phạm vi nghiên cứu, chúng tôi sẽ xem xét, đánh giá và phân tích bộ dir liệutóm tắt văn bản tiếng Việt được sinh ra từ mô hình ngôn ngữ lớn Bên cạnh đó,

chúng tôi còn dùng bộ dữ liệu nay để huấn luyện mô hình tóm tắt văn bản, sau

đó sẽ đánh giá độ hiệu quả khi sử dụng bộ dữ liệu do mô hình ngôn ngữ lớn sinh

ra để huấn luyện so với khi dùng bộ đữ liệu do con người tạo ra

1.5 Nội dung thực hiện

Nội dung mà chúng tôi thực hiện trong khóa luận này được trình bày như sau:

¢ Tìm hiểu về bài toán tóm tắt văn bản, bài toán tóm tắt văn bản tiếng Việt và

những hướng tiếp cận đã có trước đó để giải quyết bài toán

lớn để sinh ra dữ liệu trong tiếng Anh và cả tiếng Việt

¢ Sử dụng mô hình ngôn ngữ lớn để sinh đữ liệu và định dạng lại bộ dữ liệu

được sinh ra để có thể sử dụng cho việc huấn luyện mô hình

® Tìm hiểu về các mô hình tóm tắt văn bản có sẵn và chọn ra mô hình co sở.

Trang 25

1.6

Chạy thực nghiệm và đánh giá, so sánh độ hiệu quả giữa bộ dữ liệu được sinh ra bởi mô hình ngôn ngữ lớn và bộ dw liệu do con người làm trên mô hình cơ sở.

Câu trúc khóa luận

Khóa luận được chia thành 5 chương chính, câu trúc được trình bày như sau

Chương] Trình bày tổng quan về bài toán tóm tắt văn bản.

Chương] Trình bày những nghiên cứu về các công trình liên quan và đưa

ra các cơ sở lý thuyết

Chương} Trình bày chỉ tiết về cách sử dung mô hình ngôn ngữ lớn để tạo

ra dit liệu và mô hình cơ sở được sử dung trong đề tài

Chương|4| Trình bày chỉ tiết về cách thiết lập thực nghiệm, cách cài đặt thực

nghiệm, kết quả thực nghiệm và đánh giá thực nghiệm

Chương] Rút ra kết luận và hướng phát triển trong tương lai.

Trang 26

Chương 2

CÁC CÔNG TRÌNH LIÊN QUAN VÀ

CƠ SỞ LÝ THUYÊT

Trong chương này, chúng tôi sẽ trình bày một số công trình nghiên cứu liên

quan việc giải quyết bài toán tóm tắt văn ban và tóm tat văn bản tiếng Việt, cùng

với đó là tổng quan về các cơ sở lý thuyết làm nên tảng trong khóa luận nay Phần

E.1|trình bày về các mô hình ngôn ngữ lớn hiện nay, một số phương pháp sinh dữ

liệu từ các mô hình ngôn ngữ lớn, các bộ dtr liệu đã có và những khó khăn về dữ

liệu trong tiếng Việt cho bài toán tóm tắt văn bản hiện nay Phẳn||2.2|sẽ giới thiệu

các kiến trúc cơ sở cần thiết để giải quyết bài toán này

2.1 Các công trình liên quan

Trong nội dung này, chúng tôi trình bày một số công trình liên quan đến bàitoán tóm tắt văn bản trong tiếng Anh và tiếng Việt Bên cạnh đó, chúng tôi cũng

trình bày những công trình nghiên cứu liên quan được thực hiện trên những bộ

dw liệu khác nhau.

2.1.1 Mô hình ngôn ngư lớn

Mô hình ngôn ngữ lớn (LLM) là kết quả của một chuỗi quá trình phát triển

lâu dài trong lĩnh vực học máy và trí tuệ nhân tạo Trong quá khứ, mô hình ngôn

ngữ thường dựa trên các phương pháp thống kê truyền thống và có kích thước

nhỏ Tuy nhiên, với sự phát triển của công nghệ và sự tăng lên của dữ liệu, các

mô hình ngôn ngữ đã trở nên ngày càng lớn và phức tạp hơn.

Trang 27

Chương 2 CAC CÔNG TRÌNH LIÊN QUAN VÀ CƠ SỞ LÝ THUYET 10

LLMs bắt đầu trở nên phổ biến vào những năm cuối của thập kỷ trước, khicác nhà nghiên cứu bắt đầu sử dụng các mạng nơ-ron sâu để huấn luyện mô hình

ngôn ngữ Một trong những mô hình tiên phong là mô hình Transformer, được

giới thiệu bởi Vaswani và cộng sự trong bài báo "Attention is All You Need" [1|

năm 2017.

Một mô hình ngôn ngữ là một mô hình học máy được huấn luyện để dự đoán

từ tiếp theo trong một chuỗi văn bản dựa trên các từ trước đó Điều này nghe có

vẻ đơn giản, nhưng đòi hỏi một lượng lớn đữ liệu và công suất tính toán để thực

hiện hiệu quả Mô hình ngôn ngữ lớn, như GPT-3 [4] của OpenAl, có thể được

huấn luyện trên hàng tỷ từ văn bản, học hỏi từ nhiều nguồn thông tin khác nhau

và tạo ra văn bản một cách tự nhiên và sáng tạo.

Những mô hình ngôn ngữ lớn này rất mạnh mẽ và linh hoạt, có thể được áp

dụng trong nhiều tình huống khác nhau Ví dụ, chúng có thể được sử dụng đểviết bài, trả lời câu hỏi, tạo nội dung đào tạo, hoặc thậm chí làm việc như một trợ

lý ảo Chúng cũng có thể dịch văn bản giữa các ngôn ngữ khác nhau, hoặc tạo

ra tóm tắt của các bài viết dài Sức mạnh của LLMs đến từ khả năng của chúng

trong việc hiểu ngữ cảnh và sử dụng thông tin này để tạo ra văn bản một cách tự

nhiên và chính xác.

Các mô hình ngôn ngữ lớn liên tục dẫn đầu trong các tác vụ thông thường như

tóm tắt văn bản (PEGASUS [60]), dich máy (T5 [43]), đọc hiểu văn bản (RoBERTa

[23))).

Tuy nhiên, sức mạnh của mô hình ngôn ngữ lớn cũng đi kèm với những thách

thức Một thách thức lớn là việc kiểm soát đầu ra của mô hình Vì chúng đượchuấn luyện trên dữ liệu từ internet, chúng có thể học và tái tạo lại thông tinkhông chính xác, thiên vị hoặc có hại Điều này đòi hỏi cải tiến kỹ thuật và quyđịnh để đảm bảo rằng mô hình ngôn ngữ lớn được sử dụng một cách an toàn và

đạo đức.

Một thách thức khác là việc triển khai thực hiện mô hình ngôn ngữ lớn Vìchúng đòi hỏi một lượng lớn đữ liệu và công suất tính toán để huấn luyện, việctriển khai chúng có thể tốn kém và phức tạp

Trang 28

2.1.2 Sử dụng mô hình ngôn ngữ lớn để sinh dữ liệu

Song song với sự phát triển của các mô hình lớn, việc khai phá sức mạnh của

chúng dé sử dụng cho những mục đích cụ thể cũng là một vấn dé cần quan tâm,

việc tăng cường du liệu sử dụng các mô hình lớn cũng là một trong số đó Vào

năm 2021, Schick và cộng sự đề xuất bài báo DINO [44], trong đó dé cập đến việc

thiết kế câu prompt để sử dụng GPT-3 nhằm mục đích phát sinh văn bản cho bài

toán Natural Language Inference (NLI) trong tiếng Anh, điều này đã giúp tác giả

đạt được SOTA trong bài toán này, công trình này đã dẫn theo một vài công trình

khác với cùng mục tiêu Năm 2023, Solomon và cộng sự đã sử dụng ChatGPT

để sinh ra bộ đữ liệu cho 3 bài toán khác nhau: phân tích cảm xúc, tương tác ngôn

ngữ tiếng nói và phân loại câu hỏi Trong công trình này, tác giả đã sử dụng

các mô hình thuộc họ nhà mô hình BERT kết hợp với phương pháp Masked

Language Model, một phương pháp mà tác giả sẽ che đi một số từ trong văn bảngốc, sau đó sẽ sử dụng mô hình ngôn ngữ để dự đoán ra các từ đó Bên cạnh đó,

tác giả còn so sánh việc sử dụng bộ dữ liệu sinh ra từ mô hình ngôn ngữ lớn với

bộ dữ liệu sử dụng các phương pháp tăng cường dữ liệu truyền thống như Easy

Data Augmentation [57] hay Back-Translation [45]

Trong tiếng Việt, các công trình tăng cường dữ liệu chủ yếu liên quan đến

bài toán phân tích cảm xúc, cụ thể là hai công trình của Lưu và Hương (14).

Nhung các công trình này chưa hề sử dung mô hình ngôn ngữ lớn, ma chi sử

dụng các phương pháp thay đổi từ ngữ Trong hai công trình này, nhóm tác giả

đã đề xuất các kỹ thuật tăng cường dữ liệu để tạo ra văn bản mới từ một câu cho

trước, bao gồm: Thay Thế Từ Đồng Nghia (SR), Chen N gau Nhiên (RI), Hoan Đổi

Ngẫu Nhiên (RS), và Xóa Ngẫu Nhiên (RD), sử dung bộ từ đồng nghĩa tiếng Việt

và một từ điển từ dừng Số lượng từ được thay đổi (n) trong SR, RI va RS được

xác định bởi công thức n = ø «1, trong đó a là tỷ lệ từ được thay thé và | là độ dàicâu, xác suất xóa từ (p) trong RD bang a, do người dùng định nghĩa

2.1.3 Các phương pháp được sử dụng

Nghiên cứu đã chỉ ra rằng các phương pháp tóm tắt văn bản thay đổi tùy

thuộc vào số lượng văn bản đầu vào, chẳng hạn như đơn văn bản hay đa văn bản,

Trang 29

Concept- Deep Template- :

based Neural Learning based Information

A Network ewe Item

Latent Bose Rule Based

Semantic | Semantic

Analysis ) Conditional graph based

ø Random Ontology

Fields )

HINH 2.1: Các hướng tiếp cận cụ thể trong bài toán tóm tắt văn bản]

mục tiêu chung chung hay cụ thể theo lĩnh vực Hình trình bày các hướng

tiếp cận chính trong hai kiểu tóm tắt văn bản

dụng các thuật toán như:

° Dựa trên quy tắc mơ hồ (Fuzzy Logic Based): Trong quy tắc mơ hồ, thông tin

sẽ được xử lý dựa trên mức độ chứ không phải đúng sai tuyệt đối Phương

pháp này bao gồm bốn thành phần: một bộ mơ hồ hóa (fuzzifier), một động

cơ suy luận (inference engine), một bộ xác định mức độ mơ hồ (defuzzifier),

và một cơ sở kién thức [39] Cách tiếp cận dựa trên quy tắc mơ hồ cũng được

ÌHình vẽ lấy cảm hứng từ

Trang 30

sử dụng để chọn lựa câu quan trọng nhất từ văn bản nguồn Tuy nhiên,

phương pháp dựa trên quy tắc mơ hồ yêu cầu một kỹ thuật loại bỏ thôngtin thừa để đạt được kết quả tốt hơn

¢ Dựa trên khái niệm (Concept Based): Phương pháp tóm tắt dựa trên khái

niệm hoạt động bằng cách trích xuất các khái niệm từ tài liệu và sử dụng các

phương pháp đánh giá độ tương đồng để loại bỏ thông tin dư thừa trong

văn bản gốc 0l Các khái niệm sau khi được xác định sẽ được sử dụng

để đánh giá và cham điểm từng câu dựa trên tầm quan trong của chúng.Mặc dù phương pháp này và quy tac mơ hồ đều có những hạn chế riêng,nhưng quy tắc mơ hồ lại được đánh giá cao hơn vì khả năng xử lý tốt các

tình huống không rõ ràng Một công trình về tóm tắt văn bản dựa trên khái

niệm được trình bày trong [Bé].

Còn trong học có giám sát, bước đầu tiên là học cách phân loại tài liệu bằng

việc đào tạo để phân biệt giữa văn bản đã tóm tắt và chưa tóm tắt Để thực hiệnviệc này, việc cần có là một bộ dữ liệu đã được phân loại từ trước, trong đó chứa

thông tin về văn bản đã được gắn nhãn là đã tóm tắt hay chưa [30] Sau đó bộ dữ

liệu này sẽ được đưa qua các mô hình như sau để thực hiện việc tóm tắt:

¢ Phương pháp học máy: Phương pháp học máy được áp dụng dé phân loại

các câu văn trong một tài liệu thành hai loại: câu thuộc phần tóm tắt hoặc

không Quá trình này dựa vào du liệu đã được huấn luyện trước Phương

pháp này rất hữu ích khi chúng ta cần tạo ra bản tóm tắt từ nhiều văn bản

khác nhau Ngoài ra, các phương pháp học máy cũng dé xuất sử dụng cácthuật toán tiền xử lý thông tin cơ bản như loại bỏ từ đừng, chuyển chữ hoathành chữ thường và tìm dạng gốc của từ

¢ Phương pháp mạng nơ-ron: Phương pháp này áp dụng các lớp nơ-ron dé

học các đặc điểm của câu văn, sau đó loại bỏ những đặc điểm ít xuất hiện

và kết hợp các đặc điểm xuất hiện nhiều lại với nhau, cuối cùng xếp hạng

các câu này và chọn ra các câu văn có ý nghĩa Với việc tăng sỐ lượng lớp ẩn,

thuật toán mạng nơ-ron hoạt động hiệu quả hơn so với thuật toán học máy

thông thường, đánh dấu sự tiến hóa của mô hình học máy Một framework

được giới thiệu trong là kỹ thuật RankNet, cũng dựa trên mạng no-ron

để tự động phân loại các câu quan trọng trong văn bản Nó sử dụng một

Trang 31

mạng nơ-ron hai lớp với thuật toán lan truyền ngược, được huấn luyện theo

thuật toán RankNet.

Ngoài ra còn có một số phương pháp khác không được dé cập ở đây như

phương pháp dựa trên tối ưu (Optimization), dựa trên thống kê (Statistics), dựa

trên chủ dé (Topic),

2.1.3.2 Tóm tat trừu tượng

Trong việc tạo ra bản tóm tắt trừu tượng, tài liệu nguồn cần được tóm lượcbằng cách tạo ra những câu mới Với các phương pháp dựa trên cầu trúc, cum

từ được lay từ tài liệu gốc sẽ được sắp xếp lại trong một câu trúc đặc biệt nhưng

vẫn giữ nguyên ý nghĩa ban đầu Nhìn chung, các cách tiếp cận dựa trên cấu trúcdựa vào các khuôn mẫu cô định và các khuôn mẫu suy luận không gian đã đượcthiết lập sẵn, như là sử dụng các khuôn mẫu, cấu trúc dựa trên cây, dựa trên

ontologies, hoặc dựa trên các quy tắc cụ thể

¢ Dựa trên khuôn mẫu (Template Based): Trong phương pháp sử dụng khuôn

mẫu, nội dung được rút trích thành các cạm từ bằng cách tìm ra điểm chung

với một không gian khuôn mẫu được xác định trước [12] Phuong phap nay

phù hợp khi cần tóm tắt một tài liệu theo hướng dẫn cu thé hoặc theo mộtkhuôn mẫu do người đặt ra Nó tạo ra những bản tóm tắt đầy đủ thông tin

và có sự liên kết, bởi các phần nội dung được chọn lọc cẩn thận Tuy nhiên,phương pháp này có hạn chế là việc sử dung các khuôn mẫu tóm tắt có địnhkhiến cho các bản tóm tắt thiếu đa dang và không mềm mại so với phươngpháp dựa trên cấu trúc cây

e Dựa trên các quy tac (Rule Based): Phuong phap dua trén cac quy tac hoat

động bằng cách xác định và phân tích các khái niệm chính trong các tài liệu

nguồn dựa trên việc đặt câu hỏi Các câu hỏi có thể như "Chủ dé là gi?",

"Câu chuyện này xảy ra trong bao lâu?”, và các câu trả lời cho những câu

hỏi này được dùng để tạo nên một bản tóm tắt mang tính trừu tượng Ví

dụ, Laskar và cộng sự cũng đã giới thiệu một phương pháp sử dụng

mô hình BERTSUM để thực hiện việc tóm tắt trừu tượng Các phương pháp

dựa trên quy tắc được ưu tiên khi các tài liệu đầu vào cần được phân loại

thành từng nhóm và liệt kê theo các đặc điểm Tuy nhiên, phương pháp này

Trang 32

đòi hỏi phải thiết lập các quy tắc trước, một quá trình thường tốn khá nhiềuthời gian Việc viết quy tắc bằng tay làm giảm hiệu quả của phương phápnày so với các phương pháp khác được nhắc đến trước đó trong phần này

Các phương pháp dựa vào ngữ nghĩa sẽ biểu diễn ngữ nghĩa của văn bản

thành dang một hệ thống tạo sinh ngôn ngữ, thứ sẽ chú trọng đặc biệt vào việc

xác định cụm danh từ và động từ [29] Chung rat hiéu qua trong viéc tao ra

những câu van it lặp lại và chính xác ngữ pháp Tuy nhiên, mot han chế củanhững phương pháp này là chúng có thể không chú ý đến những thông tin hoặc

dữ liệu quan trọng, dù câu văn được xây dựng đã đúng ngữ pháp.

e Dựa trên ngữ nghĩa đa phương tiện (Multimodal Semantic method): Phương

pháp dựa vào đa phương tiện được áp dụng để hiểu và xử lý cả hình ảnh

lẫn văn bản trong một tài liệu [29] Mô hình ngữ nghĩa đa phương tiện nay

thu thập các khái niệm và xây dựng mối quan hệ giữa chúng thông qua việcbiểu đạt cả văn bản và hình ảnh trong nội dung đa phương tiện Mô hìnhngữ nghĩa này biểu diễn kiến thức qua các đối tượng Trong các đối tượngnày, các khái niệm được đại diện bởi các nút, còn các liên kết giữa chúng thểhiện mối quan hệ giữa các khái niệm Độ day đủ, sự kết nói với các yếu tốkhác và tần suất lặp lại của một biểu hiện được đánh giá qua mật độ thôngtin Kết thúc quá trình, những đối tượng được chọn lựa sẽ được chuyển thể

thành văn bản để tạo ra bản tóm tắt Nghiên cứu [8] là một ví dụ về cách áp

dụng phương pháp ngữ nghĩa đa phương tiện trong việc tóm tắt văn bản

® Semantic Graph Based method: Phương pháp sử dung đồ thị ngữ nghĩa

tóm tắt nội dung của một tài liệu bằng cách tạo ra một dé thị ngữ nghĩa

phức hợp, hay còn gọi là Rich Semantic Graph [28], sau đó làm giản lược đồ

thị này Điểm mạnh của phương pháp này là khả năng tạo ra các câu ngắngọn, rõ ràng và chính xác về mặt ngữ pháp từ những mạng lưới đã đượctỉnh giản Mô hình dựa trên đồ thị ngữ nghĩa chủ yếu trích xuất thông tinngữ nghĩa bằng cách gán trọng số cho các nút và liên kết giữa các câu Do

đó, mô hình này thường hoạt động hiệu quả nhưng cần đến một hình thức

biểu diễn ngữ nghĩa của văn bản.

Trang 33

2.1.3.3 Kết hợp tóm tắt rút trích và tóm tắt trừu tượng

Ngoài hai kiểu truyền thống, hiện nay, nhờ vào sự phát triển của các kỹ thuậttiên tiến, việc kết hợp hai kiểu tiếp cận truyền thống được chứng minh là cho kếtquả tốt hơn so với khi chỉ sử dụng riêng lẻ từng cách Việc kết hợp này có thể

được thực hiện thông qua một vài phương pháp sau:

¢ LexRank: Là hướng tiếp cận không giám sát cho bài toán tóm tat văn bản

dựa trên việc đánh giá các câu trọng tâm thông qua đồ thị các câu Ý tưởng

chính của phương pháp này là các câu sẽ gợi ý những câu tương đồng với

nó cho người đọc Do đó, néu một câu tương đồng với nhiều câu khác trongvăn bản, thì nhiều khả năng nó là một câu rất quan trọng Giá trị quan trọngcủa một câu còn thể hiện thông qua tầm quan trọng của những câu gợi ý nó

Do đó, để một câu được xếp hạng cao và có mặt trong bản tóm tắt, nó phải

tương đồng với nhiều câu trong văn bản, đồng thời những câu này cũng

tương đồng với nhiều câu khác.|36] đã đề xuất thuật toán LexRank cho bài

toán tóm tắt văn bản dựa trên đồ thị

® PageRank: Là thuật toán tính toán chất lượng của một trang thông qua số

lượng và chất lượng của các trang có liên kết đến nó 71, từ đó giúp sắp xếp

lại các kết quả tìm kiếm thông qua giá trị của chúng

¢ TextRank: La một thuật toán không giám sát cho bài toán tóm tat văn bản tự

động 2s], được sử dụng để tóm tắt văn bản hoặc xác định các từ khoá quan

trọng của văn bản Trong đó, mỗi từ trong văn bản sẽ được biểu diễn dướidang đỉnh của dé thị và được gán một trọng số ngẫu nhiên, các cạnh giữacác đỉnh được tạo ra và đánh trọng số dựa trên sự xuất hiện cùng nhau của

các từ đó trong văn bản Trong quá trình huấn luyện, trọng số của các đỉnh

sẽ liên tục được cập nhật dựa trên trọng số của các đỉnh và cạnh mà nó liên

kết Cuối cùng, những đỉnh có trọng số cao nhất sẽ được coi là từ khoá quantrọng, những câu có chứa từ khoá này sẽ được chọn để hình thành bản tóm

tất.

Ngoài những hướng tiếp cận trên, hướng tiếp cận phổ biến nhất cũng như

thành công nhất hiện nay có thể kể đến là hướng tiếp cận sử dụng mô hình học

Trang 34

sâu Cùng với sự bùng nổ của Transformerl1], hướng tiếp cận này đã đạt được

nhiều thành công lớn cùng với các kết quả khả quan ngoài mong đợi

¢ Recurrent Neural Network: Là một trong những kiến trúc mạng no-ron sâu

đầu tiên được thiết kế để xử lý dữ liệu chuỗi Kiến trúc của RNN bao gồm

một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu ra Điểm đặc biệtcủa RNN là trong lớp ẩn, đầu ra của mỗi bước thời gian không chỉ phụthuộc vào đầu vào hiện tại mà còn phụ thuộc vào trạng thái ẩn từ bước thờigian trước đó Điều này cho phép RNN lưu trữ và sử dụng thông tin từ quá

khứ để đưa ra dự đoán cho tương lai.

¢ Long Short Term Memory: LSTM là một phiên ban nâng cao của RNN, được

sinh ra nhằm giải quyết những hạn chế tồn đọng của RNN Chi tiết về kiến

trúc của mô hình sẽ được giải thích kĩ hơn ở|2.2}

* Query Based: Day là thuật toán tóm tắt văn bản dựa trên truy van Trong

đó, mỗi câu trong văn bản sẽ được tính điểm dựa trên tần suất xuất hiện của

từ hoặc cụm từ của câu đó cũng đồng thời xuất hiện ở câu truy vấn Những

câu có cụm từ truy vấn sẽ được đánh giá cao hơn những câu có từ riêng lẻ

nằm trong câu truy vân Cuối cùng, những câu có điểm số cao nhất sẽ được

chọn để hình thành bản tóm tắt

ngữ được dao tạo trước trên một lượng lớn dữ liệu văn bản như BERT [11],

GPT-2 [42] cũng được sử dụng rộng rãi trong bài toán tóm tắt văn bản.

2.1.4 Các bộ dư liệu đã có

2.14.1 Trong tiếng Anh:

¢ CNN/DailyMail: Bộ dữ liệu CNN/Daily Mail là bộ dữ liệu bao gồm

hơn 300,000 bài báo được viết bởi các nhà báo ở hai toà soạn CNN và Daily

Mail, bộ dữ liệu được chia thành 287,113 mẫu dữ liệu để huấn luyện, 13,368

để xác thực và 11,490 để kiểm tra Trung bình, có khoảng 28 câu trong mỗitài liệu trong bộ huấn luyện Bộ dữ liệu này bao gồm phiên bản ẩn danh vàphiên bản không ẩn danh Phiên bản đầu tiên là tất cả các tên thực thể của

Trang 35

dữ liệu được thay thế bằng các từ thẻ đặc biệt, trong khi phiên bản thứ hai

là dữ liệu gốc Dữ liệu CNN/Daily Mail bao gồm nhiều cặp tài liệu-tóm tat,mỗi cặp tương ứng với một vài câu được đánh dấu trong tài liệu được chú

thích thủ công.

s® The New York Times: Bộ dữ liệu The New York TimesPllà tập dữ liệu chứa

hơn 1.8 triệu bài báo được viết và xuất bản bởi The New York Times từ ngày

1 tháng 1 năm 1987 đến ngày 19 tháng 6 năm 2007 Bộ dữ liệu này bao gồm

hơn 1.8 triệu bài báo, hơn 650,000 bản tóm tắt được viết thủ công bởi các thủthư, hơn 1,500,000 bản tóm tắt được gắn thẻ thủ công bởi các thủ thư vàomột trong các mục như con người, vị trí, tổ chức, và hơn 275,000 bài viết

được gắn nhãn tự động bởi thuật toán đã được xác minh bởi nhân viên tại

New York Times.

® Extreme Summarization: Bộ dữ liệu XSum là một bộ dữ liệu dùng để

đánh giá các mô hình tóm tắt trừu tượng đơn lẻ với mục tiêu tạo ra những

bản tóm tắt ngắn gọn, một câu trả lời cho câu hỏi "Nội dung của bài báo

là gì?" Tập dữ liệu bao gồm 226,711 bài báo tin tức kèm theo một câu tóm

tắt toàn bộ nội dung của bài báo đó Các bài báo được thu thập từ các bàibáo BBC (2010 đến 2017) và bao gồm nhiều lĩnh vực khác nhau (ví dụ: Tin

tức, Chính trị, Thể thao, Thời tiết, Kinh doanh, Công nghệ, Khoa học, Y

tế, Gia đình, Giáo dục, Giải trí và Nghệ thuật) Bộ dir liệu được chia ngẫunhiên thành ba tập huấn luyện , xác thực và thực nghiệm với tỉ lệ lần lượt là

204,045 (90%), 11,332 (5%) và 11,334 (5%).

2.14.2 Trong tiếng Việt:

se VN-MDS: Bộ dữ liệu VN-MDS| đã được xây dựng và công bồ bởi tác giả

Trần Mai Vũ và đồng nghiệp tại Phòng thí nghiệm Công nghệ tri thức, Đại

học Công nghệ, ĐHQG: Hà Nội Bộ dt liệu này được thu thập từ các trang

báo tin tức trực tuyến tại Việt Nam, cụ thể là Baomoi, và bao gồm 200 cụm

văn bản được phân bổ đều trên tat cả các chủ dé trên Baomoi (khoảng 8-10

chủ dé chính: Thế giới, Xã hội, Văn hóa, Kinh tế, KH-CN, Thể thao, Giải trí,

*https: //catalog.ldc.upenn.edu/LDC2008T19

Shttps: //github.com/lupanh/VietnameseMDS

Trang 36

Pháp luật, Giáo dục, Sức khỏe, Ô tô - Xe máy, Nhà đất) Bộ dữ liệu này đượcdùng chủ yếu cho bài toán tóm tắt đa văn bản

® ViMs: Bộ dữ liệu ViMs 1], được thu thập và công bố bởi tác giả Nghiêm

Quốc Minh tại Trường Đại học Khoa học Tự Nhiên, Đại học Quốc gia Thànhphó Hồ Chí Minh Bộ dữ liệu này được thu thập thủ công từ các lĩnh vựckhác nhau từ phiên bản tiếng Việt của Google News với số lượng 300 nhóm

văn bản (mỗi nhóm văn bản sẽ có từ 5 - 10 bài) bao gồm các bài báo từ

các trang web tin tức phổ biến tại Việt Nam (ví dụ như vnexpress, dantri,

tuoitre) với 600 bản tóm tắt Tương tự như VN-MDS, bộ đữ liệu này cũngđược dùng cho bài toán tóm tắt đa văn bản

® VSoLSCSum: Bộ dữ liệu VSoLSCSum [34], đây là bộ dữ liệu về xã hội bao

gồm cả tài liệu và ý kiến phản hồi từ người dùng liên quan Bao gồm 141chủ đề với hơn 3,760 câu, 2,448 câu trích xuất tiêu chuẩn và bình luận được

xem như là bản tóm tắt và 6,926 bình luận cho 12 sự kiện Bộ dữ liệu này

được đánh nhãn thủ công bởi con người.

* Vietnews: Bộ dữ liệu Vietnews [35], là một tập dữ liệu lớn về tóm tat văn

bản tiếng Việt, bao gồm 105,418 cặp bài báo - tóm tắt trong tập huấn luyện,

22,642 cặp trong tập đánh giá và 22,644 cặp trong tập kiểm tra Tập dữ liệu

này bao gồm các bài báo được xuất bản từ năm 2016 đến 2019 trong cácdanh mục "thé giới", "tin tức”, "pháp luật" và "kinh doanh" từ ba nguồn tin

đáng chú ý là tuoitre.vn, vnexpress.net và nguoiduatin.vn.

2.1.5 Thách thức

BANG 2.1: Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tóm tất

văn bản cho tiếng Anh

Dataset Number of samples

Trang 37

BẢNG 2.2: Số lượng cặp bài báo - tóm tắt trong các bộ dữ liệu tóm

tắt văn bản cho tiếng Việt

Dataset Number of samples

Vietnews 150,597

ViMs [51| 25,100

VN-MDS* 9,802

VSoLCSum 3,760

Bảng |2.1| và |2.2|thể hiện số lượng mẫu trong các bộ di liệu cho bài toán tóm

tắt văn bản trong tiếng Anh và tiếng Việt Ta có thể thấy sự chênh lệch đáng kể

trong số lượng mẫu giữa các tập dữ liệu tiếng Anh và tiếng Việt, sự chênh lệch

này có thể ảnh hưởng đối với việc huấn luyện cũng như đánh giá trong bài toántóm tắt văn bản

e Mất cân bằng dữ liệu: Cac tập dữ liệu tiếng Anh như CNN/DailyMail

và XSum [33] có kích thước mẫu lớn hơn đáng kể so với các tập tiếng Việt

tương tự Sự mắt cân bằng này có thể ảnh hưởng đến hiệu suất của các mô

hình được đào tạo trên các tap dữ liệu này Các mô hình được đào tạo trên

các tập dữ liệu lớn hơn có thể hiểu biết rộng rãi hơn về những sắc thái ngôn

ngữ và các chủ dé đa dạng

¢ Tính tổng quát của mô hình: Các mô hình được đào tạo trên các tập dữ liệu

lớn hơn thường có khả năng tổng quát tốt hơn Chúng có thể nắm bắt được

một loạt các mẫu ngôn ngữ và thông tin chuyên ngành một cách rộng rãi

hơn Do đó, mô hình tóm tắt tiếng Anh có thể có ưu thế về mặt tổng quát so

với các mô hình tiếng Việt do kích thước lớn của tập dữ liệu

¢ Hạn chế về mặt tài nguyên: Kích thước nhỏ của các tập dữ liệu tiếng Việt

như VN-MDS và VSoLCSum [34] có thể gây ra những thách thức trong việc

đào tạo mô hình Dữ liệu hạn chế có thể dẫn đến mô hình dễ bị quá khớp,đặc biệt khi phải đối mặt với đầu vào da dang và phong phú

¢ Sự đa dang của bộ dữ liệu: Sự chênh lệch trong kích thước tập dữ liệu cũng

liên quan đến sự đa dạng về chủ đề và lĩnh vực được bao phủ Các tập dữliệu tiếng Anh, với kích thước lớn, có thể bao quát một phổ rộng các chủ

dé, trong khi các tập dữ liệu tiếng Việt nhỏ hơn có thể hạn chế về phạm vi

Trang 38

Điều này có thể ảnh hưởng đến khả năng ứng dụng của các mô hình tóm

tắt trong các lĩnh vực cụ thể, tùy thuộc vào tập dữ liệu được sử dụng để đào

tạo.

s® Thách thức trong việc thu nhập dt liệu: Sự thiếu hụt về kích thước của các

tập dir liệu tóm tắt tiếng Việt (so với tiếng Anh) có thể là dau hiệu của các

thách thức trong việc thu thập dữ liệu hoặc là nhu cầu cần thêm nỗ lực để

tổng hợp các tập dữ liệu toàn diện hơn Giải quyết những thách thức này có

thể góp phần lớn vào việc phát triển các mô hình ngôn ngữ tiếng Việt hiệu

quả và mạnh mẽ hơn.

2.2 Cơ sở lý thuyết

2.2.1 Học tang cường

Học tăng cường, hay Reinforcement Leaning [48], là một phần của học máy,

nơi mà một tác tử (agent) học cách thực hiện các hành động (action) trong một

môi trường (environment) để tối đa hóa một phần thưởng (reward) nhất định.Khác với các phương pháp học máy truyền thống, trong học tăng cường, không

có dữ liệu được gán nhãn trước Thay vào đó, tác tử học bằng cách tương tác với

môi trường của nó và nhận phản hồi theo thời gian Trong RL, khi tác tử thực hiện

một hành động, môi trường phản hồi bằng cách cung cấp cho tác tử một trạng

thái mới và một phần thưởng (hoặc phạt) Phần thưởng có thể là một số đương(nếu hành động là tốt) hoặc một số âm (nếu hành động là xấu) Mục tiêu của tác

tử là tìm ra chiến lược (một chuỗi các hành động) để tối đa hóa tổng phần thưởng

qua thời gian Tổng quát, như trong hình|2.2| trong RL có các thành phần cần chú

Trang 39

Chương 2 CÁC CÔNG TRINH LIEN QUAN VÀ CƠ SỞ LÝ THUYET 22

HÌNH 2.2: Mô tả tổng quan cách hoạt động của học tăng cường ]

* Điểm thưởng (Reward): Điểm thưởng/phạt mà tác tử nhận được khi thực

hiện 1 hành động.

e Chiến lược: Chuỗi hành động mà tác tử thực hiện để đạt được điểm thưởng

2.2.2 Actor - Critic và Thuật toán Advantage Actor Critic

Actor-Critic là một phương pháp hoc tăng cường trong đó có hai mô hình

song song: Actor và Critic Actor chịu trách nhiệm đưa ra quyết định hành động,

còn Critic đánh giá giá trị của một trạng thái và hành động.

Cơ bản, Advantage Actor Critic (A2C) hoạt động như sau:

1 Actor và Critic được khởi tạo với các tham số ngẫu nhiên

2 Actor đưa ra một hành động trong một trạng thái hiện tại.

3 Môi trường phản hồi cho hành động đó bằng cách cung cấp một điểm

thưởng và chuyển sang trạng thái mới

4 Critic tính toán giá trị của trạng thái hiện tại và hành động được thực hiện.

5 Actor cập nhật các tham số của mình để tăng giá trị của advantage

6 Lặp lại các bước 2-5 cho đến khi đạt được độ chính xác mong muốn

Trang 40

7 Advantage là một cách tính toán giá trị của một trạng thái và hành động

dựa trên điểm thưởng nhận được trong tương lai Advantage được tính

theo công thức sau:

Advantage = Reward + + x V(s”) — V(s) (2.1)

Trong đó:

¢ Reward là phần thưởng nhận được trong trang thái hiện tại

e + là hệ số chiết khấu

e V(s) là giá tri của trạng thái s.

® V(s’) là giá trị của trang thái s’.

8 Actor được cập nhật theo hướng giảm thiểu hàm mat mát sau:

J(8) = E[Q(s,a) — A(s,a) + loe(7r(s,a;6))] (2.2)

Trong đó:

® Q(s,a) là giá trị của trạng thái s và hành động a.

e A(s,a) là advantage của trạng thái s và hành động a.

® 7(s,a;0) là phân phối xác suất của các hành động có thể tại trạng thái

s được tạo ra bởi Actor.

9 Critic được cập nhật theo hướng giảm thiểu hàm mat mát sau:

J{() = E[(r + + * V(s”) — V(s)) x *2] (2.3)

Trong đó:

® zø là các tham số của Critic

erla phan thưởng nhận được trong trạng thai hiện tại

® + là hệ số chiết khấu

e V(s”) là giá trị của trạng thái s’.

Tiêu đề	Tăng cường dữ liệu bằng mô hình ngôn ngữ lớn cho bài toán tóm tắt văn bản tiếng Việt
Tác giả	Lê Nguyên Minh Huy, Luong Trieu Vy
Người hướng dẫn	TS. Mai Tien Dung
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	96
Dung lượng	50,56 MB