Chương 2: Cơ sở lý thuyết của đề tài Trình bày cơ sở lý thuyết của đề tài liên quan đến dữ liệu và các phương pháp tiếp cận cho việc giải quyết bài toán tóm tắt văn bản và phương pháp đá
Trang 1TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN
NGUYEN TRAN DUY
XÂY DUNG CONG CU TOM TAT TIN TỨC TIENG ANH DUA TREN TRANSFER LEARNING: UNG DUNG
CHO LĨNH VỰC TÀI CHÍNH
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã ngành: 8.48.01.01
TP.HO CHÍ MINH ~ NĂM 2023
Trang 2NGUYEN TRAN DUY
XAY DUNG CONG CU TOM TAT TIN TUC TIENG ANH DUA TREN TRANSFER LEARNING: UNG DUNG
CHO LĨNH VỰC TAI CHÍNH
LUẬN VĂN THẠC SĨNGÀNH KHOA HỌC MÁY TÍNH
Mã ngành: 8.48.01.01
NGƯỜI HƯỚNG DAN KHOA HỌC:
PGS TS NGUYÊN TUẦN ĐĂNG
Trang 3Trước tiên, tôi muốn gửi lời cảm ơn sâu sắc đến thầy PGS TS Nguyễn Tuấn Đăng —
người đã nhiệt tình hướng dẫn, động viên, giúp đỡ tôi thực hiện và hoàn thành luận
văn tốt nghiệp này
Tôi xin chân thành cảm ơn các thay, các cô của Trường Đại học Công nghệ Thông
tin - ĐHQG TP.HCM đã giảng dạy và cung cấp cho tôi những nền tảng kiến thức
Trang 4Tôi xin cam đoan luận văn thạc sĩ về dé tài: “Xây dung công cụ tóm tắt tin tức tiếng
Anh dựa trên Transfer Learning: ứng dụng cho lĩnh vực tài chính” là công trình
nghiên cứu cá nhân của tôi trong thời gian qua Mọi nội dung trong luận văn chưa
được công bố dưới bat kỳ hình thức nào
Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận văn
Tp Hồ Chí Minh, ngày 16 tháng 03 năm 2023
Học viên thực hiện
Nguyễn Trần Duy
Trang 5MỤC LỤC
DANH MỤC CAC KÝ HIỆU VÀ CHỮ VIET TAT
DANH MỤC CAC BANG
DANH MỤC CÁC HÌNH VE, DO THI.
MỞ ĐÀU.
CHƯƠNG 1 GIỚI THIỆU TONG QUAN VE ĐÈ TÀI.
1.1 TONG QUAN GIẢI PHAP TÓM TAT TIN TỨC
1.1.1 Vấn đề về tóm tắt tin tức
1.1.2 Một số nghiên cứu nỗi bật về tóm tắt tin tức.
1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI
1.3 PHƯƠNG PHÁP NGHIÊN CÚU
1.4 NỘI DUNG THỰC HIỆN 10
CHƯƠNG 2 CƠ SỞ LÝ THUYÉT.
2.1 PHƯƠNG PHÁP TÓM TÁT TIN TỨC
2.2 PHƯƠNG PHÁP TÓM TAT TIN TỨC DỰA TREN TRANSFER LEAR
2.3 ĐÁNH GIA HE THONG TÓM TAT TIN TỨC
CHƯƠNG 3 THUC NGHIEM VA DANH GI
3.1 XÂY DUNG DU LIEU CHO CÔNG CU TOM TAT TIN TỨC TÀI CHÍNH
3.2 MO HINH CONG CỤ TOM TAT TIN TỨC TIENG ANH TRONG LĨNH VỰC TÀI CHINH
3.3 YEU CÂU XÂY DUNG CÔ
LĨNH VỤC TÀI CHÍNH
3.5 CÀI DAT VÀ THU NGHIE!
3.5.1 Cài đặt chương trinh
CỤ TÓM TAT TIN TỨC TIENG ANH TRONG
4.3 DONG GOP TU DE TAL
4.4 HƯỚNG PHAT TRIEN DE TAI
TÀI LIEU THAM KHAO
Trang 6NLP : Natural Language Processing
CSDL : Cơ sở dữ liệu
CFO :Chief Finance Officer
UUUX_ :User Interface / User Experience
BART _ :Bidirectional Auto-Regressive Transformers
BERT _ :Bidirectional Encoder Representations from Transformers
SOTA :State-Of-The-Art
GELU :Gaussian Error Linear Unit
ReLU :Rectified Linear Unit
GPU :Graphics Processing Unit
ROUGE :Recall-Oriented Understudy for Gisting Evaluation
TL :Transfer Learning
Trang 7Số hiệu bảng Tén bảng TrangBảng 2.1 Thông số của các mô hình Bart khác nhau 14Bảng 3.1 Chỉ tiết số lượng tin tức thu thập được 31Bảng 3.5.2.a Kết quả đánh giá mô hình lần I 47Bảng 3.5.2.b Kết quả đánh giá mô hình lần 2 47Bang 3.5.2.c Kết quả đánh giá mô hình lần 3 48Bảng 3.5.2.d Kết quả đánh giá mô hình lần 4 48
Trang 8Số hiệu Tên hình vẽ Trang
Hình 1.1.1.a Các loại phương pháp tóm tắt văn bản 2Hình I.1.2.a Phân bố các phương pháp tóm tắt văn bản 4Hình 1.1.2.b _ Thành phan tổng quát của BART 6Hình 2.1.a Kiến trúc tổng quát tóm tắt trừu tượng dựa trên deep 12
learning Hình 2.1.b Mô hình trực quan của mô hình BART, BERT và GPT 13
Hình 2.l.c Các phép biến đổi khi huấn luyện mô hình BART 14
Hình 2.2.a Tông quan phương pháp Transfer Learning 16
Hình 2.2b Sơ đồ so sánh hiệu suất mô hình trước và sau khi áp dụng 18
TL Hình 2.2.c Quy trình thực hiện phương pháp transfer learning 19
Hình 2.3 Các phương pháp đánh giá mô hình tóm tắt 23
Hình 3.1.a Mô hình tông quát xây dựng dữ liệu 29
Hình 3.1.b Chỉ tiết quy trình tổng quát xây dựng dữ liệu 30Hình 3.1.c Cấu trúc dữ liệu thu thập được 31Hình 3.1.d Biến đổi dữ liệu cho mô hình huấn luyện 32Hình 3.2.a Mô hình tổng quát kiến trúc hệ thông 32Hình 3.2.b Sơ đồ kiến trúc hệ thống tóm tắt tin tức tiếng Anh trong 33
lĩnh vực Tài chính
Hình 3.2.d Cài đặt thư viện trên môi trường 34
Trang 9Khởi tạo mô hình cơ sở
Tinh chỉnh huấn luyện mô hìnhĐánh giá mô hình bằng độ đo ROUGEImport config xây dựng công cụ tóm tắt tin tứcXây dựng hàm tạo sinh xây dựng công cụ tóm tắt tin tứcXây dựng công cụ tóm tắt tin tức với mô hình Bart
Colab kết nói với Google DriveCài đặt va import môi trường huấn luyện mô hình
Cài đặt và import môi trường xây dựng ứng dụng
Khởi chạy ứng dụng với Anaconda
Giao diện ứng dụng người dùng
Tương quan độ đo Precision
Tương quan độ đo Recall
Tương quan độ đo F - score
38
41 41 42
43
44 45 45
Trang 10thông tin Chính sự phát triên nhanh chóng của các ứng dụng Công nghệ thông tin và
“Truyền thông kéo theo lượng lớn thông tin mỗi ngày một lớn Con người ngày càngbận rộn hơn nhưng luôn mong muốn nắm bắt thông tin thật đầy đủ và hiệu quả trong
hầu hết các lĩnh Vực của cuộc sống một cách nhanh nhất Đặc biệt trong lĩnh vực tài
chính, các thông tin trên bài báo tài chính có xu hướng tương đối dài, nhưng nội dung
lại vô cùng quan trọng so với các lĩnh vực khác vì trực tiếp ảnh hưởng đến quyết định
đầu tư hoặc làm cơ sở tham chiếu cho các quyết định tài chính khác của các nhà đầu
tư và độc giả, điều này dẫn đến việc nhà đầu tư, độc giả phải dành nhiều thời gian déđọc hết tổng thé bài báo dé nắm nội dung quan trọng đó Tuy nhiên, hằng ngày sẽ córất nhiều tin tức như vậy dẫn đến việc đọc toàn bộ các bài báo tài chính như vậy vô
cùng tốn công sức Tóm tắt tin tức là quá trình chat lọc những thông tin quan trọng
nhất, các câu hàm chứa ý chính để tạo ra kết quả là một văn bản ngắn gọn, dé đọc, dễhiểu Hiện nay có nhiều ứng dụng tóm tắt tin tức như: https://textsummarization.net/,
https://resoomer.com/en/, https://smmry.com/, https://www.summarizebot.com/
nhưng chúng không chuyên biệt cho một lĩnh vực nào Trên thé giới đã có rất nhiều
nghiên cứu về bài toán summarization và có rất nhiều model hiệu quả được ghi nhận:facebook/bart-large-cnn (~ 1.870.000 lượt tải), google/pegasus-xsum (~144.000 lượt
tai), [18]
Với phương pháp Transfer Learning có thé tận dụng pretrained-model có chất lượng
tốt và độ chính xác cao đề giúp mô hình có điểm khởi đầu của accuracy tốt hơn (higher
start), Accuracy có tốc độ tăng nhanh hon (higher slope), đường tiệm cận của độ
chính xác tối ưu cao hơn (higher asymptote)
Đó là lý do tôi chon dé tài này dé nghiên cứu và xây dựng công cụ tóm tắt tin tứctiếng Anh dựa trên Transfer Learning: ứng dụng cho lĩnh vực tài chính Hi vọng cóthể xây dựng thành công một công cụ cho phép người dùng nhập liệu mẫu tin tức về
tài chính để có thể nhận được mẫu tóm tắt về tin tức đó thật sự ngắn gọn, súc tích, dễ
hiệu.
Trang 11- Nghiên cứu Phương pháp Tóm tắt tin tức tiếng Anh dựa trên TransferLearning: ứng dụng trong lĩnh vực Tài chính.
- Xây dựng công cụ tóm tắt tin tức tiếng Anh dựa trên Transfer Learning: ứng
dụng cho lĩnh vực tài chính.
Nội dung của luận văn được trình bày trong 4 chương, bao gồm:
Chương 1: Giới thiệu tổng quan về đề tài
Giới thiệu tổng quan về đề tài bao gồm các khảo sát, tìm hiểu một số nghiên
cứu, mô hình nồi bật, các ứng dụng đã triển khai trong việc tóm tắt văn bản Theo đó,trình bày phạm vi và mục tiêu cụ thể, phương pháp tiếp cận giải quyết vấn đề và nội
dung thực hiện của luận văn.
Chương 2: Cơ sở lý thuyết của đề tài
Trình bày cơ sở lý thuyết của đề tài liên quan đến dữ liệu và các phương pháp
tiếp cận cho việc giải quyết bài toán tóm tắt văn bản và phương pháp đánh giá hiệu
quả mô hình.
Chương 3: Thực nghiệm và đánh giá
Trình bày quá trình xây dựng dữ liệu trong phạm vi đề tài Trình bày mô hình
xây dựng công cụ tóm tắt tin tức tiếng Anh ứng dụng trong lĩnh vực Tài chính gồm:
mô hình hệ thống, các giai đoạn xử lý, cấu trúc chương trình, cài đặt chương trình vàkết quả thực nghiệm Đưa ra các nhận định, đánh giá về ứng dụng đã xây dựng
Chương 4: Kết luận và hướng phát triển
Tổng kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ra và cách giải
quyết trong luận văn Những đóng góp định hướng ứng dụng, đề xuất và hướng phát
triển cho dé tài trong tương lai
Trang 12CHUONG 1GIOI THIEU TONG QUAN VE DE TAI
Chương 1 Giới thiệu tổng quan về dé tài bao gồm các khảo sát, tìm hiểu một
số nghiên cứu, mô hình nôi bật, các ứng dụng đã triển khai trong việc tóm tắt văn bản.Theo đó, trình bày phạm vi và mục tiêu cụ thể, phương pháp tiếp cận giải quyết vấn
đề và nội dung thực hiện của luận văn
1.1 TONG QUAN GIẢI PHÁP TÓM TAT TIN TỨC
1.1.1 Vấn đề về tóm tắt tin tức
Text Summarization là phương pháp quan trọng nhằm tổng hợp nội dung của
một văn bản dài thành một văn bản nhỏ gọn nhưng vẫn bảo toàn được nội dung chính
của của văn bản gốc Giúp giảm thời gian đọc mà vẫn nắm bắt ngắn gọn tin tức tiếng
Anh trong lĩnh vực tài chính Trong luận văn này tôi đã phát triển mô hình tóm tắtvăn ban tự động (ATS - Automatic Text Summarization) bang cách ứng dụng cácphương pháp, kỹ thuật tối ưu cho mô hình tóm tắt tin tức trong miễn dữ liệu tin tứctài chính tiếng Anh và cho ra đời một ứng dụng web hữu ích trong lĩnh vực tài chính
Bài toán tóm tắt văn bản được chia thành nhiều loại Mỗi loại được sử dụng
cho các mục đích khác nhau, các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụngcác phương pháp và kỹ thuật riêng Không có một ứng dụng tóm tắt văn bản nào cóthể cài đặt và đáp ứng được hết các dang yêu cầu đó
Khi xét đầu vào của một hệ thống tóm tắt văn bản, ta có thé chia thành hai
dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt đa văn bản
(Multi-Document) Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của
văn bản đó Ngược lại, tóm tắt đa văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra
một đoạn tóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bảnđồng thời cho nhiều văn bản khác nhau Rõ ràng, tóm tắt đa văn bản thì khó hơn, vì
ngoài những công việc của tóm tắt đơn văn bản, tóm tắt đa văn bản còn phải thực
hiện các công việc như tiền xử lý trích rút, tích hợp thống nhất khuôn dạng và hiển
thị kết quả theo cách riêng Ngoài ra, tóm tắt đa văn bản còn phải đối mặt với các vấn
đề như dư thừa, trùng lặp dữ liệu giữa các văn bản nguồn, nội dung các văn bản nguồn
Trang 13phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức
Hình 1.1.1.a: Các loại phương pháp tóm tắt văn bản [15]
Khi xét đến kết quả đầu ra của một hệ thống tóm tắt văn bản, chúng ta có thể
có hai dang tóm tắt đó là tóm tắt rút trích (Extraction) và tóm lượt trừu tượng
(Abstraction).
Extraction là hướng tiếp cận chọn những đoạn chính để tạo một bản tóm tắt
Nó sẽ đánh giá phan quan trọng của các tài liệu và xếp hạng chúng dựa trên tim quan
trọng và sự tương đồng giữa các tài liệu với nhau Kỹ thuật này liên quan đến việc
lấy các cụm từ chính từ tài liệu nguồn và kết hợp chúng đề tạo thành một bản tóm tắt
Abstraction là hướng tiếp cận dựa trên sự hiéu biết ngữ nghĩa, ngay cả những
từ đó không xuất hiện trong các tài liệu nguồn Khi hướng tiếp cận Abstraction được
áp dụng đề tóm tắt văn bản trong các vấn đề học sâu, nó có thể khắc phục sự không
nhất quán về ngữ pháp của phương pháp Extraction Do đó, hướng tiếp cận
Abstraction hoạt động tốt hơn hướng tiếp cận Extraction Tuy nhiên, các thuật toántóm tắt văn bản cần thiết đề thực hiện theo hướng tiếp cận Abstraction khó phát triểnhơn và đó là lý do tại sao việc sử dụng hướng tiếp cận Extraction vẫn còn phổ biến
Về mục đích tóm tắt có ba loại cơ bản là: Tóm tắt chung (Generic) tóm tắt theo
quan điểm ban đầu của tác giả văn bản gốc, Tóm tắt hướng truy vấn (Query based)
Trang 14tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua các tham sốtruyền vào câu truy vấn, Tóm tắt trong miền dữ cụ thể (Domain Specific) ứng
dụng đã xác định miền tri thức cụ thể để có thể tóm tắt văn bản hiệu quả nhất
Bên cạnh đó, vấn dé tóm tắt tin tức còn được phân loại thêm theo nhiều khíacạnh tương ứng với sự đa dạng của nhu cầu người dùng như Tóm tắt cơ bản: tóm tắtnày dành cho người thông thường, như các ứng dụng tóm tắt thông thường, chungchung như tóm tắt trang tin, tóm tắt tiểu thuyết văn hoc Tóm tắt chuyên môn: tóm
tắt dành cho người đã có nền tảng, chuyên môn Những bản tóm tắt ra chứa đựng
những thuật ngữ, khái niệm, công việc chuyên môn Ví dụ ứng dụng hỗ trợ thông
minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị, ứng dụng tóm tắt các
bài báo về toán học Tóm tắt đơn ngôn ngữ: văn bản nguồn chỉ có một loại ngôn
ngữ, kết quả ra là văn bản ngôn ngữ đó Tóm tắt đa ngôn ngữ: mỗi văn bản nguồn chỉ
có một loại ngôn ngữ, nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ,
tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữđược chọn Tóm tắt đan xen nhiều ngôn ngữ: trong văn bản nguồn chứa hai hay nhiềungôn ngữ khác nhau, hệ thong có thé tùy vào từng đơn vị ngữ liệu mà nhận dạng vàtóm tắt cho phù hợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số
Summarization nói riêng đã góp phần hỗ trợ và phát triển nền kinh tế thông minh qua
việc nắm bắt tin tức thời sự một cách nhanh chóng và hiệu quả, 4p dụng khoa học kỹ
thuật vào đời sống, thúc đây sự phát triển khoa học - công nghệ và đổi mới sáng tao
trong quá trình day mạnh công nghiệp hóa, hiện đại hóa cho Việt Nam
Một số kết quả nghiên cứu, giải pháp hoàn chỉnh của các ông lớn công nghệ
Trang 15rãi đến ong đồng khoa học đạt được phản hồi tích cực, giúp làm nền tảng tri thức để
có thé học hỏi, áp dụng và phát triển tạo nên kết quả hiệu quả hơn trong một lĩnh vực
cụ thể - lĩnh vực tài chính
1.1.2 Một số nghiên cứu nỗi bật về tóm tắt tin tức
Theo thời gian công nghệ ngày càng phát triển, kèm theo đó một lượng lớn dữliệu văn bản và nó nhiều lên mỗi ngày theo cấp số nhân Do đó tác vụ TextSummarization trong NLP ngày càng được chú trọng và được nghiên cứu phát triểncho ra nhiều mô hình hiệu quả và tối ưu Nhiệm vụ tóm tắt chỉ tạo ra các từ và cụm
từ nắm bắt được ý chính của tài liệu nguồn là chưa đủ Bản tóm tắt yêu cầu phải chính
xác và đọc trôi chảy như một tài liệu mới [9] Từ các tài liệu báo cáo khoa học trong
mười năm trở lại đây, có sáu hướng tiếp cận hoặc kỹ thuật được sử dụng trong tóm
tit văn bản, cụ thé là fuzzy-based, machine learning, statistics, graphics, topic
modeling, and rule-based Dé thay rõ sự phân bố các phương pháp tóm tắt văn bảntrong mười năm qua, chúng ta có thé thấy rõ trong hình 1.1.2.4
Hình 1.1.2.a: Phân bố các phương pháp tóm tắt văn bản [2]
Kỹ thuật ưa chuộng nhất là machine learning với 46 nghiên cứu, đây là hướng tiếpcận hiện đại đến thời điểm này Các thuật toán của phương pháp học máy là các
chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ và cách
cải thiện hiệu suất theo thời gian Các phương pháp được sử dụng trong machine
learning để tóm tắt văn bản trong mười năm qua như artificial bee colony (ABC),semantic role labeling (SRL), Recurrent neural network (RNN), cellular learning
automata (CLA), Patsum, Abstractive Summarization of Video Sequences (ASoVS),
Trang 16MSPointer Network, Sentiment Embedding (SE), title identification (TIDA), IncreSTS,
Shark Smell Optimization (SSO), Discourse Supervised Tree-based summarization
(DST), NN, Auto Encoder (AE), KMeans, PSO, Markov, SVM, deep learning, maximal marginal relevance (MMR), Tuy nhiên, mac dù machine learning là
hướng tiếp cận được yêu thích nhưng vẫn còn những hạn chế về mặc ngữ nghĩa và
sự lặp lại các câu trong phần tóm tắt, nhờ có những hạn chế này đã tạo nên động lực
để các tổ chức, cá nhân không ngừng nghiên cứu vào cho ra đời những mô hình ngày
càng hoàn thiện hơn.
Trong bài báo khoa học, tác giả Mike Lewis và các cộng sự [11] trong team
Facebook AI đã giới thiệu về mô hình BART là một mô hình pre-training cho các tác vụ xử lý ngôn ngữ tự nhiên, bao gồm sinh văn bản, dịch máy và hiểu
ngôn ngữ tự nhiên Tác giả đã đánh giá BART trên một loạt các bộ dữ liệu và
đạt được kết quả rất tốt trong nhiều tác vụ Cụ thể, BART đạt được kết quả tốt
nhất trong bài toán tóm tắt văn bản trên các bộ dữ liệu CNN/DailyMail và
XSum Ngoài ra, BART cũng đạt kết quả tốt trong bài toán phân loại câu hỏi trên bộ dữ liệu SQUAD 1.1 va SQUAD 2.0, đạt kết quả tương đương hoặc cao hơn so với các mô hình pre-training khác BART cũng đạt được kết quả tốt trong các bài toán về sinh văn bản và dịch máy BART là một mô hình pre- training mạnh mẽ và đa nhiệm, có khả năng đạt được kết quả tốt trong nhiều
tác vụ xử lý ngôn ngữ tự nhiên Mô hình này có thể được sử dụng làm cơ sở
cho các ứng dụng xử lý ngôn ngữ tự nhiên, giúp cải thiện chất lượng kết quả
của các ứng dụng này BART cho thấy hiệu quả vượt trội trong cả nhiệm vụ
sinh lẫn đọc hiểu văn bản Cụ thé, BART có hiệu quả sánh ngang RoBERTa trên các bộ dữ liệu đánh giá tổng quát như GLUE và SQuAD và đạt SOTA
trong các nhiệm vụ về đối thoại trừu tượng, trả lời câu hỏi và tóm tắt.
Trang 17BERT encoder | + | 6PTDecoder | + Noise-Transformations
Hình 1.1.2.b: Thanh phan tổng quát của BART
Giống như các mô hình Transformer, BART gồm hai thành phan là
Encoder và Decoder.
Encoder được lấy từ BERT, nó có thể mã hóa xâu đầu vào theo cả hai
chiều và lấy được nhiều thông tin ngữ cảnh hơn Một số lượng ngẫu nhiên các
token được che bằng mặt nạ và mô hình phải tự khôi phục chúng.
Decoder từ GPT được sử dụng dé tái tạo lại đầu vào bị nhiễu Mặc dù vậy, các từ chỉ có thể sinh từ bên trái, mô hình không thể học được tương tác hai chiều Hàm kích hoạt GeLU được sử dụng thay thế cho ReLU Kiến trúc cơ bản của BART sử dụng 6 tầng encoder và decoder trong khi kiến trúc mở rộng
từ bị thiếu thông tin, từ đó cải thiện khả năng dự đoán của mô hình
trên dữ liệu mới.
- Xóa token (Token Deletion): tạo ra dữ liệu huấn luyện mới từ dữ liệu gốc bằng cách xóa một số token trong câu Việc này giúp mô hình
Trang 18học được khả năng xử lý các từ bị thiếu thông tin, từ đó cải thiện khả
năng dự đoán của mô hình trên dữ liệu mới.
- Điển văn bản (Text Infilling): Một vài đoạn văn bản ngẫu nhiên được thay thé bằng [MASK] Đặc biệt, đoạn văn bản có thể là rỗng.
- Tráo câu ngẫu nhiên (Sentence Permutation): Văn bản được chiathành các câu và được tráo ngẫu nhiên Nhưng vẫn giữ nguyên nộidung và ý nghĩa của câu góc
- Xoay văn ban (Document Rotation): thực hiện bằng cách xoay các từ,
câu, đoạn văn bản hoặc toàn bộ tài liệu theo một góc xoay ngẫu nhiên
Giúp cải thiện khả năng mô hình học máy trong việc xử lý các tài liệu
có tính động cao và giảm thiểu hiện tượng quá khớp trong mô hình.
Có thể nói BART là một bước tiến mới trong NLP với khả năng đọc hiểu
và sinh văn bản BART có thẻ được finetune và áp dụng cho nhiều bài toán
khác nhau Mô hình Facebook BART Large CNN (facebook/bart-large-cnn)
trên hugging face (huggingface.co) đang được sử dụng rất nhiều cho việc
pre-trained và fine-tuned cho tác vụ text summarization.
Công trình tiếp theo của tác giả Ekaterina Zolotareva và các cộng sự [7] đềcập đến việc sử dụng phương pháp Transfer Learning cho bài toán tóm tắt văn bảntheo dạng trừu tượng Trong bài báo này, bài toán tóm tắt được triển khai theo hướng
tiếp cận Sequence-to-sequence RNN và phương pháp Transfer Learning với mô hình
Unified Textto-Text Transformer đã đạt được kết quả cải thiện đáng kể cho tóm tắt
văn bản trừu tượng.
Mô hình TextTo-Text Transfer Transformer (T5) [5] được pre-trained trên Colossal
Clean Crawled Corpus (C4) đạt được SOTA và đủ linh hoạt để có thể finetune chonhiều lĩnh vực Transfer learning là một kỹ thuật rat hay trong lĩnh vực học sâu, nhờ
đó chúng ta có thé giải quyết một nhiệm vụ mới với kiến thức thu được từ một nhiệm
vụ cũ để giải quyết việc thiếu dữ liệu được gắn nhãn và là phương pháp giúp nhanhchóng phát triển lĩnh vực đang nghiên cứu như là tác vụ tóm tắt văn bản
Về mặt ứng dụng, ngoài những nghiên cứu khoa học trên, một số framework,
Trang 19NewsPlease, rouge-score, transformers, Các công trình nghiên cứu đã trình bày là
nguồn cảm hứng và tham khảo khoa học đề luận văn có thể thiết kế mô hình xử lý
giải quyết bài toán, mục tiêu mong muốn và ứng dụng trong thực tiễn
1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI
Ứng dụng được triển khai trên nền tang web, đáp ứng nhu cầu tóm tắt tin tức
tiếng Anh trong lĩnh vực tài chính của người dùng, đặc biệt là các chuyên gia tài chính.Phạm vi đề tài:
- Tóm tắt trong miền dữ liệu cụ thể (Domain Specific): tin tức tài chính
- Phạm vi đầu vào đơn văn bản (Single Document)
- Tóm tắt đơn ngôn ngữ: tin tức Tiếng Anh
- Bộ dé liệu huấn luyện và kiểm thử thuộc miền dữ liệu tin tức Tài chính
tiếng Anh
Luận văn tập trung nghiên cứu và áp dụng phương pháp Transfer Learning để tậndụng tri thức của các mô hình tóm tắt tin tức hiệu quả nhất hiện nay, áp dụng chúngtrên miền dữ liệu tài chính được thu thập và cập nhật trên các trang web tin tức tàichính nổi tiếng và uy tín hiện nay như: The Motley Fool (https://www.fool.com/),Investing.com ( https://www.investing.com/), SeekingAlpha
( https://seekingalpha.com/), MarketWatch ( https://www.marketwatch.com/),
Do đó dé tài không tập trung hỗ tro cho các nhu cầu ngoài miền dữ liệu đã được xácđịnh Bộ dữ liệu huấn luyện và kiểm thử trong luận văn là bộ dit tin tức tài chính đượcthu thập và xử lý Phạm vi kết quả sẽ là đoạn tin tức tài chính đã được tóm tắt ngắnngon, dễ hiểu và được đánh giá bằng số đo ROUGE [4]
'Việc nghiên cứu và xây dựng công cụ tóm tắt tin tức tiếng Anh trong lĩnh vực
tài chính được xác định với các mục tiêu sau:
- Ứng dụng mô hình học sâu và kế thừa các công nghệ tiên tiến để xây dựng
ứng dụng với mô hình cải tiến và hiệu quả hơn để cho ra kết quả tóm tắt dễđọc và dễ hiểu hơn
- Xây dựng mô hoàn chỉnh, có thé hoạt động và xử lý nhanh chóng với tập dữliệu đã chuẩn bị và dữ liệu phát sinh trong quá trình bảo vệ luận văn
Trang 20- Xây dựng hoàn thiện công cụ tóm tắt tin tức đáp ứng tốt với nhu cầu tóm tintin tức tiếng Anh trong lĩnh vực Tài chính của người dùng, có giao điện và các
chức năng thân thiện với mọi người.
1.3 PHƯƠNG PHÁP NGHIÊN CỨU
Xuất phát từ nhu cầu thực tiễn về việc cần nắm bắt nhanh chóng và hiệu quảcác tin tức tài chính thế giới hiện nay, sau khi tìm hiểu và nghiên cứu các phương.pháp và kỹ thuật tân tiến hiện có của những ông lớn về công nghệ như Facebook,Google, Trên cơ sở đó tìm ra cách vận dụng, áp dụng và kế thừa các tri thức và ýtưởng đề xây dựng được mô hình hiệu quả, phù hợp và đáp ứng với mục tiêu mà đềtài luận văn đã đặt ra Thông qua đó, đóng góp được phương pháp, hướng tiếp cận,cách thức giải quyết vấn đề theo hướng mới về mặt xử lý và kỹ thuật Hướng tiếp cận
và một số phương pháp, kỹ thuật tiêu biểu được áp dụng, triển khai liên quan đến đềtài như:
- Phương pháp Deep Learning [1] gần đây đã cho thay những kết qua day hứahẹn cho việc tóm tắt văn bản Đặc biệt là mô hình Transformers BART [11]được giới thiệu bởi Facebook AI, một mô hình pretrained mới kết hợp ưu điểm
của Google's BERT và OpenAI's GPT Sức mạnh của BERT nằm ở việc năm
bắt ngữ cảnh hai chiều, trong khi đó GPT có khả năng tự hồi quy Với sự rađời của BART, các nhiệm vụ sinh và đọc hiéu văn bản có thể được thực hiện
với cùng một mô hình.
- Phương pháp Transfer Learning là cách tiếp cận nồi bật va phd biến nhất
trong Deep Learning Chúng ta sẽ áp dụng tri thức đã được hoc từ một
pre-trained model sang bài toán hiện tại với điều kiện hai bài toán phải có liênquan tới nhau Việc sử dung pretrained model là một bước tiến lớn để nhữngngười đi sau tiếp bước những thành quả của những người đi trước, tận dụngnhững pretrained model sẵn có dé tạo ra những model mới phục vụ cho cácmục tiêu cụ thể hơn, mang tính ứng dụng thực tiễn hơn
- Kỹ thuật crawler data: sử dụng thư viện news-please để thu thập tin tức, trích
xuất thông tin từ các trang web
- Kỹ thuật thao tác với CSDL: CSDL ứng dụng và CSDL vector, file
Trang 21- Kỹ thuật xây dựng phần mềm: Xây dựng ứng dụng thử nghiệm bằng
framework Flask, PyTorch,
1.4 NOI DUNG THUC HIEN
Để đạt được mục tiêu mà đề tài đã đề ra, cần thực hiện:
- Tìm hiểu các cơ sở khoa học và những công trình nôi bật có liên quan đến nhiệm
vụ tóm tắt tin tức
- Khảo sát, nghiên cứu, phân tích và thực nghiệm các mô hình, phương pháp, kỹ thuật
liên quan đến tác vụ tóm tắt tin tức
- Tìm kiếm, tổng hợp và xây dựng bộ dữ liệu về tin tức tiếng Anh trong lĩnh vực Tàichính Sử dụng các công nghệ hỗ trợ rút trích thu thập tin tức trên các trang web tàichính nồi tiếng và uy tín trên thế giới Sau đó tiến này chọn lọc và tiền xử lý dữ liệu
đã thu thập được tạo thành file dữ liệu có cấu trúc phù hợp với mô hình huấn luyện
- Thử nghiệm mô hình với tập dữ liệu đã thu thập, sử dụng các phương pháp tiếp cậnphù hợp và hiệu quả dé cải thiện mô hình có chất lượng tốt, tăng độ chính xác của kếtquả tóm tắt
- Xây dựng mô hình hoạt động cho công cụ tóm tắt tin tức, sử dụng các framework
hỗ trợ việc xây dựng ứng dụng trên nền tảng web
- Đánh giá phương pháp đã thực hiện trên bộ dữ liệu đã xây dựng, phân tích những
điểm mạnh và hạn chế của phương pháp Sử dụng kết quả dé đánh giá mô hình ứngdụng đã xây dựng Trình bày các kết quả đạt được và phương hướng phát triển tiếp
theo.
Trang 22CHƯƠNG 2
CƠ SỞ LÝ THUYETChương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến dữ liệu và cácphương pháp tiếp cận cho việc giải quyết bài toán tóm tắt văn bản và phương pháp
đánh giá hiệu quả mô hình.
2.1 PHƯƠNG PHÁP TÓM TẮT TIN TỨC
Tom tắt văn bản là bai toán tạo ra một văn bản tóm tắt ngắn gọn, chính xác vàtrôi chảy từ một văn bản dài hơn Phương pháp tóm tắt tin tức được chưa thành hai
loại chính: Extractive and Abstractive.
Extractive Text Summarization là phương pháp truyền thống được phát triểnđầu tiên Mục tiêu chính là xác định các câu quan trọng của văn bản và thêm chúng.vào phần tóm tắt Chắc chắn rằng bản tóm tắt thu được chứa các câu chính xác từ văn
bản gốc
Abstractive Text Summarization là một phương pháp tiên tiến hơn và có nhiềucải tiến thường xuyên được công bố gần Cách tiếp cận là xác định các phần quantrọng, giải thích bối cảnh và tái tạo theo một cách mới, giống như cách của con người.Điều này đảm bảo rằng thông tin cốt lõi được chuyên tải thông qua bản tóm tắt được
ngắn nhất có thể Các câu tóm tắt được tạo ra không chỉ được trích xuất từ văn bản
gốc giúp cho bản tóm tắt mạch lạc và trôi chảy hơn Đây là cách tiếp cận khó hơn,nhưng cũng là cách tiếp cận tối ưu hơn
Phương án deep learning hiện tại vẫn đang được đào sâu phát triển và có nhữngkết quả tiên tiến cho việc tóm tắt tin tức Cụ thể việc áp dụng phương pháp deeplearning bằng cách xem bài toán tóm tắt tin tức như một bài toán sequence-to-
sequence [6].
“Abstractive text summarization is the task of generating a headline or a short
summary consisting of a few sentences that captures the salient ideas of an article or
a passage [ ] This task can also be naturally cast as mapping an input sequence of
words in a source document to a target sequence of words called summary” [13].
Phuong an deep learning cho tom tắt tin tức tự động có thể được coi là mộtphương pháp trừu tượng hóa và đây là phương pháp tóm tắt tin tức được lựa chọn là
Trang 23Multiple document | | Single document
Abstractive Summarizer
Neural network
Summary
generation
Hình 2.1.a: Kiến trúc tổng quát tóm tắt trừu tượng dựa trên deep learning [10]
Mô hình kiến trúc chung của tóm tắt trừu tượng dựa trên deep learning chủ
yếu gồm ba bước chính: tiền xử lý, hiểu ngữ nghĩa và tạo tóm tắt Trong bước tiền xử
lý, một số công nghệ ngôn ngữ chủ yếu được sử dụng đề cấu trúc văn bản đầu vào,chẳng hạn như phân đoạn câu, mã hóa từ và loại bỏ từ dừng, Trong bước hiểu ngữnghĩa, một mạng lưới thần kinh được xây dựng đề nhận biết và thể hiện ngữ nghĩasâu sắc của văn bản đầu vào Bước này xảy ra trong không gian vectơ và cuối cùng
tạo ra một vectơ hợp nhất cho bước tiếp theo Trong bước tạo tóm tắt, trình tạo thực
hiện các điều chỉnh phù hợp với vectơ tổng hợp được cung cấp ở bước trước, sau đóánh xạ biểu diễn không gian vectơ tới từ vựng dé tạo các từ tóm tắt
Đề tài được thực hiện theo hướng tiếp cận abstractive summarization dé cóthé tạo ra được các câu mới có thể thể hiện tốt nhất cho toàn bộ văn bản điều này tốt
hơn phương pháp extractive summarization trong đó các câu chỉ được chon từ văn
bản gốc dé tóm tắt Thư viện transformers trên Huggingface là một mô hình SOTA
cho các tác vụ như text summarization, text classification, text generation, and
Trang 24question answering Một tinh năng tuyệt vời khác với transformers là nó cung cấpcác trọng số cho các mô hình PreTrained có thé dé dàng khởi tạo thông qua phương.
thức from_pretraining().
Trong đó nồi bật nhất là mô hình pre-trained Facebook BART Large CNN
(facebook/bart-large-cnn) được team Facebook AI thực hiện fine tuned đặc biệt cho
tác vụ tóm tắt tin tức Facebook BART Large CNN là mô hình BART pre-trained trên
CNN Daily Mail [17].
BART được xây dung từ bộ mã hóa hai chiều như trong BERT và bộ giải mã
ngôn ngữ tiếng Anh và fine-tuned trên tập dữ li
tự hồi quy như GPT Trong đó, BERT thực hiện Masked Language Modelling với sự
trợ giúp của bidirectional transformer và dự đoán các giá trị còn thiếu Mặt khác, GPT
sử dụng bộ giải mã tự hồi quy, để dự đoán mã thông báo tiếp theo trong một câu
Autoregessive Decoder
|
‘oart iain
Bidirectional Encoder Autoregessive Decoder
Số lượng thông số của mô hình BART có gần 140 triệu thông số BERT cókhoảng 110M tham số trong khi GPT có 117M Dưới đây chúng ta có thể xem chỉtiết hơn về số lượng tham số trong các mô hình BART khác nhau trong bảng
Trang 25Bảng 2.1: Thông số của các mô hình Bart khác nhau
Model Description # parambart.base Mô hình Bart với 6 lớp encoder và decoder 140Mbart.large Mô hình Bart với 12 lớp encoder va decoder 400Mbart.large.mnli bart.large fine-tuned trên data mnli 400Mbart.large.cnn bart.large fine-tuned trén data cnn 400M
bart.large.xsum bart.large fine-tuned trên data xsum 400M
BART Pre-training có 5 cách huấn luyện với dữ liệu bị nhiễu Token Maskingtạo sự ngẫu nghiên, số lượng nhỏ các điểm được an đi Token Deletion gây ra một số
token trong tài liệu bị xóa mất Text Infilling nhiều token được thay thé bằng một
token an Sentence Permutation các câu được xác định thông qua ‘.’ sau đó được hoán
vị khi huấn luyện Document Rotation một token được chọn ngẫu nhiên và trình tựđược xoay vòng tới khi token được chọn đứng đầu
[ A_C._E | [ DE.ABC C.DE.AB
Token Masking Sentence Permutation Document Rotation
A.C.E = = A_.D_E.
Token Deletion Text Infilling
Hình 2.1.c: Các phép biến đổi khi huấn luyện mô hình BART
Những chiến lược này giúp làm tăng thêm tập dữ liệu và làm cho mô hìnhBART hiểu rõ hơn về ngôn ngữ tự nhiên
Các bước dé fine-tune model BART cho downstream task tóm tắt tin tức:
- Chuan bị dữ liệu: Đầu tiên, ta cần chuẩn bị dữ liệu cho tác vụ downstream
Dữ liệu này có thể được thu thập bằng cách lấy từ các nguồn khác nhau
Trang 26hoặc tạo ra từ các bộ dữ liệu mở trên mạng Dam bảo dữ liệu đã được chuẩn
bị đầy đủ và chính xác dé đảm bảo cho mô hình được huấn luyện tốt
- Tai pre-trained model BART: BART được huấn luyện trên các tác vụ nhưSummarization, Translation Tùy thuộc vào task đang làm, hãy tải pre-
trained model phù hợp đề tiếp tục fine-tuning Tôi đã sử dụng pre-trainedfacebook/bart-large-cnn dé làm về tác vụ tóm tat tin tức
- _ Tiến hành fine-tuning: Tiến hành huấn luyện mô hình BART trên dữ liệu
cho tác vụ downstream Thông thường, ta sẽ tiến hành nhiều lần để tìm ra
tham số phù hợp nhất cho mô hình
- Đánh giá và kiểm tra mô hình: Sau khi hoàn thành việc fine-tuning, ta sẽ
đánh giá và kiểm tra mô hình để đảm bảo rằng nó hoạt động tốt trên dữ liệu
mới Bạn có thể sử dụng tập đữ liệu kiểm tra đề đánh giá kết quả của mô
hình và sửa chữa các lỗi nếu có
- Sử dụng mô hình: Cuối cùng, sau khi đã hoàn thành fine-tuning và kiểmtra mô hình, có thể sử dụng mô hình đã được huấn luyện để thực hiện tác
vụ downstream trên dữ liệu mới.
Phương án để fine-tune model BART cho các tác vụ downstream phụ thuộc
vào mục đích cụ thé của tác vụ đó Tuy nhiên, có một số phương pháp chung dé
fine-tune mô hình BART cho các tác vu downstream, cụ thê là tác vụ tóm tắt tin tức:
-_ Điều chỉnh learning rate: Learning rate là một tham số quan trọng trongquá trình fine-tuning Nếu learning rate quá cao, mô hình sẽ bị overfitting
và nếu learning rate quá thấp thì mô hình sẽ hội tụ chậm Do đó, điều chỉnhlearning rate là cần thiết để đạt được kết quả tốt nhất
- Thay đổi architecture: Một số tác vụ downstream có thé yêu cầu kiến trúckhác nhau so với kiến trúc mặc định của mô hình BART Trong trường hợp
này, ta có thể sử dụng kiến trúc khác hoặc thay đổi các layer dé tăng hiệu
suất cho tác vụ downstream
- Tỉnh chỉnh hyperparameters: Mô hình BART có nhiều hyperparameters cóthể tùy chỉnh để cải thiện hiệu suất cho tác vụ downstream, bao gồm số
lượng epoch, batch size, độ dài của các sequence, v.v.
Trang 27-_ Thêm các lớp dense layer: Đôi khi ta cần thêm các lớp dense layer đề tăng
khả năng mô hình trong việc phân loại hoặc dự đoán các tác vụ downstream.
Các lớp này có thể được thêm vào cuối của mô hình để biến đồi đầu ra của
Trong bai toán tóm tắt tin tức, hiện nay có rất nhiều pre-trained model SOTA
đã được công bó Dé thu thập một lượng lớn dữ liệu khi giải quyết một nhiệm vụ mới
có thể là một thách thức lớn Nhưng để dùng một lượng dữ liệu hạn chế để có đượcmột mô hình có độ chính xác thỏa đáng cũng là việc không dễ đàng, nếu không muốnnói là bất khả thi Với sự phát triển không ngừng của khoa học kỹ thuật, có một
phương pháp giải quyết được vấn đề này là phương pháp Transfer Learning, có thể
Transfer Learned
Source data Target data
Hình 2.2.a: Tổng quan phương pháp Transfer Learning [16]
Trang 28Transfer Learning là một phương pháp trong học sâu cho phép chúng ta sử
dụng các mô hình được huấn luyện sẵn trên dữ liệu lớn và áp dụng chúng để giải
quyết các bài toán khác có liên quan đến các bài toán ban đầu mà mô hình đã được
huấn luyện trên Với Transfer Learning, chúng ta có thé sử dụng một mô hình đã đượchuấn luyện sẵn trên dữ liệu lớn để tạo ra một mô hình mới cho một bài toán tương tựnhưng với một lượng dữ liệu huấn luyện nhỏ hơn Điều này có nghĩa không cần phảihuấn luyện một mô hình hoàn toàn mới từ đầu, mà chỉ cần điều chỉnh một số phầncủa mô hình đã có sẵn và sử dụng nó cho bài toán mới
'Việc sử dung Transfer Learning có thé giúp giảm thiểu lượng dữ liệu cần thiết
dé huấn luyện một mô hình mới và giảm thiểu thời gian và chi phí cho quá trình huấn
luyện mô hình Ngoài ra, Transfer Learning cũng cho phép chúng ta tận dụng kiến
trúc và trong số của mô hình đã được huan luyện trên dữ liệu lớn, giúp tăng khả nang
tổng quát hóa và đạt được mức hiệu suất cao hơn trên các tập dữ liệu mới có kíchthước nhỏ.
Một số nghiên cứu đã chứng minh tính hiệu quả của phương pháp transferlearning trong tác vụ tóm tắt tin tức Một số nghiên cứu đã sử dụng pre-trained modelsnhư BERT và RoBERTa để fine-tune trên tập dữ liệu tóm tắt tin tức và đã đạt được
kết quả rất tốt, đánh bại nhiều mô hình truyền thống khác thông qua số liệu đánh giá
trên nhiều thử nhiệm
Transfer Learning cũng chính là cách dé các model truyền đạt cho nhau khảnăng mà mỗi model có thể làm được Một model có thể học trên source tasks nào đó
và rồi pretrained model này được sử dụng cho model khác để model mới đó học trên
target tasks nhanh hơn.
Trang 29higher slope higher asymptote
‡
with transfer
— without transfer
performance
Từ đồ thị ta có thé thấy sử dung transfer learning sẽ mang lại 3 lợi thế chính:
- Có điểm khởi đầu của accuracy tốt hơn (higher start)
- Accuracy có tốc độ tăng nhanh hon (higher slope)
- _ Đường tiệm cận của độ chính xác tối ưu cao hon (higher asymptote)
Ngoài ra phương pháp này còn hiệu quả với dữ liệu nhỏ và khó có thể tìmkiếm và mở rộng thêm thì các mô hình được huấn luyện từ chúng sẽ khó có thé dự
báo tốt Tận dụng lai tri thức từ các pre-trained [8] [14] model với cùng tác vụ phân
loại sẽ giúp các mô hình được huấn luyện dự báo tốt hơn với dữ liệu mới vì mô hìnhđược học trên cả 2 nguồn tri thức đó là dữ liệu huấn luyện và dữ liệu mà nó đã được
học trước đó.
Trang 30Hình 2.2.c: Quy trình thực hiện phương pháp transfer learning
Quy trình thực hiện của phương pháp TL có các bước cơ bản sau:
- Obtain pre-trained model: bước đầu tiên là chọn mô hình được đào tạo
trước mà chúng tôi muốn giữ làm cơ sở đào tạo của mình, tùy thuộc vàonhiệm vụ Học chuyền đổi yêu cầu mi tương quan chặt chẽ giữa kiến thứccủa mô hình nguồn được đào tạo trước và miền nhiệm vụ đích để chúng
tương thích.
- Create a base model: là một trong những kiến trúc như ResNet hoặc
Xception mà đã chọn ở bước đầu tiên có liên quan chặt chẽ với mục đíchcủa nhiệm vụ Chúng ta có thể tải xuống các trọng số mạng để tiết kiệmthời gian đào tạo bé sung cho mô hình Nếu không, chúng ta sẽ phải sửdụng kiến trúc mạng để đào tạo mô hình của mình từ đầu
~_ Freeze layers: đóng băng các lớp bắt đầu từ pre-trained model là điều cần
Trang 31năng cơ bản Nếu chúng ta không đóng băng các lớp ban đầu, chúng ta sẽmắt tat cả quá trình học đã diễn ra Điều này sẽ không khác gi đào tạo mô
hình từ đầu và sẽ mắt thời gian, tài nguyên,
- Add new trainable layers: kiến thức duy nhất chúng tôi đang sử dụng lại từ
mô hình cơ sở là các lớp trích xuất tính năng Chúng ta cần thêm các lớp
bd sung lên trên chúng để dự đoán các nhiệm vụ chuyên biệt của mô hình.Đây thường là các lớp đầu ra cuối cùng
- Train the new layers: đầu ra cuối cùng của pre-trained model rất có thể sẽ
khác với đầu ra mà chúng ta muốn cho mô hình của mình Ví dụ các
pre-trained model được đảo tạo trên bộ dữ liệu News sẽ xuất ra 1000 lớp Tuynhiên, chúng tôi cần mô hình của mình đề hoạt động cho hai lớp Trong
trường hợp này, chúng ta phải đào tạo mô hình với một lớp đầu ra mới
- Fine-tune model: là một phương pháp cải thiện hiệu suất Việc tỉnh chỉnh
bao gồm giải phóng một số phần của mô hình cơ sở và đào tạo lại toàn bộ
mô hình trên toàn bộ tập dữ liệu với tốc độ học rat thấp Tỷ lệ học tập thấp
sẽ tăng hiệu suất của mô hình trên tập dữ liệu mới đồng thời ngăn chặn
việc overfitting mức.
Luận văn tập trung vào việc tinh chỉnh fine tune model Fine-tune không phải
chỉ giúp điều chỉnh weights của transfered model cho phù hợp với target tasks Nó
không phải chỉ là tỉnh chỉnh như dịch nghĩa của fine-tuning mà xa hơn đó, nó đưa ra
cách tối ưu để train cả phần pretrained model và phần mới trong transfered modelnhằm đạt được accuracy cao trên target tasks, khiến cho 2 phan fit với nhau hoàn
chỉnh thành một model mới.
Các chiến lược fine-tune thường dùng:
- Khi dataset cho target tasks lớn và tương tự với dataset cho source tasks:
đây là trường hợp lý tưởng, có thé dùng weights của pretrained model dékhởi tạo cho phần pre-trained, sau đó train cả transfered model hay chỉ vớiphần được thêm vào
~ Khi dataset cho target tasks nhỏ và tương tự với dataset cho source tasks:
vi dataset là nhỏ, nếu train lại phan pre-trained sẽ dẫn đến overfitting, do
Trang 32đó chúng ta chỉ train những layer được thêm vào với weights khởi tạo cho.
pretrained như trên.
~ Khi dataset cho target tasks lớn và khác biệt với dataset cho source tasks: bởi vì dataset của chúng ta có sự khác biệt nên khi dùng weights từ
pretrained model sẽ làm giảm accuracy vì sự khác biệt trong tasks và
dataset, nhưng cũng chính vì dataset lớn nên việc train toàn bộ transfered
model từ đầu là hiệu quả nhất, giúp cho model thích nghỉ tốt hơn với dataset
này.
- Khi dataset cho target tasks nhỏ và khác biệt với dataset cho source tasks:
đây là trường hợp khó khăn nhất, có 2 cách tiếp cận:
© Can thiệp vào pre-trained model, thay thế những pre-trained layer xa
input dé thích nghỉ với dataset mới (những high-level features sẽ thayđổi vào các low-level features đã được lấy từ các layer trước đó) nhưng
không được train các layer gần input của pretrained vì dataset nhỏ sẽ
không thể train được các layer này hiệu quả và các layer này chỉ tríchxuất các features tông quát từ dataset, sẽ không ảnh hưởng đến target
task.
© Tham khảo ý kiến chuyên gia dé tìm kiếm phương pháp khác
2.3 DANH GIÁ HE THONG TOM TAT TIN TỨC
Các phương pháp đánh giá một ứng dụng tóm tat được chia thành hai loại là đánh giá bên trong (intrinsic) và đánh giá bên ngoài (extrinsic) Đánh giá bên trong
thâm định hệ thống tóm tắt ngay bên trong hệ thống Còn đánh giá bên ngoài thì quan
tâm đến các yếu tố khác không thuộc hệ thống Nói cách khác, các phương pháp đánhgiá bên trong đánh giá các thông số nội tại như độ chặt chẽ mạch lạc (coherence),
thông qua đó sẽ nói lên được chất lượng của hệ thống Các phương pháp đánh giá bênngoài, ngược lai, áp dụng vào hệ thống những nhiệm vụ cụ thé và thông qua các tiêuchí kết quả như độ phù hợp (relevance) hay độ dé đọc dé hiểu (reading comprehension)
dé đánh giá một hệ thống tóm tắt xem có tốt cho người dùng khi họ sử dụng hệ thống
vào những mục tiêu khác nhau hay không.
Trang 33Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là nhữngtham số mà người dùng có thể đưa vào hệ thống để phục vụ mục đích của mình,
thường gồm các giá trị như sau:
- Độ rút gọn (độ nén) là tỷ số giữa số lượng đơn vị ngữ liệu của văn bản kếtquả trên số lượng đơn vị ngữ liệu của tập văn bản vào Tỉ lệ này có thể làcâu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký tự/ký tự, thường tínhbằng % Giá trị chuẩn của độ rút gọn thường là khoảng 10% đến 30% của
văn bản gốc, nhưng hiền nhiên giá trị nó có thé là nằm từ khoảng 1% đến
99% được coi là đã tóm tắt theo định nghĩa Tóm tắt tại độ rút gọn 10%
thường được coi là tốt hơn tóm tắt tại độ rút gọn 20%
- _ Độ chính xác: thé hiện mối quan hệ giữa văn bản kết quả với tập văn bản
tóm tắt mẫu Được đánh giá dựa trên các hệ thống đánh giá tóm tắt nhưDUC, SUMMAC, ROUGE và các tập dữ liệu, kiêm thử mẫu (Corpus)
- Mức độ liên kết thé hiện sự liên kết giữa các đơn vị ngữ liệu của văn bảnkết quả với nhau Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và
cú pháp Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay
thế cho tiêu chí mức độ liên kết này
'Việc đánh giá hệ thống tóm tắt sẽ bị ảnh hưởng bởi các yếu tố:
- Tóm tắt liên quan tới việc máy tính sinh ra kết quả ở dang giao tiếp ngônngữ tự nhiên của con người Trong trường hợp kết quả là một câu trả lờicho một câu hỏi, chúng ta có thé xác định được câu trả lời đó đúng hoặcsai nhưng trong các trường hợp khác, thật khó đề trả lời cho câu hỏi “liệu
đầu ra là một kết quả đúng?” Thực tế luôn có khả năng hệ thống sinh ra
một bản tóm tắt tốt nhưng lại khác nhiều với bản tóm tắt mà con người thựchiện Điều này cũng là van đề với các bài toán khác như: dịch máy, phân
loại văn bản, tiếng noi,
- Khi các chuyên gia được yêu cầu đánh giá kết quả hệ thống, chi phí đánh
gid sẽ tăng (về thời gian, tiền bạc, công sức, ) Một phương pháp đánh
giá bang cách cho điểm tự động thay vì thực hiện bởi người sẽ được quantâm hon bởi chúng có thé lặp đi lặp lại nhiều lần bat cứ khi nào chúng tamuốn
Trang 34- Việc tóm tat còn liên quan tới việc nén kích thước văn bản (giảm số câu,rút gọn từng câu) Vì vậy, đánh giá kết quả ở các độ nén khác nhau là một
việc tối quan trọng không thể thiếu Tuy nhiên, điều này làm tăng độ phứctạp và chi phí của việc đánh giá.
Rouge 1, Rouge 2,Rouge N, Rouge L.
Hình 2.3: Các phương pháp đánh giá mô hình tóm tắt
Có nhiều phương pháp được sử dung trong đánh giá bài toán tóm tắt tin tức.Mỗi phương pháp có ưu nhược điểm riêng, tùy thuộc vào mục đích và đặc điểm củabài toán mà ta có thể chọn phương pháp phù hợp:
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [4] được đề
xuất bởi Lin năm 2004 Nó là một phương pháp đánh giá dựa trên sự đồngnhất giữa các từ hoặc câu giữa bản tóm tắt và bản gốc ROUGE tính toán
các độ đo đồng nhất (precision, recall và Fl-score) của bản tóm tắt so với
bản góc
# Ưu điểm:
" _ Đánh giá dựa trên sự đồng nhất giữa bản tóm tắt và bản gốc,cho phép đánh giá độ chính xác của bản tóm tắt dựa trên các
Trang 35Được sử dụng rộng rãi trong các cuộc thi tóm tắt tin tức vàđược chấp nhận là phương pháp đánh giá chính thức.
Có thể tính toán độ đồng nhất cho các cấu trúc khác nhau, từ
cụm từ đến câu hoặc đoạn văn
Có thể áp dụng cho cả bài toán tóm tắt trích xuất và tóm tắt
trừu tượng.
s* Nhược điểm:
Chỉ đánh giá độ đồng nhất giữa bản tóm tắt và bản gốc,không đánh giá tính chính xác và tính rõ ràng của bản tómtat
Chỉ đánh giá độ đồng nhất giữa bản tóm tắt va bản gốc,không đánh giá độ phù hợp với mục đích sử dụng của bảntóm tắt
Không đánh giá được các yếu té ngữ nghĩa và ngữ cảnh trongbản tóm tắt, như khả năng giải thích, sự liên kết giữa cácthông tin, hay độ chính xác của thông tin được tóm tắt
Không đánh giá được tính đa dạng và độ phong phú của bảntóm tắt, chỉ đánh giá độ đồng nhất giữa bản tóm tắt và bản
gốc
- BLEU (Bilingual Evaluation Understudy) được dé xuất bởi KishorePapineni và các đồng nghiệp vào năm 2002 Nó là một phương pháp đánhgiá chất lượng dịch thuật dựa trên sự chính xác của các từ hoặc cụm từ
trong tóm tắt so với văn bản nguồn và BLEU cũng được sử dụng đánh giá
tóm tắt văn bản bằng cách so sánh các cụm từ trong tóm tắt với các cụm từtrong văn bản nguồn và tính toán độ chính xác
® Ưu điểm:
Một độ đo đơn giản, dé sử dung và hiểu
Kết quả nhanh và dễ tính toán
Một trong những độ đo phố biến nhất trong tóm tắt tin tức.Nhược điểm:
Trang 36= C6 thé không phản ánh chính xác chất lượng của tóm tắt, đặcbiệt là khi tóm tắt có độ dài khác nhau hoặc không chính xác.
= Không đánh giá được sự da dang của các tóm tắt, vì nó chỉtính toán độ chính xác của các từ và cụm từ.
= Không đánh giá được tính đúng đắn về ngữ pháp, cấu trúccâu và logic của tóm tắt
- METEOR (Metric for Evaluation of Textual Entailment and Paraphrasing)
là một độ do định lượng dùng dé đánh giá chất lượng tóm tắt dựa trên độ
đo độ tương đồng giữa các cụm từ và các đơn vị ngôn ngữ khác nhau.METEOR ban đầu được phát triển dé đánh giá chất lượng của các hệ thống
dịch máy, nhưng sau đó đã được sử dụng rộng rãi cho các bài toán tóm tắt
tin tức.
Ưu điểm:
= Có khả năng đánh giá sự giống nhau về ý nghĩa giữa tóm tắt
và văn bản nguồn
= Cho phép sử dụng các ngôn ngữ khác nhau trong đánh giá,
do đó rất phù hợp cho các bài toán tóm tắt đa ngôn ngữ
= Cho phép sử dụng các nguồn tri thức bên ngoài dé cải thiện
độ chính xác của kết quả đánh giá
với các văn bản nguồn có độ dài khác nhau
- CIDEr (Consensus-Based Image Description Evaluation) là một độ đo định
lượng đánh giá chất lượng tóm tắt sử dụng các phương pháp đánh giá thông
tin, bao gồm độ tương tự, sự đa dang và sự mới mẻ của bản tóm tắt
Trang 37Cho phép đánh giá độ chính xác của các từ đơn và cụm từ
được sử dụng trong tóm tắt
Có khả năng đánh giá chất lượng của tóm tắt dựa trên nhiều
thông tin về từ vựng và cấu trúc câu, giúp đảm bảo tính toàn
diện trong đánh giá.
Cho phép sử dụng các ngôn ngữ khác nhau trong đánh giá,
do đó rất phù hợp cho các bài toán tóm tắt đa ngôn ngữ
Được sử dụng phô biến trong các cuộc thi về tóm tắt tỉn tức
và có tính khách quan cao.
“ Nhược điểm:
Có thể không đánh giá chính xác khả năng đọc hiểu và sựtóm tắt đầy đủ của nội dung
Không đánh giá được tính nhất quán và mạch lạc của tóm tắt
trong suốt nội dung tin tức
Không thé đánh giá được sự đa dạng của tóm tắt và su thé
hiện các thông tin quan trọng trong nội dung tin tức.
Có thê không phù hợp cho các bài toán tóm tắt ngắn và đơn
giản.
- Human Evaluation: Phương pháp này yêu cầu người đánh giá đọc văn bảnnguồn và tóm tắt được tạo bởi hệ thống, sau đó đánh giá và cho điểm vềtính đầy đủ, tính chính xác và tính rõ ràng của bản tóm tắt Tuy nhiên,phương pháp này tốn nhiều thời gian và tài nguyên
Dé đánh giá hệ thống tóm tắt tin tức tiếng Anh trong lĩnh vực Tài chính, đề tài
sử dụng ROUGE với các độ đo là độ tin cậy (precision), độ bao phủ (recall) và
F1-Score như là phương pháp đánh giá cho hiệu quả tóm tắt tin tức của hệ thống dựa trên
các kết quả tóm tắt tin tức trong quá trình thực nghiệm ROUGE được sử dụng rong
rãi trong các cuộc thi tóm tắt tin tức và được chấp nhận là phương pháp đánh giá
chính thức:
- Đã được sử dụng trong nhiều cuộc thi tóm tắt tin tức như DUC (Document
Understanding Conference), TAC (Text Analysis Conference) và đã trở
thành phương pháp đánh giá chính thức cho nhiều cuộc thi nay
Trang 38- Có nhiều phiên bản ROUGE với mức độ phức tạp khác nhau: ROUGE-I,ROUGE-2, ROUGE-L và ROUGE-S Các phiên bản này cung cấp mức độ
đánh giá khác nhau cho độ chính xác của tóm tắt, từ đánh giá chính xác các
từ đơn đến đánh giá chính xác cả cấu trúc câu
- Được thiết kế dé đánh giá độ đồng nhất giữa bản tóm tắt và bản gốc, là mộtyêu cầu cơ bản và quan trọng của bài toán tóm tắt
- Có khả năng đánh giá độ đồng nhất cho các cầu trúc khác nhau, từ cụm từ
đến câu hoặc đoạn văn, giúp đánh giá độ chính xác của các mô hình tóm
tắt với nhiều mức độ khác nhau
- C6 thể áp dụng cho cả bài toán tóm tắt trích xuất và tóm tắt trừu tượng, phùhợp với các mô hình tóm tắt khác nhau
- Được chấp nhận là một phương pháp đánh giá khách quan và phù hợp với
các tiêu chuân đánh giá khác trong lĩnh vực NLP, giúp đảm bảo tính công
bằng và chính xác trong việc so sánh và đánh giá các mô hình tóm tắt khác
nhau.
Độ đo ROUGE là sự tính toán số trùng lặp của các đơn vị ngữ liệu của vănbản như n-gram, thứ tự từ và các cặp từ giữa văn bản do máy tính sinh ra với văn bản
đo con người tạo ra Hai loại đánh giá ROUGE được sử dụng cho đề tài:
- ROUGE-N: Nó đo lường sự trùng lặp của n-gram giữa bản tóm tắt đượctạo tự động và bản tóm tắt tham chiếu Trong n-gam giá trị của N có thểthay đổi từ 1 đến n nhưng khi giá trị của n tăng thì chi phí tính toán cingtăng nhanh Các số liệu n-gram được sử dụng chủ yếu là uni và bi-gram
- ROUGE-L: Là tính toán dựa trên dãy con chung dài nhất (LCS) giữa các
câu trong văn bản đánh giá với văn bản mẫu (Cho hai dãy có thứ tự X và
Y, một dãy con chung lớn nhất của X và Y là một dãy con chung có độ dài
lớn nhát)
Một cách hình thức, ROUGE-N là một độ đo đối với các n-gram trong văn bản
tóm tắt ứng viên và trong tập các văn bản tóm tắt tham khảo, được tính theo côngthức ở dưới đây:
Trang 39h3 Ð)Count,„„„(gram, )
ROUGE-N = S2{ReferenceSunmaries} gram, eS
> Count (gram, )
Se{ReferenceSummartes} gram, €S
Trong công thức trên, n biểu thị cho chiều dai của n-gram, Countmach(gramn)
là số chuỗi n-gram lớn nhất xuat hiện trong văn bản tóm tắt ứng viên và tập các văn
bản tóm tắt tham khảo
Trang 40CHƯƠNG 3
THUC NGHIỆM VÀ ĐÁNH GIÁ
Chương 3 trình bày quá trình thực nghiệm các phương pháp giải quyết vấn đề
về tóm tắt tin tức với phạm vi đề tài Trình bày mô hình xây dựng công cụ tóm tắt tintức Sau đó, cài đặt thử nghiệm ứng dụng tóm tắt tin tức tiếng Anh trong lĩnh vực Tàichính Hệ sinh thái ứng dụng thử nghiệm trên nền web Tiến hành phân tích các yêu
cầu và chức năng của ứng dụng, thiết kế các thành phần xử lý tương ứng và thực
nghiệm, đánh giá kết quả từ giải pháp
3.1 XÂY DỰNG DỮ LIEU CHO CÔNG CỤ TÓM TAT TIN TỨC TÀI
CHÍNH
Đối với thống tóm tắt tin tức tiếng Anh trong lĩnh vực Tài chính Luận văn
đã xác định miền dữ liệu là các tin tức trong lĩnh vực Tài chính bằng tiếng Anh
Cˆ news crawler
(Selenium tool; File data
news-| ae ye News Finance
Hình 3.1.a: Mô hình tông quát xây dựng dữ liệu
Sau quá trình thu thập, chọn lọc và tiên xử lý đữ liệu đã tổng hợp được 4514tin tức về Tài chính