Luận văn thạc sĩ Khoa học máy tính: Xây dựng công cụ tóm tắt tin tức tiếng anh dựa trên Transfer Learning: ứng dụng cho lĩnh vực tài chính

Chương 2: Cơ sở lý thuyết của đề tài Trình bày cơ sở lý thuyết của đề tài liên quan đến dữ liệu và các phương pháp tiếp cận cho việc giải quyết bài toán tóm tắt văn bản và phương pháp đá

Trang 1

TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN

NGUYEN TRAN DUY

XÂY DUNG CONG CU TOM TAT TIN TỨC TIENG ANH DUA TREN TRANSFER LEARNING: UNG DUNG

CHO LĨNH VỰC TÀI CHÍNH

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Mã ngành: 8.48.01.01

TP.HO CHÍ MINH ~ NĂM 2023

Trang 2

NGUYEN TRAN DUY

XAY DUNG CONG CU TOM TAT TIN TUC TIENG ANH DUA TREN TRANSFER LEARNING: UNG DUNG

CHO LĨNH VỰC TAI CHÍNH

LUẬN VĂN THẠC SĨNGÀNH KHOA HỌC MÁY TÍNH

Mã ngành: 8.48.01.01

NGƯỜI HƯỚNG DAN KHOA HỌC:

PGS TS NGUYÊN TUẦN ĐĂNG

Trang 3

Trước tiên, tôi muốn gửi lời cảm ơn sâu sắc đến thầy PGS TS Nguyễn Tuấn Đăng —

người đã nhiệt tình hướng dẫn, động viên, giúp đỡ tôi thực hiện và hoàn thành luận

văn tốt nghiệp này

Tôi xin chân thành cảm ơn các thay, các cô của Trường Đại học Công nghệ Thông

tin - ĐHQG TP.HCM đã giảng dạy và cung cấp cho tôi những nền tảng kiến thức

Trang 4

Tôi xin cam đoan luận văn thạc sĩ về dé tài: “Xây dung công cụ tóm tắt tin tức tiếng

Anh dựa trên Transfer Learning: ứng dụng cho lĩnh vực tài chính” là công trình

nghiên cứu cá nhân của tôi trong thời gian qua Mọi nội dung trong luận văn chưa

được công bố dưới bat kỳ hình thức nào

Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận văn

Tp Hồ Chí Minh, ngày 16 tháng 03 năm 2023

Học viên thực hiện

Nguyễn Trần Duy

Trang 5

MỤC LỤC

DANH MỤC CAC KÝ HIỆU VÀ CHỮ VIET TAT

DANH MỤC CAC BANG

DANH MỤC CÁC HÌNH VE, DO THI.

MỞ ĐÀU.

CHƯƠNG 1 GIỚI THIỆU TONG QUAN VE ĐÈ TÀI.

1.1 TONG QUAN GIẢI PHAP TÓM TAT TIN TỨC

1.1.1 Vấn đề về tóm tắt tin tức

1.1.2 Một số nghiên cứu nỗi bật về tóm tắt tin tức.

1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI

1.3 PHƯƠNG PHÁP NGHIÊN CÚU

1.4 NỘI DUNG THỰC HIỆN 10

CHƯƠNG 2 CƠ SỞ LÝ THUYÉT.

2.1 PHƯƠNG PHÁP TÓM TÁT TIN TỨC

2.2 PHƯƠNG PHÁP TÓM TAT TIN TỨC DỰA TREN TRANSFER LEAR

2.3 ĐÁNH GIA HE THONG TÓM TAT TIN TỨC

CHƯƠNG 3 THUC NGHIEM VA DANH GI

3.1 XÂY DUNG DU LIEU CHO CÔNG CU TOM TAT TIN TỨC TÀI CHÍNH

3.2 MO HINH CONG CỤ TOM TAT TIN TỨC TIENG ANH TRONG LĨNH VỰC TÀI CHINH

3.3 YEU CÂU XÂY DUNG CÔ

LĨNH VỤC TÀI CHÍNH

3.5 CÀI DAT VÀ THU NGHIE!

3.5.1 Cài đặt chương trinh

CỤ TÓM TAT TIN TỨC TIENG ANH TRONG

4.3 DONG GOP TU DE TAL

4.4 HƯỚNG PHAT TRIEN DE TAI

TÀI LIEU THAM KHAO

Trang 6

NLP : Natural Language Processing

CSDL : Cơ sở dữ liệu

CFO :Chief Finance Officer

UUUX_ :User Interface / User Experience

BART _ :Bidirectional Auto-Regressive Transformers

BERT _ :Bidirectional Encoder Representations from Transformers

SOTA :State-Of-The-Art

GELU :Gaussian Error Linear Unit

ReLU :Rectified Linear Unit

GPU :Graphics Processing Unit

ROUGE :Recall-Oriented Understudy for Gisting Evaluation

TL :Transfer Learning

Trang 7

Số hiệu bảng Tén bảng TrangBảng 2.1 Thông số của các mô hình Bart khác nhau 14Bảng 3.1 Chỉ tiết số lượng tin tức thu thập được 31Bảng 3.5.2.a Kết quả đánh giá mô hình lần I 47Bảng 3.5.2.b Kết quả đánh giá mô hình lần 2 47Bang 3.5.2.c Kết quả đánh giá mô hình lần 3 48Bảng 3.5.2.d Kết quả đánh giá mô hình lần 4 48

Trang 8

Số hiệu Tên hình vẽ Trang

Hình 1.1.1.a Các loại phương pháp tóm tắt văn bản 2Hình I.1.2.a Phân bố các phương pháp tóm tắt văn bản 4Hình 1.1.2.b _ Thành phan tổng quát của BART 6Hình 2.1.a Kiến trúc tổng quát tóm tắt trừu tượng dựa trên deep 12

learning Hình 2.1.b Mô hình trực quan của mô hình BART, BERT và GPT 13

Hình 2.l.c Các phép biến đổi khi huấn luyện mô hình BART 14

Hình 2.2.a Tông quan phương pháp Transfer Learning 16

Hình 2.2b Sơ đồ so sánh hiệu suất mô hình trước và sau khi áp dụng 18

TL Hình 2.2.c Quy trình thực hiện phương pháp transfer learning 19

Hình 2.3 Các phương pháp đánh giá mô hình tóm tắt 23

Hình 3.1.a Mô hình tông quát xây dựng dữ liệu 29

Hình 3.1.b Chỉ tiết quy trình tổng quát xây dựng dữ liệu 30Hình 3.1.c Cấu trúc dữ liệu thu thập được 31Hình 3.1.d Biến đổi dữ liệu cho mô hình huấn luyện 32Hình 3.2.a Mô hình tổng quát kiến trúc hệ thông 32Hình 3.2.b Sơ đồ kiến trúc hệ thống tóm tắt tin tức tiếng Anh trong 33

lĩnh vực Tài chính

Hình 3.2.d Cài đặt thư viện trên môi trường 34

Trang 9

Khởi tạo mô hình cơ sở

Tinh chỉnh huấn luyện mô hìnhĐánh giá mô hình bằng độ đo ROUGEImport config xây dựng công cụ tóm tắt tin tứcXây dựng hàm tạo sinh xây dựng công cụ tóm tắt tin tứcXây dựng công cụ tóm tắt tin tức với mô hình Bart

Colab kết nói với Google DriveCài đặt va import môi trường huấn luyện mô hình

Cài đặt và import môi trường xây dựng ứng dụng

Khởi chạy ứng dụng với Anaconda

Giao diện ứng dụng người dùng

Tương quan độ đo Precision

Tương quan độ đo Recall

Tương quan độ đo F - score

38

41 41 42

43

44 45 45

Trang 10

thông tin Chính sự phát triên nhanh chóng của các ứng dụng Công nghệ thông tin và

“Truyền thông kéo theo lượng lớn thông tin mỗi ngày một lớn Con người ngày càngbận rộn hơn nhưng luôn mong muốn nắm bắt thông tin thật đầy đủ và hiệu quả trong

hầu hết các lĩnh Vực của cuộc sống một cách nhanh nhất Đặc biệt trong lĩnh vực tài

chính, các thông tin trên bài báo tài chính có xu hướng tương đối dài, nhưng nội dung

lại vô cùng quan trọng so với các lĩnh vực khác vì trực tiếp ảnh hưởng đến quyết định

đầu tư hoặc làm cơ sở tham chiếu cho các quyết định tài chính khác của các nhà đầu

tư và độc giả, điều này dẫn đến việc nhà đầu tư, độc giả phải dành nhiều thời gian déđọc hết tổng thé bài báo dé nắm nội dung quan trọng đó Tuy nhiên, hằng ngày sẽ córất nhiều tin tức như vậy dẫn đến việc đọc toàn bộ các bài báo tài chính như vậy vô

cùng tốn công sức Tóm tắt tin tức là quá trình chat lọc những thông tin quan trọng

nhất, các câu hàm chứa ý chính để tạo ra kết quả là một văn bản ngắn gọn, dé đọc, dễhiểu Hiện nay có nhiều ứng dụng tóm tắt tin tức như: https://textsummarization.net/,

https://resoomer.com/en/, https://smmry.com/, https://www.summarizebot.com/

nhưng chúng không chuyên biệt cho một lĩnh vực nào Trên thé giới đã có rất nhiều

nghiên cứu về bài toán summarization và có rất nhiều model hiệu quả được ghi nhận:facebook/bart-large-cnn (~ 1.870.000 lượt tải), google/pegasus-xsum (~144.000 lượt

tai), [18]

Với phương pháp Transfer Learning có thé tận dụng pretrained-model có chất lượng

tốt và độ chính xác cao đề giúp mô hình có điểm khởi đầu của accuracy tốt hơn (higher

start), Accuracy có tốc độ tăng nhanh hon (higher slope), đường tiệm cận của độ

chính xác tối ưu cao hơn (higher asymptote)

Đó là lý do tôi chon dé tài này dé nghiên cứu và xây dựng công cụ tóm tắt tin tứctiếng Anh dựa trên Transfer Learning: ứng dụng cho lĩnh vực tài chính Hi vọng cóthể xây dựng thành công một công cụ cho phép người dùng nhập liệu mẫu tin tức về

tài chính để có thể nhận được mẫu tóm tắt về tin tức đó thật sự ngắn gọn, súc tích, dễ

hiệu.

Trang 11

- Nghiên cứu Phương pháp Tóm tắt tin tức tiếng Anh dựa trên TransferLearning: ứng dụng trong lĩnh vực Tài chính.

- Xây dựng công cụ tóm tắt tin tức tiếng Anh dựa trên Transfer Learning: ứng

dụng cho lĩnh vực tài chính.

Nội dung của luận văn được trình bày trong 4 chương, bao gồm:

Chương 1: Giới thiệu tổng quan về đề tài

Giới thiệu tổng quan về đề tài bao gồm các khảo sát, tìm hiểu một số nghiên

cứu, mô hình nồi bật, các ứng dụng đã triển khai trong việc tóm tắt văn bản Theo đó,trình bày phạm vi và mục tiêu cụ thể, phương pháp tiếp cận giải quyết vấn đề và nội

dung thực hiện của luận văn.

Chương 2: Cơ sở lý thuyết của đề tài

Trình bày cơ sở lý thuyết của đề tài liên quan đến dữ liệu và các phương pháp

tiếp cận cho việc giải quyết bài toán tóm tắt văn bản và phương pháp đánh giá hiệu

quả mô hình.

Chương 3: Thực nghiệm và đánh giá

Trình bày quá trình xây dựng dữ liệu trong phạm vi đề tài Trình bày mô hình

xây dựng công cụ tóm tắt tin tức tiếng Anh ứng dụng trong lĩnh vực Tài chính gồm:

mô hình hệ thống, các giai đoạn xử lý, cấu trúc chương trình, cài đặt chương trình vàkết quả thực nghiệm Đưa ra các nhận định, đánh giá về ứng dụng đã xây dựng

Chương 4: Kết luận và hướng phát triển

Tổng kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ra và cách giải

quyết trong luận văn Những đóng góp định hướng ứng dụng, đề xuất và hướng phát

triển cho dé tài trong tương lai

Trang 12

CHUONG 1GIOI THIEU TONG QUAN VE DE TAI

Chương 1 Giới thiệu tổng quan về dé tài bao gồm các khảo sát, tìm hiểu một

số nghiên cứu, mô hình nôi bật, các ứng dụng đã triển khai trong việc tóm tắt văn bản.Theo đó, trình bày phạm vi và mục tiêu cụ thể, phương pháp tiếp cận giải quyết vấn

đề và nội dung thực hiện của luận văn

1.1 TONG QUAN GIẢI PHÁP TÓM TAT TIN TỨC

1.1.1 Vấn đề về tóm tắt tin tức

Text Summarization là phương pháp quan trọng nhằm tổng hợp nội dung của

một văn bản dài thành một văn bản nhỏ gọn nhưng vẫn bảo toàn được nội dung chính

của của văn bản gốc Giúp giảm thời gian đọc mà vẫn nắm bắt ngắn gọn tin tức tiếng

Anh trong lĩnh vực tài chính Trong luận văn này tôi đã phát triển mô hình tóm tắtvăn ban tự động (ATS - Automatic Text Summarization) bang cách ứng dụng cácphương pháp, kỹ thuật tối ưu cho mô hình tóm tắt tin tức trong miễn dữ liệu tin tứctài chính tiếng Anh và cho ra đời một ứng dụng web hữu ích trong lĩnh vực tài chính

Bài toán tóm tắt văn bản được chia thành nhiều loại Mỗi loại được sử dụng

cho các mục đích khác nhau, các yêu cầu khác nhau Mỗi bài toán cũng phải áp dụngcác phương pháp và kỹ thuật riêng Không có một ứng dụng tóm tắt văn bản nào cóthể cài đặt và đáp ứng được hết các dang yêu cầu đó

Khi xét đầu vào của một hệ thống tóm tắt văn bản, ta có thé chia thành hai

dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt đa văn bản

(Multi-Document) Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của

văn bản đó Ngược lại, tóm tắt đa văn bản là từ nhiều văn bản nguồn cũng chỉ cho ra

một đoạn tóm tắt, chứ không có nghĩa là thực hiện nhiều việc tóm tắt một văn bảnđồng thời cho nhiều văn bản khác nhau Rõ ràng, tóm tắt đa văn bản thì khó hơn, vì

ngoài những công việc của tóm tắt đơn văn bản, tóm tắt đa văn bản còn phải thực

hiện các công việc như tiền xử lý trích rút, tích hợp thống nhất khuôn dạng và hiển

thị kết quả theo cách riêng Ngoài ra, tóm tắt đa văn bản còn phải đối mặt với các vấn

đề như dư thừa, trùng lặp dữ liệu giữa các văn bản nguồn, nội dung các văn bản nguồn

Trang 13

phân tán, độ rút gọn yêu cầu cao, thời gian xử lý cần phải nhanh trong khi sự phức

Hình 1.1.1.a: Các loại phương pháp tóm tắt văn bản [15]

Khi xét đến kết quả đầu ra của một hệ thống tóm tắt văn bản, chúng ta có thể

có hai dang tóm tắt đó là tóm tắt rút trích (Extraction) và tóm lượt trừu tượng

(Abstraction).

Extraction là hướng tiếp cận chọn những đoạn chính để tạo một bản tóm tắt

Nó sẽ đánh giá phan quan trọng của các tài liệu và xếp hạng chúng dựa trên tim quan

trọng và sự tương đồng giữa các tài liệu với nhau Kỹ thuật này liên quan đến việc

lấy các cụm từ chính từ tài liệu nguồn và kết hợp chúng đề tạo thành một bản tóm tắt

Abstraction là hướng tiếp cận dựa trên sự hiéu biết ngữ nghĩa, ngay cả những

từ đó không xuất hiện trong các tài liệu nguồn Khi hướng tiếp cận Abstraction được

áp dụng đề tóm tắt văn bản trong các vấn đề học sâu, nó có thể khắc phục sự không

nhất quán về ngữ pháp của phương pháp Extraction Do đó, hướng tiếp cận

Abstraction hoạt động tốt hơn hướng tiếp cận Extraction Tuy nhiên, các thuật toántóm tắt văn bản cần thiết đề thực hiện theo hướng tiếp cận Abstraction khó phát triểnhơn và đó là lý do tại sao việc sử dụng hướng tiếp cận Extraction vẫn còn phổ biến

Về mục đích tóm tắt có ba loại cơ bản là: Tóm tắt chung (Generic) tóm tắt theo

quan điểm ban đầu của tác giả văn bản gốc, Tóm tắt hướng truy vấn (Query based)

Trang 14

tóm tắt theo quan điểm mong muốn của người dùng ứng dụng thông qua các tham sốtruyền vào câu truy vấn, Tóm tắt trong miền dữ cụ thể (Domain Specific) ứng

dụng đã xác định miền tri thức cụ thể để có thể tóm tắt văn bản hiệu quả nhất

Bên cạnh đó, vấn dé tóm tắt tin tức còn được phân loại thêm theo nhiều khíacạnh tương ứng với sự đa dạng của nhu cầu người dùng như Tóm tắt cơ bản: tóm tắtnày dành cho người thông thường, như các ứng dụng tóm tắt thông thường, chungchung như tóm tắt trang tin, tóm tắt tiểu thuyết văn hoc Tóm tắt chuyên môn: tóm

tắt dành cho người đã có nền tảng, chuyên môn Những bản tóm tắt ra chứa đựng

những thuật ngữ, khái niệm, công việc chuyên môn Ví dụ ứng dụng hỗ trợ thông

minh giúp bác sĩ tóm lược và so sánh các phương pháp điều trị, ứng dụng tóm tắt các

bài báo về toán học Tóm tắt đơn ngôn ngữ: văn bản nguồn chỉ có một loại ngôn

ngữ, kết quả ra là văn bản ngôn ngữ đó Tóm tắt đa ngôn ngữ: mỗi văn bản nguồn chỉ

có một loại ngôn ngữ, nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ,

tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữđược chọn Tóm tắt đan xen nhiều ngôn ngữ: trong văn bản nguồn chứa hai hay nhiềungôn ngữ khác nhau, hệ thong có thé tùy vào từng đơn vị ngữ liệu mà nhận dạng vàtóm tắt cho phù hợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số

Summarization nói riêng đã góp phần hỗ trợ và phát triển nền kinh tế thông minh qua

việc nắm bắt tin tức thời sự một cách nhanh chóng và hiệu quả, 4p dụng khoa học kỹ

thuật vào đời sống, thúc đây sự phát triển khoa học - công nghệ và đổi mới sáng tao

trong quá trình day mạnh công nghiệp hóa, hiện đại hóa cho Việt Nam

Một số kết quả nghiên cứu, giải pháp hoàn chỉnh của các ông lớn công nghệ

Trang 15

rãi đến ong đồng khoa học đạt được phản hồi tích cực, giúp làm nền tảng tri thức để

có thé học hỏi, áp dụng và phát triển tạo nên kết quả hiệu quả hơn trong một lĩnh vực

cụ thể - lĩnh vực tài chính

1.1.2 Một số nghiên cứu nỗi bật về tóm tắt tin tức

Theo thời gian công nghệ ngày càng phát triển, kèm theo đó một lượng lớn dữliệu văn bản và nó nhiều lên mỗi ngày theo cấp số nhân Do đó tác vụ TextSummarization trong NLP ngày càng được chú trọng và được nghiên cứu phát triểncho ra nhiều mô hình hiệu quả và tối ưu Nhiệm vụ tóm tắt chỉ tạo ra các từ và cụm

từ nắm bắt được ý chính của tài liệu nguồn là chưa đủ Bản tóm tắt yêu cầu phải chính

xác và đọc trôi chảy như một tài liệu mới [9] Từ các tài liệu báo cáo khoa học trong

mười năm trở lại đây, có sáu hướng tiếp cận hoặc kỹ thuật được sử dụng trong tóm

tit văn bản, cụ thé là fuzzy-based, machine learning, statistics, graphics, topic

modeling, and rule-based Dé thay rõ sự phân bố các phương pháp tóm tắt văn bảntrong mười năm qua, chúng ta có thé thấy rõ trong hình 1.1.2.4

Hình 1.1.2.a: Phân bố các phương pháp tóm tắt văn bản [2]

Kỹ thuật ưa chuộng nhất là machine learning với 46 nghiên cứu, đây là hướng tiếpcận hiện đại đến thời điểm này Các thuật toán của phương pháp học máy là các

chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ và cách

cải thiện hiệu suất theo thời gian Các phương pháp được sử dụng trong machine

learning để tóm tắt văn bản trong mười năm qua như artificial bee colony (ABC),semantic role labeling (SRL), Recurrent neural network (RNN), cellular learning

automata (CLA), Patsum, Abstractive Summarization of Video Sequences (ASoVS),

Trang 16

MSPointer Network, Sentiment Embedding (SE), title identification (TIDA), IncreSTS,

Shark Smell Optimization (SSO), Discourse Supervised Tree-based summarization

(DST), NN, Auto Encoder (AE), KMeans, PSO, Markov, SVM, deep learning, maximal marginal relevance (MMR), Tuy nhiên, mac dù machine learning là

hướng tiếp cận được yêu thích nhưng vẫn còn những hạn chế về mặc ngữ nghĩa và

sự lặp lại các câu trong phần tóm tắt, nhờ có những hạn chế này đã tạo nên động lực

để các tổ chức, cá nhân không ngừng nghiên cứu vào cho ra đời những mô hình ngày

càng hoàn thiện hơn.

Trong bài báo khoa học, tác giả Mike Lewis và các cộng sự [11] trong team

Facebook AI đã giới thiệu về mô hình BART là một mô hình pre-training cho các tác vụ xử lý ngôn ngữ tự nhiên, bao gồm sinh văn bản, dịch máy và hiểu

ngôn ngữ tự nhiên Tác giả đã đánh giá BART trên một loạt các bộ dữ liệu và

đạt được kết quả rất tốt trong nhiều tác vụ Cụ thể, BART đạt được kết quả tốt

nhất trong bài toán tóm tắt văn bản trên các bộ dữ liệu CNN/DailyMail và

XSum Ngoài ra, BART cũng đạt kết quả tốt trong bài toán phân loại câu hỏi trên bộ dữ liệu SQUAD 1.1 va SQUAD 2.0, đạt kết quả tương đương hoặc cao hơn so với các mô hình pre-training khác BART cũng đạt được kết quả tốt trong các bài toán về sinh văn bản và dịch máy BART là một mô hình pre- training mạnh mẽ và đa nhiệm, có khả năng đạt được kết quả tốt trong nhiều

tác vụ xử lý ngôn ngữ tự nhiên Mô hình này có thể được sử dụng làm cơ sở

cho các ứng dụng xử lý ngôn ngữ tự nhiên, giúp cải thiện chất lượng kết quả

của các ứng dụng này BART cho thấy hiệu quả vượt trội trong cả nhiệm vụ

sinh lẫn đọc hiểu văn bản Cụ thé, BART có hiệu quả sánh ngang RoBERTa trên các bộ dữ liệu đánh giá tổng quát như GLUE và SQuAD và đạt SOTA

trong các nhiệm vụ về đối thoại trừu tượng, trả lời câu hỏi và tóm tắt.

Trang 17

BERT encoder | + | 6PTDecoder | + Noise-Transformations

Hình 1.1.2.b: Thanh phan tổng quát của BART

Giống như các mô hình Transformer, BART gồm hai thành phan là

Encoder và Decoder.

Encoder được lấy từ BERT, nó có thể mã hóa xâu đầu vào theo cả hai

chiều và lấy được nhiều thông tin ngữ cảnh hơn Một số lượng ngẫu nhiên các

token được che bằng mặt nạ và mô hình phải tự khôi phục chúng.

Decoder từ GPT được sử dụng dé tái tạo lại đầu vào bị nhiễu Mặc dù vậy, các từ chỉ có thể sinh từ bên trái, mô hình không thể học được tương tác hai chiều Hàm kích hoạt GeLU được sử dụng thay thế cho ReLU Kiến trúc cơ bản của BART sử dụng 6 tầng encoder và decoder trong khi kiến trúc mở rộng

từ bị thiếu thông tin, từ đó cải thiện khả năng dự đoán của mô hình

trên dữ liệu mới.

- Xóa token (Token Deletion): tạo ra dữ liệu huấn luyện mới từ dữ liệu gốc bằng cách xóa một số token trong câu Việc này giúp mô hình

Trang 18

học được khả năng xử lý các từ bị thiếu thông tin, từ đó cải thiện khả

năng dự đoán của mô hình trên dữ liệu mới.

- Điển văn bản (Text Infilling): Một vài đoạn văn bản ngẫu nhiên được thay thé bằng [MASK] Đặc biệt, đoạn văn bản có thể là rỗng.

- Tráo câu ngẫu nhiên (Sentence Permutation): Văn bản được chiathành các câu và được tráo ngẫu nhiên Nhưng vẫn giữ nguyên nộidung và ý nghĩa của câu góc

- Xoay văn ban (Document Rotation): thực hiện bằng cách xoay các từ,

câu, đoạn văn bản hoặc toàn bộ tài liệu theo một góc xoay ngẫu nhiên

Giúp cải thiện khả năng mô hình học máy trong việc xử lý các tài liệu

có tính động cao và giảm thiểu hiện tượng quá khớp trong mô hình.

Có thể nói BART là một bước tiến mới trong NLP với khả năng đọc hiểu

và sinh văn bản BART có thẻ được finetune và áp dụng cho nhiều bài toán

khác nhau Mô hình Facebook BART Large CNN (facebook/bart-large-cnn)

trên hugging face (huggingface.co) đang được sử dụng rất nhiều cho việc

pre-trained và fine-tuned cho tác vụ text summarization.

Công trình tiếp theo của tác giả Ekaterina Zolotareva và các cộng sự [7] đềcập đến việc sử dụng phương pháp Transfer Learning cho bài toán tóm tắt văn bảntheo dạng trừu tượng Trong bài báo này, bài toán tóm tắt được triển khai theo hướng

tiếp cận Sequence-to-sequence RNN và phương pháp Transfer Learning với mô hình

Unified Textto-Text Transformer đã đạt được kết quả cải thiện đáng kể cho tóm tắt

văn bản trừu tượng.

Mô hình TextTo-Text Transfer Transformer (T5) [5] được pre-trained trên Colossal

Clean Crawled Corpus (C4) đạt được SOTA và đủ linh hoạt để có thể finetune chonhiều lĩnh vực Transfer learning là một kỹ thuật rat hay trong lĩnh vực học sâu, nhờ

đó chúng ta có thé giải quyết một nhiệm vụ mới với kiến thức thu được từ một nhiệm

vụ cũ để giải quyết việc thiếu dữ liệu được gắn nhãn và là phương pháp giúp nhanhchóng phát triển lĩnh vực đang nghiên cứu như là tác vụ tóm tắt văn bản

Về mặt ứng dụng, ngoài những nghiên cứu khoa học trên, một số framework,

Trang 19

NewsPlease, rouge-score, transformers, Các công trình nghiên cứu đã trình bày là

nguồn cảm hứng và tham khảo khoa học đề luận văn có thể thiết kế mô hình xử lý

giải quyết bài toán, mục tiêu mong muốn và ứng dụng trong thực tiễn

1.2 PHẠM VI VÀ MỤC TIÊU CỦA ĐÈ TÀI

Ứng dụng được triển khai trên nền tang web, đáp ứng nhu cầu tóm tắt tin tức

tiếng Anh trong lĩnh vực tài chính của người dùng, đặc biệt là các chuyên gia tài chính.Phạm vi đề tài:

- Tóm tắt trong miền dữ liệu cụ thể (Domain Specific): tin tức tài chính

- Phạm vi đầu vào đơn văn bản (Single Document)

- Tóm tắt đơn ngôn ngữ: tin tức Tiếng Anh

- Bộ dé liệu huấn luyện và kiểm thử thuộc miền dữ liệu tin tức Tài chính

tiếng Anh

Luận văn tập trung nghiên cứu và áp dụng phương pháp Transfer Learning để tậndụng tri thức của các mô hình tóm tắt tin tức hiệu quả nhất hiện nay, áp dụng chúngtrên miền dữ liệu tài chính được thu thập và cập nhật trên các trang web tin tức tàichính nổi tiếng và uy tín hiện nay như: The Motley Fool (https://www.fool.com/),Investing.com ( https://www.investing.com/), SeekingAlpha

( https://seekingalpha.com/), MarketWatch ( https://www.marketwatch.com/),

Do đó dé tài không tập trung hỗ tro cho các nhu cầu ngoài miền dữ liệu đã được xácđịnh Bộ dữ liệu huấn luyện và kiểm thử trong luận văn là bộ dit tin tức tài chính đượcthu thập và xử lý Phạm vi kết quả sẽ là đoạn tin tức tài chính đã được tóm tắt ngắnngon, dễ hiểu và được đánh giá bằng số đo ROUGE [4]

'Việc nghiên cứu và xây dựng công cụ tóm tắt tin tức tiếng Anh trong lĩnh vực

tài chính được xác định với các mục tiêu sau:

- Ứng dụng mô hình học sâu và kế thừa các công nghệ tiên tiến để xây dựng

ứng dụng với mô hình cải tiến và hiệu quả hơn để cho ra kết quả tóm tắt dễđọc và dễ hiểu hơn

- Xây dựng mô hoàn chỉnh, có thé hoạt động và xử lý nhanh chóng với tập dữliệu đã chuẩn bị và dữ liệu phát sinh trong quá trình bảo vệ luận văn

Trang 20

- Xây dựng hoàn thiện công cụ tóm tắt tin tức đáp ứng tốt với nhu cầu tóm tintin tức tiếng Anh trong lĩnh vực Tài chính của người dùng, có giao điện và các

chức năng thân thiện với mọi người.

1.3 PHƯƠNG PHÁP NGHIÊN CỨU

Xuất phát từ nhu cầu thực tiễn về việc cần nắm bắt nhanh chóng và hiệu quảcác tin tức tài chính thế giới hiện nay, sau khi tìm hiểu và nghiên cứu các phương.pháp và kỹ thuật tân tiến hiện có của những ông lớn về công nghệ như Facebook,Google, Trên cơ sở đó tìm ra cách vận dụng, áp dụng và kế thừa các tri thức và ýtưởng đề xây dựng được mô hình hiệu quả, phù hợp và đáp ứng với mục tiêu mà đềtài luận văn đã đặt ra Thông qua đó, đóng góp được phương pháp, hướng tiếp cận,cách thức giải quyết vấn đề theo hướng mới về mặt xử lý và kỹ thuật Hướng tiếp cận

và một số phương pháp, kỹ thuật tiêu biểu được áp dụng, triển khai liên quan đến đềtài như:

- Phương pháp Deep Learning [1] gần đây đã cho thay những kết qua day hứahẹn cho việc tóm tắt văn bản Đặc biệt là mô hình Transformers BART [11]được giới thiệu bởi Facebook AI, một mô hình pretrained mới kết hợp ưu điểm

của Google's BERT và OpenAI's GPT Sức mạnh của BERT nằm ở việc năm

bắt ngữ cảnh hai chiều, trong khi đó GPT có khả năng tự hồi quy Với sự rađời của BART, các nhiệm vụ sinh và đọc hiéu văn bản có thể được thực hiện

với cùng một mô hình.

- Phương pháp Transfer Learning là cách tiếp cận nồi bật va phd biến nhất

trong Deep Learning Chúng ta sẽ áp dụng tri thức đã được hoc từ một

pre-trained model sang bài toán hiện tại với điều kiện hai bài toán phải có liênquan tới nhau Việc sử dung pretrained model là một bước tiến lớn để nhữngngười đi sau tiếp bước những thành quả của những người đi trước, tận dụngnhững pretrained model sẵn có dé tạo ra những model mới phục vụ cho cácmục tiêu cụ thể hơn, mang tính ứng dụng thực tiễn hơn

- Kỹ thuật crawler data: sử dụng thư viện news-please để thu thập tin tức, trích

xuất thông tin từ các trang web

- Kỹ thuật thao tác với CSDL: CSDL ứng dụng và CSDL vector, file

Trang 21

- Kỹ thuật xây dựng phần mềm: Xây dựng ứng dụng thử nghiệm bằng

framework Flask, PyTorch,

1.4 NOI DUNG THUC HIEN

Để đạt được mục tiêu mà đề tài đã đề ra, cần thực hiện:

- Tìm hiểu các cơ sở khoa học và những công trình nôi bật có liên quan đến nhiệm

vụ tóm tắt tin tức

- Khảo sát, nghiên cứu, phân tích và thực nghiệm các mô hình, phương pháp, kỹ thuật

liên quan đến tác vụ tóm tắt tin tức

- Tìm kiếm, tổng hợp và xây dựng bộ dữ liệu về tin tức tiếng Anh trong lĩnh vực Tàichính Sử dụng các công nghệ hỗ trợ rút trích thu thập tin tức trên các trang web tàichính nồi tiếng và uy tín trên thế giới Sau đó tiến này chọn lọc và tiền xử lý dữ liệu

đã thu thập được tạo thành file dữ liệu có cấu trúc phù hợp với mô hình huấn luyện

- Thử nghiệm mô hình với tập dữ liệu đã thu thập, sử dụng các phương pháp tiếp cậnphù hợp và hiệu quả dé cải thiện mô hình có chất lượng tốt, tăng độ chính xác của kếtquả tóm tắt

- Xây dựng mô hình hoạt động cho công cụ tóm tắt tin tức, sử dụng các framework

hỗ trợ việc xây dựng ứng dụng trên nền tảng web

- Đánh giá phương pháp đã thực hiện trên bộ dữ liệu đã xây dựng, phân tích những

điểm mạnh và hạn chế của phương pháp Sử dụng kết quả dé đánh giá mô hình ứngdụng đã xây dựng Trình bày các kết quả đạt được và phương hướng phát triển tiếp

theo.

Trang 22

CHƯƠNG 2

CƠ SỞ LÝ THUYETChương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến dữ liệu và cácphương pháp tiếp cận cho việc giải quyết bài toán tóm tắt văn bản và phương pháp

đánh giá hiệu quả mô hình.

2.1 PHƯƠNG PHÁP TÓM TẮT TIN TỨC

Tom tắt văn bản là bai toán tạo ra một văn bản tóm tắt ngắn gọn, chính xác vàtrôi chảy từ một văn bản dài hơn Phương pháp tóm tắt tin tức được chưa thành hai

loại chính: Extractive and Abstractive.

Extractive Text Summarization là phương pháp truyền thống được phát triểnđầu tiên Mục tiêu chính là xác định các câu quan trọng của văn bản và thêm chúng.vào phần tóm tắt Chắc chắn rằng bản tóm tắt thu được chứa các câu chính xác từ văn

bản gốc

Abstractive Text Summarization là một phương pháp tiên tiến hơn và có nhiềucải tiến thường xuyên được công bố gần Cách tiếp cận là xác định các phần quantrọng, giải thích bối cảnh và tái tạo theo một cách mới, giống như cách của con người.Điều này đảm bảo rằng thông tin cốt lõi được chuyên tải thông qua bản tóm tắt được

ngắn nhất có thể Các câu tóm tắt được tạo ra không chỉ được trích xuất từ văn bản

gốc giúp cho bản tóm tắt mạch lạc và trôi chảy hơn Đây là cách tiếp cận khó hơn,nhưng cũng là cách tiếp cận tối ưu hơn

Phương án deep learning hiện tại vẫn đang được đào sâu phát triển và có nhữngkết quả tiên tiến cho việc tóm tắt tin tức Cụ thể việc áp dụng phương pháp deeplearning bằng cách xem bài toán tóm tắt tin tức như một bài toán sequence-to-

sequence [6].

“Abstractive text summarization is the task of generating a headline or a short

summary consisting of a few sentences that captures the salient ideas of an article or

a passage [ ] This task can also be naturally cast as mapping an input sequence of

words in a source document to a target sequence of words called summary” [13].

Phuong an deep learning cho tom tắt tin tức tự động có thể được coi là mộtphương pháp trừu tượng hóa và đây là phương pháp tóm tắt tin tức được lựa chọn là

Trang 23

Multiple document | | Single document

Abstractive Summarizer

Neural network

Summary

generation

Hình 2.1.a: Kiến trúc tổng quát tóm tắt trừu tượng dựa trên deep learning [10]

Mô hình kiến trúc chung của tóm tắt trừu tượng dựa trên deep learning chủ

yếu gồm ba bước chính: tiền xử lý, hiểu ngữ nghĩa và tạo tóm tắt Trong bước tiền xử

lý, một số công nghệ ngôn ngữ chủ yếu được sử dụng đề cấu trúc văn bản đầu vào,chẳng hạn như phân đoạn câu, mã hóa từ và loại bỏ từ dừng, Trong bước hiểu ngữnghĩa, một mạng lưới thần kinh được xây dựng đề nhận biết và thể hiện ngữ nghĩasâu sắc của văn bản đầu vào Bước này xảy ra trong không gian vectơ và cuối cùng

tạo ra một vectơ hợp nhất cho bước tiếp theo Trong bước tạo tóm tắt, trình tạo thực

hiện các điều chỉnh phù hợp với vectơ tổng hợp được cung cấp ở bước trước, sau đóánh xạ biểu diễn không gian vectơ tới từ vựng dé tạo các từ tóm tắt

Đề tài được thực hiện theo hướng tiếp cận abstractive summarization dé cóthé tạo ra được các câu mới có thể thể hiện tốt nhất cho toàn bộ văn bản điều này tốt

hơn phương pháp extractive summarization trong đó các câu chỉ được chon từ văn

bản gốc dé tóm tắt Thư viện transformers trên Huggingface là một mô hình SOTA

cho các tác vụ như text summarization, text classification, text generation, and

Trang 24

question answering Một tinh năng tuyệt vời khác với transformers là nó cung cấpcác trọng số cho các mô hình PreTrained có thé dé dàng khởi tạo thông qua phương.

thức from_pretraining().

Trong đó nồi bật nhất là mô hình pre-trained Facebook BART Large CNN

(facebook/bart-large-cnn) được team Facebook AI thực hiện fine tuned đặc biệt cho

tác vụ tóm tắt tin tức Facebook BART Large CNN là mô hình BART pre-trained trên

CNN Daily Mail [17].

BART được xây dung từ bộ mã hóa hai chiều như trong BERT và bộ giải mã

ngôn ngữ tiếng Anh và fine-tuned trên tập dữ li

tự hồi quy như GPT Trong đó, BERT thực hiện Masked Language Modelling với sự

trợ giúp của bidirectional transformer và dự đoán các giá trị còn thiếu Mặt khác, GPT

sử dụng bộ giải mã tự hồi quy, để dự đoán mã thông báo tiếp theo trong một câu

Autoregessive Decoder

|

‘oart iain

Bidirectional Encoder Autoregessive Decoder

Số lượng thông số của mô hình BART có gần 140 triệu thông số BERT cókhoảng 110M tham số trong khi GPT có 117M Dưới đây chúng ta có thể xem chỉtiết hơn về số lượng tham số trong các mô hình BART khác nhau trong bảng

Trang 25

Bảng 2.1: Thông số của các mô hình Bart khác nhau

Model Description # parambart.base Mô hình Bart với 6 lớp encoder và decoder 140Mbart.large Mô hình Bart với 12 lớp encoder va decoder 400Mbart.large.mnli bart.large fine-tuned trên data mnli 400Mbart.large.cnn bart.large fine-tuned trén data cnn 400M

bart.large.xsum bart.large fine-tuned trên data xsum 400M

BART Pre-training có 5 cách huấn luyện với dữ liệu bị nhiễu Token Maskingtạo sự ngẫu nghiên, số lượng nhỏ các điểm được an đi Token Deletion gây ra một số

token trong tài liệu bị xóa mất Text Infilling nhiều token được thay thé bằng một

token an Sentence Permutation các câu được xác định thông qua ‘.’ sau đó được hoán

vị khi huấn luyện Document Rotation một token được chọn ngẫu nhiên và trình tựđược xoay vòng tới khi token được chọn đứng đầu

[ A_C._E | [ DE.ABC C.DE.AB

Token Masking Sentence Permutation Document Rotation

A.C.E = = A_.D_E.

Token Deletion Text Infilling

Hình 2.1.c: Các phép biến đổi khi huấn luyện mô hình BART

Những chiến lược này giúp làm tăng thêm tập dữ liệu và làm cho mô hìnhBART hiểu rõ hơn về ngôn ngữ tự nhiên

Các bước dé fine-tune model BART cho downstream task tóm tắt tin tức:

- Chuan bị dữ liệu: Đầu tiên, ta cần chuẩn bị dữ liệu cho tác vụ downstream

Dữ liệu này có thể được thu thập bằng cách lấy từ các nguồn khác nhau

Trang 26

hoặc tạo ra từ các bộ dữ liệu mở trên mạng Dam bảo dữ liệu đã được chuẩn

bị đầy đủ và chính xác dé đảm bảo cho mô hình được huấn luyện tốt

- Tai pre-trained model BART: BART được huấn luyện trên các tác vụ nhưSummarization, Translation Tùy thuộc vào task đang làm, hãy tải pre-

trained model phù hợp đề tiếp tục fine-tuning Tôi đã sử dụng pre-trainedfacebook/bart-large-cnn dé làm về tác vụ tóm tat tin tức

- _ Tiến hành fine-tuning: Tiến hành huấn luyện mô hình BART trên dữ liệu

cho tác vụ downstream Thông thường, ta sẽ tiến hành nhiều lần để tìm ra

tham số phù hợp nhất cho mô hình

- Đánh giá và kiểm tra mô hình: Sau khi hoàn thành việc fine-tuning, ta sẽ

đánh giá và kiểm tra mô hình để đảm bảo rằng nó hoạt động tốt trên dữ liệu

mới Bạn có thể sử dụng tập đữ liệu kiểm tra đề đánh giá kết quả của mô

hình và sửa chữa các lỗi nếu có

- Sử dụng mô hình: Cuối cùng, sau khi đã hoàn thành fine-tuning và kiểmtra mô hình, có thể sử dụng mô hình đã được huấn luyện để thực hiện tác

vụ downstream trên dữ liệu mới.

Phương án để fine-tune model BART cho các tác vụ downstream phụ thuộc

vào mục đích cụ thé của tác vụ đó Tuy nhiên, có một số phương pháp chung dé

fine-tune mô hình BART cho các tác vu downstream, cụ thê là tác vụ tóm tắt tin tức:

-_ Điều chỉnh learning rate: Learning rate là một tham số quan trọng trongquá trình fine-tuning Nếu learning rate quá cao, mô hình sẽ bị overfitting

và nếu learning rate quá thấp thì mô hình sẽ hội tụ chậm Do đó, điều chỉnhlearning rate là cần thiết để đạt được kết quả tốt nhất

- Thay đổi architecture: Một số tác vụ downstream có thé yêu cầu kiến trúckhác nhau so với kiến trúc mặc định của mô hình BART Trong trường hợp

này, ta có thể sử dụng kiến trúc khác hoặc thay đổi các layer dé tăng hiệu

suất cho tác vụ downstream

- Tỉnh chỉnh hyperparameters: Mô hình BART có nhiều hyperparameters cóthể tùy chỉnh để cải thiện hiệu suất cho tác vụ downstream, bao gồm số

lượng epoch, batch size, độ dài của các sequence, v.v.

Trang 27

-_ Thêm các lớp dense layer: Đôi khi ta cần thêm các lớp dense layer đề tăng

khả năng mô hình trong việc phân loại hoặc dự đoán các tác vụ downstream.

Các lớp này có thể được thêm vào cuối của mô hình để biến đồi đầu ra của

Trong bai toán tóm tắt tin tức, hiện nay có rất nhiều pre-trained model SOTA

đã được công bó Dé thu thập một lượng lớn dữ liệu khi giải quyết một nhiệm vụ mới

có thể là một thách thức lớn Nhưng để dùng một lượng dữ liệu hạn chế để có đượcmột mô hình có độ chính xác thỏa đáng cũng là việc không dễ đàng, nếu không muốnnói là bất khả thi Với sự phát triển không ngừng của khoa học kỹ thuật, có một

phương pháp giải quyết được vấn đề này là phương pháp Transfer Learning, có thể

Transfer Learned

Source data Target data

Hình 2.2.a: Tổng quan phương pháp Transfer Learning [16]

Trang 28

Transfer Learning là một phương pháp trong học sâu cho phép chúng ta sử

dụng các mô hình được huấn luyện sẵn trên dữ liệu lớn và áp dụng chúng để giải

quyết các bài toán khác có liên quan đến các bài toán ban đầu mà mô hình đã được

huấn luyện trên Với Transfer Learning, chúng ta có thé sử dụng một mô hình đã đượchuấn luyện sẵn trên dữ liệu lớn để tạo ra một mô hình mới cho một bài toán tương tựnhưng với một lượng dữ liệu huấn luyện nhỏ hơn Điều này có nghĩa không cần phảihuấn luyện một mô hình hoàn toàn mới từ đầu, mà chỉ cần điều chỉnh một số phầncủa mô hình đã có sẵn và sử dụng nó cho bài toán mới

'Việc sử dung Transfer Learning có thé giúp giảm thiểu lượng dữ liệu cần thiết

dé huấn luyện một mô hình mới và giảm thiểu thời gian và chi phí cho quá trình huấn

luyện mô hình Ngoài ra, Transfer Learning cũng cho phép chúng ta tận dụng kiến

trúc và trong số của mô hình đã được huan luyện trên dữ liệu lớn, giúp tăng khả nang

tổng quát hóa và đạt được mức hiệu suất cao hơn trên các tập dữ liệu mới có kíchthước nhỏ.

Một số nghiên cứu đã chứng minh tính hiệu quả của phương pháp transferlearning trong tác vụ tóm tắt tin tức Một số nghiên cứu đã sử dụng pre-trained modelsnhư BERT và RoBERTa để fine-tune trên tập dữ liệu tóm tắt tin tức và đã đạt được

kết quả rất tốt, đánh bại nhiều mô hình truyền thống khác thông qua số liệu đánh giá

trên nhiều thử nhiệm

Transfer Learning cũng chính là cách dé các model truyền đạt cho nhau khảnăng mà mỗi model có thể làm được Một model có thể học trên source tasks nào đó

và rồi pretrained model này được sử dụng cho model khác để model mới đó học trên

target tasks nhanh hơn.

Trang 29

higher slope higher asymptote

‡

with transfer

— without transfer

performance

Từ đồ thị ta có thé thấy sử dung transfer learning sẽ mang lại 3 lợi thế chính:

- Có điểm khởi đầu của accuracy tốt hơn (higher start)

- Accuracy có tốc độ tăng nhanh hon (higher slope)

- _ Đường tiệm cận của độ chính xác tối ưu cao hon (higher asymptote)

Ngoài ra phương pháp này còn hiệu quả với dữ liệu nhỏ và khó có thể tìmkiếm và mở rộng thêm thì các mô hình được huấn luyện từ chúng sẽ khó có thé dự

báo tốt Tận dụng lai tri thức từ các pre-trained [8] [14] model với cùng tác vụ phân

loại sẽ giúp các mô hình được huấn luyện dự báo tốt hơn với dữ liệu mới vì mô hìnhđược học trên cả 2 nguồn tri thức đó là dữ liệu huấn luyện và dữ liệu mà nó đã được

học trước đó.

Trang 30

Hình 2.2.c: Quy trình thực hiện phương pháp transfer learning

Quy trình thực hiện của phương pháp TL có các bước cơ bản sau:

- Obtain pre-trained model: bước đầu tiên là chọn mô hình được đào tạo

trước mà chúng tôi muốn giữ làm cơ sở đào tạo của mình, tùy thuộc vàonhiệm vụ Học chuyền đổi yêu cầu mi tương quan chặt chẽ giữa kiến thứccủa mô hình nguồn được đào tạo trước và miền nhiệm vụ đích để chúng

tương thích.

- Create a base model: là một trong những kiến trúc như ResNet hoặc

Xception mà đã chọn ở bước đầu tiên có liên quan chặt chẽ với mục đíchcủa nhiệm vụ Chúng ta có thể tải xuống các trọng số mạng để tiết kiệmthời gian đào tạo bé sung cho mô hình Nếu không, chúng ta sẽ phải sửdụng kiến trúc mạng để đào tạo mô hình của mình từ đầu

~_ Freeze layers: đóng băng các lớp bắt đầu từ pre-trained model là điều cần

Trang 31

năng cơ bản Nếu chúng ta không đóng băng các lớp ban đầu, chúng ta sẽmắt tat cả quá trình học đã diễn ra Điều này sẽ không khác gi đào tạo mô

hình từ đầu và sẽ mắt thời gian, tài nguyên,

- Add new trainable layers: kiến thức duy nhất chúng tôi đang sử dụng lại từ

mô hình cơ sở là các lớp trích xuất tính năng Chúng ta cần thêm các lớp

bd sung lên trên chúng để dự đoán các nhiệm vụ chuyên biệt của mô hình.Đây thường là các lớp đầu ra cuối cùng

- Train the new layers: đầu ra cuối cùng của pre-trained model rất có thể sẽ

khác với đầu ra mà chúng ta muốn cho mô hình của mình Ví dụ các

pre-trained model được đảo tạo trên bộ dữ liệu News sẽ xuất ra 1000 lớp Tuynhiên, chúng tôi cần mô hình của mình đề hoạt động cho hai lớp Trong

trường hợp này, chúng ta phải đào tạo mô hình với một lớp đầu ra mới

- Fine-tune model: là một phương pháp cải thiện hiệu suất Việc tỉnh chỉnh

bao gồm giải phóng một số phần của mô hình cơ sở và đào tạo lại toàn bộ

mô hình trên toàn bộ tập dữ liệu với tốc độ học rat thấp Tỷ lệ học tập thấp

sẽ tăng hiệu suất của mô hình trên tập dữ liệu mới đồng thời ngăn chặn

việc overfitting mức.

Luận văn tập trung vào việc tinh chỉnh fine tune model Fine-tune không phải

chỉ giúp điều chỉnh weights của transfered model cho phù hợp với target tasks Nó

không phải chỉ là tỉnh chỉnh như dịch nghĩa của fine-tuning mà xa hơn đó, nó đưa ra

cách tối ưu để train cả phần pretrained model và phần mới trong transfered modelnhằm đạt được accuracy cao trên target tasks, khiến cho 2 phan fit với nhau hoàn

chỉnh thành một model mới.

Các chiến lược fine-tune thường dùng:

- Khi dataset cho target tasks lớn và tương tự với dataset cho source tasks:

đây là trường hợp lý tưởng, có thé dùng weights của pretrained model dékhởi tạo cho phần pre-trained, sau đó train cả transfered model hay chỉ vớiphần được thêm vào

~ Khi dataset cho target tasks nhỏ và tương tự với dataset cho source tasks:

vi dataset là nhỏ, nếu train lại phan pre-trained sẽ dẫn đến overfitting, do

Trang 32

đó chúng ta chỉ train những layer được thêm vào với weights khởi tạo cho.

pretrained như trên.

~ Khi dataset cho target tasks lớn và khác biệt với dataset cho source tasks: bởi vì dataset của chúng ta có sự khác biệt nên khi dùng weights từ

pretrained model sẽ làm giảm accuracy vì sự khác biệt trong tasks và

dataset, nhưng cũng chính vì dataset lớn nên việc train toàn bộ transfered

model từ đầu là hiệu quả nhất, giúp cho model thích nghỉ tốt hơn với dataset

này.

- Khi dataset cho target tasks nhỏ và khác biệt với dataset cho source tasks:

đây là trường hợp khó khăn nhất, có 2 cách tiếp cận:

input dé thích nghỉ với dataset mới (những high-level features sẽ thayđổi vào các low-level features đã được lấy từ các layer trước đó) nhưng

không được train các layer gần input của pretrained vì dataset nhỏ sẽ

không thể train được các layer này hiệu quả và các layer này chỉ tríchxuất các features tông quát từ dataset, sẽ không ảnh hưởng đến target

task.

2.3 DANH GIÁ HE THONG TOM TAT TIN TỨC

Các phương pháp đánh giá một ứng dụng tóm tat được chia thành hai loại là đánh giá bên trong (intrinsic) và đánh giá bên ngoài (extrinsic) Đánh giá bên trong

thâm định hệ thống tóm tắt ngay bên trong hệ thống Còn đánh giá bên ngoài thì quan

tâm đến các yếu tố khác không thuộc hệ thống Nói cách khác, các phương pháp đánhgiá bên trong đánh giá các thông số nội tại như độ chặt chẽ mạch lạc (coherence),

thông qua đó sẽ nói lên được chất lượng của hệ thống Các phương pháp đánh giá bênngoài, ngược lai, áp dụng vào hệ thống những nhiệm vụ cụ thé và thông qua các tiêuchí kết quả như độ phù hợp (relevance) hay độ dé đọc dé hiểu (reading comprehension)

dé đánh giá một hệ thống tóm tắt xem có tốt cho người dùng khi họ sử dụng hệ thống

vào những mục tiêu khác nhau hay không.

Trang 33

Các tiêu chí đánh giá kết quả của một hệ thống tóm tắt văn bản, còn là nhữngtham số mà người dùng có thể đưa vào hệ thống để phục vụ mục đích của mình,

thường gồm các giá trị như sau:

- Độ rút gọn (độ nén) là tỷ số giữa số lượng đơn vị ngữ liệu của văn bản kếtquả trên số lượng đơn vị ngữ liệu của tập văn bản vào Tỉ lệ này có thể làcâu/câu, từ/từ, tiếng/tiếng, hoặc đơn giản hơn là ký tự/ký tự, thường tínhbằng % Giá trị chuẩn của độ rút gọn thường là khoảng 10% đến 30% của

văn bản gốc, nhưng hiền nhiên giá trị nó có thé là nằm từ khoảng 1% đến

99% được coi là đã tóm tắt theo định nghĩa Tóm tắt tại độ rút gọn 10%

thường được coi là tốt hơn tóm tắt tại độ rút gọn 20%

- _ Độ chính xác: thé hiện mối quan hệ giữa văn bản kết quả với tập văn bản

tóm tắt mẫu Được đánh giá dựa trên các hệ thống đánh giá tóm tắt nhưDUC, SUMMAC, ROUGE và các tập dữ liệu, kiêm thử mẫu (Corpus)

- Mức độ liên kết thé hiện sự liên kết giữa các đơn vị ngữ liệu của văn bảnkết quả với nhau Đánh giá dựa trên các mô hình biểu diễn ngữ nghĩa và

cú pháp Một số hệ thống đánh giá cũng dựa vào độ dễ đọc, dễ hiểu để thay

thế cho tiêu chí mức độ liên kết này

'Việc đánh giá hệ thống tóm tắt sẽ bị ảnh hưởng bởi các yếu tố:

- Tóm tắt liên quan tới việc máy tính sinh ra kết quả ở dang giao tiếp ngônngữ tự nhiên của con người Trong trường hợp kết quả là một câu trả lờicho một câu hỏi, chúng ta có thé xác định được câu trả lời đó đúng hoặcsai nhưng trong các trường hợp khác, thật khó đề trả lời cho câu hỏi “liệu

đầu ra là một kết quả đúng?” Thực tế luôn có khả năng hệ thống sinh ra

một bản tóm tắt tốt nhưng lại khác nhiều với bản tóm tắt mà con người thựchiện Điều này cũng là van đề với các bài toán khác như: dịch máy, phân

loại văn bản, tiếng noi,

- Khi các chuyên gia được yêu cầu đánh giá kết quả hệ thống, chi phí đánh

gid sẽ tăng (về thời gian, tiền bạc, công sức, ) Một phương pháp đánh

giá bang cách cho điểm tự động thay vì thực hiện bởi người sẽ được quantâm hon bởi chúng có thé lặp đi lặp lại nhiều lần bat cứ khi nào chúng tamuốn

Trang 34

- Việc tóm tat còn liên quan tới việc nén kích thước văn bản (giảm số câu,rút gọn từng câu) Vì vậy, đánh giá kết quả ở các độ nén khác nhau là một

việc tối quan trọng không thể thiếu Tuy nhiên, điều này làm tăng độ phứctạp và chi phí của việc đánh giá.

Rouge 1, Rouge 2,Rouge N, Rouge L.

Hình 2.3: Các phương pháp đánh giá mô hình tóm tắt

Có nhiều phương pháp được sử dung trong đánh giá bài toán tóm tắt tin tức.Mỗi phương pháp có ưu nhược điểm riêng, tùy thuộc vào mục đích và đặc điểm củabài toán mà ta có thể chọn phương pháp phù hợp:

- ROUGE (Recall-Oriented Understudy for Gisting Evaluation) [4] được đề

xuất bởi Lin năm 2004 Nó là một phương pháp đánh giá dựa trên sự đồngnhất giữa các từ hoặc câu giữa bản tóm tắt và bản gốc ROUGE tính toán

các độ đo đồng nhất (precision, recall và Fl-score) của bản tóm tắt so với

bản góc

# Ưu điểm:

" _ Đánh giá dựa trên sự đồng nhất giữa bản tóm tắt và bản gốc,cho phép đánh giá độ chính xác của bản tóm tắt dựa trên các

Trang 35

Được sử dụng rộng rãi trong các cuộc thi tóm tắt tin tức vàđược chấp nhận là phương pháp đánh giá chính thức.

Có thể tính toán độ đồng nhất cho các cấu trúc khác nhau, từ

cụm từ đến câu hoặc đoạn văn

Có thể áp dụng cho cả bài toán tóm tắt trích xuất và tóm tắt

trừu tượng.

s* Nhược điểm:

Chỉ đánh giá độ đồng nhất giữa bản tóm tắt và bản gốc,không đánh giá tính chính xác và tính rõ ràng của bản tómtat

Chỉ đánh giá độ đồng nhất giữa bản tóm tắt va bản gốc,không đánh giá độ phù hợp với mục đích sử dụng của bảntóm tắt

Không đánh giá được các yếu té ngữ nghĩa và ngữ cảnh trongbản tóm tắt, như khả năng giải thích, sự liên kết giữa cácthông tin, hay độ chính xác của thông tin được tóm tắt

Không đánh giá được tính đa dạng và độ phong phú của bảntóm tắt, chỉ đánh giá độ đồng nhất giữa bản tóm tắt và bản

gốc

- BLEU (Bilingual Evaluation Understudy) được dé xuất bởi KishorePapineni và các đồng nghiệp vào năm 2002 Nó là một phương pháp đánhgiá chất lượng dịch thuật dựa trên sự chính xác của các từ hoặc cụm từ

trong tóm tắt so với văn bản nguồn và BLEU cũng được sử dụng đánh giá

tóm tắt văn bản bằng cách so sánh các cụm từ trong tóm tắt với các cụm từtrong văn bản nguồn và tính toán độ chính xác

® Ưu điểm:

Một độ đo đơn giản, dé sử dung và hiểu

Kết quả nhanh và dễ tính toán

Một trong những độ đo phố biến nhất trong tóm tắt tin tức.Nhược điểm:

Trang 36

= C6 thé không phản ánh chính xác chất lượng của tóm tắt, đặcbiệt là khi tóm tắt có độ dài khác nhau hoặc không chính xác.

= Không đánh giá được sự da dang của các tóm tắt, vì nó chỉtính toán độ chính xác của các từ và cụm từ.

= Không đánh giá được tính đúng đắn về ngữ pháp, cấu trúccâu và logic của tóm tắt

- METEOR (Metric for Evaluation of Textual Entailment and Paraphrasing)

là một độ do định lượng dùng dé đánh giá chất lượng tóm tắt dựa trên độ

đo độ tương đồng giữa các cụm từ và các đơn vị ngôn ngữ khác nhau.METEOR ban đầu được phát triển dé đánh giá chất lượng của các hệ thống

dịch máy, nhưng sau đó đã được sử dụng rộng rãi cho các bài toán tóm tắt

tin tức.

Ưu điểm:

= Có khả năng đánh giá sự giống nhau về ý nghĩa giữa tóm tắt

và văn bản nguồn

= Cho phép sử dụng các ngôn ngữ khác nhau trong đánh giá,

do đó rất phù hợp cho các bài toán tóm tắt đa ngôn ngữ

= Cho phép sử dụng các nguồn tri thức bên ngoài dé cải thiện

độ chính xác của kết quả đánh giá

với các văn bản nguồn có độ dài khác nhau

- CIDEr (Consensus-Based Image Description Evaluation) là một độ đo định

lượng đánh giá chất lượng tóm tắt sử dụng các phương pháp đánh giá thông

tin, bao gồm độ tương tự, sự đa dang và sự mới mẻ của bản tóm tắt

Trang 37

Cho phép đánh giá độ chính xác của các từ đơn và cụm từ

được sử dụng trong tóm tắt

Có khả năng đánh giá chất lượng của tóm tắt dựa trên nhiều

thông tin về từ vựng và cấu trúc câu, giúp đảm bảo tính toàn

diện trong đánh giá.

Cho phép sử dụng các ngôn ngữ khác nhau trong đánh giá,

do đó rất phù hợp cho các bài toán tóm tắt đa ngôn ngữ

Được sử dụng phô biến trong các cuộc thi về tóm tắt tỉn tức

và có tính khách quan cao.

“ Nhược điểm:

Có thể không đánh giá chính xác khả năng đọc hiểu và sựtóm tắt đầy đủ của nội dung

Không đánh giá được tính nhất quán và mạch lạc của tóm tắt

trong suốt nội dung tin tức

Không thé đánh giá được sự đa dạng của tóm tắt và su thé

hiện các thông tin quan trọng trong nội dung tin tức.

Có thê không phù hợp cho các bài toán tóm tắt ngắn và đơn

giản.

- Human Evaluation: Phương pháp này yêu cầu người đánh giá đọc văn bảnnguồn và tóm tắt được tạo bởi hệ thống, sau đó đánh giá và cho điểm vềtính đầy đủ, tính chính xác và tính rõ ràng của bản tóm tắt Tuy nhiên,phương pháp này tốn nhiều thời gian và tài nguyên

Dé đánh giá hệ thống tóm tắt tin tức tiếng Anh trong lĩnh vực Tài chính, đề tài

sử dụng ROUGE với các độ đo là độ tin cậy (precision), độ bao phủ (recall) và

F1-Score như là phương pháp đánh giá cho hiệu quả tóm tắt tin tức của hệ thống dựa trên

các kết quả tóm tắt tin tức trong quá trình thực nghiệm ROUGE được sử dụng rong

rãi trong các cuộc thi tóm tắt tin tức và được chấp nhận là phương pháp đánh giá

chính thức:

- Đã được sử dụng trong nhiều cuộc thi tóm tắt tin tức như DUC (Document

Understanding Conference), TAC (Text Analysis Conference) và đã trở

thành phương pháp đánh giá chính thức cho nhiều cuộc thi nay

Trang 38

- Có nhiều phiên bản ROUGE với mức độ phức tạp khác nhau: ROUGE-I,ROUGE-2, ROUGE-L và ROUGE-S Các phiên bản này cung cấp mức độ

đánh giá khác nhau cho độ chính xác của tóm tắt, từ đánh giá chính xác các

từ đơn đến đánh giá chính xác cả cấu trúc câu

- Được thiết kế dé đánh giá độ đồng nhất giữa bản tóm tắt và bản gốc, là mộtyêu cầu cơ bản và quan trọng của bài toán tóm tắt

- Có khả năng đánh giá độ đồng nhất cho các cầu trúc khác nhau, từ cụm từ

đến câu hoặc đoạn văn, giúp đánh giá độ chính xác của các mô hình tóm

tắt với nhiều mức độ khác nhau

- C6 thể áp dụng cho cả bài toán tóm tắt trích xuất và tóm tắt trừu tượng, phùhợp với các mô hình tóm tắt khác nhau

- Được chấp nhận là một phương pháp đánh giá khách quan và phù hợp với

các tiêu chuân đánh giá khác trong lĩnh vực NLP, giúp đảm bảo tính công

bằng và chính xác trong việc so sánh và đánh giá các mô hình tóm tắt khác

nhau.

Độ đo ROUGE là sự tính toán số trùng lặp của các đơn vị ngữ liệu của vănbản như n-gram, thứ tự từ và các cặp từ giữa văn bản do máy tính sinh ra với văn bản

đo con người tạo ra Hai loại đánh giá ROUGE được sử dụng cho đề tài:

- ROUGE-N: Nó đo lường sự trùng lặp của n-gram giữa bản tóm tắt đượctạo tự động và bản tóm tắt tham chiếu Trong n-gam giá trị của N có thểthay đổi từ 1 đến n nhưng khi giá trị của n tăng thì chi phí tính toán cingtăng nhanh Các số liệu n-gram được sử dụng chủ yếu là uni và bi-gram

- ROUGE-L: Là tính toán dựa trên dãy con chung dài nhất (LCS) giữa các

câu trong văn bản đánh giá với văn bản mẫu (Cho hai dãy có thứ tự X và

Y, một dãy con chung lớn nhất của X và Y là một dãy con chung có độ dài

lớn nhát)

Một cách hình thức, ROUGE-N là một độ đo đối với các n-gram trong văn bản

tóm tắt ứng viên và trong tập các văn bản tóm tắt tham khảo, được tính theo côngthức ở dưới đây:

Trang 39

h3 Ð)Count,„„„(gram, )

ROUGE-N = S2{ReferenceSunmaries} gram, eS

> Count (gram, )

Se{ReferenceSummartes} gram, €S

Trong công thức trên, n biểu thị cho chiều dai của n-gram, Countmach(gramn)

là số chuỗi n-gram lớn nhất xuat hiện trong văn bản tóm tắt ứng viên và tập các văn

bản tóm tắt tham khảo

Trang 40

CHƯƠNG 3

THUC NGHIỆM VÀ ĐÁNH GIÁ

Chương 3 trình bày quá trình thực nghiệm các phương pháp giải quyết vấn đề

về tóm tắt tin tức với phạm vi đề tài Trình bày mô hình xây dựng công cụ tóm tắt tintức Sau đó, cài đặt thử nghiệm ứng dụng tóm tắt tin tức tiếng Anh trong lĩnh vực Tàichính Hệ sinh thái ứng dụng thử nghiệm trên nền web Tiến hành phân tích các yêu

cầu và chức năng của ứng dụng, thiết kế các thành phần xử lý tương ứng và thực

nghiệm, đánh giá kết quả từ giải pháp

3.1 XÂY DỰNG DỮ LIEU CHO CÔNG CỤ TÓM TAT TIN TỨC TÀI

CHÍNH

Đối với thống tóm tắt tin tức tiếng Anh trong lĩnh vực Tài chính Luận văn

đã xác định miền dữ liệu là các tin tức trong lĩnh vực Tài chính bằng tiếng Anh

Cˆ news crawler

(Selenium tool; File data

news-| ae ye News Finance

Hình 3.1.a: Mô hình tông quát xây dựng dữ liệu

Sau quá trình thu thập, chọn lọc và tiên xử lý đữ liệu đã tổng hợp được 4514tin tức về Tài chính

Tiêu đề	Xây dựng công cụ tóm tắt tin tức tiếng Anh dựa trên Transfer Learning: ứng dụng cho lĩnh vực tài chính
Tác giả	Nguyen Tran Duy
Người hướng dẫn	PGS. TS. Nguyen Tuan Dang
Trường học	Trường Đại học Công nghệ Thông tin - ĐHQG TP.HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	92
Dung lượng	52,22 MB