Phân lớp tin tức tiếng việt dựa trên mô hình bert

Qua quátrình phân loại, người dùng có thể dễ dàng quản lý và tìm kiếm văn bản liênquan đến các chủ đề cụ thể, từ đó tiết kiệm thời gian và nỗ lực trong việc tìmkiếm thông tin.Trong luận

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

- ∞0∞ -

LÊ HỒ QUANG LUÂN

PHÂN LỚP TIN TỨC TIẾNG VIỆT DỰA TRÊN MÔ HÌNH BERT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

TP HỒ CHÍ MINH, NĂM 2023

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH

- ∞0∞ -

LÊ HỒ QUANG LUÂN

PHÂN LỚP TIN TỨC TIẾNG VIỆT

DỰA TRÊN MÔ HÌNH BERT

Chuyên ngành: Khoa học máy tính

Mã số chuyên ngành: 8 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Giảng viên hướng dẫn: TS TRƯƠNG HOÀNG VINH

TP HỒ CHÍ MINH, NĂM 2023

Trang 3

Tôi tên là: Lê Hồ Quang Luân

Ngày sinh: 02/10/1986 Nơi sinh: Ninh Thuận

Chuyên ngành: Khoa Học Máy Tính Mã học viên: 1884801010013

Tôi đồng ý cung cấp toàn văn thông tin luận văn tốt nghiệp hợp lệ về bản quyền cho Thư viện trường đại học Mở Thành phố Hồ Chí Minh Thư viện trường đại học Mở Thành phố Hồ Chí Minh sẽ kết nối toàn văn thông tin luận văn tốt nghiệp vào hệ thống thông tin khoa học của Sở Khoa học và Công nghệ Thành phố Hồ Chí Minh

Ký tên

Lê Hồ Quang Luân

Trang 4

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

Ý KIẾN CHO PHÉP BẢO VỆ LUẬN VĂN THẠC sĩ

CỦA GIẢNG VIÊN HƯỚNG DẪN

Tôitên: Lê Hồ Quang Luân

Ngày sinh: 02/10/1986 Nơi sinh: Ninh Thuận

Mã học viên: 1884801010013 Lớp:MCOM018B

Địa chỉ liên lạc: 1199 Cách mạng tháng 8, Ninh An, Bàu Năng, Dương Minh Châu, Tây

Ninh

Điện thoại:0901.638.388 Email: luanlhq.188i@ou.edu.vn

Tên đề tài: Phân Lớp Tin Tức Tiếng Việt Dựa TrênMô Hình Bert

Ý kiến của giáo viên hướng dẫn về việc cho phép học viên 1'.; 1.1 .hrýíV?

được bảo vệ luận văn trước Hộiđồng:

Thành phổ Hồ Chí Minh, ngày Ư tháng Ồ.5 năm 2023.

Ngườinhận xét

Trang 5

LỜI CAM ĐOAN

Tôi tên là Lê Hồ Quang Luân, học viên cao học lớp MCOM018A niên khoá

2018 - 2020 Tôi xin cam đoan luận văn “Phân lớp tin tức tiếng việt dựa trên

mô hình BERT” là công trình nghiên cứu khoa học độc lập của riêng tôi dưới

sự hướng dẫn thầy tiến sĩ Trương Hoàng Vinh

Các kết quả nghiên cứu trong luận văn do tôi tự tìm hiểu, phân tích một cáchkhách quan và phù hợp với thực tiễn Kết quả nghiên cứu được công bố trongluận án là trung thực Các tài liệu sử dụng trong luận văn có trích xuất nguồngốc rõ ràng, theo đúng quy định

Kết quả của luận văn này chưa được nộp để nhận bất kỳ bằng cấp nào tạicác trường đại học hoặc cơ sở đào tạo khác Tôi xin cam đoan và chịu hoàn toàntrách nhiệm về nội dung này

Thành phố Hồ Chí Minh, năm 2023

Lê Hồ Quang Luân

Trang 6

LỜI CẢM ƠN

Tôi xin gửi lời cám ơn đến những người đã giúp tôi hoàn thành luận văn này.Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc nhất tới Tiến sĩ Trương HoàngVinh, tôi thật may mắn khi có được một người hướng dẫn nhiệt tình và mẫumực như vậy Nếu không có sự hướng dẫn và hỗ trợ kiên nhẫn của Thầy ấy, tôi

đã không thể vượt qua những thử thách mà tôi gặp phải trong suốt quá trìnhviết lách của mình

Ngoài ra, tôi rất biết ơn tất cả các quý Thầy Cô ngành Khoa học Máy tínhkhoa Sau Đại Học, trường Đại học Mở Thành phố Hồ Chí Minh đã giảng dạytôi trong suốt hơn hai năm học tại trường

Tôi cũng cám ơn bạn bè của tôi, những người đã tham gia vào mọi giai đoạncủa quy trình và đã giúp tôi hoàn thành bài luận văn này Cám ơn các bạn đã

hỗ trợ kịp thời, mang tính xây dựng Bên cạnh đó, tôi vô cùng cám ơn các AnhChị đang công tác tại văn phòng Khoa Đào Tạo Sau Đại Học của trường CácAnh Chị đã luôn nhiệt tình giúp đỡ và giải đáp các thắc mắc của tôi trong suốtquá trình học cũng như làm luận văn

Cuối cùng, tôi xin gửi lời cám ơn đến gia đình tôi, những người đã luôn đồnghành và hết lòng yêu thương, hỗ trợ tôi trong suốt quá trình học tập cả về vậtchất lẫn tinh thần Nếu không có sự động viên và khích lệ của gia đình thì tôi

đã không có đủ động lực để vượt qua khó khăn và tự tin bước tiếp

Trân trọng cám ơn tất cả

Trang 7

Trong luận văn, tác giả đã được thực hiện công việc xây dựng một bộ dữ liệumới về phân loại văn bản tin tức tiếng Việt, với 21,796 mẫu với 10 chủ đề đượctải từ các trang website tin tức Việt Nam Bộ dữ liệu này có tiềm năng sử dụngtrong các nghiên cứu tương lai và ứng dụng thực tế.

Ba mô hình được triển khai và huấn luyện trên bộ dữ liệu này: mô hìnhLSTM, mô hình BERT và mô hình PhoBERT LSTM là một mô hình mạngthần kinh tái phân cấu dựa trên kiến trúc RNN, trong khi BERT và PhoBERT

là các mô hình dựa trên Transformer, được huấn luyện trên dữ liệu lớn Sau khihuấn luyện, các mô hình được đánh giá bằng các độ đo hiệu suất như độ chínhxác (accuracy), độ phủ (recall), độ chính xác trung bình (average precision) và

Trang 8

F1-score Kết quả cho thấy rằng mô hình PhoBERT mang lại kết quả tốt nhấttrên tất cả các độ đo, vượt trội hơn so với LSTM và BERT Điều này chứng tỏkhả năng phân loại văn bản tiếng Việt của mô hình PhoBERT là ưu việt.

Từ kết quả này, luận văn nhận thấy rằng mô hình PhoBERT là lựa chọn tốtnhất để phân loại văn bản tiếng Việt Các kết quả này có thể được ứng dụngtrong các tác vụ xử lý ngôn ngữ tự nhiên, từ việc phân loại tin tức, phân tích ýkiến đến tổng hợp văn bản và nhiều ứng dụng khác

Trang 9

In everyday life, text has become an indispensable means of communicationand information for individuals and organizations With diverse natural lan-guages, lengths, and structures, text appears in various forms such as handwrit-ing and electronic documents The function of text goes beyond storage andinformation retrieval; it plays a vital role in organizing both regular and impor-tant information With sources ranging from news articles to internal companydocuments, text classification has become extremely important Through theclassification process, users can easily manage and search for relevant documents

on specific topics, saving time and effort in information retrieval

In the thesis, the construction of a new dataset for Vietnamese news textclassification was carried out, consisting of 21,796 samples with 10 differenttopics collected from Vietnamese news websites This dataset holds potential forfuture research and practical applications

Three models were deployed and trained on this dataset: the LSTM model,the BERT model, and the PhoBERT model LSTM is a reoccurring neural net-work model based on the RNN architecture, while BERT and PhoBERT areTransformer-based models trained on large-scale data After training, the mod-els were evaluated using performance metrics such as accuracy, recall, averageprecision, and F1-score The results showed that the PhoBERT model achievedthe best performance across all metrics, outperforming LSTM and BERT This

Trang 10

demonstrates the superior capability of PhoBERT in Vietnamese text cation.

classifi-Based on these results, the thesis concludes that PhoBERT is the best choicefor Vietnamese text classification These findings can be applied to various nat-ural language processing tasks, including news classification, sentiment analysis,text summarization, and many other applications

Trang 11

MỤC LỤC

1.1 Giới thiệu luận văn 1

1.2 Tình Hình nghiên cứu phân loại tin tức 3

1.2.1 Nghiên cứu của Jing & ctg 3

1.2.2 Nghiên cứu của Tang & ctg 4

1.2.3 Nghiên cứu của Li & ctg 5

1.2.4 Nghiên cứu của Rai & ctg 6

Trang 12

1.2.5 Nghiên cứu của Đạt và Tuấn 7

1.2.6 Nghiên cứu của Sáu và Toanh 8

1.2.7 Nhận xét về các nghiên cứu 9

1.3 Mục tiêu của luận văn 10

1.4 Đối tượng và phạm vi nghiên cứu 11

1.4.1 Đối tượng nghiên cứu 11

1.4.2 Phạm vi nghiên cứu 11

1.5 Phương pháp nghiên cứu 11

1.6 Đóng góp của luận văn 14

1.6.1 Ý nghĩa khoa học 14

1.6.2 Ý nghĩa thực tế 15

1.7 Cấu trúc của luận văn 16

2 Tổng quan về xử lý ngôn ngữ tự nhiên 17 2.1 Tổng quan mạng Neural 17

2.1.1 Mạng neural nhân tạo 17

2.1.2 Mô hình mạng neural hồi quy 20

2.1.3 Mô hình mạng LSTM 23

2.2 Tiền xử lý văn bản 27

2.3 Tổng quan Kỹ thuật Transformer 31

2.4 Giới thiệu BERT 33

2.4.1 Khái lược 34

2.4.2 Cách thức hoạt động 36

2.5 Kết luận chương 2 39

3 Phương pháp đề xuất và kết quả thực nghiệm 40 3.1 Giới thiệu bộ dữ liệu tin tức - OUNEWS2022 40

3.2 Phương pháp crawl dữ liệu 43

3.3 Một số kỹ thuật tiền xử lý 45

Trang 13

3.4 Đề xuất phương pháp Transfer Learning 47

3.5 Quá trình phân loại tin tức tiếng việt 52

3.5.1 Bộ dữ liệu thực nghiệm 52

3.5.2 Tiêu chí đánh giá 53

3.5.3 Môi trường thực hiện 55

3.5.4 Các mô hình thực nghiệm 58

3.5.5 Quá trình huấn luyện 60

3.5.6 Kết quả thực nghiệm 67

3.6 Kết luận chương 3 72

4 Kết quả đạt được và hướng phát triển 73 4.1 Kết quả đạt được và hạn chế 73

4.1.1 Đóng góp của đề tài về mặt lý thuyết và thực tiễn 73

4.1.2 Hạn chế của luận văn 74

4.2 Hướng phát triển cho tương lai 74

4.3 Kết luận 75

Trang 14

DANH MỤC HÌNH VÀ ĐỒ THỊ

2.1 Mô hình mạng neural nhân tạo 18

2.2 Mô hình mạng neural hồi quy 21

2.3 RNN LSTM GRU 22

2.4 Kiến trúc LSTM 23

2.5 Cổng quên 24

2.6 LSTM tính toán giá trị lưu tại cell state 25

2.7 Đầu ra 26

2.8 Ví dụ phân đoạn câu văn bản 28

2.9 Ví dụ tách từ trong câu 28

2.10 Ví dụ Pos Tagging 29

2.11 Ví dụ DependencyParsing 29

2.12 Ví dụ phân loại tin tức 30

2.13 Sơ đồ kiến trúc transformer kết hợp với attention 32

2.14 Lớp Masked Language Model 37

3.1 Giới thiệu bộ dữ liệu VNTC 41

3.2 Bảng dữ liệu crawl từ internet 42

3.3 Mô hình làm kho dữ liệu 43

3.4 Ví dụ: trang tin tuc dân tri 44

3.5 Ví dụ: code mẫu lấy link theo chủ đề thegioi 45

3.6 Ví dụ: kết quả lấy link dantri chủ đề thegioi 45

Trang 15

3.7 Ví dụ: các tin tức đã gán theo chủ đề 52

3.8 Độ dài của văn bản theo từng chủ đề 53

3.9 Cấu hình colab 55

3.10 Cấu hình GPU colab 56

3.11 Xây dưng mô hình LSTM sử dụng TensorFlow 59

3.12 Sơ đồ chạy thực nghiệm với 3 mô hình 60

3.13 Biểu đồ Matrix của LSTM 61

3.14 Ma trận Matrix của LSTM 61

3.15 Biểu đồ confusion Matrix LSTM 62

3.16 Mô hình train Loss của BERT 63

3.17 Mô hình train Accuracy của BERT 64

3.18 Biểu đồ Matrix của BERT 64

3.19 Biểu đồ Accuracy và F1 score của PhoBERT 65

3.20 Biểu đồ Average training loss của PhoBERT 65

3.21 Biểu đồ Matrix của PhoBERT 66

3.22 Biểu đồ kết quả thực nghiệm 3 mô hình 67

Trang 16

DANH MỤC BẢNG

2.1 Các phiên bản của BERT 35

3.1 Định nghĩa của một số nhiệm vụ trong NLP [26] 49

3.2 Kết quả đánh giá của các mô hình 67

3.3 Kết quả thực nghiệm mô hình PhoBERT 68

3.4 Kết quả thực nghiệm mô hình BERT 70

3.5 Kết quả thực nghiệm mô hình LSTM 71

Trang 17

DANH MỤC VIẾT TẮT

ANN Artificial Neural Network Mạng Nơ-ron Nhân tạo

BERT Bidirectional Encoder

Repre-sentations from Transformers

Mô hình mã hóa hai chiều từTransformers

EDA Exploratory Data Analysis Phân tích dữ liệu khám pháGPU Graphics Processing Unit Đơn vị xử lý đồ họa

HTML Hypertext Markup Language Ngôn ngữ đánh dấu siêu văn

bản

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiênNLU Natural Language Understand-

ing

Hiểu ngôn ngữ tự nhiên

Trang 18

Chương 1

TỔNG QUAN VỀ PHÂN LOẠI VĂN

BẢN

Trong cuộc sống hằng ngày, văn bản xuất hiện ở khắp mọi nơi và không còn

xa lạ với các cá nhân hay tổ chức Đánh giá của Jing & ctg [1] cho thấy, sự rađời của thời đại Internet đã khiến cho thông tin tin tức trên các nền tảng xãhội khác nhau phát triển mạnh mẽ và tạo ra một lượng lớn dữ liệu Các dữ liệunày phần lớn đều ở dạng văn bản Theo Ballal [2], đây là một nguồn thông tin

đa dạng và phong phú nhưng rất khó xử lý vì nó không có cấu trúc về mặt bảnchất Do đó, để có thể tiếp cận thông tin được dễ dàng và thuận lợi, việc phânloại văn bản (PLVB) trở nên vô cùng cấp thiết và quan trọng Điều này khôngchỉ giúp người dùng thuận tiện trong quản lý, tìm được đúng chủ đề thông tinphù hợp mà trên hết, mà còn giúp tiết kiệm thời gian quý báu

Kafle [3] đã định nghĩa PLVB tin tức là quá trình nhóm các tài liệu tin tứckhác nhau thành các danh mục cụ thể Đánh giá của Zhang [4] cho thấy, tronglĩnh vực PLVB, PLVB tin tức luôn là trọng tâm nghiên cứu và khá khó khăn.Với phát triển ngày càng tiến bộ của công nghệ học sâu (Deep Learning - DL)

và khai phá dữ liệu, phương pháp PLVB truyền thống đã không còn đáp ứng

Trang 19

nhu cầu phân loại nhanh chóng, chính xác và hiệu quả của mọi người.

Theo Li & ctg [5], các tác vụ PLVB truyền thống yêu cầu một lượng lớn dữliệu được dán nhãn, tuy nhiên, dữ liệu do con người dán nhãn không chỉ đắttiền mà còn dễ bị ảnh hưởng bởi ý thức chủ quan của người dán nhãn Khôngchỉ vậy, con người hay mắc lỗi trong việc phân loại dữ liệu văn bản do mất tậptrung, mệt mỏi, nhàm chán và sự chủ quan tạo ra các tiêu chí không nhất quán.Phương pháp PLVB truyền thống có thể mang lại kết quả tốt nhưng lại tiêu tốnnhiều thời gian và công sức

Trong khi đó, những tiến bộ trong khoa học và công nghệ đã giúp cho việcPLVB diễn ra được dễ dàng hơn, nhanh chóng hơn và chính xác hơn Ngườidùng chỉ cần đưa một đoạn văn hay tập hợp dữ liệu, hệ thống sẽ đưa ra chủ đềcủa văn bản Máy tính hoàn toàn có thể tự động phân loại, dán nhãn văn bảntheo các tiêu chuẩn phân loại nhất định thông qua công nghệ PLVB Do đó, việcPLVB không giám sát bằng máy tính trở nên phù hợp với lĩnh vực này Tronghầu hết các trường hợp, tên nhãn của mỗi danh mục mang tính hướng dẫn chonhiệm vụ phân loại

Nhìn chung, PLVB là một hướng nghiên cứu quan trọng và vô cùng cần thiết.Nhiệm vụ PLVB là một trong những nhiệm vụ cơ bản nhất trong xử lý ngônngữ tự nhiên (NLP) [6] Các công trình nghiên cứu gần đây đã cho thấy nhiềukết quả khả quan, nhất là trong PLVB tiếng Anh với các kỹ thuật được áp dụngnhư Support Vector Machine (SVM) [7], Fuzzy Soft [8], KNN và Na¨ive Bayes[9], Sandwich Neural Network SNN [10] Có thể thấy, tiếng Anh là ngôn ngữ phổbiến nên được nhiều tác giả nghiên cứu và thực nghiệm Tuy nhiên việc PLVBvẫn gặp những vấn đề khó khăn như thiếu dữ liệu huấn luyện Các mô hình DLthường cần dữ liệu rất lớn và thường mỗi dữ liệu chỉ cho trong một chủ đề cụthể Để giải quyết những khó khăn nêu trên, ngày 02/11/2018 [11] những nhànghiên cứu Google đã giới thiệu BERT (Bidirectional Encoder Representationsfrom Transformers) có thể cải thiện trong NLP với thiếu dữ liệu huấn luyện

Trang 20

Thành công của nó đã trở nên phổ biến khi mang lại nhiều lợi ích cho việc NLPnhưng giới hạn chỉ với ngôn ngữ tiếng Anh.

Đối với ngôn ngữ tiếng Việt thì việc PLVB chưa được nhiều nhà nghiên cứuquan tâm Dù vậy, cũng có những công trình như [12] đã tiếp cận hầu hết cácthuật toán bao gồm kNearest Neighbor, Na¨ive Bayes, Cây quyết định, RandomForest, SVM, các chiến lược phân loại nhị phân tổng hợp như One-vs-One, One-vs-All để phân loại nhiều lớp vấn đề đánh giá bộ dữ liệu Tin tức Việt Nam.Ngoài ra còn có nghiên cứu của Tín & ctg [13] ứng dụng PLVB dùng trong giáodục nhằm nâng cao chất lượng giảng dạy, nhà trường lắng nghe phản hồi từ sinhviên dưới dạng nhận xét trong các cuộc khảo sát hay như nghiên cứu của Sáu

và Toanh [14] đã ứng dụng mô hình BERT để phân loại hồ sơ lưu trữ theo thờihạn bảo quản

Bên cạnh đó còn có nghiên cứu của Đạt và Tuấn [15] Từ khi BERT đượcGoolge cung cấp mã 3 nguồn mở hỗ trợ trên 104 ngôn ngữ, thì các nhà nghiêncứu đã cho ra PhoBERT [11] để giải quyết cho ngôn ngữ tiếng Việt Các ứngdụng của PhoBERT có thể giải quyết các vấn đề như phân loại cảm xúc, PLVB,huấn luyện chatbots Tác giả nhận thấy hướng phát triển của mô hình BERTcũng như PhoBERT trong PLVB bằng tiếng Việt còn rất nhiều tiềm năng Do

đó dựa vào mô hình BERT và PhoBERT, tác giả đề xuất hướng tiếp cận "phânloại tin tức tiếng Việt dựa trên PhoBERT" Chọn đề tài này, tác giả cũng kỳvọng sẽ có cơ hội tìm hiểu sâu hơn các lý thuyết có liên quan đến việc PLVB,

từ đó có thể tìm ra thêm các hướng nghiên cứu mở rộng trong tương lai

Theo Jing & ctg [1], thông tin văn bản ngắn như tiêu đề tin tức, tin nhắnngắn và bản tin có số lượng từ nhỏ và nội dung hạn chế nên thường khó trích

Trang 21

xuất thông tin hiệu quả Đặc điểm thông tin thưa thớt gây khó khăn trongPLVB Nếu hệ thống tin tức không thể thực hiện phân loại tin tức và đề xuất

sở thích của người dùng một cách hiệu quả và chính xác, điều đó chắc chắn sẽảnh hưởng đến trải nghiệm và tần suất của người dùng nền tảng Nhằm pháthuy giá trị quý báu của khối dữ liệu lịch sử đồ sộ và thúc đẩy, ứng dụng côngnghệ dữ liệu lớn trong lĩnh vực phân loại và khuyến nghị văn bản tin tức, cáctác giả đã xây dựng một mô hình kết hợp dựa trên Wide&Deep và mô hình đàotạo trước BERT cải tiến, gọi là mô hình Wide&Deep-BERT Trong trường hợp

dữ liệu thưa thớt nhiều chiều, mô hình Wide&Deep có thể tự động kết hợp cáctính năng cấp cao và cấp thấp để khai thác các tính năng sâu hơn Mô hìnhngôn ngữ BERT có thể khai thác thông tin tính năng trong các tính năng vănbản và cải thiện khả năng khái quát hóa các đề xuất Ngoài ra, quy trình côngnghệ đề xuất và PLVB tin tức tương ứng được đề xuất, và khung DL Tensorflowđược sử dụng để xác minh thực nghiệm công nghệ

Kết quả thực nghiệm của các tác giả cho thấy, việc sử dụng hai mô hình cùngnhau có thể gia tăng độ chính xác của khuyến nghị khi độ chính xác của mô hìnhWide&Deep-BERT đối với nội dung của 4 tập dữ liệu lần lượt là 86,4%, 83,2%,95,7% và 93,9%, cao hơn so với các thuật toán phân loại học máy (MachineLearning - ML) truyền thống và các thuật toán DL khác

Tuy nhiên, báo cáo của các tác giả vẫn còn tồn tại những mặt hạn chế khiyêu cầu dữ liệu lớn; độ chính xác của mô hình phụ thuộc vào chất lượng và đạidiện của dữ liệu huấn luyện; tính khả thi và tốn kém trong việc triển khai; khókhăn trong việc hiểu và giải thích, cũng như phải phụ thuộc vào dữ liệu huấnluyện

Tang & ctg [16] đã tập trung vào việc mở rộng văn bản ngắn dựa trên tính

đa chi tiết và khám phá để xây dựng mô hình EBLI (Tăng cường BERT với

Trang 22

thông tin tiềm ẩn) bằng cách kết hợp BERT và thông tin tiềm ẩn để giải quyếtnhiệm vụ PLVB ngắn Ngoài ra, các tác giả còn thiết lập một ngân hàng bộ nhớ

để lưu trữ toàn bộ thông tin chủ đề tài liệu hỗ trợ đào tạo chung các tính năngngữ nghĩa sâu và các tính năng chủ đề

Kết quả thực nghiệm với 5 bộ dữ liệu rộng rãi của nghiên cứu cho thấy môhình đề xuất của các tác giả đạt hiệu quả PLVB ngắn tốt hơn cũng như pháthuy được khả năng khái quát hóa và khả năng cạnh tranh mạnh mẽ của bộ phânloại Cụ thể, mô hình EBLI có thể thu được hiệu suất mạnh mẽ hơn so với các

mô hình khác bằng cách nắm bắt thông tin có thể diễn giải cả trên quan điểm

từ và tập hợp Độ chính xác của EBLI đạt 78.09 trong EBLI+DT ở cấp độ tàiliệu và đạt 79.02 trong EBLI+TW ở cấp độ từ, nhưng mô hình BERT chỉ đạt62.62 trong y sinh Điều này có thể là do các ký tự văn bản của y sinh có rấtnhiều thuật ngữ y sinh Bên cạnh đó, các tác giả cũng nhận thấy một cải tiếnnhỏ cho Stack Overflow Độ dài chuỗi trung bình của nó nằm trong khoảng từvài đến hơn 10 và vốn từ vựng của nó không đủ để nắm bắt thông tin chủ đềphong phú ngay cả sau khi mở rộng Kết quả xác nhận tính hiệu quả và tầmquan trọng của khung tối ưu hóa chung được đề xuất trong việc tận dụng cácđiểm mạnh của cả BERT và mô hình chủ đề để bổ sung cho nhau

Nhìn chung, bên cạnh những lợi thế, công trình của các tác giả còn có nhữnghạn chế liên quan đến yêu cầu dữ liệu huấn luyện; tài nguyên tính toán; khảnăng hiểu và giải thích; hiệu suất trong bối cảnh văn bản ngắn; và phụ thuộcvào dữ liệu huấn luyện và tiền xử lý

Đánh giá của Li & ctg [5], tuyên truyền là một kỹ thuật tu từ được thiết kế

để phục vụ một chủ đề cụ thể, thường được sử dụng có chủ đích trong các bàibáo để đạt được mục đích dự kiến vì tác dụng tâm lý cụ thể của nó Do đó,điều quan trọng là phải làm rõ những kỹ thuật tuyên truyền nào được sử dụng

Trang 23

trong tin tức để mọi người hiểu chủ đề của nó một cách hiệu quả trong cuộcsống hàng ngày Gần đây, một số nghiên cứu liên quan được đề xuất để pháthiện tuyên truyền nhưng không đạt yêu cầu Do đó, việc phát hiện các kỹ thuậttuyên truyền trong các bài báo rất cần được nghiên cứu Vì vậy Li và ctg đã giớithiệu các hệ thống nhằm phát hiện các kỹ thuật tuyên truyền trong các bài báo,được chia thành hai nhiệm vụ là “Xác định Khoảng” và “phân loại Kỹ thuật”.Đối với hai nhiệm vụ này, các tác giả đã thiết kế một hệ thống tương ứng dựatrên mô hình BERT được đào tạo trước phổ biến Hơn nữa, các tác giả cũng ápdụng các chiến lược lấy mẫu quá mức và EDA (tăng cường dữ liệu dễ dàng), đềxuất một phương pháp nối tính năng cấp câu trong các hệ thống của họ.Kết quả của các thử nghiệm trên bộ dữ liệu gồm khoảng 550 tin bài doSEMEVAL cung cấp cho thấy hệ thống của các tác giả hoạt động ở trạng tháitiên tiến nhất Cụ thể, với nhiệm vụ “Xác định khoảng”, điểm F1 đạt 44,17%, Độchính xác đạt 43,21% và Recall đạt 45,18% Với nhiệm vụ “phân loại kỹ thuật”,

hệ thống có EDA của các tác giả đã cải thiện điểm F1 khoảng 3% so với hệthống không có EDA, đạt 57.57% trong tập kiểm tra

Mặc dù vậy, đề tài này cũng không tránh khỏi việc có những hạn chế nhưlà: 1) Xác định được đoạn văn; 2) Hiệu suất chính xác; 3) Phụ thuộc vào dữliệu huấn luyện; 4) Giới hạn đối tượng nghiên cứu và đa dạng ngôn ngữ và vănphong

Theo Rai & ctg [17], tin giả đã và đang là mối lo ngại trên toàn thế giới vàmạng xã hội chỉ làm trầm trọng thêm hiện tượng này Tin tức giả đã và đangảnh hưởng đến thế giới trên quy mô lớn vì chúng được nhắm mục tiêu để làmthay đổi quyết định của đám đông theo một hướng cụ thể Vì việc xác minh thủcông tính hợp pháp của tin tức là rất khó khăn và tốn kém nên các nhà nghiêncứu trong lĩnh vực này rất quan tâm Các cách tiếp cận khác nhau để xác định

Trang 24

tin giả đã được kiểm tra, chẳng hạn như phân loại dựa trên nội dung, phân loạidựa trên bối cảnh xã hội, phân loại dựa trên hình ảnh, phân loại dựa trên tìnhcảm và phân loại dựa trên bối cảnh kết hợp Do đó, Rai & ctg đã đề xuất một

mô hình phân loại tin tức giả dựa trên tiêu đề tin tức, theo cách tiếp cận phân

6 loại dựa trên nội dung Mô hình sử dụng mô hình BERT với đầu ra được kếtnối với lớp LSTM Việc đào tạo và đánh giá mô hình đã được thực hiện trên bộ

dữ liệu FakeNewsNet chứa hai bộ dữ liệu phụ là PolitiFact và GossipCop Một

so sánh của mô hình với các mô hình phân loại cơ sở đã được thực hiện Một

mô hình BERT thuần túy cũng đã được đào tạo trên tập dữ liệu dưới các ràngbuộc tương tự như mô hình được đề xuất phải đánh giá tác động tương tự bằngcách sử dụng lớp LSTM

Kết quả thu được của nghiên cứu cho thấy độ chính xác tăng lần lượt là2,50% và 1,10% trên bộ dữ liệu PolitiFact và GossipCop so với mô hình BERTđược đào tạo trước

Nhìn chung, bên cạnh những lợi thế công trình của các tác giả còn một sốhạn chế: Đòi hỏi tài nguyên tính toán cao; yêu cầu dữ liệu huấn luyện phongphú; khó khăn trong việc hiểu và giải thích; phụ thuộc vào dữ liệu huấn luyện;khả năng xử lý ngôn ngữ khác nhau

Nghiên cứu của Đạt và Tuấn [15] đã giới thiệu PhoBERT với hai phiên bản—PhoBERTbase và PhoBERTlarge—các mô hình ngôn ngữ đơn ngữ quy mô lớncông khai đầu tiên được đào tạo trước cho người Việt Nam

Kết quả thử nghiệm của các tác giả cho thấy PhoBERT luôn vượt trội so với

mô hình đa ngôn ngữ được đào tạo trước XLM-R tốt nhất gần đây (Conneau &ctg [18]) ) và cải thiện tính năng hiện đại trong nhiều tác vụ NLP dành riêng chongười Việt bao gồm: Gắn thẻ Phần lời nói (PhoBERT đạt độ chính xác khoảng96,8%), Phân tích cú pháp phụ thuộc (PhoBERT giúp tăng cường trình phân

Trang 25

tích cú pháp Biaffine với mức cải thiện tuyệt đối khoảng 4%, đạt được LAS ởmức 78,8% và UAS ở mức 85,2%), Nhận dạng thực thể được đặt tên (với điểmF1 của PhoBERTbase đạt 93.6% và điểm F1 của PhoBERTlarge đạt 94.7%) vàSuy luận ngôn ngữ tự nhiên (với độ chính xác của PhoBERTbase đạt 78.5% và

độ chính xác của PhoBERTlarge đạt 80%) Các tác giả phát hành PhoBERT

để tạo điều kiện nghiên cứu trong tương lai và các ứng dụng tiếp theo cho NLPViệt Nam

• Bên cạnh những nổi bật, công trình "PhoBERT: Pre-trained language els for Vietnamese" có những hạn chế sau:

mod-– Kích thước dữ liệu huấn luyện có thể gây khó khăn và tốn công sứctrong việc thu thập và xử lý dữ liệu tiếng Việt

– Khả năng trích xuất đặt trưng PhoBERT có thể bị hạn chế đối với cácngữ cảnh và loại văn bản khác nhau

– Độ phức tạp tính toán cao có thể gây khó khăn khi triển khai và sửdụng PhoBERT trên các thiết bị có tài nguyên tính toán hạn chế.– Tùy chỉnh và điều chỉnh PhoBERT cho các tác vụ cụ thể có thể đòi hỏikiến thức chuyên môn sâu về xử lý ngôn ngữ tự nhiên và huấn luyện

mô hình

– Hiệu suất của PhoBERT phụ thuộc vào chất lượng và đại diện của dữliệu huấn luyện, cũng như các quyết định về tiền xử lý và chuẩn bị dữliệu trước khi đưa vào huấn luyện

Đánh giá của Sáu và Toanh [14] nhấn mạnh sự quan trọng của việc lưu trữ

hồ sơ trong quá trình quản lý và bảo quản tài liệu tại các cơ quan và tổ chức

có thẩm quyền Tuy nhiên, theo thời gian, số lượng hồ sơ cần lưu trữ ngày càng

Trang 26

tăng, đồng thời có nhiều loại tài liệu khác nhau, dẫn đến tình trạng quá tảitrong quá trình lưu trữ Vì vậy, việc phân loại hồ sơ theo thời hạn bảo quảntrở thành một bước quan trọng trong công tác bảo quản, góp phần tối ưu hóakhông gian lưu trữ và tiết kiệm chi phí tài liệu Các tác giả đã áp dụng mô hìnhBERT để so sánh với các thuật toán ML và DL truyền thống trên bộ dữ liệuthực tế, nhằm tự động giải quyết nhiệm vụ này.

Kết quả thực nghiệm đã xác nhận rằng mô hình BERT đạt được kết quả tốtnhất trong việc phân loại hồ sơ, với độ chính xác đạt 93,10%, Recall đạt 90,68%,

và điểm số F1 đạt 91,49% Kết quả này khẳng định tính hiệu quả của việc ápdụng mô hình BERT để xây dựng hệ thống hỗ trợ phân loại hồ sơ trong các ứngdụng thực tế

Hạn chế của bài "Ứng dụng mô hình BERT cho bài toán phân loại hồ sơ"nằm ở việc xử lý khối lượng dữ liệu hồ sơ hạn chế; tiền xử lý dữ liệu phức tạp;

độ phức tạp tính toán; tinh chỉnh và điều chỉnh mô hình; cũng như hiểu biếtngữ cảnh hồ sơ

Các nghiên cứu gần đây đã chứng tỏ tính khả thi của mô hình BERT đốivới PLVB, đặc biệt là tiếng Anh Ưu điểm của việc sử dụng mô hình BERT sovới các mô hình khác là BERT hoạt động tốt cho các mô hình dành riêng chonhiệm vụ Có thể thấy BERT là mô hình có sẵn và tiên tiến nhất, đã được đàotạo trên một kho dữ liệu lớn và được đào tạo trước bằng hơn 100 ngôn ngữ, điềunày giúp dễ dàng thực hiện các nhiệm vụ NLP nhỏ hơn, rõ ràng hơn, đặc biệt

là hữu ích cho các dự án không dựa trên tiếng Anh Không chỉ vậy số liệu cóthể được tinh chỉnh và được sử dụng ngay lập tức Ngoài ra, độ chính xác của

mô hình BERT là vượt trội vì nó được cập nhật thường xuyên

Nhìn chung mô hình BERT thật sự là một bước đột phá mới trong công nghệNLP BERT giúp mọi người tự động hóa việc hiểu ngôn ngữ Khả năng đạt được

Trang 27

hiệu suất tiên tiến của BERT được hỗ trợ bằng cách đào tạo trên lượng dữ liệukhổng lồ và tận dụng kiến trúc Transformers để cách mạng hóa lĩnh vực NLP.Tại Việt Nam, thực trạng nghiên cứu về phân loại tin tức Việt Nam theo môhình BERT đã và đang thu hút được nhiều quan tâm lớn của cộng đồng nghiêncứu Tuy nhiên, khi áp dụng vào tiếng Việt cần có sự điều chỉnh phù hợp để đạthiệu quả tốt Điển hình có các nghiên cứu như nghiên cứu của Đạt và Tuấn [15]giới thiệu PhoBERT với hai phiên bản— PhoBERTbase và PhoBERTlarge—haynhư nghiên cứu của Sáu và Toanh [14] ứng dụng mô hình BERT cho bài toánphân loại hồ sơ theo thời hạn bảo quản Nhìn chung, việc áp dụng mô hìnhBERT/PhoBERT trong phân loại tin tức bằng tiếng Việt vẫn còn rất nhiềutiềm năng phát triển và nghiên cứu khi nhu cầu phân loại tin tức đang ngàycàng cấp thiết Dựa trên việc tham khảo các nghiên cứu trước có liên quan, luậnvăn đã vận dụng phương pháp PhoBERT để xây dựng một ứng dụng PLVBbằng tiếng Việt cho đề tài nghiên cứu.

• Đề tài hướng đến các mục tiêu sau:

– Nghiên cứu cách NLP để phân loại báo điện tử

– Tìm hiểu quá trình tiền xử lý dữ liệu, chuẩn hóa dữ liệu và PLVB.– Bằng việc lược khảo các công trình đi trước về PLVB, luận văn nghiêncứu việc áp dụng mô hình BERT/PhoBERT nhằm phân loại các vănbản bằng tiếng Việt tại Việt Nam

– Từ những kết quả đạt được khi nghiên cứu, luận văn mong rằng việctriển khai ứng dụng có thể mang lại nhiều lợi ích trong nhiều lĩnh vực,bao gồm phân loại tin tức, phân loại email, phân tích ý kiến trên mạng

xã hội, tổ chức và quản lý tài liệu văn bản Ứng dụng có thể giúp tựđộng hóa quy trình phân loại và giúp định vị và truy xuất thông tin

Trang 28

nhanh chóng từ các nguồn dữ liệu văn bản lớn Điều này có thể cungcấp giá trị và tiết kiệm thời gian cho các tổ chức và doanh nghiệp đangđối mặt với việc xử lý và quản lý lượng lớn dữ liệu văn bản.

Đối tượng nghiên cứu của đề tài là các phương pháp PLVB, cụ thể là phươngpháp PhoBERT, PLVB dựa trên mô hình BERT, nhằm xây dựng và phát triểnmột ứng dụng giúp phân loại các văn bản bằng tiếng Việt trên lãnh thổ ViệtNam

Về không gian: Tập trung vào việc nghiên cứu và xây dựng ứng dụng PLVBbằng tiếng Việt tại Việt Nam mang lại nhiều lợi ích về khả năng xử lý và quản

lý dữ liệu ngôn ngữ, hỗ trợ cộng đồng người dùng tiếng Việt và đóng góp vào

sự phát triển của lĩnh vực khai phá dữ liệu văn bản trong quốc gia

Về thời gian: Đề tài được thực hiện từ tháng 03/2021 đến tháng 05/2023

Luận văn trình bày một mô hình biểu diễn văn bản đa dạng về mặt ngữnghĩa và tự động phân loại thành các danh mục được xác định sẵn bằng cách sửdụng DL Hướng tiếp cận gồm hai phần chính là biểu diễn và PLVB từ các côngtrình liên quan Ngoài ra, cũng dựa vào các nghiên cứu có sẵn làm nền tảng cănbản cho việc xử lý và thu thập văn bản phong phú về mặt ngữ nghĩa Trong quátrình PLVB, có nhiều kỹ thuật được sử dụng như tiền xử lý văn bản, phương

Trang 29

pháp chuyển đổi văn bản thành vector, và các phương pháp PLVB dựa trên cácthuật toán DL.

Trong mọi tác vụ ML, việc xử lý dữ liệu trước đóng vai trò quan trọng khôngkém việc xây dựng mô hình Đặc biệt, khi làm việc với dữ liệu phi cấu trúc nhưvăn bản, quá trình này trở nên càng quan trọng hơn Mục tiêu của phần cốt lõinày là hiểu các bước tiền xử lý văn bản khác nhau cho các tác vụ khác nhau.Quá trình xử lý dữ liệu bao gồm chuẩn hóa dữ liệu và loại bỏ các thành phầnkhông liên quan cho tác vụ PLVB, bao gồm việc xóa thẻ HTML hoặc mã javascript, tách từ, chuẩn hóa từ, loại bỏ các từ không quan trọng (stopwords), vàchuyển đổi văn bản thành vector Tùy thuộc vào ứng dụng của bài toán, chúng

ta cần lựa chọn những kỹ thuật phù hợp từ những phương pháp xử lý văn bản.Điều này là cần thiết vì không thể áp dụng cùng lúc các kỹ thuật

Trước đây, khi nhắc đến NLP, thường nghĩ đến việc sử dụng mạng neural

và chỉ sử dụng dữ liệu từ một miền cụ thể được xác định Tuy nhiên, gần đây,cộng đồng NLP đã có sự thay đổi đáng kể bằng cách chuyển hướng sang việc

sử dụng các mô hình đã được huấn luyện trước Các mô hình này đã đạt đượcnhiều cải tiến, bao gồm phân loại cảm xúc, PLVB, và trả lời câu hỏi [19] Mộttrong những phát triển mới nhất trong biểu diễn văn bản là mã hóa hai chiềucủa Transformers Mô hình BERT vượt trội hơn so với các mô hình tiền nhiệmtrước đó bởi khả năng áp dụng rộng và hiệu suất tốt trên nhiều tác vụ NLP[20] Google đã phát hành một số phiên bản khác nhau của BERT, có số lượngTransformers hoặc lớp ẩn khác nhau Sự khác biệt này có thể bắt nguồn từ dữliệu huấn luyện Các phiên bản BERT đã được huấn luyện trên văn bản trongcác ngôn ngữ khác nhau, có kích thước và hiệu suất phù hợp cho từng mục đích

sử dụng cụ thể Để chọn mô hình phù hợp, cần xem xét yêu cầu về phần cứng,tốc độ, bộ nhớ, tốc độ huấn luyện và hiệu suất của việc hiểu ngôn ngữ tự nhiên(NLU) trong ngữ cảnh cụ thể Hiện nay, BERT đang được nghiên cứu rộng rãibởi nhiều nhà nghiên cứu và các công ty lớn như Facebook và Microsoft đã phát

Trang 30

triển ra nhiều phiên bản đa dạng của mô hình này.

Để kiểm chứng lại phương pháp và mô hình đề xuất, đề tài tiến hành thựcnghiệm lại trên phương pháp nêu trên Quá trình thực nghiệm được tiến hànhbằng ngôn ngữ lập trình Python, dựa vào bộ dữ liệu tác giả thu thập được từInternet Cụ thể:

Để xác minh phương pháp và mô hình được đề xuất, đề tài đã tiến hành thựcnghiệm sử dụng ngôn ngữ lập trình Python và dựa trên một bộ dữ liệu của tácgiả tự thu thập Quá trình thực nghiệm được mô tả cụ thể như sau:

• Tiền xử lý dữ liệu: Bước đầu tiên là thực hiện các bước tiền xử lý vănbản trên bộ dữ liệu thu thập được Các bước tiền xử lý bao gồm loại bỏ các

ký tự đặc biệt, chuyển đổi chữ hoa thành chữ thường, loại bỏ stopwords vàtách từ

• Chuyển đổi văn bản thành vector: Sau khi tiền xử lý, văn bản đượcchuyển đổi thành các vector số để có thể sử dụng cho quá trình huấn luyện

và phân loại

• Mô hình huấn luyện: Sau khi chuyển đổi văn bản thành vector Nghiêncứu xây dựng mô hình huấn luyện và thực nghiệm nhằm tìm ra mô hìnhphù hợp cho bài toán PLVB cùng với ba mô hình BERT, PhoBERT, LSTM

• Đánh giá kết quả: Để đánh giá hiệu suất của mô hình, các độ đo như độchính xác, độ phủ và điểm F1 được tính toán Kết quả của mô hình được sosánh với các phương pháp và mô hình truyền thống khác để kiểm tra tínhhiệu quả của mô hình BERT

Trang 31

1.6 Đóng góp của luận văn

Nâng cao hiểu biết về ngôn ngữ tiếng Việt: PhoBERT là một mô hình ngônngữ tiếng Việt được huấn luyện trên dữ liệu lớn và sử dụng kiến trúc BERT nổitiếng Việc phát triển mô hình này đã đóng góp vào việc nâng cao hiểu biết vềngôn ngữ tiếng Việt và khả năng NLP của ngôn ngữ này

Cải thiện chất lượng công cụ NLP tiếng Việt: Mô hình PhoBERT có thể được

sử dụng để xây dựng các công cụ và ứng dụng NLP tiếng Việt, như tra cứu thôngtin, PLVB, dịch máy, tổng hợp tiếng nói, và nhiều ứng dụng khác Điều này gópphần cải thiện chất lượng và hiệu suất của các công cụ và ứng dụng ngôn ngữtiếng Việt

Khai thác nguồn tài nguyên tiếng Việt trên Internet: Mô hình PhoBERT cókhả năng hiểu và biểu diễn ngôn ngữ tiếng Việt một cách hiệu quả, từ đó chophép khai thác các nguồn tài nguyên ngôn ngữ tiếng Việt trên Internet Điềunày mở ra cơ hội rộng lớn để nghiên cứu, phân tích và khai thác dữ liệu ngônngữ tiếng Việt trên các nền tảng và ứng dụng trực tuyến

Tiếp cận và tạo điều kiện cho nghiên cứu ngôn ngữ tự nhiên tiếng Việt: Sựphát triển của mô hình PhoBERT đã tạo điều kiện thuận lợi cho các nhà nghiêncứu và sinh viên trong lĩnh vực ngôn ngữ tự nhiên tiếng Việt Việc có một môhình ngôn ngữ tiếng Việt mạnh mẽ như PhoBERT giúp cung cấp công cụ và tàinguyên cần thiết để tiếp cận, nghiên cứu và thử nghiệm các phương pháp và kỹthuật trong lĩnh vực này

Luận văn đã tiến hành một nghiên cứu tổng quan về các phương pháp tiếpcận xử lý cho bài toán PLVB Kết quả của nghiên cứu cho thấy phương pháp

DL đạt được hiệu quả cao hơn so với các phương pháp khác và đã được sử dụngrộng rãi trong các công trình nghiên cứu gần đây Việc nghiên cứu và lựa chọn

Trang 32

các mô hình BERT, PhoBERT và LSTM cho bài toán PLVB trong luận vănnhằm đảm bảo độ chính xác cao và khả năng hiểu ngữ cảnh văn bản tốt, đồngthời tận dụng lợi ích của các phương pháp DL được chứng minh thành côngtrong các công trình nghiên cứu trước đó.

PLVB tập trung khai thác các chủ đề chính được giải quyết bởi một số tàiliệu ví dụ: tin tức, e-mail, mạng xã hội Một số cách tiếp cận đã được đề xuấtcho nhiệm vụ này, chủ yếu dựa trên các kỹ thuật phân loại, phân cụm và xácsuất Tuy nhiên những cách tiếp cận này không hoàn hảo gặp phải một số vấn

đề liên quan đến sự xuất hiện của các chủ đề mới hoặc không thể biết trước sốlượng chủ đề được phát hiện hoặc sự phân bố của chúng

Khi các ứng dụng và việc sử dụng internet tiếp tục phát triển, dữ liệu (baogồm có cấu trúc và không cấu trúc) khổng lồ được tạo ra từ nhiều nguồn khácnhau đã thu hút được nhiều nhà nghiên cứu Khai phá văn bản có thể giúp ngườidùng một số công việc thông qua công cụ hiệu quả: phân loại, phân cụm, truysuất, tóm tắt nội dung Đối với bài toán xử lý phân loại tài liệu, việc quan trọng

là trích xuất đặc trưng và tóm tắt các vấn đề thịnh hành dưới dạng thông tinhữu ích được gọi là phát hiện chủ đề Tiếng Việt là ngôn ngữ đơn âm nên rấtkhó để phân đoạn và tách từ, thường làm thủ công tốn rất nhiều thời gian và chiphí Qua đó đề suất phương pháp tinh chỉnh PhoBERT kết hợp với phân cụm

để làm tăng độ chính xác phân loại tài liệu tiếng Việt như những công trình củaPLVB tiếng Anh [21]

Do số lượng người dùng mạng xã hội tăng lên đáng kể Dữ liệu được tạo ra

từ các mạng xã hội cũng phát triển theo cấp số nhân Việc bình luận hoặc đăngbài của người dùng rất khó kiểm soát Vì vậy, một ứng dụng phân loại các bàiđăng và bình luận là điều cần thiết Doanh nghiệp muốn thu thập đánh giá và ýkiến sản phẩm để đưa ra dự đoán cho chiến lược kinh doanh tiếp theo phù hợp

Trang 33

với người tiêu dùng Giáo dục nhằm nâng cao chất lượng giảng dạy, nhà trườnglắng nghe phản hồi từ sinh viên dưới dạng nhận xét trong các cuộc khảo sát.

Từ các ý kiến thu thập, giúp nhà trường có thể hiểu sinh viên nhiều hơn để cảithiện chất lượng và dịch vụ [22]

Đề tài này được trình bày theo kết cấu 4 chương như sau

Chương 1: Tổng quan về PLVB

Chương 2: Tổng quan về NLP

Chương 3: Phương pháp đề xuất và kết quả thực nghiệm

Chương 4: Kết quả đạt được và hướng phát triển

Trang 34

Mạng neural nhân tạo (Artificial Neural Network - ANN) là một mô hìnhtính toán được lấy cảm hứng từ cấu trúc và hoạt động của hệ thống neural trongnão người ANN là một phần quan trọng trong lĩnh vực trí tuệ nhân tạo và ML,

và đã đóng góp đáng kể vào nhiều ứng dụng trong thế giới thực

Mô hình ANN bao gồm một số lượng lớn các đơn vị tính toán gọi là neuralnhân tạo, được tổ chức thành các lớp Các neural trong mạng liên kết với nhauthông qua các trọng số kết nối, tương tự như sự kết nối giữa các neural trong

hệ thống neural sinh học Mỗi neural nhân tạo nhận đầu vào từ các neural ở lớptrước, thực hiện tính toán và tạo ra một giá trị đầu ra Sau đó, giá trị đầu rađược truyền tiếp cho các neural ở lớp tiếp theo theo cách tương tự hình 2.1

Trang 35

Hình 2.1: Mô hình mạng neural nhân tạo

Quá trình học của ANN được thực hiện thông qua việc điều chỉnh các liênkết trọng số giữa các neural Mạng học từ các dữ liệu đào tạo và điều chỉnh cáctrọng số để tối ưu hóa việc dự đoán hoặc phân loại Các thuật toán như lantruyền ngược (backpropagation) được sử dụng để tính toán độ lỗi và cập nhậttrọng số dựa trên sai số dự đoán

ANN có khả năng học và tổng hợp thông tin từ dữ liệu đầu vào phức tạp vàthực hiện các tác vụ như phân loại, dự đoán, nhận dạng mẫu và tìm mối quan

hệ Nhờ vào cấu trúc mạng linh hoạt và khả năng học từ dữ liệu, ANN đã được

áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm NLP, thị giác máy tính, điềukhiển tự động, dự báo tài chính, và nhiều lĩnh vực khác

Từ khi được giới thiệu, ANN đã phát triển và mở rộng thành các kiến trúc vàbiến thể khác nhau, bao gồm mạng neural sâu và mạng neural hồi quy Những

Trang 36

tiến bộ trong lĩnh vực này đã tạo ra những ứng dụng mạnh mẽ và tiềm năng tolớn.

Công thức tính đầu ra (Output) của mạng ANN:

– wi: là trọng số tương ứng với đầu vào xi

– xi: là giá trị đầu vào tương ứng nới nút thứ i

– N: là số lượng nút trong lớp cuối cùng của mạng

Các công thức của các hàm kích hoạt thông dụng trong mạng Neural Hàmbước nhảy (Step Function):

– f(x): Hàm bước nhảy có giá trị đầu ra

– x: Biến đầu vào của hàm

– 0 và 1: Giá trị đầu ra của hàm tương ứng với x nhỏ hơn 0 và x khôngnhỏ hơn 0

Hàm logit (Sigmoid Function):

Trang 37

• Trong (2.3):

– f(x): Giá trị đầu ra của hàm sigmoid

– f(x): Giá trị đầu ra của hàm tanh

– e: Số mũ Euler, sấp xỉ 2.71828

Hàm ReLU (Rectified Linear Unit):

• Trong (2.5):

– f(x): Giá trị đầu ra của hàm ReLU

– 0: Giá trị tối thiểu của hàm, trả về khi x là âm

– x: Giá trị của x nếu x không âm, trả về một giá trị không đổi

Mô hình mạng neural hồi quy (RNN - Recurrent Neural Network): là mộtloạt các mạng thần kinh được kết nối lần lượt với nhau Mỗi khối chuyển tiếp tinnhắn đến khối tiếp theo RNN coi dữ liệu đầu vào là một chuỗi liên tục theo thứ

Trang 38

tự thời gian Ví dụ, văn bản có thể được coi là một chuỗi hoặc chuỗi từ vựng.Tại thời điểm t, được cung cấp đầu vào xt, RNN tính toán đầu ra yt Tuy nhiên,không giống như mạng chuyển tiếp nguồn cấp dữ liệu, đầu ra tại thời điểm (t)được sử dụng làm đầu vào để tính toán đầu ra tại thời điểm (t+1) Điều nàycho phép RNN lưu thông tin và gửi nó ở điểm tiếp theo Hình 2.2 này cho thấy

mô hình làm việc của RNN

Hình 2.2: Mô hình mạng neural hồi quy 1

RNN sử dụng một mạng neural duy nhất để tính toán giá trị đầu ra cho mỗibước thời gian Điều này có nghĩa là kết quả của mỗi bước thời gian được nhânvới cùng một ma trận trọng số khi được sử dụng làm đầu vào cho bước thời giantiếp theo Đây là lý do vì sao RNN được gọi là "Recurrent" (lặp lại) Thuật ngữ

"Recurrent" chỉ rằng mô hình thực hiện các phép tính toán tương tự cho mỗiphần tử trong chuỗi dữ liệu đầu vào và kết quả đầu ra phụ thuộc vào kết quảtính toán trong quá khứ

RNN có thể hiểu đơn giản là một mô hình mạng thần kinh với khả năng “ghinhớ” thông tin từ quá trình xử lý trước đó Lý thuyết này cho thấy RNN có thể

xử lý và lưu trữ thông tin từ các chuỗi dữ liệu có độ dài tùy ý Tuy nhiên, trênthực tế, RNN chỉ hữu ích cho các chuỗi dữ liệu có độ dài giới hạn (cái gọi là "bộnhớ ngắn hạn" hoặc "các vấn đề phụ thuộc dài hạn") Sự cố này là do "sự cố

độ dốc bằng không" Khi độ dốc trở nên rất nhỏ (gần bằng 0), ma trận trọng

1 https://iq.opengenus.org

Trang 39

số ngừng cập nhật và mạng neural ngừng học ở mức đó Điều này ngăn RNNlưu trữ thông tin từ các bước thời gian ban đầu trong một chuỗi dữ liệu dài.Khi xem xét nhược điểm của RNN, chúng ta có thể thấy rằng kiến trúc nàythiếu cơ chế lọc thông tin không mong muốn Nếu bộ nhớ bị hạn chế, việc lưutrữ tất cả các chi tiết không cần thiết có thể làm bộ nhớ bị quá tải và mất thôngtin quan trọng từ quá khứ Để khắc phục những thiếu sót của RNN, mọi người

đã nhận ra điều này và phát triển các kiến trúc như LSTM và GRU (GatedRecurrent Units) Các kiến trúc này sử dụng cơ chế "cổng" để thêm thông tinmới và xóa thông tin không cần thiết khỏi bộ nhớ Điều này cải thiện khả nănglưu trữ thông tin quan trọng của RNN

LSTM và GRU hoạt động theo cách tương tự như RNN gốc, nhưng khác biệtchính nằm ở cấu trúc của các ô (cell) Cấu trúc này có thể được miêu tả nhưhình 2.3

Hình 2.3: Mô hình RNN LSTM GRU 2

Trong Vanilla RNN, chỉ sử dụng hàm tanh với dữ liệu đầu vào là Currentinput (xt) và thông tin lưu trữ từ timestep trước (Hidden state ht−1 ) Tuynhiên, trong LSTM và GRU, sử dụng kết hợp hàm tanh và hàm sigmoid cùngvới các thuật toán để quyết định thông tin nào nên được lưu trữ và thông tinnào nên được loại bỏ

2 https://sh-tsang.medium.com

Trang 40

Hình 2.4: Kiến trúc LSTM 3.

Mạng LSTM bao gồm các đơn vị LSTM, gọi là LSTM cells, được xếp chồnglên nhau để tạo thành một kiến trúc đa tầng Mỗi LSTM cell bao gồm các cổng(gates) và một bộ nhớ (memory)

• Các cổng trong LSTM gồm:

– Cổng Quên (Forget Gate) như hình 2.5: Được sử dụng để quyết địnhthông tin nào sẽ được loại bỏ khỏi bộ nhớ trước đó Nó lấy đầu vào từđầu vào hiện tại và trạng thái ẩn trước đó và trả về một giá trị từ 0 đến

3 https://www.researchgate.net/

Tiêu đề	Phân Lớp Tin Tức Tiếng Việt Dựa Trên Mô Hình Bert
Tác giả	Lê Hồ Quang Luân
Người hướng dẫn	TS. Trương Hoàng Vinh
Trường học	Trường Đại Học Mở Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	96
Dung lượng	7,22 MB