Khóa luận tốt nghiệp Khoa học dữ liệu: Hệ thống dự đoán theo thời gian thực và học trực tuyến cho bài toán phát hiện tin tuyển dụng bất thường trên tiếng Việt

Nghiên cứu này sử dụng các mô hình học máy như Logistic Regression, Naive Bayes, và Random Forest để phân loại các tin tuyển dụng và đạt được những kết quả đáng kể... Nhưng việc học dữ l

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC VA KY THUAT THONG TIN

TRAN HOANG ANH - 20521079 PHAM TIEN DUONG - 20521222

KHOA LUAN TOT NGHIEP

CU NHAN NGANH KHOA HOC DU LIEU

TP HO CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Em xin gửi lời cảm ơn chân thành nhất đến Trường Đại học Công nghệ Thông tin - ĐHQG-TP.HCM, nơi đã tạo điều kiện và môi trường học tập tuyệt vời giúp em hoàn thành khóa luận tốt nghiệp này Tất cả những thành tựu và thành công của em trong khoá luận tốt nghiệp không thể nào đạt được nếu thiếu đi sự hướng dẫn và sự

hỗ trợ từ hai người thầy đáng kính là thay Đỗ Trọng Hợp và thầy Luu Thanh Sơn.

Ngoài ra, em xin gửi lời cảm ơn chân thành đến Hội đồng phản biện và bảo vệ

khoá luận , cũng như Khoa Khoa học và Kỹ thuật thông tin, Phòng thí nghiệm

hệ thong thông tin đã tạo điều kiện thuận lợi nhất cho chúng em hoàn thành khoá

luận này Sự quan tâm, hỗ trợ và đánh giá công tâm từ các vị đã là nguồn động lực

lớn giúp em vượt qua mọi thử thách và hoàn thiện nghiên cứu của mình một cách tối

ưu nhất

Đặc biệt, không thể không nhắc đến sự hỗ trợ chân thành từ bạn bè cùng lớp,

những người đã chia sẻ những kiến thức, kinh nghiệm và tinh thần lạc quan trongsuốt quãng thời gian học tập và nghiên cứu Đây là những người bạn đã làm cho

hành trình học tập của em trở nên ý nghĩa hơn bao giờ hết.

Cuối cùng, em xin bày tỏ lòng biết ơn sâu sắc đến gia đình và bố mẹ, những

người luôn bên cạnh, động viên và hỗ trợ em trong mọi hoàn cảnh Những nỗ lực

của em không thể thành công nếu thiếu đi sự ủng hộ vững chắc từ những người thân

yêu này.

Những lời cảm ơn này không đủ lớn để diễn tả hết lòng biết ơn sâu sắc của em

đối với tất cả mọi người Em hân hạnh và tự hào khi có cơ hội được học tập và làm

việc trong một môi trường học thuật và nâng cao kỹ năng của mình tại trường Đại

học Công nghệ Thông tin - ĐHQG-TP.HCM.

Cảm ơn mọi người rất nhiều.

Thành phó Hồ Chí Minh, tháng 07 năm 2024

Nhóm tác giả

Trần Hoàng AnhPhạm Tiến Dương

Trang 3

Lời cảm

Mục lục

MỤC LỤC

ơn

Danh mục các bảng

, ` ` on x

Danh mục các hình anh và biểu đồ

Danh mục từ viết tắt

Tóm tắt

Chương

1.1

1.2

1.3

1.4

Chương

2.1

2.2

khóa luận

1 GIỚI THIỆU

Cấu trúc khoá luận

Đặt vẫn đề MAA 4@£” X\ À

Các công trình nghiên cứu liên quan

1.3.1 Tình hình nghiên cứu trên thé gidi

1.3.2 Tinh hình nghiên cứu tai Viet Nam

Tổng quan để tài

1.4.1 Dinhnghiabaitoan

1.4.2 Thach thttcdétai ee eee 1.4.3 Tính ứng dung và tính mới của đềtài

144 Kếtluận Q Q Q2 2 PHƯƠNG PHÁP THỰC NGHIỆM Bộ dữ liệu sử dụng cho thực nghiệm

2.1.1 Nguồn gốc bộ dữ liệu

-2.1.2 Địmnhnghĩabộ dữ liệu

2.1.3 Phântchbộ dữ liệu

2.1.4 Tiền xử lý

dữliệu -Kiến trúc mô hình dựa trên phương pháp học chuyển tiếp kết hợp học ——— .

2.2.1 Các phương pháp học chuyển tiếp

li

ii

vi Vili ix

¬ —=

nnn nn fF VN WV

ann on

Trang 4

2.2.2 Cac phương pháp học sâu 19

2.3 Phương pháp học trực tuyến - 20

2.3.1 Dinhnghia ẶQẶ Q Q ee 20 2.3.2 Thiết kế các thí nghiệm học trực tuyến 21

2.4 Mô hình sinh ngôn ngữ 24

2.5 Các thang đo đánh glá Ặ.ẶẶẶẶẶẶ.e 24 2.5.1 Thang đo đánh giá cho tác vụ phân lớp và ACSA 24

2.5.2 Thang đo đánh giá cho tác vụ tạo giảithích 27

Chương 3 KẾT QUẢ THỰC NGHIỆM 31 3.1 Kết quả sử dụng phương pháp học chuyển tiếp kết hợp học sâu 31

3.1.1 Tác vụphânlớp 31

3.1.2 Tac vụ phân tích khacạnh 33

3.13 Tac vụ sinh câu gidithich 36

3.2 Kết quả sử dụng phương pháp học trực tuyến 37

3.2.1 Tácvụphânlớp ẶẶẶẶ 37

3.2.2 Tác vụ phân tích khíacạnh 41

3.2.3 Tác vụ sinh câu giảithích 44

3.3 Phântích Q ee ee 46 Chương 4 XÂY DUNG HỆ THONG DỰ DOAN THEO THỜI GIAN 4.1 4.2 4.3 THỰC 48 Tổng quan hệ thống - 48

Xây dựng tiện ich mở rộng trình duyệt Chrome 50

42.1 PopupScrIpC HQ ee 51 4.2.2 ContentSCTIDC Q Q eee ee ee ee 54 42.3 BackgroundSCrIpt ẶẶẶ 54 Xây dựng các bộ phận xửlý 55

4.3.1 Module xử lí dữ liệu ngườidùng 55

43.2 Modulemôhình 57

4.3.3 Module dự đoán luồng dữ liệu streaming 60

4.3.4 Module học trực tuyễn - 61

1H

Trang 5

4.3.5 Bộ phận lưu trữ dữ liệu 63

44 Thử nghiệm và phân tích - 67

Chương 5 KET LUẬN VA HƯỚNG PHAT TRIEN TRONG TƯƠNG LAI 72 5.1 KẾtluận ee va 72 5.2 Hướng phát triển trong tương lai - 74

5.2.1 Áp dụng các kiến trúc mô hình mới 74

5.2.2 Cải thiện hệ thống và hiệu suất thực thi 74

5.2.3 Khám phá và phát triển các ứng dụng mới 75

Tài liệu tham khảo 79

1V

Trang 6

DANH MỤC CÁC BANG

3.1 Cài đặt cho huấn luyện mô hình - 313.2 Kết quả so sánh tác vụ phân lớp khi kết hợp với LSTM trên tap Dev 313.3 Kết quả so sánh tác vụ phân lớp khi kết hợp với LSTM trên tập Test 323.4 Kết quả so sánh tác vụ phân lớp khi kết hợp với CNN trên tap Dev 32

3.5 Kết quả so sánh tác vụ phân lớp khi kết hợp với CNN trên tap Test 32

3.6 Kết quả so sánh tác vụ phân tích khía cạnh khi kết hợp với LSTM

3.7 Kết quả so sánh tác vụ phân tích khía cạnh khi kết hợp với LSTM

trên tap Test 2 QẶ Q Q Q HQ HH HH vo 34

3.8 Kết quả so sánh tác vụ phân tích khía cạnh khi kết hợp với CNN trên

3.9 Kết quả so sánh tác vu phân tích khía cạnh khi kết hợp với CNN trên

tập Test (7 4 œ @6 Ì\ ƒ/ 34

3.10 Kết quả của tác vụ sinh câu giải thích ở mô hình ViTS 363.11 Kết quả phương pháp Online Learning tác vụ phân lớp với các chiến

thuật trên tập Dev ẶẶ QẶ ee 37

3.12 Kết quả phương pháp học trực tuyến tác vụ phân lớp với các chiến

thuật trên tap Test ẶẶ ee 38

3.13 Kết quả phương pháp học trực tuyến tác vu phân tích khía cạnh với

các chiến thuật trên tậpDev 413.14 Kết qua phương pháp học trực tuyến tác vụ phân tích khía cạnh với

các chiến thuật trên tập Test - Al

3.15 Kết quả của mô hình sinh câu giải thích trên tập test được dự đoán

bởi các mô hình online learnng - 45

4.1 Thông tin hệ thống và mạng của máy cục bộ - 67

4.2 Bảng thời gian xử lí trung bình mỗi yêu cầu 67

Trang 7

DANH MỤC CÁC HÌNH ANH VA BIỂU DO

1.1 Đầu vào va đầu ra của bài toán phân loại tin tuyển dụng

2.1 Tổng quan quy trình xây dựng hệ thống phân loại tin tuyển dụng 2.2_ Ví dụ về một mẫu tin tuyển dụng bat thường .

2.3 Phân bố và thống kê số lượng nhãn chính trong bộ dữ liệu

2.4 Sự phân bố số lượng tiêu chí trong từng khía cạnh trong bộ dữ liệu

2.5 Thống kê số từ trong câu giải thích cho tác phụ phân tích tiêu chí

2.6 Kiến trúc căn bản củamôhình

-2.7 Kiến trúc mô hình phân lớp

2.8 Kiến trúc mô hình phân tích khía cạnh

-2.9 Minh hoạ Chiến

thuậtIL -2.10 Minh hoạ Chiến thuật2

2.11 Minh hoạ Chiến thuật3_

3.1 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật l

3.2 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật2

3.4 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật

l -3.5 Sơ đồ biểu diễn F1-score của các phiên bản mô hình học trực tuyến trên chiến thuật2

4.1 Tổng

quanhệthống -4.2_ Minh hoạ kiến trúc tiện ích mở rộng trình duyệt Chrome

4.3 Giao diện ban đầu của tiện ích mở rộng

4.4 Giao diện của tiện ích mở rộng khi có kết quả dự đoán

VI

Trang 8

4.5 Giao diện của tiện ich mở rộng với các lựa chọn dé gửi báo cáo sai sót 53 4.6 Giao diện của tiện ích mở rộng với các lựa chon để gửi báo cáo sai sót 53

4.7 Minh hoa module xử lí dữ liệu người dùng 55

4.8 Minh hoạ module mô hình - 57

4.9 Minh hoạ module dự đoán luồng dữ liệu thời gian thực 60

4.10 Minh hoa module học trực tuyến - 61

4.11 Minh hoạ module lưu trữ dữ liệu 63

4.12 Boxplot cho phân bồ thời gian thực thi trong 5 gidy 68

4.13 Boxplot cho phân bồ thời gian thực thi trong 10 giây 69

vil

Trang 9

DANH MỤC TU VIET TAT

ACSA Tác vụ phân tích tiêu chí của khía cạnh

BERT Bidirectional Encoder Representations from Transformers BLEU Bilingual Evaluation Understudy

CLS Tác vu phân loại tin tuyển dung

CNN Convolutional Neural Network

Dev Developing data

DNN Deep Neural Network

EMSCAD Employment Scam Aegean Dataset

GPU Graphics Processing Unit

ILSVRC ImageNet Large Scale Visual Recognition Challenge

JSON JavaScript Object Notation

LSTM Long Short-Term Memory

MCC Matthews Correlation Coefficient

MongoDB Một hệ quản trị cơ sở dữ liệu NoSQL

NCSC National Cyber Security Centre

NLP Natural Language Processing

PB phoBERT

ROUGE Recall-Oriented Understudy for Gisting Evaluation

Test Testing data

VRAM Video Random Access Memory

VS ViSoBERT

Viii

Trang 10

TÓM TẮT KHÓA LUẬN

Phân loại văn bản là một nhiệm vụ cơ bản trong xử lý ngôn ngữ tự nhiên (NLP)

với nhiều ứng dụng như phát hiện thư rác, phân tích cảm xúc, và nhận diện cảm xúc trong bình luận Tuy nhiên, phân loại tin tuyển dụng chưa được nghiên cứu nhiều do tính phức tạp và đa dạng của các quảng cáo tuyển dụng, dẫn đến sự gia tăng các tin tuyển dụng không đáng tin cậy Năm 2022, gần 13.000 nạn nhân bị lừa đảo tuyển

dụng trực tuyến, gây mắt mát tài sản và làm giảm uy tín nhà tuyển dụng

Khóa luận này tìm kiếm các mô hình và phương pháp phù hợp để phát triển hệthống dự đoán real-time và online-learning cho bài toán phân loại tin tuyển dụng,

nhằm giảm thiểu tin tuyển dụng lừa đảo và tăng hiệu quả tìm kiếm việc làm Nhóm

tiến hành phân tích dữ liệu, tiền xử lí và xây dựng các mô hình học sâu Các kiến

trúc học sâu được áp dụng để nâng cao hiệu suất mô hình Các mô hình học sâu đượctùy chỉnh và tối ưu hóa cho bài toán phân loại tin tuyển dụng Ngoài ra, thử nghiệm

về online learning được thực hiện để mô hình cập nhật liên tục mà không cần huấnluyện lại từ đầu, với các chiến thuật học online được thiết kế và thử nghiệm

Nhóm xây dựng hệ thống hỗ trợ người dùng kiểm tra và phân loại tin tuyển dụng, phát hiện yếu tô bất thường và cung cấp thông tin chi tiết nhanh chóng, chính xác.

Hệ thống gồm hai thành phần chính: tiện ích mở rộng trình duyệt và hệ thống chính.Tiện ích mở rộng cho phép người dùng tương tác trực tiếp với hệ thống từ trình duyệt

web, trong khi hệ thống chính đảm bảo xử lý và phân tích dữ liệu.

Hệ thống phát triển đạt kết quả tích cực trong phân loại tin tuyển dụng, giúp giảm

thiểu số lượng tin lừa đảo và cải thiện trải nghiệm cho ứng viên và nhà tuyển dụng.

Hệ thống này có thể mở rộng va áp dụng cho nhiều lĩnh vực khác trong NLP Khóa

luận chứng minh tính hiệu quả của kỹ thuật NLP và học online trong phân loại tin

tuyển dụng, góp phần làm trong sạch môi trường tuyển dụng trực tuyến và bảo vệ

người tìm việc khỏi lừa đảo.

1X

Trang 11

Chương 1 GIỚI THIẾU

1.1 Cấu trúc khoá luận

Khoá luận của chúng tôi gồm các nội dung được chia thành 6 chương như sau:

* Chương 1: GIỚI THIỆU - Trong chương này chúng tôi sẽ trình bày tong quan

về đề tài hệ thống dự đoán Real-time và Online-learning cho bài toán phân loại

tin tuyển dụng.

* Chương 2: PHƯƠNG PHAP THUC NGHIỆM - Chúng tôi tiến hành thực

nghiệm các phương pháp học sâu và học chuyển tiếp, cũng như học trực tuyến

cho bài toán trên bộ dữ liệu đã được xây dựng Đồng thời đưa ra các phương

pháp đánh giá.

¢ Chương 3: KET QUA THUC NGHIEM - Trinh bay các kết qua thực nghiệm

thu được ở chương 3.

* Chương 4: XÂY DỰNG HE THONG DU DOAN THEO THỜI GIAN THỰC

- Chương này trình bày tổng quan cũng cách thức xây dựng hệ thống

* Chương 5: KET LUẬN VÀ HƯỚNG PHÁT TRIEN TRONG TƯƠNG LAI

- Cuối cùng chúng tôi trình bày các kết quả đã thực hiện và thu được trongkhoá luận lần này Các mặt hạn chế của dé tài cũng như hướng phat triển trong

tương lai.

1.2 Đặt vấn dé

Phân loại văn bản là một bài toán cơ bản và vô cùng phổ biến trong xử lý ngôn ngữ

tự nhiên (Natural Language Processing) Bài toán này có nhiều ứng dụng rộng rãi,

chẳng hạn như phát hiện thư rác, phân tích cảm xúc, và nhận diện cảm xúc trong

bình luận của người dùng Tuy nhiên, việc áp dụng chúng trong lĩnh vực phân loại

tin tuyển dụng vẫn chưa được khám phá nhiều do tính phức tạp và đa dạng của các

quảng cáo tuyển dụng Điều này dẫn đến sự gia tăng của các tin tuyển dụng không

đáng tin cậy Những tin này thường chứa thông tin giả mạo hoặc lôi kéo người tìm

việc vào các công việc không tôn tại, với mục đích lợi dụng hoặc chiêm đoạt thông

1

Trang 12

tin cá nhân của ứng viên Hậu quả là người tìm việc bị lừa đảo, mất thời gian vàcông sức, thậm chí mất mát tài sản Năm 2022, đã có gần 13.000 nạn nhân bị lừa

đảo tuyển dụng trực tuyến Bên cạnh đó, các nhà tuyển dụng bị mất uy tín và gặp khó khăn trong việc thu hút ứng viên chất lượng Cùng với sự phát triển mạnh mẽ

của các phương tiện truyền thông xã hội, số lượng các tin tuyển dụng không đángtin cậy cũng tăng lên đến mức khó kiểm soát Điều này làm nổi bật sự cần thiết củaviệc phát triển các công cụ và tiến hành các nghiên cứu về đặc điểm của tin tuyểndụng từ người dùng Mục tiêu là tối ưu hóa quá trình tuyển dụng và bảo vệ quyền lợi

của các bên tham gia.

Để thực hiện được các nhiệm vụ nêu trên, chúng tôi tiến hành nghiên cứu và

đặt ra hai mục tiêu chính Trước tiên, nghiên cứu sẽ tập trung vào xây dựng và thử

nghiệm các mô hình học sâu (Deep Learning) trên bộ dữ liệu có sẵn về tin tuyểndụng để đạt được kết quả tốt nhất Tiếp theo, phát triển một hệ thống dự đoán theothời gian thực sử dụng kỹ thuật học trực tuyến (Online learning) Hệ thống này sẽ

liên tục cập nhật và phân tích các dữ liệu mới nhất từ các tin tuyển dụng, từ đó đưa

ra đánh giá nhanh chóng về tính đáng tin cậy của từng tin đăng Điều này giúp người tìm việc và nhà tuyển dụng có thể dễ dàng nhận biết và tránh những tin tuyển dụng

không đáng tin cậy, giảm thiểu các rủi ro và lãng phí thời gian trong quá trình tìm

kiếm việc làm và tuyển dụng Nghiên cứu này hứa hẹn góp phần nâng cao hiệu quả

và độ tin cậy trong lĩnh vực tuyển dụng trực tuyến.

1.3 Các công trình nghiên cứu liên quan

1.3.1 Tinh hình nghiên cứu trên thé giới

Năm 2017, Vidros và cộng sự [1] đã tiến hành một nghiên cứu chi tiết về các quảng

cáo việc làm gian lận bằng cách sử dung dữ liệu từ "Employment Scam Aegean

Dataset" (EMSCAD) Dataset nay gồm 17,880 tin tuyển dụng, trong đó có 866 tin

lừa đảo Các tiêu chí phân loại dựa trên các hoạt động đáng ngờ của khách hàng,

thông tin sai lệch hoặc các khiếu nại của ứng viên Nghiên cứu này sử dụng các mô

hình học máy như Logistic Regression, Naive Bayes, và Random Forest để phân loại

các tin tuyển dụng và đạt được những kết quả đáng kể Cho đến năm 2022, Cheekati

Trang 13

Srikanth và cộng sự [2] đã so sánh hiệu suất của các kỹ thuật học máy và đặc trưnghóa trên tập dữ liệu EMSCAD, đạt độ chính xác cao nhất với mô hình Baggingclassifier là 98.85% và F1 score là 0.88 trên tập dữ liệu mất cân bằng Trên tập dữliệu cân bằng, XgBoost đạt độ chính xác 97.89% và F1 score là 0.98 Bên cạnh đó,

Singh và cộng sự [3] cũng nghiên cứu sử dụng bộ dữ liệu EMSCAD và triển khai

nhiều phương pháp khai thác dữ liệu và thuật toán phân loại khác nhau, bao gồm

K-Nearest Neighbors, Decision Tree, Support Vector Machine, Deep Neural Network

(DNN), v.v Kết quả nổi bật là DNN đạt được độ chính xác phân loại 98%, cho thay

hiệu suất cao trong việc phát hiện các tin tuyển dụng giả

Trong bối cảnh các hình thức lừa đảo trực tuyến ngày càng tinh vi và thay đổi

nhanh chóng, việc áp dụng phương pháp học trực tuyến (Online learning) [4] là vôcùng cần thiết Tuy nhiên, hiện tại chưa có nghiên cứu nào áp dụng trực tiếp phươngpháp này cho vấn đề trên Mặc dù học trực tuyến có kha năng cho phép mô hình cập

nhật liên tục khi có dữ liệu mới, thay vì phải tái huấn luyện từ đầu Nhưng việc học

dữ liệu mới có thể khiến mô hình đã huấn luyện quên những kiến thức ở các lớp cũ

và giảm mạnh hiệu suất trên dữ liệu trong tương lai Hoc gia tang[5] (Incremental

Learning) là một phần của học trực tuyến Phương pháp này đòi hỏi thời gian dai

để huấn luyện mô hình mỗi khi dữ liệu mới được thêm vào và không xem xét cácquan sát mới của các lớp cũ Năm 2020, He và cộng sự [6] đề xuất một khung họcgia tăng có thể hoạt động trong kịch bản học trực tuyến đầy thách thức, đồng thời

xử lý dif liệu của các lớp mới và các quan sát mới của các lớp cũ Kết quả đạt được

vượt trội hơn so với các phương pháp học gia tăng trên bộ dữ liệu CIFAR-100 và

ImageNet-1000 (ILSVRC 2012) Đến năm 2021, Nicola và cộng sự [7] đã nghiêncứu học gia tăng cho bài toán phân tích cảm xúc và kết quả cho thấy phương phápnày không chỉ cải thiện độ chính xác của mô hình mà còn duy trì hiệu suất tổng thểcủa hệ thống, đáp ứng tốt nhu cầu và sự hài lòng của khách hàng Cùng năm, Ramya

va cộng sự [8] đã áp dụng học gia tăng để cải thiện mô hình phân loại cảm xúc và

xác định người dùng có ảnh hưởng một cách hiệu quả, giúp hệ thống phản ứng tốt

hơn với dữ liệu động và nâng cao hiệu suất tổng thể Cũng trong năm 2021, Londhe

và cộng sự [9] cải thiện độ chính xác của quá trình phân loại bằng cách triển khai

một khung công việc mới dựa trên học gia tắng và đạt độ chính xác 76%.

Trang 14

1.3.2 Tinh hình nghiên cứu tại Việt Nam

Việt Nam ngày càng phát triển, đã có nhiều bộ dữ liệu chất lượng được phát triểncho nhiều vấn đề khác nhau, đặc biệt trong lĩnh vực phân loại văn bản và phân tíchcảm xúc Tuy nhiên, các nghiên cứu về lừa đảo tuyển dụng vẫn còn khá hạn chế

Phần lớn các nguồn thông tin hiện có như Cấm Nang Nhận Diện Và Phòng Chống Lita Đảo Trực Tuyến! do Bộ Thông tin và Truyền thông” cung cấp chỉ dừng lại ở

việc hướng dẫn và đưa ra các tiêu chí để nhận biết các dấu hiệu của tin tuyển dụnglừa đảo Cũng trong khuôn khổ phát triển các nguồn thông tin hữu ích, Trung TâmGiám Sát An Toàn Không Gian Mạng Quốc Gia? (NCSC) đã phối hợp với Google?

để thiết lập website giúp người dùng nhận biết về lừa đảo trực tuyến NCSC cũng đãthực hiện các chiến dịch tuyên truyền và giáo dục cộng đồng về các nguy cơ và biệnpháp phòng chống lừa đảo trực tuyến, góp phần nâng cao nhận thức và an toàn thông

tin cho người dùng mạng Mặc dù đã có nhiều nỗ lực nhằm ngăn chặn các hoạt động

lừa đảo, tình trạng này vẫn tiếp diễn, phần lớn là do thiếu hiểu biết của nhiều người

Do đó, việc phát triển một giải pháp có khả năng phân loại các tin tuyển dụng không

đáng tin cậy trở nên hết sức cần thiết

Để thực hiện được những điều nêu trên, chúng tôi cần một bộ dữ liệu tiếng Việt

đủ lớn và chính xác Tại Trường Đại học Công nghệ Thông tin - Đại học Quốc gia

Thành phố Hồ Chí MinhŠ, nhóm nghiên cứu do Quốc va cộng sự dẫn đầu đã tiến

hành phát triển một bộ dữ liệu tin tuyển dụng không đáng tin cậy, được tổng hợp từ trang web muaban.net® Bộ dữ liệu này được gan nhãn bởi đội ngũ có kinh nghiệm

dựa trên các tiêu chí đánh giá kỹ lưỡng để nâng cao chất lượng và tính ứng dụng của

dữ liệu Chúng tôi hy vọng rằng từ bộ dữ liệu này, chúng tôi có thể đạt được kết quả

tốt hơn trong việc phát hiện và phân loại các tin tuyển dụng lừa đảo, góp phần giảm

thiểu tình trạng lừa đảo trực tuyến

Trang 15

1.4 Tổng quan đề tài

1.4.1 Dinh nghĩa bài toán

Chúng tôi sử dụng các tin tuyển dụng bán cấu trúc với nhiều khía cạnh khác nhau

cho bài toán phân loại tin tuyển dụng không đáng tin cậy Mục tiêu của nghiên cứu

này là xác định nhãn tổng quát cho các tin tuyển dụng Ngoài ra, nhóm còn kết hợpthêm tác vụ phân tích tiêu chí của từng khía cạnh (ACSA) và tạo giải thích chỉ tiếtcho việc phân tích đó, điều này giúp người dùng có cái nhìn khách quan hơn Đầuvào và dau ra của bài toán được nhóm thiết kế như hình 1.1

Tác vụ 1:

Phân loại

tin tuyển dụng ,

Tin tuyển d Tac vụ 3:

1n tuyên dụng _—————> Tác vụ 2: ——— Tạo câu giải thích

Phân tích tiêu chí

của khía cạnh

Đâu vào Đầu ra

Hình 1.1 Đầu vào và đầu ra của bài toán phân loại tin tuyển dụng

1.4.2 Thách thức đề tài

Một trong những khó khăn chính trong nghiên cứu phát hiện tin tuyển dụng không

đáng tin cậy là sự thiếu hụt các bộ dữ liệu tiếng Việt trên lĩnh vực này Hiện tại, chưa

có bộ dữ liệu nào được công bố đủ chất lượng để phục vụ cho nghiên cứu về tínhchất này Ngoài ra, việc định nghĩa một tin tuyển dụng không đáng tin cậy là rất khókhăn do sự tinh vi của nhiều hành vi lừa đảo Nhiéu tin tuyển dụng giả mao trông

rất chuyên nghiệp và không khác gì tin tuyển dụng thật, khiến việc đánh giá và đưa

ra hướng dẫn gán nhãn trở nên vô cùng nan giải Đánh giá một tin tuyển dụng lừa

đảo đòi hỏi nhiều kiến thức, kinh nghiệm và trải nghiệm thực tế

Trang 16

1.4.3 Tính ứng dụng và tinh mới của đề tài

Nghiên cứu các bài toán liên quan đến tin tuyển dụng không đáng tin cậy đóng vai

trò quan trọng trong việc tăng cường sự an toàn cho người tìm việc và nâng cao

uy tín cho các nhà tuyển dụng, nhất là trong bối cảnh hiện nay khi các hành vi lừa

đảo ngày càng tinh vi Không dừng lại ở việc phát triển các mô hình thông thường,

chúng tôi còn triển khai thêm hệ thống tiện ích để ứng dụng các nghiên cứu vào thực

tế, nhằm mang lại lợi ích thiết thực cho cộng đồng Thêm vào đó, việc tạo ra các giải

thích cho tác vụ phân tích cảm xúc từng khía cạnh không chỉ giúp người dùng hiểu

rõ về nhãn được gán mà còn cung cấp lý do đằng sau chúng, qua đó mang lại cái

nhìn tổng quan hơn Chúng tôi hy vọng nghiên cứu này sẽ cải thiện hiệu quả tuyển

dụng và là tiền dé cho các nghiên cứu sau này, góp phần xây dựng môi trường tuyển

dụng an toàn và văn minh hơn.

1.4.4 Kétluan

Mặc dù bài toán phân loại không còn là chủ dé mới mẻ và đã được nhiều nhà nghiêncứu khai thác, thực tế vẫn còn tồn tại nhiều thách thức chưa được giải quyết, đặc

biệt là vấn để lừa đảo tuyển dụng trực tuyến, vốn đang có xu hướng gia tăng Ví

dụ, chỉ trong năm 2022, đã có gần 13.000 nạn nhân rơi vào bay lừa đảo tuyển dụngtrực tuyến Chúng tôi thực hiện nghiên cứu này với mong muốn không chỉ giúp đỡ

những người tìm việc tránh được những cạm bẫy tương tự mà còn đóng góp vào sự

phát triển của xã hội.

Trang 17

Chương 2 PHƯƠNG PHÁP THỰC NGHIỆM

Chúng tôi tiến hành xây dựng quy trình thực nghiệm cho hệ thống phân loại tintuyển dụng như hình 2.1 Đầu tiên, cần chuẩn bị một bộ dữ liệu tin tuyển dung đượcgán nhãn chính xác và đầy đủ Bộ dữ liệu này phải đáp ứng ba mục tiêu đã nêu ở

mục 1.4.1 Sau đó, chúng tôi tiến hành tiền xử lý dữ liệu theo hai phần cho ba nhiệm

vụ đã dé ra Với tác vụ 1 và tác vụ 2, chúng tôi áp dụng kiến trúc mô hình kết hợp

học chuyển tiếp và học sâu Để đánh giá sự thay đổi độ chính xác khi nhiều dữ liệumới xuất hiện, mô hình tốt nhất từ kiến trúc này được chọn để thử nghiệm phươngpháp học trực tuyến Kết quả của nó (RESULT task 1,2 onl) được so sánh với kết

qua từ mô hình tốt nhất trước đó (BEST RESULT task 1,2 off) nhằm xác định xem

phương pháp học truyền thống hay học trực tuyến đem lại kết quả tốt hơn Đối với tác vụ 3, chúng tôi huấn luyện mô hình sinh ngôn ngữ trên bộ dữ liệu gốc và so

sánh kết quả của nó (RESULT task 3 using original data) với kết quả khi sử dụng

dữ liệu dự đoán từ hai tác vụ trước Điều này nhằm đảm bảo rằng dữ liệu từ tác vụ

1 và 2 có thể cung cấp kết quả tốt khi được sử dụng làm đầu vào cho tác vụ 3 Cuốicùng, chúng tôi phát triển hệ thống dự đoán theo thời gian thực và học trực tuyến

cho nghiên cứu này.

Data for CLS với ACSA (task 1,2) Data for Explanation Generation (task 3)

Transfer Learning and BEST RESULT

Deep Learning Model task 1,2 (off)

task 1,2 (onl) Predicted Data

REAL-TIME AND ONLINE LEARNING PREDICTING SYSTEM

FOR RECRUITMENT ADVERTISING CLASSIFICATION

Hình 2.1 Tổng quan quy trình xây dựng hệ thống phân loại tin tuyển dung.

Trang 18

2.1 Bộ dữ liệu sử dung cho thực nghiệm

2.1.1 Nguồn gốc bộ dữ liệu

Chúng tôi kế thừa bộ dit liệu tuyển dụng do nhóm nghiên cứu Quốc và cộng sự tại

trường đại học Công Nghệ thông Tin - Đại học Quốc Gia Thành Phố Hồ Chí Minh

Bộ dữ liệu tuyển dụng được thu thập từ trang web muaban.net!, trang web này cho

phép đăng tin về mua bán và tuyển dụng Dữ liệu thu thập từ tháng 1/2021 đếntháng 9/2023, sau khi tiền xử lý thu được 30,000 mau hiện hành Bộ dữ liệu đã được

gán nhãn, đánh giá kĩ lưỡng và thực hiện các quy trình chuẩn để cho ra một bộ dữ

liệu tốt Độ đồng thuận trung bình giữa các cặp người gán trên tác vụ phân loại và phân tích cảm xúc lần lượt là 0.56 và 0.59 theo chỉ số Cohen’s Kappa [10] Và độ

đồng thuận trung bình giữa các cặp người gán trên tác vụ giải thích sử dụng độ đoBLEU-2? và BERTScore là 0.74 và 0.73 Kết quả cuối cùng cho ra 12,051 mẫu dữ

liệu chất lượng.

2.1.2 Định nghĩa bộ dữ liệu

Mỗi tin tuyển dụng trong bộ dữ liệu được gán một trong 3 nhãn phân loại chính.

Thứ nhất, nhãn WARNING dành cho những tin tuyển dụng bat thường, có thông tinkhông rõ ràng hoặc sai lệch, chứa các yếu tố khả nghi, có thể gây rủi ro và thiệt hai

về tài sản cho người dùng Thứ hai là nhãn SEEDING, áp dụng cho các tin tuyển

dụng có thông tin bổ sung không cần thiết, chẳng hạn như thông tin về bảo hiểm y

tế là quyền lợi của mỗi người lao động nhưng lại được thêm vào Hay các tin tuyển

dụng tiêu đề chứa tiền lương nhằm mục đích thu hút người dùng Cuối cùng là nhãn

CLEAN, dành cho các tin tuyển dụng có thông tin rõ ràng và đầy đủ, an toàn cho

người dùng.

Từng tin tuyển dụng lại được chia nhỏ ra nhiều khía cạnh bao gồm: Tiêu dé công

việc (Title), mô tả công việc (Desc), thông tin va địa chỉ công ty (Company), các

thông tin khác (Other) Mỗi khía cạnh có thể chia thành tối đa 4 tiêu chí khác nhau

Trang 19

Khía cạnh cung cấp đầy đủ các thông tin cần thiết tối thiểu, nhất quán và xác thực

sé được gan là Positive Ngược lại, các thông tin không rõ rang, không nhất quán,không xác thực hoặc chứa các thông tin gây nhầm lẫn thì được gan là Negative Nhãn Not-Mentioned dành cho các thông tin không được cung cấp day đủ, hoặckhông được đề cập Cuối cùng, các thông tin không thuộc 3 nhãn trên sẽ là Neutral

title_aspect negative % |

title Tuyển Tài Xế B2-C, Lơ Xe, Nam Xếp Kho 16tr/tháng Lương Tuần

job_type Lao động phổ thông khác

desc aspect [ negative bd

Tài Xế, Lơ Xe, Nam Phụ Kho Hàng - Giao Hang

Va Cả Nhân Viên Làm Thời Vụ

i trí TÀI XE:

Tài Xế B2 - C Lương 16tr/Tháng => Phát Lương Tuần

Công việc chạy xe kiểm hàng - thu giữ tiền

=>Vi trí Lo Xe Giao Bánh Keo

Lo Xe giao hàng Lương 14tr/Tháng => Phát Lương Tuần

công việc đi theo tài xế giao bỏ hàng bánh kẹo - sữa - nc ngọt

=>Vị Trí Phụ Kho Xếp Bánh Kẹo.

Nam Phụ Kho xếp Bánh Kẹo 600k/ Ngày => Phát Lương Ngày

Công việc phân loại sắp xếp Bánh Kẹo

body

- Bao ăn ở miễn phí, lãnh lương tuần

khu vực làm việc BAK LAK VÀ CÁC TINH TÂY NGUYÊN

=> TP.HCM - BÌNH DƯƠNG - ĐỒNG NAI - LONG AN

- CÓ CMND GỐC ĐẾN NHẬN VIỆC ĐI LÀM NGAY, HỒ SƠ BỔ

Liên Hệ Quản Lý

@ Anh Hùng 0987.239.862 Hoặc 0979.423.862

company aspect not mentioned * |

location TP Buôn Ma Thuột, Dak Lak

contact_name | Hoài thương

poster aspect neutral %

u_user_id 3054228

ufullname — | Hoài Thương

u_phone 393853905.0

u_url /trang-ca-nhan/3054228 uploaded_date | 2022-07-01T00:05:52.201151+07:00 isanonymous | False

contact_type Toàn thời gian

gender Không yêu cầu

Hình 2.2 Ví dụ về một mẫu tin tuyển dụng bat thường.

Trang 20

Hình 2.2 là một ví dụ về tin tuyển dụng được gán nhãn WARNING và phân tích

các tiêu chí của 4 khía cạnh Ở khía cạnh title chúng ta có thể nhận thấy rằng tiêu dé

có chứa thông tin tiền lương nhằm mục đích thu hút người làm việc, do đó được gántiêu chi Negative Tiếp theo, ở phần Desc, thông tin yêu cầu người lao động phảicung cấp giấy tờ tuỳ thân, tuy nhiên các giấy tờ cung cấp cho công ty nên là các bảnsao công chứng, công ty không có quyên giữ giấy tờ gốc Chính vi vậy nó mang

nhãn Negative Đây cũng là một tiêu chí quan trọng giúp chúng tôi đánh giá nhãnchung của dif liệu Ở phần Company, phần thông tin về công ty cũng như địa điểm

không được nêu cụ thể, do đó nó có nhãn Neutral Và cuối cùng, do không để cậpthông tin mức lương cụ thể, quá nhiều mức lương gây hoang mang cho người dùng

nên khía cạnh Other cũng mang tiêu chí Negative Từ các thông tin trên, chúng tôi

quyết định gan nhãn đây là tin tuyển dung bat thường, do các khía cạnh mang nhiều

tiêu chí negative.

Để người dùng có cái nhìn khách quan hơn thay vì chỉ dựa vào các nhãn thông

thường, mỗi cặp khía cạnh-tiêu chí sẽ được kèm theo một câu giải thích Cụ thể,

câu giải thích là một chuỗi mô tả cho 4 khía cạnh, ngăn cách nhau bằng dấu ";" Ví

dụ, câu giải thích cho các khía cạnh trong hình 2.2 sẽ là: "Tiéu dé chứa tién lương

nhằm thu hút người tìm việc; Giấy tờ cung cắp cho công ty nên là bản sao duoc công

chứng, công ty không có quyên giữ gidy tờ gốc của người lao động; Tên công ty và địa điểm làm việc không được nêu cụ thế; Thông tin mức lương không được nêu cụ thể cho người xin việc ".

Trang 21

CLEAN Mm WARNING SEEDING

Hình 2.3 Phân bố và thống kê số lượng nhãn chính trong bộ dữ liệu

Đầu tiên, chúng tôi tiến hành thống kê và phân tích số lượng nhãn chính có trong

bộ dữ liệu trong hình 2.3 Chúng tôi thấy răng các nhãn có sự mắt cân bằng nhẹ Cụthể, nhãn Clean chiếm 43,1% trên toàn bộ tập dữ liệu, trong khi nhãn Seeding vàWarning lần lượt chiếm 24,2% và 32,7% Sự chênh lệch này có thể ảnh hưởng đếnhiệu suất dự đoán của mô hình

Số lượng tiêu chi của khía cạnh

# POSITIVE == NEUTRAL # NOTMENTIONED Em NEGATIVE |

Hình 2.4 Sự phân bồ số lượng tiêu chí trong từng khía cạnh trong bộ dữ liệu.

11

Trang 22

Ngoài việc phân loại tin tuyển dụng, bài toán còn chú trọng đến việc phân tíchcác tiêu chí của từng khía cạnh Vì vậy, chúng tôi tiến hành thống kê chi tiết hơn

về đặc điểm này Tại hình 2.4 ta thấy các khía cạnh chứa rất ít tiêu chí Neutral và Not-Mentioned, thậm chí chỉ có khía cạnh Company là đầy đủ cả 2 tiêu chí trên.

Giải thích cho điều này là trong quá trình xây dựng hướng dẫn gán nhãn, nhóm tácgiả nhận thấy một số khía cạnh không cần thiết phải có các tiêu chí đó, do đó khôngđược đề cập đến Mặt khác, sự chênh lệch lớn giữa các tiêu chí cũng là thách thức

cho việc xây dựng các phương pháp sau này.

Câu giải thích cho việc phân tích tiêu chí của khía cạnh được viết dưới dạng câu

tiếng việt ngắn gọn đầy đủ nghĩa và đúng cú pháp Hình 2.5 là thống kê số lượng

từ trong câu giải thích trên các tin tuyển dung Có thể thấy câu giải thích chủ yéu ở

khoảng 41 đến 45 từ Số lượng các câu giải thích ngắn chỉ từ 6 đến 10 từ là do đó

không phải là tin tuyển dụng.

3500

3000

2500 2000

CK k bean oe AIẢT thick

Hình 2.5 Thống kê số từ trong câu giải thích cho tác phụ phân tích tiêu chí

2.1.4 Tiền xử lý dữ liệu

Để sử dụng các kiến trúc pre-trained trên tiếng Việt với dữ liệu đầu vào là các chuỗi

token, chúng tôi xử lý dữ liệu theo hai phương pháp cho ba tác vụ chính Với tác vụ

phân lớp và phân tích tiêu chí của khía cạnh, dữ liệu đầu vào sẽ được ghép nối

thành một chuỗi duy nhất theo định dạng <CLS> <Tén feature 1>: <Nội dung của

feature 1> <SEP> <Tên feature 2>: <Nội dung cua feature 2> <SEP> Trong

12

Trang 23

đó, các feature và nội dung của chúng được phân biệt bằng các token <SEP> riêng

biệt của từng tokenizer Đối với tác vụ sinh câu giải thích, dữ liệu đầu vào cũng

sẽ được ghép nối thành một chuỗi duy nhất, nhưng bao gồm cả kết quả của hai tác

vụ trước Chuỗi đầu vào sẽ có định dạng <CLS> <Tên feature 1>: <Nội dung của

feature I> <SEP> <Tên feature 2>: <Nội dung cua feature 2> <SEP> Sau

khi chuyển các đầu vào thành dạng chuỗi như trên, chúng sé được tokenize bang các

tokenizer riêng của từng mô hình pre-trained Các chuỗi sau đó sẽ được padding để phù hợp với từng mô hình Cuối cùng, dữ liệu đầu vào sẽ bao gồm các chuỗi input token và attention mask để đưa vào mô hình.

Dữ liệu đầu ra của các tác vụ sẽ được xử lý tương tự nhau, tuy nhiên, ở tác vụ

phân lớp, dữ liệu sẽ được biến đổi thành các one-hot tensor để tiện cho việc huấnluyện mô hình Đối với tác vụ phân tích tiêu chí của khía cạnh, dữ liệu đầu ra sẽđược biến đổi thành một danh sách gồm bốn one-hot tensor, tương ứng với bốn khíacạnh cần quan tâm Trong tác vụ sinh câu giải thích, dif liệu đầu ra sẽ được tokenizebằng tokenizer giống với dữ liệu đầu vào và được padding theo độ dài lớn nhất đã

được thống kê.

2.2 Kiến trúc mô hình dựa trên phương pháp học chuyển tiếp kết hợp học sâu

Kiến trúc mô hình cơ bản được trình bày trong hình 2.6 Đầu vào của mô hình đã

được tiền xử lý theo các bước chỉ tiết nêu trên, đảm bảo rằng dif liệu đầu vào đã sẵn

sàng cho các bước tiếp theo trong quy trình xử lý Sau đó, dữ liệu đã qua xử lý sẽđược đưa vào mô hình thuộc phương pháp học chuyển tiếp để tiến hành trích xuất

các đặc trưng quan trọng Những đặc trưng này là các thông tin cần thiết, được trích xuất và chuyển vào bộ phân loại, nơi chúng được sử dụng bởi các mô hình thuộc

phương pháp học sâu Bộ phân loại này sẽ thực hiện các tác vụ phân loại và phân

tích khác nhau, từ đó đưa ra kết quả dự đoán cuối cùng Kiến trúc chỉ tiết dành cho

các tác vụ phân loại và phân tích khía cạnh được biểu diễn trong hình 2.7 và 2.8.

13

Trang 24

Input Process

Embedded

Features

Prediction Classifier

Hình 2.6 Kiên trúc can ban của mô hình

|

Softmax, Stack, Transpose

Trang 25

Trong phần dưới đây chúng tôi sẽ trình bày chi tiết về các mô hình thuộc haiphương pháp đã được nêu, bao gồm học chuyển tiếp và học sâu, để cung cấp mộtcái nhìn tổng quan và hiểu biết sâu sắc hơn về quy trình và cách thức hoạt động của

chúng trong nghiên cứu này.

2.2.1 Các phương pháp học chuyển tiếp

Với các bài toán xử lý ngôn ngữ tự nhiên, việc áp dụng các kiến trúc mô hình đãđược huấn luyện trên các tập dữ liệu ngôn ngữ lớn mang lại lợi ích đáng kể trong

việc cải thiện hiệu suất, do các mô hình này có khả năng hiểu ngôn ngữ tự nhiên tốt.

Tinh chỉnh các mô hình đã được huấn luyện trước trên tác vụ hiện tại chắc chắn sẽmang lại kết quả khả quan Nhóm đã lựa chọn các mô hình đơn ngôn ngữ trên tiếng

Việt là PhoBERT, VisoBERT và CafeBERT vì bài toán hiện tai sử dụng bộ dữ liệu

tuyển dụng ở Việt Nam Do đó, việc chọn các mô hình này rất quan trọng để đảm

bảo hiệu suât cao.

° PhoBERTỊI 1]: Là một mô hình đơn ngôn ngữ cho tiếng Việt, được phát triển

bởi VinAI Research và giới thiệu lần đầu vào năm 2020 Dựa trên kiến trúc

RoBERTa, một biến thể cải tiến của BERT, PhoBERT được huấn luyện trênmột tập dữ liệu lớn chứa khoảng 20GB văn bản tiếng Việt thu thập từ cácnguồn khác nhau Mô hình này sử dụng một từ điển token hóa dựa trên Byte-Pair Encoding (BPE) được huấn luyện riêng cho tiếng Việt, giúp nắm bắt tốthơn các đặc trưng ngôn ngữ và từ vựng tiếng Việt PhoBERT có hai phiên bản

chính: PhoBERT Base và PhoBERT Large PhoBERT Base có 12 lớp, 768

đơn vị ẩn và 12 dau attention, trong khi PhoBERT Large có 24 lớp, 1024 đơn

vị ẩn và 16 đầu attention Mô hình này đã cải thiện đáng kể hiệu suất trong

nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên tiếng Việt như phân loại văn bản, phân

tích cảm xúc và nhận dạng thực thể (NER), nhờ khả năng nắm bắt ngữ cảnhtoàn diện và chính xác hơn cho ngôn ngữ này Trong nghiên cứu này, chúng

tôi sử dụng phiên bản PhoBERT Base, mô hình tiền huấn luyện được cung cấp

công khai trên nền tang Hugging Face!.

"https://huggingface.co/vinai/phobert-base

15

Trang 26

* ViSoBERT[12]: Giống với PhoBERT, VisoBERT cũng là một mô hình đơn

ngôn ngữ cho tiếng Việt, được giới thiệu lần đầu vào năm 2023 và phát triển

dựa trên kiến trúc XLM-R Mô hình này được huấn luyện trên dữ liệu văn bản

từ mạng xã hội Việt Nam, bao gồm các văn bản đa dạng và chất lượng cao.

ViSoBERT đã cải thiện hiệu suất trên nhiều tác vụ xử lý ngôn ngữ tự nhiên như

phát hiện cảm xúc, phát hiện ngôn từ độc hại và nhận diện bình luận rác Mô

hình có 12 lớp (layers) và 768 đơn vị ẩn (hidden units) Mô hình trên chúng

tôi sử dụng cũng được cung cấp công khai trên nền tang Hugging Face!

* CafeBERT[13]: Đây cũng là một mô hình ngôn ngữ dành cho tiếng Việt, được

ra mắt vào năm 2024 và xây dựng trên nền tảng XLM-R Mô hình này kết hợp

kiến thức từ XLM-R với đữ liệu tiếng Việt mới, sử dụng tác vụ mô hình ngôn ngữ mặt na (MLM) trong quá trình huấn luyện CafeBERT đạt hiệu suất vượt

trội trong các nhiệm vụ đánh giá tiêu chuẩn VLUE (Đánh giá hiểu ngôn ngữ

tiếng Việt) va cũng xuất sắc trong các bài kiểm tra khác như ViNewsQA,

UIT-ViFSD và UIT-VSFC Với 24 lớp (layers) và 1024 đơn vị ẩn (hidden units), mô

hình này được sử dụng trong nghiên cứu của chúng tôi dưới dạng phiên bản

tiền huấn luyện có sẵn trên nền tảng Hugging Face”

‘https://huggingface.co/uitnlp/visobert

*https://huggingface.co/uitnlp/CafeBERT

16

Trang 27

Bên cạnh các mô hình đơn ngôn ngữ, nhóm cũng chọn ra các mô hình đa ngôn

ngữ là BERT, DistilBERT và XLM-R để đánh giá xem mô hình nào sẽ đạt hiệu suất

cao hơn.

¢ Bidirectional Encoder Representations from Transformers (BERT)[14]:

La một mô hình ngôn ngữ do Google phát triển, được giới thiệu lần đầu vào năm 2018 Dựa trên kiến trúc Transformer, BERT sử dụng cơ chế Attention

để học các biểu diễn ngữ cảnh từ cả hai hướng của văn bản, tức là từ trái sang

phải và từ phải sang trái BERT được thiết kế để tiền huấn luyện các biểudiễn ngữ cảnh hai chiều từ văn bản không gán nhãn, và sau đó có thể được

tinh chỉnh với các lớp đầu ra bổ sung để phục vu cho nhiều bài toán như trả lời câu hỏi và suy luận ngôn ngữ mà không cần thay đổi kiến trúc cơ bản BERT được huấn luyện theo hai nhiệm vụ chính: Masked Language Modeling (MLM) va Next Sentence Prediction (NSP) Trong MLM, một số từ trong câu

được thay thé bang token [MASK] va mô hình phải dự đoán các từ bi che di

dựa trên ngữ cảnh xung quanh NSP yêu cầu mô hình xác định xem một câu

có phải là câu tiếp theo của câu trước đó hay không BERT đã cải thiện đáng

kể hiệu suất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) như phânloại văn bản, nhận dạng thực thể (NER) và trả lời câu hỏi, nhờ khả năng nắmbắt ngữ cảnh toàn diện và chính xác hơn BERT gồm hai phiên bản chính:BERT-Base và BERT-Large BERT-Base có 12 lớp, 768 đơn vị ẩn va 12 đầuself-attention, trong khi BERT-Large có 24 lớp, 1024 đơn vị ẩn và 16 đầu

self-attention Trong nghiên cứu này, chúng tôi sử dụng phiên bản

bert-base-multilingual-cased, mô hình tiền huấn luyện được cung cấp công khai trên nền

tang Hugging Face!.

¢ Distilled Bidirectional Encoder Representations from Transformers

(Dis-tiIBERT)[15]: là một phiên bản nhẹ và nhanh hơn của mô hình BERT, được

phát triển bởi Hugging Face và giới thiệu lần đầu vào năm 2019 DistilBERT

được xây dựng dựa trên kỹ thuật distillation, trong đó mô hình lớn (BERT)

được dùng để huấn luyện mô hình nhỏ hơn (DistiIBERT) bằng cách truyền

!https://huggingface.co/google-bert/bert-base-multilingual-cased

17

Trang 28

đạt kiến thức từ mô hình gốc sang mô hình con DistiIBERT duy trì kiến trúc

Transformer và cơ chế Attention nhưng chỉ có một nửa số lớp so với BERT Mặc dù nhỏ hơn, DistiIBERT vẫn giữ được khoảng 97% hiệu suất của BERT

trong các nhiệm vụ xử lý ngôn ngữ tự nhiên nhờ vào quá trình distillation,

trong đó mô hình học cách dự đoán các biểu diễn của mô hình gốc thay vìchỉ dựa trên dữ liệu huấn luyện thô DistiIBERT được huấn luyện với ba mụctiêu chính: khớp các phân phối xác suất của BERT, khớp các biểu diễn ẩn

của BERT, và dự đoán các từ bi che đi như trong Masked Language Modeling

(MLM) Với số lượng tham số ít hơn khoảng 60% và tốc độ nhanh hơn khoảng

60% so với BERT-Base, DistiIBERT là một lựa chọn lý tưởng cho các ứng

dụng yêu cầu hiệu suất cao nhưng hạn chế về tài nguyên tính toán DisilBERT

đã chứng minh hiệu quả trong nhiều nhiệm vụ NLP như phân loại văn bản, trảlời câu hỏi và nhận dạng thực thể (NER), đồng thời mang lại lợi ích lớn về mặthiệu suất và chi phí tính toán Trong nghiên cứu này, chúng tôi sử dụng phiên

bản distilbert-base-multilingual-cased, một mô hình tiền huấn luyện được cung cấp công khai trên nền tảng Hugging Face!.

¢ Cross-lingual Language Model- RoBERTa (XLM-R)[16]: XLM-R là mô

hình ngôn ngữ đa ngôn ngữ do Facebook AI phát triển, được giới thiệu năm

2019, dựa trên kiến trúc RoBERTa Được huấn luyện trên 2.5TB dữ liệu từ

100 ngôn ngữ, XLM-R tập trung vào Masked Language Modeling (MLM).

Mô hình có hai phiên bản: XLM-R Base (12 lớp, 768 đơn vị ẩn, 12 đầu attention) và XLM-R Large (24 lớp, 1024 đơn vị ẩn, 16 đầu self-attention)

self-XLM-R cải thiện hiệu suất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên đa

ngôn ngữ Nghiên cứu này sử dụng xlm-roberta-base, mô hình tiền huấn luyện

được cung cấp công khai trên nền tang Hugging Face.”.

'https:/huggingface.co/distilbert/distilbert-base-multilingual-cased

?https://huggingface.co/FacebookAI/xlm-roberta-base

18

Trang 29

2.2.2 Các phương pháp học sâu

Sau khi dữ liệu được xử lí thông qua các mô hình học chuyển tiếp được nêu ở trên,dem lại được không gian vector ngữ nghĩa, làm tiền dé cho các kiến trúc phân lớpphía sau Việc xây dựng các kiến trúc phân lớp cũng mang ý nghĩa quan trọng

Nhóm chọn ra 2 kiến trúc phổ biến và mang lại hiệu suất khá tốt trên các dữ liệu

ngôn ngữ là LSTM va CNN để xây dựng đuôi phân lớp của mô hình Việc sử dung

LSTM và CNN mỗi loại riêng biệt với feature từ các mô hình học chuyển tiếp manglại những lợi ích riêng của từng mạng LSTM tập trung vào việc mô hình hóa mối

quan hệ ngữ nghĩa dài hạn và xử lý chuỗi[17], trong khi CNN phát huy sức mạnh

trong việc trích xuất đặc trưng cục bộ và mô hình hóa mối quan hệ không gian giữacác từ [18] Lựa chọn giữa LSTM và CNN (hoặc cả hai) phụ thuộc vào bối cảnh cụ

thể của vấn dé và mục tiêu đặt ra trong tác vụ phân lớp dữ liệu văn bản.

« Long Short-Term Memory (LSTM): là một loại mạng nơ-ron thích hợp để

xử lý dữ liệu chuỗi, nhờ khả năng duy trì thông tin ngữ nghĩa trong chuỗi dài

và phụ thuộc vào ngữ cảnh Khi kết hợp với các đặc trưng từ BERT, LSTM

có thể được sử dụng để mô hình hóa chuỗi dữ liệu, học các mối quan hệ dài

hạn giữa các từ trong câu và cải thiện việc biểu diễn các chuỗi dữ liệu phức tạp

[19] LSTM còn có khả năng xử lý chuỗi có độ dài thay đổi, giúp nó rất hữu

ích khi làm việc với các câu có độ dài khác nhau tùy theo ngữ cảnh [18] Dac

biệt, LSTM tối ưu hóa thông tin ngữ nghĩa dài hạn trong câu nhờ cơ chế cập nhật và quên thông tin, giải quyết hiệu quả vấn đề liên quan đến mối quan hệ

ngữ nghĩa dài hạn [17].

¢ Convolutional Neural Network (CNN): Thường được sử dung trong xử lý

hình ảnh, nhưng cũng có thé áp dung cho di liệu chuỗi, đặc biệt trong việc

trích xuất đặc trưng từ các embedding của BERT Các lợi ích chính của CNN bao gồm: khả năng phát hiện đặc trưng cục bộ trong embedding, tăng cường

nhận diện cụm từ hoặc biểu thức trong câu [20]; mô hình hóa mối quan hệkhông gian giữa các từ qua các bộ lọc nhỏ của dif liệu đầu vào, hữu ích khi các

từ biểu diễn bằng feature từ BERT [fakeStack]; và hiệu quả tính toán khi CNN

xử lý ma trận đầu vào lớn, được ưa chuộng trong các tác vụ đữ liệu lớn.[21]

19

Trang 30

2.3 Phương pháp học trực tuyến

2.3.1 Dinh nghĩa

Học trực tuyến (Online Learning) là một phương pháp học máy trong đó mô hình

học dần dần từ luồng dữ liệu trong thời gian thực Đó là một quá trình liên tục điều

chỉnh thuật toán dự đoán theo thời gian, cho phép mô hình thay đổi khi có dữ liệu

mới Phương pháp này cực ky có ý nghĩa trong môi trường giàu đữ liệu có kha năng

phát triển nhanh chóng ngày nay vì nó có thể đưa ra dự đoán kịp thời và chính xác.

Học gia tăng (Incremental Learning) là một phương pháp cụ thể của học trực

tuyến, cho phép mô hình hoc từ dif liệu mới mà không cần tái huấn luyện toàn bộ từđầu [22] Phương pháp này rất hữu ích khi dif liệu mới liên tục xuất hiện hoặc khi

dữ liệu quá lớn để lưu trữ và xử lý hiệu quả Mô hình có khả năng tích hợp thông

tin từ dữ liệu mới mà không cần truy cập lại dữ liệu cũ, và thường được sử dụng khitái huấn luyện từ đầu mỗi khi có dữ liệu mới là không khả thi về mặt thời gian hoặc

tài nguyên Mô hình có thể xử lý dữ liệu theo từng lô lớn hơn so với học trực tuyến, nhưng không yêu cầu lưu trữ toàn bộ dữ liệu trước đó Các ứng dụng thực tế của học gia tăng bao gồm hệ thống khuyến nghị, nơi mô hình được cập nhật khi có thông tin

mới về hành vi người dùng; phát hiện gian lận, khi mô hình cần thường xuyên cập

nhật để phát hiện các hành vi gian lận mới [23]; và phân tích dữ liệu lớn, nơi mô

hình xử lý và học từ dữ liệu đến liên tục [24].

Chúng tôi áp dụng phương pháp học gia tang cho nghiên cứu này Học gia tang

mang đến nhiều ưu điểm như khả năng thích nghi nhanh chóng với các thay đổi trong

dữ liệu, giúp mô hình duy trì hiệu suất tốt theo thời gian [22] Bên cạnh đó, phươngpháp này tiết kiệm tài nguyên bằng cách giảm thiểu nhu cầu lưu trữ và tính toán, đặcbiệt hữu ích khi làm việc với các tập dữ liệu lớn [25], đồng thời tăng tốc quá trình

huấn luyện nhờ chỉ cập nhật mô hình với dữ liệu mới [25] Tuy nhiên, Học gia tăng

cũng đối mặt với một số hạn chế như sự nhạy cảm với trình tự dữ liệu, khiến một

điểm dữ liệu bất thường có thể thay đổi đáng kể các tham số của mô hình, dẫn đến giảm độ chính xác [25] Phương pháp này cũng ít kiểm soát việc huấn luyện so với

phương pháp truyền thống, với rủi ro là luồng dữ liệu chất lượng kém không mongđợi có thể dẫn đến những dự đoán kém [25] Ngoài ra, các thuật toán Incremental

20

Trang 31

Learning thường khó diễn giải [26] và thiết kế cũng như triển khai của chúng có thểphức tạp hơn các phương pháp truyền thống [25], đặc biệt khi đối mặt với rủi ro vềhiệu suất từ đữ liệu mới không được chọn lọc kỹ [25].

2.3.2 Thiết kế các thí nghiệm học trực tuyến

Dữ liệu huấn luyện sẽ được chia làm hai phần với tỉ lệ 2:8, nhằm khởi tạo mô hình

cho học trực tuyến và chuẩn bị dữ liệu giả định là luồng dữ liệu streaming được đưavào hệ thống để kích hoạt quá trình học trực tuyến Với 20% dữ liệu huấn luyện,

mô hình được huấn luyện theo phương pháp truyền thống (offline) để khởi tạo mô

hình ban đầu Quá trình học trực tuyến sẽ được kích hoạt khi hệ thống có thể cungcấp lượng dif liệu streaming đủ một batch được quy định sẵn Theo nghiên cứu, việchuấn luyện mô hình theo từng batch sẽ đem lại kết quả tốt hơn so với việc huấn luyệncho từng điểm dữ liệu riêng lẻ Ngoài ra, huấn luyện theo batch cũng giúp tiết kiệm

tài nguyên và thời gian huấn luyện cho cả hệ thống Để cải thiện và khắc phục các

hạn chế của học trực tuyên, nhóm đã thiết kế ra các chiến thuật dùng để huấn luyện

mô hình một cách hiệu quả.

Latest model

Hinh 2.9 Minh hoa Chién thuat 1

21

Trang 32

* Chiến thuật 1: Được minh hoạ ở hình 2.9 Khi dữ liệu streaming mới nhất

tổng hợp lại đủ số lượng 1 batch dữ liệu quy định trước, thì quá trình OnlineLearning sẽ được kích hoạt Mô hình hiện tại sẽ được huấn luyện bằng batch

dữ liệu mới đó Khi huấn luyện xong mô hình mới này sẽ thay thế mô hình

hiện tại trong hệ thống và tiếp tục chờ 1 batch dữ liệu mới được đưa vào

* Chiến thuật 2 Được minh hoạ ở hình 2.10 Khi dữ liệu streaming mới nhất

tổng hợp lại đủ số lượng 1 batch dif liệu quy định trước, thì quá trình học trựctuyến sẽ được kích hoạt Mô hình hiện tại sẽ được huấn luyện bằng batch dữliệu mới đó Khi huấn luyện xong, mô hình mới sẽ được đánh giá trên tập devđược lưu trong database của hệ thống Kết quả đánh giá của mô hình mới sẽđược so sánh với kết quả đánh giá của mô hình cũ đạt được kết quả tốt nhất

Nếu như kết quả của mô hình mới tốt hơn, thì mô hình mới sẽ thay thế mô hình cũ tốt nhất trong hệ thống Còn trường hợp ngược lại, nếu như kết quả

mô hình mới không cao hơn, thì mô hình hiện tại vẫn là mô hình cũ có kết quảtốt nhất Sau đó, mô hình tốt nhất sẽ tiếp tục chờ | batch dữ liệu mới được đưa

vào Ý nghĩa của chiến thuật này nhằm có thể kiểm soát được việc huấn luyện

mô hình.

Streaming

Data

* Chiến thuật 3: Được minh hoạ ở hình 2.11 Tương tự chiến thuật 2, tuy nhiên,

nếu như dữ liệu streaming đạt đủ M lần số lượng dữ liệu 1 batch được quy định sẵn (M cũng là được quy định sẵn), thì quá trình Online Learning sẽ được kích

22

Trang 33

hoạt, nhưng với số lượng là M x batch_size Ví dụ cụ thể, với M = 4, thì hệ

thống sẽ huấn luyện giống như Chiến thuật 2 là 3 lần huấn luyện với các batch lần lượt là B1, B2, B3 Khi có batch thứ 4 là B4 được đưa vào hệ thống, thì sẽ

kích hoạt Online Learning với 1 batch có độ dài gấp 4 lần batch thông thường,

bao gồm (BI, B2, B3, B4) Ý nghĩa của chiến thuật này nhằm giúp cho mô

hình có thể nhìn được các dữ liệu xa hon batch hiện tại (vẫn là dữ liệu mới), và

đảm bảo thởi gian huấn luyện không quá dài

Streaming Data for

Input

Hình 2.11 Minh hoạ Chiến thuật 3

Việc thử nghiệm các chiến thuật học trực tuyến giúp hệ thống duy trì và cải thiệnhiệu suất dự đoán Chiến thuật 1 áp dụng kỹ thuật căn bản nhất của học trực tuyến,

sử dụng từng batch dữ liệu mới để huấn luyện, không quá quan tâm đến hiệu suấtthực sự của mô hình Chiến thuật 2 tập trung vào việc huấn luyện liên tục và thườngxuyên với các batch nhỏ, trong khi Chiến thuật 3 sử dụng hai luồng huấn luyện vớicác batch khác nhau để tối ưu hóa hiệu suất và tính ổn định Sự linh hoạt và khả

năng thích nghỉ của hệ thống đảm bảo rằng nó có thể cung cấp kết quả dự đoán chính

xác và đáng tin cậy cho người dùng trong môi trường tuyển dụng trực tuyến đầy biến

động.

Dữ liệu training sẽ được chia làm 2 phần với tỉ lệ 2:8, với mục đích khởi tạo mô

hình cho học trực tuyến, và chuẩn bị dữ liệu giả định là luồng dữ liệu streaming đượcđưa vào hệ thống để kích hoạt quá trình học trực tuyến Với 20% dữ liệu training,

mô hình được huấn luyện theo phương pháp truyền thống là offline, để khởi tạo mô

hình.

23

Trang 34

Việc học trực tuyến sẽ được kích hoạt khi hệ thống có thể cung cấp lượng dữ liệustreaming đủ 1 batch được quy định sẵn việc huan luyện mô hình theo từng batch sẽ

đem lại kết quả tốt hơn việc phải huấn luyện cho từng điểm dữ liệu duy nhất Ngoài

ra, với việc huấn luyện theo batch, thi cũng giúp tiết kiệm tài nguyên, cũng như thời

gian huấn luyện cho cả hệ thống

2.4 Mô hình sinh ngôn ngữ

ViT5 là một mô hình ngôn ngữ dựa trên kiến trúc Transformers, được thiết kế đặc

biệt cho tiếng Việt và ra mắt vào năm 2022[27] Đây là một mô hình lớn, đơn ngữ,

có cấu trúc encoder-decoder, và đã trải qua quá trình tiền huấn luyện sâu Mô hìnhnày được huấn luyện trên một tập hợp dữ liệu tiếng Việt đa dạng và chất lượng cao,

sử dụng phương pháp tiền huấn luyện tự giám sát theo mô hình T5 Các nhà nghiên

cứu đã phát triển hai phiên bản của VïT5: một phiên bản cơ bản với 310 triệu tham

số và một phiên bản lớn hơn với 866 triệu tham số, điều chỉnh từ năm cấu hìnhkích thước ban đầu của mô hình T5 ViT5 đã cho thấy hiệu quả vượt trội trong việc

tóm tat trừu tượng các bài viết tiếng Việt trên các tập dữ liệu như Wikilingua và

Vietnews Trong nghiên cứu nay, chúng tôi đã sử dụng phiên bản ViTS-base để sinh

van bản cho một tác vụ cụ thể, và mô hình này hiện đã được công khai trên nền tang

HuggingFace.!.

2.5 Các thang đo đánh gia

2.5.1 Thang do đánh gia cho tac vụ phân lớp va ACSA

Với tác vụ phân lớp và ACSA, các thang đo được sử dụng để đánh giá là tương tự

nhau, tuy nhiên có sự khác biệt về kích thước đầu ra Tác vụ phân lớp đơn thuần chỉ

có một đầu ra duy nhất, trong khi tác vụ ACSA bao gồm bốn tác vụ phân lớp nhỏhơn, mỗi tác vụ có một đầu ra riêng Để đánh giá tác vụ ACSA, thang đo chung

được xây dựng bằng cách lấy trung bình các kết quả của bốn tác vụ phân lớp nhỏ

hơn Mặc dù cách tiếp cận này có thể làm phức tạp việc xác định các sai sót cụ thể của mô hình, nhưng lại giúp thuận tiện trong việc lựa chọn mô hình có kết quả tổng

"https://huggingface.co/VietAI/vit5-base

24

Trang 35

thể tốt nhất Chúng tôi chọn các thang đo Accuracy[28], Precision[29], Recall[30],

F1-Score[31] để đánh giá hiệu suất của các tác vu.

* Accuracy: Là một trong những thang đo được sử dụng phổ biến trong các hệ

thống phân loại nhị phân và đa lớp, đặc biệt là phân loại văn bản Ưu điểm của

thang đo Accuracy là sự đơn giản, trực quan và dễ hiểu, cùng với hiệu quả cao

khi các lớp trong dữ liệu có phân phối tương đối cân bằng Tuy nhiên, nó cũng

có hạn chế lớn khi không cung cấp thông tin chỉ tiết về lỗi của mô hình Độ

chính xác cao không đồng nghĩa với việc mô hình dự đoán tốt, đặc biệt khi dữliệu bi mắt cân bằng, mô hình có thể dự đoán chỉ một nhãn mà van đạt kết quảaccuracy cao Accuracy được tính bằng công thức:

TP+TNTP+TN+FP+FN (2.1)

Accuracy =

Trong do:

— TP-True Positive: Số lượng dự đoán chính xác các mẫu đúng.

— TN-True Negative: Số lượng dự đoán chính xác các mẫu sai

— FP-False Positive: Số lượng dự đoán sai các mẫu đúng.

— FN-False Negative: Số lượng dự đoán sai các mau sai

* Precision: Thang do Precision cũng được sử dụng phổ biến trong các hệ thống

phân loại nhị phân và đa lớp Nó nhiều ưu điểm trong các bài toán có dữ liệu

mất cân bằng, khi một lớp được coi là quan trọng hơn các lớp khác Precision

tập trung vào chất lượng dự đoán các mẫu dương tính, cung cấp thông tin về

độ tin cậy của các dự đoán dương tính, từ đó giúp đánh giá liệu mô hình có tạo

ra nhiều dự đoán sai hay không Tuy nhiên, precision cũng có hạn chế, vì nó

không cân nhắc các dự đoán âm tính, do đó không thể phản ánh đầy đủ hiệu

suất toàn bộ của mô hình Precision được tính bằng công thức:

TP — TÊCOTTCCE

Precision =

25

Trang 36

Trong đó:

— TP-True Positive: Số lượng dự đoán chính xác các mẫu đúng

— FP-False Positive: Số lượng dự đoán sai các mẫu đúng.

Recall: Khá tương đồng với thang đo Precision, thang đo Recall cũng hữu ích

trong các bài toán mà việc bỏ sót các mẫu positive có thể gây hậu quả nghiêm trọng Recall giúp đánh giá khả năng của mô hình trong việc phát hiện tất cả

các trường hợp positive, do đó giảm thiểu khả năng bỏ sót (false negatives).

Tuy nhiên, Recall có hạn chế là không quan tâm đến các dự đoán negative (truenegatives và false positives), do đó không phản ánh toàn bộ hiệu suất của mô

hình Công thức của Recall là:

TP — TÊCOTTCCE

TP+FN #gold

Recall = (2.3)

Trong đó:

— TP-True Positive: Số lượng dự đoán chính xác các mẫu đúng

— FN-False Negative: Số lượng dự đoán sai các mẫu sai

Fl-Score: Cung cấp một cái nhìn cân bằng giữa precision và recall, hữu ích

khi cần đánh giá hiệu suất của mô hình trong việc giảm thiểu cả false positive

và false negative Nó đặc biệt hữu ích khi gặp dữ liệu mất cân bằng, trong các

bài toán mà một lớp quan trọng hơn các lớp khác F1-score đảm bảo rằng môhình không chỉ tối ưu hoá cho một thang đo mà còn quan tâm đến thang đo

khác Tuy nhiên, Fl-score có hạn chế là không bao gồm thông tin về tỷ lệ âm

tính thật (true negative rate), chỉ xem xét các trường hợp dương tính thật (true

positive), âm tính giả (false negative), và dương tính giả (false positive), mà

không bao gồm các trường hợp âm tính thật (true negative) Điều này có thểdẫn đến sự thiếu sót trong việc đánh giá toàn diện hiệu suất của mô hình Hơn

nữa, Fl-score không phản ánh rõ mức độ nghiêm trọng của các lỗi phân loại

26

Trang 37

sai Ví dụ, trong một số bài toán, việc phân loại sai một nhãn có thể gây hậu

quả nghiêm trọng hơn so với các nhãn khác, nhưng F1-score không thể hiện

được sự khác biệt này Công thức tính của Fl-Score là:

2x Precision x Recall

= 2.4

ñ Precision + Recall (2.4)

2.5.2 Thang do đánh giá cho tác vu tạo giải thích

Trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), việc đánh giá chất lượng của các mô

hình tạo văn bản tự động là một nhiệm vụ quan trọng và phức tạp Chúng tôi sử

dụng các thang đo như BLEU, ROUGE và BERTScore đã được phát triển để hỗ trợ

cho mục đích này.

¢ BLEU (Bilingual Evaluation Understudy): là một thang đo tự động dùng để

đánh giá chất lượng của các hệ thống dịch máy, đặc biệt trong lĩnh vực học sâu

(deep learning), dựa trên mức độ tương đồng giữa câu dịch tự động và câu dịch

tham khảo của con người Đây là một trong những thang đo phổ biến và được

sử dụng rộng rãi để đánh giá hiệu suất của các mô hình dịch máy BLEU có

ưu điểm là tự động và nhanh chóng, cho phép tính toán mà không cần sự canthiệp của con người, đồng thời cung cấp điểm số định lượng giúp so sánh hiệu

suất của các mô hình dịch máy khác nhau Tuy nhiên, BLEU cũng có những hạn chế như không đánh giá được ngữ nghĩa hoặc ngữ cảnh của câu, do chỉ dựa trên mức độ trùng khớp của từ vựng và cấu trúc, và phụ thuộc nhiều vào

chất lượng và sự đa dạng của bộ câu tham khảo Công thức của BLEU là:

Trang 38

— N-gram Precision: BLEU kiểm tra mức độ trùng khớp của các n-gram

(chuỗi gồm n từ liên tiếp) giữa câu dịch máy và câu tham khảo Ví dụ, với

n= 1, ta kiểm tra mức độ trùng khớp của từng từ (unigram); với n = 2, ta

kiểm tra từng cặp từ (bigram); và tiếp tục với các giá trị n lớn hơn

— Brevity Penalty (BP): BLEU áp dụng một hệ số phạt nếu câu dịch máy

ngắn hơn câu tham khảo Điều này nhằm tránh việc hệ thống dịch máytạo ra các câu ngắn không đây đủ thông tin

¢ ROUGE (Recall-Oriented Understudy for Gisting Evaluation): là một tập

hợp các thang đo tự động dùng để đánh giá chất lượng của các bản tóm tắt

văn bản và các hệ thống tạo văn bản tự động ROUGE so sánh các bản tóm

tắt tự động với các bản tóm tắt tham chiếu do con người viết để đo lường mức

độ tương đồng giữa chúng Các ưu điểm của ROUGE bao gồm tính đơn giản

và dé hiểu, do việc đếm các từ hoặc chuỗi từ (unigram, bigram, LCS) giúp

việc tính toán và giải thích kết quả trở nên trực quan ROUGE cũng hiệu quả

về tính toán, không đòi hỏi quá nhiều tài nguyên, phù hợp với các bộ dữ liệu

lớn và mô hình phức tạp Thêm vào đó, khả năng tự động hóa của ROUGE

giúp tiết kiệm thời gian và công sức so với đánh giá thủ công, và nó được chấp

nhận rộng rãi trong cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên (NLP) như

một tiêu chuẩn đánh giá chất lượng của các mô hình tóm tắt văn bản Tuy

nhiên, ROUGE cũng có những hạn chế như không đánh giá được chất lượng

ngữ nghĩa và ngữ cảnh của các từ, dẫn đến việc các bản tóm tắt có cùng các từ

nhưng khác ngữ nghĩa vẫn có thể được đánh giá cao ROUGE cũng không xử

lý tốt các biểu đạt đồng nghĩa, không nhận ra các từ hoặc cụm từ đồng nghĩa,

do đó không thể đánh giá chính xác các bản tóm tắt sử dụng từ ngữ khác nhau

nhưng có cùng ý nghĩa Thang đo này cũng dễ bị ảnh hưởng bởi độ dài của

các bản tóm tắt, khiến cho các bản tóm tắt dài hơn có thể nhận được điểm số

cao hơn chỉ vì có nhiều từ hơn Đối với các ngôn ngữ phức tạp với cấu trúc câu

và ngữ pháp khác biệt, ROUGE có thể không phản ánh đúng chất lượng của

các bản tóm tắt Ngoài ra, ROUGE không đo lường được tính mạch lạc và khả

28

Trang 39

năng giữ nguyên ý nghĩa qua toàn bộ văn bản, điều này rất quan trọng đối với

chất lượng tổng thể của bản tóm tắt Thang đo bao gồm các biến thể:

— ROUGE-1 đo lường tỷ lệ trùng khớp của các từ đơn (unigram) giữa bản

tóm tắt tự động và bản tóm tắt tham chiếu

- ROUGE-2 đo lường tỷ lệ trùng khớp của các cặp từ liên tiếp (bigram)

giữa bản tóm tắt tự động và bản tóm tắt tham chiếu

— ROUGE-L đo lường độ dài của dãy con chung dài nhất (Longest Common

Subsequence - LCS) giữa bản tóm tắt tự động và bản tóm tắt tham chiếu

¢ BERTScore (Bidirectional Encoder Representations from Transformers

Score): là một phương pháp đánh giá dựa trên mô hình ngôn ngữ BERT

(Bidi-rectional Encoder Representations from Transformers) được sử dụng rộng rãi

trong các bài toán xử lý ngôn ngữ tự nhiên (NLP) Được dé xuất bởi nhóm nghiên cứu tại Facebook AI vào năm 2019, BERTScore mang lại cách tiếp cận

mới so với các phương pháp truyền thống như BLEU, ROUGE hay METEOR

để đánh giá chất lượng văn bản do mô hình tạo ra BERTScore so sánh cácbiểu diễn vector (embedding) của các từ trong câu gốc và câu dịch, tính toán

độ tương đồng cosine giữa các embedding để xác định mức độ tương đồng

Ưu điểm của BERTScore bao gồm khả năng sử dụng ngữ cảnh nhờ vào BERT,

cho phép đánh giá chính xác hơn ý nghĩa của từ trong văn bản; linh hoạt với

từ đồng nghĩa nhờ sử dụng vector embedding, giúp nhận biết và xử lý từ đồngnghĩa tốt hơn so với các phương pháp dựa trên đối chiếu từ trực tiếp; và không

phụ thuộc vào ngữ pháp, ít bị ảnh hưởng bởi lỗi ngữ pháp hoặc sự khác biệt

nhỏ trong cấu trúc câu, tập trung vào ý nghĩa tổng thể của văn bản Tuy nhiên,

BERTScore cũng có những hạn chế như độ phức tạp tính toán cao, do việc sử

dụng mô hình BERT để tính toán embedding đòi hỏi tài nguyên tính toán lớn;

và độ nhạy với dữ liệu huấn luyện, hiệu quả của BERTScore phụ thuộc vào

chất lượng của mô hình BERT được sử dụng, đòi hỏi mô hình phải được huấn

luyện trên tập dữ liệu đủ lớn và đa dạng Các bước chính của BERTScore bao

Ầ

gồm:

29

Trang 40

- Biểu diễn văn bản: Sử dụng mô hình BERT để biểu diễn từng từ trong

câu gốc và câu dịch thành các vector embedding

— Tính toán độ tương đồng: Do độ tương đồng cosine giữa các vector

em-bedding của các từ tương ứng trong câu gốc và câu dịch

- Tổng hợp điểm: Từ các độ tương đồng này, tính điểm BERTScore cho cả

câu bằng cách lấy trung bình các độ tương đồng này

30

Tiêu đề	Hệ thống dự đoán theo thời gian thực và học trực tuyến cho bài toán phát hiện tin tuyển dụng bất thường trên tiếng Việt
Tác giả	Trần Hoàng Anh, Phạm Tiến Dương
Người hướng dẫn	Thầy Đỗ Trọng Hợp, Thầy Lưu Thanh Sơn
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học dữ liệu
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	89
Dung lượng	33,04 MB