Nghiên cứu này sử dụng các mô hình học máy như Logistic Regression, Naive Bayes, và Random Forest để phân loại các tin tuyển dụng và đạt được những kết quả đáng kể... Nhưng việc học dữ l
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC VA KY THUAT THONG TIN
TRAN HOANG ANH - 20521079 PHAM TIEN DUONG - 20521222
KHOA LUAN TOT NGHIEP
CU NHAN NGANH KHOA HOC DU LIEU
TP HO CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành nhất đến Trường Đại học Công nghệ Thông tin - ĐHQG-TP.HCM, nơi đã tạo điều kiện và môi trường học tập tuyệt vời giúp em hoàn thành khóa luận tốt nghiệp này Tất cả những thành tựu và thành công của em trong khoá luận tốt nghiệp không thể nào đạt được nếu thiếu đi sự hướng dẫn và sự
hỗ trợ từ hai người thầy đáng kính là thay Đỗ Trọng Hợp và thầy Luu Thanh Sơn.
Ngoài ra, em xin gửi lời cảm ơn chân thành đến Hội đồng phản biện và bảo vệ
khoá luận , cũng như Khoa Khoa học và Kỹ thuật thông tin, Phòng thí nghiệm
hệ thong thông tin đã tạo điều kiện thuận lợi nhất cho chúng em hoàn thành khoá
luận này Sự quan tâm, hỗ trợ và đánh giá công tâm từ các vị đã là nguồn động lực
lớn giúp em vượt qua mọi thử thách và hoàn thiện nghiên cứu của mình một cách tối
ưu nhất
Đặc biệt, không thể không nhắc đến sự hỗ trợ chân thành từ bạn bè cùng lớp,
những người đã chia sẻ những kiến thức, kinh nghiệm và tinh thần lạc quan trongsuốt quãng thời gian học tập và nghiên cứu Đây là những người bạn đã làm cho
hành trình học tập của em trở nên ý nghĩa hơn bao giờ hết.
Cuối cùng, em xin bày tỏ lòng biết ơn sâu sắc đến gia đình và bố mẹ, những
người luôn bên cạnh, động viên và hỗ trợ em trong mọi hoàn cảnh Những nỗ lực
của em không thể thành công nếu thiếu đi sự ủng hộ vững chắc từ những người thân
yêu này.
Những lời cảm ơn này không đủ lớn để diễn tả hết lòng biết ơn sâu sắc của em
đối với tất cả mọi người Em hân hạnh và tự hào khi có cơ hội được học tập và làm
việc trong một môi trường học thuật và nâng cao kỹ năng của mình tại trường Đại
học Công nghệ Thông tin - ĐHQG-TP.HCM.
Cảm ơn mọi người rất nhiều.
Thành phó Hồ Chí Minh, tháng 07 năm 2024
Nhóm tác giả
Trần Hoàng AnhPhạm Tiến Dương
Trang 3Lời cảm
Mục lục
MỤC LỤC
ơn
Danh mục các bảng
, ` ` on x
Danh mục các hình anh và biểu đồ
Danh mục từ viết tắt
Tóm tắt
Chương
1.1
1.2
1.3
1.4
Chương
2.1
2.2
khóa luận
1 GIỚI THIỆU
Cấu trúc khoá luận
Đặt vẫn đề MAA 4@£” X\ À
Các công trình nghiên cứu liên quan
1.3.1 Tình hình nghiên cứu trên thé gidi
1.3.2 Tinh hình nghiên cứu tai Viet Nam
Tổng quan để tài
1.4.1 Dinhnghiabaitoan
1.4.2 Thach thttcdétai ee eee 1.4.3 Tính ứng dung và tính mới của đềtài
144 Kếtluận Q Q Q2 2 PHƯƠNG PHÁP THỰC NGHIỆM Bộ dữ liệu sử dụng cho thực nghiệm
2.1.1 Nguồn gốc bộ dữ liệu
-2.1.2 Địmnhnghĩabộ dữ liệu
2.1.3 Phântchbộ dữ liệu
2.1.4 Tiền xử lý
dữliệu -Kiến trúc mô hình dựa trên phương pháp học chuyển tiếp kết hợp học ——— .
2.2.1 Các phương pháp học chuyển tiếp
li
ii
vi Vili ix
¬ —=
nnn nn fF VN WV
ann on
Trang 42.2.2 Cac phương pháp học sâu 19
2.3 Phương pháp học trực tuyến - 20
2.3.1 Dinhnghia ẶQẶ Q Q ee 20 2.3.2 Thiết kế các thí nghiệm học trực tuyến 21
2.4 Mô hình sinh ngôn ngữ 24
2.5 Các thang đo đánh glá Ặ.ẶẶẶẶẶẶ.e 24 2.5.1 Thang đo đánh giá cho tác vụ phân lớp và ACSA 24
2.5.2 Thang đo đánh giá cho tác vụ tạo giảithích 27
Chương 3 KẾT QUẢ THỰC NGHIỆM 31 3.1 Kết quả sử dụng phương pháp học chuyển tiếp kết hợp học sâu 31
3.1.1 Tác vụphânlớp 31
3.1.2 Tac vụ phân tích khacạnh 33
3.13 Tac vụ sinh câu gidithich 36
3.2 Kết quả sử dụng phương pháp học trực tuyến 37
3.2.1 Tácvụphânlớp ẶẶẶẶ 37
3.2.2 Tác vụ phân tích khíacạnh 41
3.2.3 Tác vụ sinh câu giảithích 44
3.3 Phântích Q ee ee 46 Chương 4 XÂY DUNG HỆ THONG DỰ DOAN THEO THỜI GIAN 4.1 4.2 4.3 THỰC 48 Tổng quan hệ thống - 48
Xây dựng tiện ich mở rộng trình duyệt Chrome 50
42.1 PopupScrIpC HQ ee 51 4.2.2 ContentSCTIDC Q Q eee ee ee ee 54 42.3 BackgroundSCrIpt ẶẶẶ 54 Xây dựng các bộ phận xửlý 55
4.3.1 Module xử lí dữ liệu ngườidùng 55
43.2 Modulemôhình 57
4.3.3 Module dự đoán luồng dữ liệu streaming 60
4.3.4 Module học trực tuyễn - 61
1H
Trang 54.3.5 Bộ phận lưu trữ dữ liệu 63
44 Thử nghiệm và phân tích - 67
Chương 5 KET LUẬN VA HƯỚNG PHAT TRIEN TRONG TƯƠNG LAI 72 5.1 KẾtluận ee va 72 5.2 Hướng phát triển trong tương lai - 74
5.2.1 Áp dụng các kiến trúc mô hình mới 74
5.2.2 Cải thiện hệ thống và hiệu suất thực thi 74
5.2.3 Khám phá và phát triển các ứng dụng mới 75
Tài liệu tham khảo 79
1V
Trang 6DANH MỤC CÁC BANG
3.1 Cài đặt cho huấn luyện mô hình - 313.2 Kết quả so sánh tác vụ phân lớp khi kết hợp với LSTM trên tap Dev 313.3 Kết quả so sánh tác vụ phân lớp khi kết hợp với LSTM trên tập Test 323.4 Kết quả so sánh tác vụ phân lớp khi kết hợp với CNN trên tap Dev 32
3.5 Kết quả so sánh tác vụ phân lớp khi kết hợp với CNN trên tap Test 32
3.6 Kết quả so sánh tác vụ phân tích khía cạnh khi kết hợp với LSTM
3.7 Kết quả so sánh tác vụ phân tích khía cạnh khi kết hợp với LSTM
trên tap Test 2 QẶ Q Q Q HQ HH HH vo 34
3.8 Kết quả so sánh tác vụ phân tích khía cạnh khi kết hợp với CNN trên
3.9 Kết quả so sánh tác vu phân tích khía cạnh khi kết hợp với CNN trên
tập Test (7 4 œ @6 Ì\ ƒ/ 34
3.10 Kết quả của tác vụ sinh câu giải thích ở mô hình ViTS 363.11 Kết quả phương pháp Online Learning tác vụ phân lớp với các chiến
thuật trên tập Dev ẶẶ QẶ ee 37
3.12 Kết quả phương pháp học trực tuyến tác vụ phân lớp với các chiến
thuật trên tap Test ẶẶ ee 38
3.13 Kết quả phương pháp học trực tuyến tác vu phân tích khía cạnh với
các chiến thuật trên tậpDev 413.14 Kết qua phương pháp học trực tuyến tác vụ phân tích khía cạnh với
các chiến thuật trên tập Test - Al
3.15 Kết quả của mô hình sinh câu giải thích trên tập test được dự đoán
bởi các mô hình online learnng - 45
4.1 Thông tin hệ thống và mạng của máy cục bộ - 67
4.2 Bảng thời gian xử lí trung bình mỗi yêu cầu 67
Trang 7DANH MỤC CÁC HÌNH ANH VA BIỂU DO
1.1 Đầu vào va đầu ra của bài toán phân loại tin tuyển dụng
2.1 Tổng quan quy trình xây dựng hệ thống phân loại tin tuyển dụng 2.2_ Ví dụ về một mẫu tin tuyển dụng bat thường .
2.3 Phân bố và thống kê số lượng nhãn chính trong bộ dữ liệu
2.4 Sự phân bố số lượng tiêu chí trong từng khía cạnh trong bộ dữ liệu
2.5 Thống kê số từ trong câu giải thích cho tác phụ phân tích tiêu chí
2.6 Kiến trúc căn bản củamôhình
-2.7 Kiến trúc mô hình phân lớp
2.8 Kiến trúc mô hình phân tích khía cạnh
-2.9 Minh hoạ Chiến
thuậtIL -2.10 Minh hoạ Chiến thuật2
2.11 Minh hoạ Chiến thuật3_
3.1 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật l
3.2 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật2
3.3 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật3
3.4 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật
l -3.5 Sơ đồ biểu diễn F1-score của các phiên bản mô hình học trực tuyến trên chiến thuật2
3.6 Sơ đồ biểu diễn F1-score của các phiên bản mô hình Online Learning trên chiến thuật3
4.1 Tổng
quanhệthống -4.2_ Minh hoạ kiến trúc tiện ích mở rộng trình duyệt Chrome
4.3 Giao diện ban đầu của tiện ích mở rộng
4.4 Giao diện của tiện ích mở rộng khi có kết quả dự đoán
VI
Trang 84.5 Giao diện của tiện ich mở rộng với các lựa chọn dé gửi báo cáo sai sót 53 4.6 Giao diện của tiện ích mở rộng với các lựa chon để gửi báo cáo sai sót 53
4.7 Minh hoa module xử lí dữ liệu người dùng 55
4.8 Minh hoạ module mô hình - 57
4.9 Minh hoạ module dự đoán luồng dữ liệu thời gian thực 60
4.10 Minh hoa module học trực tuyến - 61
4.11 Minh hoạ module lưu trữ dữ liệu 63
4.12 Boxplot cho phân bồ thời gian thực thi trong 5 gidy 68
4.13 Boxplot cho phân bồ thời gian thực thi trong 10 giây 69
4.14 Boxplot cho phân bồ thời gian thực thi trong 20 giây 69
4.15 Boxplot cho phân bồ thời gian thực thi trong 50 giây 70
4.16 Boxplot cho phân bồ thời gian thực thi trong 100 giây 70
vil
Trang 9DANH MỤC TU VIET TAT
ACSA Tác vụ phân tích tiêu chí của khía cạnh
BERT Bidirectional Encoder Representations from Transformers BLEU Bilingual Evaluation Understudy
CLS Tác vu phân loại tin tuyển dung
CNN Convolutional Neural Network
Dev Developing data
DNN Deep Neural Network
EMSCAD Employment Scam Aegean Dataset
GPU Graphics Processing Unit
ILSVRC ImageNet Large Scale Visual Recognition Challenge
JSON JavaScript Object Notation
LSTM Long Short-Term Memory
MCC Matthews Correlation Coefficient
MongoDB Một hệ quản trị cơ sở dữ liệu NoSQL
NCSC National Cyber Security Centre
NLP Natural Language Processing
PB phoBERT
ROUGE Recall-Oriented Understudy for Gisting Evaluation
Test Testing data
VRAM Video Random Access Memory
VS ViSoBERT
Viii
Trang 10TÓM TẮT KHÓA LUẬN
Phân loại văn bản là một nhiệm vụ cơ bản trong xử lý ngôn ngữ tự nhiên (NLP)
với nhiều ứng dụng như phát hiện thư rác, phân tích cảm xúc, và nhận diện cảm xúc trong bình luận Tuy nhiên, phân loại tin tuyển dụng chưa được nghiên cứu nhiều do tính phức tạp và đa dạng của các quảng cáo tuyển dụng, dẫn đến sự gia tăng các tin tuyển dụng không đáng tin cậy Năm 2022, gần 13.000 nạn nhân bị lừa đảo tuyển
dụng trực tuyến, gây mắt mát tài sản và làm giảm uy tín nhà tuyển dụng
Khóa luận này tìm kiếm các mô hình và phương pháp phù hợp để phát triển hệthống dự đoán real-time và online-learning cho bài toán phân loại tin tuyển dụng,
nhằm giảm thiểu tin tuyển dụng lừa đảo và tăng hiệu quả tìm kiếm việc làm Nhóm
tiến hành phân tích dữ liệu, tiền xử lí và xây dựng các mô hình học sâu Các kiến
trúc học sâu được áp dụng để nâng cao hiệu suất mô hình Các mô hình học sâu đượctùy chỉnh và tối ưu hóa cho bài toán phân loại tin tuyển dụng Ngoài ra, thử nghiệm
về online learning được thực hiện để mô hình cập nhật liên tục mà không cần huấnluyện lại từ đầu, với các chiến thuật học online được thiết kế và thử nghiệm
Nhóm xây dựng hệ thống hỗ trợ người dùng kiểm tra và phân loại tin tuyển dụng, phát hiện yếu tô bất thường và cung cấp thông tin chi tiết nhanh chóng, chính xác.
Hệ thống gồm hai thành phần chính: tiện ích mở rộng trình duyệt và hệ thống chính.Tiện ích mở rộng cho phép người dùng tương tác trực tiếp với hệ thống từ trình duyệt
web, trong khi hệ thống chính đảm bảo xử lý và phân tích dữ liệu.
Hệ thống phát triển đạt kết quả tích cực trong phân loại tin tuyển dụng, giúp giảm
thiểu số lượng tin lừa đảo và cải thiện trải nghiệm cho ứng viên và nhà tuyển dụng.
Hệ thống này có thể mở rộng va áp dụng cho nhiều lĩnh vực khác trong NLP Khóa
luận chứng minh tính hiệu quả của kỹ thuật NLP và học online trong phân loại tin
tuyển dụng, góp phần làm trong sạch môi trường tuyển dụng trực tuyến và bảo vệ
người tìm việc khỏi lừa đảo.
1X
Trang 11Chương 1 GIỚI THIẾU
1.1 Cấu trúc khoá luận
Khoá luận của chúng tôi gồm các nội dung được chia thành 6 chương như sau:
* Chương 1: GIỚI THIỆU - Trong chương này chúng tôi sẽ trình bày tong quan
về đề tài hệ thống dự đoán Real-time và Online-learning cho bài toán phân loại
tin tuyển dụng.
* Chương 2: PHƯƠNG PHAP THUC NGHIỆM - Chúng tôi tiến hành thực
nghiệm các phương pháp học sâu và học chuyển tiếp, cũng như học trực tuyến
cho bài toán trên bộ dữ liệu đã được xây dựng Đồng thời đưa ra các phương
pháp đánh giá.
¢ Chương 3: KET QUA THUC NGHIEM - Trinh bay các kết qua thực nghiệm
thu được ở chương 3.
* Chương 4: XÂY DỰNG HE THONG DU DOAN THEO THỜI GIAN THỰC
- Chương này trình bày tổng quan cũng cách thức xây dựng hệ thống
* Chương 5: KET LUẬN VÀ HƯỚNG PHÁT TRIEN TRONG TƯƠNG LAI
- Cuối cùng chúng tôi trình bày các kết quả đã thực hiện và thu được trongkhoá luận lần này Các mặt hạn chế của dé tài cũng như hướng phat triển trong
tương lai.
1.2 Đặt vấn dé
Phân loại văn bản là một bài toán cơ bản và vô cùng phổ biến trong xử lý ngôn ngữ
tự nhiên (Natural Language Processing) Bài toán này có nhiều ứng dụng rộng rãi,
chẳng hạn như phát hiện thư rác, phân tích cảm xúc, và nhận diện cảm xúc trong
bình luận của người dùng Tuy nhiên, việc áp dụng chúng trong lĩnh vực phân loại
tin tuyển dụng vẫn chưa được khám phá nhiều do tính phức tạp và đa dạng của các
quảng cáo tuyển dụng Điều này dẫn đến sự gia tăng của các tin tuyển dụng không
đáng tin cậy Những tin này thường chứa thông tin giả mạo hoặc lôi kéo người tìm
việc vào các công việc không tôn tại, với mục đích lợi dụng hoặc chiêm đoạt thông
1
Trang 12tin cá nhân của ứng viên Hậu quả là người tìm việc bị lừa đảo, mất thời gian vàcông sức, thậm chí mất mát tài sản Năm 2022, đã có gần 13.000 nạn nhân bị lừa
đảo tuyển dụng trực tuyến Bên cạnh đó, các nhà tuyển dụng bị mất uy tín và gặp khó khăn trong việc thu hút ứng viên chất lượng Cùng với sự phát triển mạnh mẽ
của các phương tiện truyền thông xã hội, số lượng các tin tuyển dụng không đángtin cậy cũng tăng lên đến mức khó kiểm soát Điều này làm nổi bật sự cần thiết củaviệc phát triển các công cụ và tiến hành các nghiên cứu về đặc điểm của tin tuyểndụng từ người dùng Mục tiêu là tối ưu hóa quá trình tuyển dụng và bảo vệ quyền lợi
của các bên tham gia.
Để thực hiện được các nhiệm vụ nêu trên, chúng tôi tiến hành nghiên cứu và
đặt ra hai mục tiêu chính Trước tiên, nghiên cứu sẽ tập trung vào xây dựng và thử
nghiệm các mô hình học sâu (Deep Learning) trên bộ dữ liệu có sẵn về tin tuyểndụng để đạt được kết quả tốt nhất Tiếp theo, phát triển một hệ thống dự đoán theothời gian thực sử dụng kỹ thuật học trực tuyến (Online learning) Hệ thống này sẽ
liên tục cập nhật và phân tích các dữ liệu mới nhất từ các tin tuyển dụng, từ đó đưa
ra đánh giá nhanh chóng về tính đáng tin cậy của từng tin đăng Điều này giúp người tìm việc và nhà tuyển dụng có thể dễ dàng nhận biết và tránh những tin tuyển dụng
không đáng tin cậy, giảm thiểu các rủi ro và lãng phí thời gian trong quá trình tìm
kiếm việc làm và tuyển dụng Nghiên cứu này hứa hẹn góp phần nâng cao hiệu quả
và độ tin cậy trong lĩnh vực tuyển dụng trực tuyến.
1.3 Các công trình nghiên cứu liên quan
1.3.1 Tinh hình nghiên cứu trên thé giới
Năm 2017, Vidros và cộng sự [1] đã tiến hành một nghiên cứu chi tiết về các quảng
cáo việc làm gian lận bằng cách sử dung dữ liệu từ "Employment Scam Aegean
Dataset" (EMSCAD) Dataset nay gồm 17,880 tin tuyển dụng, trong đó có 866 tin
lừa đảo Các tiêu chí phân loại dựa trên các hoạt động đáng ngờ của khách hàng,
thông tin sai lệch hoặc các khiếu nại của ứng viên Nghiên cứu này sử dụng các mô
hình học máy như Logistic Regression, Naive Bayes, và Random Forest để phân loại
các tin tuyển dụng và đạt được những kết quả đáng kể Cho đến năm 2022, Cheekati
Trang 13Srikanth và cộng sự [2] đã so sánh hiệu suất của các kỹ thuật học máy và đặc trưnghóa trên tập dữ liệu EMSCAD, đạt độ chính xác cao nhất với mô hình Baggingclassifier là 98.85% và F1 score là 0.88 trên tập dữ liệu mất cân bằng Trên tập dữliệu cân bằng, XgBoost đạt độ chính xác 97.89% và F1 score là 0.98 Bên cạnh đó,
Singh và cộng sự [3] cũng nghiên cứu sử dụng bộ dữ liệu EMSCAD và triển khai
nhiều phương pháp khai thác dữ liệu và thuật toán phân loại khác nhau, bao gồm
K-Nearest Neighbors, Decision Tree, Support Vector Machine, Deep Neural Network
(DNN), v.v Kết quả nổi bật là DNN đạt được độ chính xác phân loại 98%, cho thay
hiệu suất cao trong việc phát hiện các tin tuyển dụng giả
Trong bối cảnh các hình thức lừa đảo trực tuyến ngày càng tinh vi và thay đổi
nhanh chóng, việc áp dụng phương pháp học trực tuyến (Online learning) [4] là vôcùng cần thiết Tuy nhiên, hiện tại chưa có nghiên cứu nào áp dụng trực tiếp phươngpháp này cho vấn đề trên Mặc dù học trực tuyến có kha năng cho phép mô hình cập
nhật liên tục khi có dữ liệu mới, thay vì phải tái huấn luyện từ đầu Nhưng việc học
dữ liệu mới có thể khiến mô hình đã huấn luyện quên những kiến thức ở các lớp cũ
và giảm mạnh hiệu suất trên dữ liệu trong tương lai Hoc gia tang[5] (Incremental
Learning) là một phần của học trực tuyến Phương pháp này đòi hỏi thời gian dai
để huấn luyện mô hình mỗi khi dữ liệu mới được thêm vào và không xem xét cácquan sát mới của các lớp cũ Năm 2020, He và cộng sự [6] đề xuất một khung họcgia tăng có thể hoạt động trong kịch bản học trực tuyến đầy thách thức, đồng thời
xử lý dif liệu của các lớp mới và các quan sát mới của các lớp cũ Kết quả đạt được
vượt trội hơn so với các phương pháp học gia tăng trên bộ dữ liệu CIFAR-100 và
ImageNet-1000 (ILSVRC 2012) Đến năm 2021, Nicola và cộng sự [7] đã nghiêncứu học gia tăng cho bài toán phân tích cảm xúc và kết quả cho thấy phương phápnày không chỉ cải thiện độ chính xác của mô hình mà còn duy trì hiệu suất tổng thểcủa hệ thống, đáp ứng tốt nhu cầu và sự hài lòng của khách hàng Cùng năm, Ramya
va cộng sự [8] đã áp dụng học gia tăng để cải thiện mô hình phân loại cảm xúc và
xác định người dùng có ảnh hưởng một cách hiệu quả, giúp hệ thống phản ứng tốt
hơn với dữ liệu động và nâng cao hiệu suất tổng thể Cũng trong năm 2021, Londhe
và cộng sự [9] cải thiện độ chính xác của quá trình phân loại bằng cách triển khai
một khung công việc mới dựa trên học gia tắng và đạt độ chính xác 76%.
Trang 141.3.2 Tinh hình nghiên cứu tại Việt Nam
Việt Nam ngày càng phát triển, đã có nhiều bộ dữ liệu chất lượng được phát triểncho nhiều vấn đề khác nhau, đặc biệt trong lĩnh vực phân loại văn bản và phân tíchcảm xúc Tuy nhiên, các nghiên cứu về lừa đảo tuyển dụng vẫn còn khá hạn chế
Phần lớn các nguồn thông tin hiện có như Cấm Nang Nhận Diện Và Phòng Chống Lita Đảo Trực Tuyến! do Bộ Thông tin và Truyền thông” cung cấp chỉ dừng lại ở
việc hướng dẫn và đưa ra các tiêu chí để nhận biết các dấu hiệu của tin tuyển dụnglừa đảo Cũng trong khuôn khổ phát triển các nguồn thông tin hữu ích, Trung TâmGiám Sát An Toàn Không Gian Mạng Quốc Gia? (NCSC) đã phối hợp với Google?
để thiết lập website giúp người dùng nhận biết về lừa đảo trực tuyến NCSC cũng đãthực hiện các chiến dịch tuyên truyền và giáo dục cộng đồng về các nguy cơ và biệnpháp phòng chống lừa đảo trực tuyến, góp phần nâng cao nhận thức và an toàn thông
tin cho người dùng mạng Mặc dù đã có nhiều nỗ lực nhằm ngăn chặn các hoạt động
lừa đảo, tình trạng này vẫn tiếp diễn, phần lớn là do thiếu hiểu biết của nhiều người
Do đó, việc phát triển một giải pháp có khả năng phân loại các tin tuyển dụng không
đáng tin cậy trở nên hết sức cần thiết
Để thực hiện được những điều nêu trên, chúng tôi cần một bộ dữ liệu tiếng Việt
đủ lớn và chính xác Tại Trường Đại học Công nghệ Thông tin - Đại học Quốc gia
Thành phố Hồ Chí MinhŠ, nhóm nghiên cứu do Quốc va cộng sự dẫn đầu đã tiến
hành phát triển một bộ dữ liệu tin tuyển dụng không đáng tin cậy, được tổng hợp từ trang web muaban.net® Bộ dữ liệu này được gan nhãn bởi đội ngũ có kinh nghiệm
dựa trên các tiêu chí đánh giá kỹ lưỡng để nâng cao chất lượng và tính ứng dụng của
dữ liệu Chúng tôi hy vọng rằng từ bộ dữ liệu này, chúng tôi có thể đạt được kết quả
tốt hơn trong việc phát hiện và phân loại các tin tuyển dụng lừa đảo, góp phần giảm
thiểu tình trạng lừa đảo trực tuyến
Trang 151.4 Tổng quan đề tài
1.4.1 Dinh nghĩa bài toán
Chúng tôi sử dụng các tin tuyển dụng bán cấu trúc với nhiều khía cạnh khác nhau
cho bài toán phân loại tin tuyển dụng không đáng tin cậy Mục tiêu của nghiên cứu
này là xác định nhãn tổng quát cho các tin tuyển dụng Ngoài ra, nhóm còn kết hợpthêm tác vụ phân tích tiêu chí của từng khía cạnh (ACSA) và tạo giải thích chỉ tiếtcho việc phân tích đó, điều này giúp người dùng có cái nhìn khách quan hơn Đầuvào và dau ra của bài toán được nhóm thiết kế như hình 1.1
Tác vụ 1:
Phân loại
tin tuyển dụng ,
Tin tuyển d Tac vụ 3:
1n tuyên dụng _—————> Tác vụ 2: ——— Tạo câu giải thích
Phân tích tiêu chí
của khía cạnh
Đâu vào Đầu ra
Hình 1.1 Đầu vào và đầu ra của bài toán phân loại tin tuyển dụng
1.4.2 Thách thức đề tài
Một trong những khó khăn chính trong nghiên cứu phát hiện tin tuyển dụng không
đáng tin cậy là sự thiếu hụt các bộ dữ liệu tiếng Việt trên lĩnh vực này Hiện tại, chưa
có bộ dữ liệu nào được công bố đủ chất lượng để phục vụ cho nghiên cứu về tínhchất này Ngoài ra, việc định nghĩa một tin tuyển dụng không đáng tin cậy là rất khókhăn do sự tinh vi của nhiều hành vi lừa đảo Nhiéu tin tuyển dụng giả mao trông
rất chuyên nghiệp và không khác gì tin tuyển dụng thật, khiến việc đánh giá và đưa
ra hướng dẫn gán nhãn trở nên vô cùng nan giải Đánh giá một tin tuyển dụng lừa
đảo đòi hỏi nhiều kiến thức, kinh nghiệm và trải nghiệm thực tế
Trang 161.4.3 Tính ứng dụng và tinh mới của đề tài
Nghiên cứu các bài toán liên quan đến tin tuyển dụng không đáng tin cậy đóng vai
trò quan trọng trong việc tăng cường sự an toàn cho người tìm việc và nâng cao
uy tín cho các nhà tuyển dụng, nhất là trong bối cảnh hiện nay khi các hành vi lừa
đảo ngày càng tinh vi Không dừng lại ở việc phát triển các mô hình thông thường,
chúng tôi còn triển khai thêm hệ thống tiện ích để ứng dụng các nghiên cứu vào thực
tế, nhằm mang lại lợi ích thiết thực cho cộng đồng Thêm vào đó, việc tạo ra các giải
thích cho tác vụ phân tích cảm xúc từng khía cạnh không chỉ giúp người dùng hiểu
rõ về nhãn được gán mà còn cung cấp lý do đằng sau chúng, qua đó mang lại cái
nhìn tổng quan hơn Chúng tôi hy vọng nghiên cứu này sẽ cải thiện hiệu quả tuyển
dụng và là tiền dé cho các nghiên cứu sau này, góp phần xây dựng môi trường tuyển
dụng an toàn và văn minh hơn.
1.4.4 Kétluan
Mặc dù bài toán phân loại không còn là chủ dé mới mẻ và đã được nhiều nhà nghiêncứu khai thác, thực tế vẫn còn tồn tại nhiều thách thức chưa được giải quyết, đặc
biệt là vấn để lừa đảo tuyển dụng trực tuyến, vốn đang có xu hướng gia tăng Ví
dụ, chỉ trong năm 2022, đã có gần 13.000 nạn nhân rơi vào bay lừa đảo tuyển dụngtrực tuyến Chúng tôi thực hiện nghiên cứu này với mong muốn không chỉ giúp đỡ
những người tìm việc tránh được những cạm bẫy tương tự mà còn đóng góp vào sự
phát triển của xã hội.
Trang 17Chương 2 PHƯƠNG PHÁP THỰC NGHIỆM
Chúng tôi tiến hành xây dựng quy trình thực nghiệm cho hệ thống phân loại tintuyển dụng như hình 2.1 Đầu tiên, cần chuẩn bị một bộ dữ liệu tin tuyển dung đượcgán nhãn chính xác và đầy đủ Bộ dữ liệu này phải đáp ứng ba mục tiêu đã nêu ở
mục 1.4.1 Sau đó, chúng tôi tiến hành tiền xử lý dữ liệu theo hai phần cho ba nhiệm
vụ đã dé ra Với tác vụ 1 và tác vụ 2, chúng tôi áp dụng kiến trúc mô hình kết hợp
học chuyển tiếp và học sâu Để đánh giá sự thay đổi độ chính xác khi nhiều dữ liệumới xuất hiện, mô hình tốt nhất từ kiến trúc này được chọn để thử nghiệm phươngpháp học trực tuyến Kết quả của nó (RESULT task 1,2 onl) được so sánh với kết
qua từ mô hình tốt nhất trước đó (BEST RESULT task 1,2 off) nhằm xác định xem
phương pháp học truyền thống hay học trực tuyến đem lại kết quả tốt hơn Đối với tác vụ 3, chúng tôi huấn luyện mô hình sinh ngôn ngữ trên bộ dữ liệu gốc và so
sánh kết quả của nó (RESULT task 3 using original data) với kết quả khi sử dụng
dữ liệu dự đoán từ hai tác vụ trước Điều này nhằm đảm bảo rằng dữ liệu từ tác vụ
1 và 2 có thể cung cấp kết quả tốt khi được sử dụng làm đầu vào cho tác vụ 3 Cuốicùng, chúng tôi phát triển hệ thống dự đoán theo thời gian thực và học trực tuyến
cho nghiên cứu này.
Data for CLS với ACSA (task 1,2) Data for Explanation Generation (task 3)
Transfer Learning and BEST RESULT
Deep Learning Model task 1,2 (off)
task 1,2 (onl) Predicted Data
REAL-TIME AND ONLINE LEARNING PREDICTING SYSTEM
FOR RECRUITMENT ADVERTISING CLASSIFICATION
Hình 2.1 Tổng quan quy trình xây dựng hệ thống phân loại tin tuyển dung.
Trang 182.1 Bộ dữ liệu sử dung cho thực nghiệm
2.1.1 Nguồn gốc bộ dữ liệu
Chúng tôi kế thừa bộ dit liệu tuyển dụng do nhóm nghiên cứu Quốc và cộng sự tại
trường đại học Công Nghệ thông Tin - Đại học Quốc Gia Thành Phố Hồ Chí Minh
Bộ dữ liệu tuyển dụng được thu thập từ trang web muaban.net!, trang web này cho
phép đăng tin về mua bán và tuyển dụng Dữ liệu thu thập từ tháng 1/2021 đếntháng 9/2023, sau khi tiền xử lý thu được 30,000 mau hiện hành Bộ dữ liệu đã được
gán nhãn, đánh giá kĩ lưỡng và thực hiện các quy trình chuẩn để cho ra một bộ dữ
liệu tốt Độ đồng thuận trung bình giữa các cặp người gán trên tác vụ phân loại và phân tích cảm xúc lần lượt là 0.56 và 0.59 theo chỉ số Cohen’s Kappa [10] Và độ
đồng thuận trung bình giữa các cặp người gán trên tác vụ giải thích sử dụng độ đoBLEU-2? và BERTScore là 0.74 và 0.73 Kết quả cuối cùng cho ra 12,051 mẫu dữ
liệu chất lượng.
2.1.2 Định nghĩa bộ dữ liệu
Mỗi tin tuyển dụng trong bộ dữ liệu được gán một trong 3 nhãn phân loại chính.
Thứ nhất, nhãn WARNING dành cho những tin tuyển dụng bat thường, có thông tinkhông rõ ràng hoặc sai lệch, chứa các yếu tố khả nghi, có thể gây rủi ro và thiệt hai
về tài sản cho người dùng Thứ hai là nhãn SEEDING, áp dụng cho các tin tuyển
dụng có thông tin bổ sung không cần thiết, chẳng hạn như thông tin về bảo hiểm y
tế là quyền lợi của mỗi người lao động nhưng lại được thêm vào Hay các tin tuyển
dụng tiêu đề chứa tiền lương nhằm mục đích thu hút người dùng Cuối cùng là nhãn
CLEAN, dành cho các tin tuyển dụng có thông tin rõ ràng và đầy đủ, an toàn cho
người dùng.
Từng tin tuyển dụng lại được chia nhỏ ra nhiều khía cạnh bao gồm: Tiêu dé công
việc (Title), mô tả công việc (Desc), thông tin va địa chỉ công ty (Company), các
thông tin khác (Other) Mỗi khía cạnh có thể chia thành tối đa 4 tiêu chí khác nhau
Trang 19Khía cạnh cung cấp đầy đủ các thông tin cần thiết tối thiểu, nhất quán và xác thực
sé được gan là Positive Ngược lại, các thông tin không rõ rang, không nhất quán,không xác thực hoặc chứa các thông tin gây nhầm lẫn thì được gan là Negative Nhãn Not-Mentioned dành cho các thông tin không được cung cấp day đủ, hoặckhông được đề cập Cuối cùng, các thông tin không thuộc 3 nhãn trên sẽ là Neutral
title_aspect negative % |
title Tuyển Tài Xế B2-C, Lơ Xe, Nam Xếp Kho 16tr/tháng Lương Tuần
job_type Lao động phổ thông khác
desc aspect [ negative bd
Tài Xế, Lơ Xe, Nam Phụ Kho Hàng - Giao Hang
Va Cả Nhân Viên Làm Thời Vụ
i trí TÀI XE:
Tài Xế B2 - C Lương 16tr/Tháng => Phát Lương Tuần
Công việc chạy xe kiểm hàng - thu giữ tiền
=>Vi trí Lo Xe Giao Bánh Keo
Lo Xe giao hàng Lương 14tr/Tháng => Phát Lương Tuần
công việc đi theo tài xế giao bỏ hàng bánh kẹo - sữa - nc ngọt
=>Vị Trí Phụ Kho Xếp Bánh Kẹo.
Nam Phụ Kho xếp Bánh Kẹo 600k/ Ngày => Phát Lương Ngày
Công việc phân loại sắp xếp Bánh Kẹo
body
© - Nhân viên thời vụ lương 450/ngày
- Bao ăn ở miễn phí, lãnh lương tuần
khu vực làm việc BAK LAK VÀ CÁC TINH TÂY NGUYÊN
=> TP.HCM - BÌNH DƯƠNG - ĐỒNG NAI - LONG AN
- CÓ CMND GỐC ĐẾN NHẬN VIỆC ĐI LÀM NGAY, HỒ SƠ BỔ
Liên Hệ Quản Lý
@ Anh Hùng 0987.239.862 Hoặc 0979.423.862
company aspect not mentioned * |
location TP Buôn Ma Thuột, Dak Lak
contact_name | Hoài thương
poster aspect neutral %
u_user_id 3054228
ufullname — | Hoài Thương
u_phone 393853905.0
u_url /trang-ca-nhan/3054228 uploaded_date | 2022-07-01T00:05:52.201151+07:00 isanonymous | False
contact_type Toàn thời gian
gender Không yêu cầu
Hình 2.2 Ví dụ về một mẫu tin tuyển dụng bat thường.
Trang 20Hình 2.2 là một ví dụ về tin tuyển dụng được gán nhãn WARNING và phân tích
các tiêu chí của 4 khía cạnh Ở khía cạnh title chúng ta có thể nhận thấy rằng tiêu dé
có chứa thông tin tiền lương nhằm mục đích thu hút người làm việc, do đó được gántiêu chi Negative Tiếp theo, ở phần Desc, thông tin yêu cầu người lao động phảicung cấp giấy tờ tuỳ thân, tuy nhiên các giấy tờ cung cấp cho công ty nên là các bảnsao công chứng, công ty không có quyên giữ giấy tờ gốc Chính vi vậy nó mang
nhãn Negative Đây cũng là một tiêu chí quan trọng giúp chúng tôi đánh giá nhãnchung của dif liệu Ở phần Company, phần thông tin về công ty cũng như địa điểm
không được nêu cụ thể, do đó nó có nhãn Neutral Và cuối cùng, do không để cậpthông tin mức lương cụ thể, quá nhiều mức lương gây hoang mang cho người dùng
nên khía cạnh Other cũng mang tiêu chí Negative Từ các thông tin trên, chúng tôi
quyết định gan nhãn đây là tin tuyển dung bat thường, do các khía cạnh mang nhiều
tiêu chí negative.
Để người dùng có cái nhìn khách quan hơn thay vì chỉ dựa vào các nhãn thông
thường, mỗi cặp khía cạnh-tiêu chí sẽ được kèm theo một câu giải thích Cụ thể,
câu giải thích là một chuỗi mô tả cho 4 khía cạnh, ngăn cách nhau bằng dấu ";" Ví
dụ, câu giải thích cho các khía cạnh trong hình 2.2 sẽ là: "Tiéu dé chứa tién lương
nhằm thu hút người tìm việc; Giấy tờ cung cắp cho công ty nên là bản sao duoc công
chứng, công ty không có quyên giữ gidy tờ gốc của người lao động; Tên công ty và địa điểm làm việc không được nêu cụ thế; Thông tin mức lương không được nêu cụ thể cho người xin việc ".
Trang 21CLEAN Mm WARNING SEEDING
Hình 2.3 Phân bố và thống kê số lượng nhãn chính trong bộ dữ liệu
Đầu tiên, chúng tôi tiến hành thống kê và phân tích số lượng nhãn chính có trong
bộ dữ liệu trong hình 2.3 Chúng tôi thấy răng các nhãn có sự mắt cân bằng nhẹ Cụthể, nhãn Clean chiếm 43,1% trên toàn bộ tập dữ liệu, trong khi nhãn Seeding vàWarning lần lượt chiếm 24,2% và 32,7% Sự chênh lệch này có thể ảnh hưởng đếnhiệu suất dự đoán của mô hình
Số lượng tiêu chi của khía cạnh
# POSITIVE == NEUTRAL # NOTMENTIONED Em NEGATIVE |
Hình 2.4 Sự phân bồ số lượng tiêu chí trong từng khía cạnh trong bộ dữ liệu.
11
Trang 22Ngoài việc phân loại tin tuyển dụng, bài toán còn chú trọng đến việc phân tíchcác tiêu chí của từng khía cạnh Vì vậy, chúng tôi tiến hành thống kê chi tiết hơn
về đặc điểm này Tại hình 2.4 ta thấy các khía cạnh chứa rất ít tiêu chí Neutral và Not-Mentioned, thậm chí chỉ có khía cạnh Company là đầy đủ cả 2 tiêu chí trên.
Giải thích cho điều này là trong quá trình xây dựng hướng dẫn gán nhãn, nhóm tácgiả nhận thấy một số khía cạnh không cần thiết phải có các tiêu chí đó, do đó khôngđược đề cập đến Mặt khác, sự chênh lệch lớn giữa các tiêu chí cũng là thách thức
cho việc xây dựng các phương pháp sau này.
Câu giải thích cho việc phân tích tiêu chí của khía cạnh được viết dưới dạng câu
tiếng việt ngắn gọn đầy đủ nghĩa và đúng cú pháp Hình 2.5 là thống kê số lượng
từ trong câu giải thích trên các tin tuyển dung Có thể thấy câu giải thích chủ yéu ở
khoảng 41 đến 45 từ Số lượng các câu giải thích ngắn chỉ từ 6 đến 10 từ là do đó
không phải là tin tuyển dụng.
3500
3000
2500 2000
CK k bean oe AIẢT thick
Hình 2.5 Thống kê số từ trong câu giải thích cho tác phụ phân tích tiêu chí
2.1.4 Tiền xử lý dữ liệu
Để sử dụng các kiến trúc pre-trained trên tiếng Việt với dữ liệu đầu vào là các chuỗi
token, chúng tôi xử lý dữ liệu theo hai phương pháp cho ba tác vụ chính Với tác vụ
phân lớp và phân tích tiêu chí của khía cạnh, dữ liệu đầu vào sẽ được ghép nối
thành một chuỗi duy nhất theo định dạng <CLS> <Tén feature 1>: <Nội dung của
feature 1> <SEP> <Tên feature 2>: <Nội dung cua feature 2> <SEP> Trong
12
Trang 23đó, các feature và nội dung của chúng được phân biệt bằng các token <SEP> riêng
biệt của từng tokenizer Đối với tác vụ sinh câu giải thích, dữ liệu đầu vào cũng
sẽ được ghép nối thành một chuỗi duy nhất, nhưng bao gồm cả kết quả của hai tác
vụ trước Chuỗi đầu vào sẽ có định dạng <CLS> <Tên feature 1>: <Nội dung của
feature I> <SEP> <Tên feature 2>: <Nội dung cua feature 2> <SEP> Sau
khi chuyển các đầu vào thành dạng chuỗi như trên, chúng sé được tokenize bang các
tokenizer riêng của từng mô hình pre-trained Các chuỗi sau đó sẽ được padding để phù hợp với từng mô hình Cuối cùng, dữ liệu đầu vào sẽ bao gồm các chuỗi input token và attention mask để đưa vào mô hình.
Dữ liệu đầu ra của các tác vụ sẽ được xử lý tương tự nhau, tuy nhiên, ở tác vụ
phân lớp, dữ liệu sẽ được biến đổi thành các one-hot tensor để tiện cho việc huấnluyện mô hình Đối với tác vụ phân tích tiêu chí của khía cạnh, dữ liệu đầu ra sẽđược biến đổi thành một danh sách gồm bốn one-hot tensor, tương ứng với bốn khíacạnh cần quan tâm Trong tác vụ sinh câu giải thích, dif liệu đầu ra sẽ được tokenizebằng tokenizer giống với dữ liệu đầu vào và được padding theo độ dài lớn nhất đã
được thống kê.
2.2 Kiến trúc mô hình dựa trên phương pháp học chuyển tiếp kết hợp học sâu
Kiến trúc mô hình cơ bản được trình bày trong hình 2.6 Đầu vào của mô hình đã
được tiền xử lý theo các bước chỉ tiết nêu trên, đảm bảo rằng dif liệu đầu vào đã sẵn
sàng cho các bước tiếp theo trong quy trình xử lý Sau đó, dữ liệu đã qua xử lý sẽđược đưa vào mô hình thuộc phương pháp học chuyển tiếp để tiến hành trích xuất
các đặc trưng quan trọng Những đặc trưng này là các thông tin cần thiết, được trích xuất và chuyển vào bộ phân loại, nơi chúng được sử dụng bởi các mô hình thuộc
phương pháp học sâu Bộ phân loại này sẽ thực hiện các tác vụ phân loại và phân
tích khác nhau, từ đó đưa ra kết quả dự đoán cuối cùng Kiến trúc chỉ tiết dành cho
các tác vụ phân loại và phân tích khía cạnh được biểu diễn trong hình 2.7 và 2.8.
13
Trang 24Input Process
Embedded
Features
Prediction Classifier
Hình 2.6 Kiên trúc can ban của mô hình
|
Softmax, Stack, Transpose
Trang 25Trong phần dưới đây chúng tôi sẽ trình bày chi tiết về các mô hình thuộc haiphương pháp đã được nêu, bao gồm học chuyển tiếp và học sâu, để cung cấp mộtcái nhìn tổng quan và hiểu biết sâu sắc hơn về quy trình và cách thức hoạt động của
chúng trong nghiên cứu này.
2.2.1 Các phương pháp học chuyển tiếp
Với các bài toán xử lý ngôn ngữ tự nhiên, việc áp dụng các kiến trúc mô hình đãđược huấn luyện trên các tập dữ liệu ngôn ngữ lớn mang lại lợi ích đáng kể trong
việc cải thiện hiệu suất, do các mô hình này có khả năng hiểu ngôn ngữ tự nhiên tốt.
Tinh chỉnh các mô hình đã được huấn luyện trước trên tác vụ hiện tại chắc chắn sẽmang lại kết quả khả quan Nhóm đã lựa chọn các mô hình đơn ngôn ngữ trên tiếng
Việt là PhoBERT, VisoBERT và CafeBERT vì bài toán hiện tai sử dụng bộ dữ liệu
tuyển dụng ở Việt Nam Do đó, việc chọn các mô hình này rất quan trọng để đảm
bảo hiệu suât cao.
° PhoBERTỊI 1]: Là một mô hình đơn ngôn ngữ cho tiếng Việt, được phát triển
bởi VinAI Research và giới thiệu lần đầu vào năm 2020 Dựa trên kiến trúc
RoBERTa, một biến thể cải tiến của BERT, PhoBERT được huấn luyện trênmột tập dữ liệu lớn chứa khoảng 20GB văn bản tiếng Việt thu thập từ cácnguồn khác nhau Mô hình này sử dụng một từ điển token hóa dựa trên Byte-Pair Encoding (BPE) được huấn luyện riêng cho tiếng Việt, giúp nắm bắt tốthơn các đặc trưng ngôn ngữ và từ vựng tiếng Việt PhoBERT có hai phiên bản
chính: PhoBERT Base và PhoBERT Large PhoBERT Base có 12 lớp, 768
đơn vị ẩn và 12 dau attention, trong khi PhoBERT Large có 24 lớp, 1024 đơn
vị ẩn và 16 đầu attention Mô hình này đã cải thiện đáng kể hiệu suất trong
nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên tiếng Việt như phân loại văn bản, phân
tích cảm xúc và nhận dạng thực thể (NER), nhờ khả năng nắm bắt ngữ cảnhtoàn diện và chính xác hơn cho ngôn ngữ này Trong nghiên cứu này, chúng
tôi sử dụng phiên bản PhoBERT Base, mô hình tiền huấn luyện được cung cấp
công khai trên nền tang Hugging Face!.
"https://huggingface.co/vinai/phobert-base
15
Trang 26* ViSoBERT[12]: Giống với PhoBERT, VisoBERT cũng là một mô hình đơn
ngôn ngữ cho tiếng Việt, được giới thiệu lần đầu vào năm 2023 và phát triển
dựa trên kiến trúc XLM-R Mô hình này được huấn luyện trên dữ liệu văn bản
từ mạng xã hội Việt Nam, bao gồm các văn bản đa dạng và chất lượng cao.
ViSoBERT đã cải thiện hiệu suất trên nhiều tác vụ xử lý ngôn ngữ tự nhiên như
phát hiện cảm xúc, phát hiện ngôn từ độc hại và nhận diện bình luận rác Mô
hình có 12 lớp (layers) và 768 đơn vị ẩn (hidden units) Mô hình trên chúng
tôi sử dụng cũng được cung cấp công khai trên nền tang Hugging Face!
* CafeBERT[13]: Đây cũng là một mô hình ngôn ngữ dành cho tiếng Việt, được
ra mắt vào năm 2024 và xây dựng trên nền tảng XLM-R Mô hình này kết hợp
kiến thức từ XLM-R với đữ liệu tiếng Việt mới, sử dụng tác vụ mô hình ngôn ngữ mặt na (MLM) trong quá trình huấn luyện CafeBERT đạt hiệu suất vượt
trội trong các nhiệm vụ đánh giá tiêu chuẩn VLUE (Đánh giá hiểu ngôn ngữ
tiếng Việt) va cũng xuất sắc trong các bài kiểm tra khác như ViNewsQA,
UIT-ViFSD và UIT-VSFC Với 24 lớp (layers) và 1024 đơn vị ẩn (hidden units), mô
hình này được sử dụng trong nghiên cứu của chúng tôi dưới dạng phiên bản
tiền huấn luyện có sẵn trên nền tảng Hugging Face”
‘https://huggingface.co/uitnlp/visobert
*https://huggingface.co/uitnlp/CafeBERT
16
Trang 27Bên cạnh các mô hình đơn ngôn ngữ, nhóm cũng chọn ra các mô hình đa ngôn
ngữ là BERT, DistilBERT và XLM-R để đánh giá xem mô hình nào sẽ đạt hiệu suất
cao hơn.
¢ Bidirectional Encoder Representations from Transformers (BERT)[14]:
La một mô hình ngôn ngữ do Google phát triển, được giới thiệu lần đầu vào năm 2018 Dựa trên kiến trúc Transformer, BERT sử dụng cơ chế Attention
để học các biểu diễn ngữ cảnh từ cả hai hướng của văn bản, tức là từ trái sang
phải và từ phải sang trái BERT được thiết kế để tiền huấn luyện các biểudiễn ngữ cảnh hai chiều từ văn bản không gán nhãn, và sau đó có thể được
tinh chỉnh với các lớp đầu ra bổ sung để phục vu cho nhiều bài toán như trả lời câu hỏi và suy luận ngôn ngữ mà không cần thay đổi kiến trúc cơ bản BERT được huấn luyện theo hai nhiệm vụ chính: Masked Language Modeling (MLM) va Next Sentence Prediction (NSP) Trong MLM, một số từ trong câu
được thay thé bang token [MASK] va mô hình phải dự đoán các từ bi che di
dựa trên ngữ cảnh xung quanh NSP yêu cầu mô hình xác định xem một câu
có phải là câu tiếp theo của câu trước đó hay không BERT đã cải thiện đáng
kể hiệu suất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) như phânloại văn bản, nhận dạng thực thể (NER) và trả lời câu hỏi, nhờ khả năng nắmbắt ngữ cảnh toàn diện và chính xác hơn BERT gồm hai phiên bản chính:BERT-Base và BERT-Large BERT-Base có 12 lớp, 768 đơn vị ẩn va 12 đầuself-attention, trong khi BERT-Large có 24 lớp, 1024 đơn vị ẩn và 16 đầu
self-attention Trong nghiên cứu này, chúng tôi sử dụng phiên bản
bert-base-multilingual-cased, mô hình tiền huấn luyện được cung cấp công khai trên nền
tang Hugging Face!.
¢ Distilled Bidirectional Encoder Representations from Transformers
(Dis-tiIBERT)[15]: là một phiên bản nhẹ và nhanh hơn của mô hình BERT, được
phát triển bởi Hugging Face và giới thiệu lần đầu vào năm 2019 DistilBERT
được xây dựng dựa trên kỹ thuật distillation, trong đó mô hình lớn (BERT)
được dùng để huấn luyện mô hình nhỏ hơn (DistiIBERT) bằng cách truyền
!https://huggingface.co/google-bert/bert-base-multilingual-cased
17
Trang 28đạt kiến thức từ mô hình gốc sang mô hình con DistiIBERT duy trì kiến trúc
Transformer và cơ chế Attention nhưng chỉ có một nửa số lớp so với BERT Mặc dù nhỏ hơn, DistiIBERT vẫn giữ được khoảng 97% hiệu suất của BERT
trong các nhiệm vụ xử lý ngôn ngữ tự nhiên nhờ vào quá trình distillation,
trong đó mô hình học cách dự đoán các biểu diễn của mô hình gốc thay vìchỉ dựa trên dữ liệu huấn luyện thô DistiIBERT được huấn luyện với ba mụctiêu chính: khớp các phân phối xác suất của BERT, khớp các biểu diễn ẩn
của BERT, và dự đoán các từ bi che đi như trong Masked Language Modeling
(MLM) Với số lượng tham số ít hơn khoảng 60% và tốc độ nhanh hơn khoảng
60% so với BERT-Base, DistiIBERT là một lựa chọn lý tưởng cho các ứng
dụng yêu cầu hiệu suất cao nhưng hạn chế về tài nguyên tính toán DisilBERT
đã chứng minh hiệu quả trong nhiều nhiệm vụ NLP như phân loại văn bản, trảlời câu hỏi và nhận dạng thực thể (NER), đồng thời mang lại lợi ích lớn về mặthiệu suất và chi phí tính toán Trong nghiên cứu này, chúng tôi sử dụng phiên
bản distilbert-base-multilingual-cased, một mô hình tiền huấn luyện được cung cấp công khai trên nền tảng Hugging Face!.
¢ Cross-lingual Language Model- RoBERTa (XLM-R)[16]: XLM-R là mô
hình ngôn ngữ đa ngôn ngữ do Facebook AI phát triển, được giới thiệu năm
2019, dựa trên kiến trúc RoBERTa Được huấn luyện trên 2.5TB dữ liệu từ
100 ngôn ngữ, XLM-R tập trung vào Masked Language Modeling (MLM).
Mô hình có hai phiên bản: XLM-R Base (12 lớp, 768 đơn vị ẩn, 12 đầu attention) và XLM-R Large (24 lớp, 1024 đơn vị ẩn, 16 đầu self-attention)
self-XLM-R cải thiện hiệu suất trong nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên đa
ngôn ngữ Nghiên cứu này sử dụng xlm-roberta-base, mô hình tiền huấn luyện
được cung cấp công khai trên nền tang Hugging Face.”.
'https:/huggingface.co/distilbert/distilbert-base-multilingual-cased
?https://huggingface.co/FacebookAI/xlm-roberta-base
18
Trang 292.2.2 Các phương pháp học sâu
Sau khi dữ liệu được xử lí thông qua các mô hình học chuyển tiếp được nêu ở trên,dem lại được không gian vector ngữ nghĩa, làm tiền dé cho các kiến trúc phân lớpphía sau Việc xây dựng các kiến trúc phân lớp cũng mang ý nghĩa quan trọng
Nhóm chọn ra 2 kiến trúc phổ biến và mang lại hiệu suất khá tốt trên các dữ liệu
ngôn ngữ là LSTM va CNN để xây dựng đuôi phân lớp của mô hình Việc sử dung
LSTM và CNN mỗi loại riêng biệt với feature từ các mô hình học chuyển tiếp manglại những lợi ích riêng của từng mạng LSTM tập trung vào việc mô hình hóa mối
quan hệ ngữ nghĩa dài hạn và xử lý chuỗi[17], trong khi CNN phát huy sức mạnh
trong việc trích xuất đặc trưng cục bộ và mô hình hóa mối quan hệ không gian giữacác từ [18] Lựa chọn giữa LSTM và CNN (hoặc cả hai) phụ thuộc vào bối cảnh cụ
thể của vấn dé và mục tiêu đặt ra trong tác vụ phân lớp dữ liệu văn bản.
« Long Short-Term Memory (LSTM): là một loại mạng nơ-ron thích hợp để
xử lý dữ liệu chuỗi, nhờ khả năng duy trì thông tin ngữ nghĩa trong chuỗi dài
và phụ thuộc vào ngữ cảnh Khi kết hợp với các đặc trưng từ BERT, LSTM
có thể được sử dụng để mô hình hóa chuỗi dữ liệu, học các mối quan hệ dài
hạn giữa các từ trong câu và cải thiện việc biểu diễn các chuỗi dữ liệu phức tạp
[19] LSTM còn có khả năng xử lý chuỗi có độ dài thay đổi, giúp nó rất hữu
ích khi làm việc với các câu có độ dài khác nhau tùy theo ngữ cảnh [18] Dac
biệt, LSTM tối ưu hóa thông tin ngữ nghĩa dài hạn trong câu nhờ cơ chế cập nhật và quên thông tin, giải quyết hiệu quả vấn đề liên quan đến mối quan hệ
ngữ nghĩa dài hạn [17].
¢ Convolutional Neural Network (CNN): Thường được sử dung trong xử lý
hình ảnh, nhưng cũng có thé áp dung cho di liệu chuỗi, đặc biệt trong việc
trích xuất đặc trưng từ các embedding của BERT Các lợi ích chính của CNN bao gồm: khả năng phát hiện đặc trưng cục bộ trong embedding, tăng cường
nhận diện cụm từ hoặc biểu thức trong câu [20]; mô hình hóa mối quan hệkhông gian giữa các từ qua các bộ lọc nhỏ của dif liệu đầu vào, hữu ích khi các
từ biểu diễn bằng feature từ BERT [fakeStack]; và hiệu quả tính toán khi CNN
xử lý ma trận đầu vào lớn, được ưa chuộng trong các tác vụ đữ liệu lớn.[21]
19
Trang 302.3 Phương pháp học trực tuyến
2.3.1 Dinh nghĩa
Học trực tuyến (Online Learning) là một phương pháp học máy trong đó mô hình
học dần dần từ luồng dữ liệu trong thời gian thực Đó là một quá trình liên tục điều
chỉnh thuật toán dự đoán theo thời gian, cho phép mô hình thay đổi khi có dữ liệu
mới Phương pháp này cực ky có ý nghĩa trong môi trường giàu đữ liệu có kha năng
phát triển nhanh chóng ngày nay vì nó có thể đưa ra dự đoán kịp thời và chính xác.
Học gia tăng (Incremental Learning) là một phương pháp cụ thể của học trực
tuyến, cho phép mô hình hoc từ dif liệu mới mà không cần tái huấn luyện toàn bộ từđầu [22] Phương pháp này rất hữu ích khi dif liệu mới liên tục xuất hiện hoặc khi
dữ liệu quá lớn để lưu trữ và xử lý hiệu quả Mô hình có khả năng tích hợp thông
tin từ dữ liệu mới mà không cần truy cập lại dữ liệu cũ, và thường được sử dụng khitái huấn luyện từ đầu mỗi khi có dữ liệu mới là không khả thi về mặt thời gian hoặc
tài nguyên Mô hình có thể xử lý dữ liệu theo từng lô lớn hơn so với học trực tuyến, nhưng không yêu cầu lưu trữ toàn bộ dữ liệu trước đó Các ứng dụng thực tế của học gia tăng bao gồm hệ thống khuyến nghị, nơi mô hình được cập nhật khi có thông tin
mới về hành vi người dùng; phát hiện gian lận, khi mô hình cần thường xuyên cập
nhật để phát hiện các hành vi gian lận mới [23]; và phân tích dữ liệu lớn, nơi mô
hình xử lý và học từ dữ liệu đến liên tục [24].
Chúng tôi áp dụng phương pháp học gia tang cho nghiên cứu này Học gia tang
mang đến nhiều ưu điểm như khả năng thích nghi nhanh chóng với các thay đổi trong
dữ liệu, giúp mô hình duy trì hiệu suất tốt theo thời gian [22] Bên cạnh đó, phươngpháp này tiết kiệm tài nguyên bằng cách giảm thiểu nhu cầu lưu trữ và tính toán, đặcbiệt hữu ích khi làm việc với các tập dữ liệu lớn [25], đồng thời tăng tốc quá trình
huấn luyện nhờ chỉ cập nhật mô hình với dữ liệu mới [25] Tuy nhiên, Học gia tăng
cũng đối mặt với một số hạn chế như sự nhạy cảm với trình tự dữ liệu, khiến một
điểm dữ liệu bất thường có thể thay đổi đáng kể các tham số của mô hình, dẫn đến giảm độ chính xác [25] Phương pháp này cũng ít kiểm soát việc huấn luyện so với
phương pháp truyền thống, với rủi ro là luồng dữ liệu chất lượng kém không mongđợi có thể dẫn đến những dự đoán kém [25] Ngoài ra, các thuật toán Incremental
20
Trang 31Learning thường khó diễn giải [26] và thiết kế cũng như triển khai của chúng có thểphức tạp hơn các phương pháp truyền thống [25], đặc biệt khi đối mặt với rủi ro vềhiệu suất từ đữ liệu mới không được chọn lọc kỹ [25].
2.3.2 Thiết kế các thí nghiệm học trực tuyến
Dữ liệu huấn luyện sẽ được chia làm hai phần với tỉ lệ 2:8, nhằm khởi tạo mô hình
cho học trực tuyến và chuẩn bị dữ liệu giả định là luồng dữ liệu streaming được đưavào hệ thống để kích hoạt quá trình học trực tuyến Với 20% dữ liệu huấn luyện,
mô hình được huấn luyện theo phương pháp truyền thống (offline) để khởi tạo mô
hình ban đầu Quá trình học trực tuyến sẽ được kích hoạt khi hệ thống có thể cungcấp lượng dif liệu streaming đủ một batch được quy định sẵn Theo nghiên cứu, việchuấn luyện mô hình theo từng batch sẽ đem lại kết quả tốt hơn so với việc huấn luyệncho từng điểm dữ liệu riêng lẻ Ngoài ra, huấn luyện theo batch cũng giúp tiết kiệm
tài nguyên và thời gian huấn luyện cho cả hệ thống Để cải thiện và khắc phục các
hạn chế của học trực tuyên, nhóm đã thiết kế ra các chiến thuật dùng để huấn luyện
mô hình một cách hiệu quả.
Latest model
Hinh 2.9 Minh hoa Chién thuat 1
21
Trang 32* Chiến thuật 1: Được minh hoạ ở hình 2.9 Khi dữ liệu streaming mới nhất
tổng hợp lại đủ số lượng 1 batch dữ liệu quy định trước, thì quá trình OnlineLearning sẽ được kích hoạt Mô hình hiện tại sẽ được huấn luyện bằng batch
dữ liệu mới đó Khi huấn luyện xong mô hình mới này sẽ thay thế mô hình
hiện tại trong hệ thống và tiếp tục chờ 1 batch dữ liệu mới được đưa vào
* Chiến thuật 2 Được minh hoạ ở hình 2.10 Khi dữ liệu streaming mới nhất
tổng hợp lại đủ số lượng 1 batch dif liệu quy định trước, thì quá trình học trựctuyến sẽ được kích hoạt Mô hình hiện tại sẽ được huấn luyện bằng batch dữliệu mới đó Khi huấn luyện xong, mô hình mới sẽ được đánh giá trên tập devđược lưu trong database của hệ thống Kết quả đánh giá của mô hình mới sẽđược so sánh với kết quả đánh giá của mô hình cũ đạt được kết quả tốt nhất
Nếu như kết quả của mô hình mới tốt hơn, thì mô hình mới sẽ thay thế mô hình cũ tốt nhất trong hệ thống Còn trường hợp ngược lại, nếu như kết quả
mô hình mới không cao hơn, thì mô hình hiện tại vẫn là mô hình cũ có kết quảtốt nhất Sau đó, mô hình tốt nhất sẽ tiếp tục chờ | batch dữ liệu mới được đưa
vào Ý nghĩa của chiến thuật này nhằm có thể kiểm soát được việc huấn luyện
mô hình.
Streaming
Data
* Chiến thuật 3: Được minh hoạ ở hình 2.11 Tương tự chiến thuật 2, tuy nhiên,
nếu như dữ liệu streaming đạt đủ M lần số lượng dữ liệu 1 batch được quy định sẵn (M cũng là được quy định sẵn), thì quá trình Online Learning sẽ được kích
22
Trang 33hoạt, nhưng với số lượng là M x batch_size Ví dụ cụ thể, với M = 4, thì hệ
thống sẽ huấn luyện giống như Chiến thuật 2 là 3 lần huấn luyện với các batch lần lượt là B1, B2, B3 Khi có batch thứ 4 là B4 được đưa vào hệ thống, thì sẽ
kích hoạt Online Learning với 1 batch có độ dài gấp 4 lần batch thông thường,
bao gồm (BI, B2, B3, B4) Ý nghĩa của chiến thuật này nhằm giúp cho mô
hình có thể nhìn được các dữ liệu xa hon batch hiện tại (vẫn là dữ liệu mới), và
đảm bảo thởi gian huấn luyện không quá dài
Streaming Data for
Input
Hình 2.11 Minh hoạ Chiến thuật 3
Việc thử nghiệm các chiến thuật học trực tuyến giúp hệ thống duy trì và cải thiệnhiệu suất dự đoán Chiến thuật 1 áp dụng kỹ thuật căn bản nhất của học trực tuyến,
sử dụng từng batch dữ liệu mới để huấn luyện, không quá quan tâm đến hiệu suấtthực sự của mô hình Chiến thuật 2 tập trung vào việc huấn luyện liên tục và thườngxuyên với các batch nhỏ, trong khi Chiến thuật 3 sử dụng hai luồng huấn luyện vớicác batch khác nhau để tối ưu hóa hiệu suất và tính ổn định Sự linh hoạt và khả
năng thích nghỉ của hệ thống đảm bảo rằng nó có thể cung cấp kết quả dự đoán chính
xác và đáng tin cậy cho người dùng trong môi trường tuyển dụng trực tuyến đầy biến
động.
Dữ liệu training sẽ được chia làm 2 phần với tỉ lệ 2:8, với mục đích khởi tạo mô
hình cho học trực tuyến, và chuẩn bị dữ liệu giả định là luồng dữ liệu streaming đượcđưa vào hệ thống để kích hoạt quá trình học trực tuyến Với 20% dữ liệu training,
mô hình được huấn luyện theo phương pháp truyền thống là offline, để khởi tạo mô
hình.
23
Trang 34Việc học trực tuyến sẽ được kích hoạt khi hệ thống có thể cung cấp lượng dữ liệustreaming đủ 1 batch được quy định sẵn việc huan luyện mô hình theo từng batch sẽ
đem lại kết quả tốt hơn việc phải huấn luyện cho từng điểm dữ liệu duy nhất Ngoài
ra, với việc huấn luyện theo batch, thi cũng giúp tiết kiệm tài nguyên, cũng như thời
gian huấn luyện cho cả hệ thống
2.4 Mô hình sinh ngôn ngữ
ViT5 là một mô hình ngôn ngữ dựa trên kiến trúc Transformers, được thiết kế đặc
biệt cho tiếng Việt và ra mắt vào năm 2022[27] Đây là một mô hình lớn, đơn ngữ,
có cấu trúc encoder-decoder, và đã trải qua quá trình tiền huấn luyện sâu Mô hìnhnày được huấn luyện trên một tập hợp dữ liệu tiếng Việt đa dạng và chất lượng cao,
sử dụng phương pháp tiền huấn luyện tự giám sát theo mô hình T5 Các nhà nghiên
cứu đã phát triển hai phiên bản của VïT5: một phiên bản cơ bản với 310 triệu tham
số và một phiên bản lớn hơn với 866 triệu tham số, điều chỉnh từ năm cấu hìnhkích thước ban đầu của mô hình T5 ViT5 đã cho thấy hiệu quả vượt trội trong việc
tóm tat trừu tượng các bài viết tiếng Việt trên các tập dữ liệu như Wikilingua và
Vietnews Trong nghiên cứu nay, chúng tôi đã sử dụng phiên bản ViTS-base để sinh
van bản cho một tác vụ cụ thể, và mô hình này hiện đã được công khai trên nền tang
HuggingFace.!.
2.5 Các thang đo đánh gia
2.5.1 Thang do đánh gia cho tac vụ phân lớp va ACSA
Với tác vụ phân lớp và ACSA, các thang đo được sử dụng để đánh giá là tương tự
nhau, tuy nhiên có sự khác biệt về kích thước đầu ra Tác vụ phân lớp đơn thuần chỉ
có một đầu ra duy nhất, trong khi tác vụ ACSA bao gồm bốn tác vụ phân lớp nhỏhơn, mỗi tác vụ có một đầu ra riêng Để đánh giá tác vụ ACSA, thang đo chung
được xây dựng bằng cách lấy trung bình các kết quả của bốn tác vụ phân lớp nhỏ
hơn Mặc dù cách tiếp cận này có thể làm phức tạp việc xác định các sai sót cụ thể của mô hình, nhưng lại giúp thuận tiện trong việc lựa chọn mô hình có kết quả tổng
"https://huggingface.co/VietAI/vit5-base
24
Trang 35thể tốt nhất Chúng tôi chọn các thang đo Accuracy[28], Precision[29], Recall[30],
F1-Score[31] để đánh giá hiệu suất của các tác vu.
* Accuracy: Là một trong những thang đo được sử dụng phổ biến trong các hệ
thống phân loại nhị phân và đa lớp, đặc biệt là phân loại văn bản Ưu điểm của
thang đo Accuracy là sự đơn giản, trực quan và dễ hiểu, cùng với hiệu quả cao
khi các lớp trong dữ liệu có phân phối tương đối cân bằng Tuy nhiên, nó cũng
có hạn chế lớn khi không cung cấp thông tin chỉ tiết về lỗi của mô hình Độ
chính xác cao không đồng nghĩa với việc mô hình dự đoán tốt, đặc biệt khi dữliệu bi mắt cân bằng, mô hình có thể dự đoán chỉ một nhãn mà van đạt kết quảaccuracy cao Accuracy được tính bằng công thức:
TP+TNTP+TN+FP+FN (2.1)
Accuracy =
Trong do:
— TP-True Positive: Số lượng dự đoán chính xác các mẫu đúng.
— TN-True Negative: Số lượng dự đoán chính xác các mẫu sai
— FP-False Positive: Số lượng dự đoán sai các mẫu đúng.
— FN-False Negative: Số lượng dự đoán sai các mau sai
* Precision: Thang do Precision cũng được sử dụng phổ biến trong các hệ thống
phân loại nhị phân và đa lớp Nó nhiều ưu điểm trong các bài toán có dữ liệu
mất cân bằng, khi một lớp được coi là quan trọng hơn các lớp khác Precision
tập trung vào chất lượng dự đoán các mẫu dương tính, cung cấp thông tin về
độ tin cậy của các dự đoán dương tính, từ đó giúp đánh giá liệu mô hình có tạo
ra nhiều dự đoán sai hay không Tuy nhiên, precision cũng có hạn chế, vì nó
không cân nhắc các dự đoán âm tính, do đó không thể phản ánh đầy đủ hiệu
suất toàn bộ của mô hình Precision được tính bằng công thức:
TP — TÊCOTTCCE
Precision =
25
Trang 36Trong đó:
— TP-True Positive: Số lượng dự đoán chính xác các mẫu đúng
— FP-False Positive: Số lượng dự đoán sai các mẫu đúng.
Recall: Khá tương đồng với thang đo Precision, thang đo Recall cũng hữu ích
trong các bài toán mà việc bỏ sót các mẫu positive có thể gây hậu quả nghiêm trọng Recall giúp đánh giá khả năng của mô hình trong việc phát hiện tất cả
các trường hợp positive, do đó giảm thiểu khả năng bỏ sót (false negatives).
Tuy nhiên, Recall có hạn chế là không quan tâm đến các dự đoán negative (truenegatives và false positives), do đó không phản ánh toàn bộ hiệu suất của mô
hình Công thức của Recall là:
TP — TÊCOTTCCE
TP+FN #gold
Recall = (2.3)
Trong đó:
— TP-True Positive: Số lượng dự đoán chính xác các mẫu đúng
— FN-False Negative: Số lượng dự đoán sai các mẫu sai
Fl-Score: Cung cấp một cái nhìn cân bằng giữa precision và recall, hữu ích
khi cần đánh giá hiệu suất của mô hình trong việc giảm thiểu cả false positive
và false negative Nó đặc biệt hữu ích khi gặp dữ liệu mất cân bằng, trong các
bài toán mà một lớp quan trọng hơn các lớp khác F1-score đảm bảo rằng môhình không chỉ tối ưu hoá cho một thang đo mà còn quan tâm đến thang đo
khác Tuy nhiên, Fl-score có hạn chế là không bao gồm thông tin về tỷ lệ âm
tính thật (true negative rate), chỉ xem xét các trường hợp dương tính thật (true
positive), âm tính giả (false negative), và dương tính giả (false positive), mà
không bao gồm các trường hợp âm tính thật (true negative) Điều này có thểdẫn đến sự thiếu sót trong việc đánh giá toàn diện hiệu suất của mô hình Hơn
nữa, Fl-score không phản ánh rõ mức độ nghiêm trọng của các lỗi phân loại
26
Trang 37sai Ví dụ, trong một số bài toán, việc phân loại sai một nhãn có thể gây hậu
quả nghiêm trọng hơn so với các nhãn khác, nhưng F1-score không thể hiện
được sự khác biệt này Công thức tính của Fl-Score là:
2x Precision x Recall
= 2.4
ñ Precision + Recall (2.4)
2.5.2 Thang do đánh giá cho tác vu tạo giải thích
Trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), việc đánh giá chất lượng của các mô
hình tạo văn bản tự động là một nhiệm vụ quan trọng và phức tạp Chúng tôi sử
dụng các thang đo như BLEU, ROUGE và BERTScore đã được phát triển để hỗ trợ
cho mục đích này.
¢ BLEU (Bilingual Evaluation Understudy): là một thang đo tự động dùng để
đánh giá chất lượng của các hệ thống dịch máy, đặc biệt trong lĩnh vực học sâu
(deep learning), dựa trên mức độ tương đồng giữa câu dịch tự động và câu dịch
tham khảo của con người Đây là một trong những thang đo phổ biến và được
sử dụng rộng rãi để đánh giá hiệu suất của các mô hình dịch máy BLEU có
ưu điểm là tự động và nhanh chóng, cho phép tính toán mà không cần sự canthiệp của con người, đồng thời cung cấp điểm số định lượng giúp so sánh hiệu
suất của các mô hình dịch máy khác nhau Tuy nhiên, BLEU cũng có những hạn chế như không đánh giá được ngữ nghĩa hoặc ngữ cảnh của câu, do chỉ dựa trên mức độ trùng khớp của từ vựng và cấu trúc, và phụ thuộc nhiều vào
chất lượng và sự đa dạng của bộ câu tham khảo Công thức của BLEU là:
Trang 38— N-gram Precision: BLEU kiểm tra mức độ trùng khớp của các n-gram
(chuỗi gồm n từ liên tiếp) giữa câu dịch máy và câu tham khảo Ví dụ, với
n= 1, ta kiểm tra mức độ trùng khớp của từng từ (unigram); với n = 2, ta
kiểm tra từng cặp từ (bigram); và tiếp tục với các giá trị n lớn hơn
— Brevity Penalty (BP): BLEU áp dụng một hệ số phạt nếu câu dịch máy
ngắn hơn câu tham khảo Điều này nhằm tránh việc hệ thống dịch máytạo ra các câu ngắn không đây đủ thông tin
¢ ROUGE (Recall-Oriented Understudy for Gisting Evaluation): là một tập
hợp các thang đo tự động dùng để đánh giá chất lượng của các bản tóm tắt
văn bản và các hệ thống tạo văn bản tự động ROUGE so sánh các bản tóm
tắt tự động với các bản tóm tắt tham chiếu do con người viết để đo lường mức
độ tương đồng giữa chúng Các ưu điểm của ROUGE bao gồm tính đơn giản
và dé hiểu, do việc đếm các từ hoặc chuỗi từ (unigram, bigram, LCS) giúp
việc tính toán và giải thích kết quả trở nên trực quan ROUGE cũng hiệu quả
về tính toán, không đòi hỏi quá nhiều tài nguyên, phù hợp với các bộ dữ liệu
lớn và mô hình phức tạp Thêm vào đó, khả năng tự động hóa của ROUGE
giúp tiết kiệm thời gian và công sức so với đánh giá thủ công, và nó được chấp
nhận rộng rãi trong cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên (NLP) như
một tiêu chuẩn đánh giá chất lượng của các mô hình tóm tắt văn bản Tuy
nhiên, ROUGE cũng có những hạn chế như không đánh giá được chất lượng
ngữ nghĩa và ngữ cảnh của các từ, dẫn đến việc các bản tóm tắt có cùng các từ
nhưng khác ngữ nghĩa vẫn có thể được đánh giá cao ROUGE cũng không xử
lý tốt các biểu đạt đồng nghĩa, không nhận ra các từ hoặc cụm từ đồng nghĩa,
do đó không thể đánh giá chính xác các bản tóm tắt sử dụng từ ngữ khác nhau
nhưng có cùng ý nghĩa Thang đo này cũng dễ bị ảnh hưởng bởi độ dài của
các bản tóm tắt, khiến cho các bản tóm tắt dài hơn có thể nhận được điểm số
cao hơn chỉ vì có nhiều từ hơn Đối với các ngôn ngữ phức tạp với cấu trúc câu
và ngữ pháp khác biệt, ROUGE có thể không phản ánh đúng chất lượng của
các bản tóm tắt Ngoài ra, ROUGE không đo lường được tính mạch lạc và khả
28
Trang 39năng giữ nguyên ý nghĩa qua toàn bộ văn bản, điều này rất quan trọng đối với
chất lượng tổng thể của bản tóm tắt Thang đo bao gồm các biến thể:
— ROUGE-1 đo lường tỷ lệ trùng khớp của các từ đơn (unigram) giữa bản
tóm tắt tự động và bản tóm tắt tham chiếu
- ROUGE-2 đo lường tỷ lệ trùng khớp của các cặp từ liên tiếp (bigram)
giữa bản tóm tắt tự động và bản tóm tắt tham chiếu
— ROUGE-L đo lường độ dài của dãy con chung dài nhất (Longest Common
Subsequence - LCS) giữa bản tóm tắt tự động và bản tóm tắt tham chiếu
¢ BERTScore (Bidirectional Encoder Representations from Transformers
Score): là một phương pháp đánh giá dựa trên mô hình ngôn ngữ BERT
(Bidi-rectional Encoder Representations from Transformers) được sử dụng rộng rãi
trong các bài toán xử lý ngôn ngữ tự nhiên (NLP) Được dé xuất bởi nhóm nghiên cứu tại Facebook AI vào năm 2019, BERTScore mang lại cách tiếp cận
mới so với các phương pháp truyền thống như BLEU, ROUGE hay METEOR
để đánh giá chất lượng văn bản do mô hình tạo ra BERTScore so sánh cácbiểu diễn vector (embedding) của các từ trong câu gốc và câu dịch, tính toán
độ tương đồng cosine giữa các embedding để xác định mức độ tương đồng
Ưu điểm của BERTScore bao gồm khả năng sử dụng ngữ cảnh nhờ vào BERT,
cho phép đánh giá chính xác hơn ý nghĩa của từ trong văn bản; linh hoạt với
từ đồng nghĩa nhờ sử dụng vector embedding, giúp nhận biết và xử lý từ đồngnghĩa tốt hơn so với các phương pháp dựa trên đối chiếu từ trực tiếp; và không
phụ thuộc vào ngữ pháp, ít bị ảnh hưởng bởi lỗi ngữ pháp hoặc sự khác biệt
nhỏ trong cấu trúc câu, tập trung vào ý nghĩa tổng thể của văn bản Tuy nhiên,
BERTScore cũng có những hạn chế như độ phức tạp tính toán cao, do việc sử
dụng mô hình BERT để tính toán embedding đòi hỏi tài nguyên tính toán lớn;
và độ nhạy với dữ liệu huấn luyện, hiệu quả của BERTScore phụ thuộc vào
chất lượng của mô hình BERT được sử dụng, đòi hỏi mô hình phải được huấn
luyện trên tập dữ liệu đủ lớn và đa dạng Các bước chính của BERTScore bao
Ầ
gồm:
29
Trang 40- Biểu diễn văn bản: Sử dụng mô hình BERT để biểu diễn từng từ trong
câu gốc và câu dịch thành các vector embedding
— Tính toán độ tương đồng: Do độ tương đồng cosine giữa các vector
em-bedding của các từ tương ứng trong câu gốc và câu dịch
- Tổng hợp điểm: Từ các độ tương đồng này, tính điểm BERTScore cho cả
câu bằng cách lấy trung bình các độ tương đồng này
30