Với đề tài này, chúng tôi sẽ xây dựng bộ dữ liệu cho bài toán, sau đó thử nghiệm và đánh giá hiệu quả của các mô hình học máy trên bộ dữ liệu nhằm phân loại để xác định bài đánh giá rác
Trang 1ĐINH VAN CƠ - 19521293
KHÓA LUẬN TỐT NGHIỆP
NHẬN DIỆN CÁC BÀI ĐÁNH GIÁ RÁC
TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ TIẾNG VIỆT
Detecting Spam Reviews on Vietnamese E-commerce Websites
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIÊN HƯỚNG DẪN
ThS LƯU THANH SƠN
ThS TA THU THUY
TP HO CHI MINH, 2023
Trang 2LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành gửi lời cảm ơn đến Thay/ThS Lưu Thanh Sơn — người đã hướng dẫn và hỗ trợ cho em trong suốt quá trình học tập, nghiên cứu, giúp
em có được những kiến thức cần thiết để thực hiện đề tài này Bên cạnh đó, em cũng
xin cảm ơn đến Cô/ThS Tạ Thu Thủy đã hỗ trợ cho em trong suốt quá trình học tập tại trường, cũng như có những góp ý để em có thể hoàn thiện khóa luận tốt hơn.
Hơn nữa, em cũng xin cảm ơn các Thầy Cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng cũng như các Thầy Cô Trường Đại học Công nghệ Thông tin nói chung,
đã giảng dạy và truyền đạt kiến thức cho em trong suốt thời gian học tập tại trường.
Cuối cùng, mình cũng muốn gửi lời cảm ơn đến các bạn trong nhóm gán nhãn đã hỗ
trợ mình trong việc xây dựng bộ dữ liệu.
Trong quá trình thực hiện khóa luận, em cũng đã gặp những khó khăn nhất định, với sự hỗ trợ từ Thầy Cô và các bạn đã giúp em giải quyết được vấn đề Cuối cùng,
em cũng đã hoàn thành khóa luận này một cách tốt nhất có thể, tuy nhiên sai sót trong quá trình thực hiện là không thể tránh khỏi Chính vì thế, rất mong nhận được những ý kiến và đóng góp từ Quý Thầy Cô để em có thể hoàn thành tốt hơn các đề
tài khác trong tương lai.
Một lần nữa, em xin chân thành cảm ơn.
Thành phó Ho Chí Minh, tháng 06 năm 2023
Sinh viên
Dinh Văn Cơ
Trang 3Lời cảm
Mục lục
Danh mi
Danh mi
Danh mị
Tóm tắt
Chương
11
1.2
13
1.4
1.5
1.6
1.7
Chuong
2.1
2.2
2.3
2.4
2.5
MUC LUC
on
uc các bang
uc các hình ảnh và biểu đồ
ục từ viết tắt
khóa luận
1 TỔNG QUAN
Sự phát triển của hình thức mua sắm trực tuyến ở Việt Nam_
Van đề bài đánh giárác
Những thách thức của đề
tài -Mục tiêu của đề tài Ặ.Ặ
Phương pháp nghiên
cứu -Những đóng góp của đề tài
Cấu trúc khóa luận
-2 CƠ SỞ LÝ THUYẾT Mô tả bài toán Ặ.ẶẶQỒ QC 2.1.1 Khái niệm bài đánh giá, bài đánh giárác
2.1.2 Định nghĩa các nhiệm vụ cho bài toán
2.1.3 Bài toán phân loại va ứng dụng trong việc phát hiện bài đánh L0: Í.-ăĂẲ Các công trình liên quan
Phương pháp phát hiện bài đánh giárác
2.3.1 Dựa trên quy luật
2.3.2 Dựa trên mô hình học máy
Các kỹ thuật trích xuất đặc trưng
-Các thuật toán học máy cho bài toán phân loại bài đánh giá rác
ii
vi viii ix
oO mn nn dv
11 11
11
12
12
14
15 15
16
16
17
Trang 4MỤC LỤC
2.5.1 Các mô hình mạng nơ-ron học sâu
2.5.1.1 TextCNN 0 2 cee ốc 2.5.1.2 Bidirectional Long Short-Term Memory
2.5.1.3 Bidirectional Gated Recurrent Unit .
2.5.2 Mô hình học chuyển
tiếp -2.6 Phương pháp kết hợp metadata cho bài toán phân loại
2.6.1 Phương pháp kết hợp thuộc tính dạng danh muc
2.6.2 Phương pháp kết hợp thuộc tính dạng văn bản
Chương 3 BỘ DỮ LIỆU ViSpamReviews 3.1 Tổng quan quy trình xây dựng bộ dữ liệu
3.2 Phương pháp đánh giá độ đồng thuận giữa những người gan nhãn
3.3 Xây dựng bộ dữ liệu
-3.3.1 Thu thập các bài đánh giá từ các trang thương mại điện tử
3.3.2 Xây dựng hướng dẫn gánnhãn
3.3.3 Gan nhãn và tính toán độ đồng thuận
3.3.4 Thảo luận về độ đồng thuận giữa những người gin nhãn
3.3.5 Thao luận về sự hợp lý của kết quả gán nhãn
3.4 Tong quan bộ dữ liệu - - - s
3.5 Phân tích các thuộc tính của sản phẩm được đánh giá
3.6 Kết luận về bộ dữ liệu
Chương 4 CÀI ĐẶT THU NGHIỆM 4.1 Độ đođánhgiá Ặ.ẶẶẶẶVỐ So 4.2 Tiền xử lý dữ liệu co 4.3 Cai đặt thử nghiệm các mô hình phân loại
4.3.1 Thiết lập thông số các mô hình mạng nơ-ron học sâu
4.3.2 Thiết lập thông số các mô hình học chuyển tiếp
Chương 5 CÁC KẾT QUÁ THỬ NGHIỆM 5.1 Kết quả thử nghiệm ban đầu
-3 31
32
34
34
38
41
43
48 51
53
57
58 59
61
63
iii
Trang 5MỤC LỤC
5.2 Phân tích lỗi và hạn chế của việc chỉ sử dụng bình luận để phân loại
bài đánh giá rác QQ Q ee 65
5.3 Cài đặt thử nghiệm kết hợp metadata 68
5.4 Kết quả thử nghiệm kết hợp metadata cho các mô hình 69
5.4.1 Phân tích lỗi trên danh mục sản phẩm 72
5.4.2 Phân tích lỗi trên mô tả sản phẩm 75
5.4.3 Phân tích lỗi trên cả danh mục sản phẩm va mô tả sản phẩm 77 5.5 Đánh giá hiệu qua của phương pháp kết hợp metadata 78
5.6 Tóm tắt các kết quả thử nghiệm - 79
Chương 6 CHƯƠNG TRÌNH MINH HỌA 81 6.1 Kiến trúc tổng quan co 81 6.2 Xây dung chương trình minhhoa 82
6.3 Đánh giá chương trình minhhoa 84
Chương 7 KẾT LUẬN 85 7.1 Những két qua datdude 85
7.2 Hạn chế và hướng phattrién - 86
Tài liệu tham khảo 95
Phu lục A CONG BO KHOA HỌC 96
iv
Trang 6DANH MỤC CÁC BANG
3.1 Đánh giá mức độ đồng thuận dựa trên độ đo Cohen's Kappa
3.2 Một số bài đánh giá với các nhãn theo hướng dẫn
3.3 Độ đồng thuận giữa ba người gan nhãn A1, A2 và A3 trên hai nhiệm
vụ, những người gan nhãn thực hiện gan nhãn một cách độc lap .
3.4 Độ đồng thuận giữa ba người gán nhãn AI, A2 và A3 trên hai nhiệm
vụ sau khi đã người gán nhãn được huấn luyện lại với hướng dẫn đã
chỉnh sỬửa Ặ ee
3.5 Ma trận nhầm lẫn trung bình sự khác biệt giữa những người gán nhãn.
3.6 Một vài mẫu dữ liệu của hai người gán nhãn
3.7 Một ví dụ bài đánh giá va metadata trong bộ dữ liệu ViSpamReviews.
3.8 Thống kê một số đặc điểm trên từng tập dữ liệu
3.9 Số lượng nhãn trong tập huấn luyện theo số sao đánh giá
3.10 Thống kê số các lượng nhãn theo từng danh mục .
3.11 Độ dài trung bình của các thuộc tính văn bản trên tập huấn luyén .
5.1 Kết quả thử nghiệm các mô hình baseline trên bộ dit liệu
ViSpamRe-5.2 Hiệu suất theo độ đo Fl-macro (%) trên từng nhãn trong Task 2
5.3 Một số bài đánh giá có nhãn SPAM-2 dự đoán nhầm thành NO-SPAM.
5.4 Bảng so sánh kết quả thử nghiệm tích hợp metadata trên bộ dữ liệu
ViSpamReviews ees
5.5 Hiệu quả khi kết hợp danh mục sản phẩm lên nhãn NO-SPAM và
SPAM-3 theo từng danh mục trong mô hình TextCNN + linear basis
5.6 Một số bài đánh giá được dự đoán từ mô hình TextCNN và TextCNN
+ linear basis cuSf ee ee
5.7 Một số bài đánh giá được dự đoán từ mô hình PhoBERT và mô hình
có kết hợp mô tả sản phẩm PhoBERT + SPhoBert .
49 51
63
67
70
Trang 7DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ
1.1 Thời gian trung bình một ngày của một người dành cho mua sắm trực
"0Š ¬àặ q a aa 1
1.2 Một số bài đánh giá của người dùng trên trang Shopee! 3
2.1 Minh họa bài toán phân loại email rác? - 12
2.2 Minh họa bài toán phát hiện các bài đánh giá rác 13
2.3 Kiến trúc mô hình TextCNN [37] 18
2.4 Kiến trúc một tế bào trong mô hình LSTM 20
2.5 Kiến trúc một tế bào trong mô hình GRU 23
2.6 Tổng quan quy trình pre-training va fine-tuning của mô hình BERT 20] -.-cCK===- - - - 81: - 25
2.7 Biểu diễn văn bản đầu vào trong mô hình BERT [20] 25
2.8 Kiến trúc mô hình SBERT với hàm mục tiêu phân loại (trái) và hàm mục tiêu hồi quy (phải) [24] - 29
3.1 Quy trình xây dựng bộ dữ liệu ViSpamReviews 31
3.2 Thông tin các bai đánh giá thu thập từ Shopee 35
3.3 Thông tin các bài đánh giá thu thập từ Tiki 35
3.4 Các thông tin liên quan đến sản phẩm được thu thập từ Shopee 37
3.5 Các thông tin liên quan đến sản phẩm được thu thập từ Tiki 37
3.6 So sánh độ đồng thuận trung bình giữa những người gán nhãn trước và sau khi cập nhật, huấn luyện lại đến người gin nhãn 42
3.7 Phân phối độ dai câu bình luận trên bộ dữ liệu ViSpamReviews 47
3.8 Phân bố các nhãn trên từng tập dữ liệu 48
3.9 Phân bố nhãn của bài đánh giá theo từng danh mục 50
3.10 Phân phối độ dài tên sản phẩm va mô tả sản phẩm trên tập huấn luyện 51 4.1 Ma trận nhầm lẫn trong nhiệm vụ phân loại bài đánh giá rac 5
4.2 Ma trận nhầm lẫn trong nhiệm vụ xác định loại bài đánh giá rác 55
4.3 Quy trình tiền xử lý dữ liệu - 57
4.4 Kiến trúc mô hình TextCNN thử nghiệm 60
vi
Trang 8DANH MỤC CAC HÌNH ANH VÀ BIEU DO
Kiến trúc mô hình BiLSTM và BiGRU thử nghiệm 61
Ảnh hưởng của độ dài bình luận đến hiệu suất các mô hình trong Task 2 65
Ma trận nhằm lẫn của mô hình PhoBERT trên 2 nhiệm vụ Các ma
trận nhầm lẫn được tạo bởi thư viện Scikit-learnl 66Tổng quan phương pháp đề xuất kết hợp metadata cho bài toán phát
hiện bài đánh giá spam 68
Kết quả mô hình TextCNN ban đầu và khi kết hợp danh mục sản
Kết quả mô hình BiLSTM ban dau và khi kết hợp mô tả sản phẩm
Kết quả mô hình BiLSTM ban đầu và khi kết hợp mô tả sản phẩm
trên Task2 Q Q Q Q Q Q Q ee 78
Tổng quan kiến trúc chương trình minh họa 81
Giao diện ban đầu của chương trình minh họa 82Giao diện thông tin sản phẩm và trực quan kết quả dự đoán 83
Giao diện danh sách đánh giá sản phẩm 83
vii
Trang 9DANH MỤC TỪ VIẾT TẮT
TMDT Thương Mại Điện Tử
DNN Deep Neural Network
CNN Convolutional Neural Network
TextCNN Convolutional Neural Network for Text Classification
RNN Recurrent Neural Network
LSTM Long Short-Term Memory
BiLSTM Bidirectional Long Short-Term Memory
GRU Gated Recurrent Unit
BiGRU _ Bidirectional Gated Recurrent Unit
BERT Bidirectional Encoder Representations from Transformers
SBERT Sentence-BERT
Vili
Trang 10TÓM TẮT KHÓA LUẬN
Trong những năm gần đây, mua sắm trực tuyến đã trở thành phương thức mua
sắm chủ yếu của người dùng Việt Nam Người dùng thường xem xét nhiều yếu tố
trước khi quyết định mua sản phẩm trên các nền tảng thương mại điện tử Trong đó,đánh giá từ những người mua trước là một trong những yếu tố quan trọng Nắm bắt
được hành vi mua sắm này, một số nhà bán hàng đã tạo ra các bài đánh giá giả mạonhằm quảng bá sản phẩm, hay những người dùng không trung thực cố ý đánh giá
không đúng về sản phẩm hoặc nội dung không phải đánh giá làm ảnh hưởng danh
tiếng của cửa hàng và thương hiệu Những bài đánh giá này được gọi là đánh giá
rác, làm ảnh hướng đến trải nghiệm của người dùng khi mua sắm trực tuyến
Trong khóa luận này, chúng tôi nghiên cứu dé tài “Nhận diện các bài đánh giá
rác trên các trang thương mại điện tử Tiếng Việt” Với đề tài này, chúng tôi sẽ
xây dựng bộ dữ liệu cho bài toán, sau đó thử nghiệm và đánh giá hiệu quả của các
mô hình học máy trên bộ dữ liệu nhằm phân loại để xác định bài đánh giá rác trên
các trang thương mại điện tử ở Việt Nam Cuối cùng, chúng tôi cũng đề xuất và thử nghiệm một phương pháp kết hợp metadata để tăng cường khả năng phân loại.
Bộ dữ liệu ViSpamReviews được xây dựng với quy trình gan nhãn nghiêm ngặt
để đảm bảo chất lượng Hướng tiếp cận của chúng tôi là ứng dụng các mô hình học
sâu lên bình luận của người dùng để phân loại bài đánh giá Chúng tôi thử nghiệm
với các mô hình mạng nơ-ron học sâu bao gồm TextCNN, BILSTM và BIGRU,cùng với các mô hình học chuyển tiếp gồm PhoBERT và BERT4News Kết quả thửnghiệm ban đầu cho thấy các mô hình học chuyển tiếp cho hiệu suất vượt trội hơn so
với các mạng nơ-ron thông thường Trong đó, PhoBERT cho Fl-macro là 89.23%
trên nhiệm vụ phân loại bài đánh giá rác và BERT4News đạt được 72.55% ở độ đo
F1-macro trên nhiệm vụ xác định loại bài đánh giá rác Chúng tôi cũng đề xuất mộtphương pháp kết hợp metadata vào các mô hình phân loại Trên nhiệm vụ xác định
loại bài đánh giá rác, phương pháp này đã cải thiện hiệu suất đáng kể với việc tăng 5.32% khi kết hợp danh mục sản phẩm (theo phương pháp linear basis cust) vào mô hình TextCNN và tăng 1.93% khi kết hợp đặc trưng mô tả sản phẩm (được tạo ra từ
SPhoBert — kết hợp từ PhoBERT và Sentence-BERT) vào mô hình PhoBERT
1X
Trang 11Chương 1 TONG QUAN
1.1 Sự phát triển của hình thức mua sắm trực tuyến ở Việt Nam
Trong những năm gần đây, Thương Mại Điện Tử (TMĐT) tại Việt Nam đã phát triểnmột cách mạnh mẽ và nhanh chóng Một số nền tảng TMĐT nổi tiếng phải kể đếnnhư Shopee, Lazada, Tiki, Sendo và gần đây có sự góp mặt của một nền tảng mới
là TikTok Shop Thị trường TMĐT ở Việt Nam không chỉ thu hút sự quan tâm của
các doanh nghiệp trong nước mà còn có sự tham gia của nhiều công ty và nhà bán
lẻ nước ngoài Các đối tác nước ngoài tham gia vào nhiều lĩnh vực của TMĐT ViệtNam bao gồm bán lẻ, thanh toán điện tử và dịch vụ vận chuyển Điều này đáp ứng
nhu cầu ngày càng tăng của người dùng trong việc mua sắm trực tuyến
5 4.7
4.2
Thời gian trung bình (giờ) ow
Trước khi Trong khi Giai đoạn sau
Covid-19 khởi phát Covid-19 khởi phat
Hình 1.1 Thời gian trung bình một ngày của một người dành cho mua sắm trựctuyến
Số lượng người dùng tham gia mua sắm trực tuyến ngày càng gia tăng, đặc biệt
là trong bối cảnh dịch COVID-19 Mọi người đều phải tìm kiếm cho mình một giải
pháp mua sắm an toàn, đó là mua sắm trực tuyến Theo báo cáo Kinh tế Internet khuvực Đông Nam A năm 2020 [1], thời gian mua sắm trung bình một ngày của một
người là 3.7 giờ trước khi Covid-19 khở phát và tăng lên 4.7 giờ trong khi Covid-19
khởi phát, sau đó con số này có xung hướng giảm ở giai đoạn sau nhưng vẫn cao hơnnhiều so với giai đoạn trước đó, các so sánh được thể hiện trong Hình 1.1 Bên cạnh
đó, theo thống kê của Cục Thương mại điện tử và Kinh tế số [2] số lượng người tiêu
1
Trang 121.2 VAN DE BÀI ĐÁNH GIA RAC
dùng mua sắm trực tuyến năm 2021 là 54.6 triệu người, trong khi năm 2022 con số
này đã lên đến khoảng 60 triệu, điều này đồng nghĩa với việc có khoảng 60% dân sốViệt Nam tham gia mua sắm trực tuyến
Mua sắm trực tuyến mang lại nhiều lợi ích cho người tiêu dùng Đầu tiên, đây
là một hình thức mua sắm tiện lợi, giúp người dùng tiết kiệm thời gian và công sức
khi không cần phải đến trực tiếp các cửa hàng để tìm mua các sản phẩm Thứ hai,người dùng có thé dé dàng so sánh giá cả và chất lượng các sản phẩm từ nhiều nềntảng mua bán khác nhau, giúp họ có được sự lựa chọn tốt nhất Các nền tảng muabán đều có những chính sách ưu đãi khác nhau, điều này có lợi cho người tiêu dùngkhi họ có nhiều sự lựa chọn hơn trong việc chọn mua các sản phẩm Hơn thế nữa,
mua sắm trực tuyến cũng giúp người dùng có thể tiết kiệm chi phí và dé dàng với
đa dạng các hình thức thanh toán Các nền tảng TMĐT đều có những chương trình
ưu đãi dành riêng cho khách hàng của họ chẳng hạn như miễn phí vận chuyển, giảmgiá trên sản phẩm hoặc kèm theo quà tặng cho mỗi đơn hàng Cuối cùng, mua sắm
với hình thức này giúp người dùng đảm bảo an toàn hơn trong trong bối cảnh dịch
bệnh Covid-19 hiện nay vẫn chưa thể chấm dứt hoàn toàn Việc tránh tiếp xúc và giữ khoảng cách xã hội đang là điều cần thiết, người dùng có thể hưởng lợi từ việc
mua sắm trên các trang mua sắm trực tuyến và sản phẩm được giao đến tận nơi mà
không cần phải đến những nơi đông người như siêu thị hoặc cửa hàng để đảm bảo
an toàn cho bản thân và cộng đồng Chính vì những lợi ích như thế, không khó hiểu
khi số lượng người dùng tham gia mua sắm trực tuyến hiện nay là rất nhiều và ngày
một gia tăng.
1.2 Van đề bài đánh giá rác
Mua sắm trực tuyến mang lại rất nhiều lợi ích cho người tiêu dùng như đã được trìnhbay ở Phần 1.1 Tuy nhiên, hình thức mua sắm này cũng tiềm ẩn những rủi ro nhất
định, đặc biệt là khi mua hàng trên các trang TMĐT Mot trong số đó là người dùng
có thể mua phải những sản phẩm kém chất lượng, không đúng mô tả, hoặc thậm chí
là hàng giả, hàng nhái Các nền tảng TMĐT là môi trường mua bán mở, có rất nhiều cửa hàng đăng ký trên đây và không thể kiểm soát được sản phẩm bán ra có đúng
với mô tả hay không Điều này ảnh hưởng trực tiếp đến lợi ích của người dùng khi
2
Trang 131.2 VAN DE BÀI ĐÁNH GIA RAC
ho rơi vào những trường hợp như thé Đây cũng là hạn chế của hình thức mua sắm
này khi mà người dùng không đến trực tiếp cửa hàng xem sản phẩm và chỉ có thể
xem qua các bài đánh giá từ những người đã mua trước đó.
4.9 trên 5 Tất Cả 5 Sao (1,4k) 4 Sao (60) 3 Sao (28) 2 Sao (8)
KKKKK 1 Sao (9) Có Bình Luận (541) Có Hình Anh/ Video (459)
tm
KKK 2023-03-19 16:32 | Phân loại hàng: Trắng,XL (54 - 65kg)
Phải mạnh mẽ đương đầu cùng giông bão Sống chỉ cần chốn nương náu mà thôi
Được cơm no áo ấm cũng vui rồi Bởi dòng đời còn lắm người cơ nhỡ
Chưa ngang nên chưa bt như nào hi hi akakkakaka
fol 0:11
Phan Hồi Của Người Ban
Cảm ơn b đã tin tưởng và lựa chọn mua hàng của shop, chúc b một ngày tốt lành , b hãy theo dõi shop để
cập nhật mẫu mới nhé
} huyenhihi96
KKK
2022-12-12 16:05 | Phan loai hang: Den,L (38 - 53kg)
[TB] Quy khach vui long bat ché d6 VoLTE trén may dé sử dụng dịch vụ thoại chất lượng cao, không bị gián
đoạn (cước như cuộc gọi thông thường): Vào Cài đặt/ Di động/ Tùy chọn dữ liệu di động/ Thoại và dữ liệu/ chọn
LTE và bật VoLTE (xem thêm tại https://viettel.vn/volte ) Chỉ tiết LH 198 (0đ) Trân trọng!
Phản Hồi Của Người Bán
VALICA cảm ơn bạn đã dành lời khen cho shop Đây sẽ là nguồn động lực lớn để shop ngày càng hoàn thiện hơn về chat lượng Hy vọng bạn luôn tin tưởng và đồng hành cùng shop trong thời gian sắp tới a Shop chân thành cảm ơn bạn rất nhiều
Hình 1.2 Một số bài đánh giá của người dùng trên trang Shopee !.
Trang 141.2 VAN DE BÀI ĐÁNH GIA RAC
Các nền tang TMDT cho phép nhà bán hàng đăng tải lên các mặc hàng để ngườidùng lựa chọn và mua sắm, người dùng khi mua sản phẩm có thể để lại đánh giá
sau khi đã nhận hàng và có đủ thời gian sử dụng sản phẩm Những người mua hàng
sau đó có thể xem các đánh giá này để có một cái nhìn tổng quan về sản phẩm mà
họ sẽ nhận được sau khi đặt hàng Đa phần mọi người đều có xu hướng xem nhữngbài đánh giá sản phẩm từ những người đã mua trước đó để quyết định có mua hànghay không Nếu một sản phẩm được nhiều người mua và đánh giá tốt, khả năng cao
người tiêu dùng sẽ lựa chọn mua sản phẩm đó và ngược lại Nắm bắt được tâm lí
này, một số người mua sản phẩm trước đây đã lợi dụng điều này đánh giá không
đúng về sản phẩm nhằm làm ảnh hưởng đến danh tiếng của người bán hoặc một số
nhà bán hàng với mục tiếu tăng doanh số đã tạo ra các bài đánh giá giả mạo để thu
hút khách hàng, điều này làm cho khách hàng có cái nhìn không đúng về sản phẩm Bên cạnh đó, nhiều trang TMĐT còn có những chính sách đánh giá sản phẩm để
nhận được ưu đãi chang hạn như xu hoặc mã miễn phí vận chuyển, điều này vô tìnhlàm cho nội dung bài đánh giá có thể không phải nhằm đánh giá sản phẩm mà mục
đích chỉ để hưởng ưu đãi Những đánh giá như thế này cũng làm ảnh hướng đến trảinghiệm trong quá trình mua sắm của người dùng khi mà nội dung các bài đánh giáhoàn toàn không liên quan đến sản phẩm hoặc không cung cấp các thông tin hữu íchcho họ (xem Hình 2.2) Các đánh giá như thé này có thể được xem là các bài đánh
giá rác (spam reviews), vì chang những không mang lại giá trị cho người dùng mà
còn có thể đánh lừa họ để mua những sản phẩm giả hoặc kém chất lượng
Nếu không phát hiện và ngăn chặn kịp thời các hành vi tạo ra các bài đánh giá
rác sẽ ảnh hưởng đến cả người dùng và nền tảng TMĐT Đối với người dùng, họ sẽ
có những trải nghiệm không tốt trong khi mua sắm trực tuyến, còn đối với nền tảng
sẽ ảnh hướng đến chất lượng dịch vụ và mức độ uy tín của họ Để hạn chế sự xuất
hiện của các bài đánh giá rác, các nền tảng TMĐT cần có sự kiểm duyệt trước khi
cho phép người dùng đăng tải bài đánh giá lên trang thông tin sản phẩm Trước đây,
khi số lượng người bán, người mua còn ít cũng như chưa có sự xuất hiện nhiều cácbài đánh giá rác thì các nền tảng có thể thuê một đội ngũ kiểm duyệt theo cách thủ
công Tuy nhiên, hiện nay, số lượng sản phẩm được bán cũng như số lượng bài đánh
thrtps://shopee.vn/
Trang 151.3 NHỮNG THÁCH THUC CUA DE TÀI
giá là rất nhiều cần phải có một công cụ tự động hỗ trợ lọc ra các bai đánh giá rác
Do đó, phát hiện đánh giá rác cũng là một trong những bài toán quan trọng và cần
thiết cho các nền tảng TMĐT
Trong bài toán phát hiện các nội dung spam, có hai hướng nghiên cứu chính là
nghiên cứu về bộ dữ liệu và nghiên cứu các phương pháp áp dụng cho bài toán Đốivới hướng nghiên cứu các phương pháp, có thể nghiên cứu bài toán này với nhiều
hướng tiếp cận khác nhau như sử dụng các kỹ thuật tìm kiếm thông tin để tìm các
từ khóa phổ biến trong các nội dung spam, áp dụng phương pháp dựa trên quy luật(rule-based), ứng dụng các kỹ máy học kết hợp với các kỹ thuật trong xử lý ngônngữ tự nhiên (model-based) hoặc có thể kết hợp nhiều phương pháp lại với nhau đểcho ra kết quả tốt nhất Còn đối với hướng nghiên cứu bộ dữ liệu, trước tiên cần phải
chọn lĩnh vực cụ thể cho bài toán Có nhiều lĩnh vực cần xác định nội dung spam
chẳng hạn như ý kiến rác, thư rác, bài viết rác hoặc bình luận rác trên mạng xã hội.Còn trong dé tài này, chúng tôi lựa chọn phát hiện các bài đánh giá rác của ngườidùng trên các trang TMĐT Tiếng Việt Sau bước chọn bài toán cụ thể để nghiêncứu, người nghiên cứu cần tiến hành xây dựng bộ dữ liệu cho bài toán Bộ dữ liệu
cần phải đủ lớn để phục vụ cho quá trình huấn luyện và đánh giá hiệu quả của các
mô hình Bên cạnh đó, bộ dữ liệu cần được cung cấp đầy đủ các thuộc tính có liên
quan chẳng hạn như đối với bài đánh giá rác cần phải có nội dung đánh giá, số sao
đánh giá, thời gian đăng, tên người đăng, các đánh giá của người dùng khác và một
số các thuộc tính liên quan đến sản phẩm Cuối cùng, người nghiên cứu tiến hành
thử nghiệm, đánh giá hiệu quả các phương pháp trên bộ dữ liệu của họ đã xây dựng
5
Trang 161.4 MỤC TIÊU CUA ĐỀ TÀI
phú và da dạng chang hạn như một đoạn văn bản được sao chép từ nguồn bat ky, các
từ ngữ không có ý nghĩa hay một số ký tự và từ được gõ ngẫu nhiên Nếu hệ thống
chỉ tập trung phát hiện một loại bài đánh giá rác cụ thể, hệ thống này sẽ không có
hiệu quả trước các dạng khác Do đó, mục tiêu đặt ra là yêu cầu phương pháp có thể
xử lý được các dạng khác nhau của đánh giá rác có thể xuất hiện trên các TMĐT
Thứ hai, sự phát triển của kỹ thuật tạo ra đánh giá rác, đây cũng là một trong
những thách thức của bài toán Những người tạo ra các đánh giá này không ngừng
tìm cách để tránh bị hệ thống phát hiện bằng cách sử dụng các kỹ thuật mới như thayđổi các từ ngữ trong bài đánh giá, sử dụng các từ viết tắt hoặc thay đổi phong cách
viết nội dung câu bình luận Do đó, các hệ thống phát hiện cần phải liên tục cập nhật
để chống lại những thay đổi này Các mô hình học máy và học sâu có thể phân loại
các loại bài đánh giá rác tốt hơn so với các kỹ thuật truyền thống như rule-based.
Các kỹ thuật xử lý ngôn ngữ tự nhiên cũng được nghiên cứu và ứng dụng cho bài
toán, giúp cải thiện kết quả phân loại Tuy nhiên, đối với những ngôn ngữ khác nhaucần có những thay đổi phù hợp và liên tục cập nhật cho mô hình để có thể đạt được
hiệu quả tốt nhất.
Cuối cùng, theo sự hiểu biết tốt nhất của chúng tôi, hiện nay vẫn chưa có bộ dữliệu Tiếng Việt cho bài toán phát hiện đánh giá rác trên các trang TMĐT Trongtiếng Anh, có một vài bộ dữ liệu liên quan đến nghiên cứu phát hiện nội dung spam,còn trên Tiếng Việt thì chủ yếu liên quan đến phân tích cảm xúc, thái độ của khách
hàng và vẫn chưa có bộ dữ liệu cho bài toán này Vì vây, xây dựng bộ dữ liệu là bước
đầu tiên cho việc nghiên cứu bài toán Trong quá trình xây dựng bộ dữ liệu, cần phảixác định nguồn thu thập, sau đó tiến hang thu thập và gan nhãn dữ liệu Đối với giaiđoạn gán nhãn, khó khăn lớn nhất chính là độ đồng thuận thấp giữa những người gán
nhãn vì mỗi người sẽ có những quan điểm khác nhau Do đó, cần phải có một tiêu
chuẩn chung trong việc nhận định một bài đánh giá là đánh giá rác.
1.4 Mục tiêu của đề tài
Trong dé tài nghiên cứu này, một số mục tiêu được chúng tôi đặt ra như sau:
s Xây dựng được bộ dữ liệu cho bài toán phân loại các bài đánh giá rác trên các
Trang 171.5 PHƯƠNG PHAP NGHIÊN CUU
trang TMDT Tiếng Việt
« Tìm hiểu, thử nghiệm va đánh giá hiệu quả một số mô hình máy học trên bộ
1.5 Phương pháp nghiên cứu
Chúng tôi thực hiện dé tài này theo các bước như sau:
Đầu tiên, chúng tôi xây dựng bộ dit liệu cho bài toán nhận diện các bài đánh giá rác trên các trang TMĐT Tiếng Việt Như đã đề cập trong Phần 1.3, do hiện tại chưa
có dữ liệu Tiếng Việt nên trước tiên chúng tôi cần phải xây dựng bộ dữ liệu Chúngtôi chọn hai nền tảng Shopee và Tiki là nguồn để thu thập dữ liệu các bài đánh giácủa người dùng và các thông tin liên quan tới sản phẩm được đánh giá Sau đó tiến
hành xây dựng hướng dẫn gán nhãn và thực hiện gán nhãn cho bộ dữ liệu cũng như
đánh giá độ đồng thuận Bộ dữ liệu của chúng tôi được xây dựng với quy trình gánnhãn nghiêm ngặt để đảm bảo chất lượng, có thể đáp ứng yêu cầu cho bài toán
Thứ hai, nghiên cứu một số phương pháp cho bài toán nhận diện các bài đánhgiá rác Sau khi đã xây dựng bộ dữ liệu, chúng tôi nghiên cứu và thử nghiệm một số
phương pháp cho bài toán Có nhiều hướng tiếp cận để giải quyết bài toán, trong đó
học sâu (deep learning) là phương pháp được sử dụng nhiều nhất trong những nămgần đây và mang lại độ chính xác cao trong các bài toán phân loại Do đó, hướngtiếp cận của chúng tôi là ứng dụng các mô hình deep learning để phân loại các bài
đánh giá rác Các mô hình mạng no-ron học sâu được áp dụng trên bộ dữ liệu bao
gồm TextCNN, BiLSTM và BiGRU Ngoài ra, các mô hình học chuyển tiếp (transferlearning) cũng được sử dụng phổ biến trong những năm gần đây và mang lại hiệusuất cao trên các bài toán cụ thể trong đó có phân loại văn bản Chúng tôi áp dụnghai mô hình học chuyển tiếp sử dụng kiến trúc transformer cho bài toán chúng tôi là
PhoBERT và BERT4News.
Trang 181.6 NHỮNG DONG GOP CUA DE TÀI
Thứ ba, thử nghiệm va so sánh các phương pháp, phân tích kết qua dat được trên
bộ dữ liệu Sau khi đã xây dựng bộ dữ liệu và nghiên cứu các phương pháp, chúng
tôi chia bộ dữ liệu thành các tập huấn luyện (train), phát triển (dev) và kiểm thử
(test) để tiến hành huấn luyện và đánh giá các mô hình Hai độ đo là Accuracy vàFl-score được sử dụng để đánh giá hiệu suất các mô hình Sau đó, chúng tôi thựchiện phân tích lỗi và tìm hiểu lý do tại sao mô hình nhận diện chưa tốt trên một sốnhãn từ đó tìm cách cải thiện hiệu suất của mô hình
Cuối cùng, thử nghiệm và so sánh hiệu quả một số phương pháp kết hợp
meta-data Từ kết quả phân tích lỗi, chúng tôi nhận thấy rằng một số bài đánh giá có nội
dung chưa đủ để xác định một bài đánh giá có phải là đánh giá rác hay không Do
đó, chúng tôi tìm hiểu và thử nghiệm một số phương pháp kết hợp metadata vào các
mô hình phân loại, sau đó đánh giá hiệu quả của các phương pháp này đối với bài
toán.
1.6 Những đóng góp của đề tài
Những đóng góp của chúng tôi trong đề tài này như sau:
» Xây dựng bộ dữ liệu ViSpamReviews với quy trình gan nhãn nghiêm ngặt cho
bài toán phát hiện đánh giá rác trên các trang TMĐT Tiếng Việt
» Thử nghiệm và đánh giá hiệu suất của một số mô hình mạng nơ-ron học sâu bao
gồm TextCNN, BiLSTM và BiGRU, cùng với đó là các mô hình học chuyểntiếp gồm PhoBERT và BERT4News
¢ Phân tích hiệu qua của việc chỉ sử dụng bình luận của người dùng trong việc
phân loại các bài đánh giá rác trên các TMĐT Tiếng Việt và tìm ra một sốnguyên nhân dẫn đến sự nhầm lẫn trong việc dự đoán nhãn của các bài đánh
giá.
« Đề xuất phương pháp cải thiện hiệu suất của bài toán phát hiện đánh giá rác
với việc kết hợp metadata vào các mô hình phân loại bao gồm dữ liệu dạng
danh mục và dạng van bản.
Trang 191.7 CAU TRÚC KHÓA LUẬN
¢ Thử nghiệm và so sánh hiệu quả của các phương pháp kết hợp metadata, đánh
giá sự ảnh hưởng của chúng lên kết quả dự đoán nhãn của các bài đánh giá.
s Xây dựng chương trình minh hoa cho việc phát hiện va lọc ra các bài đánh gia
rác trên hai nền tảng Shopee và Tiki.
Ngoài ra, đề tài khóa luận tốt nghiệp này cũng được chấp nhận tại hội nghị khoahọc quốc tế sau:
Van Dinh, Co, S T Luu, và A G.-T Nguyen, Detecting Spam Reviews on
Vief-namese e-Commerce Websites 14th Asian Conference on Intelligent Information
and Database Systems (ACHDS 2022).
1.7 Cau trúc khóa luận
Khóa luận này gồm có 7 chương với nội dung như sau:
Chương 1, giới thiệu tổng quan như đã được trình bày ở trên Trong đó, chúng
tôi trình bày sự phát triển của thị trường TMĐT ở Việt Nam trong những năm gần
đây và vấn đề xuất hiện ngày càng nhiều các bài đánh giá rác Bên cạnh đó, chúng
tôi cũng trình bày những thách thức, mục tiêu, phương pháp nghiên cứu và những
đóng góp của chúng tôi trong dé tài này
Chương 2, trình bày cơ sở lý thuyết của dé tài nghiên cứu Trong đó, chúng tôi
sẽ mô tả bài toán và khảo sát các công trình liên quan Sau đó giới thiệu hai hướng
tiếp cận cho bài toán phát hiện bài đánh giá rác bao gồm rule-based và model-based.Tiếp theo, chúng tôi trình bày một số kỹ thuật trích xuất đặc trưng từ văn bản, một
số mô hình mạng nơ-ron học sâu và mô hình học chuyển tiếp được sử dụng cho bài
toán phát hiện các bài đánh giá rác Cuối cùng là giới thiệu một số phương pháp kết
hợp metadata vào mô hình phân loại bao gồm dữ liệu dạng danh mục và dạng văn
bản.
Chương 3, trình bày quy trình xây dựng bộ dữ liệu cho bài toán Trong chương
này, chúng tôi sẽ mô tả chi tiết về quá trình thu thập dữ liệu, các công cu dùng để
thu thập va gan nhãn dif liệu, xây dựng hướng dẫn gán nhãn và quá trình thực hiện
gán nhãn cho bộ dữ liệu và phương pháp đánh giá độ đồng thuận giữa những người
gán nhãn.
Trang 201.7 CAU TRÚC KHÓA LUẬN
Chương 4, chúng tôi sẽ trình bày chi tiết cách cài đặt thử nghiệm của chúng tôi.Trong đó bao gồm các độ đo đánh giá, các bước tiền xử lý dữ liệu và chỉ tiết thiết
lập thông số để huấn luyện mô hình.
Chương 5, trình bày chi tiết các kết quả thử nghiệm trên bộ dữ liệu thu thập được.Trong đó, chúng tôi sẽ trình bày kết quả thử nghiệm ban đầu và phân tích lỗi Sau đótrình bày tổng quan về phương pháp đề xuất kết hợp metadata hai thuộc tính danh
mục sản phẩm và mô tả sản phẩm Tiếp theo, chúng tôi thử nghiệm và đánh giá hiệu
suất các mô hình khi kết hợp metadata trên bộ dữ liệu, sau đó phân tích lỗi trongtừng trường hợp Cuối cùng, chúng tôi đánh giá hiệu quả của phương pháp dé xuất
Chương 6, chúng tôi trình bày chương trình minh họa cho bài toán phát hiện đánh
giá rác Sau khi đã thử nghiệm và đánh giá kết quả, chúng tôi tiến hành xây dựngchương trình minh họa Các nội dung trình bày bao gồm kiến trúc tổng quan, xây
dựng và đánh giá chương trình minh họa.
Chương 7, đây cũng là chương cuối cùng của khóa luận, từ những kết quả nghiêncứu, chúng tôi sẽ đi đến kết luận dé tài bao gồm những kết quả đạt được, hạn chế
cũng như hướng phát triển trong tương lai.
10
Trang 21Chương 2 CƠ SỞ LÝ THUYẾT
2.1 Mô tả bài toán
2.1.1 Khai niệm bài đánh giá, bài đánh giá rác
Bài đánh giá trên các trang TMĐT là một hình thức phản hồi từ phía người dùng về
chất lượng sản phẩm đã mua hoặc dịch vụ bán hàng, hình thức này được áp dụngtrên hầu hết các nền tảng hoặc các trang web mua bán trực tuyến Các bài đánh giáthường bao gồm các ý kiến, nhận xét hoặc đánh giá từ người dùng đã mua và trải
nghiệm sản phẩm trước đó Những người mua hàng có thể đánh giá những khía cạnh
khác nhau của sản phẩm như chất lượng, đặc tính sản phẩm, dịch vụ và nhiều yếu tốkhác có liên quan Một bài đánh giá thường có điểm số hoặc xếp hạng để thể hiện
đánh giá tổng thể của người dùng về sản phẩm, chang hạn như đánh giá từ 1 đến 5
sao Bên cạnh đó, người mua hàng cũng có thể thêm các bình luận để mô tả chỉ tiết
về sản phẩm mà họ nhận được
Các bài đánh giá từ những người mua trước có vai trò quan trọng trong quyết
định mua hàng của người tiêu dùng, họ thường sử dụng những đánh giá này để hiểu
rõ hơn về sản phẩm trước khi quyết định mua Bên cạnh đó, các bài đánh giá cũng
giúp nhà cung cấp và người bán hàng cải thiện chất lượng sản phẩm và dịch vụ dựa trên những phản hồi từ phía người dùng Những bài đánh giá có nội dung tích cực
thường giúp tăng danh tiếng của nhà bán hàng và thu nhiều lợi nhuận, trong khi đónhững bài đánh giá giả mạo để quảng cáo hoặc làm mất danh tiếng của cửa hàng
cũng có ảnh hưởng đáng kể đến lợi ích của nhà bán hàng và nhà sản xuất Theo
Jindal và Liu [3, 4], những cá nhân tao ra các bài đánh giá này được gọi là những
người opinion spammers (những người gửi ý kiến rác) và hành động của họ gọi là
opinion spamming (gửi ý kiến rác) Các bài đánh giá được tạo ra bởi những ngườinày được gọi là các bài đánh giá rác (spam reviews), do đó chúng ta cần lưu ý rằngkhông phải tất cả các bài đánh giá đều chính xác và đáng tin cậy, có thể tổn tại cácbài đánh giá giả mạo từ đối thủ cạnh tranh hoặc người dùng không trung thực
Các bài đánh giá rác cần được phát hiện và loại bỏ để đảm bảo rằng ý kiến đánh
giá trên các trang TMĐT là nguồn thông tin đáng tin cậy, cung cấp cho người dùng
có cái nhìn khách quan và chính xác về sản phẩm Trong đề tài này, chúng tôi lựa
11
Trang 222.1 MÔ TẢ BÀI TOÁN
chọn phát hiện các bài đánh giá rác trên các trang TMDT và phân loại các bài đánh
giá rác dựa trên đặc điểm của chúng.
2.1.2 Định nghĩa các nhiệm vụ cho bài toán
Bài toán phát hiện các bài đánh giá rác của chúng tôi được xem như là bài toán phân
phân loại văn bản Trong đó, chúng tôi xác định hai nhiệm vụ cụ thể: Task 1 là nhiệm vụ phân lớp nhị phân để xác định xem một bài đánh giá có phải là đánh giá
rác hay không và Task 2 là nhiệm vụ phân loại nhiều lớp để xác định loại của các bài đánh giá rác dựa trên các đặc điểm của chúng Nhãn của bài đánh giá rác trong
Task 2 là một trong ba loại sẽ được trình bày chi tiết trong Phan 3.3.2 Chúng tôihuấn luyện cùng với các bài đánh giá thông thường để đồng thời phân loại bài đánhgiá rác và xác định loại của chúng để tránh dự đoán qua nhiều mô hình phức tạp
2.1.3 Bài toán phân loại và ứng dụng trong việc phát hiện bài đánh giá rác
Phân loại là bài toán được nghiên cứu phổ biến trong lĩnh vực học máy, với nhiệm
vụ dự đoán nhãn cho các dữ liệu đầu vào Mục tiêu của bài toán là xây dựng mô
hình dự đoán nhãn từ bộ dữ liệu đã được gán nhãn trước đó, mô hình sẽ học các đặc
trưng từ dữ liệu này và tìm ra quy luật dùng cho việc phân loại các điểm dit liệu mới.
S⁄ INBOX
ae
CLASSIFIER
SZ} SEE
Hình 2.1 Minh hoa bài toán phân loại email rác !.
'Nguén ảnh: https: //developers google com/machine-1earning/guides/
text-classification
12
Trang 232.1 MÔ TẢ BÀI TOÁN
Chang hạn như trong bài toán phân loại email rác, chúng ta xây dựng mô hình
dựa trên email đã có nhãn trước đó, khi có email mới được gửi đến sẽ qua bộ phân
loại để đặt các email vào thư mục tương ứng như được minh hoa trong Hình 2.1.
Bài toán phân loại được chia thành ba loại như sau:
¢ Phân loại nhị phân (binary classification): đây là bài toán phân loại mà mỗi
điểm dif liệu chỉ có thể thuộc một trong hai lớp.
« Phân loại nhiều lớp (multi-class classification): đây là bài toán loại mà mỗi
điểm dữ liệu thuộc một trong nhiều hơn hai lớp
s Phân loại nhiều nhãn (multi-label classification): đây là bài toán phân loại ma
mỗi điểm dữ liệu có thể có nhiều hơn một nhãn.
Chúng tôi áp dụng bài toán phân loại văn bản để phát hiện các bài đánh giá rác trên các trang TMĐT, cụ thể là bài toán văn loại văn bản cho các bình luận từ người
dùng Hai nhiệm vụ trong bài toán tương ứng với phân loại nhị phân và phân loại
nhiều nhãn.
Hình 2.2 Minh họa bài toán phát hiện các bài đánh giá rác.
Một cách tổng quan, cho một tập các bình luận đánh giá của người dùng W =
{w1, t0ạ, , to„}, mục tiêu của chúng tôi là huấn luyện một hàm ánh xạ f(W) để dựđoán chính xác nhãn € {z¡,a ,p} với p là số lớp, cụ thể trong bài toán của
chúng tôi p € {2,4} Khi hàm f(W) có trọng số đã được huấn luyện trên tập dữ liệu,
13
Trang 242.2 CÁC CÔNG TRÌNH LIÊN QUAN
chúng ta có thể sử dụng nó để dự đoán nhãn cho các bài đánh giá khác trong tương
lai Ngoài bình luận của người dùng, hàm f(W) còn được tùy chỉnh để có thể kết hợp thêm một số thuộc tính phụ của bài đánh để tăng hiệu quả dự đoán Bài toán
phát hiện đánh giá rác của chúng tôi được mô tả như sau:
« Input: Một bài đánh giá của người dùng (số sao, bình luận) và có thể thêm
một số thuộc tính phụ liên quan đến sản phẩm (danh mục, mô tả sản phẩm).
« Output: Nhãn của bài đánh giá này nhằm xác định bài đánh giá có phải là
đánh giá rác hay không và nếu là đánh giá rác thì xác định loại của chúng
2.2 Các công trình liên quan
Nghiên cứu sơ bộ đã chỉ ra vấn đề ý kiến rác (opinion spam) xuất hiện nhiều trên
các nội dung web [3] Các nghiên cứu sau đó đã đặt ra những thách thức trong việc
phát hiện các ý kiến rác, bên cạnh đó cũng chỉ đặc điểm và dé xuất ba khía cạnh cho
các ý kiến rác đó [4].
Về bộ dữ liệu, trong Tiếng Anh, có một vài bộ dữ liệu đã được giới thiệu cho
bài toán phát hiện đánh giá rác như Yelp Dataset [5], AMT-TripAdvisor [6],
Rules-Amazon [4] Trong Tiếng Việt, cũng có một số bộ dữ liệu về đánh giá của người
dùng trên các nền tảng TMĐT, chang hạn như bộ dữ liệu về đánh giá điện thoại và
nhà hàng [7, 8], bộ dif liệu phản hồi về điện thoại thông minh [9, 10] và bộ dif liệu phát hiện khiếu nại trên trang web TMĐT [11] Tuy nhiên, vẫn chưa có bộ dữ liệu
cụ thể để phát hiện đánh giá rác trên các trang TMĐT Việt Nam Do đó, động lực
của chúng tôi là xây dựng một bộ dữ liệu phục vụ cho bài toán phát hiện đánh giá
rác trên các nền tảng TMĐT của Việt Nam.
Về phương pháp, có nhiều hướng nghiên cứu cho bài toán phát hiện nội dung rác
trong đó một vài nghiên cứu đã sử dụng các mẫu (pattern) và quy luật (rule) để lọc ra
các nội dung spam [12, 13, 14] Một vài nghiên cứu sau đó đã sử dụng các phương
pháp máy học truyền thống như SVM, Naive Bayes, Logistic Regression cho hiệuquả tốt hơn so với việc sử dụng rule-based [5, 15] Gần đây, các nghiên cứu ứng
dụng deep learning để phát hiện đánh giá rác đã đạt được hiệu quả vượt trội hơn so
với phương pháp rule-based va các mô hình máy học truyền thống [16, 17, 18] Bên
14
Trang 252.3 PHƯƠNG PHÁP PHÁT HIỆN BÀI ĐÁNH GIÁ RÁC
cạnh đó, việc kết hợp giữa rule-based với mạng nơ-ron cũng được dé xuất cho bài
toán phát hiện các hành vi spam [19].
Bài toán phát hiện đánh giá rác được xem như là bài toán phân loại văn bản, các
mô hình state-of-the-art như BERT [20] được áp dụng thường mang lại hiệu suất
tương đối cao Tuy nhiên, các mô hình này không thể tận dụng hết các đặc trưng
từ bộ dữ liệu, đặc biệt là các thuộc tính dạng danh mục Một vài nghiên cứu đã đềxuất phương pháp kết hợp metadata dạng danh mục cho bài toán phân loại trên các
mô hình mạng nơ-ron học sâu nhằm hướng sự chú ý của mô hình đến các đặc trưngkết hợp dé tăng cường kha năng phân loại [21, 22, 23] Một phương pháp được dé
xuất nhằm tận dụng hiệu quả các mô hình hiện đại để tạo ra vector đặc trưng từ văn
bản có mối quan hệ ngữ nghĩa [24] Trong nghiên cứu này, chúng tôi không chỉ sử
dụng bình luận của người dùng như là đặc trưng để phân loại bài đánh giá rác mà
còn hướng đến việc kết hợp các metadata nhằm tăng cường khả năng phân loại và
cải thiện hiệu suất của mô hình
2.3 Phương pháp phát hiện bài đánh giá rác
2.3.1 Dựa trên quy luật
Phương pháp phân loại bài đánh giá rác dựa trên quy luật (rule-based) là phương
pháp cơ bản được sử dụng để nhận dạng và phân loại các nội dung rác dựa trên việc
áp dụng các quy luật để xác định tính spam của nội dung đó [25] Quy trình của
phương pháp này như sau [26]:
» Xây dựng tập quy luật: Trước tiên, can xây dựng một tập quy luật dựa trên các
đặc điểm hoặc quy tắc mà nội dung spam thường có Một số tiêu chí để xây
dựng tập quy luật như từ khóa, độ dài nội dung, ký tự đặc biệt, được sử dụng
phổ biến trong các nội dung rác.
° Áp dụng tập quy luật: Sau khi tập quy luật đã được xây dựng, các nội dung
mới sẽ được áp dụng trên tập này Trong quá trình áp dụng, nếu nội dung nằm
trong tập quy luật sẽ được tích lũy điểm số để sử dụng trong việc phân loại
* Phân loại nội dung: Dựa trên điểm số tích lũy, néu vượt qua ngưỡng sé phân
15
Trang 262.4 CÁC KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG
loại nội dung đó là nội dung rác.
Ưu điểm của phương pháp nay là dé dàng triển khai và điều chỉnh, tuy nhiênnhược điểm là cần xây dựng tập quy luật lớn và thường cho hiệu quả không cao [27]
Do đó, trong nghiên cứu này chúng tôi không sử dụng rule-based là phương pháp
cho việc phân loại các bài đánh giá.
2.3.2 Dựa trên mô hình học máy
Hiện nay, với lượng dữ liệu lớn khó có thể tìm ra các quy tắc chung để xác định bàiđánh giá rác, tuy nhiên đây lại là nguồn tài nguyên để huấn luyện các mô hình học
máy Chính vì vậy, việc ứng dụng phương pháp model-based thường cho hiệu quả
cao hơn so với rule-based Mô hình máy học sử dụng các thuật toán để tự động học
từ dữ liệu huấn luyện và nhận biết các đặc điểm của bài đánh giá rác Điều này tạo ramột hệ thống phát hiện spam linh hoạt và mạnh mẽ, có khả năng phát hiện và điềuchỉnh khi có các hình thức spam mới Một vài khảo sát về việc sử dụng kỹ thuật học
máy trong bài toán phát hiện đánh giá rác đã chỉ ra hiệu quả hơn so với các phương
pháp thông thường [28, 29].
Trong dé tài này, thay vì sử dụng phương pháp rule-based hay các phương pháphọc máy truyền thống, chúng tôi hướng đến việc ứng dụng các mô hình deep learning
trong việc phân loại bài đánh giá rác để mang lại hiệu quả cao.
2.4 Các kỹ thuật trích xuất đặc trưng
Các mô hình học máy và các kiến trúc deep learning đều không thể xử lý văn bản
thô Do đó, biểu diễn văn bản thành các vector đặc trưng được sử dụng để chuyển
đổi văn bản thành dạng số hóa để có thể sử dụng trong các mô hình học máy Các từ
trong văn bản được biểu diễn thành các vector có giá trị thực, kỹ thuật này được gọi
là nhúng từ (word embedding) và các vector này nằm trong một không gian vectorđược xác định trước trong đó thể hiện được mối quan hệ ngữ nghĩa giữa các từ trong
văn bản Nhúng từ có thể được chia thành hai loại: frequency-based embedding và
prediction-based embedding.
Phương pháp frequency-based embedding dựa vào tần suất xuất hiện của các từ
16
Trang 272.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI DANH GIÁ
RÁC
để tạo ra các vector từ Một số phương pháp để tạo ra các vector từ dựa vào tần suấtxuất hiện có thể kể đến như Count Vector (đếm số lần xuất hiện của các từ trong
văn bản), TF-IDF Vector [30] (tính toán giá trị đặc trưng cho mỗi từ trong văn ban
dựa trên tần suất xuất hiện của từ đó trong văn bản và trong toàn bộ tập văn bản) vàCo-Occurrence Vector [31] (dựa trên mối quan hệ xuất hiện cùng nhau giữa các từtrong văn bản) Các phương pháp này có ưu điểm là dễ triển khai nhưng không nắmbắt được ngữ nghĩa của từ, cấu trúc ngữ pháp và không xử lý được từ không xuất
hiện trong tập từ vựng.
Phương pháp prediction-based embedding dựa trên các mô hình dự đoán để tạo
ra các vector từ Một số phương pháp phổ biến được sử dung là Word2Vec [32],
GloVe [33] và FastText [34] Trong đó, nổi bat là phương pháp Word2Vec — mô
hình được kết hợp từ hai kỹ thuật Continuous Bag Of Words - CBOW (lấy từ đầu vào là ngữ cảnh để dự đoán các từ xung quanh nó) và mô hình Skip-gram (sử dụng
ngữ cảnh xung quanh để dự đoán từ đầu vào) Trong khi đó GloVe nhúng từ dựatrên việc kết hợp thông tin tần suất xuất hiện va thông tin co-occurrence của từ, còn
FastText dựa trên việc biểu diễn từ thành các n-gram (chuỗi các ký tự liên tiếp) và học vector nhúng cho các n-gram đó Ưu điểm của những phương pháp này là biểu
diễn được nghĩa của từ và cấu trúc ngữ pháp, có khả năng gom cụm từ có ý nghĩatương tự lại gần nhau trong không gian vector, nhưng cần phải có lượng dữ liệu lớn
để huấn luyện mô hình cũng như thời gian và tài nguyên để tính toán
Trong dé tai phát hiện bài đánh giá rác trên các trang TMĐT, chúng tôi sử dụng
bộ vector biểu diễn từ cho Tiếng Việt của Grave và các cộng sự [35] để cài đặt huấnluyện các mô hình mạng nơ-ron học sâu sẽ được trình bày trong Phần 4.3 Chúngtôi sử dụng bộ vector từ này vì từ những kết quả thử nghiệm trước đây đã cho thấy
nó hiệu quả tốt trên dữ liệu văn bản truyền thông và xã hội [36].
2.5 Các thuật toán hoc máy cho bài toán phân loại bài đánh gia rác
2.5.1 Các mô hình mạng nơ-ron học sâu
Các mô hình mạng nơ-ron học sâu được chúng tôi thử nghiệm cho bài toán phân
loại các bài đánh giá rác bao gồm TextCNN [37], LSTM [38] và GRU [39] với lớp
17
Trang 282.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ
triển của deep learning như ngày nay Trong thị giác máy tính, CNN được sử dụng
để trích xuất các đặc trưng từ hình ảnh để giải quyết nhiều bài toán khác nhau Bên
cạnh đó, CNN còn được sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên như
bài toán phân loại văn bản hay còn gọi là Convolutional Neural Network for Text
Classification (TextCNN) Mô hình này được dé xuất bởi Kim vào năm 2014 [37],TextCNN có nhiệm vụ trích xuất các đặc trưng có giá trị từ văn bản và dùng nó cho
việc phân loại Kiến trúc mô hình này được minh họa trong Hình 2.3.
Hình 2.3 Kiến trúc mô hình TextCNN [37]
Các lớp chính của mô hình bao gồm lớp biểu diễn văn bản (text representation),lớp tích chập (convolutional layer), lớp gộp (pooling layer) và lớp kết nối đầy đủ
(fully-connected layer) Cụ thể, các lớp này hoạt động như sau, cho một chuỗi văn ban, x; € R* là vector từ có kích thước š tương ứng với từ thứ i trong chuỗi văn bản
đó Một chuỗi văn bản có độ dài n được biểu diễn dưới dạng:
18
Trang 292.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ
RÁC
#Z1„=#+@®22@® O4„
Trong đó @ là toán tử nối, Liitj thể hiện cho việc ghép các từ 7;, 7441, , Li4j
lại với nhau Phép tính tích chập với bộ lọc w € IR°* được áp dung cho một cửa sổ
gồm h từ để tao ra các đặc trưng Một đặc trưng được tạo ra từ một cửa số bởi các từ
Xji+h—1 như sau:
c= (0 -#j+p—1 + 6)
Trong đó b là giá tri bias và ƒ là một hàm biến đổi phi tuyến như tanh Bộ locnày được áp dung cho mỗi cửa số có thể có trong câu {z1;„, #s;,+_1 - ,#„—n-_1:„ } đểtạo ra một bản đồ đặc trưng (feature map) như sau:
c= [ci 7 C9; cà) Cn—h+1]
Với c € IR“~"*!, Sau đó lớp gộp được áp dụng lên feature map, chẳng hạn sẽ lấy
giá trị lớn nhất ê = zaz{e} tương ứng cho lớp gộp max pooling Điều này được thực
hiện nhằm giữ lại đặc trưng có giá trị cao nhất trong mỗi feature map
Mô hình này sử dụng nhiều bộ lọc với các kích thước khác nhau để tạo ra nhiềuđặc trưng trong văn bản Các đặc trưng này sau đó được đưa đến lớp kết nối đầy
đủ và sử dụng hàm kích hoạt softmax để dự đoán xác xuất các lớp văn bản Ngoài
ra, lớp dropout cũng có thể được sử dụng để tránh van dé overfitting trong quá trình
huấn luyện.
2.5.1.2 Bidirectional Long Short-Term Memory
Long Short-Term Memory (LSTM) là một Recurrent Neural Network (RNN) được
giới thiệu năm 1997 bởi Hochreiter và các cộng sự [38] Về lý thuyết, RNNs thông
thường có liên kết các thông tin trước đó với các thông tin hiện tại nhưng trong một
số trường hợp ta chỉ cần xem xét một số thông tin trước hay còn gọi là ngữ cảnh
để hoàn thành nhiệm vụ hiện tại Tuy nhiên, RNN chỉ có thể học được các thông
tin trong quá khứ nếu khoảng cách giữa thông tin có liên quan và vị trí cần thông
19
Trang 302.5 CÁC THUẬT TOÁN HỌC MÁY CHO BÀI TOÁN PHÂN LOẠI BÀI ĐÁNH GIÁ
RÁC
tin này là nhỏ Nhưng có những trường hợp cần ngữ cảnh để có thể đưa ra dự đoántốt, khi đó khoảng cách giữa chúng lại là rất lớn và RNN không thể học được Do
đó, kiến trúc mạng LSTM được giới thiệu để giải quyết van dé này, mô hình có kha
năng học từ các chuỗi văn bản để đưa ra dựa đoán nhãn dựa vào ngữ cảnh của nó.
Mô hình này cho phép xử lý đồng thời toàn bộ chuỗi dữ liệu mà không cần phải theo
một trình tự nào, các thông tin hữu ích trước đó sẽ được giữ lại để xử lý các dữ liệu
mới Chính vì thế, mô hình LSTM cho hiệu suất vượt trội hơn so với RNN trong
nhiều bài toán khác nhau.
LSTM Architecture hy
Hình 2.4 Kiến trúc một tế bao trong mô hình LSTM.
Kiến trúc LSTM gồm các các tế bào (units) để xử lý dữ liệu, chúng tôi minh họa
một unit trong mô hình LSTM như Hình 2.4 Đầu tiên, mô hình sẽ tính toán để đưa
ra quyết định các thông tin nào sẽ loại bỏ khỏi trạng thái hiện tại Điều này được
thực hiện bởi một hàm sigmoid như sau:
fr = ø(Wt - [ht-1, #4] + bf)
Trong đó, W; va br lần lượt là trọng số học của mô hình va bias, h;_¡ là thông tincủa tế bào trước đó, còn x; là thông tin được truyền vào Ham này xé xem xét hai
giá trị h;_¡ và 2; và trả về kết quả trong khoảng từ 0 đến 1, nó sẽ quyết định loại bỏ
hoặc giữ lại các thông tin trước đó Cổng thực hiện nhiệm vụ này gọi là forget gate.
Tiếp theo, mô hình tiếp tục tính toán để quyết định các thông tin nào sẽ được lưutrữ ở trạng thái tế bào này Cổng input gate là một hàm sigmoid quyết định những
20
Trang 312.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ
RÁC
giá tri sẽ thực hiện cập nhật lại 7, theo công thức:
ig = ø(W; - |hị T1, 24] + bị)
Hàm tanh được sử dụng để tạo ra các vector chứa các giá trị mới có thể được
thêm vào trạng thái hiện tại Ở; như công thức sau:
Cr = tanh(We - [hi-1, 21] + be)
Sau đó, thực hiện cập nhật lai trang thái trước đó bằng cách tính tích giữa Œ;_¡
với ƒ, để quên những thông tin đã quyết định bỏ trước đó Sau đó cộng với i,C;, đây
là các thông tin mới sẽ thêm vào:
C= ƒc@Œ;_—1 + ¡¿ © Ố,
Trong đó, ký hiệu © là phép nhân từng phan tử của ma trận với nhau wise multiplication) Cuối cùng, trạng thái sẽ quyết định những thông tin gì được sử
(element-dụng làm đầu ra cho trạng thái hay còn gọi là output gate Các thông tin đầu ra này
sẽ được quyết định dựa trên trạng thái hiện tại nhưng có sự chọn lọc Đầu tiên, hàmsigmoid được sử dụng để quyết định mức độ ảnh hưởng của các phần tử trong trạngthái hiện tại làm đầu ra o;, dựa trên mức độ quan trọng của chúng :
On = ơ(W, : [h¿—1 #4] + bo)
Sau đó, đặt C; trong hàm tanh và nhân với giá trị đầu ra của cổng sigmoid o; đểcác thông tin đã được quyết định làm dau ra cho trạng thái hiện tại h;:
ht = 04 © tanh(Œt)
Một cách tổng quan, trong kiến trúc mô hình LSTM, mỗi tế bào gồm ba cổng:
forget gate (f;), input gate (¿) và output gate (o¿) Trong đó, forget gate sẽ loại bỏ các
thông tin không cần thiết khỏi ngữ cảnh, input gate sé chọn các thông tin để thêm
vào ngữ cảnh và output gate sẽ quyết định các thông đầu vào có thật sự cần thiết và
21
Trang 322.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ
nắm bắt ngữ cảnh trong chuỗi văn bản để đưa ra nhãn hợp lý
Ngoài ra, lớp Bidirectional được đề xuất bởi Schuster và các cộng sự [42] thường
được kết hợp vào LSTM tạo thành mô hình Bidirectional Long Short-Term Memory (BiLSTM) để có khả năng học và hiểu các mối quan hệ phụ thuộc ngữ cảnh từ cả
hai phía của dữ liệu chuỗi Lớp Bidirectional có tác dụng kết hợp thông tin từ cả haihướng của một chuỗi văn bản đầu vào, nó sử dụng hai mạng LSTM độc lập: một
mạng xử lý chuỗi từ trái sang phải và một mạng xử lý từ phải sang trái, cho phép
truy cập thông tin từ cả hai phía của dữ liệu.
2.5.1.3 Bidirectional Gated Recurrent Unit
Gated Recurrent Unit (GRU) là một biến thể của LSTM, được dé xuất bởi Cho va
các cộng sự năm 2014 [39] Đây cũng là mô hình RNN được tạo ra cho bài toán dịch
máy, nhưng mô hình này cũng có thể tùy chỉnh để sử dụng cho bài toán phân loại
văn bản Tương tự như LSTM, mỗi đơn vị tế bào trong GRU có các cổng để điềuchỉnh lượng thông tin ở mỗi trạng thái Chúng tôi minh họa một tế bào trong GRUnhư Hình 2.5, mỗi đơn vị tế bào trong mô hình này gồm có hai cổng: update gate
(%) và reset gate (r;).
* Update gate: cổng này hoạt động như hai cổng trong LSTM là input gate và
forget gate, được sử dung để giữ lại các thông tin có giá trị trong quá khứ.
* Reset gate: quyết định các thông tin trong quá khứ cần phải quên di
Dựa theo Hình 2.5, chúng ta có thể thấy rằng, giá trị của h; tai thời điểm ¢ là được
tính bởi hàm nội suy tuyến tính giữa h¿_¡ và những ứng cử viên h; theo công thức:
hy = (L— z) © hị—c + 4 O It
22
Trang 332.5 CÁC THUẬT TOÁN HỌC MÁY CHO BÀI TOÁN PHÂN LOẠI BÀI ĐÁNH GIÁ
RÁC
Hình 2.5 Kiến trúc một tế bào trong mô hình GRU
Trong đó ký hiệu © là phép nhân từng phan tử của ma trận với nhau wise multiplication) và update gate z/ sẽ quyết định mức độ cập nhật các thông tin
(element-được tính theo công thức:
a= ơ(W; [hi—1, #:])
Với W, là trọng số học của mô hình Quá tình lấy tổng tuyến tính giữa trang tháihiện tại và trạng thái mới được tính toán tương tự như trong kiến trúc của mô hình
LSTM Tuy nhiên, trong GRU không có cơ chế để kiểm soát mức độ các thông tin
sẽ được sử dụng để làm đầu ra của trạng thái, điều này có nghĩa là không có sự chọnlọc mà toàn bộ các thông tin sẽ được sử dụng để làm đầu ra
Các thông tin ứng cử viên ñ; được tính toán tương tự như trong kiến trúc RNN
thông thường theo công thức sau:
hy = tanh(W; - [rz © he-1, #¡4])
Trong đó z¿ là reset gate, khi reset gate tắt đồng nghĩa với r; có giá trị gần bang
0, lúc này reset gate có tác dụng làm cho đơn vị trạng thái hiện tại hoạt động giốngnhư đang đọc ký tự đầu tiên trong chuỗi đầu vào, cho phép nó quên trạng thái đãtính toán trước đó Với W, là trọng số học của mô hình, reset gate được tính toán
theo công thức sau:
23
Trang 342.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ
RÁC
r= ơ(W [he—1, Xt])
Chúng ta dé dàng nhận ra sự khác nhau trong kiến trúc hai mô hình LSTM va
GRU, trong khi LSTM có ba cổng: forget gate, input gate, output gate và thì GRU
chỉ có hai cổng: update gate và reset gate nên số lượng tham số huấn luyện ít hơn, do
đó sử dụng ít bộ nhớ hơn và thời gian huấn luyện sẽ nhanh hơn Tuy nhiên, đối với
các chuỗi văn bản dài hoặc dữ liệu có mối quan hệ với nhau có khoảng cách lớn thì
mô hình LSTM sẽ nắm bắt được thông tin tốt hơn Chính vì vậy, không thể chứngminh mô hình nào sẽ cho kết quả tốt hơn và chúng ta thường thử nghiệm cả hai môhình để xác định mô hình nào cho kết quả tốt trong bài toán cụ thể Cũng tương tự
như trong BiLSTM, lớp Bidirectional [42] cũng được sử dụng cùng với GRU tạo ra
mô hình Bidirectional Gated Recurrent Unit (BiGRU) để học các thông tin từ cả hai
phía của chuỗi văn bản, từ đó mang lại hiệu suất tốt hơn
2.5.2 Mô hình học chuyển tiếp
Bidirectional Encoder Representations from Transformers (BERT) là mô hình ngôn
ngữ dựa trên kiến trúc transformer [43], được giới thiệu bởi Devlin và các cộng sự
vào năm 2019 [20] Sự ra đời của BERT nhận được nhiều sự chú ý và có những
đóng góp đáng kể cho các tác vụ trong xử lý ngôn ngữ tự nhiên do khả năng hiểu
được ngữ nghĩa của văn bản Mô hình BERT được huấn luyện trước trên một tập
dữ liệu lớn từ các nguồn khác nhau, sau đó có thể sử dụng cho nhiều bài toán cụ thể như phân loại văn bản (text classification), hỏi đáp (question answering), dịch máy (machine translation), nhận dạng thực thể (named entity recognition) BERT
sử dụng kiến trúc mã hóa đồng thời theo cả hai hướng (bidirectional), cho phép mô
hình có khả năng hiểu được ngữ cảnh xung quanh của một từ trước và sau nó trong câu Một trong những điểm mạnh của BERT là khả năng tạo ra các biểu diễn từ giàu
ngữ nghĩa, các biểu diễn từ được tạo ra phụ thuộc vào ngữ cảnh, giúp mô hình hiểu được nghĩa của từ trong từng văn bản cụ thể.
Có hai bước trong mô hình BERT: pre-training và fine-tuning được minh họa trong Hình 2.6.
24
Trang 352.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ
RÁC
Hình 2.6 Tổng quan quy trình pre-training và fine-tuning của mô hình BERT [20].
* Pre-training: Mô hình được huấn luyện trên dữ liệu chưa được gán nhãn cho
các nhiệm vụ pre-training khác nhau.
* Fine-tuning: Mô hình sẽ khởi tạo các tham số đã được pre-training và tất cả
các tham số sẽ được tinh chỉnh bằng cách huấn luyện trên dif liệu được gán
nhãn cho từng bài toán cụ thể.
Mô hình BERT có thể nhận đầu vào là một câu hoặc một cặp câu Mỗi từ được
biểu diễn bởi một mã thông báo (token), token đầu tiên của mỗi câu luôn là tokenphân loại đặc biệt [CLS] Trạng thái ẩn cuối cùng tương ứng với token này được sử
dụng để làm đại diện tổng hợp cho việc phân loại Nếu là một cặp câu sẽ được nối
lại với nhau va phân tách bởi token [SP] Bên cạnh đó, nhóm tác giả cũng thêm
lớp embedding cho mỗi token để xác định chúng thuộc câu nào Biểu diễn đầu vào
mỗi token được tính bằng tổng token, phân đoạn và vị trí nhúng (xem Hình 2.7)
Trang 362.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ
RÁC
Trong quá trình pre-training, BERT có hai mục tiêu là Masked Language eling và Next Sentence Prediction.
Mod-° Masked Language Modeling (MLM): Chọn ngẫu nhiên token trong chuỗi va
thay bang token [MASK], mục tiêu là dự đoán token này Nhóm tác giả lấyngẫu ngién 15% token đầu vào để thay thé, trong đó 80% thay bằng token
[MASK], 10% bên trái không thay đổi và 10% còn lại thay bằng token được
chọn ngẫu nhiên từ tập từ vựng.
¢ Next Sentence Prediction (NSP): Mục tiêu là dự đoán một câu có phải là câu
tiếp theo của câu ban đầu hay không Đây là bài toán phân loại nhị phân, trong
đó các mẫu positive được tạo ra bằng cách lấy các câu liên tiếp từ văn bản, còn
negative được tạo ra bằng cách ghép các phân đoạn từ các văn bản khác nhau
và số lượng hai mẫu này là như nhau NSP giúp cải thiện hiệu suất đối với các bài toán cụ thể như suy luận ngôn ngữ tự nhiên, hỏi đáp các nhiệm vụ này
thường yêu cầu mối quan hệ ngữ nghĩa giữa các cặp câu
Các phiên bản rút gon và cải tiến của mô hình BERT cũng được giới thiệu sau
đó như:
*® RoBERTa (Robustly optimized BERT approach) [44]: Mô hình này loại bỏ
bước NSP trong BERT và tập trung duy nhất vào MLM, giúp học được biểu
diễn ngôn ngữ tốt hơn
° ALBERT (A Lite BERT) [45]: Phiên ban này giảm kích thước và tăng tốc độ
huấn luyện mà vẫn duy trì được hiệu suất biểu diễn ngôn ngữ nhờ vào việcchia sẻ trọng số giữa các lớp encoder
¢ DistiIBERT [46]: Sử dụng phương pháp “knowledge distillation” (tạm dịch là
chắt lọc kiến thức) trong quá trình huấn luyện, giúp giảm số lượng tham số để
hoạt động nhanh hơn nhưng vẫn đạt được hiệu suất cao.
« XLM-R [47]: Đây là một biến thể của mô hình RoBERTa nhằm mở rộng khả
năng biểu diễn văn bản cho nhiều ngôn ngữ khác nhau.
26
Trang 372.6 PHƯƠNG PHÁP KẾT HỢP METADATA CHO BÀI TOÁN PHAN LOẠI
Trong bài toán phân loại bài đánh giá rác, chúng tôi fine-tuning hai mô hình
đơn ngôn ngữ cho Tiếng Việt là PhoBERT [48] (sử dụng kiến trúc RoBERTa)
và BERT4News [49] (sử dụng kiến trúc BERT) Trong đó, PhoBERT đã được pre-training trên 20GB dữ liệu theo cấp độ từ (word level) bao gồm văn bản trên
Wikipedia và văn bản tin tức Còn BERT4News được huấn luyện với hơn 20GB dữliệu tin tức theo cấp độ âm tiết (syllable level)
2.6 Phương pháp kết hop metadata cho bài toán phân loại
Trong phan này, chúng tôi sẽ trình bày phương pháp kết hợp metadata cho thuộc tính
danh mục dựa trên việc tùy chỉnh bộ phân loại [23] và thuộc tính dạng văn bản với
đặc trưng được tạo ra từ mô hình Sentence-BERT [24] trong bài toán phát hiện đánh
giá rác Qua các thử nghiệm, chúng tôi thấy rằng phương pháp này hiệu quả cho bài
toán khi kết hợp với danh mục san phẩm va mô tả sản phẩm
2.6.1 Phương pháp kết hợp thuộc tính dạng danh mục
Ngoài dữ liệu văn ban được sử dụng chính trong việc xác định nhãn cua dữ liệu, các
thuộc tính phụ hay metadata cũng ảnh hưởng đến nhãn Chẳng hạn như trong bài
toán phân loại cảm xúc, nội dung của khách hàng có thể là tiêu cực với người này
nhưng là tích cực với người khác Các công trình nghiên cứu gần đây đã thấy được
điều này và dé xuất một số phương pháp kết hợp biến danh mục vào mô hình phânloại, cụ thể là trong bài toán phân tích cảm xúc [21, 22] Một phương pháp gần đâycho hiệu quả cao hơn so với hai phương pháp trước đó được đề xuất bởi Kim và các
cộng sự [23] Trong đó, tác giả đã giới thiệu phương pháp tùy chỉnh trên ma trận
biến đổi tuyến tinh (linear transformation matrix) và trọng số bộ mã hóa (encoder),
bên cạnh đó cũng đề xuất sử dụng vector cơ sở để tùy chỉnh bộ phân loại So với các
phương pháp trước đây như tùy chỉnh trên vector bias, word embedding [21], hay
trên mô-đun attention pooling [22] thì phương pháp của tác giả cho hiệu suất cao hơn trên một số bộ dữ liệu Trong dé tài này, chúng tôi thử nghiệm trên phương pháp
cho hiệu quả cao nhất là tùy chỉnh trên linear transformation matrix và bias vector
Một cách tổng quan, bài toán phát hiện đánh giá rác ngoài các tập bình luận của
người dùng W = {w1, we, ,wn}, chúng ta cũng có thêm các thuộc tính phân loại
27
Trang 382.6 PHƯƠNG PHÁP KẾT HỢP METADATA CHO BÀI TOÁN PHAN LOẠI
C = {ei, ca, , cạ„} Trong đó, ta có w; là bình luận thứ ¿ trong tập dữ liệu, c; là thuộc
tinh dạng danh mục thứ 7 của bài đánh giá trong số m danh mục, trong dé tài này chúng tôi chỉ sử dụng danh mục sản phẩm nên m là 1 Với việc kết hợp danh mục sản phẩm vào mô hình phân loại, mục tiêu của chúng ta là tối ưu hóa hàm ánh xạ
fo(W) để dự đoán nhãn y, trong đó ƒc(W/) là bộ phân loại có kết hợp các biến danh
mục Œ.
Trong bộ phân loại, chúng ta có vector biểu diễn văn bản d và các vector danh
mục c\, C2, , Gm Đối với việc tùy chỉnh trên vector bias, thay vì sử dụng một vector
bias duy nhất >, chúng ta sử dụng nhiều vector bias bổ sung cho từng danh mục.Phương pháp này tương tự như việc nối (concatenate) biến phân loại với vector d
Đạo hàm được tính theo công thức:
ụ' = W(°)|[d;et; cạ; : cạ]| + OO (2.1)
Còn trong phương pháp tùy chỉnh trên linear transformation matrix, thay vì sử
dụng một ma trận trọng số duy nhất W), mô hình sử dung các ma trận trọng số
khác nhau cho mỗi danh mục và đạo hàm được tính bởi công thức sau:
yf = WAd + WE)d + + WA°d + b9 (2.2)
Bên cạnh đó, nhóm tác giả cũng đã cũng đã dé xuất phương pháp tùy chỉnhdựa trên vector cơ sở (basis-customized) để giải quyết một số hạn chế của phương
pháp tùy chỉnh thông thường Phương pháp này sử dụng một tập các vector bias
B = {bị, ba, , bạ} có thể huấn luyện, với d << dim (dim là kích thước của các trọng
số ban đầu) Một không gian tìm kiếm vector V chứa tất cả các vector trọng số
customized tối ưu ø„ sao cho B là cơ sở của Ve, các vector ø € W được tính theo công
thức:
Ue = » _¡ % Ủị (2.3)
Trong đó + là hệ số Với q là vector truy vấn (query vector) được nối từ các vector
danh mục gq = [c1;¢2; ;¢m] va kj € K|K = {k1,ke, , kạ} là một tap hợp các key
28
Trang 392.6 PHƯƠNG PHÁP KẾT HỢP METADATA CHO BÀI TOÁN PHAN LOẠI
vector có thể huấn luyện, + được tính toán theo công thức:
z¡ = q kj
ezp(z¡) (2.4)
1 XS erp)
Trong nghiên cứu này, chúng tôi áp dụng cả hai phương pháp trên bộ dữ liệu để
đánh giá và so sánh hiệu quả của thuộc tính danh mục sản phẩm đến việc phân loại
các bài đánh giá rác.
2.6.2 Phương pháp kết hợp thuộc tính dạng van bản
Sentence-BERT (SBERT) là mô hình nhúng câu được dé xuất bởi Reimers và các
cộng sự vào năm 2019 [24] Mô hình này được sửa đổi từ BERT sử dụng mạng
siamese và triplet để tạo ra các vector nhúng câu tương đồng về mặt ngữ nghĩa
Về cơ bản, mô hình SBERT sẽ thêm một lớp để tổng hợp đầu ra của các mô hình BERTology như BERT/RoBERTa Điều này tạo cho đầu ra của mạng có kích thước
cố định Các chiến lược tổng hợp như MEAN pooling và MAX pooling, tuy nhiên
trong thử nghiệm của tác giả MEAN pooling cho hiệu suất cao hơn Các vector này
có thể kết hợp lại huấn luyện với các hàm mục tiêu khác nhau như (xem hình 2.8): hàm mục phân loại (classification objective function) hoặc hàm mục tiêu hồi quy
(regression objective function) hoặc hàm mục tiêu bộ ba (triplet objective function).
Trang 402.6 PHƯƠNG PHÁP KẾT HỢP METADATA CHO BÀI TOÁN PHAN LOẠI
Chúng tôi sử dụng mô hình này để tạo ra các vector nhúng câu cho thuộc tính dạng văn bản, cụ thể là mô tả sản phẩm Chúng tôi gọi hai mô hình fine-tune
là SPhoBert và SBert4News, vì chúng là sự kết hợp từ các mô hình PhoBERT,
BERT4News và SBERT Đầu tiên, các bình luận của người dùng và mô tả sản phẩm
được đưa vào các mô hình PhoBERT và BERT4News, sử sung chiến lược MEAN
pooling để tạo ra hai vector có cùng kích thước: vector bình luận (u) và vector mô tả
sản phẩm (v) Sau đó, hai vector này được nối lại với nhau cùng với vector khoảng
cách giữa các phần tử trong cả hai vector này, sau đó nhân nó với trọng số huấn luyệnW; € R°"** và đưa đến bộ phân loại softmax để dự đoán nhãn tương ứng của chúng
với nhãn các bài đánh giá như sau:
o = softmaz(W;(u, 0, |u — 0|)) (2.5)
Trong đó n là kích thước vector nhúng câu và k là số lượng nhãn Ham mat mátđược sử dụng là SoftmaxLoss (hàm này thêm một bộ phân loại softmax trên đầu racủa hai mạng và sử dụng CrossEntropyLoss để tính toán giá trị tổn thất) [24] Sau
khi fine-tune các mô hình này, chúng tôi sử dụng chúng để tạo ra các vector đặc
trưng cho các mô tả sản phẩm Các đặc trưng này được kết hợp vào mô hình phân
loại để dự đoán nhãn của các bài đánh giá.
30