Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận diện các bài đánh giá rác trên các trang thương mại điện tử tiếng Việt

Với đề tài này, chúng tôi sẽ xây dựng bộ dữ liệu cho bài toán, sau đó thử nghiệm và đánh giá hiệu quả của các mô hình học máy trên bộ dữ liệu nhằm phân loại để xác định bài đánh giá rác

Trang 1

ĐINH VAN CƠ - 19521293

KHÓA LUẬN TỐT NGHIỆP

NHẬN DIỆN CÁC BÀI ĐÁNH GIÁ RÁC

TRÊN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ TIẾNG VIỆT

Detecting Spam Reviews on Vietnamese E-commerce Websites

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIÊN HƯỚNG DẪN

ThS LƯU THANH SƠN

ThS TA THU THUY

TP HO CHI MINH, 2023

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành gửi lời cảm ơn đến Thay/ThS Lưu Thanh Sơn — người đã hướng dẫn và hỗ trợ cho em trong suốt quá trình học tập, nghiên cứu, giúp

em có được những kiến thức cần thiết để thực hiện đề tài này Bên cạnh đó, em cũng

xin cảm ơn đến Cô/ThS Tạ Thu Thủy đã hỗ trợ cho em trong suốt quá trình học tập tại trường, cũng như có những góp ý để em có thể hoàn thiện khóa luận tốt hơn.

Hơn nữa, em cũng xin cảm ơn các Thầy Cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng cũng như các Thầy Cô Trường Đại học Công nghệ Thông tin nói chung,

đã giảng dạy và truyền đạt kiến thức cho em trong suốt thời gian học tập tại trường.

Cuối cùng, mình cũng muốn gửi lời cảm ơn đến các bạn trong nhóm gán nhãn đã hỗ

trợ mình trong việc xây dựng bộ dữ liệu.

Trong quá trình thực hiện khóa luận, em cũng đã gặp những khó khăn nhất định, với sự hỗ trợ từ Thầy Cô và các bạn đã giúp em giải quyết được vấn đề Cuối cùng,

em cũng đã hoàn thành khóa luận này một cách tốt nhất có thể, tuy nhiên sai sót trong quá trình thực hiện là không thể tránh khỏi Chính vì thế, rất mong nhận được những ý kiến và đóng góp từ Quý Thầy Cô để em có thể hoàn thành tốt hơn các đề

tài khác trong tương lai.

Một lần nữa, em xin chân thành cảm ơn.

Thành phó Ho Chí Minh, tháng 06 năm 2023

Sinh viên

Dinh Văn Cơ

Trang 3

Lời cảm

Mục lục

Danh mi

Danh mị

Tóm tắt

Chương

11

1.2

13

1.4

1.5

1.6

1.7

Chuong

2.1

2.2

2.3

2.4

2.5

MUC LUC

on

uc các bang

uc các hình ảnh và biểu đồ

ục từ viết tắt

khóa luận

1 TỔNG QUAN

Sự phát triển của hình thức mua sắm trực tuyến ở Việt Nam_

Van đề bài đánh giárác

Những thách thức của đề

tài -Mục tiêu của đề tài Ặ.Ặ

Phương pháp nghiên

cứu -Những đóng góp của đề tài

Cấu trúc khóa luận

-2 CƠ SỞ LÝ THUYẾT Mô tả bài toán Ặ.ẶẶQỒ QC 2.1.1 Khái niệm bài đánh giá, bài đánh giárác

2.1.2 Định nghĩa các nhiệm vụ cho bài toán

2.1.3 Bài toán phân loại va ứng dụng trong việc phát hiện bài đánh L0: Í.-ăĂẲ Các công trình liên quan

Phương pháp phát hiện bài đánh giárác

2.3.1 Dựa trên quy luật

2.3.2 Dựa trên mô hình học máy

Các kỹ thuật trích xuất đặc trưng

-Các thuật toán học máy cho bài toán phân loại bài đánh giá rác

ii

vi viii ix

oO mn nn dv

11 11

11

12

14

15 15

16

17

Trang 4

MỤC LỤC

2.5.1 Các mô hình mạng nơ-ron học sâu

2.5.1.1 TextCNN 0 2 cee ốc 2.5.1.2 Bidirectional Long Short-Term Memory

2.5.1.3 Bidirectional Gated Recurrent Unit .

2.5.2 Mô hình học chuyển

tiếp -2.6 Phương pháp kết hợp metadata cho bài toán phân loại

2.6.1 Phương pháp kết hợp thuộc tính dạng danh muc

2.6.2 Phương pháp kết hợp thuộc tính dạng văn bản

Chương 3 BỘ DỮ LIỆU ViSpamReviews 3.1 Tổng quan quy trình xây dựng bộ dữ liệu

3.2 Phương pháp đánh giá độ đồng thuận giữa những người gan nhãn

3.3 Xây dựng bộ dữ liệu

-3.3.1 Thu thập các bài đánh giá từ các trang thương mại điện tử

3.3.2 Xây dựng hướng dẫn gánnhãn

3.3.3 Gan nhãn và tính toán độ đồng thuận

3.3.4 Thảo luận về độ đồng thuận giữa những người gin nhãn

3.3.5 Thao luận về sự hợp lý của kết quả gán nhãn

3.4 Tong quan bộ dữ liệu - - - s

3.5 Phân tích các thuộc tính của sản phẩm được đánh giá

3.6 Kết luận về bộ dữ liệu

Chương 4 CÀI ĐẶT THU NGHIỆM 4.1 Độ đođánhgiá Ặ.ẶẶẶẶVỐ So 4.2 Tiền xử lý dữ liệu co 4.3 Cai đặt thử nghiệm các mô hình phân loại

4.3.1 Thiết lập thông số các mô hình mạng nơ-ron học sâu

4.3.2 Thiết lập thông số các mô hình học chuyển tiếp

Chương 5 CÁC KẾT QUÁ THỬ NGHIỆM 5.1 Kết quả thử nghiệm ban đầu

-3 31

32

34

38

41

43

48 51

53

57

58 59

61

63

iii

Trang 5

MỤC LỤC

5.2 Phân tích lỗi và hạn chế của việc chỉ sử dụng bình luận để phân loại

bài đánh giá rác QQ Q ee 65

5.3 Cài đặt thử nghiệm kết hợp metadata 68

5.4 Kết quả thử nghiệm kết hợp metadata cho các mô hình 69

5.4.1 Phân tích lỗi trên danh mục sản phẩm 72

5.4.2 Phân tích lỗi trên mô tả sản phẩm 75

5.4.3 Phân tích lỗi trên cả danh mục sản phẩm va mô tả sản phẩm 77 5.5 Đánh giá hiệu qua của phương pháp kết hợp metadata 78

5.6 Tóm tắt các kết quả thử nghiệm - 79

Chương 6 CHƯƠNG TRÌNH MINH HỌA 81 6.1 Kiến trúc tổng quan co 81 6.2 Xây dung chương trình minhhoa 82

6.3 Đánh giá chương trình minhhoa 84

Chương 7 KẾT LUẬN 85 7.1 Những két qua datdude 85

7.2 Hạn chế và hướng phattrién - 86

Tài liệu tham khảo 95

Phu lục A CONG BO KHOA HỌC 96

iv

Trang 6

DANH MỤC CÁC BANG

3.1 Đánh giá mức độ đồng thuận dựa trên độ đo Cohen's Kappa

3.2 Một số bài đánh giá với các nhãn theo hướng dẫn

3.3 Độ đồng thuận giữa ba người gan nhãn A1, A2 và A3 trên hai nhiệm

vụ, những người gan nhãn thực hiện gan nhãn một cách độc lap .

3.4 Độ đồng thuận giữa ba người gán nhãn AI, A2 và A3 trên hai nhiệm

vụ sau khi đã người gán nhãn được huấn luyện lại với hướng dẫn đã

chỉnh sỬửa Ặ ee

3.5 Ma trận nhầm lẫn trung bình sự khác biệt giữa những người gán nhãn.

3.6 Một vài mẫu dữ liệu của hai người gán nhãn

3.7 Một ví dụ bài đánh giá va metadata trong bộ dữ liệu ViSpamReviews.

3.8 Thống kê một số đặc điểm trên từng tập dữ liệu

3.9 Số lượng nhãn trong tập huấn luyện theo số sao đánh giá

3.10 Thống kê số các lượng nhãn theo từng danh mục .

3.11 Độ dài trung bình của các thuộc tính văn bản trên tập huấn luyén .

5.1 Kết quả thử nghiệm các mô hình baseline trên bộ dit liệu

ViSpamRe-5.2 Hiệu suất theo độ đo Fl-macro (%) trên từng nhãn trong Task 2

5.3 Một số bài đánh giá có nhãn SPAM-2 dự đoán nhầm thành NO-SPAM.

5.4 Bảng so sánh kết quả thử nghiệm tích hợp metadata trên bộ dữ liệu

ViSpamReviews ees

5.5 Hiệu quả khi kết hợp danh mục sản phẩm lên nhãn NO-SPAM và

SPAM-3 theo từng danh mục trong mô hình TextCNN + linear basis

5.6 Một số bài đánh giá được dự đoán từ mô hình TextCNN và TextCNN

+ linear basis cuSf ee ee

5.7 Một số bài đánh giá được dự đoán từ mô hình PhoBERT và mô hình

có kết hợp mô tả sản phẩm PhoBERT + SPhoBert .

49 51

63

67

70

Trang 7

DANH MỤC CÁC HÌNH ẢNH VÀ BIỂU ĐỒ

1.1 Thời gian trung bình một ngày của một người dành cho mua sắm trực

"0Š ¬àặ q a aa 1

1.2 Một số bài đánh giá của người dùng trên trang Shopee! 3

2.1 Minh họa bài toán phân loại email rác? - 12

2.2 Minh họa bài toán phát hiện các bài đánh giá rác 13

2.3 Kiến trúc mô hình TextCNN [37] 18

2.4 Kiến trúc một tế bào trong mô hình LSTM 20

2.5 Kiến trúc một tế bào trong mô hình GRU 23

2.6 Tổng quan quy trình pre-training va fine-tuning của mô hình BERT 20] -.-cCK===- - - - 81: - 25

2.7 Biểu diễn văn bản đầu vào trong mô hình BERT [20] 25

2.8 Kiến trúc mô hình SBERT với hàm mục tiêu phân loại (trái) và hàm mục tiêu hồi quy (phải) [24] - 29

3.1 Quy trình xây dựng bộ dữ liệu ViSpamReviews 31

3.2 Thông tin các bai đánh giá thu thập từ Shopee 35

3.3 Thông tin các bài đánh giá thu thập từ Tiki 35

3.4 Các thông tin liên quan đến sản phẩm được thu thập từ Shopee 37

3.5 Các thông tin liên quan đến sản phẩm được thu thập từ Tiki 37

3.6 So sánh độ đồng thuận trung bình giữa những người gán nhãn trước và sau khi cập nhật, huấn luyện lại đến người gin nhãn 42

3.7 Phân phối độ dai câu bình luận trên bộ dữ liệu ViSpamReviews 47

3.8 Phân bố các nhãn trên từng tập dữ liệu 48

3.9 Phân bố nhãn của bài đánh giá theo từng danh mục 50

3.10 Phân phối độ dài tên sản phẩm va mô tả sản phẩm trên tập huấn luyện 51 4.1 Ma trận nhầm lẫn trong nhiệm vụ phân loại bài đánh giá rac 5

4.2 Ma trận nhầm lẫn trong nhiệm vụ xác định loại bài đánh giá rác 55

4.3 Quy trình tiền xử lý dữ liệu - 57

4.4 Kiến trúc mô hình TextCNN thử nghiệm 60

vi

Trang 8

DANH MỤC CAC HÌNH ANH VÀ BIEU DO

Kiến trúc mô hình BiLSTM và BiGRU thử nghiệm 61

Ảnh hưởng của độ dài bình luận đến hiệu suất các mô hình trong Task 2 65

Ma trận nhằm lẫn của mô hình PhoBERT trên 2 nhiệm vụ Các ma

trận nhầm lẫn được tạo bởi thư viện Scikit-learnl 66Tổng quan phương pháp đề xuất kết hợp metadata cho bài toán phát

hiện bài đánh giá spam 68

Kết quả mô hình TextCNN ban đầu và khi kết hợp danh mục sản

Kết quả mô hình BiLSTM ban dau và khi kết hợp mô tả sản phẩm

Kết quả mô hình BiLSTM ban đầu và khi kết hợp mô tả sản phẩm

trên Task2 Q Q Q Q Q Q Q ee 78

Tổng quan kiến trúc chương trình minh họa 81

Giao diện ban đầu của chương trình minh họa 82Giao diện thông tin sản phẩm và trực quan kết quả dự đoán 83

Giao diện danh sách đánh giá sản phẩm 83

vii

Trang 9

DANH MỤC TỪ VIẾT TẮT

TMDT Thương Mại Điện Tử

DNN Deep Neural Network

CNN Convolutional Neural Network

TextCNN Convolutional Neural Network for Text Classification

RNN Recurrent Neural Network

LSTM Long Short-Term Memory

BiLSTM Bidirectional Long Short-Term Memory

GRU Gated Recurrent Unit

BiGRU _ Bidirectional Gated Recurrent Unit

BERT Bidirectional Encoder Representations from Transformers

SBERT Sentence-BERT

Vili

Trang 10

TÓM TẮT KHÓA LUẬN

Trong những năm gần đây, mua sắm trực tuyến đã trở thành phương thức mua

sắm chủ yếu của người dùng Việt Nam Người dùng thường xem xét nhiều yếu tố

trước khi quyết định mua sản phẩm trên các nền tảng thương mại điện tử Trong đó,đánh giá từ những người mua trước là một trong những yếu tố quan trọng Nắm bắt

được hành vi mua sắm này, một số nhà bán hàng đã tạo ra các bài đánh giá giả mạonhằm quảng bá sản phẩm, hay những người dùng không trung thực cố ý đánh giá

không đúng về sản phẩm hoặc nội dung không phải đánh giá làm ảnh hưởng danh

tiếng của cửa hàng và thương hiệu Những bài đánh giá này được gọi là đánh giá

rác, làm ảnh hướng đến trải nghiệm của người dùng khi mua sắm trực tuyến

Trong khóa luận này, chúng tôi nghiên cứu dé tài “Nhận diện các bài đánh giá

rác trên các trang thương mại điện tử Tiếng Việt” Với đề tài này, chúng tôi sẽ

xây dựng bộ dữ liệu cho bài toán, sau đó thử nghiệm và đánh giá hiệu quả của các

mô hình học máy trên bộ dữ liệu nhằm phân loại để xác định bài đánh giá rác trên

các trang thương mại điện tử ở Việt Nam Cuối cùng, chúng tôi cũng đề xuất và thử nghiệm một phương pháp kết hợp metadata để tăng cường khả năng phân loại.

Bộ dữ liệu ViSpamReviews được xây dựng với quy trình gan nhãn nghiêm ngặt

để đảm bảo chất lượng Hướng tiếp cận của chúng tôi là ứng dụng các mô hình học

sâu lên bình luận của người dùng để phân loại bài đánh giá Chúng tôi thử nghiệm

với các mô hình mạng nơ-ron học sâu bao gồm TextCNN, BILSTM và BIGRU,cùng với các mô hình học chuyển tiếp gồm PhoBERT và BERT4News Kết quả thửnghiệm ban đầu cho thấy các mô hình học chuyển tiếp cho hiệu suất vượt trội hơn so

với các mạng nơ-ron thông thường Trong đó, PhoBERT cho Fl-macro là 89.23%

trên nhiệm vụ phân loại bài đánh giá rác và BERT4News đạt được 72.55% ở độ đo

F1-macro trên nhiệm vụ xác định loại bài đánh giá rác Chúng tôi cũng đề xuất mộtphương pháp kết hợp metadata vào các mô hình phân loại Trên nhiệm vụ xác định

loại bài đánh giá rác, phương pháp này đã cải thiện hiệu suất đáng kể với việc tăng 5.32% khi kết hợp danh mục sản phẩm (theo phương pháp linear basis cust) vào mô hình TextCNN và tăng 1.93% khi kết hợp đặc trưng mô tả sản phẩm (được tạo ra từ

SPhoBert — kết hợp từ PhoBERT và Sentence-BERT) vào mô hình PhoBERT

1X

Trang 11

Chương 1 TONG QUAN

1.1 Sự phát triển của hình thức mua sắm trực tuyến ở Việt Nam

Trong những năm gần đây, Thương Mại Điện Tử (TMĐT) tại Việt Nam đã phát triểnmột cách mạnh mẽ và nhanh chóng Một số nền tảng TMĐT nổi tiếng phải kể đếnnhư Shopee, Lazada, Tiki, Sendo và gần đây có sự góp mặt của một nền tảng mới

là TikTok Shop Thị trường TMĐT ở Việt Nam không chỉ thu hút sự quan tâm của

các doanh nghiệp trong nước mà còn có sự tham gia của nhiều công ty và nhà bán

lẻ nước ngoài Các đối tác nước ngoài tham gia vào nhiều lĩnh vực của TMĐT ViệtNam bao gồm bán lẻ, thanh toán điện tử và dịch vụ vận chuyển Điều này đáp ứng

nhu cầu ngày càng tăng của người dùng trong việc mua sắm trực tuyến

5 4.7

4.2

Thời gian trung bình (giờ) ow

Trước khi Trong khi Giai đoạn sau

Covid-19 khởi phát Covid-19 khởi phat

Hình 1.1 Thời gian trung bình một ngày của một người dành cho mua sắm trựctuyến

Số lượng người dùng tham gia mua sắm trực tuyến ngày càng gia tăng, đặc biệt

là trong bối cảnh dịch COVID-19 Mọi người đều phải tìm kiếm cho mình một giải

pháp mua sắm an toàn, đó là mua sắm trực tuyến Theo báo cáo Kinh tế Internet khuvực Đông Nam A năm 2020 [1], thời gian mua sắm trung bình một ngày của một

người là 3.7 giờ trước khi Covid-19 khở phát và tăng lên 4.7 giờ trong khi Covid-19

khởi phát, sau đó con số này có xung hướng giảm ở giai đoạn sau nhưng vẫn cao hơnnhiều so với giai đoạn trước đó, các so sánh được thể hiện trong Hình 1.1 Bên cạnh

đó, theo thống kê của Cục Thương mại điện tử và Kinh tế số [2] số lượng người tiêu

1

Trang 12

1.2 VAN DE BÀI ĐÁNH GIA RAC

dùng mua sắm trực tuyến năm 2021 là 54.6 triệu người, trong khi năm 2022 con số

này đã lên đến khoảng 60 triệu, điều này đồng nghĩa với việc có khoảng 60% dân sốViệt Nam tham gia mua sắm trực tuyến

Mua sắm trực tuyến mang lại nhiều lợi ích cho người tiêu dùng Đầu tiên, đây

là một hình thức mua sắm tiện lợi, giúp người dùng tiết kiệm thời gian và công sức

khi không cần phải đến trực tiếp các cửa hàng để tìm mua các sản phẩm Thứ hai,người dùng có thé dé dàng so sánh giá cả và chất lượng các sản phẩm từ nhiều nềntảng mua bán khác nhau, giúp họ có được sự lựa chọn tốt nhất Các nền tảng muabán đều có những chính sách ưu đãi khác nhau, điều này có lợi cho người tiêu dùngkhi họ có nhiều sự lựa chọn hơn trong việc chọn mua các sản phẩm Hơn thế nữa,

mua sắm trực tuyến cũng giúp người dùng có thể tiết kiệm chi phí và dé dàng với

đa dạng các hình thức thanh toán Các nền tảng TMĐT đều có những chương trình

ưu đãi dành riêng cho khách hàng của họ chẳng hạn như miễn phí vận chuyển, giảmgiá trên sản phẩm hoặc kèm theo quà tặng cho mỗi đơn hàng Cuối cùng, mua sắm

với hình thức này giúp người dùng đảm bảo an toàn hơn trong trong bối cảnh dịch

bệnh Covid-19 hiện nay vẫn chưa thể chấm dứt hoàn toàn Việc tránh tiếp xúc và giữ khoảng cách xã hội đang là điều cần thiết, người dùng có thể hưởng lợi từ việc

mua sắm trên các trang mua sắm trực tuyến và sản phẩm được giao đến tận nơi mà

không cần phải đến những nơi đông người như siêu thị hoặc cửa hàng để đảm bảo

an toàn cho bản thân và cộng đồng Chính vì những lợi ích như thế, không khó hiểu

khi số lượng người dùng tham gia mua sắm trực tuyến hiện nay là rất nhiều và ngày

một gia tăng.

1.2 Van đề bài đánh giá rác

Mua sắm trực tuyến mang lại rất nhiều lợi ích cho người tiêu dùng như đã được trìnhbay ở Phần 1.1 Tuy nhiên, hình thức mua sắm này cũng tiềm ẩn những rủi ro nhất

định, đặc biệt là khi mua hàng trên các trang TMĐT Mot trong số đó là người dùng

có thể mua phải những sản phẩm kém chất lượng, không đúng mô tả, hoặc thậm chí

là hàng giả, hàng nhái Các nền tảng TMĐT là môi trường mua bán mở, có rất nhiều cửa hàng đăng ký trên đây và không thể kiểm soát được sản phẩm bán ra có đúng

với mô tả hay không Điều này ảnh hưởng trực tiếp đến lợi ích của người dùng khi

2

Trang 13

ho rơi vào những trường hợp như thé Đây cũng là hạn chế của hình thức mua sắm

này khi mà người dùng không đến trực tiếp cửa hàng xem sản phẩm và chỉ có thể

xem qua các bài đánh giá từ những người đã mua trước đó.

4.9 trên 5 Tất Cả 5 Sao (1,4k) 4 Sao (60) 3 Sao (28) 2 Sao (8)

KKKKK 1 Sao (9) Có Bình Luận (541) Có Hình Anh/ Video (459)

tm

KKK 2023-03-19 16:32 | Phân loại hàng: Trắng,XL (54 - 65kg)

Phải mạnh mẽ đương đầu cùng giông bão Sống chỉ cần chốn nương náu mà thôi

Được cơm no áo ấm cũng vui rồi Bởi dòng đời còn lắm người cơ nhỡ

Chưa ngang nên chưa bt như nào hi hi akakkakaka

fol 0:11

Phan Hồi Của Người Ban

Cảm ơn b đã tin tưởng và lựa chọn mua hàng của shop, chúc b một ngày tốt lành , b hãy theo dõi shop để

cập nhật mẫu mới nhé

} huyenhihi96

KKK

2022-12-12 16:05 | Phan loai hang: Den,L (38 - 53kg)

[TB] Quy khach vui long bat ché d6 VoLTE trén may dé sử dụng dịch vụ thoại chất lượng cao, không bị gián

đoạn (cước như cuộc gọi thông thường): Vào Cài đặt/ Di động/ Tùy chọn dữ liệu di động/ Thoại và dữ liệu/ chọn

LTE và bật VoLTE (xem thêm tại https://viettel.vn/volte ) Chỉ tiết LH 198 (0đ) Trân trọng!

Phản Hồi Của Người Bán

VALICA cảm ơn bạn đã dành lời khen cho shop Đây sẽ là nguồn động lực lớn để shop ngày càng hoàn thiện hơn về chat lượng Hy vọng bạn luôn tin tưởng và đồng hành cùng shop trong thời gian sắp tới a Shop chân thành cảm ơn bạn rất nhiều

Hình 1.2 Một số bài đánh giá của người dùng trên trang Shopee !.

Trang 14

Các nền tang TMDT cho phép nhà bán hàng đăng tải lên các mặc hàng để ngườidùng lựa chọn và mua sắm, người dùng khi mua sản phẩm có thể để lại đánh giá

sau khi đã nhận hàng và có đủ thời gian sử dụng sản phẩm Những người mua hàng

sau đó có thể xem các đánh giá này để có một cái nhìn tổng quan về sản phẩm mà

họ sẽ nhận được sau khi đặt hàng Đa phần mọi người đều có xu hướng xem nhữngbài đánh giá sản phẩm từ những người đã mua trước đó để quyết định có mua hànghay không Nếu một sản phẩm được nhiều người mua và đánh giá tốt, khả năng cao

người tiêu dùng sẽ lựa chọn mua sản phẩm đó và ngược lại Nắm bắt được tâm lí

này, một số người mua sản phẩm trước đây đã lợi dụng điều này đánh giá không

đúng về sản phẩm nhằm làm ảnh hưởng đến danh tiếng của người bán hoặc một số

nhà bán hàng với mục tiếu tăng doanh số đã tạo ra các bài đánh giá giả mạo để thu

hút khách hàng, điều này làm cho khách hàng có cái nhìn không đúng về sản phẩm Bên cạnh đó, nhiều trang TMĐT còn có những chính sách đánh giá sản phẩm để

nhận được ưu đãi chang hạn như xu hoặc mã miễn phí vận chuyển, điều này vô tìnhlàm cho nội dung bài đánh giá có thể không phải nhằm đánh giá sản phẩm mà mục

đích chỉ để hưởng ưu đãi Những đánh giá như thế này cũng làm ảnh hướng đến trảinghiệm trong quá trình mua sắm của người dùng khi mà nội dung các bài đánh giáhoàn toàn không liên quan đến sản phẩm hoặc không cung cấp các thông tin hữu íchcho họ (xem Hình 2.2) Các đánh giá như thé này có thể được xem là các bài đánh

giá rác (spam reviews), vì chang những không mang lại giá trị cho người dùng mà

còn có thể đánh lừa họ để mua những sản phẩm giả hoặc kém chất lượng

Nếu không phát hiện và ngăn chặn kịp thời các hành vi tạo ra các bài đánh giá

rác sẽ ảnh hưởng đến cả người dùng và nền tảng TMĐT Đối với người dùng, họ sẽ

có những trải nghiệm không tốt trong khi mua sắm trực tuyến, còn đối với nền tảng

sẽ ảnh hướng đến chất lượng dịch vụ và mức độ uy tín của họ Để hạn chế sự xuất

hiện của các bài đánh giá rác, các nền tảng TMĐT cần có sự kiểm duyệt trước khi

cho phép người dùng đăng tải bài đánh giá lên trang thông tin sản phẩm Trước đây,

khi số lượng người bán, người mua còn ít cũng như chưa có sự xuất hiện nhiều cácbài đánh giá rác thì các nền tảng có thể thuê một đội ngũ kiểm duyệt theo cách thủ

công Tuy nhiên, hiện nay, số lượng sản phẩm được bán cũng như số lượng bài đánh

thrtps://shopee.vn/

Trang 15

1.3 NHỮNG THÁCH THUC CUA DE TÀI

giá là rất nhiều cần phải có một công cụ tự động hỗ trợ lọc ra các bai đánh giá rác

Do đó, phát hiện đánh giá rác cũng là một trong những bài toán quan trọng và cần

thiết cho các nền tảng TMĐT

Trong bài toán phát hiện các nội dung spam, có hai hướng nghiên cứu chính là

nghiên cứu về bộ dữ liệu và nghiên cứu các phương pháp áp dụng cho bài toán Đốivới hướng nghiên cứu các phương pháp, có thể nghiên cứu bài toán này với nhiều

hướng tiếp cận khác nhau như sử dụng các kỹ thuật tìm kiếm thông tin để tìm các

từ khóa phổ biến trong các nội dung spam, áp dụng phương pháp dựa trên quy luật(rule-based), ứng dụng các kỹ máy học kết hợp với các kỹ thuật trong xử lý ngônngữ tự nhiên (model-based) hoặc có thể kết hợp nhiều phương pháp lại với nhau đểcho ra kết quả tốt nhất Còn đối với hướng nghiên cứu bộ dữ liệu, trước tiên cần phải

chọn lĩnh vực cụ thể cho bài toán Có nhiều lĩnh vực cần xác định nội dung spam

chẳng hạn như ý kiến rác, thư rác, bài viết rác hoặc bình luận rác trên mạng xã hội.Còn trong dé tài này, chúng tôi lựa chọn phát hiện các bài đánh giá rác của ngườidùng trên các trang TMĐT Tiếng Việt Sau bước chọn bài toán cụ thể để nghiêncứu, người nghiên cứu cần tiến hành xây dựng bộ dữ liệu cho bài toán Bộ dữ liệu

cần phải đủ lớn để phục vụ cho quá trình huấn luyện và đánh giá hiệu quả của các

mô hình Bên cạnh đó, bộ dữ liệu cần được cung cấp đầy đủ các thuộc tính có liên

quan chẳng hạn như đối với bài đánh giá rác cần phải có nội dung đánh giá, số sao

đánh giá, thời gian đăng, tên người đăng, các đánh giá của người dùng khác và một

số các thuộc tính liên quan đến sản phẩm Cuối cùng, người nghiên cứu tiến hành

thử nghiệm, đánh giá hiệu quả các phương pháp trên bộ dữ liệu của họ đã xây dựng

5

Trang 16

1.4 MỤC TIÊU CUA ĐỀ TÀI

phú và da dạng chang hạn như một đoạn văn bản được sao chép từ nguồn bat ky, các

từ ngữ không có ý nghĩa hay một số ký tự và từ được gõ ngẫu nhiên Nếu hệ thống

chỉ tập trung phát hiện một loại bài đánh giá rác cụ thể, hệ thống này sẽ không có

hiệu quả trước các dạng khác Do đó, mục tiêu đặt ra là yêu cầu phương pháp có thể

xử lý được các dạng khác nhau của đánh giá rác có thể xuất hiện trên các TMĐT

Thứ hai, sự phát triển của kỹ thuật tạo ra đánh giá rác, đây cũng là một trong

những thách thức của bài toán Những người tạo ra các đánh giá này không ngừng

tìm cách để tránh bị hệ thống phát hiện bằng cách sử dụng các kỹ thuật mới như thayđổi các từ ngữ trong bài đánh giá, sử dụng các từ viết tắt hoặc thay đổi phong cách

viết nội dung câu bình luận Do đó, các hệ thống phát hiện cần phải liên tục cập nhật

để chống lại những thay đổi này Các mô hình học máy và học sâu có thể phân loại

các loại bài đánh giá rác tốt hơn so với các kỹ thuật truyền thống như rule-based.

Các kỹ thuật xử lý ngôn ngữ tự nhiên cũng được nghiên cứu và ứng dụng cho bài

toán, giúp cải thiện kết quả phân loại Tuy nhiên, đối với những ngôn ngữ khác nhaucần có những thay đổi phù hợp và liên tục cập nhật cho mô hình để có thể đạt được

hiệu quả tốt nhất.

Cuối cùng, theo sự hiểu biết tốt nhất của chúng tôi, hiện nay vẫn chưa có bộ dữliệu Tiếng Việt cho bài toán phát hiện đánh giá rác trên các trang TMĐT Trongtiếng Anh, có một vài bộ dữ liệu liên quan đến nghiên cứu phát hiện nội dung spam,còn trên Tiếng Việt thì chủ yếu liên quan đến phân tích cảm xúc, thái độ của khách

hàng và vẫn chưa có bộ dữ liệu cho bài toán này Vì vây, xây dựng bộ dữ liệu là bước

đầu tiên cho việc nghiên cứu bài toán Trong quá trình xây dựng bộ dữ liệu, cần phảixác định nguồn thu thập, sau đó tiến hang thu thập và gan nhãn dữ liệu Đối với giaiđoạn gán nhãn, khó khăn lớn nhất chính là độ đồng thuận thấp giữa những người gán

nhãn vì mỗi người sẽ có những quan điểm khác nhau Do đó, cần phải có một tiêu

chuẩn chung trong việc nhận định một bài đánh giá là đánh giá rác.

1.4 Mục tiêu của đề tài

Trong dé tài nghiên cứu này, một số mục tiêu được chúng tôi đặt ra như sau:

s Xây dựng được bộ dữ liệu cho bài toán phân loại các bài đánh giá rác trên các

Trang 17

1.5 PHƯƠNG PHAP NGHIÊN CUU

trang TMDT Tiếng Việt

« Tìm hiểu, thử nghiệm va đánh giá hiệu quả một số mô hình máy học trên bộ

1.5 Phương pháp nghiên cứu

Chúng tôi thực hiện dé tài này theo các bước như sau:

Đầu tiên, chúng tôi xây dựng bộ dit liệu cho bài toán nhận diện các bài đánh giá rác trên các trang TMĐT Tiếng Việt Như đã đề cập trong Phần 1.3, do hiện tại chưa

có dữ liệu Tiếng Việt nên trước tiên chúng tôi cần phải xây dựng bộ dữ liệu Chúngtôi chọn hai nền tảng Shopee và Tiki là nguồn để thu thập dữ liệu các bài đánh giácủa người dùng và các thông tin liên quan tới sản phẩm được đánh giá Sau đó tiến

hành xây dựng hướng dẫn gán nhãn và thực hiện gán nhãn cho bộ dữ liệu cũng như

đánh giá độ đồng thuận Bộ dữ liệu của chúng tôi được xây dựng với quy trình gánnhãn nghiêm ngặt để đảm bảo chất lượng, có thể đáp ứng yêu cầu cho bài toán

Thứ hai, nghiên cứu một số phương pháp cho bài toán nhận diện các bài đánhgiá rác Sau khi đã xây dựng bộ dữ liệu, chúng tôi nghiên cứu và thử nghiệm một số

phương pháp cho bài toán Có nhiều hướng tiếp cận để giải quyết bài toán, trong đó

học sâu (deep learning) là phương pháp được sử dụng nhiều nhất trong những nămgần đây và mang lại độ chính xác cao trong các bài toán phân loại Do đó, hướngtiếp cận của chúng tôi là ứng dụng các mô hình deep learning để phân loại các bài

đánh giá rác Các mô hình mạng no-ron học sâu được áp dụng trên bộ dữ liệu bao

gồm TextCNN, BiLSTM và BiGRU Ngoài ra, các mô hình học chuyển tiếp (transferlearning) cũng được sử dụng phổ biến trong những năm gần đây và mang lại hiệusuất cao trên các bài toán cụ thể trong đó có phân loại văn bản Chúng tôi áp dụnghai mô hình học chuyển tiếp sử dụng kiến trúc transformer cho bài toán chúng tôi là

PhoBERT và BERT4News.

Trang 18

1.6 NHỮNG DONG GOP CUA DE TÀI

Thứ ba, thử nghiệm va so sánh các phương pháp, phân tích kết qua dat được trên

bộ dữ liệu Sau khi đã xây dựng bộ dữ liệu và nghiên cứu các phương pháp, chúng

tôi chia bộ dữ liệu thành các tập huấn luyện (train), phát triển (dev) và kiểm thử

(test) để tiến hành huấn luyện và đánh giá các mô hình Hai độ đo là Accuracy vàFl-score được sử dụng để đánh giá hiệu suất các mô hình Sau đó, chúng tôi thựchiện phân tích lỗi và tìm hiểu lý do tại sao mô hình nhận diện chưa tốt trên một sốnhãn từ đó tìm cách cải thiện hiệu suất của mô hình

Cuối cùng, thử nghiệm và so sánh hiệu quả một số phương pháp kết hợp

meta-data Từ kết quả phân tích lỗi, chúng tôi nhận thấy rằng một số bài đánh giá có nội

dung chưa đủ để xác định một bài đánh giá có phải là đánh giá rác hay không Do

đó, chúng tôi tìm hiểu và thử nghiệm một số phương pháp kết hợp metadata vào các

mô hình phân loại, sau đó đánh giá hiệu quả của các phương pháp này đối với bài

toán.

1.6 Những đóng góp của đề tài

Những đóng góp của chúng tôi trong đề tài này như sau:

» Xây dựng bộ dữ liệu ViSpamReviews với quy trình gan nhãn nghiêm ngặt cho

bài toán phát hiện đánh giá rác trên các trang TMĐT Tiếng Việt

» Thử nghiệm và đánh giá hiệu suất của một số mô hình mạng nơ-ron học sâu bao

gồm TextCNN, BiLSTM và BiGRU, cùng với đó là các mô hình học chuyểntiếp gồm PhoBERT và BERT4News

¢ Phân tích hiệu qua của việc chỉ sử dụng bình luận của người dùng trong việc

phân loại các bài đánh giá rác trên các TMĐT Tiếng Việt và tìm ra một sốnguyên nhân dẫn đến sự nhầm lẫn trong việc dự đoán nhãn của các bài đánh

giá.

« Đề xuất phương pháp cải thiện hiệu suất của bài toán phát hiện đánh giá rác

với việc kết hợp metadata vào các mô hình phân loại bao gồm dữ liệu dạng

danh mục và dạng van bản.

Trang 19

1.7 CAU TRÚC KHÓA LUẬN

¢ Thử nghiệm và so sánh hiệu quả của các phương pháp kết hợp metadata, đánh

giá sự ảnh hưởng của chúng lên kết quả dự đoán nhãn của các bài đánh giá.

s Xây dựng chương trình minh hoa cho việc phát hiện va lọc ra các bài đánh gia

rác trên hai nền tảng Shopee và Tiki.

Ngoài ra, đề tài khóa luận tốt nghiệp này cũng được chấp nhận tại hội nghị khoahọc quốc tế sau:

Van Dinh, Co, S T Luu, và A G.-T Nguyen, Detecting Spam Reviews on

Vief-namese e-Commerce Websites 14th Asian Conference on Intelligent Information

and Database Systems (ACHDS 2022).

1.7 Cau trúc khóa luận

Khóa luận này gồm có 7 chương với nội dung như sau:

Chương 1, giới thiệu tổng quan như đã được trình bày ở trên Trong đó, chúng

tôi trình bày sự phát triển của thị trường TMĐT ở Việt Nam trong những năm gần

đây và vấn đề xuất hiện ngày càng nhiều các bài đánh giá rác Bên cạnh đó, chúng

tôi cũng trình bày những thách thức, mục tiêu, phương pháp nghiên cứu và những

đóng góp của chúng tôi trong dé tài này

Chương 2, trình bày cơ sở lý thuyết của dé tài nghiên cứu Trong đó, chúng tôi

sẽ mô tả bài toán và khảo sát các công trình liên quan Sau đó giới thiệu hai hướng

tiếp cận cho bài toán phát hiện bài đánh giá rác bao gồm rule-based và model-based.Tiếp theo, chúng tôi trình bày một số kỹ thuật trích xuất đặc trưng từ văn bản, một

số mô hình mạng nơ-ron học sâu và mô hình học chuyển tiếp được sử dụng cho bài

toán phát hiện các bài đánh giá rác Cuối cùng là giới thiệu một số phương pháp kết

hợp metadata vào mô hình phân loại bao gồm dữ liệu dạng danh mục và dạng văn

bản.

Chương 3, trình bày quy trình xây dựng bộ dữ liệu cho bài toán Trong chương

này, chúng tôi sẽ mô tả chi tiết về quá trình thu thập dữ liệu, các công cu dùng để

thu thập va gan nhãn dif liệu, xây dựng hướng dẫn gán nhãn và quá trình thực hiện

gán nhãn cho bộ dữ liệu và phương pháp đánh giá độ đồng thuận giữa những người

gán nhãn.

Trang 20

1.7 CAU TRÚC KHÓA LUẬN

Chương 4, chúng tôi sẽ trình bày chi tiết cách cài đặt thử nghiệm của chúng tôi.Trong đó bao gồm các độ đo đánh giá, các bước tiền xử lý dữ liệu và chỉ tiết thiết

lập thông số để huấn luyện mô hình.

Chương 5, trình bày chi tiết các kết quả thử nghiệm trên bộ dữ liệu thu thập được.Trong đó, chúng tôi sẽ trình bày kết quả thử nghiệm ban đầu và phân tích lỗi Sau đótrình bày tổng quan về phương pháp đề xuất kết hợp metadata hai thuộc tính danh

mục sản phẩm và mô tả sản phẩm Tiếp theo, chúng tôi thử nghiệm và đánh giá hiệu

suất các mô hình khi kết hợp metadata trên bộ dữ liệu, sau đó phân tích lỗi trongtừng trường hợp Cuối cùng, chúng tôi đánh giá hiệu quả của phương pháp dé xuất

Chương 6, chúng tôi trình bày chương trình minh họa cho bài toán phát hiện đánh

giá rác Sau khi đã thử nghiệm và đánh giá kết quả, chúng tôi tiến hành xây dựngchương trình minh họa Các nội dung trình bày bao gồm kiến trúc tổng quan, xây

dựng và đánh giá chương trình minh họa.

Chương 7, đây cũng là chương cuối cùng của khóa luận, từ những kết quả nghiêncứu, chúng tôi sẽ đi đến kết luận dé tài bao gồm những kết quả đạt được, hạn chế

cũng như hướng phát triển trong tương lai.

10

Trang 21

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 Mô tả bài toán

2.1.1 Khai niệm bài đánh giá, bài đánh giá rác

Bài đánh giá trên các trang TMĐT là một hình thức phản hồi từ phía người dùng về

chất lượng sản phẩm đã mua hoặc dịch vụ bán hàng, hình thức này được áp dụngtrên hầu hết các nền tảng hoặc các trang web mua bán trực tuyến Các bài đánh giáthường bao gồm các ý kiến, nhận xét hoặc đánh giá từ người dùng đã mua và trải

nghiệm sản phẩm trước đó Những người mua hàng có thể đánh giá những khía cạnh

khác nhau của sản phẩm như chất lượng, đặc tính sản phẩm, dịch vụ và nhiều yếu tốkhác có liên quan Một bài đánh giá thường có điểm số hoặc xếp hạng để thể hiện

đánh giá tổng thể của người dùng về sản phẩm, chang hạn như đánh giá từ 1 đến 5

sao Bên cạnh đó, người mua hàng cũng có thể thêm các bình luận để mô tả chỉ tiết

về sản phẩm mà họ nhận được

Các bài đánh giá từ những người mua trước có vai trò quan trọng trong quyết

định mua hàng của người tiêu dùng, họ thường sử dụng những đánh giá này để hiểu

rõ hơn về sản phẩm trước khi quyết định mua Bên cạnh đó, các bài đánh giá cũng

giúp nhà cung cấp và người bán hàng cải thiện chất lượng sản phẩm và dịch vụ dựa trên những phản hồi từ phía người dùng Những bài đánh giá có nội dung tích cực

thường giúp tăng danh tiếng của nhà bán hàng và thu nhiều lợi nhuận, trong khi đónhững bài đánh giá giả mạo để quảng cáo hoặc làm mất danh tiếng của cửa hàng

cũng có ảnh hưởng đáng kể đến lợi ích của nhà bán hàng và nhà sản xuất Theo

Jindal và Liu [3, 4], những cá nhân tao ra các bài đánh giá này được gọi là những

người opinion spammers (những người gửi ý kiến rác) và hành động của họ gọi là

opinion spamming (gửi ý kiến rác) Các bài đánh giá được tạo ra bởi những ngườinày được gọi là các bài đánh giá rác (spam reviews), do đó chúng ta cần lưu ý rằngkhông phải tất cả các bài đánh giá đều chính xác và đáng tin cậy, có thể tổn tại cácbài đánh giá giả mạo từ đối thủ cạnh tranh hoặc người dùng không trung thực

Các bài đánh giá rác cần được phát hiện và loại bỏ để đảm bảo rằng ý kiến đánh

giá trên các trang TMĐT là nguồn thông tin đáng tin cậy, cung cấp cho người dùng

có cái nhìn khách quan và chính xác về sản phẩm Trong đề tài này, chúng tôi lựa

11

Trang 22

2.1 MÔ TẢ BÀI TOÁN

chọn phát hiện các bài đánh giá rác trên các trang TMDT và phân loại các bài đánh

giá rác dựa trên đặc điểm của chúng.

2.1.2 Định nghĩa các nhiệm vụ cho bài toán

Bài toán phát hiện các bài đánh giá rác của chúng tôi được xem như là bài toán phân

phân loại văn bản Trong đó, chúng tôi xác định hai nhiệm vụ cụ thể: Task 1 là nhiệm vụ phân lớp nhị phân để xác định xem một bài đánh giá có phải là đánh giá

rác hay không và Task 2 là nhiệm vụ phân loại nhiều lớp để xác định loại của các bài đánh giá rác dựa trên các đặc điểm của chúng Nhãn của bài đánh giá rác trong

Task 2 là một trong ba loại sẽ được trình bày chi tiết trong Phan 3.3.2 Chúng tôihuấn luyện cùng với các bài đánh giá thông thường để đồng thời phân loại bài đánhgiá rác và xác định loại của chúng để tránh dự đoán qua nhiều mô hình phức tạp

2.1.3 Bài toán phân loại và ứng dụng trong việc phát hiện bài đánh giá rác

Phân loại là bài toán được nghiên cứu phổ biến trong lĩnh vực học máy, với nhiệm

vụ dự đoán nhãn cho các dữ liệu đầu vào Mục tiêu của bài toán là xây dựng mô

hình dự đoán nhãn từ bộ dữ liệu đã được gán nhãn trước đó, mô hình sẽ học các đặc

trưng từ dữ liệu này và tìm ra quy luật dùng cho việc phân loại các điểm dit liệu mới.

S⁄ INBOX

ae

CLASSIFIER

SZ} SEE

Hình 2.1 Minh hoa bài toán phân loại email rác !.

'Nguén ảnh: https: //developers google com/machine-1earning/guides/

text-classification

12

Trang 23

2.1 MÔ TẢ BÀI TOÁN

Chang hạn như trong bài toán phân loại email rác, chúng ta xây dựng mô hình

dựa trên email đã có nhãn trước đó, khi có email mới được gửi đến sẽ qua bộ phân

loại để đặt các email vào thư mục tương ứng như được minh hoa trong Hình 2.1.

Bài toán phân loại được chia thành ba loại như sau:

¢ Phân loại nhị phân (binary classification): đây là bài toán phân loại mà mỗi

điểm dif liệu chỉ có thể thuộc một trong hai lớp.

« Phân loại nhiều lớp (multi-class classification): đây là bài toán loại mà mỗi

điểm dữ liệu thuộc một trong nhiều hơn hai lớp

s Phân loại nhiều nhãn (multi-label classification): đây là bài toán phân loại ma

mỗi điểm dữ liệu có thể có nhiều hơn một nhãn.

Chúng tôi áp dụng bài toán phân loại văn bản để phát hiện các bài đánh giá rác trên các trang TMĐT, cụ thể là bài toán văn loại văn bản cho các bình luận từ người

dùng Hai nhiệm vụ trong bài toán tương ứng với phân loại nhị phân và phân loại

nhiều nhãn.

Hình 2.2 Minh họa bài toán phát hiện các bài đánh giá rác.

Một cách tổng quan, cho một tập các bình luận đánh giá của người dùng W =

{w1, t0ạ, , to„}, mục tiêu của chúng tôi là huấn luyện một hàm ánh xạ f(W) để dựđoán chính xác nhãn € {z¡,a ,p} với p là số lớp, cụ thể trong bài toán của

chúng tôi p € {2,4} Khi hàm f(W) có trọng số đã được huấn luyện trên tập dữ liệu,

13

Trang 24

2.2 CÁC CÔNG TRÌNH LIÊN QUAN

chúng ta có thể sử dụng nó để dự đoán nhãn cho các bài đánh giá khác trong tương

lai Ngoài bình luận của người dùng, hàm f(W) còn được tùy chỉnh để có thể kết hợp thêm một số thuộc tính phụ của bài đánh để tăng hiệu quả dự đoán Bài toán

phát hiện đánh giá rác của chúng tôi được mô tả như sau:

« Input: Một bài đánh giá của người dùng (số sao, bình luận) và có thể thêm

một số thuộc tính phụ liên quan đến sản phẩm (danh mục, mô tả sản phẩm).

« Output: Nhãn của bài đánh giá này nhằm xác định bài đánh giá có phải là

đánh giá rác hay không và nếu là đánh giá rác thì xác định loại của chúng

2.2 Các công trình liên quan

Nghiên cứu sơ bộ đã chỉ ra vấn đề ý kiến rác (opinion spam) xuất hiện nhiều trên

các nội dung web [3] Các nghiên cứu sau đó đã đặt ra những thách thức trong việc

phát hiện các ý kiến rác, bên cạnh đó cũng chỉ đặc điểm và dé xuất ba khía cạnh cho

các ý kiến rác đó [4].

Về bộ dữ liệu, trong Tiếng Anh, có một vài bộ dữ liệu đã được giới thiệu cho

bài toán phát hiện đánh giá rác như Yelp Dataset [5], AMT-TripAdvisor [6],

Rules-Amazon [4] Trong Tiếng Việt, cũng có một số bộ dữ liệu về đánh giá của người

dùng trên các nền tảng TMĐT, chang hạn như bộ dữ liệu về đánh giá điện thoại và

nhà hàng [7, 8], bộ dif liệu phản hồi về điện thoại thông minh [9, 10] và bộ dif liệu phát hiện khiếu nại trên trang web TMĐT [11] Tuy nhiên, vẫn chưa có bộ dữ liệu

cụ thể để phát hiện đánh giá rác trên các trang TMĐT Việt Nam Do đó, động lực

của chúng tôi là xây dựng một bộ dữ liệu phục vụ cho bài toán phát hiện đánh giá

rác trên các nền tảng TMĐT của Việt Nam.

Về phương pháp, có nhiều hướng nghiên cứu cho bài toán phát hiện nội dung rác

trong đó một vài nghiên cứu đã sử dụng các mẫu (pattern) và quy luật (rule) để lọc ra

các nội dung spam [12, 13, 14] Một vài nghiên cứu sau đó đã sử dụng các phương

pháp máy học truyền thống như SVM, Naive Bayes, Logistic Regression cho hiệuquả tốt hơn so với việc sử dụng rule-based [5, 15] Gần đây, các nghiên cứu ứng

dụng deep learning để phát hiện đánh giá rác đã đạt được hiệu quả vượt trội hơn so

với phương pháp rule-based va các mô hình máy học truyền thống [16, 17, 18] Bên

14

Trang 25

2.3 PHƯƠNG PHÁP PHÁT HIỆN BÀI ĐÁNH GIÁ RÁC

cạnh đó, việc kết hợp giữa rule-based với mạng nơ-ron cũng được dé xuất cho bài

toán phát hiện các hành vi spam [19].

Bài toán phát hiện đánh giá rác được xem như là bài toán phân loại văn bản, các

mô hình state-of-the-art như BERT [20] được áp dụng thường mang lại hiệu suất

tương đối cao Tuy nhiên, các mô hình này không thể tận dụng hết các đặc trưng

từ bộ dữ liệu, đặc biệt là các thuộc tính dạng danh mục Một vài nghiên cứu đã đềxuất phương pháp kết hợp metadata dạng danh mục cho bài toán phân loại trên các

mô hình mạng nơ-ron học sâu nhằm hướng sự chú ý của mô hình đến các đặc trưngkết hợp dé tăng cường kha năng phân loại [21, 22, 23] Một phương pháp được dé

xuất nhằm tận dụng hiệu quả các mô hình hiện đại để tạo ra vector đặc trưng từ văn

bản có mối quan hệ ngữ nghĩa [24] Trong nghiên cứu này, chúng tôi không chỉ sử

dụng bình luận của người dùng như là đặc trưng để phân loại bài đánh giá rác mà

còn hướng đến việc kết hợp các metadata nhằm tăng cường khả năng phân loại và

cải thiện hiệu suất của mô hình

2.3 Phương pháp phát hiện bài đánh giá rác

2.3.1 Dựa trên quy luật

Phương pháp phân loại bài đánh giá rác dựa trên quy luật (rule-based) là phương

pháp cơ bản được sử dụng để nhận dạng và phân loại các nội dung rác dựa trên việc

áp dụng các quy luật để xác định tính spam của nội dung đó [25] Quy trình của

phương pháp này như sau [26]:

» Xây dựng tập quy luật: Trước tiên, can xây dựng một tập quy luật dựa trên các

đặc điểm hoặc quy tắc mà nội dung spam thường có Một số tiêu chí để xây

dựng tập quy luật như từ khóa, độ dài nội dung, ký tự đặc biệt, được sử dụng

phổ biến trong các nội dung rác.

° Áp dụng tập quy luật: Sau khi tập quy luật đã được xây dựng, các nội dung

mới sẽ được áp dụng trên tập này Trong quá trình áp dụng, nếu nội dung nằm

trong tập quy luật sẽ được tích lũy điểm số để sử dụng trong việc phân loại

* Phân loại nội dung: Dựa trên điểm số tích lũy, néu vượt qua ngưỡng sé phân

15

Trang 26

2.4 CÁC KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG

loại nội dung đó là nội dung rác.

Ưu điểm của phương pháp nay là dé dàng triển khai và điều chỉnh, tuy nhiênnhược điểm là cần xây dựng tập quy luật lớn và thường cho hiệu quả không cao [27]

Do đó, trong nghiên cứu này chúng tôi không sử dụng rule-based là phương pháp

cho việc phân loại các bài đánh giá.

2.3.2 Dựa trên mô hình học máy

Hiện nay, với lượng dữ liệu lớn khó có thể tìm ra các quy tắc chung để xác định bàiđánh giá rác, tuy nhiên đây lại là nguồn tài nguyên để huấn luyện các mô hình học

máy Chính vì vậy, việc ứng dụng phương pháp model-based thường cho hiệu quả

cao hơn so với rule-based Mô hình máy học sử dụng các thuật toán để tự động học

từ dữ liệu huấn luyện và nhận biết các đặc điểm của bài đánh giá rác Điều này tạo ramột hệ thống phát hiện spam linh hoạt và mạnh mẽ, có khả năng phát hiện và điềuchỉnh khi có các hình thức spam mới Một vài khảo sát về việc sử dụng kỹ thuật học

máy trong bài toán phát hiện đánh giá rác đã chỉ ra hiệu quả hơn so với các phương

pháp thông thường [28, 29].

Trong dé tài này, thay vì sử dụng phương pháp rule-based hay các phương pháphọc máy truyền thống, chúng tôi hướng đến việc ứng dụng các mô hình deep learning

trong việc phân loại bài đánh giá rác để mang lại hiệu quả cao.

2.4 Các kỹ thuật trích xuất đặc trưng

Các mô hình học máy và các kiến trúc deep learning đều không thể xử lý văn bản

thô Do đó, biểu diễn văn bản thành các vector đặc trưng được sử dụng để chuyển

đổi văn bản thành dạng số hóa để có thể sử dụng trong các mô hình học máy Các từ

trong văn bản được biểu diễn thành các vector có giá trị thực, kỹ thuật này được gọi

là nhúng từ (word embedding) và các vector này nằm trong một không gian vectorđược xác định trước trong đó thể hiện được mối quan hệ ngữ nghĩa giữa các từ trong

văn bản Nhúng từ có thể được chia thành hai loại: frequency-based embedding và

prediction-based embedding.

Phương pháp frequency-based embedding dựa vào tần suất xuất hiện của các từ

16

Trang 27

2.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI DANH GIÁ

RÁC

để tạo ra các vector từ Một số phương pháp để tạo ra các vector từ dựa vào tần suấtxuất hiện có thể kể đến như Count Vector (đếm số lần xuất hiện của các từ trong

văn bản), TF-IDF Vector [30] (tính toán giá trị đặc trưng cho mỗi từ trong văn ban

dựa trên tần suất xuất hiện của từ đó trong văn bản và trong toàn bộ tập văn bản) vàCo-Occurrence Vector [31] (dựa trên mối quan hệ xuất hiện cùng nhau giữa các từtrong văn bản) Các phương pháp này có ưu điểm là dễ triển khai nhưng không nắmbắt được ngữ nghĩa của từ, cấu trúc ngữ pháp và không xử lý được từ không xuất

hiện trong tập từ vựng.

Phương pháp prediction-based embedding dựa trên các mô hình dự đoán để tạo

ra các vector từ Một số phương pháp phổ biến được sử dung là Word2Vec [32],

GloVe [33] và FastText [34] Trong đó, nổi bat là phương pháp Word2Vec — mô

hình được kết hợp từ hai kỹ thuật Continuous Bag Of Words - CBOW (lấy từ đầu vào là ngữ cảnh để dự đoán các từ xung quanh nó) và mô hình Skip-gram (sử dụng

ngữ cảnh xung quanh để dự đoán từ đầu vào) Trong khi đó GloVe nhúng từ dựatrên việc kết hợp thông tin tần suất xuất hiện va thông tin co-occurrence của từ, còn

FastText dựa trên việc biểu diễn từ thành các n-gram (chuỗi các ký tự liên tiếp) và học vector nhúng cho các n-gram đó Ưu điểm của những phương pháp này là biểu

diễn được nghĩa của từ và cấu trúc ngữ pháp, có khả năng gom cụm từ có ý nghĩatương tự lại gần nhau trong không gian vector, nhưng cần phải có lượng dữ liệu lớn

để huấn luyện mô hình cũng như thời gian và tài nguyên để tính toán

Trong dé tai phát hiện bài đánh giá rác trên các trang TMĐT, chúng tôi sử dụng

bộ vector biểu diễn từ cho Tiếng Việt của Grave và các cộng sự [35] để cài đặt huấnluyện các mô hình mạng nơ-ron học sâu sẽ được trình bày trong Phần 4.3 Chúngtôi sử dụng bộ vector từ này vì từ những kết quả thử nghiệm trước đây đã cho thấy

nó hiệu quả tốt trên dữ liệu văn bản truyền thông và xã hội [36].

2.5 Các thuật toán hoc máy cho bài toán phân loại bài đánh gia rác

2.5.1 Các mô hình mạng nơ-ron học sâu

Các mô hình mạng nơ-ron học sâu được chúng tôi thử nghiệm cho bài toán phân

loại các bài đánh giá rác bao gồm TextCNN [37], LSTM [38] và GRU [39] với lớp

17

Trang 28

2.5 CÁC THUẬT TOÁN HOC MAY CHO BÀI TOÁN PHAN LOẠI BÀI ĐÁNH GIÁ

triển của deep learning như ngày nay Trong thị giác máy tính, CNN được sử dụng

để trích xuất các đặc trưng từ hình ảnh để giải quyết nhiều bài toán khác nhau Bên

cạnh đó, CNN còn được sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên như

bài toán phân loại văn bản hay còn gọi là Convolutional Neural Network for Text

Classification (TextCNN) Mô hình này được dé xuất bởi Kim vào năm 2014 [37],TextCNN có nhiệm vụ trích xuất các đặc trưng có giá trị từ văn bản và dùng nó cho

việc phân loại Kiến trúc mô hình này được minh họa trong Hình 2.3.

Hình 2.3 Kiến trúc mô hình TextCNN [37]

Các lớp chính của mô hình bao gồm lớp biểu diễn văn bản (text representation),lớp tích chập (convolutional layer), lớp gộp (pooling layer) và lớp kết nối đầy đủ

(fully-connected layer) Cụ thể, các lớp này hoạt động như sau, cho một chuỗi văn ban, x; € R* là vector từ có kích thước š tương ứng với từ thứ i trong chuỗi văn bản

đó Một chuỗi văn bản có độ dài n được biểu diễn dưới dạng:

18

Trang 29

RÁC

#Z1„=#+@®22@® O4„

Trong đó @ là toán tử nối, Liitj thể hiện cho việc ghép các từ 7;, 7441, , Li4j

lại với nhau Phép tính tích chập với bộ lọc w € IR°* được áp dung cho một cửa sổ

gồm h từ để tao ra các đặc trưng Một đặc trưng được tạo ra từ một cửa số bởi các từ

Xji+h—1 như sau:

c= (0 -#j+p—1 + 6)

Trong đó b là giá tri bias và ƒ là một hàm biến đổi phi tuyến như tanh Bộ locnày được áp dung cho mỗi cửa số có thể có trong câu {z1;„, #s;,+_1 - ,#„—n-_1:„ } đểtạo ra một bản đồ đặc trưng (feature map) như sau:

c= [ci 7 C9; cà) Cn—h+1]

Với c € IR“~"*!, Sau đó lớp gộp được áp dụng lên feature map, chẳng hạn sẽ lấy

giá trị lớn nhất ê = zaz{e} tương ứng cho lớp gộp max pooling Điều này được thực

hiện nhằm giữ lại đặc trưng có giá trị cao nhất trong mỗi feature map

Mô hình này sử dụng nhiều bộ lọc với các kích thước khác nhau để tạo ra nhiềuđặc trưng trong văn bản Các đặc trưng này sau đó được đưa đến lớp kết nối đầy

đủ và sử dụng hàm kích hoạt softmax để dự đoán xác xuất các lớp văn bản Ngoài

ra, lớp dropout cũng có thể được sử dụng để tránh van dé overfitting trong quá trình

huấn luyện.

2.5.1.2 Bidirectional Long Short-Term Memory

Long Short-Term Memory (LSTM) là một Recurrent Neural Network (RNN) được

giới thiệu năm 1997 bởi Hochreiter và các cộng sự [38] Về lý thuyết, RNNs thông

thường có liên kết các thông tin trước đó với các thông tin hiện tại nhưng trong một

số trường hợp ta chỉ cần xem xét một số thông tin trước hay còn gọi là ngữ cảnh

để hoàn thành nhiệm vụ hiện tại Tuy nhiên, RNN chỉ có thể học được các thông

tin trong quá khứ nếu khoảng cách giữa thông tin có liên quan và vị trí cần thông

19

Trang 30

2.5 CÁC THUẬT TOÁN HỌC MÁY CHO BÀI TOÁN PHÂN LOẠI BÀI ĐÁNH GIÁ

RÁC

tin này là nhỏ Nhưng có những trường hợp cần ngữ cảnh để có thể đưa ra dự đoántốt, khi đó khoảng cách giữa chúng lại là rất lớn và RNN không thể học được Do

đó, kiến trúc mạng LSTM được giới thiệu để giải quyết van dé này, mô hình có kha

năng học từ các chuỗi văn bản để đưa ra dựa đoán nhãn dựa vào ngữ cảnh của nó.

Mô hình này cho phép xử lý đồng thời toàn bộ chuỗi dữ liệu mà không cần phải theo

một trình tự nào, các thông tin hữu ích trước đó sẽ được giữ lại để xử lý các dữ liệu

mới Chính vì thế, mô hình LSTM cho hiệu suất vượt trội hơn so với RNN trong

nhiều bài toán khác nhau.

LSTM Architecture hy

Hình 2.4 Kiến trúc một tế bao trong mô hình LSTM.

Kiến trúc LSTM gồm các các tế bào (units) để xử lý dữ liệu, chúng tôi minh họa

một unit trong mô hình LSTM như Hình 2.4 Đầu tiên, mô hình sẽ tính toán để đưa

ra quyết định các thông tin nào sẽ loại bỏ khỏi trạng thái hiện tại Điều này được

thực hiện bởi một hàm sigmoid như sau:

fr = ø(Wt - [ht-1, #4] + bf)

Trong đó, W; va br lần lượt là trọng số học của mô hình va bias, h;_¡ là thông tincủa tế bào trước đó, còn x; là thông tin được truyền vào Ham này xé xem xét hai

giá trị h;_¡ và 2; và trả về kết quả trong khoảng từ 0 đến 1, nó sẽ quyết định loại bỏ

hoặc giữ lại các thông tin trước đó Cổng thực hiện nhiệm vụ này gọi là forget gate.

Tiếp theo, mô hình tiếp tục tính toán để quyết định các thông tin nào sẽ được lưutrữ ở trạng thái tế bào này Cổng input gate là một hàm sigmoid quyết định những

20

Trang 31

RÁC

giá tri sẽ thực hiện cập nhật lại 7, theo công thức:

ig = ø(W; - |hị T1, 24] + bị)

Hàm tanh được sử dụng để tạo ra các vector chứa các giá trị mới có thể được

thêm vào trạng thái hiện tại Ở; như công thức sau:

Cr = tanh(We - [hi-1, 21] + be)

Sau đó, thực hiện cập nhật lai trang thái trước đó bằng cách tính tích giữa Œ;_¡

với ƒ, để quên những thông tin đã quyết định bỏ trước đó Sau đó cộng với i,C;, đây

là các thông tin mới sẽ thêm vào:

Trong đó, ký hiệu © là phép nhân từng phan tử của ma trận với nhau wise multiplication) Cuối cùng, trạng thái sẽ quyết định những thông tin gì được sử

(element-dụng làm đầu ra cho trạng thái hay còn gọi là output gate Các thông tin đầu ra này

sẽ được quyết định dựa trên trạng thái hiện tại nhưng có sự chọn lọc Đầu tiên, hàmsigmoid được sử dụng để quyết định mức độ ảnh hưởng của các phần tử trong trạngthái hiện tại làm đầu ra o;, dựa trên mức độ quan trọng của chúng :

On = ơ(W, : [h¿—1 #4] + bo)

Sau đó, đặt C; trong hàm tanh và nhân với giá trị đầu ra của cổng sigmoid o; đểcác thông tin đã được quyết định làm dau ra cho trạng thái hiện tại h;:

Một cách tổng quan, trong kiến trúc mô hình LSTM, mỗi tế bào gồm ba cổng:

forget gate (f;), input gate (¿) và output gate (o¿) Trong đó, forget gate sẽ loại bỏ các

thông tin không cần thiết khỏi ngữ cảnh, input gate sé chọn các thông tin để thêm

vào ngữ cảnh và output gate sẽ quyết định các thông đầu vào có thật sự cần thiết và

21

Trang 32

nắm bắt ngữ cảnh trong chuỗi văn bản để đưa ra nhãn hợp lý

Ngoài ra, lớp Bidirectional được đề xuất bởi Schuster và các cộng sự [42] thường

được kết hợp vào LSTM tạo thành mô hình Bidirectional Long Short-Term Memory (BiLSTM) để có khả năng học và hiểu các mối quan hệ phụ thuộc ngữ cảnh từ cả

hai phía của dữ liệu chuỗi Lớp Bidirectional có tác dụng kết hợp thông tin từ cả haihướng của một chuỗi văn bản đầu vào, nó sử dụng hai mạng LSTM độc lập: một

mạng xử lý chuỗi từ trái sang phải và một mạng xử lý từ phải sang trái, cho phép

truy cập thông tin từ cả hai phía của dữ liệu.

2.5.1.3 Bidirectional Gated Recurrent Unit

Gated Recurrent Unit (GRU) là một biến thể của LSTM, được dé xuất bởi Cho va

các cộng sự năm 2014 [39] Đây cũng là mô hình RNN được tạo ra cho bài toán dịch

máy, nhưng mô hình này cũng có thể tùy chỉnh để sử dụng cho bài toán phân loại

văn bản Tương tự như LSTM, mỗi đơn vị tế bào trong GRU có các cổng để điềuchỉnh lượng thông tin ở mỗi trạng thái Chúng tôi minh họa một tế bào trong GRUnhư Hình 2.5, mỗi đơn vị tế bào trong mô hình này gồm có hai cổng: update gate

(%) và reset gate (r;).

* Update gate: cổng này hoạt động như hai cổng trong LSTM là input gate và

forget gate, được sử dung để giữ lại các thông tin có giá trị trong quá khứ.

* Reset gate: quyết định các thông tin trong quá khứ cần phải quên di

Dựa theo Hình 2.5, chúng ta có thể thấy rằng, giá trị của h; tai thời điểm ¢ là được

tính bởi hàm nội suy tuyến tính giữa h¿_¡ và những ứng cử viên h; theo công thức:

22

Trang 33

2.5 CÁC THUẬT TOÁN HỌC MÁY CHO BÀI TOÁN PHÂN LOẠI BÀI ĐÁNH GIÁ

RÁC

Hình 2.5 Kiến trúc một tế bào trong mô hình GRU

Trong đó ký hiệu © là phép nhân từng phan tử của ma trận với nhau wise multiplication) và update gate z/ sẽ quyết định mức độ cập nhật các thông tin

(element-được tính theo công thức:

a= ơ(W; [hi—1, #:])

Với W, là trọng số học của mô hình Quá tình lấy tổng tuyến tính giữa trang tháihiện tại và trạng thái mới được tính toán tương tự như trong kiến trúc của mô hình

LSTM Tuy nhiên, trong GRU không có cơ chế để kiểm soát mức độ các thông tin

sẽ được sử dụng để làm đầu ra của trạng thái, điều này có nghĩa là không có sự chọnlọc mà toàn bộ các thông tin sẽ được sử dụng để làm đầu ra

Các thông tin ứng cử viên ñ; được tính toán tương tự như trong kiến trúc RNN

thông thường theo công thức sau:

Trong đó z¿ là reset gate, khi reset gate tắt đồng nghĩa với r; có giá trị gần bang

0, lúc này reset gate có tác dụng làm cho đơn vị trạng thái hiện tại hoạt động giốngnhư đang đọc ký tự đầu tiên trong chuỗi đầu vào, cho phép nó quên trạng thái đãtính toán trước đó Với W, là trọng số học của mô hình, reset gate được tính toán

theo công thức sau:

23

Trang 34

RÁC

r= ơ(W [he—1, Xt])

Chúng ta dé dàng nhận ra sự khác nhau trong kiến trúc hai mô hình LSTM va

GRU, trong khi LSTM có ba cổng: forget gate, input gate, output gate và thì GRU

chỉ có hai cổng: update gate và reset gate nên số lượng tham số huấn luyện ít hơn, do

đó sử dụng ít bộ nhớ hơn và thời gian huấn luyện sẽ nhanh hơn Tuy nhiên, đối với

các chuỗi văn bản dài hoặc dữ liệu có mối quan hệ với nhau có khoảng cách lớn thì

mô hình LSTM sẽ nắm bắt được thông tin tốt hơn Chính vì vậy, không thể chứngminh mô hình nào sẽ cho kết quả tốt hơn và chúng ta thường thử nghiệm cả hai môhình để xác định mô hình nào cho kết quả tốt trong bài toán cụ thể Cũng tương tự

như trong BiLSTM, lớp Bidirectional [42] cũng được sử dụng cùng với GRU tạo ra

mô hình Bidirectional Gated Recurrent Unit (BiGRU) để học các thông tin từ cả hai

phía của chuỗi văn bản, từ đó mang lại hiệu suất tốt hơn

2.5.2 Mô hình học chuyển tiếp

Bidirectional Encoder Representations from Transformers (BERT) là mô hình ngôn

ngữ dựa trên kiến trúc transformer [43], được giới thiệu bởi Devlin và các cộng sự

vào năm 2019 [20] Sự ra đời của BERT nhận được nhiều sự chú ý và có những

đóng góp đáng kể cho các tác vụ trong xử lý ngôn ngữ tự nhiên do khả năng hiểu

được ngữ nghĩa của văn bản Mô hình BERT được huấn luyện trước trên một tập

dữ liệu lớn từ các nguồn khác nhau, sau đó có thể sử dụng cho nhiều bài toán cụ thể như phân loại văn bản (text classification), hỏi đáp (question answering), dịch máy (machine translation), nhận dạng thực thể (named entity recognition) BERT

sử dụng kiến trúc mã hóa đồng thời theo cả hai hướng (bidirectional), cho phép mô

hình có khả năng hiểu được ngữ cảnh xung quanh của một từ trước và sau nó trong câu Một trong những điểm mạnh của BERT là khả năng tạo ra các biểu diễn từ giàu

ngữ nghĩa, các biểu diễn từ được tạo ra phụ thuộc vào ngữ cảnh, giúp mô hình hiểu được nghĩa của từ trong từng văn bản cụ thể.

Có hai bước trong mô hình BERT: pre-training và fine-tuning được minh họa trong Hình 2.6.

24

Trang 35

RÁC

Hình 2.6 Tổng quan quy trình pre-training và fine-tuning của mô hình BERT [20].

* Pre-training: Mô hình được huấn luyện trên dữ liệu chưa được gán nhãn cho

các nhiệm vụ pre-training khác nhau.

* Fine-tuning: Mô hình sẽ khởi tạo các tham số đã được pre-training và tất cả

các tham số sẽ được tinh chỉnh bằng cách huấn luyện trên dif liệu được gán

nhãn cho từng bài toán cụ thể.

Mô hình BERT có thể nhận đầu vào là một câu hoặc một cặp câu Mỗi từ được

biểu diễn bởi một mã thông báo (token), token đầu tiên của mỗi câu luôn là tokenphân loại đặc biệt [CLS] Trạng thái ẩn cuối cùng tương ứng với token này được sử

dụng để làm đại diện tổng hợp cho việc phân loại Nếu là một cặp câu sẽ được nối

lại với nhau va phân tách bởi token [SP] Bên cạnh đó, nhóm tác giả cũng thêm

lớp embedding cho mỗi token để xác định chúng thuộc câu nào Biểu diễn đầu vào

mỗi token được tính bằng tổng token, phân đoạn và vị trí nhúng (xem Hình 2.7)

Trang 36

RÁC

Trong quá trình pre-training, BERT có hai mục tiêu là Masked Language eling và Next Sentence Prediction.

Mod-° Masked Language Modeling (MLM): Chọn ngẫu nhiên token trong chuỗi va

thay bang token [MASK], mục tiêu là dự đoán token này Nhóm tác giả lấyngẫu ngién 15% token đầu vào để thay thé, trong đó 80% thay bằng token

[MASK], 10% bên trái không thay đổi và 10% còn lại thay bằng token được

chọn ngẫu nhiên từ tập từ vựng.

¢ Next Sentence Prediction (NSP): Mục tiêu là dự đoán một câu có phải là câu

tiếp theo của câu ban đầu hay không Đây là bài toán phân loại nhị phân, trong

đó các mẫu positive được tạo ra bằng cách lấy các câu liên tiếp từ văn bản, còn

negative được tạo ra bằng cách ghép các phân đoạn từ các văn bản khác nhau

và số lượng hai mẫu này là như nhau NSP giúp cải thiện hiệu suất đối với các bài toán cụ thể như suy luận ngôn ngữ tự nhiên, hỏi đáp các nhiệm vụ này

thường yêu cầu mối quan hệ ngữ nghĩa giữa các cặp câu

Các phiên bản rút gon và cải tiến của mô hình BERT cũng được giới thiệu sau

đó như:

*® RoBERTa (Robustly optimized BERT approach) [44]: Mô hình này loại bỏ

bước NSP trong BERT và tập trung duy nhất vào MLM, giúp học được biểu

diễn ngôn ngữ tốt hơn

° ALBERT (A Lite BERT) [45]: Phiên ban này giảm kích thước và tăng tốc độ

huấn luyện mà vẫn duy trì được hiệu suất biểu diễn ngôn ngữ nhờ vào việcchia sẻ trọng số giữa các lớp encoder

¢ DistiIBERT [46]: Sử dụng phương pháp “knowledge distillation” (tạm dịch là

chắt lọc kiến thức) trong quá trình huấn luyện, giúp giảm số lượng tham số để

hoạt động nhanh hơn nhưng vẫn đạt được hiệu suất cao.

« XLM-R [47]: Đây là một biến thể của mô hình RoBERTa nhằm mở rộng khả

năng biểu diễn văn bản cho nhiều ngôn ngữ khác nhau.

26

Trang 37

2.6 PHƯƠNG PHÁP KẾT HỢP METADATA CHO BÀI TOÁN PHAN LOẠI

Trong bài toán phân loại bài đánh giá rác, chúng tôi fine-tuning hai mô hình

đơn ngôn ngữ cho Tiếng Việt là PhoBERT [48] (sử dụng kiến trúc RoBERTa)

và BERT4News [49] (sử dụng kiến trúc BERT) Trong đó, PhoBERT đã được pre-training trên 20GB dữ liệu theo cấp độ từ (word level) bao gồm văn bản trên

Wikipedia và văn bản tin tức Còn BERT4News được huấn luyện với hơn 20GB dữliệu tin tức theo cấp độ âm tiết (syllable level)

2.6 Phương pháp kết hop metadata cho bài toán phân loại

Trong phan này, chúng tôi sẽ trình bày phương pháp kết hợp metadata cho thuộc tính

danh mục dựa trên việc tùy chỉnh bộ phân loại [23] và thuộc tính dạng văn bản với

đặc trưng được tạo ra từ mô hình Sentence-BERT [24] trong bài toán phát hiện đánh

giá rác Qua các thử nghiệm, chúng tôi thấy rằng phương pháp này hiệu quả cho bài

toán khi kết hợp với danh mục san phẩm va mô tả sản phẩm

2.6.1 Phương pháp kết hợp thuộc tính dạng danh mục

Ngoài dữ liệu văn ban được sử dụng chính trong việc xác định nhãn cua dữ liệu, các

thuộc tính phụ hay metadata cũng ảnh hưởng đến nhãn Chẳng hạn như trong bài

toán phân loại cảm xúc, nội dung của khách hàng có thể là tiêu cực với người này

nhưng là tích cực với người khác Các công trình nghiên cứu gần đây đã thấy được

điều này và dé xuất một số phương pháp kết hợp biến danh mục vào mô hình phânloại, cụ thể là trong bài toán phân tích cảm xúc [21, 22] Một phương pháp gần đâycho hiệu quả cao hơn so với hai phương pháp trước đó được đề xuất bởi Kim và các

cộng sự [23] Trong đó, tác giả đã giới thiệu phương pháp tùy chỉnh trên ma trận

biến đổi tuyến tinh (linear transformation matrix) và trọng số bộ mã hóa (encoder),

bên cạnh đó cũng đề xuất sử dụng vector cơ sở để tùy chỉnh bộ phân loại So với các

phương pháp trước đây như tùy chỉnh trên vector bias, word embedding [21], hay

trên mô-đun attention pooling [22] thì phương pháp của tác giả cho hiệu suất cao hơn trên một số bộ dữ liệu Trong dé tài này, chúng tôi thử nghiệm trên phương pháp

cho hiệu quả cao nhất là tùy chỉnh trên linear transformation matrix và bias vector

Một cách tổng quan, bài toán phát hiện đánh giá rác ngoài các tập bình luận của

người dùng W = {w1, we, ,wn}, chúng ta cũng có thêm các thuộc tính phân loại

27

Trang 38

C = {ei, ca, , cạ„} Trong đó, ta có w; là bình luận thứ ¿ trong tập dữ liệu, c; là thuộc

tinh dạng danh mục thứ 7 của bài đánh giá trong số m danh mục, trong dé tài này chúng tôi chỉ sử dụng danh mục sản phẩm nên m là 1 Với việc kết hợp danh mục sản phẩm vào mô hình phân loại, mục tiêu của chúng ta là tối ưu hóa hàm ánh xạ

fo(W) để dự đoán nhãn y, trong đó ƒc(W/) là bộ phân loại có kết hợp các biến danh

mục Œ.

Trong bộ phân loại, chúng ta có vector biểu diễn văn bản d và các vector danh

mục c\, C2, , Gm Đối với việc tùy chỉnh trên vector bias, thay vì sử dụng một vector

bias duy nhất >, chúng ta sử dụng nhiều vector bias bổ sung cho từng danh mục.Phương pháp này tương tự như việc nối (concatenate) biến phân loại với vector d

Đạo hàm được tính theo công thức:

ụ' = W(°)|[d;et; cạ; : cạ]| + OO (2.1)

Còn trong phương pháp tùy chỉnh trên linear transformation matrix, thay vì sử

dụng một ma trận trọng số duy nhất W), mô hình sử dung các ma trận trọng số

khác nhau cho mỗi danh mục và đạo hàm được tính bởi công thức sau:

yf = WAd + WE)d + + WA°d + b9 (2.2)

Bên cạnh đó, nhóm tác giả cũng đã cũng đã dé xuất phương pháp tùy chỉnhdựa trên vector cơ sở (basis-customized) để giải quyết một số hạn chế của phương

pháp tùy chỉnh thông thường Phương pháp này sử dụng một tập các vector bias

B = {bị, ba, , bạ} có thể huấn luyện, với d << dim (dim là kích thước của các trọng

số ban đầu) Một không gian tìm kiếm vector V chứa tất cả các vector trọng số

customized tối ưu ø„ sao cho B là cơ sở của Ve, các vector ø € W được tính theo công

thức:

Ue = » _¡ % Ủị (2.3)

Trong đó + là hệ số Với q là vector truy vấn (query vector) được nối từ các vector

danh mục gq = [c1;¢2; ;¢m] va kj € K|K = {k1,ke, , kạ} là một tap hợp các key

28

Trang 39

vector có thể huấn luyện, + được tính toán theo công thức:

z¡ = q kj

ezp(z¡) (2.4)

1 XS erp)

Trong nghiên cứu này, chúng tôi áp dụng cả hai phương pháp trên bộ dữ liệu để

đánh giá và so sánh hiệu quả của thuộc tính danh mục sản phẩm đến việc phân loại

các bài đánh giá rác.

2.6.2 Phương pháp kết hợp thuộc tính dạng van bản

Sentence-BERT (SBERT) là mô hình nhúng câu được dé xuất bởi Reimers và các

cộng sự vào năm 2019 [24] Mô hình này được sửa đổi từ BERT sử dụng mạng

siamese và triplet để tạo ra các vector nhúng câu tương đồng về mặt ngữ nghĩa

Về cơ bản, mô hình SBERT sẽ thêm một lớp để tổng hợp đầu ra của các mô hình BERTology như BERT/RoBERTa Điều này tạo cho đầu ra của mạng có kích thước

cố định Các chiến lược tổng hợp như MEAN pooling và MAX pooling, tuy nhiên

trong thử nghiệm của tác giả MEAN pooling cho hiệu suất cao hơn Các vector này

có thể kết hợp lại huấn luyện với các hàm mục tiêu khác nhau như (xem hình 2.8): hàm mục phân loại (classification objective function) hoặc hàm mục tiêu hồi quy

(regression objective function) hoặc hàm mục tiêu bộ ba (triplet objective function).

Trang 40

Chúng tôi sử dụng mô hình này để tạo ra các vector nhúng câu cho thuộc tính dạng văn bản, cụ thể là mô tả sản phẩm Chúng tôi gọi hai mô hình fine-tune

là SPhoBert và SBert4News, vì chúng là sự kết hợp từ các mô hình PhoBERT,

BERT4News và SBERT Đầu tiên, các bình luận của người dùng và mô tả sản phẩm

được đưa vào các mô hình PhoBERT và BERT4News, sử sung chiến lược MEAN

pooling để tạo ra hai vector có cùng kích thước: vector bình luận (u) và vector mô tả

sản phẩm (v) Sau đó, hai vector này được nối lại với nhau cùng với vector khoảng

cách giữa các phần tử trong cả hai vector này, sau đó nhân nó với trọng số huấn luyệnW; € R°"** và đưa đến bộ phân loại softmax để dự đoán nhãn tương ứng của chúng

với nhãn các bài đánh giá như sau:

o = softmaz(W;(u, 0, |u — 0|)) (2.5)

Trong đó n là kích thước vector nhúng câu và k là số lượng nhãn Ham mat mátđược sử dụng là SoftmaxLoss (hàm này thêm một bộ phân loại softmax trên đầu racủa hai mạng và sử dụng CrossEntropyLoss để tính toán giá trị tổn thất) [24] Sau

khi fine-tune các mô hình này, chúng tôi sử dụng chúng để tạo ra các vector đặc

trưng cho các mô tả sản phẩm Các đặc trưng này được kết hợp vào mô hình phân

loại để dự đoán nhãn của các bài đánh giá.

30

Tiêu đề	Nhận diện các bài đánh giá rác trên các trang thương mại điện tử tiếng Việt
Tác giả	Đinh Văn Cơ
Người hướng dẫn	ThS. Lưu Thanh Sơn, ThS. Tạ Thu Thủy
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	106
Dung lượng	50,32 MB