1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Kỹ thuật phần mềm: Nghiên cứu bài toán phân tích cảm xúc người dùng trên miền dữ liệu của ngành dịch vụ

82 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu bài toán phân tích cảm xúc người dùng trên miền dữ liệu của ngành dịch vụ
Tác giả Le Si Lac
Người hướng dẫn TS. Nguyen Luu Thuy Ngan
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Kỹ thuật phần mềm
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 82
Dung lượng 42,04 MB

Nội dung

Khóa luận tốt nghiệp này là quá trình nghiên cứu áp dụng các kỹ thuật làm giàu dữ liệu và mô hình PhoBERTpas¿ vào bài toán Phân tích cảm xúc người dùng trên đa dạng bộ dữ liệu với các vă

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

KHOA CÔNG NGHỆ PHẢN MÈM

LE SI LAC

KHOA LUAN TOT NGHIEP

NGHIEN CUU BAI TOAN

PHAN TICH CAM XUC CUA NGUOI DUNG

A Research on Sentiment Analysis

KY SU NGANH KY THUAT PHAN MEM

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA CÔNG NGHỆ PHAN MEM

LE SI LAC - 17520669

KHOA LUAN TOT NGHIEP

NGHIÊN CỨU BÀI TOÁN.

PHAN TÍCH CAM XÚC CUA NGƯỜI DUNG

A Research on Sentiment Analysis

KY SU NGANH KY THUAT PHAN MEM

GIANG VIEN HUONG DAN

TS NGUYEN LUU THUY NGAN

TP HO CHi MINH, 2021

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

BE — Chủ tịch.

2 ecceeeseeeceeesceceeeessueeeeeeeeeeeeueeeneeees — Thư ký.

Boece cece cee ee ence ee ee eee eneenaeeeenneeneeaees — Uy vién

— cece cence eee cena en eee eeneeneeaees — Uy viên

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, tôi xin chân thành cảm ơn cô Nguyễn Lưu Thùy Ngân vì sự tận

tình hướng dẫn, định hướng cùng những phản biện nhằm giúp tôi đạt được kếtquả tốt nhất cho khóa luận Nếu không có sự hướng dẫn từ cô, mục tiêu của khóa

luận sẽ không thể hoàn thành.

Bên cạnh đó, tôi mong muốn cảm ơn sự hỗ trợ của anh Đặng Văn Thìn (nghiên

cứu viên của The UIT Natural Language Processing Group) vì sự hỗ trợ không

ngừng nghỉ cùng những đóng góp nhất định giúp tôi hoàn thiện thật tốt dé tài

khóa luận.

Tôi cũng xin gửi lời cảm ơn đến Phòng thí nghiệm Truyền thông Đa phươngtiện trường Đại học Công nghệ thông tin và đồng thời là Seedcom Group đã nhiệttình hỗ trợ tôi về cả kiến thức và trang thiết bị trong quá trình làm khóa luận

Điều quan trọng nhất, tôi chân thành cảm ơn gia đình vì đã là điểm tựa vững

chắc trong thời gian tôi thực hiện nghiên cứu này

Tôi xin chân thành cảm ơn.

Trang 5

Mục lục

TÓM TẮT KHOÁ LUẬN xiv

1 MỞ ĐẦU 1

11 Datvandé} va 11.2 Đối tượng và phạm vi nghiên cứu| 3

1.2.1 Đối tượng nghiêncứu| - 3

122 Phạmvinghiêncứu| 3

13 Mục tiêu của nghiên cứu| ee 3

1.3.1 Kết quả củanghiêncứu| - 4

1.4 Phát biểu bài toán| So 6

15 Cấu trúckhóa luận 6

2 TONG QUAN 8

ee ee 8

Meee ee ene ee 10

¬ v cece 10 eens 12

3.1.3 Vietnamese Students’ Feedback Corpus (UIT-VSEC)| 18

3.1.4 Vietnamese Sentiment Analysis (VS)| 19

Trang 6

4 LÝTHUYÊT 22

41 Môhìinh BERIH| 22

4.2 Các biên thé của BERT dành cho tiếng Việt 23 4.3 Kỹ thuật làm giàu dữ liệu (Data augmentation)} 24

4.3.1 CharacterAusmenter| 25

4.3.2 Word Augmenter| 25

4.3.3 Contextual Word Embeddings Augmenter] 26

5 KET QUA THỰC NGHIỆM 28 5.1 Kétqua) 2 ee 28 5.1.1 Thực nghiệm trên bài toán SAI 28

DL) aS eee “ e Số ee 28 D112 UIT VSEC] 32

DMG MANS) gm fl ee ee 35 5.2.1.1 Objective) 2 ee 50 5.2.1.2 Thietké) 2 ee 51 Le 53 5.2.2.1 Dashl ẶẶ 53 5.2.2.2 Dash Bootstrap| 53 5.2.23 Selenium) 0.00000 eee eee 54

55

Trang 7

A QUA TRINH HUAN LUYEN MO HÌNH NGON NGU (LANGUAGE

MODEL) 58

Trang 8

Danh sach hinh ve

2.1 Biểu đồ trình bày các cấp độ trong ngôn ngữ học gồm các cấp độ

phổ biến: Ngữ âm hoc (Phonetics), Âm vị hoc (Phonology), Hình

tics) và Ngữ dụng học (Pragmatics)|_ 9

2.2 Mô tả ba nhiệm vụ của ABSA: Mục đích của bài toán trích xuất mục

tiêu ý kiến, trong trường hợp này là "sushi" và "phục vu" Đối với

bài toán xác định thực thể khía cạnh (aspect category detection), đã

được thiết đặt các danh mục xác định trước, nhiệm vụ là xác định:

thực thểkhía cạnh, khía cạnh của "sushi" là "Food" và thực thể biểu

thị của khía cạnh là "Quality" Xác định cảm xúc của một khía cạnh

mục tiêu (sentiment polarity) - tích cực hoặc tiêu cực.

3.1 Tỉ lệ thời gian dành cho các giai đoạn để xây dựng một hệ thống

khoa học ngữ liệu Nguồn: báo cáo về học ngữ liệu 2016 [5] ¬3.2 Bộ dữ liệu VLSP (a) Phân bố nhãn của tập dữ liệu tương ứng trên

tập huấn luyện va tập kiểm tra (b) Tỉ lệ đồ dài của câu ứng với mỗi

Ma 17

3.3 Bộ dữ liệu HSA (a) Phân bố nhãn của tập dữ liệu tương ứng trên

tập huấn luyện và đánh giá (b) Tỉ lệ đồ dài của câu ứng với mỗi

ốm nẽ 18

3.4 Bộ dữ liệu UIT-VSFC (a) Phân bố nhãn của tập dữ liệu tương ứng

ứng với mỗi nhãn có trong dữ liệu

Trang 9

huấn luyện, kiểm thử và đánh giá (b) Tỉ lệ đồ dài của câu ứng với

mỗi nhãn có trong dữ liệu | 20

4.1 Kiến trúc của mô hình BERT được trình bày trong [9] 23

423_ Mô ta BERT EHHIIL-Maskl 27 5.1 Mô tả sử dụng mô hình ngônngữ| 41

Trang 10

Danh sách bảng

3.1 Thống kê tóm tắt cho kho ngữ liệu thử nghiệm N: kích thước dữ

quá trình tiền xử lý Ipre—max: Độ dài câu dài nhất trước quá trìnhtiền xử ly [„„: Trung bình độ dài câu sau khi quá trình tiền xử lý

I„ax:Độ dài câu dai nhất sau quá trình tiền xử lý |V|: Kích thước từ

vựng Test: Kích thước tập đánh giá (CV có nghĩa là đánh giá thông

qua kiểm chéo (cross-validation)| - 20

5.1 Kết quả của PhoBERTpg„s„ kết hợp với bốn mức độ làm giàu ngữ

liệu (data augmentation) trên bộ dữ liệu VS [46] Tôi tiền hành tính

toán chỉ số Macro F-score của [46] dựa trên thống kê kết quả của

3 nhãn dữ liệu Theo don 0 %| -.

5.2 Thống kê về tính hiệu quả của mỗi mức độ làm giàu ngữ liệu dựa

trên kết quả từ bon tỉ lệ ngữ liệu mới được sinh ra (10%, 20%, 30%

và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ

liệu VS [46] Theo đơn 0 %.| ee 31

5.3 Kết quả của PhoBERTgase kết hợp với bốn mức độ làm giàu ngữ

liệu (data augmentation) trên bộ dữ liệu UIT-VSFC [29] Toi tien — |hành tính toán chi số Macro F,-score dựa trên thống kê kết qua của

5.4 Thống kê vẻ tính hiệu quả của mỗi mức độ làm giàu ngữ liệu dựa

và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ

liệu UIT-VSFC [29]] 34

Trang 11

tính toán chỉ số Macro F,-score dựa trên thống kê kết quả của 3

TNHNHaaAaa ee 36

5.6 Thống kê vẻ tính hiệu quả của mỗi mức độ làm giàu ngữ liệu dựa

trên kết quả từ bốn tỉ lệ ngữ liệu mới được sinh ra (10%, 20%, 30%

và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ

| lệuVLSP|27]| 37

5.7 Kết quả của PhoBERTgase kết hợp với bốn mức độ làm giàu ngữ

tính toán chỉ số Macro F,-score dựa trên thống kê kết quả của 3

mus oss met we ee ee 39

5.8 Thống kê vẻ tính hiệu qua của mỗi mức độ làm giàu ngữ liệu dựa

trên kết quả từ bốn tỉ lệ ngữ liệu mới được sinh ra (10%, 20%, 30%

và 40%) thông qua độ lệch chuẩn và giá trị trung bình trên bộ dữ

| HệuHSAl[iIl| - 40

5.9 Tổng quan về tính hiệu quả của mỗi phương pháp làm giàu dữ liệu

(theo thứ tự giảm dẫn)| ee 41

5.10 Kết quả khi sử dụng PhoBERT pase kết hợp huấn luyện trên mô hình

ngôn ngữ (Language Model) nhằm cải thiện dữ liệu sinh ra với kỹ

thuật Fill-Mask so với kết qua chỉ sử dụng PhoBERT pase trên bộ dữ

| — liệu VS [46] Theo don vi% | 42

5.11 Kết quả khi sử dung PhoBERT pase kết hợp huấn luyện trên mô hình

ngôn ngữ (Language Model) nhằm cải thiện dữ liệu sinh ra với kỹthuật Fill-Mask so với kết quả chỉ sử dụng PhoBERTp„;„ trên bộ dữ

liệu UIT_VSFC [29] Theo đơn 056] 42

5.12 Két quả khi sử dụng PhoBERTpase kết hợp huấn luyện trên mô hình

Trang 12

ngôn ngữ (Language Model) nhằm cải thiện dữ liệu sinh ra với kỹthuật Fill-Mask so với kết quả chỉ sử dụng PhoBERTpase trên bộ dữ

liệu HSA [11] Theo don 0 %.| ẶẶẶẶ ee

5.14 Kết quả so sánh khi sử dụng mô hình SVM [14] và SVM kết hop

với ba kỹ thuật làm giàu dữ liệu đạt được hiệu quả tốt nhất ở mỗi

mức (dựa trên Bảng |5.2) trên bộ dữ liệu VS [46] Theo don vi %.|

5.15 Kết quả so sánh khi sử dụng mô hình SVM [14] và SVM kết hop

với ba kỹ thuật làm giàu dữ liệu đạt được hiệu quả tốt nhất ở mỗi

mức (dựa trên Bảng|5.4) trên bộ dữ liệu UIT-VSEC [29].Theo don vi %.| 45

Trang 13

Danh mục từ viết tắt

CNN Convolution Neural Network

EA Evolutionary Algorithms

NLP Natural Language Processing

HSA Hotel Sentiment Analysis VLSP Vietnamese Language Sentiment Analysis UIT-VSFC UIT Vietnamese Student Feedback Corpus

VS Vietnamese Sentiment Analysis

SOTA State of the art

GA Genetic Algorithm

SA Sentiment Analysis NAS Neural Architecture Search

CBOW Continuous Bag-of-Words

SG Skip-gram

SVM Support Vector Machine

WB Word Embedding ReLU Rectifier Linear Unit

tf TensorFlow

Trang 14

TÓM TẮT KHOÁ LUẬN

Phân tích cảm xúc người dùng là một bài toán quen thuộc trong lĩnh vực xử

lý ngôn ngữ tự nhiên Bài toán có đầu vào là dữ liệu văn bản, đầu ra sẽ là cảm xúccủa đầu vào, có thể là tích cực, tiêu cực hay trung tính

Khóa luận tốt nghiệp này là quá trình nghiên cứu áp dụng các kỹ thuật làm

giàu dữ liệu và mô hình PhoBERTpas¿ vào bài toán Phân tích cảm xúc người dùng

trên đa dạng bộ dữ liệu với các văn cảnh khác nhau (từ giáo dục, đến sử dụng

dịch vụ nhà hàng /khách sạn và mua sắm trên các sàn thương mại điện tử) Cùngvới đó, nghiên cứu đã tiến hành đánh giá kết quả đạt được một cách chỉ tiết vàtoàn diện trên 5 thang đo khác nhau gồm Accuracy, Balance Acc, Weighted F1,

Macro F1, Micro F1 (đã được chứng minh tính hiệu quả ở nhiều nghiên cứu trước

đó [17]|3]) Mặt khác, trong nghiên cứu này, tôi tiền hành đánh giá chỉ tiết và toànđiện về tính hiệu quả của kỹ thuật này trên mô hình truyền thống SVM và tínhchuẩn xác của ngữ liệu được sinh ra - trên 3 văn cảnh khác nhau gồm tổng quát,mang tính chủ dé, và phức tạp Mặt khác, nghiên cứu cũng tiền hành huấn luyệncải thiện mô hình ngôn ngữ (language model) - trên bộ dữ liệu gồm 5 triệu câu

để thực hiện được một phần nội dung mình muốn cải thiện sắp tới cho mô hình

PhoBERThase.

Cùng với đó, một chương trình minh họa về bài toán này đã được triển khai,cho phép người dùng trực tiếp tự động thu thập các bình luận trên trang bán hàngcủa mình (hiện chỉ hỗ trợ Shopee) và tạo báo cáo tổng quan về đánh giá của người

dùng đành cho thương hiệu của mình (brand image/sentiment index/audience

scale).

Trong tiến trình thực nghiệm, tôi cũng đã tiến hành đánh giá, so sánh vớinhững kết quả tốt nhất ứng với mỗi dữ liệu

Trang 15

Chương 1

MỞ ĐẦU

Trong chương này, nhóm sẽ giới thiệu tổng quan về bài toán Phân tích cảm

xúc và những thành công nhất định khi tiếp cận bài toán này với các kiến trúc

mạng học sâu.

1.1 Đặt vẫn đề

Trong khoảng những năm gần đây, với sự phát triển mạnh mẽ và vượt bậc củaInternet và nhu cầu tham khảo các phản hồi của những khách hàng trước đó khimua sắm trực tuyến ngày càng tăng Thế nên, những trang mạng hiện nay được

phát triển cho phép các người dùng có thể chia sẻ những trải nghiệm, đánh giá,

nhận xét và phản hồi vẻ các loại hình dich vụ, sản phẩm của các doanh nghiệp, tổchức Khi người dùng quyết định lựa chọn mua một sản phẩm hay dịch vụ nào đókhông những xem xét các thông tin về sản phẩm, dịch vụ đó mà còn có xu hướngquan tâm đến phản hồi của những người dùng khác Khi tiến hành tham khảocác đánh giá, phản hồi của những người dùng khác thì các khách hàng thường có

xu hướng đưa ra các quyết định lựa chọn dịch vụ, sản phẩm phù hợp và đáng tincậy hơn Cùng với đó, các doanh nghiệp, dịch vụ và các tổ chức cũng tiến hànhthu thập các thông tin phản hồi của người dùng về các sản phẩm, dịch vụ của

họ để đưa ra các hướng đi đúng đắn hơn Tuy nhiên, với lượng lớn các thông tin

phản hồi của người dùng về dịch vụ, sản phẩm nào đó thì người dùng và cácdoanh nghiệp, tổ chức khó có thể mà quan tâm được hết Dé giải quyết van dénày, các doanh nghiệp, tổ chức và người dùng cần một hệ thống có thể phân tích

tự động được tat cả các phản hồi và tóm tat lại được tat cả các phản hồi để khách

hàng, doanh nghiệp tham khảo và đưa ra các quyết định nhanh chóng

Trang 16

Chương 1 MỞ ĐẦU 2

Mặt khác, việc phân tích tích đánh giá phản hồi của các bạn sinh viên trong

quá trình học tập cũng đóng góp một vai trò quan trọng không kém Tuy nhiên,

phần lớn các phản hồi chỉ dừng lại ở mức khảo sát và đánh giá một cách tổngquát chứ chưa thực sự nắm hiểu sâu được vấn dé

Hiện nay, những thông tin mà các hệ thống được sử dụng để phân tích các

phản hồi của người dùng trên các trang mạng thường chỉ quan tâm đến các thang

điểm mà người dùng đánh giá về các sản phẩm, dịch vụ đó Tuy nhiên, các thangđiểm đánh giá phản hồi thì không thể hiện khách quan mức độ hài lòng của

người dùng bằng những câu văn, những đoạn bình luận

Do đó, một số hệ thống cũng đã được xây dựng để tiến hành phân tích cáccâu văn bình luận của người dùng Ví dụ, đối với câu bình luận của người dùng

về nhà hàng như “Đồ ăn thì rất là ngon luôn đó, dịch vụ tốt nữa nhưng có nhược

điểm thì hơi khó tìm một tý” Đối với hệ thống phân tích ý kiến thì với câu bìnhluận như thé của người dùng thì hệ thống sẽ trả về là tích cực

Đối với lĩnh vực nhà hàng, trước khi khách hàng tiến hành đặt mua đồ ăn,thức uống hay chọn nhà hàng cho các buổi tiệc thì người dùng cũng chú trọng

đến các phản hồi của những khách hàng trước đó để cân nhắc trong việc lựa

chọn Ngoài ra, với lĩnh vực nhà hàng, người dùng còn quan tâm cụ thể đến từng

khía cạnh vấn đề để đưa ra quyết định lựa chọn như chất lượng thức ăn, nước

uống, dịch vụ, không gian, giá cả, v.v chứ không đơn thuần chỉ quan tâm đến

tổng quan của nhà hàng Bằng việc phân tích chỉ tiết trạng thái của các khía cạnh,

chúng ta có thể khai thác được nhiều thông tin từ đánh giá của người dùng Nhậnthấy tầm quan trọng của việc đi sâu vào phân tích các khía cạnh, chúng ta cần một

hệ thống có thể thực hiện bài toán phân tích ý kiến theo khía cạnh của bình luận

người dùng ở trên miễn dữ liệu nhà hàng

Hiện nay, bài toán phân tích ý kiến theo người dùng được quan tâm ở rấtnhiều lĩnh vực khác nhau, từ giáo dục đến khảo sát ý kiến xã hội học và hơn hết

là lĩnh vực dịch vụ/kinh doanh Hầu hết các bộ ngữ liệu cũng như các thuật toán

được xây dựng và thử nghiệm trên nhiều ngôn ngữ khác nhau như tiếng Anh,

tiếng Trung Quốc v.v Tuy nhiên đối với tiếng Việt, chưa có nhiều bộ ngữ liệuđược xây dựng để phục vụ cho cộng đồng nghiên cứu

Trang 17

Chương 1 MỞ ĐẦU 3

1.2 Đối tượng và phạm vi nghiên cứu

1.2.1 Đối tượng nghiên cứu

Đối tượng quan trọng đầu tiên trong nghiên cứu này, đó là các câu bình luận

của người dùng /các bạn sinh viên Các câu bình luận/phản hồi này được khaithác từ những phản hồi của người dùng trên các trang mạng về các địa điểm ănuống như: nhà hang, quán ăn, tiệm bánh, v.v Và đồng thời là các phản hồi từ

việc mua/sử dụng dịch vụ cũng như khảo sát của các bạn sinh viên trong quá

trình học tập.

1.2.2 Phạm vi nghiên cứu

Phạm vi được tiền hành nghiên cứu này là những bình luận của người dùngtrên các trang mạng về các địa điểm ăn uống như nha hang, quán ăn, quán bánh,quán cafe, v.v Và phản hồi của các bạn sinh viên trong quá trình tham gia họctập Đối với nghiên cứu này, tôi thực hiện trên bài toán phân tích cảm xúc bìnhluận/phản hồi của người dùng

1.3 Mục tiêu của nghiên cứu

Trong nghiên cứu này, tôi tiến hành nghiên cứu, tìm hiểu và giải quyết các

mục tiêu chính như sau:

© Nghiên cứu và thực nghiệm kiến trúc mang học sâu mang tính chất phức

tạp và đòi hỏi nhiều tài nguyên trong quá trình thực hiện - nhưng mang lạinhiều kết quả nổi bật - PhoBERTs„;¿ Đồng thời là áp dung các kĩ thuật lam

giàu dữ liệu (data augmentation) như dùng từ đồng nghĩa (synonym

re-place), fill-mask BERT|| back translate (dịch ngược), da được chứng minh tính hiệu qua ở nhiều nghiên cứu khác nhau (38) {40} {13} 50].

e Phân tích va so sánh hiệu qua giữa các mô hình học sâu theo hướng có sử

dụng kĩ thuật làm giàu dữ liệu với các mô hình nghiên cứu hiện tại.

https : /“/huggingface co/transformers/_modules/transformers/pipelines/fi11_

mask html

Trang 18

Chương 1 MỞ ĐẦU 4

¢ Đánh giá một cách tổng quan mức độ cải thiện của các kỹ thuật làm giàu dữ

liệu không chỉ ở mô hình phức tạp - đòi hỏi nhiều tài nguyên huấn luyện(như PhoBERTpas¿) mà còn ở các mô hình truyền thống

e Xây dựng chương trình minh họa cho phép đơn vị kinh doanh thu thập

bình luận của khách hàng khi trải nghiệm sử dụng dịch vụ và tạo thống kêtổng quan

© Đánh giá mức độ hiệu quả của mô hình khi mở rộng huấn luyện trên mô

hình ngôn ngữ (language model) so với trực tiếp sử dụng PhoBERTgase

1.3.1 Kết quả của nghiên cứu

Với những nội dụng được thực thi trong nghiên cứu này, tôi đạt được những

kết quả như sau:

¢ Thực nghiệm sử dụng mô hình PhoBERT gase trên 4 bộ đữ liệu, thuộc 3 ngữ

cách khác nhau (từ giáo dục cho đến sử dụng dịch vụ/khách sạn và mua

sắm trên các nền tảng e-com)

se Thực nghiệm kết hợp mô hình PhoBERT pase với các mức độ làm giàu ngữ

liệu khác nhàu từ mức độ ký tự, cho đến từ và ngữ cảnh (với lần lượt các tỉ

lệ là 10-20-30-40%).

- Mức độ ký tự: kĩ thuật thêm - xóa - thay thé ký tự ngẫu định

- Mức độ từ: thay thế từ đồng nghĩa (synonym replacement)

- Mức độ ngữ cảnh: contextual word embedding và dịch ngược (đơn va

chuỗi trên hai ngôn ngữ tiếng Anh và tiếng Trung Quốc Phổ Thông)

¢ Đánh giá tính hiệu quả của kỹ thuật làm giàu dw liệu dựa trên

— Kết quả của bài toàn thực nghiệm phân tích cảm xúc người dùng

(sen-timent analysis).

— Kết quả đạt được khi sử dụng mô hình truyền thống SVM

- Đánh giá khách quan từ độ chuẩn xác của đữ liệu sinh ra (ở 3 văn cảnh

khác nhau, gồm tổng quan, mang tinh chủ dé và phức tạp)

Trang 19

Chương 1 MỞ ĐẦU 5

yelp*

Cải thiện kết quả của kĩ thuật làm giàu dit liệu ở mức độ ngữ cảnh, cụ thể là

contextual word embedding Bằng việc, huấn luyện mô hình ngôn ngữ trêntập dt liệu gồm 5 triệu câu (từ các bình luận của người dùng để lại trên các

nền tang như Agoda, Booking, Mytour, và Foody)

Xây dựng mô phỏng - website, cho phép người dùng tự động trực tiếp thu

thập các bình luận từ trang bán hàng của mình (hiện tại chỉ hỗ trợ Shopee).

Tiến hành tạo báo cáo tự động, phân tích insights dựa trên các bình luận thu

thập được Các thông tin trong báo cáo gồm, tỉ lệ tích cực/tiêu cực/trungtính từ các bình luận của người dùng nhận diện về thương hiệu (brand

image), thống kê độ dài ngắn của các câu bình luận, từ khóa được người

dùng nhắc về thương hiệu Đồng thời là bảng kết quả chỉ tiết về các bình

luận đã thu thập được.

Cho phép người dùng tải lên dữ liệu cá nhân mình thu thập được trước đó

(chỉ hỗ trợ định dang file pickle).

Restaurants V HomeServices V AutoSerices V More V

YY Write a Review (6) Add Photo ch Share A save Find a Table

HINH 1.1: Minh hoa hệ thống đánh giá nhà hang bởi người dùng

trên trang web YeIrF]

"Yelp: nvtps://aww yelp con/

Trang 20

Chương 1 MỞ ĐẦU 6

1.4 Phát biểu bài toán

Trong nghiên cứu này, tôi tiền hành tìm hiểu và nghiên cứu bài toán phân tích

bình luận/ đánh giá của người dùng /các bạn sinh viên trên bón bộ dữ liệu khác

nhau.

Bài toán xác định trạng thái cảm xúc, từ câu bình luận của người dùng và các

trạng thái cảm xúc được quan tâm đến trong nghiên cứu này là tích cực (positive),

trung tính (neutral) và tiêu cực (negative).

Nói một cách ngắn gọn, Phân tích cảm xúc - bài toán chính trong đề tài này

được phát biểu như sau:

© Đầu vào: Câu bình luận của người dùng về dịch vụ, sản phẩm trong nhà

hàng, quán ăn, và đồng thời là những phản hồi của các bạn sinh viên trong

quá trình học tập

¢ Đầu ra: Cảm xúc tương ứng được dé cập trong câu bình luận của người

dùng

Trong khóa luận này, nhóm đã có thực nghiệm nhất định tạo tiền dé áp dung

kĩ thuật làm giàu dữ liệu trong lĩnh vực Xử lý ngôn ngữ tự nhiên nói chung và bài toán Phân tích cảm xúc nói riêng.

1.5 Cau trúc khóa luận

Khóa luận được chia thành 6 Chương, câu trúc được trình bày như sau

° Chương] Mở đầu Trình bày lý do chọn nghiên cứu, đối tượng và phạm vi

nghiên cứu, mục tiêu cũng như kết quả đạt được

e Chương |2} Tổng quan Giới thiệu khái niệm về bài toán phân tích cảm xúc

người dùng, phân tích các hướng nghiên cứu đã được thực hiện trong và

ngoài nước liên quan đến bài toán này Trình bày bài toán trong nghiên cứunày tiền hành nghiên cứu và thực hiện

° Chương] Trình bày khái lược về bốn bộ dữ liệu được sử dụng trong nghiên

cứu Đồng thơi phân tích tổng quan về các bộ dữ liệu và tiến trình tiền xử

lý dữ liệu trước khi huấn luyện mô hình

Trang 21

Chương 1 MỞ ĐẦU 7

° Chương] Mô hình phân tích cảm xúc người dùng Đồng thời, trình bày cơ

sở lý thuyết của các phương pháp được sử dụng để tiến hành thử nghiệm

Trong đó, bao gồm PhoBERT ase và các biến thể cho tiếng Việt

° Chương]] Thử nghiệm và kết quả thử nghiệm Trình bày quá trình cài đặt

thử nghiệm, các bảng thông số và phân tích kết quả giữa các thử nghiệm

e Chuong|6} Kết luận va hướng phát triển Tổng kết các kết quả quan trọng đã

đạt được trong nghiên cứu, những hạn chế chưa được giải quyết và hướngphát triển trong tương lai

Trang 22

Chương 2

TỔNG QUAN

Trong chương này, tôi tiến hành trình bay tổng quát bài toán phân tích cảmxúc người dùng (sentiment analysis - SA) là một trong số hai bài toán con của

phân tích khía cạnh cảm xúc (aspect-based sentiment analysis - ABSA) Đối với

bài toán SA thông thường, từ một câu bình luận của người dùng, kết quả trả về làcác trang thái cảm xúc tương ứng đồi với câu đó Và, đối với bài toán ABSA, phảitiến hành phân tích chỉ tiết các khía cạnh được đẻ cập đến trong câu bình luận và

cả trạng thái cảm xúc tương ứng cho từng khía cạnh đó.

2.1 Tổng quan về phân tích cảm xúc

Trong những năm gần dây, Phân tích cảm xúc (SA) được cộng đồng nghiên

cứu thuộc lĩnh vực NLP được đông đảo cộng đồng trong lẫn ngoài nước rất quan

tâm Đây là quá trình xác định và phân loại văn bản thành các cảm xúc khác nhau

— ví dụ, cảm xúc tích cực, tiêu cực hoặc trung tính — hoặc cảm xúc — chẳng hạn

như vui, buồn, tức giận hoặc ghê tém — để xác định thái độ của con người đối

với chủ thể hoặc thực thể cụ thể.

Phân tích cảm xúc cũng là một trong những công tác quan trọng trong lĩnh

vực NLP Nó không chỉ có ý nghĩa quan trọng trong học thuật, nghiên cứu mà

còn có ý nghĩa cực kì thiết yêu trong các ngành công nghiệp - dịch vụ, cụ thể là

việc nhận biết hành vi và thái độ của khách hàng về sản phẩm và dich vụ mà họ

sử dụng.

Với ngành công nghiệp - dịch vụ nói chung, SA được sử dụng như một công

cụ mạnh mẽ để tự động hóa quy trình phân tích và đánh giá ý kiến của ngườidùng Đối với lĩnh vực nhà hàng - khách sạn nói riêng, các ý kiến người dùng đó

Trang 23

Chương 2 TONG QUAN 9

thường được thu thập từ các trang mang xã hội, hoặc các trang thu thập nhận xét

của khách hàng vẻ chất lượng cũng như mức độ hài lòng

Hiện nay, bài toán phân tích cảm xúc có ba cấp độ chính đó là cấp độ câu

văn (sentence-level), văn bản (document-level), và khía cạnh (aspect-level) Ở cấp

độ câu văn, mục tiêu của bài toán là phân loại một câu văn thành các lớp tiêu

cực (negative), tích cực (positive), hoặc trung tinh (neutral) Cấp độ văn bản được

dùng để xác định mức độ cảm xúc của một đoạn văn (gồm hai hay nhiều câuvăn) là tiêu cực, tích cực, hay trung tính Và cấp độ khía cạnh được dùng để xác

định mức độ cảm xúc cho mỗi khía cạnh của thực thể dé cập trong một văn ban

Trong phạm vi của khóa luận, giới hạn nghiên cứu nhóm sẽ chỉ nằm ở mỗi khía

cạnh cấp độ câu văn

HINH 2.1: Biểu đồ trình bày các cấp độ trong ngôn ngữ học gồm các

cấp độ phổ biến: Ngữ âm học (Phonetics), Âm vị học (Phonology),

Hinh thái hoc (Morphology), Cú pháp (Syntax), Ngữ nghĩa học

(Se-mantics) và Ngữ dụng học (Pragmatics)|"]

Đối với Bai toán phân tích cảm xúc, chúng sẽ thuộc cấp độ ngữ dung hoc

(Pragmatics) và ngữ nghĩa học (Semantics) Chúng ta có thể thay rang vi trí củabài toán này nằm ở vị trí nào trong lĩnh vực NLP - một nhánh của chuyên ngành

khoa học máy tinh, đó là vị trí với vai trò là một ứng dụng trong lĩnh vực NLP.

lGiới thiệu về ngôn ngữ - Lumen: https://courses.lumenlearning.com/

boundless-psychology/chapter/introduction-to-language/

Trang 24

HINH 2.2: Mô tả ba nhiệm vụ của ABSA: Mục dich của bài toán

trích xuất mục tiêu ý kiến, trong trường hợp này là "sushi" và "phục vụ" Đối với bài toán xác định thực thể khía cạnh (aspect category detection), đã được thiết đặt các danh mục xác định trước, nhiệm vu

là xác định: thực thểkhía cạnh, khía cạnh của "sushi" là "Food" và thực thể biểu thị của khía cạnh là "Quality" Xác định cảm xúc của

một khía cạnh mục tiêu (sentiment polarity) - tích cực hoặc tiêu cực.

2.2 Tình hình nghiên cứu

ere

2.2.1 Tình hình nghiên cứu trên thé giới

Từ những năm 2000 cho đến nay, phân tích ý kiến cũng như phân tích ý kiến

theo khía cạnh đã và đang thu hút được các nhà nghiên cứu quan tâm, phát triển

và đưa vào ứng dụng thực tế Khái niệm phân tích cảm xúc (sentiment analysis)

xuất hiện lần đầu tiên trong công trình của Nasukawa và Yi [24] Khai niém phan

tích ý kiến (opinion mining) xuất hiện lần đầu tiên trong công trình của Dave,

Lawrence and Pennock (8) Tuy nhiên, nghiên cứu được xem là dau tiên đặt nền

móng cho phân tích ý kiến là nghiên cứu của Pang và các cộng sự [32] Kể từ đó

các nghiên cứu trong bài toán này ngày càng được quan tâm và phát triển.

s Công trình đã tiến hành nghiên cứu về phân tích ý kiến từ các phản

hồi của người dùng đối với miền đữ liệu điện ảnh (movie domain) với haiphân lớp được quan tâm đến trong nghiên cứu là tích cực và tiêu cực Ba

phương pháp máy học (Naive bayes, maximum entropy classification và

support vector machine) được sử dụng để giải quyết van dé phan loai cac ykiến trong nghiên cứu nay

Trang 25

Chương 2 TỔNG QUAN 11

® Nam 2010, Thet và các cộng sự tiến hành thực hiện nghiên cứu không

chỉ quan tâm đến việc phân tích ý kiến mà còn phân tích chỉ tiết các định

hướng cảm xúc và sức mạnh của cảm xúc của đánh giá đối với các khía cạnh

khác nhau trong miễn dữ liệu điện ảnh Phương pháp được đề xuất là sửdụng điểm số cảm xúc của bộ SentiWordNet để tiến hành tính toán cảm xúc

cho các khía cạnh khác nhau.

s Công trình của Kim Schouten va Flavius Frasincar giới thiệu tổng quan

về bài toán phân tích ý kiến trên khía cạnh Trong công trình này, tác giả

đưa ra các bài toán con của bài toán phân tích ý kiến theo khía cạnh, cách

phương pháp đánh giá và khảo sát các mô hình và kết quả thử nghiệm được

đề xuất đưa vào nghiên cứu trước đó đối với các bài toán con khác nhau

s® Haque và cộng sự đã sử dụng các bài đánh giá sản phẩm của Amazon

trong ba lĩnh vực: điện thoại di động và phụ kiện, âm nhạc và thiết bị điện

tử Họ đã phân loại cảm xúc thông qua Linear SVM, Multinomial Naive

Bayes, Stochastic Gradient Descent, Random Forest, Hỏi quy logistic và Câyquyết định Va SVM thu được kết quả phân loại tốt nhất với độ chính xác

94,02% đối với các đánh giá ở lĩnh vực âm nhạc

¢ Singla và cộng sự đã thực hiện phân tích tình cảm các đánh giá về điện

thoại di động trên Amazon, họ đã phân loại văn bản thành các phân cực bao

gồm tích cực và tiêu cực, và cảm xúc tức giận, mong đợi, sợ hãi, vui vẻ, buồn

bã, ghê tởm, ngạc nhiên và tin tưởng Việc phân loại được thực hiện thông

qua SVM với đến độ chính xác là 84,85% Và, kết quả mang lại, thương hiệuSamsung nhận được nhiều phản hồi tích cực nhất từ khách hàng Nhữngkết quả này rất hữu ích cho các nhà sản xuất vì họ có thể làm việc trên các

phan hồi để cải thiện chất lượng sản phẩm

Để đáp ứng cho công tác nghiên cứu đối với bài toán, nhiều bộ ngữ liệu ở cácmiễn đữ liệu khác nhau và trên các ngôn ngữ khác nhau đã được xây dựng:

¢ Bộ ngữ liệu của Marianna Apidianaki và các cộng sự xây dựng trên hai

miễn dữ liệu nhà hang và viện bảo toàn trên ngôn ngữ tiếng Pháp Trong

công trình này, bộ ngữ liệu được xây dựng ở cấp độ câu với 2365 câu đốivới lĩnh vực nhà hàng và 655 câu đối với lĩnh vực viện bảo toàn Đồng thời,

Trang 26

Chương 2 TỔNG QUAN 12

ngữ liệu này được xây dung theo hai nhiệm vụ của hội thảo SemEval2016

là cấp độ câu đánh giá trong miễn đữ liệu (in-domain sentence-level ABSA)đối với mién dữ liệu nha hàng và ngoài miền di liệu (out-of-domain) đốivới miền dữ liệu viện bảo toàn

e Trong hội thảo SemEval, nhiều bộ ngữ liệu đã được cung cấp ở nhiều ngôn

ngữ khác nhau để phục vụ cho bài toán phân tích ý kiến Hội thảo

Se-mEval2014 cung cấp một bộ ngữ liệu tiếng Anh đối với miền dữ liệu

nhà hàng bao gồm 3841 câu với 2041 được trích xuất từ bộ ngữ liệu củaGayatree Ganu và các cộng sự và miễn dữ liệu máy tính xách tay (lap-

top) với 3845 câu ngữ liệu Hội thảo SemEval2015 cung cấp bộ ngữ liệu

đối với ba miền dữ liệu là nhà hàng (2000 câu), khách sạn (266) và máy tínhxách tay (2500 câu) Ngữ liệu cho miền dữ liệu khách sạn được cung cấp để

giải quyết bài toán out-of-domain Tại hội thảo SemEval2016 [35] đã cung

cấp 19 bộ ngữ liệu huấn luyện (training datasets), 20 bộ ngữ liệu kiểm tra

(testing datasets) cho 8 ngôn ngữ và 7 lĩnh vực khác nhau và trong đó, 24

bộ ngữ liệu phục vụ ở cấp độ câu và 14 bộ ngữ liệu phục vụ cho cấp độ văn

bản.

2.2.2 Tình hình nghiên cứu trong nước

Bên cạnh những công trình nghiên cứu trên thế giới, bài toán phân tích cảm

xúc người cũng thu hút được cộng đồng nghiên cứu trong nước trên đa dạng các

miễn dit liệu khác nhau như nhà hàng, khách sạn, điện tử và giáo dục, v.v Theonhư tôi tìm hiểu, công trình nghiên cứu đầu tiên về phân tích ý kiến trên tiếng

Việt được thực hiện bởi Kieu & Pham trên cấp độ câu văn và xây dựng một

hệ thống dựa trên rule-based system, với nền tảng Gate, tiến hành thực nghiệmđánh giá trên bộ ngữ liệu về miền dữ liệu máy tính đạt được độ đo E1 là 62.84%

Vu và cộng sự trình bày một nghiên cứu về việc khai thác ý kiến dựa trên

khía cạnh đánh giá sản phẩm bằng cách trích xuất các ý kiến rõ ràng hoặc ngụ

ý sử dụng quy tắc cú pháp tiếng Việt Tiếp theo, Le và các cộng sự [14] đề xuất

phương pháp học bán giám sát GK-LDA cho việc trích xuất và phân loại các thuậtngữ khía cạnh cho văn bản tiếng Việt

Trang 27

Chương 2 TỔNG QUAN 13

Duyên và cộng sự [1| sử dung Na"1ve Bayes, Max Entropy Model và SVM

để phân loại các đánh giá trên trang Agoda, nền tang cho phép người dùng đặtphòng khách sạn khi di du lịch Kết qua cho thay mô hình SVM dat được kết quatốt nhất Quan và công sự sử dụng phương pháp học sâu, dé xuất một môhình kết hợp Long-short term memory (LSTM) và CNN, cụ thé là LSTM-CNN

đa kênh (LSTM-CNN multi channel) phân tích tâm ly mua hang của người Việt.

Sự kết hợp mô hình đạt được hiệu suất tốt hơn khi chỉ sử dụng đơn lẻ mô hình

LSTM Cách tiếp cận này tương tự như [45], mô hình được sử dung để quan ly

các nhận xét tiêu cực trên các trang mạng xã hội Các vectơ từ (word vector) được

chuyển qua CNN và đầu ra sau đó được sử dụng làm đầu vào cho LSTM để thực

hiện phân loại.

Gần đây, nhóm tác giả [31] thử nghiệm với hai phương pháp tỉnh chỉnh BERTcho nhiệm vụ phân tích tình cảm trên 2 bộ đữ liệu bao gồm các đánh giá về déăn/nhà hàng trên Foody, đồng thời là bộ đữ liệu của Aivivn (đã được đề cậpphía trên) Với 2 phương thức tiếp cận van dé, thứ nhất là chỉ sử dung duy nhất

một token [CLS] làm đầu vào cho một mạng nơ-ron attached feed-forward neural

network và thứ hai là tất cả các vectơ đầu ra BERT được sử dụng làm đầu vào.Kết qua thử nghiệm trên hai tập dữ liệu cho thay các mô hình sử dung BERT tốt

hơn các mô hình đây sử dụng GloVe và FastText.

Rất gần đây, Lắc và cộng sự đã sử dụng phương thức kết của mô hình

Bidirectional Long-Short Term Memory kết hợp với CNN (BiLSTM-CNN) trênhai bộ dữ liệu, gồm bộ dữ liệu về các phản hồi của các bạn sinh viên trong quá

trình học tập (Vietnamese Student’s Feedback Corpus) và đánh giá của khách

hàng trên các nền tảng thương mại điện tử, cụ thể là Tiki Và kết quả công trình

nghiên cứu mang lại, đạt được 93.55% trên thang đo F1 trên bộ dữ liệu VSFC và

84.14% trên bộ dữ liệu còn lại, tăng thấp nhất 2.36% và cao nhất 8.55% so với các

công trình nghiên cứu ở thời điểm trước.

Và, hiện nay, các bộ dữ liệu về phân tích cảm xúc người dùng đã dần được

tập trung và xây dựng nhằm phục vụ cộng đồng nghiên cứu Điển hình, năm

2016, cộng đồng xử lý ngôn ngữ tự nhiên (Vietnamese Language and SpeechProcessing - VLSP) đã tiến hành tổ chức cuộc thi phân tích cảm xúc người dùng

trên các phản hồi mua hàng bởi Huyen và các cộng sự [28] Bên cạnh đó, gần đây

nhất, AIVIVN, một nén tang giúp tổ chức các cuộc thi machine learning cho cộng

Trang 28

Chương 2 TỔNG QUAN 14

đồng được thực hiện và giám sát bởi diễn đàn machinelearningcobar[]| đã giới thiệu bộ dt liệu phân loại sắc thái bình luận trên các trang thương mại điện tu}

2.2.3 Nhận xét

Đối với bài toán phân tích sắc thái bình luận/ đánh giá, các công trình đã thực

nghiên cứu ở mức đa dạng và đã tiến hành/thử nghiệm nhiều phương án tiếp

cận khác nhau, từ truyền thống sử dung SVM, Random forest, cho đến các mạng

học sâu CNN, BiLSTM, LSTM Tuy nhiên, đến thời điểm hiện tại, vẫn chưa cónhiều công trình thực hiện đánh giá/thử nghiệm mô hình trên 4-5 bộ dữ liệu

khác nhau, mà chỉ dừng lại ở mức tối đa là 2-3 bộ dữ liệu Đồng thời, phương án

sử dụng các mô hình đánh giá có tiém năng hiệu quả cao của những năm gan

đây như - BERT, Transformer vẫn chưa thực sự khai thác triệt để, chỉ dừng lại

thử nghiệm mô hình pre-trained của PhoBERT pase Trong khi đó, rat còn nhiều

phương án mô hình như, viBert4news, viBERT_ FPT, viELECTRA_FPT, XLMR,

Bên cạnh đó, sự kết hợp thêm các kĩ thuật làm giàu dữ liệu vẫn chưa nhận đượcnhiều sự khai thác

Nhận thay tầm quan trọng và nhu cầu cần thiết của bài toán, đồng thời là

nhiều tiềm năng để thực nghiém/nghién cứu các mô hình/kỹ thuật mới Tôithúc đẩy cho công tác nghiên cứu cũng như phát triển các phương pháp xử lý,thử nghiệm đối với bài toán này

Trang 29

học có giám sát (supervised learning) [20] Với thuật toán học có giám sát, chúng

ta cần phải có một bộ ngữ liệu mẫu được gán nhãn để tiến hành huấn luyện cho

hệ thống Bộ ngữ liệu mẫu để huấn luyện sẽ quyết định đến chất lượng của hệ

thống.

What data scientists spend the most time doing

® Building training sets: 33%

® Cleaning and organizing data: 60%

® Collecting data sets; 17%

© Mining data for patterns: #%

® Refining algorithms: 4%

® Other 5%

HINH 3.1: Tỉ lệ thời gian dành cho các giai đoạn để xây dựng một hệ

thống khoa học ngữ liệu Nguồn: báo cáo về học ngữ liệu 2016 BỊ:

Trang 30

Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC

PHAN HOI

Từ hình 3.1 được trích xuất từ báo cáo về khoa học ngữ liệu [5], chúng ta có

thể thấy được rằng quá trình xây dựng một hệ thống khoa học ngữ liệu thì gần

như toàn bộ thời gian đều liên quan đến ngữ liệu với 88% tổng thời gian (9% thời

gian dành cho công tác phân tích ngữ liệu, 19% thời gian cho việc thu thập ngữ

liệu và 60% thời gian dành cho việc làm sạch và tổ chức lại ngữ liệu)

3.1 Giới thiệu về bộ dw liệu

Trong nghiên cứu, các bộ dữ liệu tôi sử dụng để thực hiện quá trình thực

nghiệm bao gồm: Hotel Sentiment Analysis (HSA), VLSP Sentiment Analysis(VLSP),

Vietnamese Students’ Feedback Corpus (UIT-VSFC), Vietnamese Sentiment

Anal-ysis (VS)

3.1.1 Vietnamese Language and Speech Processing Sentiment

Anal-ysis(VLSP)

Hoạt động đầu tiên liên quan dau tiên đến bài toán phân tích tình cảm trên

tiếng Việt được tổ chức tại VLSP 2016 (SA-VLSP2016) Với tổng cộng 12190 câu

(xem Hình (3.2), bộ dữ liệu nay bao gồm các bình luận ngắn gọn trên các bài báo

kỹ thuật được thu thập từ các diễn đàn và mạng xã hội (tinhte.vn, vnexpress.net

và Facebook), với nhãn dữ liệu gồm tích cực (positive), tiêu cực (negative) và

trung tính (neutral) được giới thiệu bởi [28].

Các bình luận có thể rất phức tạp do ứng với mỗi đối tượng được đề cập,

người dùng lại có những cảm xúc khác nhau, ví dụ: “quán bán đồ ăn rất ngon,

nhưng nhân viên hơi không thân thiện và giá đắt” Do đó, nhóm tác giả đã đặt

một số ràng buộc trên tap dtr liệu như sau:

¢ Bộ dữ liệu chỉ chứa các đánh giá có ý kiến cá nhân

¢ Dữ liệu thường là các bình luận ngắn, chứa các ý kiến về một đối tượng

Không có giới hạn về số lượng các khía cạnh của đối tượng được đề cập

trong nhận xét.

® Nhãn (tích cực/tiêu cực/trung tinh) là cảm xúc chung của toàn bộ câu đánh

giá.

Trang 31

Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC

PHAN HOI

¢ Bộ dữ liệu được thu thập từ mang xã hội, không tu tạo thủ công.

Thông thường, rất khó để đánh giá một nhận xét trung lập vì các ý kiến luôn

có xu hướng tiêu cực hoặc tích cực Nhóm tác giả thường đánh giá một là trung

lập khi không thể quyết định nó là tích cực hay tiêu cực Nhãn trung lập còn được

sử dụng cho các trường hợp trong đó có cả ý kiến tích cực và tiêu cực nhưng khikết hợp chúng lại, nhận xét đó trở nên trung lập

HINH 3.2: Bộ dữ liệu VLSP (a) Phân bố nhãn của tập đữ liệu tương ứng trên tập huấn luyện và tập kiểm tra (b) Tỉ lệ đồ dài của câu ứng

với mỗi nhãn có trong dữ liệu.

3.1.2 Hotel Sentiment Analysis (HSA)

Bộ dữ liệu được trình bày trong nghiên cứu [12] Bộ dir liệu được lấy từ

Agoda} nền tang cho phép người dùng đặt phòng khách san trực tuyến Nhóm

tác giả trích xuất các bài đánh giá bằng tiếng Việt từ 50 khách sạn đặt tại Việt Nam

(chủ yếu ở Hà Nội, Hồ Chi Minh, Da Nẵng, và Nha Trang) Sau đó, tiến hành một

số bước tiền xử lý Đồng thời, bộ dữ liệu cũng đã được loại bỏ câu không chuẩntiếng Việt, tức là các câu không có day đủ âm tiết/dấu câu

Bộ ngữ liệu gồm 3304 câu, trong đó có 1980 câu được gan nhãn tích cực, 777

câu phủ định và 547 câu trung lập (xem Hình 3.3).

TA goda: https: //www.agoda.com/

Trang 32

Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC

mỗi nhãn có trong dữ liệu.

3.1.3 Vietnamese Students’ Feedback Corpus (UIT-VSFC)

UIT-VSEC, là bộ dữ liệu đầu tiên được thực hiện trong lĩnh vực giáo dục Cụ

thể, bộ dữ liệu được thu thập dựa trên những phản hồi của các bạn sinh viên

trong quá trình tham gia học tập tại trường, được thực hiện trong nghiên cứu

[44].

Bộ dữ liệu UIT-VSFC được sử dung cho hai nhiệm vu khác nhau: (1) phân

loại dựa trên cảm xúc (sentiment-based) va dựa trên chủ dé (topic-based) Họ thu

thập phản hồi của sinh viên thông qua các cuộc khảo sát sinh viên vào cuối học

kỳ 2013 và 2016, với hơn 16.000 phản hồi Có hai loại phan hồi chính: (1) phảnhồi từ giảng viên cho sinh viên để giúp đỡ học sinh nhận thức được điểm yếu

và điểm mạnh của mình để cải thiện nghiên cứu và (2) phản hồi từ sinh viên cho

giảng viên để phản ánh và cải thiện giảng dạy của họ Đặc biệt, sinh viên đưa ra

ý kiến về một loạt các van dé khác nhau Ví du: phản hồi của sinh viên thể hiện

những gì sinh viên thích hoặc không thích về bài giảng cũng như những gì giảng

viên giảng dạy là xuất sắc hoặc quá tệ

Trang 33

Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC

HINH 3.4: Bộ dữ liệu UIT-VSFC (a) Phân bố nhãn của tập dữ liệu

tương ứng trên tập huấn luyện, kiểm thử và đánh giá (b) Tỉ lệ đồ dài

của câu ứng với mỗi nhãn có trong dữ liệu.

3.1.4 Vietnamese Sentiment Analysis (VS)

VS là tập dữ liệu đánh giá của người dùng về các sản phẩm gồm 17.500

đánh giá /nhận xét từ các trang thương mại điện tử của Việt Nam (gồm TinhTe.vn,

Tiki.vn, v.v.) và được gắn nhãn tích cực/tiêu cực/trung tính bởi ba người Nhómtác giả đã sử dụng xác thực chéo (fold cross-validation) 5 lần để báo cáo kết quả

thử nghiệm Tập di liệu này được xuất bản trên GithutÏ] của nghiên cứu.

*https: //github.com/ntienhuy /MultiChannel

Trang 34

Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC

negative neutral postive (b) ° = z ave lang

Body mass fa)

°

(a)

HINH 3.5: Bộ dữ liệu VS (a) Phân bố nhãn của tập dữ liệu tương ứng

trên tập huấn luyện, kiểm thử và đánh giá (b) Tỉ lệ dé dài của câu

ứng với mỗi nhãn có trong dữ liệu.

Data N € | Ípre—aog | lpre—max | lao | may | |V| | Test

HSA 3304 |3| 13.67 161 9.00 | 124 | 1434| CV

VS 17500 | 3) 32.14 905 27.88 | 712 | 5816| CV UIT-VSFC | 16174 | 3) 14.22 161 9.57 | 124 | 4336 | 3166

VLSP 6150 | 3} 28.86 2885 26.15 | 2481 | 9496 | 1050

BANG 3.1: Thống kê tóm tat cho kho ngữ liệu thử nghiệm N: kích thước dữ liệu c: Số lớp mục tiêu I pre—avg: Trung bình độ dài câu

trước khi quá trình tiền xử lý Ipre-max: Độ dai câu dài nhất trước

quá trình tiền xử lý l;„¿: Trung bình độ dài câu sau khi quá trình

tiền xử lý J„ax:Độ dài câu dài nhất sau quá trình tiền xử lý |V|: Kích

thước từ vung Test: Kích thước tập đánh giá (CV có nghĩa là đánh

giá thông qua kiểm chéo (cross-validation).

3.2 Tien xử lý dữ liệu

Công tác tiền xử lý, làm sạch ngữ liệu được tiến hành qua một số công tác sau

với các bước cơ bản được trình bày ở nghiên cứu của (71, kết hợp với một vài xử li

được tôi trình bày phía bên dưới:

© Dau tiên, các trường hợp bình luận không phải là ngôn ngữ tiếng Việt được

loại bỏ đi Đồng thời, các bình luận của người dùng mà toàn bộ bình luậntiếng Việt viết không dấu cũng được tiến hành loại bỏ

Trang 35

Chương 3 TONG QUAN VỀ CÁC BỘ NGU LIEU PHAN TÍCH CẢM XUC

PHAN HOI

« Tiếp theo, thu viện UETSegmentationf để tiến hành phân tách các bình

luận của người dùng thành các câu đơn Tuy nhiên, vì là ngữ liệu được thu

thập từ các trang mạng nên nhiều bình luận của người dùng không đúng

ngữ pháp như thiếu dấu câu, sử dụng dấu câu không đúng Thế nên, tôitiến hành thêm và điều chỉnh dấu câu cho các đoạn bình luận trước khi

phân tách thành các câu đơn.

* Cuối cùng tôi loại bỏ di các câu trùng nhau trong bộ ngữ liệu

https://github.com/phongnt570/UETsegmenter

Trang 36

Chương 4

LÝ THUYÊT

Trong phần này, tôi thực hiện trình bày lí thuyết về các phương pháp tỉnh

chỉnh dựa trên các mô hình ngôn ngữ được đào tạo trước (pre-trained language

model) trên BERT, và các biến thể của nó cho tiếng Việt

4.1 Mô hình BERT

Biểu diễn Thể hiện Mã hóa Hai chiều từ Transformer (Bidirectional Encoder

Representations from Transformers hay viết tắt là BERT) là một kỹ thuật học máydựa trên các transformer được dùng cho việc huấn luyện trước xử lý ngôn ngữ

tự nhiên (NLP) được phát triển bởi Google Jacob Devlin và cộng sự từ Google đã

tạo ra và công bó BERT vào năm 2018 [9].

Mô hình BERT bằng tiếng Anh ban đầu đi kèm với hai dạng tổng quát đượcđào tạo trước:[1]: (1) mô hình the BERTy,ase, kiến trúc mạng thần kinh chứa 12-lớp,768-lớp ẩn, 12-dau, 110M tham số, và (2) mô hình BERTI,;„.„ kiến trúc mạng than

kinh chứa 24-lớp, 1024-lớp ẩn, 16-dau, 340 triệu tham s6 Cả hai đều được huấn

luyện từ BooksCorpus với 800 triệu từ, và một phiên bản của Wikipedia tiếngAnt] véi 2,500 triệu từ.

BERT có nguồn gốc từ các biểu diễn theo ngữ cảnh trước đào tạo trước bao

gồm học trình tự bán giám sát (semi-supervised sequence learning), li

Genera-tive Pre-Training, ELMo (33), and ULMFit [19] Không như các mô hình trước đó,

BERT là một biểu diễn ngôn ngữ không giám sát và hai chiều sâu, được đào tạo

trước chỉ sử dụng một kho ngữ liệu văn bản thuần túy

Trang 37

Chương 4 LÝ THUYẾT 23

Các mô hình không có ngữ cảnh như Word2vec hay GloVe (học máy) tạo ra

các biểu diễn từ nhúng đơn cho mỗi từ trong tập từ vựng, trong khi đó BERT tínhđến ngữ cảnh cho mỗi lần xuất hiện của một từ cho trước Ví dụ: vectơ của từ

"running" có biểu diễn vectơ Word2vec giống nhau trong hai lần xuất hiện của từ

"running" trong các câu "He is running a company" (anh ấy đang diéu hành một

công ty) và "He is running a marathon" (anh ấy đang chạy marathon), trong khi

đó BERT cung cấp một nhúng từ theo ngữ cảnh và sẽ khác nhau tùy thuộc theo

câu ví dụ.

Masked Sentence A Masked Sentence B

Pre-training Fine-Tuning

HÌNH 4.1: Kiến trúc của mô hình BERT được trình bày trong (9).

4.2 Các biến thể cua BERT dành cho tiếng Việt

Cho đến nay, có rất nhiều mô hình ngôn ngữ được đào tạo trước với các cài

đặt khác nhau cho tiếng Việt bao gồm cả mô hình đơn và đa ngôn ngữ Danh sách

các mô hình có sẵn cho tiếng Việt được tóm tắt như sau:

® PhoBERTpase (26): Đây là mô hình ngôn ngữ được dao tạo trước ở cấp độ từ

(word-level) đầu tiên cho tiếng Việt Mô hình này được huấn luyện và đánh

giá trên 20GB nguồn dữ liệu (Wikipedia + tin tức) và có hai phiên bản Kết

quả thử nghiệm đã chứng minh rằng mô hình này hoạt động tốt hơn mô

hình XLM-R [4] ở bốn tác vu downstreams/|

¢ viBERT4News: Mô hình này được huấn luyện dựa trên 20GB bộ dữ liệu tin

tức dựa trên kiến trúc BERT [10] cho tiếng Việt Nhóm tác giả đã sử dụng

2Downstream tasks are what the field calls those supervised-learning tasks that utilize a

pre-trained model or component

Trang 38

Chương 4 LÝ THUYẾT 24

word sentence piece và mã hóa BERT (BERT tokenization) Ứng dụng của

mô hình này đồng thời đã được tích hợp vào hệ thống VĩiNLP P|cho tiếng

Việt.

¢ viBERT (41): Tương tự như viBERT4News, mô hình nay cũng được huấn

luyện trên các bộ dữ liệu là các trang báo mạng được xử lý trước Tuy nhiên,

các từ vựng của mô hình này được sửa đổi từ mô hình mBERT bằng cáchloại bỏ các từ vựng không xuất hiện trong bộ dữ liệu huấn luyện Do hạn

chế về tài nguyên, mô hình này chỉ huấn luyện trên 10GB dữ liệu

® viELECTRA [41]: Nhóm tác giả đã sử dụng kiến trúc ELECTRA trên 60GB

dit liệu từ hai nguồn (NewsCorpus + OscarCorpus) Mô hình được dao taotrước (pre-trained model) này cũng được chia sẻ dang mã nguồn mở đểnghiên cứu mở rộng nghiên cứu cho cộng đồng

¢ mBERT [10]: BERT đa ngôn ngữ được nghiên cứu bởi [10], huấn luyện trên

dit liệu Wikipedia của 104 ngôn ngữ khác nhau bao gồm cả tiếng Việt

se XLM-R IHỆ XLM-R được đề xuất bởi [4] để thực hiện các nhiệm vu đa ngôn

ngữ và đạt được kết quả ấn tượng (SOTA) trong nhiều nhiệm vụ cơ bản

trong NLP, đặc biệt là đối với các ngôn ngữ ít tài nguyên đữ liệu

(low-resources languages) May mắn thay, tiếng Việt là có số lượng về mặt ngữ

liệu lớn thứ 4 trong dữ liệu huấn luyện của nhóm tác giả này.

4.3 Ky thuật làm giàu dư liệu (Data augmentation)

Data augmentation (làm giàu dữ liệu) đang ngày trở thành tiêu điểm trong

những năm gan đây, từ nguồn dữ liệu huấn luyện hạn ché sẽ tự động tạo ra nhiều

dữ liệu đào tạo hơn được coi là học bán giám sát Sennrich et al [38], Sugiyama va

Yoshinaga đã sử dung kỹ thuật back translate (dịch ngược) dé tạo ra nguồn

dữ liệu mới nhằm cải thiện hiệu suất của mô hình Trong nghiên cứu của nhómtác giả [13] cũng đã dé xuất một cách tiếp cận mới nhằm tăng cường dữ liệu đàotạo để cải thiện mô hình dịch thuật Về cơ bản, cách tiếp cận này nhắm mục tiêu

vào các từ có tần suất thấp để tạo ra các cặp câu mới chứa các từ hiếm (rare words)

3ViNLP: https: //github.com/bino282/ViNLP

Trang 39

Chương 4 LÝ THUYẾT 25

và ngữ cảnh được tạo ra một cách đa dạng Kobayashi đề xuất sử dụng kĩthuật với việc đa dạng hoá ngữ cảnh trong câu Họ ngẫu nhiên thay thế các từ

bằng các từ dự đoán khác bằng mô hình ngôn ngữ (language models) được cải

tiến với kiến trúc có điều kiện nhãn cho phép mô hình tăng cường câu mà khôngphá vỡ tính tương thích của nhãn Wei và Zou đã áp dụng một số kỹ thuật

tăng dữ liệu dé dang (Easy Data Augmentation - EDA), cụ thể là từ thay thé bằng

các từ đồng nghĩa, hoán đổi ngẫu nhiên, chèn ngẫu nhiên, xóa ngẫu nhiên dé tạo

dữ liệu mới Mặc dù các kỹ thuật này dễ thực hiện, không phụ thuộc vào bất kỳ

ngoại cảnh nào tài nguyên, chúng phần nhiều cũng đã cải thiện đáng kể hiệu suất

hoạt động của mô hình.

Và trong nghiên cứu này, tôi gôm nhóm các kĩ thuật dữ liệu này thành 3 cấp độ

- dưa trên tính chất hoạt động của, gồm có làm giàu dữ liệu ở mức độ kí tự

(char-acter augmenter), mức độ từ (word augmenter) và mức độ ngữ cảnh (contextual

augmenter).

4.3.1 Character Augmenter

Tăng cường dữ liệu ở cấp độ ký tự Các tình huống được ra là lỗi đánh máymặc dù hầu hết các ứng dụng đều có tính năng sửa từ Tôi mô phỏng lỗi này bằng

các cách thức sau, (1) thêm ký tự ngẫu nhiên (insert character randomly), (2) lặp

ký tu (repeat character randomly), (3) xoá ký tự (delete character randomly), (4)

hoán vị ký tu (swap character randomly) Trong nghiên cứu nay, ứng với mỗi câu

đầu vào sẽ ngẫu nhiên sinh ra dữ liệu mới bằng việc mô phỏng 1 trong 4 lỗi trên

Trang 40

HÌNH 4.2: Biểu diễn giá trị của từ.

4.3.3 Contextual Word Embeddings Augmenter

Masked Language Model Cac mô hình Transformers như BERT, ROBERTA và

ALBERT đã được huấn luyện trên một lượng lớn văn bản bằng cách sử dụng một

nhiệm vụ có tên là “Masked language modeling” trong đó mô hình phải dự đoán

các từ được che dựa trên ngữ cảnh Chính vì lý do này, chúng ta có thể sử dụng

để làm giàu nguồn dữ liệu Ví dụ: chúng ta có thể sử dụng mô hình BERT đượcđào tạo trước, che một số phần của văn bản và yêu cầu mô hình BERT dự đoán

giá tri (token) cho vị trí đó So với các cách tiếp cận trước đây, văn bản được tạo

mạch lạc hơn về mặt ngữ pháp do mô hình có tính đến ngữ cảnh khi đưa ra dựđoán Garg et al sử dụng ý tưởng này để tạo ra các ví dụ đối nghịch để phân

loại văn bản Tương tự mức độ làm giàu ngữ liệu ở mức từ, ứng với mỗi câu, tỉ lệ

số lượng từ được thay thế cũng là 20% tổng số từ của câu

Ngày đăng: 03/11/2024, 18:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w