1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Hệ thống phân tích cảm xúc theo khía cạnh cho bình luận sản phẩm trên các nền tảng thương mại điện tử

72 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống phân tích cảm xúc theo khía cạnh cho bình luận sản phẩm trên các nền tảng thương mại điện tử
Tác giả Tran Quang Linh, Le Phan Thanh Dat
Người hướng dẫn TS. Do Trong Hop, ThS. Ta Thu Thuy
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia TP.HCM
Chuyên ngành Khoa học dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 72
Dung lượng 19,98 MB

Nội dung

Từ các nhu cầu trên và những ợi ích mà việc phân tích bình luận mang lại, chúng tôi thực hiện một đề tài về phân tích cảm xúc theo khía cạnh cho bình luận sản phẩm son trên nền tảng thươ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

TRAN QUANG LINH

LE PHAN THANH DAT

KHOA LUAN TOT NGHIEP

HE THONG PHAN TÍCH CAM XUC THEO KHÍA CANH CHO BÌNH LUẬN SAN PHAM TREN CAC NEN TANG

THUONG MAI ĐIỆN TU

ASPECT-BASED SENTIMENT ANALYSIS SYSTEM FOR

E-COMMERCE PRODUCT REVIEWS

CỬ NHÂN NGANH KHOA HOC DU LIEU

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

TRAN QUANG LINH - 18520997

LÊ PHAN THÀNH ĐẠT - 18520570

KHÓA LUẬN TÓT NGHIỆP

HE THONG PHAN TÍCH CAM XÚC THEO KHÍA CANH

CHO BÌNH LUẬN SAN PHAM TREN CAC NEN TANG

THUONG MAI DIEN TU

ASPECT-BASED SENTIMENT ANALYSIS SYSTEM FOR

E-COMMERCE PRODUCT REVIEWS

CU NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

ThS TA THU THUY

TP HO CHi MINH, 2022

Trang 3

THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 537/QD-DHCNTT

ngày 27 tháng 7 năm 2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 TS Nguyễn Tân Trần Minh Khang - Chủ tịch

2 ThS Nguyễn Đức Vũ - Thư Ký

3 ThS Lê Thanh Trọng- Ủy Viên

Trang 4

tin tức mới nhất dé chúng em kịp thời hoàn thành những thủ tục quan trọng Cảm ơn

tập thể lớp KHDL2018 đã luôn phan đấu học tập, tạo ra một môi trường hoàn hảo đểcùng nhau cạnh tranh, cùng nhau phát triển

Bên cạnh đó, chúng em chân thành cảm ơn toàn thé quý thầy cô giảng viên, trợ giảng

đang làm việc tại trường Dai học Công Nghệ Thông Tin — Dai học Quốc Gia TP.HCM

đã luôn giảng dạy hết mình, giúp chúng em xây dựng được nền móng vững vàng để

hoàn thành báo cáo này.

Một lần nữa, chúng em xin chân thành cảm ơn!

Trang 5

MỤC LỤC

Chương 1 GIGI THIỆU TONG QUAN -2-©2222c+2222+zv2cvxereerrsecree 2

LL tui ái an ccesseseeseseeseeeseeeesecseesesecseeesseseeeesseeessesaeeesseees 2

.I.I _ Cấu trúc luận văn -ccc+522222vv+rrtrrtrrrvrrrrrrrrrrrrrrrrrre 2

12 I0; i0 3

.1.3 — Đối tượng 222222222 2211 2221 eerrerrre 3

.1.4 Phạm vi nghiên CỨU << rư 3 1.2 Giới thiệu bài toán

2.1 Đặt vấn đề neo 4

.2.2 _ Tóm tắt kết quả c2c-22222222EEEECEEEEEEE2EE1E.EEErrrrrree 6Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN 7

2.1 Các công trình nghiên cứu nước ng0ài -¿- ¿+5 +£vxveexevserererexee 7 2.2 Các công trình nghiên cứu trong NƯỚC -:- ¿+ 5S +v£vxvxexevsererexexex 8

Chương 3 XAY DUNG BO DU LIỆU 22:2222¿22222+z++222vzcrscrsscee 2

BL MC na c 2 3.2 Quy trình xây dựng bộ dữ liệu

3.2.1 Thu thập dữ liệu ccccccccccccrrrttttttEtEErrrrrtkrrrerrvee 3

3.2.2 Xây dựng hướng dẫn gan nhãn -2:©-++222++2cz++erxsrsrrsee 5

3.2.3 Gan nhãn và đánh giá tt k*SEtkegrr ri 8

3.3 Thống kê bộ đữ GU ecessssssssscccecccessssnnsnsnnnnssesseeeeeeeeccesssnnnnnnnmnneeesees 22Chương 4 PHƯƠNG PHÁP THỰC NGHIỆM

4.1 Hướng tiếp cận xây dựng mô hình 2¿++++22++zv22zvvresrrxee 25

Trang 6

4.2 Các cấu trúc mô hình thực nghiỆm -¿- cv sstesrrrrrrrerrreee 27

4.2.1 _ Cấu trúc Bidirectional Long-short term Memory

4.2.2 Câu trúc Bidirectional Gated Recurrent Unit - 294.2.3 Câu trúc Convolutional Neural Networfk . -z-2 304.3 Kiến trúc mô hình tổng quan -:-2++222++++22E+++222ES++tztrxxrrerrree 31

Chương 5 KET QUA THUC NGHIEM cscccssssssesssssseessssseessssssessssssecessssersesssees 36

S.1 Cài đặt thực nghiém oe ec cceeeseneeeeseseseseeeeeeeseeeseneeeeesseeeeeeneneseeeeeentes 36

SAAD Xử lý dữ liệu nhiễu 2-cc22SccEESererrererrrrerrererrvee 36

5.1.2 Thông số cài đặt mô hình z++2E++++22E+z++ztzxzerrrrrrcee 37

5.1.3 Độ đo đánh giá cc Ăn re 38

5.2 Kết quả thực nghiệm -2¿ 22222++222212+22223122222112 222112 eE2E.eccreg 405.3 Phân tích kết quả :-222+:222222222211222211112222112 21211 eEE eccreg 42

Chương 6 XÂY DỰNG HE THÓNG - 2222¿2222+2EE22E2+tEEEEEerrrrrreee 446.1 Tổng quan hệ thống -22+¿22E+22+2EEEE+EEEEEE2EE2E2etEEEEEerrrrrkrrrrrg 44

6.2 Pipeline thu thập và xử lý dit liệu với Apache Airflow - 45 6.3 Hệ quan trị cơ sở dit liệu PostgreSQL ¿c5 +cststserexsxeeevrvree 47 6.4 Dashboard phân tích dữ liệu với Tableau - - c5 ce++xexererxr+ 50

Chương 7 KET LUẬN VÀ HƯỚNG PHAT TRIẺN -: -c2 57

7.1.

Trang 7

Hin!

Hin!

Hin

Hin!

Hin!

Hin

Hin

Hin

Hin

Hin

Hin!

h 3.1:

h 3.2:

Hinh 3.3:

Hinh 3.4:

h 3.5:

3.6:

Hinh 4.1:

h 4.2:

h 4.3:

Hinh 4.4:

Hinh 4.5:

4.6:

4.7:

Hình 4.8:

6.1:

6.2:

Hình 6.3:

Hình 6.4:

6.5:

h 6.6:

Hinh 6.7:

6.8:

DANH MỤC HÌNH

Tổng quan quy trình xây dựng bộ dữ liệu 12

Minh hoa công cu gan nhãn Doccano 19

Quy trình huấn luyện người gan nhãn va gan nhãn - 20

Hệ số đồng thuận Cohen’s Kappa qua các giai đoạn huấn luyện 21

Phân bồ khía cạnh và cảm xúc trên bộ dit liệu -:: + 23

Biểu đỗ tròn phân bố cảm xúc trong bộ dữ liệu .-:-+ 23

Minh họa mô hình Single-task Learning cho dự đoán cảm xúc 25

Minh họa một kiến trúc mô hình Multi-task Learning - 26

Minh họa cấu trúc LSTM -c222EEEkkkktrttreerirrrrrrrrrrrrrriie 28 Mô tả kiến trúc BiLSTM -22222222222222+2222222S2vrrrrtrrrrrrrrrrrrrrr 29 Minh họa cấu trúc GRU ccccccccvvvccccccccrrrrrrrrrrrtrrrrrrrrrrrrrrrrrrre 29 Mô hình BiLSTM/BiGRU - c6 SE E*EEEEkekeEEkrrrkrkerrrerek 32 Mô hình BiILSTM/BIGRU+Conv ÏD 5-6 cSccsrcsexsrererereree 34 Minh họa kiến trúc mô hình BiLSTM+BiGRU+Conv1D 35

Mô tả tong quát kiến trúc hệ thống 2z +z2222+zz+cvvszzesrg 44 DAG của hệ thống 222:©22222222222222232222211222221112222112 22211 re 46 Minh họa bang dữ liệu son_review_v2 trong PostgreSQL 48

Dashboard đầu tiên về tổng quát Story và thống kê dữ liệu 50

Dashboard thứ hai về phân tích tổng quan ¿©2252 51 Dashboard thứ ba về phân tích cam xúc theo khía cạnh - - 53

Dashboard thứ tư về phan tích sản pham c.ccsccccsssseecsssseessesseeesssseeeeeese 54

Dashboard thứ năm về các bình luận gần nhất -:s+ 55

Trang 8

DANH MUC BANG

Thông tin các bộ dữ liệu liên quan 10

Thông tin sơ lược các sản phẩm son được thu thập bình luận „13

Định nghĩa và ví dụ các khía cạnh trong bộ dữ liệu 15

Ví dụ một vài trường hợp gây nhập nhằng - 2: c2 17

Thông tin cơ bản của giai đoạn gan nhãn - - - + 5+ 5++++++x+rercr+ 19

Thống kê trên các tập dữ liệu ¿¿2+2++222++++222++zrttrrvrrrrrree 24

Confusion matrix giữa nhãn thực tế và nhãn dự đoán -. 38

Kết qua thực nghiệm trên 2 bài toán STL và MTL(%) - 40Kết quả trung bình 5 mô hình trên từng khía cạnh của bài toán phát hiện

OP 41 Fl-score theo cảm xúc trên từng khía cạnh (3⁄%) -+-+-+=ecex+x++ 4I Thông tin dữ liệu trong bảng søw_ rewiew_v2 -+c+c+ce-e++ 48

Trang 9

DANH MỤC TỪ VIET TAT

STT | Từ viết tắt Từ đầy đủ

1 ABSA Aspect-based Sentiment Analysis

2 API Application Programming Interface

3 BIGRU Bidirectional Gated Recurrent Unit

4 BiLSTM Bidirectional Long-short term Memory

5 Conv1D Convolution 1 Dimension

6 DAG Directed Acyclic Graph

7 ELMO Embeddings From Language Models

3 SVM Support Vector Machine

4 TF-IDF Term Frequency—Inverse Document Frequency

5 TN True Negative

6 TP True Positive

7 VLSP Vietnamese Language and Speech Processing

Trang 10

TÓM TÁT KHÓA LUẬN

Thương mại điện tử đang ngày càng phát triển va dan thay đồi thói quen mua sắm

của người dùng Nắm bắt được tâm lý của người mua hàng có thể giúp người bánhắc phục các hạn chế và day mạnh các điểm mạnh từ đó làm thỏa mãn người mua

hàng và đạt được sự tăng trưởng trong kinh doanh Một cách hiệu quả đề năm bắt tam

ly khách hang là thông qua việc phân tích các bình luận mà người dùng đã đánh giá

sau khi mua hàng trên các nền tảng thương mại điện tử Từ các nhu cầu trên và những

ợi ích mà việc phân tích bình luận mang lại, chúng tôi thực hiện một đề tài về phân

tích cảm xúc theo khía cạnh cho bình luận sản phẩm son trên nền tảng thương mại

điện tử Shopee Không chỉ dừng lại ở việc xây dựng mô hình dự đoán cảm xúc và

khía cạnh, chúng tôi còn xây dựng một hệ thống tự động phân tích cảm xúc theo khía

cạnh cung cấp đầy đủ thông tin về bình luận sản phẩm son

Chúng tôi đã xây dựng một bộ dit liệu tiếng Việt về bình luận sản phẩm son cho bài

toán phân tích cảm xúc theo khía cạnh có 16,227 bình luận với 32,775 cặp khía cạnh

và cảm xúc Chúng tôi cũng thực nghiệm trên 2 phương pháp Single-task Learning

và Multi-task Learning cho việc xây dựng mô hình dự đoán và nhiều kiến trúc mô

hình khác nhau Mô hình cho kết quả tốt nhất là BiLSTM-Conv1D theo phương pháp

Single-task Learning với 97.36% F1-seore macro cho phát hiện khía cạnh trong bình

luận và 69.13% Fl-score macro cho phân loại cảm xúc theo khía cạnh Từ kết quảthực nghiệm, chúng tôi đã xây dựng một hệ thống phân tích cảm xúc theo khía cạnh

cho bình luận sản phẩm son trên Shopee với phần lõi là mô hình dự đoán đã thực

nghiệm.

Trang 11

Chương 1 GIỚI THIỆU TONG QUAN

1.1.1 Cấu trúc luận văn

Luận văn được tổ chức thành 6 chương Mỗi chương giới thiệu một nội

dung mà chúng tôi đã tìm hiểu va thực hiện trong khuôn khổ kiến thức và

nguồn lực cho phép

Chương 1 Giới thiệu tổng quan: Giới thiệu cấu trúc của luận văn Giới

thiệu mục tiêu, đối tượng nghiên cứu, phạm vi nghiên cứu cũng như bài

toán mà luận văn hướng đến giải quyết

Chương 2 Các công trình nghiên cứu liên quan: Giới thiệu một số côngtrình nghiên cứu trong và ngoài nước liên quan đến bài toán Phân tích

cảm xúc theo khía cạnh (ABSA).

Chương 3 Xây dựng bộ dữ liệu: Dé phục vụ cho quá trình nghiên cứu

và thực hiện, chúng tôi đã xây dựng một bộ dữ liệu tiếng Việt riêng và

tiến hành thực nghiệm cũng như đánh giá, phân tích kết quả trên bộ dữ

liệu này Nội dung của chương đề cập đến quá trình xây dựng, kiểmthử, đánh giá bộ dữ liệu tiếng Việt

Chương 4 Phương pháp thực nghiệm: Trong chương này, chúng tôi sẽ

trình bày về các phương pháp và hướng tiếp cận cho bài toán ABSA

Chúng tôi đã xây dựng mô hình theo 2 hướng tiếp cận là: Single-Task

Learning và Multi-Task Learning, va theo 5 mô hình là BiLSTM, BiGRU, BiLSTM+Conv1D, BiGRU+Conv1D, BiLSTM+BiGRU+ Conv1D.

Chương 5 Kết quả thực nghiệm: Chương này trình bay các kết quả thựcnghiệm mà chúng tôi thu được, thêm vào đó là các phân tích về kết quả

cũng như nhận xét.

Trang 12

cạnh dé phục vụ người dùng Cách thức xây dựng và cài đặt hệ thống

sẽ được trình bày chỉ tiết trong chương này

- Chương 7 Kết luận và hướng phát triển: Trong chương cuối của khóa

luận, chúng tôi trình bày kết luận cuối cùng sau khi thực hiện nghiên

cứu, cài đặt, xây dựng và tông kết kết quả đạt được cũng như trình bàymột số hướng đi tương lai cho đề tài cũng như cộng đồng nghiên cứu

đặc biệt là cộng đồng nghiên cứu bài toán ABSA

1.1.2 Mục tiêu.

Xây dựng một hệ thông có khả năng phân tích những khía cạnh và cảm xúc

của các bình luận về sản phẩm son trên nền tảng thương mại điện tử để rút ra

các thông tin, nhận xét của người dùng cho sản phâm đó Từ đó, biểu diễn cácthông tin đánh giá dưới dang biéu đồ dé phân tích trực quan đánh giá phản hồi

của người mua, cải thiện chất lượng sản phẩm và dich vụ

Xây dựng một bộ dữ liệu tiếng Việt cho bình luận sản phẩm son trên cácsàn thương mại điện tử Hiện tại chưa có bộ dữ liệu nào về sản phẩm son trêntiếng Việt mà chỉ có trên một vài bộ dữ liệu tiếng Anh

1.1.3 Đối tượng

Đối tượng thu thập dữ liệu: bình luận của người mua hàng trên các trang

thương mại điện tử.

Đối tượng sử dụng hệ thống: người bán hàng muốn theo dõi đánh giá chấtlượng sản phẩm, người làm phân tích muốn nghiên cứu và cải thiện chất lượngsản phẩm

1.1.4 Phạm vi nghiên cứu

Sử dụng bình luận về các sản phẩm trên các trang thương mại điện tử đểxây dựng hệ thống Hệ thống xoay quanh việc phân tích cảm xúc của người

mua sản phâm.

Trang 13

1.2 Giới thiệu bài toán

1.2.1 Đặt vấn đề

Ngày nay, có không ít ứng dụng trên điện thoại, trang web đã được tạo ra

nhằm giao dịch các loại mặt hàng khác nhau như: Shopee, Tiki, Lazada, Điểm chung của các nền tảng trên là cho phép người dùng vừa có thé là mộtngười mua hàng từ các cửa hàng trực tuyến, vừa đóng vai trò như một ngườichủ cửa hang dé bay bán những sản phẩm cá nhân Khi người quản lý cửa hangnắm bắt được thái độ, hành vi cũng như cảm xúc phản hồi từ khách hàng đếntừng sản phẩm cụ thể, người quản lý có thé thay đổi chiến lược bán hàng phùhợp nhằm tăng doanh thu Đứng dưới góc độ người mua hàng, khi một ngườikhách hàng muốn mua một sản phẩm, khách hàng đó sẽ có xu hướng muốnbiết trải nghiệm mua hàng của các khách hàng trước cũng như những bình luận

tích cực hay tiêu cực đến sản phẩm đó, qua đó có thể cân nhắc đưa ra quyết

định mua hay không.

Để biết một bình luận là tích cực hay tiêu cực, bài toán cần phải giải quyết

chính là Phân tích cảm xúc (Sentiment Analysis) Trong bài toán này, hệ thống

sẽ đánh giá một bình luận là tích cực, tiêu cực hay trung tính tùy vào sắc thái

của câu bình luận mà đưa ra đánh giá cụ thể Ưu điểm của hệ thống này làđánh giá đưa ra có tính tổng quát trên cả câu bình luận, hệ thống dễ dàng xâydựng Nhưng thực tế, ngôn ngữ là vô cùng phức tạp Việc con người đọc một

câu bình luận và đưa ra phân tích về cảm xúc của câu đó có thể không chính

xác Nên việc hệ thống không thẻ phân tích cảm xúc của những câu bình luậnphức tạp, mang nhiều tầng nghĩa, mang nhiều khía cạnh, làm tiền đề cho bài

toán Phân tích cảm xúc theo khía cạnh ra đời.

Phân tích cảm xúc theo khía cạnh là việc thực hiện đọc — hiểu và đưa ra

những đánh giá theo từng khía cạnh trong câu Kết quả cuối cùng cho ra kết

Trang 14

chúng tôi quyết định thực hiện nghiên cứu hệ thống phân tích cảm xúc theo

khía cạnh.

Sản phâm mà nhóm chúng tôi hướng đến là son môi vì số lượng bình luậncho sản phẩm son môi rất nhiều và chất lượng bình luận khá tốt, chứa nhiềukhía cạnh trên một bình luận Bên cạnh đó, chưa có nhiều công trình nghiêncứu bài toán ABSA trên dữ liệu tiếng Việt liên quan đến các sản phẩm làm

đẹp, đặc biệt là son môi Nền tảng thương mại điện tử mà nhóm thực hiện

nghiên cứu hệ thống Phân tích cảm xúc theo khía cạnh là Shopee — một trongnhững trang thương mại điện tử lớn nhất hiện nay Chúng tôi thực hiện xâydựng hệ thống phân tích cảm xúc của người dùng theo từng khía cạnh trênbình luận của sản phâm và biểu diễn thông tin dưới dạng biểu đồ một cách dễhiểu, trực quan, thuận tiện, dễ nắm bắt thông tin một cách chính xác và tin cậy

nhất Hệ thống được lên lịch để chạy theo từng thời điểm mong muốn.

Một cách cụ thể, bài toán phân tích cảm xúc theo khía cạnh mà chúng tôithực hiện gồm 2 bài toán nhỏ là phát hiện khía cạnh (aspect detection) và phân

loại cảm xúc (sentiment classification) Đối với bài toán phát hiện khía cạnh,

đầu vào là những câu bình luận của người dùng, mô hình sẽ xử lý và đưa ranhững khía cạnh nào được đề cập trong câu bình luận đó Đối với bài toán

phân loại cảm xúc, đầu vào sẽ là những câu bình luận của người dùng đã qua

xử lý của mô hình phát hiện khía cạnh trước đó, hay nói cách khác là nhận đầu

ra của bài toán phát hiện khía cạnh làm đầu vào Sau đó, mô hình phân loại

cảm xúc thực hiện phân loại cảm xúc tương ứng với từng khía cạnh trong câu,

cho ra đầu ra cuối cùng

Đối với hệ thống, đầu vào sẽ nhận những bình luận, đánh giá của kháchhàng trên một sản phẩm cụ thể tại trang thương mại điện tử Shopee, sau đó

thực hiện phát hiện khía cạnh, phân loại cảm xúc và đầu ra sẽ là những biểu

đồ phân tích cảm xúc phân theo từng khía cạnh một cách trực quan, dé quan

sát và dé dàng đưa ra đánh giá.

Trang 15

1.2.2 Tóm tắt kết quả

Bộ dữ liệu: Xây dựng thành công bộ dữ liệu có tính thực tế dé sử dung cho

mô hình phân tích cảm xúc theo khía cạnh Bộ dữ liệu bao gồm 16,227 bìnhluận với 8 khía cạnh và 3 sắc thái cảm xúc khác nhau (32,775 cặp khía cạnh -cảm xúc).

Mô hình: Cài đặt thành công 5 loại mô hình bao gồm: BiLSTM, BiGRU,

BiLSTM+ Conv1D, BiGRU+ Conv1D, BiLSTM + BiGRU + ConvI1D trên 2

phương pháp là Single-task Learning va Multi-task Learning Các kết quả thựcnghiệm cho thấy phương pháp Single-task Learning cho kết quả tốt hơn Multi-

task Learning và kiến trúc mô hình BiGRU+ Conv1D cho kết quả tốt nhất với

97.36% Fl-score macro cho phát hiện khía cạnh trong bình luận và 69.13%

Fl-score macro cho phân loại cảm xúc theo khía cạnh.

Hệ thống: Xây dựng, thiết kế thành công hệ thống tự động tích hợp môhình dự đoán cũng như tạo lập được các biéu đồ cung cấp day đủ thông tinphân tích về bình luận sản phẩm cho người bán sản phẩm có thé sử dụng

Trang 16

Chương 2 CAC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN

2.1 Các công trình nghiên cứu nước ngoài

Bài toán phân tích cảm xúc của văn bản nói chung và phân tích cảm xúc theo

khía cạnh nói riêng là một bài toán phổ biến trong lĩnh vực Xử lí ngôn ngữ tự

nhiên Hiện nay, đã có nhiều công trình nghiên cứu liên quan về phân tích cảm

xúc theo khía cạnh cho bình luận của khách hàng và đã một vài nghiên cứu cho

bình luận về sản phẩm son môi cũng như các sản phẩm làm đẹp khác Dưới đây

là một vài công trình nghiên cứu liên quan đến bài toán Phân tích cảm xúc theo

khía cạnh.

Các tác giả N P Arthamevia và cộng sự [I] đã sử dụng thuật toán Support

Vector Machine (SVM) kết hợp với phương pháp TF-IDF dé xây dựng mô hình

phân loại cảm xúc của các bình luận sản phẩm trên nền tảng thương mại điện tử

Cac tác giả đã sử dụng các độ đo Accuracy, Precision, Recall và Fl-score để đohiệu suất các mô hình và đạt được kết quả 88.35% Accuracy Đây là một trong

những nguyên cứu cơ bản về bài toán phân tích cảm xúc của các bình luận sảnphẩm trên nền tảng thương mại điện tử, có thé phát triển thêm như sử dụng các

mô hình học sâu đề cải thiện hiệu suất

Bài toán phân tích cảm xúc theo khía cạnh có thể chia làm hai bài toán nhỏ

hơn là phát hiện khía cạnh và phân loại cảm xúc của khía cạnh Đối với VIỆC SỬ

dụng các phương pháp học sâu cho bài toán phân tích cảm xúc theo khía cạnh, có

hai cách tiếp cận phô biến là xây dựng từng mô hình cho từng bài toán nhỏ

(Single-task Learning) và xây dựng một mô hình có thể đảm nhiệm hai hoặc nhiều bài

toán nhỏ cùng lúc (Multi-task Learning) Yequan Wang và cộng sự [2] đã thực nghiệm trên bộ dữ liệu SemEval 2014 Task 4 theo phương pháp Single-task Learning với thuật toán Attention-based LSTM Độ chính xác của mô hình đạt 84% cho bài toán phân loại khía cạnh và 77.2% cho bài toán phân loại cảm xúc

theo từng khía cạnh cho bộ dữ liệu về bình luận cho nhà hàng Mặc dù kết quả đạtđược là rất cao nhưng một nhược điểm của Single-task Learning là cần phải huấn

Trang 17

luyện và triển khai nhiều mô hình cho bai toán phân tích cảm xúc theo khía cạnh,

dẫn đến tốn nhiều thời gian và chỉ phí cho xây dựng và sử dụng mô hình

Đối với phương pháp thứ hai là Multi-task Learning, một vài nghiên cứu liên

quan đã chứng minh được sự tiện lợi cũng như là hiệu quả của phương pháp này.

Ruidan He và cộng sự [3] đã giới thiệu kiến trúc Interactive Multi-Task LearningNetwork (IMN) với mô hình có thé giải quyết hai bài toán nhỏ trong phân tích

cảm xúc theo khía cạnh đồng thời và tận dụng thông tin từ bài toán phân loại khía

cạnh đề bổ trợ cho bài toán phân loại cảm xúc theo khía cạnh Nhóm tác giả sử

dụng thuật toán Convolutional Neural Network (CNN) và bộ dữ liệu thực nghiệm

là SemEval 2014 Task 4 cho bình luận về nhà hàng Kết quả đạt được là 84.01%

F1-score cho bài toán phân loại khía cạnh và 85.644% F1-score cho bài toán phân tích cảm xúc theo khía cạnh Phương pháp Multi-task Learning mà nhóm tác giả

đề xuất cho hiệu suất khá cao trên bộ dữ liệu thực nghiệm nhưng chưa có một sự

so sánh cụ thể với phương pháp Single-task Learning để đưa ra kết luận phươngpháp nao là tốt hơn

Cũng trong công trình nghiên cứu của Ruidan He [4] cùng các cộng sự, nhóm

tác giả đã thực hiện so sánh kết quả của các phương pháp khác nhau, trong đó cóMulti-task Learning và các phương pháp LSTM kết hợp (Single-task Learning)

trên các bộ dữ liệu SemEval 2014, 2015, 2016 Kết quả so sánh cho thấy, hướngtiếp cận Multi-task Learning cho kết quả macro F1-score lần lượt trên 4 bộ dirliệu: 66.68%, 64.57%, 65.59%, 64.56%, tốt hơn so với các mô hình Single-task

Learning từ 1%-5%.

2.2 Các công trình nghiên cứu trong nước

Bên cạnh các công trình nguyên cứu về bài toán phân tích cảm xúc theo khía

cạnh trên thé giới, ở Việt Nam cũng đã có những nguyên cứu và bộ dữ liệu về bài

Trang 18

tác giả đã tạo nên bộ dữ liệu với 4751 bình luận cho bộ dữ liệu về nhà hàng và

5600 bình luận cho bộ dữ liệu về khách sạn Đây là một trong những bộ dữ liệuhình mẫu dé tạo nên những bộ dữ liệu tương tự cho các lĩnh vực khác như sảnphẩm trên nên tảng thương mại điện tử Hệ thống đạt hiệu suất cao nhất là 77%FI-score cho bộ dit liệu về nhà hang và 69% F1-score cho bộ dữ liệu khách san

Hệ thống này là một tập hợp của các mô hình phân loại [6] Sau khi mô hình phânloại cho khía cạnh thứ nhất dự đoán khía cạnh đó trong câu, kết quả sẽ được truyền

qua mô hình phân loại cảm xúc của khía cạnh đó.

Cũng trên bộ dữ liệu ABSA-VLSP 2018, tác giả Đặng Văn Thin đã đề xuấtkiến trúc mô hình sử dụng mang nơ-ron tích chập [7] dé trích xuất thông tin củabình luận và phân loại khía cạnh và cảm xúc Kiến trúc này đã cho hiệu suất caohơn hệ thống đạt hiệu suất cao nhất ở cuộc thi VLSP2018 với F1-score cho bộ dit

liệu nhà hàng là 80.4% và cho bộ dữ liệu khách sạn là 69.25% Tuy nhiên, hệ

thống trên vẫn tiếp cận theo hướng một mô hình cho một bài toán nhỏ task learning) nên vẫn còn một số hạn chế với việc huấn luyện và triển khai các

(Single-mô hình.

Bài toán phân tích cảm xúc theo khía cạnh có thé ap dung cho nhiều lĩnh vuc

khác nhau, trong đó lĩnh vực công nghệ với các bình luận về điện thoại, laptop,

là một lĩnh vực tiềm năng dé phát triển bài toán Nhóm tác giả bộ dữ liệu ViSD4SA [8] đã thu thập hơn 11,122 bình luận về sản phẩm điện thoại trên nền

UIT-tảng thương mại điện tử Nhóm tác giả đã sử dụng phương pháp Span Detection

để trích xuất từng từ ứng với các khía cạnh Kiến trúc sử dụng Bidirectional LongShort-Term Memory (BiLSTM) kết hợp với một lớp Conditional Random Field(CRF) đề dự đoán từng từ trong câu thuộc khía cạnh va cảm xúc nao Kết quả thựcnghiệm trên bộ dữ liệu UIT-ViSD4SA là 62.76% F1-score Day là một kết quảtốt cho bai toán Span Detection

Bảng 2.1 bên dưới đưa ra các thông tin về các bộ dữ liệu tiếng Việt liên quanđến bài toán phân tích cảm xúc cho các chủ đề khác nhau và so sánh với bộ dữ

liệu mà chúng tôi tạo ra.

Trang 19

Bảng 2.1: Thông tin các bộ dữ liệu liên quan STT Tên Năm Bài toán Kích cỡ | Lĩnh vực

5 ReINTEL2020 | 2020 | Nhận diện thông 10007 | Đa lĩnh vực

fly tin liên quan

6 UIT-ViCTSD 2021 | Phát hiện bình 10000 | Đa lĩnh vực

[12] luận độc hại hoặc

10 Bộ dữ liệu của | 2022 | Phân tích cảm xúc 16227 | Sản pham

chúng tôi theo khía cạnh làm đẹp

Trang 20

Từ các nguyên cứu đi trước ở Việt Nam và trên thế giới, chúng tôi nhận thấy

bài toán phân tích cảm xúc theo khía cạnh cho bình luận các sản phẩm về làm đẹptrên nền tảng thương mại điện tử đã phát triển trên thế giới và mang lại những lợiích nhất định nhưng chưa có một nguyên cứu cụ thé cho tiếng Việt Vì vậy, chúngtôi đã xây dựng một bộ dữ liệu tiếng Việt về bình luận của sản phẩm son trên nền

tảng thương mại điện tử phục vụ cho bài toán phân tích cảm xúc theo khía cạnh.

Bên cạnh đó, dựa vào các công trình đi trước với nhiều phương pháp tiếp cận vàkiến trúc mô hình, chúng tôi đề xuất một kiến trúc Multi-task Learning cho bàitoán này dé so sánh với phương pháp Single-task Learning vốn có

ll

Trang 21

Chương 3 XÂY DỰNG BO DU LIEU

3.1 Mục tiêu

Để một mô hình đạt được hiệu suất cao thì một bộ dif liệu tốt đóng vai trò vôcùng quan trọng Mục tiêu cuối cùng là tạo ra bộ dữ liệu khách quan, đúng chuẩn,

đầy đủ, dễ dàng sử dụng cho quá trình xây dựng và đánh giá hiệu suất của các

phương pháp đã đề ra Tại thời điểm thực hiện luận văn, vẫn chưa có bộ dữ liệutiếng Việt nào được xây dựng để phục vụ bai toán Phân tích cảm xúc theo khía

cạnh cho các sản phâm son môi trên nên tảng thương mại điện tử.

3.2 Quy trình xây dựng bộ dữ liệu

Chúng tôi xây dựng dir liệu với một quy trình rõ ràng, chia ra theo từng giai

đoạn để đảm bảo bộ dữ liệu được khách quan và có thể sử dụng thực tế, Tổngquan quy trình xây dựng bộ dữ liệu được biểu diễn như Hình 3.1 bên dưới

II Gán nhãn

Thu thập Thực hiện Đánh giá

dữ liệu song song "| dữliệu

Xây dựng hướng

dẫn gán nhãn

Hình 3.1: Tổng quan quy trình xây dựng bộ đữ liệu

Đầu tiên, chúng tôi sẽ thu thập dữ liệu về bình luận son trên Shopee với các

công cụ hỗ trợ và chỉ tiết về thu thập dữ liệu sẽ được trình bày trong phần 3.2.1

Sau đó sẽ là xây dựng hướng dẫn gán nhãn, thực hiện gán nhãn song song với cập

nhật hướng dẫn gán nhãn ở phần 3.2.2 và 3.2.3 Cuối cùng là đánh giá chất lượng

gán nhãn ở phần 3.2.3

Mỗi giai đoạn trong quy trình chúng tôi thực hiện đều tuân theo một thời gian

biểu được lên lịch trình rõ ràng Sau khi hoàn thành một giai đoạn, chúng tôi thực

Trang 22

hiện việc xem lại dữ liệu, công đoạn của giai đoạn trước đã hoàn thành đúng như

mong đợi hay chưa, sau đó chuyên sang giai đoạn tiếp theo

3.2.1 Thu thập dữ liệu

Chúng tôi thực hiện thu thập dữ liệu từ 9 sản phẩm son khác nhau, các sảnphẩm đều đang được bán trên nền tảng Shopee tại thời điểm thực hiện nghiêncứu này Chúng tôi chọn 9 sản phẩm trong Bảng 3.1 đưới vì đây là các sảnphẩm có nhiều lượt bình luận nhất, và nhận được tat cả các loại đánh giá từ 1sao đến 5 sao Như vậy sẽ giúp làm giàu bộ dữ liệu về cả chất lượng cũng như

số lượng

Ở giai đoạn thu thập dữ liệu, chúng tôi xây dựng công cụ tự động thu thập

bình luận trên Shopee bằng thư viện Selenium kết hợp với BeautifulSoup Cáctrường thông tin thu thập bao gồm: tên sản phẩm, tên shop, đánh giá sản phẩm(bằng văn bản), loại sản phẩm (số hiệu, màu sắc đặc trưng cho sản phẩm), thờigian viết đánh giá (ngày, giờ), giá sản phẩm Bảng 3.1 dưới đây mô tả thôngtin sơ lược (tên sản phẩm, tên shop, số lượng bình luận và link) của 9 sản phẩm

mà chúng tôi đã thu thập.

Bang 3.1: Thông tin sơ lược các sản phẩm son được thu thập bình luận

STT Tên sản phẩm Tên shop Số lượng | Link

bình luận

1 | Son Kem Perfect Diary | perfectdiary.vn 1144 link

Mau Li Tông Màu CổĐiền Lâu Trôi 2.5g

2_ | Son Kem Li Bbia Last | bbia_officialstore 3006 link

Velvet Lip Tint Version

5 (5 mau) 5g - Bbia

Official Store

13

Trang 23

Son Kem Li Perfect

Diary Tông Mau Đỏ

Quyến Rũ 2.5g

Son môi FOCALLURE

24g màu nhung mịn lên

Son Kem Lì Merzy The

First Velvet Tint 4.5g

Son kem li, lén mau

chuan Han Quốc

Romand Zero Velvet

Son kem lì trà sữa, lâu

trôi, mịn môi Hàn Quốc

Romand Milk Tea

Velvet Tint 4.4g

Tổng số bình luận 16227

Trang 24

3.2.2 Xây dựng hướng dẫn gán nhãn

Bộ dữ liệu của chúng tôi có 8 khía cạnh và 3 cảm xúc Từ nhu cầu và sựquan tâm của người dùng kết hợp tham khảo những công trình nghiên cứu liênquan, chúng tôi nhận thấy rằng, đối với những bình luận về sản phẩm son có

các khía cạnh sau: giao hàng (shipping), đóng gói (packing), giá (price), màu

son (colour), chất son (texture), độ lì (staying power), mùi (smell) và nhữngbình luận không liên quan (others) Đây là những khía cạnh thường xuyên xuất

hiện trong các bình luận nhất, dễ dàng tìm thấy nhất và dễ dàng định nghĩa

cũng như đánh giá Các cảm xúc: tích cực (positive), trung tính (neutral), tiêu

cực (negative) là những cảm xúc phổ biến trong những bài toán phân loại cảm

xúc Thay vì chỉ sử dụng 2 cảm xúc là tích cực (positive) và tiêu cực (negative) như những bài toán phân loại cảm xúc khác, chúng tôi thêm vào cảm xúc trung

tinh (neutral) dé chỉ tiết hóa bài toán, nhằm biéu thị những bình luận khó xác

định cảm xúc hoặc không rõ ràng Bảng 3.2 dưới đây trình bày định nghĩa và

ví dụ của các khía cạnh trong bộ dữ liệu.

Bảng 3.2: Định nghĩa và ví dụ các khía cạnh trong bộ dữ liệu

Tên khía STT Mô tả Ví dụ

cạnh

: SMELL | Bình luận có đề cập đến | Màu son đẹp nhưng mak

(mùi) mùi hương của son cái mùi nó sao ý

Bình luận có dé cập đến

2 COLOUR | màu son như đậm hay | Màu đỏ đậm rất đẹp, mình

(màu sắc) | nhạt, phù hợp với người rất thích màu này

dùng hay không.

3 TEXTURE | Bình luận có đề cập đến | Chất son khá lỏng và

(chất son) | chất lượng của son, chất | nhanh khô nên hơi khó

15

Trang 25

son, hoặc các thông tin về

độ ẩm, độ khô của son

đánh kiều ombre như mình

Độ bên màu: lâu trôi.

Mêm môi nma k đc lì lam đâu nha mn

SHIPPING

(giao hàng)

Bình luận có đề cập đếnvấn đề giao hàng của sảnphẩm, thường là tốc độ

giao hàng và thái độ của nhân viên giao hàng.

Giao hàng rất nhanh, nhân

viên rất thân thiện

PACKING

(đóng gói)

Bình luận đề cập đến mức

độ cần thận của việc đónggói, chất lượng hộp đóng

gói và khi nhận thì sản

phẩm có bị bóp méo hay

không.

Shop đóng gói rất sơ sài,

cây son đã bị gãy vì hộp

hoặc nội dung không liên

quan đến son hoặc spam

[QC] Cơ hội tiếp cận tới

50 triệu khách hàng tiềm

năng và 6 triệu lượt xem

gian hàng mỗi tháng với

nền tảng quảng cáo SMS

của Viettel.

Trang 26

Trong quá trình gán nhãn, để giúp cho người gán nhãn thuận tiện hơn trongviệc gán cũng như kiểm tra lỗi, kiểm tra logic thì một bản hướng dẫn gán nhãn

chỉ tiết là rất cần thiết Chúng tôi xây dựng hướng dẫn gán nhãn song song với

quá trình huấn luyện người gan nhãn Nếu một trường hợp gan nhãn chưa cótrong hướng dan gan nhãn, hoặc trường hợp đó gây ra sự nhập nhằng, khó

khăn, cũng như bat đồng ý kiến giữa những người gan nhãn thì chúng tôi tiến

hành thảo luận ý kiến và đưa ra kết luận, sau đó bồ sung trường hợp vừa nêuvào hướng dẫn gan nhãn dé thuận tiện cho việc gn đối với những trường hợp

gây nhập nhằng tương tự Bảng 3.3 dưới đây ví dụ cho một vài trường hợp gây

nhập nhang, can thảo luận kĩ càng để đưa ra kết luận giữa những người gan

nhãn.

Bảng 3.3: Ví dụ một vài trường hợp gây nhập nhằng

Lưu ý Ví dụ Giải thích

: x -> Về trước từ nhưng :

Khi một bình luận bao gom ,

Son ko đc đặc cho lăm

cho lam nhưng | nhưng : dc cái nhanh khô.

“nhưng”, “tuy nhiên”, ,

dc cái nhanh (khía cạnh Chât son, cảm

“tuy nhưng”, ) thì ý

, , khô xúc tích cực) -> Nhãn

kiên xuât hiện sau có tính k.

cuôi cùng cho câu: khía

quyết định cam xúc cao ,

cạnh Chât son, cảm xúc hơn

Trang 27

nhãn mặc định là negative

shipping

Trong câu có dé cập đến

aspect đó nhưng nội dung

lại không liên quan =>

Doccano Hình 3.2 bên dưới minh họa giao diện công cụ gan nhãn Doccano

mà chúng tôi sử dụng để gán nhãn

Trang 28

x Y'mRzñ B=

CED ED CE A) GT) GE) riven

Céng dung: nice

Kết cấu: len mau chuan

Độ bền màu: ko ben lam

ản phẩm rất xinh đẹp tuyệt vời, tôi không thể trông đợi gì hơn Cảm ơn nhà cung cấp, nhà sản xuất, cảm ơn người bán hàng, cảm

ơn san thương mại điện tử, cảm ơn người vận chuyến dé tôi có cơ hội dùng sản phẩm tốt như thé nay.

Hình 3.2: Minh họa công cụ gán nhãn Doccano.

Giai đoạn gan nhãn được chia làm 2 giai đoạn lớn là giai đoạn huấn luyệnngười gan nhãn và giai đoạn gan nhãn Giai đoạn huấn luyện có 5 giai đoạnnhỏ, chỉ tiết mỗi giai đoạn được mô tả như Bảng 3.4 dưới đây

Bảng 3.4: Thông tin cơ bản của giai đoạn gán nhãn.

19

Trang 29

sai và sau đó thảo luận nguyên nhân, sửa đổi cho phủ hợp Sau khi thống nhất

ý kiến thì những trường hợp gây khó khăn, nhập nhằng sẽ được bổ sung vàohướng dẫn gán nhãn Sau đó, chúng tôi quay trở lại việc đo hệ số đồng thuận

và bàn bạc sửa đổi cho đến khi hệ số đồng thuận ở giai đoạn huấn luyện đạtmức > 0.65 Khi hệ số đồng thuận đã đạt mức > 0.65, chúng tôi chấp nhậnnhững bình luận đó đã được gán nhãn đồng đều giữa các người gán nhãn với

nhau.

Trong giai đoạn gan nhãn ở Hình 3.3b., chúng tôi chia 6 người gan nhãn

làm 2 nhóm, mỗi nhóm gồm 3 người, mỗi người gán nhãn độc lập với nhau

Mỗi nhóm chịu trách nhiệm gán nhãn một giai đoạn Sau khi thực hiện gán

nhãn, đối với những bình luận không nhận được sự đồng thuận từ những người

gan nhãn, chúng tôi chon ra kết quả của 2/3 người gan nhãn dé làm kết quả

cuối cùng Đối với những bình luận không có sự thống nhất của cả 3 ngườigán, chúng tôi tham khảo ý kiến đến từ 2 người giám sát gán nhãn, đồng thời

cũng là người xây dựng nên hướng dẫn gán nhãn và đưa ra quyết định cuối

cùng cho những câu bình luận bất đồng thuận đó Sơ đồ quy trình gán nhãn

được ở cả hai giai đoạn được chúng tôi mô tả như ở Hình 3.3 dưới đây.

8 _

+ a) Giai đoạn huấn luyện

| lặp lại với mỗi giai đoạn con |

QO huấn hyện — đo hệ số K giai đoạn —

Che €=065) |— đúng | con ké tiép cai

Hình 3.3: Quy trình huấn luyện người gán nhãn và gán nhãn

Trang 30

Hình 3.4: Hệ số đồng thuận Cohen’s Kappa qua các giai đoạn huấn luyện.

Chúng tôi chỉ đo hệ số đồng thuận Cohen’s Kappa ở giai đoạn huấn

luyện vì đây là giai đoạn cần đảm bảo chất lượng của người gán nhãn, việc đo

độ đồng thuận sẽ giúp đảm bảo sự đồng thuận của người gán nhãn, từ đó hướngdẫn và chỉnh sửa các sai sót trong việc gán nhãn Độ đồng thuận trong từng

giai đoạn từ 1.1 đến 1.5 sau khi đã giải quyết các trường hợp nhập nhằng được

chỉ ra trong Hình 3.4 Có thể thấy độ đồng thuận trong việc gán nhãn các khía

cạnh trong bình luận đạt độ đồng thuận cao hơn việc gán nhãn cảm xúc, với

độ đồng thuận Cohen’s Kappa luôn cao hơn 0.98 Thêm vào đó, không có

nhiều sự khác biệt về Cohen’s Kappa trong gan nhãn khía cạnh ở 5 giai đoạn,

chỉ ra sự đồng đều về chất lượng gán nhãn ở giai đoạn huấn luyện Đối với sựđồng thuận cho việc gan nhãn cảm xúc, độ đồng thuận Cohen’s Kappa thấpnhất ở giai đoạn 1.1, nhưng tăng ở các giai đoạn 1.2 va 1.3 Nhìn chung, độ

đồng thuận giữa các người gán nhãn rất cao, cho thấy chất lượng của bộ hướngdẫn gán nhãn và sự đồng thuận của người gán nhãn về nhãn khía cạnh và cảm

xúc của bình luận.

21

Trang 31

3.3 Thống kê bộ dữ liệu

Bộ dữ liệu mà chúng tôi đã thu thập gồm 16,227 bình luận Trong đó, có 7

khía cạnh chính (SMELL, COLOUR, TEXTURE, PRICE, STAYINGPOWER,

SHIPPING, PACKING) va 1 khía cạnh thé hién những bình luận mang tính spam

(OTHERS) Có 3 cảm xúc trong bộ dữ liệu là Positive, Neutral và Negative Hình

3.5 biểu diễn phân phối của các khía cạnh cũng như cảm xúc có trong bộ dữ liệu.Một cách tổng quát, bộ dit liệu chứa nhiều bình luận mang tính tích cực (Positive)

trên toàn bộ khía cạnh hơn những cảm xúc khác Thêm vào đó, số lượng bình luậnthuộc khía cạnh COLOUR là 7519 câu, chiếm 46.33% tổng số bình luận và đánh

giá Điều nay cho thấy, đối với sản phẩm son môi nói chung cũng như những sản

phẩm son môi mà chúng tôi thu thập dữ liệu nói riêng thì đa số khách hàng đềuquan tâm đến màu sắc nhiều hơn là những khía cạnh khác khi mua sắm trên nềntảng Shopee Khia cạnh xuất hiện ít nhất trong bộ dữ liệu là STAYINGPOWERvới số lượng bình luận đạt 2779 câu, chiếm tỷ lệ 17.25% trên tổng số bình luận.Các khía cạnh PACKING và PRICE có sự mat cân bang trong số lượng cảm xúckhi cảm xúc tích cực chiếm hơn 95% Điều này có thể ảnh hướng đến hiệu suất

mô hình trong phân loại cảm xúc cho các khía cạnh này vì không đủ dữ liệu dé

học từ các cảm xúc Neutral và Negative.

Trang 32

Hình 3.5: Phân bố khía cạnh và cảm xúc trên bộ dit liệu

Hình 3.6: Biểu đồ tròn phân bố cảm xúc trong bộ dữ liệu

2

Trang 33

Mặc dù có sự mắt cân bằng số cảm xúc trong các nhãn nhưng tỉ lệ các cảm

xúc trên bộ dữ liệu nói chung ở mức hợp lý Theo dữ liệu được trực quan trong

Hình 3.6, số cảm xúc tiêu cực chiếm ít nhất với 4652 khía cạnh có cảm xúc tiêucực, chiếm 14%, so với 15% số cảm xúc trung tính Cảm xúc tích cực chiếm nhiềunhất với tỉ lệ 71%

Chúng tôi chia bộ dữ liệu thành 3 tập dữ liệu đề thực nghiệm là tập dữ liệu

huấn luyện, tập đánh giá và tập kiểm tra Dữ liệu được chia theo phương pháp

ngẫu nhiên với tỉ lệ 8:1:1 cho tập huấn luyện, đánh giá và kiểm tra Tập dữ liệu

huấn có 12,981 bình luận còn sé bình luận trên tập đánh giá và tập kiểm tra làbằng nhau với 1,623 bình luận

Bảng 3.5 trình bày các con số thống kê về các tập dữ liệu, có thể thấy phân bốcác khía cạnh và cảm xúc trên 3 bộ dữ liệu thực nghiệm là tương đồng với nhau

Số từ trung bình trong một câu bình luận ở cả ba tập là hơn 21 từ Một bình luận

có trung bình 2 cặp khía cạnh-cảm xúc và tong s6 cặp khía cạnh-cảm xúc trên tậphuấn luyện là 26,231 cặp và 3,264 cặp cho tập đánh giá, 3,280 cặp cho tập kiểm

Trang 34

Chương 4 PHƯƠNG PHÁP THỰC NGHIEM

4.1. Hướng tiếp cận xây dựng mô hình

4.1.1 Single-task Learning

Single-task Learning (STL) là một phương pháp xây dung mô hình Deep

Learning, trong đó 1 mô hình chỉ giải quyết một bài toán nhất định Hình 4.1

bên dưới mô tả minh họa một cấu trúc cho mô hình theo phương pháp

Single-task Learning.

Input:

màu son rất đẹp, giá mềm nữa.

(‘The lipsticks colour is great, the price is

Hình 4.1: Minh hoa mô hình Single-task Learning cho du đoán cảm xúc.

Như đã đề cập ở mục 1.2.1, bài toán phân tích cảm xúc theo khía cạnh có

2 bài toán nhỏ trong đó là phát hiện các khía cạnh trong bình luận và phân loại

cảm xúc của các khía cạnh đó Vì vậy, dé xây dựng mô hình theo phương pháp

Single-task Learning, cần có nhiều mô hình riêng biệt cho từng bài toán

Chúng tôi xây dựng một mô hình Deep Learning cho bài toán phát hiện khía

cạnh, với đầu vào là một câu bình luận và đầu ra là các khía cạnh có trong câu

bình luận đó Đây là một bài toán multi-label vì một câu có từ một đến nhiều

khía cạnh Sau khi đã xác định câu bình luận có khía cạnh nào, các mô hình

25

Trang 35

dự đoán cảm xúc được xây dựng để xác định cảm xúc của khía cạnh trong câu.

Mô hình dự đoán cảm xúc có đầu vào là một câu bình luận và đầu ra là một

trong ba khía cạnh cảm xúc: Tích cực, Trung tính, Tiêu cực Mỗi một khía

cạnh cần có một mô hình phân loại cảm xúc của khía cạnh đó với dữ liệu huấnluyện là các bình luận có chứa khía cạnh đó Như vậy, cần 7 mô hình dự đoán

cảm xúc cho 7 khía cạnh (khía cạnh Others chỉ có cảm xúc là trung tính nên

không cần dự đoán cảm xúc)

4.1.2 Multi-task Learning

Multi-task Learning (MTL) [17] là một phương pháp chỉ có trên Deep

Learning, với một mô hình có thé giải quyết nhiều bài toán đồng thời Mô hình

theo phương pháp này cũng có lớp đầu vào và các lớp ẩn tương tự như mô

hình theo phương pháp Single-task Learning, nhưng thay vì một lớp đầu ra đề

giải quyết một bài toán duy nhất như Single-task Learning, mô hình theo

phương pháp Multi-task Learning có thể có từ hai đến nhiều lớp đầu ra, mỗilớp đầu ra phục vụ cho một bài toán Hình 4.2 bên dưới minh họa một ví dụ

về kiến trúc mô hình Multi-task Learning

a

Input:

mau son rất đẹp, giá mềm nữa.

(‘The lipsticks colour is great, the price is

reasonable too")

y ` Ỷ bã + Aspect Sentiment Sentiment Sentiment Sentiment detection for aspect for aspect for aspect for aspect

layer SMELL COLOUR PRICE

M 1 i 4 M *

Aspect Polarity Polarity Polarity Polarity

{COLOUR, PRICE} Nan Nan Positive Positive

Hình 4.2: Minh họa một kiến trúc mô hình Multi-task Learning

Trang 36

Đối với phương pháp Multi-task Learning, chúng tôi xây dựng mô hình

với đầu vào là một câu bình luận và đầu ra là các khía cạnh trong câu và cácgiá trị cảm xúc theo từng khía cạnh Có tám lớp đầu ra tương ứng với 8 bàitoán nhỏ Lớp đầu ra đầu tiên phục vụ bài toán phát hiện khía cạnh trong câu,kết quả của lớp này sẽ được tiếp tục sử dụng cho các lớp đầu ra sau Lớp đầu

ra thứ hai đến thứ tám phục vụ cho các bài toán dự đoán cảm xúc của 7 khíacạnh Các lớp đầu ra này sẽ là có 4 nodes tương ứng với 4 nhãn là Positive,Neutral, Negative và Null Nhãn Null là điểm khác biệt với mô hình Single-

task Learning, vì ở mô hình Single-task Learning, các mô hình dự đoán cảm

xúc đã được lọc bỏ các bình luận không chứa khía cạnh đó trước khi huấn

luyện nên chỉ có ba nhãn Tuy nhiên, vì mô hình Multi-task Learning thực hiện

nhiều công việc đồng thời nên phải thêm nhãn Null dé chỉ các câu bình luận

không có khía cạnh đó trong câu.

4.2 Các cấu trúc mô hình thực nghiệm

4.2.1 Cấu trúc Bidirectional Long-short term Memory

Long short-term memory (LSTM) [18] là một mạng nơ-ron nhân tạo hồiquy Không giống như một mạng nơ-ron bình thường, mạng LSTM có sự liên

kết giữa các phan tử dé thay vì xử lí dữ liệu ở 1 điểm dữ liệu thì LSTM có thể

học va dự đoán trên cả 1 chuỗi dit liệu Một phần tử LSTM cơ bản có các thànhphần như các 6 liên kết với nhau, trong mỗi ô có các cổng forget ƒ;, công

update i,, và cổng output O, Minh họa một 6 trong mạng LSTM như ở Hình

4.3 bên dưới.

27

Ngày đăng: 03/11/2024, 18:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w