1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Phân tích các mức độ cảm xúc của đánh giá người dùng về sản phẩm trên các trang thương mại điện tử

68 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích các mức độ cảm xúc đánh giá của người dùng về sản phẩm trên các trang thương mại điện tử (Multi-level sentiment analysis about product reviews on Vietnamese e-commerce websites)
Tác giả Lê Đại Thành, Trần Đỗ Quốc Khiêm
Người hướng dẫn TS. Nguyễn Đình Hiển
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học Máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 68
Dung lượng 27,48 MB

Nội dung

Vì vậy, trong nghiên cứu này chúng tôi xây dựng bộ dữ liệu và thiết kế mô hình dự đoán mức độ hài lòng của khách hàng qua các bình luận về sản phẩm bằng tiếng Việt trên các trang thương

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HQC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TÍNH

Wa

LE DAI THANH TRAN DO QUOC KHIEM

KHOA LUAN TOT NGHIEP

PHAN TÍCH CÁC MỨC ĐỘ CẢM XUC ĐÁNH GIA

CUA NGƯỜI DUNG VE SAN PHAM TREN CAC TRANG THƯƠNG MẠI ĐIỆN TỬ

MULTI-LEVEL SENTIMENT ANALYSIS

ABOUT PRODUCT REVIEWS

ON VIETNAMESE E-COMMERCE WEBSITES

CỬ NHÂN NGANH KHOA HOC MAY TÍNH

TP HO CHi MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG ĐẠI HỌC CONG NGHỆ THONG TIN

KHOA KHOA HỌC MAY TÍNH

LE ĐẠI THÀNH - 18521404 TRAN DO QUOC KHIÊM - 18520076

KHÓA LUẬN TÓT NGHIỆP

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

GIẢNG VIÊN HƯỚNG DẪN

TS NGUYEN ĐÌNH HIẾN

TP HÒ CHÍ MINH 2021

Trang 3

THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

.-ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 Chủ tịch

2 Thư ký

3 Ủy viên

4 Ủy viên

Trang 4

ĐẠI HỌC QUÓC GIA TP HỎ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC CÔNG

NGHỆ THÔNG TIN Độc Lập - Tư Do - Hanh Phúc

TP HCM, ngày tháng

NHẬN XÉT KHÓA LUẬN TOT NGHIỆP

(CỦA CÁN BỘ HƯỚNG DẪN)

Tên khóa luận:

Phân tích các mức độ cảm xúc đánh giá của người dung về sản phẩm trên các

trang thương mại điện tử (Multi-level sentiment analysis about product reviews on

Vietnamese e-commerce websites)

Nhóm SV thực hiện: Cán bộ hướng dẫn:

Lê Đại Thành 18521404 TS Nguyễn Đình Hiển

Trần Đỗ Quốc Khiêm 18520076

Đánh giá Khóa luận

1 Vê cuôn báo cáo:

Số trang: Số chương:

Số bảng số liệu: Số hình vẽ:

Số tài liệu tham khảo: Sản phẩm:

Trang 5

Điểm từng sinh viên

Lê Đại Thành /10

Tran Đỗ Quốc Khiêm /10

Người nhận xét

(Kí và ghi rõ họ tên)

Trang 6

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC CÔNG

NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc

TP HCM, ngày tháng năm

NHAN XÉT KHÓA LUẬN TOT NGHIỆP

(CỦA CÁN BỘ PHẢN BIỆN)

Tên khóa luận:

Phân tích các mức độ cảm xúc đánh giá của người dung về sản phẩm trên các

trang thương mại điện tử (Multi-level sentiment analysis about product reviews on

Vietnamese e-commerce websites)

Nhóm SV thực hiện: Cán bộ phản biện:

Lê Đại Thành 18521404

Trần Đỗ Quốc Khiêm 18520076

Đánh giá Khóa luận

1 Vé cuôn báo cáo:

Số trang: Số chương:

Số bảng số liệu: Số hình vẽ:

Số tài liệu tham khảo: Sản phẩm:

Trang 7

Điểm từng sinh viên

Lê Đại Thành /10

Tran Đỗ Quốc Khiêm /10

Người nhận xét

(Kí và ghi rõ họ tên)

Trang 8

LỜI CẢM ƠN

Đầu tiên tôi xin gửi lời cảm ơn đến thay Ts Nguyễn Đình Hiền, người thay đã chi

dẫn cho việc thực hiện nghiên cứu này Thầy Nguyễn Đình Hiển không chỉ là người

thầy mang vai trò giảng viên hướng dẫn mà đồng thời còn là người chỉ dẫn ở nhiều môn học khác, chỉ dẫn từ kiến thức chuyên môn trong ngành cho đến những kỹ năng

cơ bản trong môi trường làm việc, cũng nhờ thầy mà chúng tôi có thêm cơ hội gặp

gỡ và học hỏi những người anh, người thầy đi trước giúp ích rất nhiều cho công tác

học tập và nghiên cứu Lời thứ hai xin gửi lời cảm ơn đến nhà trường ĐH Công nghệ Thông tin ĐHQG TP.HCM, ngôi trường tôi đã theo học và nhận đảo tạo trong suốt

hàng năm trời, với cơ sở vật chất và sự nhiệt tình của rất nhiều thầy cô, dù cho có đôi điều chưa hoàn thiện thì trường và đội ngũ giảng viên đầy tâm huyết đã mang đến một môi trường học tập tuyệt vời, đặc biệt là mảng công nghệ thông tin Lời thứ ba,

tôi muốn được gửi lời cảm ơn đến thầy Sơn, anh Sương là những người anh, người

thầy đã hướng dẫn và hỗ trợ trong quá trình học tập và nghiên cứu Cuối cùng chúng

tôi xin gửi lời cảm ơn đến hội đồng, cùng những ai xem qua bài nghiên cứu này đã dành thời gian xem xét, đánh giá và góp ý Điều hi vọng lớn nhất chính là bản thân

nghiên cứu này và chúng ta đều góp phần nhỏ nào đó cho sự phát triển của ngành công nghệ thông tin nước nhà.

Xin chân thành cảm ơn.

Hồ Chí Minh, tháng năm 2021

Nhóm thực hiện

Lê Đại Thành Trần Đỗ Quốc Khiêm

Trang 9

ĐẠI HỌC QUÓC GIA TP HÒ CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

CÔNG NGHỆ THÔNG TIN

Độc Lập - Tự Do - Hạnh Phúc

ĐÈ CƯƠNG CHI TIẾT KHÓA LUẬN TÓT NGHIỆP

TEN DE TÀI: PHAN TÍCH CÁC MUC ĐỘ CẢM XÚC CUA DANH GIÁ NGƯỜI DUNG VE SAN PHAM TREN CÁC TRANG THƯƠNG MẠI ĐIỆN TỬ

TEN DE TÀI TIENG ANH: MULTI-LEVEL SENTIMENT ANALYSIS ABOUT

USER’S PRODUCT REVIEWS ON VIETNAMESE E-COMMERCE WEBSITES

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: TS Nguyễn Dinh Hiện

Thời gian thực hiện: Từ ngày 06/9/2021 đến ngày 01/01/2022.

Sinh viên thực hiện:

Lê Dai Thành — MSSV: 18521404 Lop: KHMT2018

Email: 18521404 @ gm.uit.edu.vn Dién thoai: 0367707675

Trần Đỗ Quốc Khiêm - MSSV: 18520076 Lớp: KHMT2018 Email: 18520076 @ gm.uit.edu.vn Dién thoai: 0941788975

Nội dung đề tài:

- Mục tiêu: Dựa trên quan sát các mô hình dự đoán cảm xúc hiện có chỉ sử dụng 3

nhãn (negative, neutral, positive) để đánh giá mức độ cảm xúc của một bình luận

về sản phẩm không đáp ứng được nhu cầu khảo sát, đánh giá mức độ hài lòng của

khách hàng về một sản phẩm cụ thể của một nhãn hàng phục vụ công tác chăm sóc

khách hàng và đánh giá thị trường Việc chỉ sử dụng 3 nhãn sẽ làm các báo cáo đánh giá trở nên thiếu hiệu quả, sự hài lòng của khách hàng giữa một sản phẩm có chỉ số đánh giá trung bình là neutral và một sản phẩm có chỉ số đánh giá positive

Trang 10

có thể có sự khác biệt rất nhỏ nhưng lại được thể hiện rất lớn trong thang đo mức

độ (neutral — mức 2 so với positive — mức 3) Ở các bảng khảo sát, hệ thống đánh giá của các doanh nghiệp, tô chức, các website luôn sử dụng thang đo độ hài lòng lớn hon 3 (thường là 5 hoặc 10) dé có được kết quả trung bình phản ánh chính xác hơn Vì vậy, trong nghiên cứu này chúng tôi xây dựng bộ dữ liệu và thiết kế mô

hình dự đoán mức độ hài lòng của khách hàng qua các bình luận về sản phẩm bằng tiếng Việt trên các trang thương mại điện tử thành 5 mức độ: tuyệt vời (very positive), tốt (positive), bình thường (neutral), không tốt (negative) và rất tệ (very negative) Ngoài ra, do tiếng Việt có cấu trúc ngữ pháp đặc thù và phức tạp, đặc

biệt trong các sac thái và ngữ nghĩa của câu khác rat nhiều so với tiêng Anh, như

việc nhập nhằng giữa một câu hỏi và câu cảm than, câu trần thuật và câu hỏi, việc

sử dụng các luật ngữ pháp trong tiếng Việt để phản ánh cách hiểu tiếng Việt của

con người là một giải pháp hứa hen đề áp dụng vào mô hình dự đoán dé tăng độ

chính xác mà không yêu cầu sự tăng cường về dữ liệu Bằng cách vận dụng các mô hình học máy phổ biến, thử nghiệm, tinh chỉnh, đồng thời bổ sung các luật ngữ

pháp đặc thù trong tiếng Việt như liên từ, kết từ, ứng dụng vào giai đoạn tiền xử

lý dữ liệu để đạt được mức độ chính xác tốt hơn, Từ đó tạo ra được mô hình dự

đoán có khả năng mở rộng trên các bộ dữ liệu lớn hơn và ứng dụng cao trong thực

tế với 5 mức độ cảm xúc, phục vụ nhu cầu đánh giá mức độ hài lòng sản phẩm/dịch

vụ của một nhãn hàng trong công tác chăm sóc khách hàng và nghiên cứu thị trường.

Đối tượng: Trong đề tài này, chúng tôi nghiên cứu mô hình phân tích cảm xúc các bình luận tiếng Việt Các bình luận có nội dung đánh giá một sản phẩm trên trang thương mại điện tử.

Phạm vi: Nghiên cứu được thực hiện trên các bình luận tiếng Việt được thu thập

trên các website thương mại điện tử như Shopee.vn, Tiki.vn Dữ liệu được thu thập trong thời gian từ 01/2021 đến 06/2021 Trong đề tài này, chúng tôi chỉ phân tích các bình luận về các sản phẩm thuộc các ngành hàng thời trang, trang trí nội thất,

thực phẩm.

Phương pháp thực hiện:

a Thu thập các đánh giá sản phẩm trên các trang thương mại điện tử Shopee.vn,

Tiki.vn.

b Xây dung guideline va tién hanh gan nhãn bộ dữ liệu thu thập được với 5 nhãn

từ 1 đến 5 tương ứng với các mức độ cảm xúc từ rất tệ đến tuyệt vời Trong đó

bộ dữ liệu sẽ gồm 2 phần:

1 Cmt: bình luận đã thu thập được.

2 Sentiment: nhãn cảm xúc có giá trị từ 1 đến 5 tương ứng từ rất tệ đến tuyệt

VỚI.

c Đánh giá độ cân bằng của bộ dữ liệu và tiền hành điều chỉnh và bổ sung.

d Chọn và thử nghiệm một số mô hình máy học trên bộ dữ liệu đã xây dựng (dự

kiến là các mô hình CNN, BERT và các biến thẻ).

Kết quả mong đợi:

Trang 11

+ Mô hình có kha năng đánh giá chính xác các mức độ cảm xúc của 1 bình luận

về 1 sản phẩm cụ thể.

+ Mô hình có thé sử dụng hiệu quả trên các bộ đữ liệu lớn hơn.

Kế hoạch thực hiện:

STT Công việc Người thực hiện

1 Thu thập dữ liệu Lê Đại Thành, Trần Đỗ Quốc Khiêm

2 Xây dựng guideline Lê Đại Thành, Trần Đỗ Quốc Khiêm

3 Gan nhãn dữ liệu Lê Đại Thành, Trần Đỗ Quốc Khiêm

4 Lựa chọn mô hình dự đoán Lê Đại Thành, Trần Đỗ Quốc Khiêm

5 Thu nghiệm các mô hình dự đoán Lê Đại Thành, Trần Đỗ Quốc Khiêm

6 Đánh giá mức độ chính xác của các | Lê Đại Thành, Trần Đỗ Quốc Khiêm

mô hình

7 Điều chỉnh và hoàn thiện mô hình Lê Đại Thành, Trần Đỗ Quốc Khiêm

§ Tổng hợp và viết khóa luận Lê Đại Thành, Trần Đỗ Quốc Khiêm

9 Báo cáo Lê Đại Thành, Trần Đỗ Quốc Khiêm

Xác nhận của CBHD TP HCM, ngày tháng năm 202

(Ký tên và ghi rõ họ tên) Sinh viên 1

(Ký tên và ghi rõ họ tên)

Trang 12

Sinh viên 2

(Ký tên và ghi rõ họ tên)

Trang 13

MUC LUC

Chương 1 GIỚI THIBU sccssssssesssssssscsssssssccsssssccsssssessssssscesssissccsssusecessssescsssssceesssenss 3

1.1 Tổng quan về bai toán -222++++22E222+2++222221111121.2222111111 111 ee 3 1.2 Phạm vi nghién CỨU ¿+ + x22 nghe 6 1.3 Mục tiêu cần at QUOC 177 6 1.4 Các công trình liên quan được thực hiện -. ¿+5 «c+c+cec+xexex+ 6 Chương 2 XÂY DỰNG BỘ DỮ LIỆU ĐÁNH GIÁ SẢN PHẢM CỦA KHÁCH

HÀNG 58⁄7 mm\ Ỏ 0

2.1 Bộ dit liệu -. - s2 HH HH ngờ 0

2.1.1 Giai đoạn 1: Chọn và thu thập dữ liệu cesses 1

2.1.2 Giai đoạn 2: Chuẩn hóa dit liệu ¿22+¿+222++zzvvrveersrrrseee 3

2.1.3 Giai đoạn 3: Xây dựng hướng dẫn gan nhãn và gan nhãn 4

2.1.4 Giai đoạn 4: Hoàn thiện đữ liệu - -¿- 5+5 5+2 £+xsvxsxexsereesexexr 8

2.2 Phân tích bộ dữ liệu ¿- ¿52522 22t v2 20

2.3 Các mô hình phân tích cảm xúc cho các đánh giá sản phẩm 2 2.3.1 Các mô hình truyền thống -+z£2222E+++++z++tt2vvvvzrrerrrrr 23 2.3.2 Multilingual transformer models - ¿+ 2 + +£++x+x+£++++ 28

2.3.3 Monolingual transformer models for Vietnamese

2.3.3 Độ đo cho bai toán phân lớp -. 5- 555 c<scscssesreesrerrrrrr.,38

Chương 3 KET QUA THỰC NGHIỆM

3.1 Cài đặt thử nghiệm + tt ttettrrhtrrrrrrrrrrrrrerrrrrerrrer Al 3.2 Kết quả thực nghiém

Trang 14

Chương 4 KET LUẬN VÀ HƯỚNG PHÁT TRIÊN - s2 44

4.1 Kết quả nghiên cứu

4.2 Hướng phát triỂn 2¿-222+22VE+++t2EEE+++tEEEEEEt2E2E11E222112 2221 ccrrriv 44

Trang 15

DANH MỤC HÌNH

Hình 2.1 Tổng quan về xây dựng bộ dữ liệu

Hình 2.2 : Biểu đồ về số lượng nhãn trong bộ dữ liệu

Hình 2.3 Minh họa mô hình Rừng ngẫu nhiên (Random Forest)

Hình 3.1: Kết quả thử nghiệm

Trang 16

DANH MỤC BẢNGBang 2.1 Một số quy tắc ngữ pháp trong tiếng Việt được áp dụng 17Bảng 2.2 Bộ dữ liệu tiếng Việt trước va sau cân bằng ccc -.-: 20Bảng 2.3: Thông tin tong quan về dit liệu +2 2222212222522 21Bảng 2.4: Sự phân bố nhãn trong tập dữ liệu -:: c c2 22222222552 22Bảng 2.5: Kết quả thử nghiệm các mô hình

Trang 17

TÓM TẮT KHÓA LUẬN

Cùng với sự phát triển của mạng Internet, các phương tiện truyền thông, mạng

xã hội, website là lượng thông tin vô cùng lớn được tạo bởi người dùng - khách hàng

của các doanh nghiệp Tam quan trong của những dữ liệu này là không phải bàn cãi,

ta có thé thấy gã khống lồ Facebook là một trong những tập đoàn lớn nhất thé giới

với nguồn sông chính là thông tin được tạo ra bởi chính người dùng - loại tai sản giátrị nhất hiện nay Một trong những thông tin mà các doanh nghiệp rất quan tâm chính

là đánh giá của khách hàng về sản phẩm của họ, đó cũng là lý do cho các mô hìnhphân tích cảm xúc đánh giá sản phẩm ra đời Tuy nhiên, bài toán này còn tồn tại nhiều

thách thức, như việc liệu bộ dtr liệu được sử dung có đủ tính thực tế hay không, liệu

các mô hình có thé hoạt động đủ hiệu quả trên các ngôn ngữ khác nhau, đặc biệt làcác ngôn ngữ phức tạp như tiếng Việt Nghiên cứu này giới thiệu một hướng tiếp cậnmới dé giải quyết bài toán phân tích cảm xúc đánh giá sản phẩm trên tiếng Việt

Tiếng Việt, niềm tự hào của người Việt Nam vốn là một ngôn ngữ rất đặc biệtvới sự phức tạp trong ngữ pháp cũng như sự đa dạng nghĩa dựa trên sắc thái, tính đanghĩa, tính nhập nhằng là điều dé thấy Điều đó tạo ra nhiều sự khó khăn, thách thức

dé có thé phân tích, nhận diện được ý nghĩa cảm xúc trong câu nói trong giao tiếp.Với sự phức tạp và mơ hồ, đang dạng ngữ nghĩa, xây dựng một mô hình phân tích

chính xác cảm xúc trong tiếng Việt vốn đã khó khăn trong giao tiếp người — người

thực tế nay lại càng khó khăn với một mô hình phân tích Dựa trên quan sát, thôngthường đối với bạn toán phân tích cảm xúc, các phương pháp phổ biến thường xử lýtrên bộ dữ liệu gồm 3 nhãn positive, neutral và negative Tiếp cận theo một hướngkhác, dé có thé phân tích chính xác hơn mà trong nghiên cứu này chúng tôi đưa ramột phương pháp cho bài toán phân tích cảm xúc trong tiếng Việt với 5 nhãn: rất tốt

(very positive), tốt (positive), bình thường (neutral), tệ (negative), rất tệ (very

negative) thay cho 3 nhãn như ở các mô hình rat phố biến hiện tại dé tăng tính thực

tế cho mô hình Về độ chính xác, băng cách vận dụng các mô hình học máy phô biến,thử nghiệm, tinh chỉnh dé giúp mô hình dự đoán đạt được mức độ chính xác tốt hơn.Ngoài ra, mô hình có kết hợp với đó sử dụng các phương pháp tăng cường đữ liệu để

Trang 18

gia tăng tính ứng dụng trong thực tế Từ đó cho ra được một một hướng tiếp cận mới

với một mô hình phân tích cảm xúc có khả năng mở rộng trên các bộ dữ liệu lớn hơn

trong thực tiễn và có tính ứng dụng cao với 5 mức độ cảm xúc, phục vụ nhu cầu đánhgiá mức độ hài lòng sản phâm/dịch vụ của một nhãn hàng trong công tác chăm sóc

khách hàng và nghiên cứu thị trường.

Trang 19

Chương 1 GIỚI THIỆU

1.1 Tổng quan về bài toán

Trong kỷ nguyên mà công nghệ thông tin phát triển như vũ bão, sự thống tri của internet và mạng xã hội mang đến lượng thông tin không lồ day giá trị cho các

doanh nghiệp, cá nhân khai thác Nắm bắt, khai thác và phân tích suy nghĩ, phản hồi,

đánh giá của khách hàng dé hiểu sự hài lòng, thái độ của họ với sản phẩm, với thương hiệu là điều mà bat cứ doanh nghiệp nào cũng phải làm Cách thức duy nhất dé có thể

làm được điều đó trong một lượng thông tin khổng lồ và phức tạp là sử dụng sự tiến

bộ của công nghệ thông tin dé tự động hóa các công việc thu thập, xử lý và phân tích

đữ liệu Phân tích cảm xúc (SA) là một mảng lớn trong lĩnh vực Xử lý ngôn ngữ tự

nhiên, đây là một tác vụ trong xử lý ngôn ngữ tự nhiên, với mục tiêu là trích xuất

được cảm xúc được thé hiện từ văn bản bằng ngôn ngữ tự nhiên Trong thực tế đã có

rất nhiều ứng dụng, được các doanh nghiệp quan tâm sử dụng như là một công cụ quan trọng trong công tác tiếp thị, chăm sóc khách hàng Trong SA, bài toán phân

tích cảm xúc đánh giá sản pham giúp cho doanh nghiệp năm bắt và hiểu được khách hàng đang nói gì về sản phẩm, về thương hiệu của mình và đặc biệt là họ thực sự nghĩ

gì về chúng Trước bồi cảnh như vậy, rất nhiều công cụ được xây dựng nhằm đáp ứng nhu cầu đó Trong lĩnh vực tiếp thị, những công cụ phân tích cảm xúc đánh giá sản

phẩm được dùng để nắm bắt các xu hướng trong thị trường [15,39] Dễ hiểu hơn,

doanh nghiệp muốn biết những cơ hội nào mà họ có thé khai thác từ những tập khách hàng tiềm năng này Trong [1,28] cũng được sử dụng dé dé tìm kiếm những người

dùng có ảnh hưởng trên nền tảng truyền thông xã hội.

Thị trường Việt Nam đây tiềm năng nằm trong châu Á được dự đoán sẽ phát

triển mạnh mẽ trong 30 năm tới, vậy thì đương nhiên tiếng Việt sẽ là một ngôn ngữ phải quan tâm đến nếu muốn thâm nhập thị trường này Tuy nhiên, tiếng Việt lại là

một ngôn ngữ rất phức tạp, từ việc có các cấu trúc ngữ pháp phức tạp, sự đa dạng trong nghĩa của từ, của câu tạo nên sự nhập nhằng, mơ hồ trong nghĩa [24] Trong

Trang 20

một số câu cụ thể, ta có thể có được một câu mới có nghĩa khác đi, hoàn toàn đúng ngữ pháp bằng cách đảo vị trí các từ [32] Cùng một câu nhưng kết thúc bằng dấu câu khác như dấu hỏi, dấu than, dấu ba cham sẽ thay déi đi đáng kể nghĩa của câu, thậm chí trở thành một câu có nghĩa hoàn toàn không liên quan Không như tiếng Anh có

các từ tình thái giúp đễ xác định nghĩa của câu mà thay vào đó là vị trí, thứ tự của các

từ sẽ định hình ngữ nghĩa, sắc thái của câu [24].

Vay nên tim ra một hướng tiếp cận mới cho bài toán phân tích cảm xúc đánh

giá sản phẩm trên tiếng Việt được đặt ra Vấn dé mà bài toán này giải quyết là xây

dựng một mô hình, làm sao dé khi đưa vào một đánh giá sản phẩm từ phía khách hang vào mô hình thì ta thu được dau ra là một nhãn thé hiện đúng mức độ cảm xúc của

đánh giá đó một cách tự động và có khả năng áp dụng trên quy mô, phạm vi lớn Để làm được như vậy, yêu cầu đặt ra cho nghiên cứu này là phải có một bộ dữ liệu được

xây dựng cho tiếng Việt bao gồm các đánh giá sản phâm mà ta hướng đến và xây dựng một mô hình dự đoán sử dụng các kỹ thuật học máy, học sâu dé huấn luyện trên

bộ dữ liệu đã có Thông thường, để tăng tính chính xác cho mô hình dự đoán, cụ thể

trong bài toán phân tích cảm xúc đánh giá sản phẩm, các nghiên cứu thường chỉ tập trung vào việc lựa chọn, kết hợp và tinh chỉnh các mô hình thịnh hành nhất tại thời

điểm đó và rõ ràng là hướng đi đó đã dẫn đến nhiều kết quả đáng kẻ Tuy nhiên đó

không phải là hướng đi duy nhất dé có thé tiến xa hơn trong bai toán này Trong nghiên cứu này sẽ giới thiệu về một hướng tiếp cận khác chuyên biệt cho bài toán phân tích cảm xúc đánh giá sản phẩm và đặc biệt là trong bộ dữ liệu tiếng Việt - một

ngôn ngữ thuộc hàng phức tạp trong bài toán xử lý ngôn ngữ tự nhiên Hướng tiếp cận này hứa hẹn mang đến một cách mới để góp phần vào cải thiện khả năng dự đoán

chính xác của các mô hình dự đoán, có khả năng trở thành một mô đun có thể kết hợp

với hướng tiếp cận bằng cách kết hợp và tỉnh chỉnh các mô hình học máy, học sâu phổ biến hiện nay dé tăng hiệu quả của mô hình mà lại ít tốn kém chi phí có kha năng

áp dụng trên các bộ dữ liệu lớn hơn, ứng dụng vào thực tế Ứng dụng trong thực tế

mô hình phân tích cảm xúc đánh giá sản pham có nhiều ứng dụng trong thực tế, có

thé kể đến hỗ trợ công tác thu thập phản hồi khách hàng, công cụ thăm dò thông tin

Trang 21

trên mạng xã hội cho tổ chức, chính phủ, công cụ hỗ trợ phân tích, dự đoán xu hướng sản phẩm, công cụ hỗ trợ xác định người nồi tiếng phù hợp cho các chiến dich quảng

cáo của nhãn hàng.

Nhìn qua các công trình nghiên cứu gần đây, đã có những bộ dữ liệu được xây dựng cho tiếng Việt Trong [6], các tác giả đã xây dựng bộ dữ liệu phát hiện mục đích

công cộng và bộ dữ liệu Slot filling cho tiếng Việt Bộ dữ liệu The Association for

Vietnamese Language and Speech Processing (VLSP) cho việc đánh giá, xử lý các tác vụ của văn bản và tiếng nói, đặc biệt là phân tích cảm xúc về đánh giá sản phẩm

[31] Hay bộ The dataset of YouTube comments for sentiment analysis (YCSA) chứa

cac danh gia vé dién thoai thông minh, từ đó đưa ra mô hình dự đoán trên bộ dữ

ligu[23].

Có nhiều bộ dữ liệu lớn và chất lượng là vay, tuy nhiên điểm chung của các

bộ đữ liệu này là chỉ sử dụng 3 mức đánh giá: tốt (negative), bình thường (neutral),

tệ (negative) Việc chỉ sử dụng 3 mức đánh giá sẽ làm các báo cáo đánh giá trở nên có

vẻ thiếu hiệu quả, sự hài lòng của khách hàng giữa một sản phẩm có chỉ số đánh giá trung bình là neutral và một sản phẩm có chỉ số đánh giá positive có thể có sự khác biệt rất nhỏ nhưng lại được thể hiện rất lớn trong thang do mức độ (neutral — mức 2

so với positive — mức 3), khi đó ta buộc phải lựa chon sự đánh đổi trong kết quả của

mô hình là sự thiếu tính ứng dụng thực tế của mô hình cho dù mô hình dự đoán đúng

như những gì mà mô hình đó được cài đặt Bằng chứng là ở các bảng khảo sát, hệ thống đánh giá của các doanh nghiệp, tổ chức, các trang đánh giá phim, đánh giá sản

phẩm, các trang thương mại điện tử, các email khảo sát luôn sử dụng thang đo độ hài lòng thường là 5 hoặc 10 để có được kết quả trung bình phản ánh chính xác hơn Vì

vậy, trong nghiên cứu này chúng tôi xây dựng bộ dữ liệu và thiết kế mô hình dự đoán

mức độ hài lòng của khách hàng qua các bình luận về sản phẩm bằng tiếng Việt trên các trang thương mại điện tử thành 5 mức độ: rất tốt (very positive), tốt (positive),

bình thường (neutral), tệ (negative) và rất tệ (very negative) Sau đó, tiến hành thử

nghiệm các mô hình máy học phổ biến trên bộ đữ liệu xây dựng được đề kiểm nghiêm

độ hiệu quả và tính ứng dụng của bộ dữ liệu.

Trang 22

1.2 Phạm vi nghiên cứu

Nghiên cứu được thực hiện trên các bình luận sản phẩm tiếng Việt được thu

thập trên các website thương mại điện tử như Shopee.vn, Tiki.vn Dữ liệu được thu

thập trong thời gian từ 01/2021 đến 06/2021 Trong đề tài này chỉ phân tích các bình

luận về các sản phâm thuộc các ngành hàng thời trang, nhà cửa đời sống, thực phẩm

và phụ kiện điện thoại.

1.3 Mục tiêu cần đạt được

Xây dựng được một bộ dữ liệu hoàn chỉnh với các nhãn không bị chênh lệch

quá nhiều và được đánh nhãn dựa trên các luật ngữ pháp đặc thù trong tiếng Việt.Bằng cách vận dụng có mô hình máy học, thử nghiệm, tinh chỉnh dé đạt được mức

độ chính xác tốt hơn Thực hiện cài đặt và thử nghiệm các mô hình máy học phổ biến

đó dé dự đoán mức độ hài lòng của khách hàng qua các đánh giá về sản phẩm bằngtiếng Việt trên các trang thương mại điện tử ở 5 mức độ tuyệt vời (very positive), tốt

(positive), bình thường (neutral), không tốt (negative) và rất tệ (very negative) Từ đó

tạo ra được mô hình dự đoán có khả năng mở rộng trên các bộ dữ liệu lớn hơn và ứng

dụng cao trong thực tế với 5 mức độ cảm xúc, phục vụ nhu cầu đánh giá mức độ hàilong sản phâm/dịch vụ của một nhãn hang trong công tác chăm sóc khách hang vànghiên cứu thị trường Xa hơn nữa là phát triển thành một công cụ hỗ trợ cho nhiềubài toán khác trong thực tế như bài toán tìm kiếm các influencer cho các chiến dichmarketing của nhãn hàng, hay bài toán tìm hiểu phản ứng của cộng đồng với một sựkiện xảy ra, hay bài toán gợi ý xu hướng sản pham/goi ý nội dung truyền thông cho

các doanh nghiệp.

1.4 Các công trình liên quan được thực hiện

Phân tích cảm xúc (SA) là một mảng được quan tâm trong lĩnh vực Xử lý

Ngôn ngữ tự nhiên (NLP) có ứng dụng rộng rãi trong thực tế, đặc biệt là phân tíchcảm xúc đánh giá sản phẩm trong kinh doanh đề hỗ trợ doanh nghiệp nắm bắt được

phản hôi của người tiêu dùng hoặc sự động thuận, ý kiên của cộng đông về san phâm

Trang 23

và dịch vụ của doanh nghiệp [20] hay một chính sách của chính phủ, hay thái độ phản

ứng của người dân với một sự kiện lớn diễn ra.

Bài toán phát hiện cảm xúc và quan điểm của người dùng trên internet, các

mang xã hội, các website chuyên đánh gia, reviews, các hội nhóm thông tin mở cũng

là một bài toán quan trọng đối với SA [42] Có rất nhiều công trình nghiên cứu về

phân tích cảm xúc (SA) đã đạt được nhiều thành tựu trong nhiều lĩnh vực rộng khắp

đời sông, cụ thê:

Bài nghiên cứu Automatically extracting polarity-bearing topics for domain sentiment classification của H.Yulan, L Chenghua va A Harith đã dat được

cross-độ chính xác lên đến 90% với bộ dit liệu được xây dựng trên 2 lĩnh vực review phimảnh và đa miền với việc sử dụng mô hình Naive Bayes và SVM từ WEAKS

Mô hình kết hợp từ vựng và học máy dé xác định cảm xúc đánh giá ở mức độ

khái niệm cua M Andrius, Z Dell, L Mark trong bai Combining lexicon and learning based approaches for concept-level sentiment analysis được giới thiệu ở

WISDOM’ 12, Bắc Kinh, Trung Quốc sử dung kỹ thuật Bag-of-word kết hợp với môhình SVM được học tập trên 2 bộ dữ liệu là đánh giá phần mềm CNET và đánh giáphim trên IMDB Mô hình này đạt được độ chính xác là 82.3% bằng sự cải tiễn kếthợp 2 kỹ thuật phô biến

Cũng có thé ké đến một hướng tiếp cận dé giải quyết trên nhiều ngôn ngữ khác

nhau như bài A machine learning approach to sentiment analysis in multilingual web

texts của B Erik, M Marie-Francine bang cách tích hợp việc truy xuất dữ liệu, áp

dụng kỹ thuật xử lý ngôn ngữ tự nhiên và học máy Mô hình hoạt động khá tốt trên 3ngôn ngữ là tiếng Anh, tiếng Hà Lan và tiếng Pháp với bộ dữ liệu được lấy từ 3 nguồn

là Blog, đánh giá va bai viết trên forum được thu thập trên Internet đạt được độ chínhxác lần lượt là 83%, 70% và 68%

Trong bài toán trích xuất đặc trưng và từ khóa, có thé kề đến công trình How

do users like this feature? A fine grained sentiment analysis of app reviews của G.

Emitza, M Walid, nghiên cứu đưa ra một mô hình để xác định sự thích thú của người

Trang 24

dùng với các ứng dụng trên Apple Store và Google Play bằng phương pháp sử dụng

POS tagging với hướng tiếp cận fine-grained trên bộ dữ liệu SentiStrength dé cho ra

mô hình xác định cảm xúc đánh giá của người dùng với 7 ứng dụng trên Apple Store

và Google Play đạt được độ chính xác khá kinh ngạc 91%.

Đối với các dữ liệu theo ngôn ngữ giao tiếp đời thường, ta có thé kế đến nghiên

cứu Opinion mining and analysis for arabic language của nhóm tac giả đứng đầu làN.A Mohammed được thực hiện trên bộ dữ liệu tiếng Ả Rập gồm các biểu tượngcảm xúc, ngôn ngữ giao tiếp sử dung POS tagging đạt độ chính xác rất cao 93.9%

Học sâu là một phương pháp hữu ích dé áp dụng trong nhiều lĩnh vực, chănghạn như phương tiện tự hành [13], lọc sơ yếu lý lịch [37], xây dựng chatbot dé tìmkiếm kiến thức [27,36], và xử lý ngôn ngữ tự nhiên [5] Tất cả các ứng dụng yêu cầumột tập dữ liệu lớn dé dao tạo các mô hình cho vay Trong phân tích tình cảm, Sent14[8] là một tập dữ liệu được xây dựng dé phát hiện tình cam của người dùng trênTwitter, có 3 cấp độ: tiêu cực, tích cực và trung tính Ngoài ra, Liu đưa ra ba cấp độ

tình cảm khác nhau bao gồm: cấp độ dựa trên tài liệu, dựa trên câu văn và cấp độ dựa

trên khía cạnh Nhiệm vụ phân tích tình cảm dựa trên khía cạnh là nhiệm vụ thách

thức nhất vì nó không chỉ phát hiện ra cảm xúc mà còn xác định những gì mọi người

cảm thấy về một đối tượng cụ thể, chăng hạn như dịch vu, sản phẩm, hoặc linh tinh.

Có nhiều phương pháp tiếp cận dựa trên máy hoc dé phân tích cảm xúc của

một câu Một số loại mạng nơ-ron lặp lại (RNN) đã được sử dụng để phân loại cảm

xúc, chăng hạn như bộ nhớ dài hạn ngắn hạn (LSTM) [10], và Bộ nhớ định kỳ (GRU)

[3] Bên cạnh đó, Support Vector Machine [18] và Naive Bayes [16] cũng được

nghiên cứu để giải quyết van đề Những phương pháp đó chỉ nghiên cứu về tiếng

Anh.

Nhiệm vụ phân tích tình cảm dựa trên khía cạnh là nhiệm vụ thách thức nhất

vì nó không chỉ phát hiện ra cảm xúc mà còn xác định những gì mọi người cảm thay

về một đối tượng cụ thê, chăng hạn như dịch vu, san phẩm Bộ dtr liệu Multi-aspect

multi-sentiment (MAMS) [17] là một tập dữ liệu tuyệt vời dé phát hiện cam xúc của

Trang 25

người dùng trên các khía cạnh khác nhau về các dịch vụ nhà hàng, từ đó hỗ trợ phát

triển mô hình báo cáo/gợi ý cho các doanh nghiệp trong lĩnh vực nhà hàng dé có đượcphản hồi chính xác từ khách hàng một các tự động, nhanh chóng nhất về những khía

cạnh cụ thê cân cải thiện đê đúng với nhu câu của khách hàng.

về ngôn ngữ tiếng Việt, VLSP 2016 là bộ dữ liệu dang tai liệu cho các đánh

giá về điện thoại và VLSP 2018 là tập dữ liệu dựa trên khía cạnh dành cho các đánhgiá dịch vụ, thực phẩm và nhà hàng [31] Ngoài ra, đối với các dich vụ khách sạn, tập

dữ liệu trong [33] là một tập dữ liệu dang câu dùng dé phân tích cảm xúc của ngườidùng về dịch vụ khách sạn Đa số tập dữ liệu điển hình là VLSP [31] va tập dữ liệu

trong Sent14 [8] có ba nhãn: tích cực, tiêu cực và trung tính Bên cạnh đó, các tác gia

trong [25] đề xuất một tập dữ liệu về các đánh giá của khách hàng về các sản phẩm

và dịch vụ trên Tiki.vn -một san thương mại điện tử lớn tại Việt Nam Trong nghiên

cứu này đề xuất phương pháp xây dựng bộ dữ liệu đánh giá sản pham của Việt Namvới năm loại nhãn: rất tiêu cực (very negative), tiêu cực (negative), trung tính/ bìnhthường (neutral), tích cực (positive) và rất tích cực (very positive)

Theo công trình [20] nhiệm vụ phân tích cảm xúc đánh giá sản phẩm là mộtbài toán xây dựng mô hình máy học có giám sát, cụ thể thuộc bai toán phân loại vănbản Có nhiều cách tiếp cận đề giải quyết van dé này bao gồm sử dụng các mô hìnhrất phố biến hiện nay, có thé kê đến: máy học truyền thống như Naives Bayes va

SVM [19] , các mô hình học sâu [12], các mô hình học chuyển tiếp [25.28] Tuy

nhiên, đối với tiếng Việt, các nghiên cứu đó không đề cập đến các quy tắc ngữ phápđặc thù của tiếng Việt trong quá trình xử lý, do đó, kết quả của chúng chưa mô phỏngquá trình phân tích/nhận diện ý nghĩa cảm xúc của con người trong thế giới thực

Trang 26

Chương 2 XÂY DUNG BO DU LIEU ĐÁNH GIÁ SAN PHAM CUA

KHACH HANG

2.1 Bộ dữ liệu

Bộ dữ liệu tiếng Việt được xây dựng theo 4 giai đoạn chính Đầu tiên, lựa chọnnguồn dit liệu phù hợp và tiến hành thu thập dit liệu, trong nghiên cứu này dit liệuđược thu thập từ các trang thương mại điện tử lớn ở Việt Nam bằng cách sử dụng các

công cụ thu thập dữ liệu tự động như Data Miner, ParseHub, dữ liệu được thu thập

trực tiếp từ các đánh giá sản phẩm trong các ngành hàng gia dụng, phụ kiện điệnthoại, thực phẩm và thời trang Giai đoạn thứ hai là chuẩn hóa dữ liệu thu thập được

từ giai đoạn trước về dang thống nhất dé đảm bao tính hiệu quả của mô hình Bước

kế tiếp là xây dựng hướng dẫn gan nhãn và tiến hành gan nhãn độc lập dựa trên hướng

dẫn gán nhãn đã được xây dựng Cuối cùng là chỉnh sửa bộ dir liệu, hoàn thiện hướng

dân gán nhãn và điêu chỉnh cân băng sô lượng giữa các nhãn.

Giai đoạn 4 Giai đoạn 2

Tìm chọn và thu Chuẩn hóa bộ dữ

Giai đoạn 4 Giai đoạn 3

Hình 2.1: Tổng quan về xây dựng bộ đữ liệu

10

Trang 27

2.1.1 Giai đoạn 1: Chọn và thu thập dữ liệu

Dữ liệu được thu thập là các đánh giá sản phẩm từ hai trang thương mại

điện tử lớn tại Việt Nam là Tiki.vn, Shopee.vn thuộc các ngành hang thời trang, thực

phẩm, nhà cửa - đời sống và phụ kiện điện thoại Việc chọn Tiki.vn và Shopee.vn là

để tăng sự đa dạng trong dữ liệu đánh giá sản phẩm, nếu Tiki.vn là trang thương mại

điện tử sáng lập bởi người Việt và mang hình ảnh thương hiệu gan với các sản phẩmđược bán bởi các nhà cung cấp chính hãng, có giấy phép kinh doanh, có sự đáng tincậy ở một mức nhất định thì Shopee.vn lại là trang thương mại điện tử từ nước ngoài

vào Việt Nam, nồi tiếng với các chiến dịch khuyến mãi khủng, hàng hóa được bán

với giá rẻ cùng đó kéo theo là nạn sản phâm chất lượng kém, mặt bang độ tin cậy về

chất lượng sản phẩm và uy tín của nhà cung cấp thấp hơn Có thể nói điểm khác biệt

lớn giữa hai trang thương mại điện tử này ở đây chính là phân khúc khách hàng mà

hai trang sản phẩm này phục vụ, Tiki.vn sẽ có tập khách hang mong muốn mua đượcnhững sản phẩm chất lượng, chính hãng, khách hàng của Tiki.vn sẽ chấp nhận bỏ ra

một cái giá cao hơn cho cùng một sản phẩm ở các nơi khác dé đối lại sự đảm bảo về

mặt chất lượng cũng như trong việc bảo hành, Shopee.vn thì lại có tập khách hàngnăng động hơn với độ nhận diện cao trong giới trẻ bởi sản pham trên Shopee da dạnghơn do không có những rào cản về mặt giấy tờ pháp lý cũng như sự đảm bảo giốngTiki.vn, đồng thời vì vậy mà giá bán trên Shopee.vn thường rẻ hơn so với nhiều trangthương mại điện tử khác như Tiki.vn, đánh đôi lại đó chính là sự thiếu an toàn trongnhiều đơn hàng đối với khách hàng bởi không có rào cản đảm bảo về mặt pháp lý cho

uy tín của nhà bán hàng - không giấy tờ xuất xứ hàng hóa sản phẩm, không giấy tờkiểm định chất lượng sản pham, không giấy phép kinh doanh Ngoài ra, nghiên cứunày có xem xét đến giao hàng như là một yếu tố của sản phẩm, và việc này lại là mộtđiều khác biệt giữa hai trang thương mại điện tử này, Tiki.vn thì chủ trương xây dựng

hệ thong Logistics dé tu thuc hién van chuyén hang hóa con Shopee.vn khởi đầu với

hệ thống đối tác là các đơn vị vận chuyền trong nước Từ những sự khác biệt trên dẫn

tới những đặc điểm nhận dạng rõ ràng ở đữ liệu đánh giá sản phẩm thu thập được ởhai trang, các đánh giá của Tiki.vn thường chú trọng đến sản phẩm có chính hãng,

11

Trang 28

bảo hành và giao hàng còn Shopee.vn lại chú trọng đến chất lượng sản phẩm có phù

hợp với giá.

Đề thu thập dữ liệu trên, hai công cụ được sử dụng để thu thập dữ liệu tựđộng là Data Miner và ParseHub dé trích xuất các đánh giá từ hai trang thương mại

điện tử trên Sau khi vào hai trang thương mại điện tử trên, tìm kiếm các sản phẩm

thuộc ngành hàng mục tiêu băng thanh công cụ tìm kiếm nội sàn các sản pham nhưthảm lót, đồng hồ treo tường, thức ăn đóng hộp, quần Jean, tai nghe là các sản phẩm

phổ biến thuộc các nganh hàng nhà cửa đời sống, thực phẩm, thời gian và phụ kiện

điện thoại Dữ liệu được thu thập là các đánh giá bang chữ xuất hiện trong mục đánhgiá sản phâm của từng sản phẩm thuộc một nhà bán hàng cụ thể, cùng một sản phẩm

sẽ lựa chọn thu thập ở hai hoặc ba nhà cung cấp khác nhau có lượng bán lớn thuộctop đầu ở trên kết quả tìm kiếm, điều này giúp thu thập được những đánh giá khác

nhau trong cùng một sản phẩm về chất lượng sản phẩm, về chất lượng dịch vụ, giá

cả Ví dụ đối với sản phẩm là thảm đá, thì đánh giá được lay ở mục đánh giá ba sao

ở hai shop có lượng bán thuộc top của sản như sau:

Vi dụ 2.1: Shop 1: “Shop care khách ko tốt Hàng hết ma mấy ngày ko báo.Chờ mình hỏi mới báo thi phải bù thêm tiền mua tắm khác Hix bù thêm tiền mua

tam nhỏ hơn vì hôm tre đặt lúc săn sale Vẫn tiếc tam trơn bự ” Shop 2: “Shop giaosai mẫu mà k báo khách Tư vấn nhiệt tình, dịch mà vẫn giao hàng nhanh nên cho 3

sao Thảm thâm nc tot, nên mua mau tôi nha mn”.

Có thể thấy, cùng là đánh giá ba sao của cùng một sản phẩm tuy nhiên có

sự khác biệt các ý khen chê giữa hai shop Ở shop 1 thì gần như công tác giao tiếpvới khách hàng không được chú trọng, đối nghịch là shop 2 được khen là tư vẫn nhiệt

tình - tức công tác giao tiếp, tư vẫn với khách hàng được chú trọng

Việc lựa chọn các ngành hang này vì đây là các ngành hàng phô biến, đặcbiệt là thời trang, phụ kiện điện thoại và nhà cửa đời sông là các ngành hàng có lượng

truy cập lớn nhất ở Shopee.vn trong năm 2020 Sau khi tiến hành thu thập, đữ liệu

thu được tổng khoảng 2000 đánh giá sản pham về đồng hồ treo tường, thức ăn đóng

12

Trang 29

hộp, quan jean, tai nghe Thông thường dé có lượt bán lớn thì chất lượng sản phẩm ở mức tương đối trở lên, điều đó kéo theo các đánh giá được thu thập theo thứ tự từ trên xuống theo thời gian đánh giá sẽ dễ gây mat cân bằng dữ liệu bởi nhãn tích cực (nhãn

4 và 5) thường sẽ cao hơn nhãn tiêu cực (1 và 2) Để đạt hiệu quả trong việc gán nhãn,

ở lần đầu thu thập chỉ thu thập khoảng 2000 đánh giá dé sau gan nhãn thì việc cân

bằng dữ liệu ở giai đoạn 4 sẽ dễ tiến hành và hiệu quả hơn.

2.1.2 Giai đoạn 2: Chuẩn hóa dữ liệu

Công việc chuẩn hóa dữ liệu bao gồm hai việc: chỉnh sửa lỗi chính tả trong

dữ liệu và thực hiện chia tach dữ liệu Kết quả của giai đoạn chuẩn hóa dữ liệu là xuất

ra được bộ dữ liệu bao gồm các câu đúng chính tả, có nghĩa hiểu được và đưa toàn

bộ dữ liệu thô được thu thập ở giai đoạn l trở về định dạng mong muốn của nghiên cứu dé thực hiện việc gan nhãn Toàn bộ thao tác của giai đoạn chuẩn hóa dữ liệu

được thực hiện thủ công bởi các annotator trên phần mềm Excel, Google Sheet.

Các đánh giá tuy được viết bằng chữ nhưng được thực hiện theo văn phong

của văn nói nên có nhiều chữ xuất hiện hoặc không có ý nghĩa, hoặc là teen code và

cũng đôi khi là do lỗi chính tả của người viết, đặc biệt là những từ dễ nhằm lẫn Công việc sửa lỗi chính tả bao gồm việc thay thế các từ lỗi bằng từ đúng và xóa đi một số

câu không thể hiện rõ nghĩa Ví dụ một số đánh giá không rõ nghĩa/ mang tính chất spam như:

Vi dụ 2.2: đánh giá được lấy ở san phẩm là tai nghe trên Shopee.vn:

Dhjehehejwjsjiwjejdindjdjwjnsnsnnejwjdnjejjdnjejejje” -> Spam Một đánh giá khác

cũng được lấy ở sản phẩm là tai nghe trên Shopee.vn “Giao hàng lâu, tai nghe zè xé,k nghe rõ, nút tăng giảm cũng k tác dung, tiền nào của nay” -> sai chính ta.

Qua khảo sát, đa số các đánh giá là các câu tương đối ngắn, đánh giá thường

là một câu ngăn cách các ý bằng dấu phẩy, hoặc gồm nhiều câu nhưng có ý nghĩa

cảm xúc khác nhau, đề cập đến các khía cạnh khác nhau của sản phẩm Việc một

đánh giá bao gồm hai câu (theo ngữ pháp - được ngăn cách bằng dấu cham) đề cập đến hai khía cạnh khác nhau của sản phẩm hoàn toàn có thể xem xét độc lập hai sắc

13

Trang 30

thái của hai câu rồi tổng hợp kết quả lại, cho ra kết quả không khác gì so với việc xem xét đánh giá đó như là một câu duy nhất Ta xem xét ví dụ sau:

Vi dụ 2.3: “Giao hàng thì nhanh Bị cái hộp đóng hàng thi móp hết trơn”

Nếu xem đánh giá này như là hai câu độc lập thì dễ thấy câu đầu mang nhãn 4 (positive) và câu hai mang nhãn 2 (negative) Còn nếu xem xét câu này như một câu

duy nhất bằng cách thay thé dấu cham bằng dấu phẩy, ta sẽ có một câu mới gồm hai

ý được đánh giá lần lượt là 4 (positive) với “giao hàng nhanh” và 2 (negative) với

“hộp bị móp” Tổng hợp lại hai cách xem xét ta sẽ có kết quả cuối cùng giống nhau Thế nhưng nếu chia nhỏ ra thành các ý độc lập riêng biệt thì rất dé dé gan nhãn cũng như đạt được tính thống nhất giữa các annotator.

Chính vì vậy, các đánh giá sản phẩm quá dài sẽ được chia nhỏ thành các đánh

giá ngắn hơn dé phù hợp hơn, giúp việc gan nhãn trở nên dé dàng và đạt được tinh thống nhất cao, đồng thời tăng được lượng dữ liệu đánh giá lên với độ dài và độ phức tạp của câu gần sát hơn với thực tế Các đánh giá được chia thủ công dựa trên ngữ

nghĩa, bối cảnh và sắc thái của câu, để đảm bảo việc chia tách không làm ảnh hưởng

nghiêm trọng đến giá trị cảm xúc của đánh giá, sau đó sẽ được kiểm tra lại trước khi chuyển sang giai đoạn tiếp theo Kết thúc giai đoạn 2, từ bộ dữ liệu ban đầu mà có

được khoảng 3000 đánh giá được tách ra.

2.1.3 Giai đoạn 3: Xây dựng hướng dẫn gán nhãn và gán nhãn

Nhu đã đề cập trước đó về việc chỉ sử dụng bộ dữ liệu được đánh giá theo

2 hoặc 3 mức độ như thông thường sẽ không đạt được tính thực tế trong nhu cầu đánh

giá cảm xúc đối với sản phẩm Cho nên, nghiên cứu này xây dựng một bộ dữ liệu với

5 nhãn là: very positive (rất tốt), positive (tốt), neutral (bình thường), negative (tệ),

very negative (rất tệ) được đại diện bằng các số nguyên dương tương ứng bằng các

số nguyên từ 1 (very negative) đến 5 (very positive).

Trong quá trình gan nhãn và xây dựng hướng dan gan nhãn, nhận thấy có

một số ft các câu quá dài, bao gồm nhiều câu có các ý độc lập riêng biệt đề cập đến

cùng hoặc nhiều khía cạnh khác nhau của sản phẩm, đồng thời việc xem xét độc lập

14

Trang 31

các ý rồi tổng hợp kết quả lại sẽ mang đến kết quả nhãn tương đương với việc xem xét toàn bộ đánh giá đó Vì vậy, đề thuận tiện cho việc gán nhãn, các đánh giá được

chia làm 2 loại như sau:

a) Loại câu số 1: được gọi là câu ngắn

Là loại câu chỉ đề cập đến một khía cạnh duy nhất của sản phẩm đang nói đến, hoặc là câu mang tính chất chung chung tổng thể cho sản phẩm Nhãn của câu ngắn sẽ được xác định bởi từ thé hiện tính chất khen/ché đối với khía cạnh sản phẩm.

Vi dụ 2.4: câu chỉ đề cập đến một khía cạnh: “đóng gói đẹp day”, khía cạnh được đề cập: đóng gói, đánh giá là tích cực “đẹp” -> câu ngắn Câu mang tính chất chung chung: “sản phẩm tốt” không đề cập cụ thể đến một khía cạnh nào của sản phẩm và chỉ nêu ra đánh giá mang tính chất tích cực là “tốt” -> câu ngắn Và câu

“cái kệ này trông đẹp, chắc chắn”, câu này lại đề cập đến 2 khía cạnh/ 2 tính chất

khác nhau của sản phẩm là “đẹp” tương ứng với khía cạnh ngoại quan và “chắc chắn”

tương ứng với khía cạnh cau tric/két cấu -> không phải là câu ngắn.

b) Loại câu số 2: câu dài

Là những đánh giá sản phẩm không phải là loại câu ngắn, tức có đề cập đến nhiều hơn một khía cạnh, hoặc là câu bao gồm ý đánh giá sản phẩm và những ý không liên quan gì đến sản phẩm.

Vi dụ 2.5: “Thảm nhìn đẹp, thấm nước tốt” dé cập hai khía cạnh “đẹp” tương ứng với ngoại quan và “thắm nước tốt” tương ứng với công năng -> câu dài Câu “Vừa nhận được đơn hàng Bình đẹp”, tổng cộng câu gồm có hai về, về đầu

“vừa nhận được đơn hàng” không liên quan đến yếu tố nào của sản phẩm và về sau

là “bình đẹp” tương ứng với khía cạnh ngoại quan Đây là câu dài.

Vì loại câu dài có thể có nhiều hơn một ý/khía cạnh của sản phẩm được đề

cập đến, đồng thời các ý/khía cạnh này có thể mang sắc thái cảm xúc khác nhau (khen

và chê) nên nhãn của loại câu dài sẽ được xác định bằng cách xem câu dài như là một

tổng hợp của các câu ngăn, được tính điểm dé hỗ trợ gán nhãn quy định như sau:

15

Trang 32

e Nhãn 5 (very positive): nêu toàn bộ nhãn của các câu ngăn được chia

ra chỉ gồm nhãn 5 hoặc chỉ bao gồm nhãn 4 và ít nhất một nhãn 5

e Nhãn 4 (positive): toàn bộ nhãn của các câu ngắn chỉ bao gồm nhãn 4

hoặc tông điểm nhãn nhóm tích cực (nhãn 4 và 5) nhiều hơn tổng điểm của nhóm

nhãn tiêu cực (1 và 2).

e Nhãn 3 (neutral): toàn bộ nhãn của các câu ngắn chỉ bao gồm nhãn 3

hoặc tổng điểm nhãn nhóm tích cực (4 và 5) bằng với tổng điểm nhãn nhóm tiêu cực

e Nhãn 2, 4 được tính 1 điểm với mỗi câu ngắn

e Nhãn 1, 5 được tính 2 điểm với mỗi câu ngăn.

Ví dụ 2.6: “Tai nghe đẹp, đóng gói cần thận nhưng nghe hơi rè”

Chia làm ba câu ngắn ứng với ba khía cạnh được đề cập (ngoại quan, đóng gói, chấtlượng âm thanh), trong đó: ngoại quan “đẹp” là nhãn 4 được một điềm, đóng gói “cânthận” là nhãn 4 được một điểm, chất lượng âm thanh “nghe hơi rè” là nhãn 2 Vậy sốđiểm nhãn tích cực (4 và 5) = 2 > 1 là số điểm nhãn tiêu cực (1 và 2), vậy câu này sẽ

được gán nhãn là 4.

Bảng 2.1 Một số quy tắc ngữ pháp trong tiếng Việt được áp dụng cho các nhãn

Zz Quy tắc ngữ pháp trong tiếng Việt Áp dụng cho các nhãn

Trang 33

nhãn của nó có thể là 1 hoặc 5

Các thứ tự có từ “thứ” trước những con sô | Xem xét các khía cạnh của sản

phẩm

Từ “các” và “những” thé hiện nhiều khía | Những từ đó được sử dụng dé

cạnh trong câu xem xét cảm xúc của một câu

Loại 2 trong khi tất cả các

khía cạnh của nó có cùng mức

độ cảm xúc

99 66

Cac trang tu “rat”, “lăm”, “quá” Những từ nay làm cho mức độ

Từ “rất” biểu thị mức độ vừa phải, cảm xúc mạnh Thường sẽ

, " thuộc loại 1, và nhãn của nó

“lăm” biêu thi mức độ cao hon, và từ fi

Các liên từ “và”, “hoặc”, “với”,” hay” | Những từ đó được sử dụng dé

xem xét cảm xúc của một câu

17

Trang 34

Loại 2 trong khi tât cả các khía cạnh của nó có cùng mức

R92? 66.

đê trước, “mà”, “mà còn”, xem xét cảm xúc của một câu

> , > v

Loại 2, làm cho mức độ cảm xúc mạnh (rât tích cực hoặc rât tiêu cực).

Các tác tử “chỉ có”, “những”, “có đên”, Những từ này làm cho mức độ

“có những” cảm xúc mạnh Thường sẽ

thuộc loại 1, và nhãn của nó

có thé là 1 hoặc 5

2.1.4 Giai đoạn 4: Hoàn thiện dữ liệu

Sau khi gán nhãn, sé lượng các nhãn trong bộ đữ liệu có sự chênh lệch rấtlớn, trong trường hợp này nhãn 5 có số lượng vượt trội so với các nhãn còn lại vànhãn 3 có số lượng rat ít Dé đảm bảo tính hiệu qua của mô hình, tiến hành cân banglại số lượng của các nhãn trong bộ dữ liệu bang cach thu thập thêm dữ liệu bằng ba

cách:

18

Ngày đăng: 23/10/2024, 01:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
Nigam, K., Lafferty, J., McCallum, A.: “Using maximum entropy for text classification”. In: LICAI-99 workshop on machine learning for information filtering. vol. 1, pp. 61-67. Stockholom, Sweden (1999) Sách, tạp chí
Tiêu đề: Using maximum entropy for textclassification
Năm: 1999
Sanh, V., Debut, L., Chaumond, J., Wolf, T.: “Distilbert, a distilled version of bert: smaller, faster, cheaper and_ lighter”. arXiv preprint arXiv:1910.01108 (2019) Sách, tạp chí
Tiêu đề: Distilbert, a distilled versionof bert: smaller, faster, cheaper and_ lighter
Năm: 2019
[44] Sanh, Victor, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter." arXiv preprint arXiv:1910.01108 (2019) Sách, tạp chí
Tiêu đề: DistilBERT, a distilled version of BERT: smaller, faster,cheaper and lighter
[45] Theodoros Evgeniou , Massimiliano Pontil et al. “Support Vector Machines:Theory and Applications January 2001” Machine Learning and Its Applications, Advanced Lectures.DOI: 10.1007/3-540-44673-7_12 Sách, tạp chí
Tiêu đề: Support Vector Machines:Theory and Applications January 2001
Trends in Intelligent Software Methodologies, Tools and Techniques (SoMeT 2020). pp. 425-434. IOS Press (2020) Khác
Reaching the right person at the right place”. Annual Research Journal of Symbiosis Centre for Management Studies, Pune 8, 74-93 (2020) Khác
Phan, T., Pham, V., Nguyen, H., et al: “Ontology-based resume searching system for job applicants in information technology’. In: Proceedings of 34th International Conference on Industrial, Engineering &amp; Other Applications of Applied Intelligent Systems (TEA/AIE 2021). In publishing (2021) Khác
[46] Leo Breiman, et al. “Random Forests’’ Machine Learning, 45, 5—32, 20012001 Kluwer Academic Publishers. Manufactured in The Netherlands.52 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w