1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyên đề thực tập: Phân tích phản hồi bằng xử lý ngôn ngữ tự nhiên và ứng dụng thuật toán Deep Learning trong phân lớp cảm xúc

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Phản Hồi Bằng Xử Lý Ngôn Ngữ Tự Nhiên Và Ứng Dụng Thuật Toán Deep Learning Trong Phân Lớp Cảm Xúc
Tác giả Nguyễn Thanh Huyền
Người hướng dẫn GS.TS Nguyễn Quang Đông
Trường học Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành Toán Tài Chính
Thể loại chuyên đề thực tập
Định dạng
Số trang 95
Dung lượng 29,64 MB

Nội dung

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂNKHOA TOÁN KINH TẾ TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN CHUYEN DE THỰC TAP CHUYEN NGANH TOAN TAI CHINH Dé tai: Phân tích phan hồi bang xử ly ngôn ngữ tự nhiên và

Trang 1

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

CHUYEN DE THỰC TAP

CHUYEN NGANH TOAN TAI CHINH

Dé tai:

Phân tích phan hồi bang xử ly ngôn ngữ tự nhiên và ứng

dụng thuật toán Deep Learning trong phân lớp cảm xúc.

Họ và tên sinh viên — : Nguyễn Thanh HuyềnMSV : 11172204

Lop chuyén nganh : Toán tài chính 59Giảng viên hướng dẫn : GS.TS Nguyễn Quang Dong

Trang 2

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

MỤC LỤC

DANH MỤC HÌNH ẢNH << 9E 99 1999 90 992 3 secsezxe 5LOI CAM 095 9

8098/0670 10

1 Dat na 10

P03 0ì: 1340) 2:0 00007 11

3 Đối tượng va phạm vi nghiên Cứu - ¿2 2 £+S£+EE+EE+EE+EE£EEEEeEEEErEerrerrerreee 1

4 Phương pháp nghiÊn CU ce eeceeseesceeseeseeeseeseeeseesececeesececeeseceneeaeseeeaeceeeeaeeeeeaeens 12

5 Kết cấu chuyên đề -¿- 2: + sex xe E2E2112112112112112111111 1111.11.1111 1x E1 xe 12

CHUONG I TAM QUAN TRONG CUA VIỆC TIẾP NHAN PHAN HOI TỪ

$6 ca 13

1.1 Tống quan về phản hồi khách hàng và phân tích phản hồi khách hang 13

1.1.1 Định nghĩa về phản hồi khách hàng -2- 2: 5£ 5£ £2££+££2£++£vzxerxeei 13

1.1.2 Các phương tiện thu thập phản hồi từ khách hàng - 2-5252: 13

1.2 Đặc điểm của khách hàng hiện nay 2-2-2 ©SSE+E££E2EE2EE2EE2EEEEEEEErrkerxerg 17

1.2.1 Sự phát triển không ngừng của các phương tiện truyền thông 17

1.2.2 Khách hàng dang trở nên khó tính hơn 5555 + ++*£++£+s+seeeeeeseresrs 19

1.2.3 Khách hàng kỳ vọng nhiều hơn vào chất lượng dịch vụ -«- 201.2.4 Khách hàng đòi hỏi được đáp ứng nhanh nhất có thé 2-5-5: 22

1.3 Sự cần thiết của việc ứng dụng kỹ thuật NLP và phân lớp cảm xúc trong phân tíchphản hồi khách hàng ¿2-2 +£++££EE£SEE£EEESEEEEEE2E1711211711271211712211 71.21 E1 23

CHUONG II BÀI TOÁN PHAN LỚP CẢM XÚC TRONG VĂN BẢN VÀ THUẬT

TOÁN DEEP LEARNING . s<s<Ss©EseeEEseEEvaeeEvaeErraeerxsetrkseersseorsseoree 25

Trang 3

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

2.1 Tổng quan về bài toán xử lý ngôn ngữ tự nhiên và phân tích cảm xúc trong văn bản

¬— 25

2.1.1 Tổng quan về xử lý ngôn ngữ tự nhiên (NLP) -2- 52 52+s22££+£+£zs+ 252.1.2 Tổng quan về bài toán phân tích cảm xúc và phân lớp cảm xúc 302.2 Một số phương pháp thường dùng trong bài toán phân lớp cảm xúc 34

2.2.1 Phân lớp dựa trên hệ thống quy tắc (Rule-based system) - - 342.2.2 Phân lớp bằng các thuật toán tự động - + 2 + x+£xe£kezEerkzrrrerrxrrs 34

2.3 Deep learning trong bài toán phân ÏỚp - - - 5 + + xk*+kE+sEEEseekesersreeeee 40

2.3.1 Deep Feedforward Network HH HH HH hư, 40

2.3.2 Convolutional Neural NetWOTKS - óc 2à vn ng ng nếp 42

2.3.3 Long Short Term MemOYVy - - - << +1 E181 1 E910 1 ng ngư 44

CHUONG III PHAN TÍCH PHAN HOI BANG QUA TRÌNH XỬ LÝ NGÔN NGỮ

TU NHIEN VA UNG DUNG THUAT TOAN DEEP LEARNING TRONG PHAN LỚP CẢM XUC.ussssssssssssssssssssssssssesssssssssesssssssssecssssssnseesssssssnscssssssssscsssssssnsesssssssssessesessnee 48

3.1 Dữ liệu và các biến số sử dụng -¿- 2 +©2++2E+EE£EEEEEEEEEEEEEEEE1121111 E2 crxe 483.2 Phân tích dữ liệu bằng NLP 2-52 +2++2EEtEE+SEEtEEEEEErEExerkrrrrerkrerrerrree 52

3.2.1 Quá trình tiền xử lý văn bản oe ecceecesseseessessessessessessessessessessesesseseseeseesen 523.1.3 Phân tích bộ dữ liệu sau quá trình tiền xử lý - ¿2 2+z+z+s+zxzzszex 583.2 Ung dung Deep Learning trong phân tích phản hỒi 2 2 2 s2 s+s2 5522 68

3.2.1 Chia dữ liệu và mã hóa tỪ L1 912 21v ng HH ng ng rh 69

3.2.2 Mô hình mạng nơ-ron GON g1ả1 5 5+ + + E*E+EESeeeeEreeseerrersrrree 71

3.2.3 Convolutional Neural Network (CNN) Ăn SSss ng cey 74

3.2.3 Long Short Term Memory (LSTM) - -. St *+ 1S Hs ng re 76

Trang 4

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

cố .Ả ố.ố 863.5 Hạn chế và mở rộng nghiên CỨU 2-2 2 + EE+EE+EE+EE+EE£EEEEEEEEEZEEEEE2Exrrkerree 86DANH MỤC TÀI LIEU THAM KHAO - se s<©se£se+ss£++eEseevseeseevseesserseese 88

1:0050920 77 94

Trang 5

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

DANH MỤC HÌNH ANH

Tên hình Trang

Hình 1.1 Các trang người tiêu dùng thường dé lại phản hồi (tính theo tỷ lệ | 14

phần trăm)

Hình 1.2 | Biéu đồ cơ cấu người dùng mạng xã hội theo độ tuôi và giới tính | 16

tại Việt Nam

Hình 1.3 Các kênh tham khảo của người tiêu dùng trước khi ra quyết định | 17

mua sam trực tuyến.

Hình 1.4 Thay đổi trong kỳ vọng của khách hàng đôi với chất lượng dịch vụ | 19

Hình 1.5 3 khía cạnh khách hàng kỳ vọng cải thiện nhất trong năm 2017 20

Hình 2.I | Minh họa quá trình xử lý ngôn ngữ tự nhiên 23

Hình 2.2 | Minh họa quá trình mã hóa từ 24

Hình 2.3 Sơ đồ phân tích quan hệ giữa các từ 25

Hình 2.4 Sơ đồ phân tích ngữ pháp theo cấu trúc trong tiếng Anh 26

Hình 2.5 | Quá trình stemming và lemmatization từ trong tiếng Anh 27

Hình 2.6 Quá trình loại bỏ từ dừng trong NLP 28

Hình 2.7 | Phân phối lượng từ dừng so với các từ được sử dụng với tần suất 28

cao khác trong truyện cô tích của H.C Andersen

Hình 2.8 Các cấp độ của bài toán phân tích cảm xúc 29

Hình 2.9 | Quá trình luyện tập và đưa ra dự đoán của hệ thống phân lớp tự | 33

động.

Hình 2.10 | Phân tích của thuật toán Multinomial Naive Bayes cho một bình | 35

luận về phim

Hình 2.11 | Minh họa các quan sát thành hai lớp bằng một đường thăng 36

Hình 2.12 | Các quan sát được mô phỏng dưới dạng 3D và được chia thành hai | 36

lớp bằng một mặt phẳng

Trang 6

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Hình 2.13 | So sánh quá trình xử lý văn bản bằng học máy (Machine Learning) 38

và học sâu (Deep Learning).

Hình 3.1 Mô tả 5 quan sát đầu tiên của bộ đữ liệu 40

Hình 3.2 | Phân phối lượng bình luận tích cực và tiêu cực trong bộ dữ liệu 40

Hình 3.3 Đồ thị so sánh phân phối số lượng từ giữa bình luận tiêu cực và | 41

Hình 3.6 | Wordcloud 200 từ phố biến nhất trong bộ dữ liệu 42

Hình 3.7 | Quá trình tiền xử ly đữ liệu trong bài toán xử lý ngôn ngữ tự nhiên | 44Hình 3.8 | Đồ thị phân phối sô lượng từ của các bình luận trước quá trình tiền | 46

xử lý.

Hình 3.9 | Đồ thị phân phối s6 lượng từ của các bình luận sau quá trình tiền | 46

xử lý.

Hình 3.10 | Các giá trị phân phối số lượng từ của các bình luận trong bộ dữ liệu 47

trước và sau quá trình tiền xử lý

Hình 3.11 Thống kê 20 từ được sử dụng nhiêu nhất trong bộ dữ liệu sau quá | 48

trình tiền xử lý

Hình 3.12 | Wordcloud 200 từ phô biến nhất trong bộ dữ liệu sau quá trình tiền | 48

xử lý.

Hình 3.13 | So sánh phân phối SỐ lượng từ giữa bình luận tiêu cực và tích cực | 49

Hình 3.14 Thống kê mô tả số lượng từ giữa bình luận tiêu cực và tích cực | 50

(trước và sau tiền xử lý)

Hình 3.15 Thống kê 20 từ phố biến nhất trong các bình luận tích cực và tiêu 50

cực.

Trang 7

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TE

Hình 3.16 | Wordcloud 200 từ được sử dung nhiều nhất trong các bình luận | 51

Hình 3.25 | Đồ thị so sánh độ chính xác và độ mat mát của quá trình luyện tập | 65

và thực hành của mô hình mạng nơ-ron đơn giản.

Hình 3.26 | Minh họa mô hình CNN 66

Hình 3.27 | Đồ thị so sánh độ chính xác và độ mat mát của quá trình luyện tập | 67

và thực hành của mô hình CNN.

Hình 3.28 | Minh hoa quá trình huấn luyện của mô hình LSTM 68

Hình 3.29 | Đồ thị so sánh độ chính xác và độ mat mát của quá trình luyện tập | 70

và thực hành của mô hình LSTM.

Hình 3.30 | Minh họa cau trúc của confusion matrix 71

Hình 3.31 | Duong cong ROC của 3 mô hình 72 Hình 3.32 | Bang so sánh thời gian hoàn thành luyện tập, độ chính xác và AUC | 72

của 3 mô hình.

Hình 3.33 | Biểu đồ phân phối điểm số của 3 mô hình no-ron đơn giản, CNN | 73

Trang 8

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Hình 3.34 | Confusion matrix tính theo tỷ lệ của 3 mô hình nơ-ron đơn giản, | 74

Hình 3.37 | Wordcloud 200 từ được sử dụng nhiều nhất trong các bình luận | 77

được dự đoán là tích cực và tiêu cực.

Trang 9

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Tôi chân thành cảm ơn đến các thầy cô khoa Toán ứng dụng trong kinh tế vì

những kiến thức bổ ích tôi được học cả về chuyên môn cùng với kinh nghiệm cuộc sống Những kiến thức này là tiền đề quan trọng để giúp tôi hoàn thành chuyên đề

`

này.

Trang 10

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

lý Việc phân tích những phản hồi này của khách hàng, doanh nghiệp một cách hiệuquả sẽ giúp các nhà cung cấp có cái nhìn rõ ràng hơn về những khía cạnh mà kháchhàng cảm thấy hài lòng hay khó chịu về sản phẩm của mình Tuy nhiên, khác vớiđánh giá trong những phiếu khảo sát khách hàng, dữ liệu về những phản hồi nàythường có khối lượng lớn và đa dạng về phương thức diễn đạt (âm thanh, hình ảnh,văn ban ), do đó rất khó dé xử lý chúng bằng những phương pháp tiếp cận truyềnthống Điều này dẫn đến nhu cầu về một công cụ mới dé giúp các nhà phân tích xử

lý lượng dữ liệu này một cách tối ưu nhất, kỹ thuật khai phá văn ban (Text mining)

Trong khai phá văn bản, kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language

Processing - NLP) đã được ứng dụng rất nhiều trong các lĩnh vực kinh doanh, từviệc phân tích các bài đăng trên các nền tảng mạng xã hội tới những phản hồi trựctiếp hay phiếu yêu cầu hỗ trợ Kỹ thuật sẽ giúp phân tích cảm xúc ấn dưới những

câu từ trong văn bản, và xác định nó mang ý tiêu cực, tích cực hay trung tính Ví dụ

trong lĩnh vực chăm sóc khách hàng, kỹ thuật này có thé được ứng dụng dé nhanhchóng xác định được những khách hàng đang tức giận và ưu tiên giải quyết vấn đềcủa họ trước Hiện nay, việc triển khai các quy trình khai thác, dự án nghiên cứu,phân tích dự liệu khách hàng với mục đích tìm hiểu, nắm bắt mong muốn, nhu cầuthầm kín của khách hàng, và nó chuyền thành những giá trị cụ thể thông qua từngchiến lược, kế hoạch hoạt động chính là chìa khóa cạnh tranh của mỗi tô chức Vì

Trang 11

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

vậy, mục tiêu của chuyên đề này chính là sử dụng NLP và các mô hình phân lớpcảm xúc dé phân tích cảm tình và thái độ của khách hàng đối với một sản phẩm,dịch vụ qua những lời phản hồi để các nhà cung cấp đưa ra được những chính sách

chăm sóc khách hàng phù hợp Chuyên đề này sẽ nghiên cứu: “Phân tích phản hồi

băng xử lý ngôn ngữ tự nhiên và ứng dụng thuật toán Deep Learning trong phân lớp

cảm xúc.”

2 Mục tiêu nghiên cứu

Đề tài nghiên cứu về việc phân tích phản hồi bằng xử lý ngôn ngữ tự nhiên vàứng dụng thuật toán Deep Learning trong phân lớp cảm xúc Đề thực hiện được mụctiêu này, cần trả lời được một số câu hỏi:

- Phản hồi khách hàng là gì và tạo sao phải phân tích phản hồi khách hàng

- Phân tích phản hồi như thế nào? Làm thế nào để trích xuất các thông tin từ

văn bản.

- Dùng phương pháp nào dé phân lớp cảm xúc và phân lớp như thé nao

- Sau khi phân tích thì có kết luận gì về khả năng ứng dụng các kỹ thuật nàytrong thực tế

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu cảu chuyên đề này là việc phân tích phản hồi bằng xử

lý ngôn ngữ tự nhiên và ứng dụng thuật toán Deep Learning trong phân lớp cảm

XÚC.

Dữ liệu: Phản hồi của người xem về các bộ phim nổi tiếng

Nguồn: bộ dữ liệu được lay bằng cách “cào” các phản hồi của người dùng vềcác bộ phim nổi tiếng trên trang Internet Movie Database (IMDb) và từng được sửdụng trong bài báo cáo Nghiên cứu về vector từ vựng trong bài toán phân tích cảm

Trang 12

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

xúc (Learning Word Vector for Sentiment Analysis (Maas, Daly, Pham, & Dan

Huang, 2011)).

4 Phuong pháp nghiên cứu

Đề tài sử dụng kỹ thuật NLP đề phân tích văn bản và ứng dụng thuật toán DeepLearning trong phân lớp cảm xúc từ đó xác định được phản ứng của khách hàng đốivới sản phâm mà họ đã sử dụng

5 Kết cấu chuyên đề

Chuyên đề gồm 3 chương:

Chương I Tầm quan trong của việc tiếp nhận phản hồi từ khách hàng

Chương II Bài toán phân lớp cảm xúc trong văn bản và các thuật toán Deep

Learning.

Chương III Phân tích phản hồi bằng xử lý ngôn ngữ tự nhiên va ứng dụng

thuật toán Deep Learning trong phân lớp cam xúc.

Trang 13

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

CHUONG I TAM QUAN TRONG CUA VIỆC TIẾP NHAN PHAN

HOI TU KHACH HANG

Tổng quan về phản hồi khách hàng và phân tích phản hồi khách hang

So với những người tiền nhiệm của mình thì đội ngũ chăm sóc khách hàng hiện nayđang phải đối mặt với một thách thức khó khăn hơn rất nhiều Một thị trường khôngngừng phát triển, những kỳ vọng luôn thay đổi, cùng những người tiêu dùng đang

tìm kiếm một món hàng vừa rẻ vừa chất lượng mà dịch vụ đi kèm cũng phải tốt

không kém đã làm việc xác định và đáp ứng các nhu cầu từ khách hàng trở nênkhông hề dễ dàng

Người tiêu dùng ngày nay khác trước rất nhiều, họ đa nghi hơn, đòi hỏi khắtkhe hon, có nhiều lựa chon hơn, và hơn hết họ có nhiều cách dé cho các nha cungcấp biết họ nghĩ gì về sản phẩm hay dịch vụ mà mình sử dụng Điều này khiến bàitoán chăm sóc khách hàng càng trở nên khó khăn hơn đồng thời quan trọng hơn baogiờ hết

1.1.1 Định nghĩa về phản hồi khách hàng

Phản hồi khách hàng là những thông tin liên lạc bằng lời nói hoặc văn bản của

khách hàng thể hiện cảm nhận của họ về thương hiệu, sản phẩm hay dịch vụ của

doanh nghiệp Chúng là tài sản vô giá đối với doanh nghiệp thuộc mọi quy mô vàloại hình Dựa theo các ý kiến từ khách hang, các công ty phần mềm có thé dé sửa

các lỗi hệ thống hay thay đổi và thêm các tinh năng mới, các công ty bán lẻ có thé

kiêm tra các khâu trung chuyền và lưu kho, các nhà hàng có thé có những thông báohay thay đổi đối với thực đơn và quy trình phục vu

1.1.2 Các phương tiện thu thập phản hồi từ khách hàng

Trang 14

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Có nhiều cách dé thu thập những phản hồi từ khách hàng, nhưng các nhà cungcấp không thê lấy được những thông tin đó nếu không biết khách hàng của mình tậptrung ở đâu để bàn luận và nói về doanh nghiệp của mình Dưới đây là một số

phương pháp phổ biến nhất mà khách hàng ngày nay sử dụng để thể hiện cảm nhận

của họ về các tô chức cũng như hàng hóa và dịch vụ họ sử dụng.

1 Khảo sát khách hàng Băng cách trực tiếp, qua hòm thư điện tử, các trangweb hay qua điện thoại (hoặc kết hợp giữa các cách này), các bài khảo sát sẽ yêucầu khách hàng đưa ra đánh giá về mức độ hài lòng chung, hay mức độ thỏa mãn

của lần sử dụng sản phẩm gần đây nhất theo các khía cạnh cụ thể, và, có lẽ là câu

hỏi quan trọng nhất, liệu họ có sẵn sàng giới thiệu sản phẩm họ đang sử dụng với

bản bẻ va người quen Câu hỏi quan trọng này sẽ giúp các doanh nghiệp đánh giá

được liệu mình đã thành công trong việc tạo nên các nhà tiếp thị nhiệt huyết

2 Các đường dây nóng miễn phí Một hệ thông hỗ trợ khách hàng tốt hầu như

luôn có một đường dây nóng hoạt động thường xuyên, cùng những nhân viên

được đào tạo bài bản và tập trung vào việc giải quyết các vấn đề của khách hàngngay từ cuộc gọi đầu tiên Nhiều công ty lay khách hàng là đối tượng trung tâm

đã tạo ra các đường dây nóng riêng cho những loại hàng hóa và dịch vụ khác

nhau, hay những ngôn ngữ khác nhau Có thé lay vi vu nhu FedEx da str dung hé

thống phản hồi tương tác bằng giọng nói cho phép khách hàng nói chuyện với các nhân viên hỗ trợ bằng tiếng Anh hoặc tiếng Tây Ban Nha Khi khách hàng

gọi điện tới các đường dây nóng dé đưa ra những đề xuất, thắc mắc hay van décần giải quyết thì đó đều có thể cung cấp những thông tin quý giá giúp doanhnghiệp cải thiện hệ thống dịch vụ

3 Hom thư điện tử Nhiều khách hàng vẫn có thói quen sử dụng thư điện tử

như một phương tiện dé thé hiện sự hài lòng hoặc không hài lòng của mình vềtrải nghiệm dịch vụ hay chỉ là yêu cầu giải đáp những thắc mắc Đây là một hình

thức giao tiếp khá riêng tư, giúp các nhà cung cấp sản phẩm phản hồi và giải đáp

Trang 15

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

các vấn đề từ khách hàng trước khi họ công khai với công chúng trên các nền

tảng trực tuyến.

4 Trang web của công ty Việc quản lý các mối quan hệ và trải nghiệm kháchhàng tại chính trang web của công ty sẽ dễ dàng hơn nhiều so với việc kháchhàng dé lại các phản hồi ở những nơi khác Do đó, dé có thé hiểu hơn về lĩnh vựckinh doanh của mình, các doanh nghiệp nên tìm cách khuyến khích khách hàngđưa ra những đánh giá về sản phẩm và dịch vụ tại trang web của công ty Điềunày đòi hỏi một cá nhân hoặc đội ngũ chuyên trách đảm bảo rằng các truy vấn,

yêu cầu, thắc mắc, phàn nàn hay khen ngợi sẽ được phản hồi một cách kip thoi,

hiệu quả, nhiệt tình và thân thiện Hãy cho ho lý do dé quay lai và dé lại phanhồi, biến nó thành một hành động đôi bên cùng có lợi

5 Các trang chuyên đánh giá của một ngành cụ thé TripAdvisor, hay Digicams là hai trong vô số các trang web chuyên đánh giá các mặt hàng thuộc

Steves-về một ngành cụ thể Hàng ngàn người tiêu dùng có thể vào các trang này và délại đánh giá mà họ cảm thấy hữu ích với các người tiêu dùng khác về chất lượngsản phẩm dich vụ thuộc một ngành kinh doanh chính, ví dụ như đánh giá về chấtlượng khách sạn trên trang TripAdvisor Một số trang cho phép khách hàng được

tương tác với các doanh nghiệp, một số thì không Một số thì cho phép mọi người được tương tác với những người viết đánh giá, một số lại không Nhưng cho đù

như nao thì những trang này cũng đã giúp doanh nghiệp biết được khách hàngđang nói gì về san pham dịch vụ của minh từ đó đưa ra được phương án thay đổihoặc cải thiện tình hình Nếu như mười người thì chín người chê thời lượng pin

của chiếc máy ảnh đời mới nhất của một công ty này quá ngắn, thật chắng đáng

tiền nâng cấp, thì đây chính là một trong những điều mà công ty đó cần lưu ý

trong quá trình phát trién sản pham mới Mặt khác, đối với những đánh giá tiêucực hi hữu về một vấn đề, ví dụ như có khoảng 1% khách hàng đánh giá kháchsạn kia có nhân viên thô lỗ, thiếu thân thiện và chang giúp ích gì nhiều, thì cách

Trang 16

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

6 Các nên tảng mạng xã hội Theo thông kê trên trang Statista, trong suốt quý

IV của năm 2020, mỗi ngày có khoảng 1,85 tỷ tài khoản Facebook đang hoạt

động trên toàn cau, chiếm khoảng 66% số người dùng hang tháng, cao hơn nhiều

so với con số 372 triệu người dùng hăng ngày của quý I năm 2011 Trong tháng

1 năm 2021, xét theo số tài khoản còn đang hoạt động trên toàn cầu thì Facebookdẫn đầu (với 2,74 tỷ người dùng), theo sau là Youtube (2,291 tỷ người dùng),WhatsApp (2 tỷ người dùng) và nhiều cái tên phổ biến khác Với mức độ phổ

biến trên toàn cầu của các nền tảng mạng xã hội thì các doanh nghiệp muốn mở

rộng thị trường trong thời đại hiện nay không thé dé ban thân nam ngoài những

xã hội ảo này Ngày càng có nhiều nhà cung cấp sử dụng mạng xã hội như mộtcông cụ dé tìm kiếm và kết nối với khách hang của mình, thực hiện các chiến

dịch quảng cáo, và giới thiệu các sản phẩm mới.

Sites where consumers shared

Hình 1.1 Cac trang người tiêu dùng thường dé lại phản hồi (tính theo

tỷ lệ phan trăm) (Kruh, 2017)

Trang 17

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Các doanh nghiệp phải luôn luôn dé ý đến khách hàng đang nói gì về mình quanhững phương tiện này đề phòng nguy cơ danh tiếng bị tổn hại hoặc tệ hơn là bị đạp

đồ hình tượng mà không thé có bat kỳ hành động phản kháng nào Mọi người đều

có mong muốn được kết nỗi với những người có cùng sở thích hay nhu cầu mua

sắm, và có thé trong tương lai những mạng xã hội mới sẽ nồi lên cho phép ngườidùng kết nối và chia sẻ nhanh chóng, dễ dàng hơn bây giờ Trong tương lai đó, đùkhách hàng tập trung ở đâu thì doanh nghiệp phải luôn ở đó, lắng nghe, quan sát vàđưa ra những giải pháp phù hợp cho các van đề Tương tác là cách tốt nhất dé xâydựng một hình tượng tốt, luôn đứng dưới góc nhìn của khách hàng và tìm kiếm

những khách hàng trung thành.

1.2 Đặc điểm của khách hàng hiện nay

1.2.1 Sự phát triển không ngừng của các phương tiện truyền thông

Khách hàng ngày nay không chỉ trao đổi thông tin với nhau qua những cú điệnthoại, những tin nhắn, hay trực tiếp hơn là qua những buôi gặp mặt thân thiết nhưngày xưa, khi những phương tiện truyền thông khác còn chưa phô biến và phát trién.Khách hàng của thời đại công nghệ số thường thích kê về trải nghiệm của mình trên

những trang mang xã hội như Twitter, Facebook va Instagram, hay các trang web

phổ biến chuyên dé đăng bình luận về những sản phẩm và dịch vụ thuộc cùng mộtdanh mục như Goodreads chuyên về sách, hay IMDB chuyên về phim ảnh Ngoài

ra họ cũng có thé dé lại những phản hồi của mình trên chính trang web của công tytại các trang thảo luận hay mục chuyên dé tiếp nhận ý kiến về sản phẩm Tuy không

thé có được một con số chính xác về số người dùng những công cụ này, nhưng có

thé nói rằng có đến cả tỷ người đã, đang và sẽ sử dụng chúng dé tiếng nói của mình

có sức ảnh hưởng lớn hơn.

Một thế hệ mới đang dần trưởng thành và tham gia vào thị trường thương mại,

Trang 18

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

dé thừa biết rang mình chang cần gọi tới số hotline mới được tiếp cận các chínhsách chăm sóc khách hàng Nhưng tắt nhiên là không chỉ giới trẻ mới sử dụng mạng

xã hội, theo báo cáo của Hootsuite và Wearesocial (Simon, 2020) thì lượng người

dùng trong nhóm tuổi từ 13 đến 24 tuôi chỉ chiếm 35,6% tổng số người dùng mạng

xã hội tại Việt Nam Các doanh nghiệp hiện nay dù lớn hay nhỏ cũng đã bắt kịp xu

hướng va tận dụng các nên tang này đê tiép thi và buôn bán sản pham.

Hình 1.2 Biêu đồ cơ câu người dùng mạng xã hội theo độ tuôi và giới

tính tại Việt Nam (Simon, 2020)

Thời nay khi ai đó cảm thấy bức xúc với chính sách chăm sóc khách hàng củamột đơn vị, các trang mạng chính là nơi đầu tiên họ nghĩ đến dé giải quyết nỗi bực

tức này Ngay cả khi không có sự hỗ trợ của công nghệ thì những trải nghiệm không

tốt của người dùng về dịch vụ họ nhận được cũng có thé gây nên hậu quả khó đoántrước Khi cảm thấy bản thân bị thiếu tôn trọng, bị phớt lờ, hay bị đối xử một cáchhời hợt từ phía các nhân viên, chúng ta thường muốn ngay lập tức kê về chúng chonhững người quen trong vòng quan hệ của mình Và khi ai đó chia sẻ về “một thứ

dịch vụ chăm sóc khách hàng tệ hại” trên blog, hội nhóm hay trang cá nhân của

Trang 19

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

mình trên mạng xã hội, số lượng người có thể tiếp nhận được thông tin ấy có thé

tang theo cấp số nhân.

1.2.2 Khách hàng đang trở nên khó tính hơn

Những chia sẻ về trải nhiệm của một sản phẩm hay dịch vụ nào đó ngay cả khikhông có tính xác thực thì ít nhiều chúng vẫn sẽ có tác động đến người đọc, nhất làvới những khách hàng mới Và những ấn tượng ban đầu đó sẽ ảnh hưởng đến quyết

định mua hàng của họ, hay ảnh hưởng đến chính doanh số của công ty

Vì khách hàng ngày nay có xu hướng tin tưởng những chia sẻ về trải nghiệm

sử dụng hàng hóa dịch vụ từ người quen hay chỉ là những người mua hàng khác,

hơn là các lời quảng cáo và giới thiệu của công ty Ngoài ra, họ còn thường tìm hiểu

kỹ lưỡng về một sản phẩm hay dịch vụ trước khi đưa ra quyết định mua hàng, điều

này trở nên dé hơn nhiều nhờ có sự giúp đỡ của internet, người tiêu dùng có thé so

sánh các với các sản phâm khác về giá cả, tính năng, độ tin cậy, hiệu suất và nhiềuyếu tố khác nữa Theo một báo cáo của Klynveld Peat Marwick Goerdeler (KPMG)vào năm 2017 về các khách hàng mua hàng trực tuyến, trước khi ra quyết định mua

một món hàng nào đó, khoảng 55% người dùng đã tham khảo qua các bài đánh giá

trên mạng, 47% người dùng truy cập vào trang web của công ty, 26% đã tới trực

tiếp cửa hàng và 23% là hỏi qua ý kiến của bạn bè và người thân.

Hình 1.3 Các kênh tham khảo của người tiêu dùng trước khi ra quyết

Trang 20

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Tuy nhiên, nếu một bên cung cấp sản phẩm dịch vụ từ chối tạo một kênh trực

tuyến dé khách hàng nêu ý kiến của họ về sản phẩm, dịch vụ nói riêng và doanh

nghiệp nói chung, điều này sẽ khiến người tiêu dùng, đặc biệt là những khách hàngmới, cảm thấy e ngại khi đưa ra quyết định mua hàng Việc hạn chế những phản hồi

từ người dùng trên trang web của doanh nghiệp sẽ khiến họ nghi ngờ rằng doanhnghiệp đó đang giấu diễm một điều gì đó Những tổ chức này không thích nhữngbình luận, đánh giá hay xếp hạng có thể là vì sợ bị nhận lại quá nhiều nhận xét tiêucực Nhưng thực tế cho thấy rằng việc xuất hiện một vài phản hồi tiêu cực sẽ khiến

những lời đánh giá này trông có vẻ đáng tin hơn là chỉ toàn những lời khen Khi

nhận thấy điều này, các doanh nghiệp thương mại điện tử lớn điển hình làAmazon.com kéo theo nhiều doanh nghiệp khác đã bắt đầu đề xuất các bình luậnhữu ích nhất cả tiêu cực và tích cực, để người mua hàng có thé dé dang đưa ra quyết

định hơn.

1.2.3 Khách hàng kỳ vọng nhiều hơn vào chất lượng dịch vụ

Kỳ vọng của khách hàng đối với chất lượng dịch vụ đã tăng cao hơn trước vàtăng liên tục trong những năm gần đây Theo một báo cáo của Accenture vào năm

2017 — dựa theo kết quả khảo sát trên internet với 24.877 khách hang tại 33 quốcgia — chỉ ra rằng khoảng một phần ba số khách hàng cho biết trong những năm gầnday ho ky vọng nhiều hơn đối với các mảng dịch vụ và hỗ trợ, và nó còn cao hơntại các thị trường mới nổi Và xu hướng tăng của kỳ vọng từ khách hàng van không

hề có xu hướng chậm lại Bài báo cáo cũng chỉ ra rằng, trong năm 2017 khoảng 61%

người tiêu dùng trên toàn thé giới — 78% tại các thị trường mới nồi — đã quyết định đổi nhà cung cấp tại ít nhất một ngành công nghiệp chỉ vì chất lượng dịch vụ kém,

tăng 2% so với nghiên cứu của tô chức vào 10 năm trước.

Trang 21

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

FIGURE 2 CHANGES IN CUSTOMER SERVICE EXPECTATIONS (2007 - 2017)

E mác /dighlly ower MD shg 9y higher

© the same @ mụch higher

Bate: All Reeponcenta (rezdayy)

Hình 1.4 Thay đổi trong kỳ vọng của khách hang doi với chất lượng

dich vu.(Accenture Strategy, 2017)

Có nhiều ly do để giải thích cho sự tăng trưởng kỳ vọng ở mức toàn cau này.

Khi những doanh nghiệp có dịch vụ hàng đầu bắt đầu mở rộng quy mô tới các thị

trường mới nổi và thị trường thương mại trực tuyến đang không ngừng phát triển,

người tiêu dùng ở các nước đang phát triển cũng dần được tiếp cận với các dịch vụ

chất lượng cao hơn trước Khi một khách hàng sử dụng dịch vụ của các công ty dịch

vụ toàn cầu như Amazon.com, Netflix hay Spotify thì du người đó có ở Brazil, An

Độ hay Việt Nam thì gần như đều nhận được dịch vụ chăm sóc khách hàng có chất

lượng tương đương.

Thời đại bây giờ không dễ gì có thé giải quyết được những lỗi lầm liên quanđến dịch vụ kém chất lượng Khi một nhân viên xúc phạm khách hàng, hoặc đối xửvới họ băng một thái độ hời hợt hay phân biệt đối xử thì khả năng cao hành động

này sẽ được khách hàng đưa lên mạng một cách sinh động nhất có thé Và khi một

bài đăng như thế này nhận được đủ sự chú ý trên các trang mạng xã hội như Youtube

Trang 22

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Nỗi lo có thực về sự lan truyền của những bài đánh giá tiêu cực về trải nghiệm

dịch vụ khiến các doanh nghiệp trở nên trung thực hơn, và nỗ lực hơn trong cải thiện

chat lượng dịch vụ nhằm giảm thiêu các bài đánh giá tiêu cực được công khai rộngrãi Điều này lại khiến khách hàng kỳ vọng nhiều hơn ở họ và các doanh nghiệpkhác, tại vì chất lượng dịch vụ đang không ngừng được cải thiện

1.2.4 Khách hàng đòi hỏi được đáp ứng nhanh nhất có thể

Kỳ vọng của người tiêu dùng hiện nay cũng bị ảnh hưởng không nhỏ bởi ấntượng của họ về Internet như một phương tiện kết nối gần như tức thời Bat cứ khinào ai đó đăng một bài viết lên Facebook hay gửi một lá thư điện tử thể hiện sự giận

dữ tới một công ty thì dù câu chuyện được ké đúng hay sai, người đó đều mongnhận được phản hồi ngay lập tức Điều này đã trở thành điều hiển nhiên trên khônggian mạng, khiến tốc độ phản hồi thắc mắc trở nên ngày càng quan trọng trong đánhgiá của khách hàng về chất lượng dịch vụ

FIGURE 3 REASONS FOR INCREASED CUSTOMER EXPECTATIONS

| expect customer service and 66%

support to be faster 78%

| expect customer service and support 68%

to be easier/more convenient to obtain 70%

| expect the company to communicate 49%

and respond to me via my preferred 55%

Trang 23

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

nhân lớn nhất cho sự tăng trưởng kỳ vọng của người tiêu dùng trong năm 2017 Khingười tiêu dùng nhìn thấy sự tương đồng của giá cả, chất lượng sản phẩm và sự đadạng sản phẩm giữa các nhà cung cấp, thì hiệu suất của đội ngũ hỗ trợ khách hàng

va giao hàng sé tạo nên sự khác biệt.

Người tiêu dùng sẽ luôn có sự đánh giá và so sánh chất lượng dịch vụ giữa cácnhà cung cấp khác nhau Khách hàng sẽ trung thành hơn với những doanh nghiệp

có thể cung cấp những dịch vụ nhanh chóng hơn, bên cạnh các sản phẩm chất lượngvới giá cả cạnh tranh Ngày nay, trong thời đại kết nối toàn cầu thời gian cũng có

thé được coi là một loại hàng hóa có giá trị đối với người tiêu dùng Cho du đó có

là một cặp vợ chồng luôn bận rộn với công việc và con cái, một thanh niên độc thânlàm việc suốt 70 giờ một tuần, hay một người đã về hưu đang cô gắng gác lại côngviệc kinh doanh bận rộn để có thể có thêm thời gian thư giãn bên gia đình và bạn

bè, tất cả đều không ngừng mong muốn moi thứ trở nên thuận tiện hơn, dé dang

hơn, và nhanh chóng hơn.

1.3 Sự cần thiết của việc ứng dụng kỹ thuật NLP và phân lớp cảm xúc trong phântích phản hồi khách hàng

Hiện nay, với một lượng lớn dữ liệu được tạo ra mỗi ngày, từ các thư điện tử,

phiếu khảo sát, đoạn giao tiếp trên mạng xã hội đến các bài báo, tài liệu không dễ

dé có thé tiếp cận và giải quyết chúng một cách kịp thời và hiệu quả chỉ với nguồnlực con người Trong khi đó người tiêu dùng đang ngày càng đòi hỏi cao hơn đốivới các dịch vụ mà mình nhận được, do đó việc ứng dụng các công nghệ mới, điểnhình là trí tuệ nhân tạo (AI) là một điều tất yếu đối với các doanh nghiệp lớn

Việc ứng dụng bài toán phân lớp cảm xúc sẽ giúp doanh nghiệp nhanh chóng

hiểu được ý kiến của khách hàng nói chung Bằng cách phân loại một cách tự động

các ý kiên của người tiêu dùng từ các bài đánh giá, cuộc hội thoại trên mạng xã

Trang 24

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

hội các nhà cung cấp có thé tổ chức các chiến dich hay có những thay đổi nhanh

hơn và chính xác hơn.

Các lợi ích mà NLP và phân tích cảm xúc có thể mang lại bao gồm

© Xử lý dữ liệu với quy mô lón: Không dé gì dé một người một cách thủ

công có thé sắp xếp chính xác hàng nghìn tweet, cuộc đối thoại chămsóc khách hàng hay phiếu khảo sát Lượng dữ liệu này quá lớn để cóthê xử lý được chúng một cách thủ công Do đó phân tích cảm xúc sẽgiúp doanh nghiệp xử lý được lượng dữ liệu không lồ đó một cách hiệuquả và tiết kiệm chỉ phí

e Phân tích thời gian thực: Nhờ việc có thể phân tích được một lượng

lớn dữ liệu trong một khoảng thời gian ngắn, phân tích cảm xúc có thénhanh chóng xác định được các vấn đề quan trọng, ví dụ như một cuộckhủng hoảng truyền thông trên mạng xã hội đang trở nên cao trào haymột khách hàng tức giận có thể sẽ quay lưng với sản phẩm Việc nhanh

chóng xác định được những vấn đề nghiêm trọng này sẽ giúp doanh

nghiệp đưa ra được những quyết định và giải pháp kịp thời

© Giải quyết vấn dé một cách nhất quán: Việc phân loại cảm xúc văn bản

một cách thủ công sẽ mang tính chủ quan cao, rat dé bị ảnh hưởng bởi

kinh nghiệm, suy nghĩ và niềm tin cá nhân Bằng cách ứng dụng hệthống phân tích cảm xúc, các doanh nghiệp có thé áp dụng những tiêuchí giống nhau cho toàn bộ bộ dữ liệu, giúp cải thiện độ chính xác,

khách quan và có được những thông tin hữu ích hơn.

Trang 25

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

CHƯƠNG II BÀI TOÁN PHÂN LỚP CẢM XÚC TRONG VĂN BẢN

VÀ THUẬT TOÁN DEEP LEARNING

2.1 Tống quan về bài toán xử lý ngôn ngữ tự nhiên và phân tích cảm xúc trong

văn bản

2.1.1 Tổng quan về xử lý ngôn ngữ tự nhiên (NLP)

2.1.1.1 Khái niệm

“Xu lý ngôn ngữ tự nhiên (NLP) được coi là một nhánh của khoa học máy tính

hay cụ thé hon, là một nhánh của trí tuệ nhân tao (artificial intelligent — Al) nghiên

cứu kha năng đọc hiệu và nghe hiệu của máy tính theo cách cua con người” (IBM,

2020)

Các loại ngôn ngữ dưới dạng tự nhiên thường hỗn loạn và thiếu quy luật nênmáy tính không thé dé dàng đọc được Do đó quá trình NLP bao gồm việc kết hợpcác ngôn ngữ tính toán (mô hình dựa trên các quy tắc cơ bản của ngôn ngữ) cùng

với các mô hình thông kê, học máy và học sâu, từ đó máy tính có thê xử lý và hiêu

được ngôn ngữ của con người dưới dạng văn bản hay giọng nói.

Natural Language Processing receives message and fetches eppropriate response.

DATA STORE Interaction history,

the end user.

ACTIONS The ability to send

emails, restart crashed

servers, order new parts

Trang 26

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Hình 2.1 Minh họa quá trình xử lý ngôn ngữ tự nhiên (pramodAIML,

2020)

2.1.1.2 Các kỹ thuật xử lý ngôn ngữ tự nhiên

Nhiệm vụ của quá trình xử lý ngôn ngữ tự nhiên bao gồm các quá trình phântích cú pháp và ngữ nghĩa nhằm chia ngôn ngữ của con người thành các “khối” để

có thể đọc được bằng máy Xử lý ngôn ngữ tự nhiên gồm hai nhiệm vụ chính phân

tích cú pháp và phân tích ngữ nghĩa, trong đó phân tích ngữ nghĩa khó khăn hơn cả

do ngôn ngữ thường mang nhiều nghĩa Sau đây là một số nhiệm vụ chính của cả

phân tích ngữ pháp và phân tích ngữ nghĩa:

Mã hóa: Mã hóa là một nhiệm vụ thiết yêu của quá trình xử lý ngôn ngữ tựnhiên nhằm chia các chuỗi từ thành các đơn vị hữu ích về mặt ngữ nghĩa được gọi

là các token Token hóa câu sẽ chia tách các câu trong văn bản, còn token hóa từ sẽ

chia tách các từ trong câu, dựa vào việc các từ được chia tách với nhau băng cácdấu cách và các câu được chia cắt bởi đấu châm câu Tất nhiên quá trình mã hóanày có thể được thực hiện ở cấp độ cao hơn cho các cấu trúc phức tạp hơn, chănghạn như đối với các từ ghép trong tiếng Việt

Tokenize on Let | | 's | | tokenize || ! | |s | | n't || this | easy | ?

rules |

Tokenize on Let | | s | tokenize || ! | lsn | : | t | this || easy | ?

punctuation

Tokenize an Let's | tokenize! | Isn't | | this easy?

white spaces In} L B š L J

Let's tokenize! Isn't this easy?

Hình 2.2 Minh hoa quá trình mã hóa tw (Horan, 2020)

Xác định từ loại: Xác định từ loại là quá trình đánh dấu các từ trong một vănbản theo các danh mục từ loại tương ứng Các từ loại bao gồm danh từ, động từ,tính từ, giới từ, từ nối Việc xác định được từ loại của từng thành phan trong câu

Trang 27

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

sẽ giúp xác định được mối quan hệ giữa các từ qua đó có thé xác định được nghĩa

phù hợp của chúng.

Phân tích quan hệ giữa các tir: Quá trình này xác định cách các từ được két

nôi với nhau băng cách phân tích môi tương quan giữa các “head word” và các từ

khác trong câu từ đó xác định được câu trúc ngữ pháp của một câu.

Analyzing text is ady that herd

Hình 2.3 Sơ đô phân tích quan hệ giữa các từ (MonkeyLearn)

Phân tích cú pháp theo cau trúc: Quá trình này giúp xác định câu trúc ngữ

pháp của cả câu băng cách xác định câu trúc ngữ pháp theo các cụm từ Câu trúc

bao gôm các nút tượng chưng cho các từ cùng các môi tương quan giữa các từ với

nhau.

Trang 28

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Chuan hóa từ có hai phương pháp stemming và lemmatization Trongstemming, từ gốc sẽ được gọi là một stem, các từ có cùng gốc sẽ được chuyên vềmột stem Ví dụ như trong tiếng Anh các từ “consult”, “consultant”, “consulting”,

va “consultants” sẽ đều được chuyển thành “consult”, sau quá trình stemming, điềunày có thé làm các từ mat đi tính chính xác về mặt ngữ nghĩa Trong khi đó, quátrình lemmatization được dựa trên từ điển, và các từ xuất hiện trong từ điển sẽ đượccoi là từ gốc gọi là một lemma Trong tiếng Anh quá trình lemmatization sẽ chuyển

Trang 29

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

“better” (tốt hơn) về thành “good” (tốt), những stemming thì không Do đólemmatization thường được khuyên dùng do tính chính xác cao hơn về mặt ngôn

ngữ.

text

foxt Stemming

0 went run yesterday ũ went run yesterday

1 love running outside summer 1 love run outside summer

text Lemmatization text

ũ went run yesterday ũ go run yesterday

+ love running outside summer 1 love run outside summer

Hình 2.5 Quá trình stemming và lemmatization từ trong tiếng Anh

(Fang, 2020)

Loại bỏ các từ dừng (stopword): Đây là một bước quan trọng trong quá trình

xử lý văn bản bang NLP, nham loại bỏ các từ có tần suất cao, không có hoặc có ítgiá trị về mặt ngữ nghĩa trong câu ví dụ như “nào”, “tại”, “cho”, “Ấy” Các nhàphân tích cũng có thé tự xây dụng một danh sách các từ dừng riêng cho các bộ ditliệu Quá trình này giúp giảm đáng ké kích thước đầu vào của dữ liệu bằng cách chỉ

giữ lại những từ thật sự quan trọng.

Trang 30

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TỐN KINH TẾ

# Remove stop words words = [w for w in words if w not in stopwords.words("english") ]

print(words)

['the', ‘first’, time’, wew, 'see’, +he', ‘second’,

‘renaissance’, 4#, ‘may’, look’, ‘boring’, ‘look’, ae,

%, at, least’, ‘twice’, ane, ‘definitely’, ‘watch’,

‘part’, '2', Ye, ‘wit, ‘change’, “yee’, ‘view’, ‘ef, ‘ere!

‘matrix’, ‘are, *he!, ‘human’, ‘people’, ‘he, 'ones',

“wre, ‘started’, the, 'war', , ‘ai’, @, ‘bad’, 'thing']

[first', ‘time’, ‘see’, ‘second’, 'renaissance', 'may',

‘look’, 'boring', ‘look’, ‘least’, 'twice', 'definitely',

—> ‘watch’, part, '2, ‘change’, View', 'matrix’,

‘human’, 'people', ‘ones’, 'started', 'war', 'ạ', ‘bad’,

'thing]

Hình 2.6 Quá trình loại bỏ từ dừng trong NLP (Ftech AI Blog, 2019)

Stop words take up a larger part of the text in longer fairy tales

Each vertical trio of points represents an H.C Andersen fairy tale

a oO

Number of words in fairy tale

Hình 2.7 Phân phối lượng từ dừng so với các từ duoc sử dung với tansuất cao khác trong truyện cổ tích của H.C Andersen (Hvifeldt & Silge, 2021)

2.1.2 Tống quan về bài tốn phân tích cảm xúc và phân lớp cảm xúc

2.1.2.1 Khái niệm và phân loại bài tốn phân tích cảm xúc

Trang 31

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

“Phân tích cảm xúc, hay còn gọi là khai phá ý kiến (opinion mining), là một lĩnh

vực chuyên nghiên cứu và phân tích ý kiến, tình cảm, đánh giá, thai độ và cảm xúc của văn bản đối với các thực thể và các thuộc tính của chúng Các thực thể này có thể là hàng hóa, dịch vụ, tổ chức, cá nhân, sự kiện, van dé hay chu dé.” (Liu B ,

Hình 2.8 Các cấp độ của bài toán phân tích cảm xúc

(Pozzi, Fersini, Messina, & Liu, 2017)

1 Cấp độ thông điệp (Message level) hay còn gọi la phân lớp cảm xúc O cap

độ này nhiệm vụ của bài toán là phân loại thông điệp chung của cả văn bản thể hiệntính tích cực hay tiêu cực Ví dụ như, đối với một bài đánh giá về sản phẩm, hệthống sẽ xác định xem bài đánh giá này nhận xét tích cực hay tiêu cực về sản phẩmnói chung Ở mức độ này hệ thống mặc định rằng mỗi văn bản đều thé hiện cảm xúc

về môt thực thể (như sản phẩm, dịch vụ ) Do đó, nó không thê áp dụng được chocác bài đánh giá chỉ tiết hay so sánh giữa các thực thể với nhau

2 Cap độ câu (sentence level) Nhiệm vụ ở cấp độ tiếp theo là xác định xem

Trang 32

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

độ phân tích này có liên quan chặt chẽ với phân loại khách quan (thé hiện thông tinthực tế) và chủ quan (thé hiện quan điểm và ý kiến chủ quan) Tuy nhiên chủ quankhông có nghĩa là không thé hiện cảm xúc, vì nhiều câu chủ quan cũng có thể cóngụ ý về tình cảm hoặc ý kiến, ví vụ như “Chiếc xe mới mua được một tháng đãhong cần gạt nước” Ngược lại, nhiều câu chủ quan lại không thê hiện bat kỳ ý kiếnhay cảm xúc nào như “Tôi nghĩ hôm qua anh ấy đã không đi ra ngoài”

3 Cấp độ khía cạnh Cả hai cấp độ trước đều không thé xác định được chínhxác mọi người thích hay không thích điều gì Nói cách khác, hai cấp độ trên khôngthể chỉ ra được, mỗi ý kiến đề cập đến vấn đề gì, hay mục tiêu của vấn đề Ở cấp độnay, thay vì xem xét các đơn vi ngôn ngữ (tài liệu, đoạn văn, câu, mệnh đề hay cụmtừ), phân tích ở cấp độ khía cạnh trực tiếp xem xét ý kiến và các mục tiêu của nó từ

đó cho phép chúng ta hiéu rõ hơn về các vân dé.

Phân lớp cảm xúc được coi là nhiệm vụ đơn giản nhất trong bài toán phân tíchcảm xúc vì nó phân loại văn bản truyền thống bằng cách định hướng và phân loạitheo các lớp Do đó bất kỳ một thuật toán học có giám sát nào cũng có thể sử dụngđược trong bài toán này Dự vào sự đơn giản trong khái niệm và những tương đồng

với phân loại văn bản, phân lớp cảm xúc đã đóng vai trò là nhiệm vụ cơ bản của

một số hướng nghiên cứu được điều chỉnh từ phân loại văn bản nói chung như bài

toán phân tích cảm xúc đa ngôn ngữ (Wehrmann, Becker, & Barros, 2018) (Balahur

& M.Perea-Ortega, 2015).

2.1.2.2 Ứng dụng của bài toán phân tích cảm xúc

Việc ứng dụng phân tích cảm xúc sẽ giúp doanh nghiệp trích xuât được những

thông tin chủ quan của người việt từ đó có cái nhìn rõ hơn vê cảm xúc của người

tiêu dùng đôi với thương hiệu, sản phâm hay dịch vụ của mình Sau đây là một sô

lĩnh vực có thé ứng dung bài toán phân tích này

Trang 33

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

e Giám sát phương tiện truyén thông xã hội (Social Media Monitoring SMM) Các phương tiện truyền thông xã hội là mỏ vàng với lượng lớn dữ liệu

-người tiêu dùng từ những ý kiến đến các câu chuyện Các thuật toán phân tíchcảm xúc sẽ giúp phân tích bộ dữ liệu không 16 này, vốn không dé dàng gì dé

có thê xử lý được chỉ với nguồn lực con người Từ đó các doanh nghiệp có thé

xác định được cảm xúc của người tiêu dùng đối với thương hiệu, sản phẩm,

dịch vụ hay các chiến dịch quảng cáo của mình (Kauffmann, et al., 2019) Và

không chỉ ứng dụng trong lĩnh vực kinh doanh, bai toán này cũng có thé được

áp dụng trong các nghiên cứu về các lĩnh vực xã hội như kinh tế (Das & Chen,

2007), chính trị (O’Connor, 2010).

© Phân tích nhân sự Nghiên cứu đã chỉ ra rằng một trong những nguyên nhânquan trọng nhất dẫn tới quyết định thôi việc của nhân viên chính là do họ cảmthay mình không được trao đủ cơ hội dé phát triển và thăng tiến trong công

việc (Lee, et al., 2016) Báo cáo của (GALLUP, 2017) đã chỉ ra rằng 85% nhân

viên thường không chuyên tâm trong công việc, do đó bộ phận nhân sự cầnthực sự hiểu được nhân viên của họ đang nghĩ gì và cảm thấy như thế nào Và

việc ứng dụng phân tích cảm xúc sẽ giúp doanh nghiệp phân tích được ý nghĩa

thực sự sau những phát ngôn của nhân viên (Marritt, 2020 ) (Costa & Veloso,

Jeong, 2013), hay xác định được những khách hàng đang có nguy cơ quay lưng

với doanh nghiệp (Wang, Satake, Onishi, & Masuichi, 2018) từ đó có thé giải

Trang 34

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

2.2 Một số phương pháp thường dùng trong bài toán phân lớp cảm xúc

Bên cạnh việc sử dụng những kỹ thuật xử lý ngôn ngữ tự nhiên dé phân tích ýnghĩa và cú pháp của văn bản, thuật toán phân lớp cũng có thé được sử dụng dé giúpmáy tính hiểu được các lớp cảm xúc như tức giận, căng thăng, hạnh phúc hay thất

vọng Sau đây là ba phương pháp mà bài toán phân lớp cảm xúc thường sử dụng.

2.2.1 Phân lớp dựa trên hệ thống quy tắc (Rule-based system)

Dé giải quyết bài toán theo cách tiếp cận này các nhà phân tích cần nhập một

hệ thống các quy tắc được thiết lập cho mỗi lớp, và hệ thông quy tắc này thườngđược xử lý theo cách thủ công Đối với bài toán phân lớp cảm xúc, hệ thống quy tắcnày được gọi là lexicon, bao gồm một danh sách các từ mang nghĩa tích cực (nhưtốt, đẹp, hữu ích, thú vi ) và danh sách các từ mang nghĩa tiêu cực (như tệ, xấu,

khó chịu, gây thất vọng )

Khi được tiếp nhận một văn bản hệ thong sẽ thực hiện nhiệm vu đếm các từtích cực và tiêu cực xuất hiện trong văn bản đó, từ đó kết luận được lớp cảm xúctương ứng Những câu chứa nhiều từ mang ý tích cực hơn sẽ được phân vào lớp tíchcực Điều này dẫn tới một số hạn chế của phương pháp này, mô hình sẽ không thể

nhận diện được các từ không thuộc lexicon hay xác định được ý của từ dựa theo ngữ

cảnh khiến việc xác định các câu đa nghĩa, châm biếm hay mia mai trở nên khókhăn Ngoài ra hệ thống cũng gặp vấn đề đối với các trường hợp có số lượng từ tíchcực và tiêu cực băng nhau (Sharma & Aakanksha, 2014)

Tat nhiên có thé cải thiện hệ thống bang cách áp dụng thêm những kỹ thuậtphân tích phức tạp hơn, hay cập nhật hệ thống quy tắc với những từ vựng thê hiệncảm xúc mới Và việc thêm vào các quy tắc mới cũng có thể gây ảnh hưởng tới cáckết quả có được trước đó Vì hệ thống này cần thường xuyên được cập nhật và bảo

trì nên cân được đâu tư rât nhiêu.

2.2.2 Phân lớp bằng các thuật toán tự động

Trang 35

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Trái ngược với hệ thống dựa trên quy tắc, phương pháp này không cần đến

những quy tắc được thiết lập bởi con người mà dựa trên các thuật toán học máy Hệ

thống sẽ tự tìm ra các khuôn mẫu và quy tắc riêng của các lớp qua quá trình luyện

tập và dựa vào đó đê xử lý các văn bản sau này.

Quá trình luyện tập và đưa ra dự đoản

tính của chúng thành các vector, và các cặp vector và thẻ sẽ được đưa vào thuật toán

dé tao dung một mô hình hoàn chỉnh

Trong quá trình dự đoán (b), các đặc tính đã được trích xuất sẽ được sử dụng

Trang 36

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

này sẽ được đưa vào mô hình dé dự đoán kết quả (thẻ) là các lớp cảm xúc tương

ứng.

Quá trình trích xuất đặc tính từ văn bản

Bước đầu tiên trong hệ thống phân lớp văn bản chính là quá trình phân tíchvăn bản sau khi đã được vector hóa, và hai phương pháp thường được dùng nhấtcho quá trình này chính là phân tích tần xuất của các gói từ (bag of words) hoặc cácgói N-gram! Ngoài ra quá trình này có thể được thực hiện dựa trên WordEmbedding (hệ thong các vector từ), các từ có nghĩa tương tự nhau sẽ được biểudiễn gần giống nhau trong không gian vector, điều này sẽ giúp kết quả của quá trình

phân lớp được chính xác hơn.

Một số thuật toán phân lớp thường được sử dung

e Naive Bayes bao gom một họ các thuật toán phân loại theo xác suất dựa

vào Định lý Bayes để đưa ra các dự đoán cho văn bản Điều này cónghĩa là đối với một tài liệu đ, sau khi tính toán các xác suất dé đ có thérơi vào một trong số tat cả các lớp c € C là P(c|đ), mô hình phân lớp

cho nó vào lớp ê có xác suất cao nhất (Jurafsky & Martin, 2020)

So với các thuật toán khác thi Naive Bayes là một thuật toán kha đơn

giản, điều này giúp nó học và kiểm tra nhanh hơn các thuật toán phứctạp Và tất nhiên cũng không kiến nó trở nên kém chính xác hơn các

thuật toán khác, theo như một nghiên cứu so sánh khả năng phân tích

! n-gram : là một chuỗi n phần tử ký tự (từ) xuất hiện trong một mẫu văn bản

hay lời nói cho trước Ví dụ như “phân tích” là một 2-gram, “phân tích cảm xúc” là

một 4-gram (Srinidhi, 2019)

Trang 37

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

của một số thuật toán phân lớp (Bayhaqy, Sfenrianto, Nainggolan, &

@dventure scenes are fun 2

It manages to be whimsical 1 and romantic while laughing 1

al lhe conventions of the 1 fairy tale genre | would 1

recommend it to just about 1

anyone I've seen il several satirical 1

times, and I'm always happy adventure 1

1o see It again whenever | genre 1 have a friend who hasn't fairy 1 seen it yet! humor 1

have 1 greal 1

Hình 2.10 Phân tích của thuật toán Multinomial Naive Bayes cho một

bình luận về phim Vị trí của các từ trong gói từ sẽ không được xét đến, thay

vào đó là mô hình sẽ xử lý với tan suất của từ (Jurafsky & Martin, 2020)

e Support Vector Machine (SVM) là một trong số những thuật toán phổ

biến nhất trong số các thuật toán học có giám sát Công thức tổng quát

của mô hình này là một hàm tuyến tính, khá giống với hồi quy tuyến

tính Và kết quả của mô hình trả về không phải là một con số thể hiệnxác suất như hồi quy logistic, mà thay vào đó là dự đoán về phân lớpcủa đầu vào (văn bản) SVM sẽ dự đoán văn ban mang ý tích cực nếukết quả của hàm tuyến tính dương, và ngược lại Điều đáng chú ý là, ditliệu sẽ phải trải qua một phép biến đổi (phương pháp kernel) giúp các

Trang 38

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

tính, để có thể đưa được vào mô hình (Goodfellow, Bengio, &

Courville, 2016).

Support vectors (class -1) ⁄

® @

Hyperplane =.

Support vectors (class 1)

Hình 2.11 Minh họa các quan sát thành hai lớp bằng một đường thang

(TechVidvan)

Hình 2.12 Các quan sat được mô phỏng đưới dang 3D và được chia

thành hai lớp bằng một mặt phẳng (Bambrick & AYLIEN, 2017)

Trang 39

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Trong trường hợp phức tap hơn, khi không thé chia được ở dang 2d, dữliệu có thé được đưa về dạng 3 chiều và được chia thành 2 lớp bang mộtmặt phăng Số chiều có thể tiếp tục tăng thêm cho đến khi mô hình tìm

được một siêu phang phù hợp cho quá trình phân lớp.

e Học sâu (Deep Learning) được coi là một nhánh của học máy (Machine

Learning) thuộc trí tuệ nhân tao (Artificial Intelligent — AI), và được

phát triển dựa trên quá trình tư duy của chính con người Các mô hìnhhọc máy sẽ liên tục phân tích dữ liệu với một cau trúc logic nhat dinh

dé có thé đưa ra được kết luận tương tự như con người Đề làm được

điều này, thuật toán của học sâu bao gồm một cấu trúc gồm các lớp thuật toán được gọi là mạng nơ ron Các lớp riêng lẻ của cấu trúc mạng nơ-ron có thé được coi là một bộ lọc thực hiện các phân tích từ dễ đến

khó giúp tăng khả năng phát hiện và đưa ra các kết quả chính xác

Phương thức hoạt động của học máy cũng tương tự như quá trình tư

duy của con người, khi hệ thống tiếp nhận được những thông tin mới,

nó sẽ có gắng so sánh những thông tin ay với những gi đã biết dé hiểu

hơn về chúng Một số thuật toán học sâu phổ biến thường được sử dụng

trong bài toán phân lớp như Simple Neural Network, Convolutional

Neural Network (Severyn & Moschitti, 2015), Long Short Term

Memory (J., A., & R., 2017)

Trang 40

TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN

KHOA TOÁN KINH TẾ

Ngoài ra còn rat nhiều thuật toán phân lớp tự động khác có thé ứng dụng trong

bài toán phân lớp cảm xúc như Decision Tree (Suresh & Bharathi, 2016), K-nearest

neighbor (Bayhaqy, Sfenrianto, Nainggolan, & Kaburuan, 2018), Random Forest

(Liu, Wu, & Pan, 2018)

2.3 Deep learning trong bai toán phân lớp

2.3.1 Deep Feedforward Network

Một mạng no-ron với nhiều hơn hai layer còn được gọi là multilayer neural network,

deep feedforward network hoặc feedforward neural network Từ feedforward được

hiểu là dữ liệu đi thang từ đầu vào tới đầu ra theo các mũi tên mà không quay lại ở điểm nào Mô hình này được xây dựng bang cách kết hợp nhiều hàm khác nhau va

nó có thể được thé hiện bằng băng một đồ thị gồm các điểm nút và mũi tên thể hiện

Ngày đăng: 04/11/2024, 00:10

w