TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂNKHOA TOÁN KINH TẾ TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN CHUYEN DE THỰC TAP CHUYEN NGANH TOAN TAI CHINH Dé tai: Phân tích phan hồi bang xử ly ngôn ngữ tự nhiên và
Trang 1TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
CHUYEN DE THỰC TAP
CHUYEN NGANH TOAN TAI CHINH
Dé tai:
Phân tích phan hồi bang xử ly ngôn ngữ tự nhiên và ứng
dụng thuật toán Deep Learning trong phân lớp cảm xúc.
Họ và tên sinh viên — : Nguyễn Thanh HuyềnMSV : 11172204
Lop chuyén nganh : Toán tài chính 59Giảng viên hướng dẫn : GS.TS Nguyễn Quang Dong
Trang 2TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
MỤC LỤC
DANH MỤC HÌNH ẢNH << 9E 99 1999 90 992 3 secsezxe 5LOI CAM 095 9
8098/0670 10
1 Dat na 10
P03 0ì: 1340) 2:0 00007 11
3 Đối tượng va phạm vi nghiên Cứu - ¿2 2 £+S£+EE+EE+EE+EE£EEEEeEEEErEerrerrerreee 1
4 Phương pháp nghiÊn CU ce eeceeseesceeseeseeeseeseeeseesececeesececeeseceneeaeseeeaeceeeeaeeeeeaeens 12
5 Kết cấu chuyên đề -¿- 2: + sex xe E2E2112112112112112111111 1111.11.1111 1x E1 xe 12
CHUONG I TAM QUAN TRONG CUA VIỆC TIẾP NHAN PHAN HOI TỪ
$6 ca 13
1.1 Tống quan về phản hồi khách hàng và phân tích phản hồi khách hang 13
1.1.1 Định nghĩa về phản hồi khách hàng -2- 2: 5£ 5£ £2££+££2£++£vzxerxeei 13
1.1.2 Các phương tiện thu thập phản hồi từ khách hàng - 2-5252: 13
1.2 Đặc điểm của khách hàng hiện nay 2-2-2 ©SSE+E££E2EE2EE2EE2EEEEEEEErrkerxerg 17
1.2.1 Sự phát triển không ngừng của các phương tiện truyền thông 17
1.2.2 Khách hàng dang trở nên khó tính hơn 5555 + ++*£++£+s+seeeeeeseresrs 19
1.2.3 Khách hàng kỳ vọng nhiều hơn vào chất lượng dịch vụ -«- 201.2.4 Khách hàng đòi hỏi được đáp ứng nhanh nhất có thé 2-5-5: 22
1.3 Sự cần thiết của việc ứng dụng kỹ thuật NLP và phân lớp cảm xúc trong phân tíchphản hồi khách hàng ¿2-2 +£++££EE£SEE£EEESEEEEEE2E1711211711271211712211 71.21 E1 23
CHUONG II BÀI TOÁN PHAN LỚP CẢM XÚC TRONG VĂN BẢN VÀ THUẬT
TOÁN DEEP LEARNING . s<s<Ss©EseeEEseEEvaeeEvaeErraeerxsetrkseersseorsseoree 25
Trang 3TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
2.1 Tổng quan về bài toán xử lý ngôn ngữ tự nhiên và phân tích cảm xúc trong văn bản
¬— 25
2.1.1 Tổng quan về xử lý ngôn ngữ tự nhiên (NLP) -2- 52 52+s22££+£+£zs+ 252.1.2 Tổng quan về bài toán phân tích cảm xúc và phân lớp cảm xúc 302.2 Một số phương pháp thường dùng trong bài toán phân lớp cảm xúc 34
2.2.1 Phân lớp dựa trên hệ thống quy tắc (Rule-based system) - - 342.2.2 Phân lớp bằng các thuật toán tự động - + 2 + x+£xe£kezEerkzrrrerrxrrs 34
2.3 Deep learning trong bài toán phân ÏỚp - - - 5 + + xk*+kE+sEEEseekesersreeeee 40
2.3.1 Deep Feedforward Network HH HH HH hư, 40
2.3.2 Convolutional Neural NetWOTKS - óc 2à vn ng ng nếp 42
2.3.3 Long Short Term MemOYVy - - - << +1 E181 1 E910 1 ng ngư 44
CHUONG III PHAN TÍCH PHAN HOI BANG QUA TRÌNH XỬ LÝ NGÔN NGỮ
TU NHIEN VA UNG DUNG THUAT TOAN DEEP LEARNING TRONG PHAN LỚP CẢM XUC.ussssssssssssssssssssssssssesssssssssesssssssssecssssssnseesssssssnscssssssssscsssssssnsesssssssssessesessnee 48
3.1 Dữ liệu và các biến số sử dụng -¿- 2 +©2++2E+EE£EEEEEEEEEEEEEEEE1121111 E2 crxe 483.2 Phân tích dữ liệu bằng NLP 2-52 +2++2EEtEE+SEEtEEEEEErEExerkrrrrerkrerrerrree 52
3.2.1 Quá trình tiền xử lý văn bản oe ecceecesseseessessessessessessessessessessesesseseseeseesen 523.1.3 Phân tích bộ dữ liệu sau quá trình tiền xử lý - ¿2 2+z+z+s+zxzzszex 583.2 Ung dung Deep Learning trong phân tích phản hỒi 2 2 2 s2 s+s2 5522 68
3.2.1 Chia dữ liệu và mã hóa tỪ L1 912 21v ng HH ng ng rh 69
3.2.2 Mô hình mạng nơ-ron GON g1ả1 5 5+ + + E*E+EESeeeeEreeseerrersrrree 71
3.2.3 Convolutional Neural Network (CNN) Ăn SSss ng cey 74
3.2.3 Long Short Term Memory (LSTM) - -. St *+ 1S Hs ng re 76
Trang 4TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
cố .Ả ố.ố 863.5 Hạn chế và mở rộng nghiên CỨU 2-2 2 + EE+EE+EE+EE+EE£EEEEEEEEEZEEEEE2Exrrkerree 86DANH MỤC TÀI LIEU THAM KHAO - se s<©se£se+ss£++eEseevseeseevseesserseese 88
1:0050920 77 94
Trang 5TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
DANH MỤC HÌNH ANH
Tên hình Trang
Hình 1.1 Các trang người tiêu dùng thường dé lại phản hồi (tính theo tỷ lệ | 14
phần trăm)
Hình 1.2 | Biéu đồ cơ cấu người dùng mạng xã hội theo độ tuôi và giới tính | 16
tại Việt Nam
Hình 1.3 Các kênh tham khảo của người tiêu dùng trước khi ra quyết định | 17
mua sam trực tuyến.
Hình 1.4 Thay đổi trong kỳ vọng của khách hàng đôi với chất lượng dịch vụ | 19
Hình 1.5 3 khía cạnh khách hàng kỳ vọng cải thiện nhất trong năm 2017 20
Hình 2.I | Minh họa quá trình xử lý ngôn ngữ tự nhiên 23
Hình 2.2 | Minh họa quá trình mã hóa từ 24
Hình 2.3 Sơ đồ phân tích quan hệ giữa các từ 25
Hình 2.4 Sơ đồ phân tích ngữ pháp theo cấu trúc trong tiếng Anh 26
Hình 2.5 | Quá trình stemming và lemmatization từ trong tiếng Anh 27
Hình 2.6 Quá trình loại bỏ từ dừng trong NLP 28
Hình 2.7 | Phân phối lượng từ dừng so với các từ được sử dụng với tần suất 28
cao khác trong truyện cô tích của H.C Andersen
Hình 2.8 Các cấp độ của bài toán phân tích cảm xúc 29
Hình 2.9 | Quá trình luyện tập và đưa ra dự đoán của hệ thống phân lớp tự | 33
động.
Hình 2.10 | Phân tích của thuật toán Multinomial Naive Bayes cho một bình | 35
luận về phim
Hình 2.11 | Minh họa các quan sát thành hai lớp bằng một đường thăng 36
Hình 2.12 | Các quan sát được mô phỏng dưới dạng 3D và được chia thành hai | 36
lớp bằng một mặt phẳng
Trang 6TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Hình 2.13 | So sánh quá trình xử lý văn bản bằng học máy (Machine Learning) 38
và học sâu (Deep Learning).
Hình 3.1 Mô tả 5 quan sát đầu tiên của bộ đữ liệu 40
Hình 3.2 | Phân phối lượng bình luận tích cực và tiêu cực trong bộ dữ liệu 40
Hình 3.3 Đồ thị so sánh phân phối số lượng từ giữa bình luận tiêu cực và | 41
Hình 3.6 | Wordcloud 200 từ phố biến nhất trong bộ dữ liệu 42
Hình 3.7 | Quá trình tiền xử ly đữ liệu trong bài toán xử lý ngôn ngữ tự nhiên | 44Hình 3.8 | Đồ thị phân phối sô lượng từ của các bình luận trước quá trình tiền | 46
xử lý.
Hình 3.9 | Đồ thị phân phối s6 lượng từ của các bình luận sau quá trình tiền | 46
xử lý.
Hình 3.10 | Các giá trị phân phối số lượng từ của các bình luận trong bộ dữ liệu 47
trước và sau quá trình tiền xử lý
Hình 3.11 Thống kê 20 từ được sử dụng nhiêu nhất trong bộ dữ liệu sau quá | 48
trình tiền xử lý
Hình 3.12 | Wordcloud 200 từ phô biến nhất trong bộ dữ liệu sau quá trình tiền | 48
xử lý.
Hình 3.13 | So sánh phân phối SỐ lượng từ giữa bình luận tiêu cực và tích cực | 49
Hình 3.14 Thống kê mô tả số lượng từ giữa bình luận tiêu cực và tích cực | 50
(trước và sau tiền xử lý)
Hình 3.15 Thống kê 20 từ phố biến nhất trong các bình luận tích cực và tiêu 50
cực.
Trang 7TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TE
Hình 3.16 | Wordcloud 200 từ được sử dung nhiều nhất trong các bình luận | 51
Hình 3.25 | Đồ thị so sánh độ chính xác và độ mat mát của quá trình luyện tập | 65
và thực hành của mô hình mạng nơ-ron đơn giản.
Hình 3.26 | Minh họa mô hình CNN 66
Hình 3.27 | Đồ thị so sánh độ chính xác và độ mat mát của quá trình luyện tập | 67
và thực hành của mô hình CNN.
Hình 3.28 | Minh hoa quá trình huấn luyện của mô hình LSTM 68
Hình 3.29 | Đồ thị so sánh độ chính xác và độ mat mát của quá trình luyện tập | 70
và thực hành của mô hình LSTM.
Hình 3.30 | Minh họa cau trúc của confusion matrix 71
Hình 3.31 | Duong cong ROC của 3 mô hình 72 Hình 3.32 | Bang so sánh thời gian hoàn thành luyện tập, độ chính xác và AUC | 72
của 3 mô hình.
Hình 3.33 | Biểu đồ phân phối điểm số của 3 mô hình no-ron đơn giản, CNN | 73
Trang 8TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Hình 3.34 | Confusion matrix tính theo tỷ lệ của 3 mô hình nơ-ron đơn giản, | 74
Hình 3.37 | Wordcloud 200 từ được sử dụng nhiều nhất trong các bình luận | 77
được dự đoán là tích cực và tiêu cực.
Trang 9TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Tôi chân thành cảm ơn đến các thầy cô khoa Toán ứng dụng trong kinh tế vì
những kiến thức bổ ích tôi được học cả về chuyên môn cùng với kinh nghiệm cuộc sống Những kiến thức này là tiền đề quan trọng để giúp tôi hoàn thành chuyên đề
`
này.
Trang 10TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
lý Việc phân tích những phản hồi này của khách hàng, doanh nghiệp một cách hiệuquả sẽ giúp các nhà cung cấp có cái nhìn rõ ràng hơn về những khía cạnh mà kháchhàng cảm thấy hài lòng hay khó chịu về sản phẩm của mình Tuy nhiên, khác vớiđánh giá trong những phiếu khảo sát khách hàng, dữ liệu về những phản hồi nàythường có khối lượng lớn và đa dạng về phương thức diễn đạt (âm thanh, hình ảnh,văn ban ), do đó rất khó dé xử lý chúng bằng những phương pháp tiếp cận truyềnthống Điều này dẫn đến nhu cầu về một công cụ mới dé giúp các nhà phân tích xử
lý lượng dữ liệu này một cách tối ưu nhất, kỹ thuật khai phá văn ban (Text mining)
Trong khai phá văn bản, kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language
Processing - NLP) đã được ứng dụng rất nhiều trong các lĩnh vực kinh doanh, từviệc phân tích các bài đăng trên các nền tảng mạng xã hội tới những phản hồi trựctiếp hay phiếu yêu cầu hỗ trợ Kỹ thuật sẽ giúp phân tích cảm xúc ấn dưới những
câu từ trong văn bản, và xác định nó mang ý tiêu cực, tích cực hay trung tính Ví dụ
trong lĩnh vực chăm sóc khách hàng, kỹ thuật này có thé được ứng dụng dé nhanhchóng xác định được những khách hàng đang tức giận và ưu tiên giải quyết vấn đềcủa họ trước Hiện nay, việc triển khai các quy trình khai thác, dự án nghiên cứu,phân tích dự liệu khách hàng với mục đích tìm hiểu, nắm bắt mong muốn, nhu cầuthầm kín của khách hàng, và nó chuyền thành những giá trị cụ thể thông qua từngchiến lược, kế hoạch hoạt động chính là chìa khóa cạnh tranh của mỗi tô chức Vì
Trang 11TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
vậy, mục tiêu của chuyên đề này chính là sử dụng NLP và các mô hình phân lớpcảm xúc dé phân tích cảm tình và thái độ của khách hàng đối với một sản phẩm,dịch vụ qua những lời phản hồi để các nhà cung cấp đưa ra được những chính sách
chăm sóc khách hàng phù hợp Chuyên đề này sẽ nghiên cứu: “Phân tích phản hồi
băng xử lý ngôn ngữ tự nhiên và ứng dụng thuật toán Deep Learning trong phân lớp
cảm xúc.”
2 Mục tiêu nghiên cứu
Đề tài nghiên cứu về việc phân tích phản hồi bằng xử lý ngôn ngữ tự nhiên vàứng dụng thuật toán Deep Learning trong phân lớp cảm xúc Đề thực hiện được mụctiêu này, cần trả lời được một số câu hỏi:
- Phản hồi khách hàng là gì và tạo sao phải phân tích phản hồi khách hàng
- Phân tích phản hồi như thế nào? Làm thế nào để trích xuất các thông tin từ
văn bản.
- Dùng phương pháp nào dé phân lớp cảm xúc và phân lớp như thé nao
- Sau khi phân tích thì có kết luận gì về khả năng ứng dụng các kỹ thuật nàytrong thực tế
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu cảu chuyên đề này là việc phân tích phản hồi bằng xử
lý ngôn ngữ tự nhiên và ứng dụng thuật toán Deep Learning trong phân lớp cảm
XÚC.
Dữ liệu: Phản hồi của người xem về các bộ phim nổi tiếng
Nguồn: bộ dữ liệu được lay bằng cách “cào” các phản hồi của người dùng vềcác bộ phim nổi tiếng trên trang Internet Movie Database (IMDb) và từng được sửdụng trong bài báo cáo Nghiên cứu về vector từ vựng trong bài toán phân tích cảm
Trang 12TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
xúc (Learning Word Vector for Sentiment Analysis (Maas, Daly, Pham, & Dan
Huang, 2011)).
4 Phuong pháp nghiên cứu
Đề tài sử dụng kỹ thuật NLP đề phân tích văn bản và ứng dụng thuật toán DeepLearning trong phân lớp cảm xúc từ đó xác định được phản ứng của khách hàng đốivới sản phâm mà họ đã sử dụng
5 Kết cấu chuyên đề
Chuyên đề gồm 3 chương:
Chương I Tầm quan trong của việc tiếp nhận phản hồi từ khách hàng
Chương II Bài toán phân lớp cảm xúc trong văn bản và các thuật toán Deep
Learning.
Chương III Phân tích phản hồi bằng xử lý ngôn ngữ tự nhiên va ứng dụng
thuật toán Deep Learning trong phân lớp cam xúc.
Trang 13TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
CHUONG I TAM QUAN TRONG CUA VIỆC TIẾP NHAN PHAN
HOI TU KHACH HANG
Tổng quan về phản hồi khách hàng và phân tích phản hồi khách hang
So với những người tiền nhiệm của mình thì đội ngũ chăm sóc khách hàng hiện nayđang phải đối mặt với một thách thức khó khăn hơn rất nhiều Một thị trường khôngngừng phát triển, những kỳ vọng luôn thay đổi, cùng những người tiêu dùng đang
tìm kiếm một món hàng vừa rẻ vừa chất lượng mà dịch vụ đi kèm cũng phải tốt
không kém đã làm việc xác định và đáp ứng các nhu cầu từ khách hàng trở nênkhông hề dễ dàng
Người tiêu dùng ngày nay khác trước rất nhiều, họ đa nghi hơn, đòi hỏi khắtkhe hon, có nhiều lựa chon hơn, và hơn hết họ có nhiều cách dé cho các nha cungcấp biết họ nghĩ gì về sản phẩm hay dịch vụ mà mình sử dụng Điều này khiến bàitoán chăm sóc khách hàng càng trở nên khó khăn hơn đồng thời quan trọng hơn baogiờ hết
1.1.1 Định nghĩa về phản hồi khách hàng
Phản hồi khách hàng là những thông tin liên lạc bằng lời nói hoặc văn bản của
khách hàng thể hiện cảm nhận của họ về thương hiệu, sản phẩm hay dịch vụ của
doanh nghiệp Chúng là tài sản vô giá đối với doanh nghiệp thuộc mọi quy mô vàloại hình Dựa theo các ý kiến từ khách hang, các công ty phần mềm có thé dé sửa
các lỗi hệ thống hay thay đổi và thêm các tinh năng mới, các công ty bán lẻ có thé
kiêm tra các khâu trung chuyền và lưu kho, các nhà hàng có thé có những thông báohay thay đổi đối với thực đơn và quy trình phục vu
1.1.2 Các phương tiện thu thập phản hồi từ khách hàng
Trang 14TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Có nhiều cách dé thu thập những phản hồi từ khách hàng, nhưng các nhà cungcấp không thê lấy được những thông tin đó nếu không biết khách hàng của mình tậptrung ở đâu để bàn luận và nói về doanh nghiệp của mình Dưới đây là một số
phương pháp phổ biến nhất mà khách hàng ngày nay sử dụng để thể hiện cảm nhận
của họ về các tô chức cũng như hàng hóa và dịch vụ họ sử dụng.
1 Khảo sát khách hàng Băng cách trực tiếp, qua hòm thư điện tử, các trangweb hay qua điện thoại (hoặc kết hợp giữa các cách này), các bài khảo sát sẽ yêucầu khách hàng đưa ra đánh giá về mức độ hài lòng chung, hay mức độ thỏa mãn
của lần sử dụng sản phẩm gần đây nhất theo các khía cạnh cụ thể, và, có lẽ là câu
hỏi quan trọng nhất, liệu họ có sẵn sàng giới thiệu sản phẩm họ đang sử dụng với
bản bẻ va người quen Câu hỏi quan trọng này sẽ giúp các doanh nghiệp đánh giá
được liệu mình đã thành công trong việc tạo nên các nhà tiếp thị nhiệt huyết
2 Các đường dây nóng miễn phí Một hệ thông hỗ trợ khách hàng tốt hầu như
luôn có một đường dây nóng hoạt động thường xuyên, cùng những nhân viên
được đào tạo bài bản và tập trung vào việc giải quyết các vấn đề của khách hàngngay từ cuộc gọi đầu tiên Nhiều công ty lay khách hàng là đối tượng trung tâm
đã tạo ra các đường dây nóng riêng cho những loại hàng hóa và dịch vụ khác
nhau, hay những ngôn ngữ khác nhau Có thé lay vi vu nhu FedEx da str dung hé
thống phản hồi tương tác bằng giọng nói cho phép khách hàng nói chuyện với các nhân viên hỗ trợ bằng tiếng Anh hoặc tiếng Tây Ban Nha Khi khách hàng
gọi điện tới các đường dây nóng dé đưa ra những đề xuất, thắc mắc hay van décần giải quyết thì đó đều có thể cung cấp những thông tin quý giá giúp doanhnghiệp cải thiện hệ thống dịch vụ
3 Hom thư điện tử Nhiều khách hàng vẫn có thói quen sử dụng thư điện tử
như một phương tiện dé thé hiện sự hài lòng hoặc không hài lòng của mình vềtrải nghiệm dịch vụ hay chỉ là yêu cầu giải đáp những thắc mắc Đây là một hình
thức giao tiếp khá riêng tư, giúp các nhà cung cấp sản phẩm phản hồi và giải đáp
Trang 15TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
các vấn đề từ khách hàng trước khi họ công khai với công chúng trên các nền
tảng trực tuyến.
4 Trang web của công ty Việc quản lý các mối quan hệ và trải nghiệm kháchhàng tại chính trang web của công ty sẽ dễ dàng hơn nhiều so với việc kháchhàng dé lại các phản hồi ở những nơi khác Do đó, dé có thé hiểu hơn về lĩnh vựckinh doanh của mình, các doanh nghiệp nên tìm cách khuyến khích khách hàngđưa ra những đánh giá về sản phẩm và dịch vụ tại trang web của công ty Điềunày đòi hỏi một cá nhân hoặc đội ngũ chuyên trách đảm bảo rằng các truy vấn,
yêu cầu, thắc mắc, phàn nàn hay khen ngợi sẽ được phản hồi một cách kip thoi,
hiệu quả, nhiệt tình và thân thiện Hãy cho ho lý do dé quay lai và dé lại phanhồi, biến nó thành một hành động đôi bên cùng có lợi
5 Các trang chuyên đánh giá của một ngành cụ thé TripAdvisor, hay Digicams là hai trong vô số các trang web chuyên đánh giá các mặt hàng thuộc
Steves-về một ngành cụ thể Hàng ngàn người tiêu dùng có thể vào các trang này và délại đánh giá mà họ cảm thấy hữu ích với các người tiêu dùng khác về chất lượngsản phẩm dich vụ thuộc một ngành kinh doanh chính, ví dụ như đánh giá về chấtlượng khách sạn trên trang TripAdvisor Một số trang cho phép khách hàng được
tương tác với các doanh nghiệp, một số thì không Một số thì cho phép mọi người được tương tác với những người viết đánh giá, một số lại không Nhưng cho đù
như nao thì những trang này cũng đã giúp doanh nghiệp biết được khách hàngđang nói gì về san pham dịch vụ của minh từ đó đưa ra được phương án thay đổihoặc cải thiện tình hình Nếu như mười người thì chín người chê thời lượng pin
của chiếc máy ảnh đời mới nhất của một công ty này quá ngắn, thật chắng đáng
tiền nâng cấp, thì đây chính là một trong những điều mà công ty đó cần lưu ý
trong quá trình phát trién sản pham mới Mặt khác, đối với những đánh giá tiêucực hi hữu về một vấn đề, ví dụ như có khoảng 1% khách hàng đánh giá kháchsạn kia có nhân viên thô lỗ, thiếu thân thiện và chang giúp ích gì nhiều, thì cách
Trang 16TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
6 Các nên tảng mạng xã hội Theo thông kê trên trang Statista, trong suốt quý
IV của năm 2020, mỗi ngày có khoảng 1,85 tỷ tài khoản Facebook đang hoạt
động trên toàn cau, chiếm khoảng 66% số người dùng hang tháng, cao hơn nhiều
so với con số 372 triệu người dùng hăng ngày của quý I năm 2011 Trong tháng
1 năm 2021, xét theo số tài khoản còn đang hoạt động trên toàn cầu thì Facebookdẫn đầu (với 2,74 tỷ người dùng), theo sau là Youtube (2,291 tỷ người dùng),WhatsApp (2 tỷ người dùng) và nhiều cái tên phổ biến khác Với mức độ phổ
biến trên toàn cầu của các nền tảng mạng xã hội thì các doanh nghiệp muốn mở
rộng thị trường trong thời đại hiện nay không thé dé ban thân nam ngoài những
xã hội ảo này Ngày càng có nhiều nhà cung cấp sử dụng mạng xã hội như mộtcông cụ dé tìm kiếm và kết nối với khách hang của mình, thực hiện các chiến
dịch quảng cáo, và giới thiệu các sản phẩm mới.
Sites where consumers shared
Hình 1.1 Cac trang người tiêu dùng thường dé lại phản hồi (tính theo
tỷ lệ phan trăm) (Kruh, 2017)
Trang 17TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Các doanh nghiệp phải luôn luôn dé ý đến khách hàng đang nói gì về mình quanhững phương tiện này đề phòng nguy cơ danh tiếng bị tổn hại hoặc tệ hơn là bị đạp
đồ hình tượng mà không thé có bat kỳ hành động phản kháng nào Mọi người đều
có mong muốn được kết nỗi với những người có cùng sở thích hay nhu cầu mua
sắm, và có thé trong tương lai những mạng xã hội mới sẽ nồi lên cho phép ngườidùng kết nối và chia sẻ nhanh chóng, dễ dàng hơn bây giờ Trong tương lai đó, đùkhách hàng tập trung ở đâu thì doanh nghiệp phải luôn ở đó, lắng nghe, quan sát vàđưa ra những giải pháp phù hợp cho các van đề Tương tác là cách tốt nhất dé xâydựng một hình tượng tốt, luôn đứng dưới góc nhìn của khách hàng và tìm kiếm
những khách hàng trung thành.
1.2 Đặc điểm của khách hàng hiện nay
1.2.1 Sự phát triển không ngừng của các phương tiện truyền thông
Khách hàng ngày nay không chỉ trao đổi thông tin với nhau qua những cú điệnthoại, những tin nhắn, hay trực tiếp hơn là qua những buôi gặp mặt thân thiết nhưngày xưa, khi những phương tiện truyền thông khác còn chưa phô biến và phát trién.Khách hàng của thời đại công nghệ số thường thích kê về trải nghiệm của mình trên
những trang mang xã hội như Twitter, Facebook va Instagram, hay các trang web
phổ biến chuyên dé đăng bình luận về những sản phẩm và dịch vụ thuộc cùng mộtdanh mục như Goodreads chuyên về sách, hay IMDB chuyên về phim ảnh Ngoài
ra họ cũng có thé dé lại những phản hồi của mình trên chính trang web của công tytại các trang thảo luận hay mục chuyên dé tiếp nhận ý kiến về sản phẩm Tuy không
thé có được một con số chính xác về số người dùng những công cụ này, nhưng có
thé nói rằng có đến cả tỷ người đã, đang và sẽ sử dụng chúng dé tiếng nói của mình
có sức ảnh hưởng lớn hơn.
Một thế hệ mới đang dần trưởng thành và tham gia vào thị trường thương mại,
Trang 18TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
dé thừa biết rang mình chang cần gọi tới số hotline mới được tiếp cận các chínhsách chăm sóc khách hàng Nhưng tắt nhiên là không chỉ giới trẻ mới sử dụng mạng
xã hội, theo báo cáo của Hootsuite và Wearesocial (Simon, 2020) thì lượng người
dùng trong nhóm tuổi từ 13 đến 24 tuôi chỉ chiếm 35,6% tổng số người dùng mạng
xã hội tại Việt Nam Các doanh nghiệp hiện nay dù lớn hay nhỏ cũng đã bắt kịp xu
hướng va tận dụng các nên tang này đê tiép thi và buôn bán sản pham.
Hình 1.2 Biêu đồ cơ câu người dùng mạng xã hội theo độ tuôi và giới
tính tại Việt Nam (Simon, 2020)
Thời nay khi ai đó cảm thấy bức xúc với chính sách chăm sóc khách hàng củamột đơn vị, các trang mạng chính là nơi đầu tiên họ nghĩ đến dé giải quyết nỗi bực
tức này Ngay cả khi không có sự hỗ trợ của công nghệ thì những trải nghiệm không
tốt của người dùng về dịch vụ họ nhận được cũng có thé gây nên hậu quả khó đoántrước Khi cảm thấy bản thân bị thiếu tôn trọng, bị phớt lờ, hay bị đối xử một cáchhời hợt từ phía các nhân viên, chúng ta thường muốn ngay lập tức kê về chúng chonhững người quen trong vòng quan hệ của mình Và khi ai đó chia sẻ về “một thứ
dịch vụ chăm sóc khách hàng tệ hại” trên blog, hội nhóm hay trang cá nhân của
Trang 19TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
mình trên mạng xã hội, số lượng người có thể tiếp nhận được thông tin ấy có thé
tang theo cấp số nhân.
1.2.2 Khách hàng đang trở nên khó tính hơn
Những chia sẻ về trải nhiệm của một sản phẩm hay dịch vụ nào đó ngay cả khikhông có tính xác thực thì ít nhiều chúng vẫn sẽ có tác động đến người đọc, nhất làvới những khách hàng mới Và những ấn tượng ban đầu đó sẽ ảnh hưởng đến quyết
định mua hàng của họ, hay ảnh hưởng đến chính doanh số của công ty
Vì khách hàng ngày nay có xu hướng tin tưởng những chia sẻ về trải nghiệm
sử dụng hàng hóa dịch vụ từ người quen hay chỉ là những người mua hàng khác,
hơn là các lời quảng cáo và giới thiệu của công ty Ngoài ra, họ còn thường tìm hiểu
kỹ lưỡng về một sản phẩm hay dịch vụ trước khi đưa ra quyết định mua hàng, điều
này trở nên dé hơn nhiều nhờ có sự giúp đỡ của internet, người tiêu dùng có thé so
sánh các với các sản phâm khác về giá cả, tính năng, độ tin cậy, hiệu suất và nhiềuyếu tố khác nữa Theo một báo cáo của Klynveld Peat Marwick Goerdeler (KPMG)vào năm 2017 về các khách hàng mua hàng trực tuyến, trước khi ra quyết định mua
một món hàng nào đó, khoảng 55% người dùng đã tham khảo qua các bài đánh giá
trên mạng, 47% người dùng truy cập vào trang web của công ty, 26% đã tới trực
tiếp cửa hàng và 23% là hỏi qua ý kiến của bạn bè và người thân.
Hình 1.3 Các kênh tham khảo của người tiêu dùng trước khi ra quyết
Trang 20TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Tuy nhiên, nếu một bên cung cấp sản phẩm dịch vụ từ chối tạo một kênh trực
tuyến dé khách hàng nêu ý kiến của họ về sản phẩm, dịch vụ nói riêng và doanh
nghiệp nói chung, điều này sẽ khiến người tiêu dùng, đặc biệt là những khách hàngmới, cảm thấy e ngại khi đưa ra quyết định mua hàng Việc hạn chế những phản hồi
từ người dùng trên trang web của doanh nghiệp sẽ khiến họ nghi ngờ rằng doanhnghiệp đó đang giấu diễm một điều gì đó Những tổ chức này không thích nhữngbình luận, đánh giá hay xếp hạng có thể là vì sợ bị nhận lại quá nhiều nhận xét tiêucực Nhưng thực tế cho thấy rằng việc xuất hiện một vài phản hồi tiêu cực sẽ khiến
những lời đánh giá này trông có vẻ đáng tin hơn là chỉ toàn những lời khen Khi
nhận thấy điều này, các doanh nghiệp thương mại điện tử lớn điển hình làAmazon.com kéo theo nhiều doanh nghiệp khác đã bắt đầu đề xuất các bình luậnhữu ích nhất cả tiêu cực và tích cực, để người mua hàng có thé dé dang đưa ra quyết
định hơn.
1.2.3 Khách hàng kỳ vọng nhiều hơn vào chất lượng dịch vụ
Kỳ vọng của khách hàng đối với chất lượng dịch vụ đã tăng cao hơn trước vàtăng liên tục trong những năm gần đây Theo một báo cáo của Accenture vào năm
2017 — dựa theo kết quả khảo sát trên internet với 24.877 khách hang tại 33 quốcgia — chỉ ra rằng khoảng một phần ba số khách hàng cho biết trong những năm gầnday ho ky vọng nhiều hơn đối với các mảng dịch vụ và hỗ trợ, và nó còn cao hơntại các thị trường mới nổi Và xu hướng tăng của kỳ vọng từ khách hàng van không
hề có xu hướng chậm lại Bài báo cáo cũng chỉ ra rằng, trong năm 2017 khoảng 61%
người tiêu dùng trên toàn thé giới — 78% tại các thị trường mới nồi — đã quyết định đổi nhà cung cấp tại ít nhất một ngành công nghiệp chỉ vì chất lượng dịch vụ kém,
tăng 2% so với nghiên cứu của tô chức vào 10 năm trước.
Trang 21TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
FIGURE 2 CHANGES IN CUSTOMER SERVICE EXPECTATIONS (2007 - 2017)
E mác /dighlly ower MD shg 9y higher
© the same @ mụch higher
Bate: All Reeponcenta (rezdayy)
Hình 1.4 Thay đổi trong kỳ vọng của khách hang doi với chất lượng
dich vu.(Accenture Strategy, 2017)
Có nhiều ly do để giải thích cho sự tăng trưởng kỳ vọng ở mức toàn cau này.
Khi những doanh nghiệp có dịch vụ hàng đầu bắt đầu mở rộng quy mô tới các thị
trường mới nổi và thị trường thương mại trực tuyến đang không ngừng phát triển,
người tiêu dùng ở các nước đang phát triển cũng dần được tiếp cận với các dịch vụ
chất lượng cao hơn trước Khi một khách hàng sử dụng dịch vụ của các công ty dịch
vụ toàn cầu như Amazon.com, Netflix hay Spotify thì du người đó có ở Brazil, An
Độ hay Việt Nam thì gần như đều nhận được dịch vụ chăm sóc khách hàng có chất
lượng tương đương.
Thời đại bây giờ không dễ gì có thé giải quyết được những lỗi lầm liên quanđến dịch vụ kém chất lượng Khi một nhân viên xúc phạm khách hàng, hoặc đối xửvới họ băng một thái độ hời hợt hay phân biệt đối xử thì khả năng cao hành động
này sẽ được khách hàng đưa lên mạng một cách sinh động nhất có thé Và khi một
bài đăng như thế này nhận được đủ sự chú ý trên các trang mạng xã hội như Youtube
Trang 22TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Nỗi lo có thực về sự lan truyền của những bài đánh giá tiêu cực về trải nghiệm
dịch vụ khiến các doanh nghiệp trở nên trung thực hơn, và nỗ lực hơn trong cải thiện
chat lượng dịch vụ nhằm giảm thiêu các bài đánh giá tiêu cực được công khai rộngrãi Điều này lại khiến khách hàng kỳ vọng nhiều hơn ở họ và các doanh nghiệpkhác, tại vì chất lượng dịch vụ đang không ngừng được cải thiện
1.2.4 Khách hàng đòi hỏi được đáp ứng nhanh nhất có thể
Kỳ vọng của người tiêu dùng hiện nay cũng bị ảnh hưởng không nhỏ bởi ấntượng của họ về Internet như một phương tiện kết nối gần như tức thời Bat cứ khinào ai đó đăng một bài viết lên Facebook hay gửi một lá thư điện tử thể hiện sự giận
dữ tới một công ty thì dù câu chuyện được ké đúng hay sai, người đó đều mongnhận được phản hồi ngay lập tức Điều này đã trở thành điều hiển nhiên trên khônggian mạng, khiến tốc độ phản hồi thắc mắc trở nên ngày càng quan trọng trong đánhgiá của khách hàng về chất lượng dịch vụ
FIGURE 3 REASONS FOR INCREASED CUSTOMER EXPECTATIONS
| expect customer service and 66%
support to be faster 78%
| expect customer service and support 68%
to be easier/more convenient to obtain 70%
| expect the company to communicate 49%
and respond to me via my preferred 55%
Trang 23TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
nhân lớn nhất cho sự tăng trưởng kỳ vọng của người tiêu dùng trong năm 2017 Khingười tiêu dùng nhìn thấy sự tương đồng của giá cả, chất lượng sản phẩm và sự đadạng sản phẩm giữa các nhà cung cấp, thì hiệu suất của đội ngũ hỗ trợ khách hàng
va giao hàng sé tạo nên sự khác biệt.
Người tiêu dùng sẽ luôn có sự đánh giá và so sánh chất lượng dịch vụ giữa cácnhà cung cấp khác nhau Khách hàng sẽ trung thành hơn với những doanh nghiệp
có thể cung cấp những dịch vụ nhanh chóng hơn, bên cạnh các sản phẩm chất lượngvới giá cả cạnh tranh Ngày nay, trong thời đại kết nối toàn cầu thời gian cũng có
thé được coi là một loại hàng hóa có giá trị đối với người tiêu dùng Cho du đó có
là một cặp vợ chồng luôn bận rộn với công việc và con cái, một thanh niên độc thânlàm việc suốt 70 giờ một tuần, hay một người đã về hưu đang cô gắng gác lại côngviệc kinh doanh bận rộn để có thể có thêm thời gian thư giãn bên gia đình và bạn
bè, tất cả đều không ngừng mong muốn moi thứ trở nên thuận tiện hơn, dé dang
hơn, và nhanh chóng hơn.
1.3 Sự cần thiết của việc ứng dụng kỹ thuật NLP và phân lớp cảm xúc trong phântích phản hồi khách hàng
Hiện nay, với một lượng lớn dữ liệu được tạo ra mỗi ngày, từ các thư điện tử,
phiếu khảo sát, đoạn giao tiếp trên mạng xã hội đến các bài báo, tài liệu không dễ
dé có thé tiếp cận và giải quyết chúng một cách kịp thời và hiệu quả chỉ với nguồnlực con người Trong khi đó người tiêu dùng đang ngày càng đòi hỏi cao hơn đốivới các dịch vụ mà mình nhận được, do đó việc ứng dụng các công nghệ mới, điểnhình là trí tuệ nhân tạo (AI) là một điều tất yếu đối với các doanh nghiệp lớn
Việc ứng dụng bài toán phân lớp cảm xúc sẽ giúp doanh nghiệp nhanh chóng
hiểu được ý kiến của khách hàng nói chung Bằng cách phân loại một cách tự động
các ý kiên của người tiêu dùng từ các bài đánh giá, cuộc hội thoại trên mạng xã
Trang 24TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
hội các nhà cung cấp có thé tổ chức các chiến dich hay có những thay đổi nhanh
hơn và chính xác hơn.
Các lợi ích mà NLP và phân tích cảm xúc có thể mang lại bao gồm
© Xử lý dữ liệu với quy mô lón: Không dé gì dé một người một cách thủ
công có thé sắp xếp chính xác hàng nghìn tweet, cuộc đối thoại chămsóc khách hàng hay phiếu khảo sát Lượng dữ liệu này quá lớn để cóthê xử lý được chúng một cách thủ công Do đó phân tích cảm xúc sẽgiúp doanh nghiệp xử lý được lượng dữ liệu không lồ đó một cách hiệuquả và tiết kiệm chỉ phí
e Phân tích thời gian thực: Nhờ việc có thể phân tích được một lượng
lớn dữ liệu trong một khoảng thời gian ngắn, phân tích cảm xúc có thénhanh chóng xác định được các vấn đề quan trọng, ví dụ như một cuộckhủng hoảng truyền thông trên mạng xã hội đang trở nên cao trào haymột khách hàng tức giận có thể sẽ quay lưng với sản phẩm Việc nhanh
chóng xác định được những vấn đề nghiêm trọng này sẽ giúp doanh
nghiệp đưa ra được những quyết định và giải pháp kịp thời
© Giải quyết vấn dé một cách nhất quán: Việc phân loại cảm xúc văn bản
một cách thủ công sẽ mang tính chủ quan cao, rat dé bị ảnh hưởng bởi
kinh nghiệm, suy nghĩ và niềm tin cá nhân Bằng cách ứng dụng hệthống phân tích cảm xúc, các doanh nghiệp có thé áp dụng những tiêuchí giống nhau cho toàn bộ bộ dữ liệu, giúp cải thiện độ chính xác,
khách quan và có được những thông tin hữu ích hơn.
Trang 25TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
CHƯƠNG II BÀI TOÁN PHÂN LỚP CẢM XÚC TRONG VĂN BẢN
VÀ THUẬT TOÁN DEEP LEARNING
2.1 Tống quan về bài toán xử lý ngôn ngữ tự nhiên và phân tích cảm xúc trong
văn bản
2.1.1 Tổng quan về xử lý ngôn ngữ tự nhiên (NLP)
2.1.1.1 Khái niệm
“Xu lý ngôn ngữ tự nhiên (NLP) được coi là một nhánh của khoa học máy tính
hay cụ thé hon, là một nhánh của trí tuệ nhân tao (artificial intelligent — Al) nghiên
cứu kha năng đọc hiệu và nghe hiệu của máy tính theo cách cua con người” (IBM,
2020)
Các loại ngôn ngữ dưới dạng tự nhiên thường hỗn loạn và thiếu quy luật nênmáy tính không thé dé dàng đọc được Do đó quá trình NLP bao gồm việc kết hợpcác ngôn ngữ tính toán (mô hình dựa trên các quy tắc cơ bản của ngôn ngữ) cùng
với các mô hình thông kê, học máy và học sâu, từ đó máy tính có thê xử lý và hiêu
được ngôn ngữ của con người dưới dạng văn bản hay giọng nói.
Natural Language Processing receives message and fetches eppropriate response.
DATA STORE Interaction history,
the end user.
ACTIONS The ability to send
emails, restart crashed
servers, order new parts
Trang 26TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Hình 2.1 Minh họa quá trình xử lý ngôn ngữ tự nhiên (pramodAIML,
2020)
2.1.1.2 Các kỹ thuật xử lý ngôn ngữ tự nhiên
Nhiệm vụ của quá trình xử lý ngôn ngữ tự nhiên bao gồm các quá trình phântích cú pháp và ngữ nghĩa nhằm chia ngôn ngữ của con người thành các “khối” để
có thể đọc được bằng máy Xử lý ngôn ngữ tự nhiên gồm hai nhiệm vụ chính phân
tích cú pháp và phân tích ngữ nghĩa, trong đó phân tích ngữ nghĩa khó khăn hơn cả
do ngôn ngữ thường mang nhiều nghĩa Sau đây là một số nhiệm vụ chính của cả
phân tích ngữ pháp và phân tích ngữ nghĩa:
Mã hóa: Mã hóa là một nhiệm vụ thiết yêu của quá trình xử lý ngôn ngữ tựnhiên nhằm chia các chuỗi từ thành các đơn vị hữu ích về mặt ngữ nghĩa được gọi
là các token Token hóa câu sẽ chia tách các câu trong văn bản, còn token hóa từ sẽ
chia tách các từ trong câu, dựa vào việc các từ được chia tách với nhau băng cácdấu cách và các câu được chia cắt bởi đấu châm câu Tất nhiên quá trình mã hóanày có thể được thực hiện ở cấp độ cao hơn cho các cấu trúc phức tạp hơn, chănghạn như đối với các từ ghép trong tiếng Việt
Tokenize on Let | | 's | | tokenize || ! | |s | | n't || this | easy | ?
rules |
Tokenize on Let | | s | tokenize || ! | lsn | : | t | this || easy | ?
punctuation
Tokenize an Let's | tokenize! | Isn't | | this easy?
white spaces In} L B š L J
Let's tokenize! Isn't this easy?
Hình 2.2 Minh hoa quá trình mã hóa tw (Horan, 2020)
Xác định từ loại: Xác định từ loại là quá trình đánh dấu các từ trong một vănbản theo các danh mục từ loại tương ứng Các từ loại bao gồm danh từ, động từ,tính từ, giới từ, từ nối Việc xác định được từ loại của từng thành phan trong câu
Trang 27TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
sẽ giúp xác định được mối quan hệ giữa các từ qua đó có thé xác định được nghĩa
phù hợp của chúng.
Phân tích quan hệ giữa các tir: Quá trình này xác định cách các từ được két
nôi với nhau băng cách phân tích môi tương quan giữa các “head word” và các từ
khác trong câu từ đó xác định được câu trúc ngữ pháp của một câu.
Analyzing text is ady that herd
Hình 2.3 Sơ đô phân tích quan hệ giữa các từ (MonkeyLearn)
Phân tích cú pháp theo cau trúc: Quá trình này giúp xác định câu trúc ngữ
pháp của cả câu băng cách xác định câu trúc ngữ pháp theo các cụm từ Câu trúc
bao gôm các nút tượng chưng cho các từ cùng các môi tương quan giữa các từ với
nhau.
Trang 28TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Chuan hóa từ có hai phương pháp stemming và lemmatization Trongstemming, từ gốc sẽ được gọi là một stem, các từ có cùng gốc sẽ được chuyên vềmột stem Ví dụ như trong tiếng Anh các từ “consult”, “consultant”, “consulting”,
va “consultants” sẽ đều được chuyển thành “consult”, sau quá trình stemming, điềunày có thé làm các từ mat đi tính chính xác về mặt ngữ nghĩa Trong khi đó, quátrình lemmatization được dựa trên từ điển, và các từ xuất hiện trong từ điển sẽ đượccoi là từ gốc gọi là một lemma Trong tiếng Anh quá trình lemmatization sẽ chuyển
Trang 29TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
“better” (tốt hơn) về thành “good” (tốt), những stemming thì không Do đólemmatization thường được khuyên dùng do tính chính xác cao hơn về mặt ngôn
ngữ.
text
foxt Stemming
0 went run yesterday ũ went run yesterday
1 love running outside summer 1 love run outside summer
text Lemmatization text
ũ went run yesterday ũ go run yesterday
+ love running outside summer 1 love run outside summer
Hình 2.5 Quá trình stemming và lemmatization từ trong tiếng Anh
(Fang, 2020)
Loại bỏ các từ dừng (stopword): Đây là một bước quan trọng trong quá trình
xử lý văn bản bang NLP, nham loại bỏ các từ có tần suất cao, không có hoặc có ítgiá trị về mặt ngữ nghĩa trong câu ví dụ như “nào”, “tại”, “cho”, “Ấy” Các nhàphân tích cũng có thé tự xây dụng một danh sách các từ dừng riêng cho các bộ ditliệu Quá trình này giúp giảm đáng ké kích thước đầu vào của dữ liệu bằng cách chỉ
giữ lại những từ thật sự quan trọng.
Trang 30TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TỐN KINH TẾ
# Remove stop words words = [w for w in words if w not in stopwords.words("english") ]
print(words)
['the', ‘first’, time’, wew, 'see’, +he', ‘second’,
‘renaissance’, 4#, ‘may’, look’, ‘boring’, ‘look’, ae,
%, at, least’, ‘twice’, ane, ‘definitely’, ‘watch’,
‘part’, '2', Ye, ‘wit, ‘change’, “yee’, ‘view’, ‘ef, ‘ere!
‘matrix’, ‘are, *he!, ‘human’, ‘people’, ‘he, 'ones',
“wre, ‘started’, the, 'war', , ‘ai’, @, ‘bad’, 'thing']
[first', ‘time’, ‘see’, ‘second’, 'renaissance', 'may',
‘look’, 'boring', ‘look’, ‘least’, 'twice', 'definitely',
—> ‘watch’, part, '2, ‘change’, View', 'matrix’,
‘human’, 'people', ‘ones’, 'started', 'war', 'ạ', ‘bad’,
'thing]
Hình 2.6 Quá trình loại bỏ từ dừng trong NLP (Ftech AI Blog, 2019)
Stop words take up a larger part of the text in longer fairy tales
Each vertical trio of points represents an H.C Andersen fairy tale
a oO
Number of words in fairy tale
Hình 2.7 Phân phối lượng từ dừng so với các từ duoc sử dung với tansuất cao khác trong truyện cổ tích của H.C Andersen (Hvifeldt & Silge, 2021)
2.1.2 Tống quan về bài tốn phân tích cảm xúc và phân lớp cảm xúc
2.1.2.1 Khái niệm và phân loại bài tốn phân tích cảm xúc
Trang 31TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
“Phân tích cảm xúc, hay còn gọi là khai phá ý kiến (opinion mining), là một lĩnh
vực chuyên nghiên cứu và phân tích ý kiến, tình cảm, đánh giá, thai độ và cảm xúc của văn bản đối với các thực thể và các thuộc tính của chúng Các thực thể này có thể là hàng hóa, dịch vụ, tổ chức, cá nhân, sự kiện, van dé hay chu dé.” (Liu B ,
Hình 2.8 Các cấp độ của bài toán phân tích cảm xúc
(Pozzi, Fersini, Messina, & Liu, 2017)
1 Cấp độ thông điệp (Message level) hay còn gọi la phân lớp cảm xúc O cap
độ này nhiệm vụ của bài toán là phân loại thông điệp chung của cả văn bản thể hiệntính tích cực hay tiêu cực Ví dụ như, đối với một bài đánh giá về sản phẩm, hệthống sẽ xác định xem bài đánh giá này nhận xét tích cực hay tiêu cực về sản phẩmnói chung Ở mức độ này hệ thống mặc định rằng mỗi văn bản đều thé hiện cảm xúc
về môt thực thể (như sản phẩm, dịch vụ ) Do đó, nó không thê áp dụng được chocác bài đánh giá chỉ tiết hay so sánh giữa các thực thể với nhau
2 Cap độ câu (sentence level) Nhiệm vụ ở cấp độ tiếp theo là xác định xem
Trang 32TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
độ phân tích này có liên quan chặt chẽ với phân loại khách quan (thé hiện thông tinthực tế) và chủ quan (thé hiện quan điểm và ý kiến chủ quan) Tuy nhiên chủ quankhông có nghĩa là không thé hiện cảm xúc, vì nhiều câu chủ quan cũng có thể cóngụ ý về tình cảm hoặc ý kiến, ví vụ như “Chiếc xe mới mua được một tháng đãhong cần gạt nước” Ngược lại, nhiều câu chủ quan lại không thê hiện bat kỳ ý kiếnhay cảm xúc nào như “Tôi nghĩ hôm qua anh ấy đã không đi ra ngoài”
3 Cấp độ khía cạnh Cả hai cấp độ trước đều không thé xác định được chínhxác mọi người thích hay không thích điều gì Nói cách khác, hai cấp độ trên khôngthể chỉ ra được, mỗi ý kiến đề cập đến vấn đề gì, hay mục tiêu của vấn đề Ở cấp độnay, thay vì xem xét các đơn vi ngôn ngữ (tài liệu, đoạn văn, câu, mệnh đề hay cụmtừ), phân tích ở cấp độ khía cạnh trực tiếp xem xét ý kiến và các mục tiêu của nó từ
đó cho phép chúng ta hiéu rõ hơn về các vân dé.
Phân lớp cảm xúc được coi là nhiệm vụ đơn giản nhất trong bài toán phân tíchcảm xúc vì nó phân loại văn bản truyền thống bằng cách định hướng và phân loạitheo các lớp Do đó bất kỳ một thuật toán học có giám sát nào cũng có thể sử dụngđược trong bài toán này Dự vào sự đơn giản trong khái niệm và những tương đồng
với phân loại văn bản, phân lớp cảm xúc đã đóng vai trò là nhiệm vụ cơ bản của
một số hướng nghiên cứu được điều chỉnh từ phân loại văn bản nói chung như bài
toán phân tích cảm xúc đa ngôn ngữ (Wehrmann, Becker, & Barros, 2018) (Balahur
& M.Perea-Ortega, 2015).
2.1.2.2 Ứng dụng của bài toán phân tích cảm xúc
Việc ứng dụng phân tích cảm xúc sẽ giúp doanh nghiệp trích xuât được những
thông tin chủ quan của người việt từ đó có cái nhìn rõ hơn vê cảm xúc của người
tiêu dùng đôi với thương hiệu, sản phâm hay dịch vụ của mình Sau đây là một sô
lĩnh vực có thé ứng dung bài toán phân tích này
Trang 33TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
e Giám sát phương tiện truyén thông xã hội (Social Media Monitoring SMM) Các phương tiện truyền thông xã hội là mỏ vàng với lượng lớn dữ liệu
-người tiêu dùng từ những ý kiến đến các câu chuyện Các thuật toán phân tíchcảm xúc sẽ giúp phân tích bộ dữ liệu không 16 này, vốn không dé dàng gì dé
có thê xử lý được chỉ với nguồn lực con người Từ đó các doanh nghiệp có thé
xác định được cảm xúc của người tiêu dùng đối với thương hiệu, sản phẩm,
dịch vụ hay các chiến dịch quảng cáo của mình (Kauffmann, et al., 2019) Và
không chỉ ứng dụng trong lĩnh vực kinh doanh, bai toán này cũng có thé được
áp dụng trong các nghiên cứu về các lĩnh vực xã hội như kinh tế (Das & Chen,
2007), chính trị (O’Connor, 2010).
© Phân tích nhân sự Nghiên cứu đã chỉ ra rằng một trong những nguyên nhânquan trọng nhất dẫn tới quyết định thôi việc của nhân viên chính là do họ cảmthay mình không được trao đủ cơ hội dé phát triển và thăng tiến trong công
việc (Lee, et al., 2016) Báo cáo của (GALLUP, 2017) đã chỉ ra rằng 85% nhân
viên thường không chuyên tâm trong công việc, do đó bộ phận nhân sự cầnthực sự hiểu được nhân viên của họ đang nghĩ gì và cảm thấy như thế nào Và
việc ứng dụng phân tích cảm xúc sẽ giúp doanh nghiệp phân tích được ý nghĩa
thực sự sau những phát ngôn của nhân viên (Marritt, 2020 ) (Costa & Veloso,
Jeong, 2013), hay xác định được những khách hàng đang có nguy cơ quay lưng
với doanh nghiệp (Wang, Satake, Onishi, & Masuichi, 2018) từ đó có thé giải
Trang 34TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
2.2 Một số phương pháp thường dùng trong bài toán phân lớp cảm xúc
Bên cạnh việc sử dụng những kỹ thuật xử lý ngôn ngữ tự nhiên dé phân tích ýnghĩa và cú pháp của văn bản, thuật toán phân lớp cũng có thé được sử dụng dé giúpmáy tính hiểu được các lớp cảm xúc như tức giận, căng thăng, hạnh phúc hay thất
vọng Sau đây là ba phương pháp mà bài toán phân lớp cảm xúc thường sử dụng.
2.2.1 Phân lớp dựa trên hệ thống quy tắc (Rule-based system)
Dé giải quyết bài toán theo cách tiếp cận này các nhà phân tích cần nhập một
hệ thống các quy tắc được thiết lập cho mỗi lớp, và hệ thông quy tắc này thườngđược xử lý theo cách thủ công Đối với bài toán phân lớp cảm xúc, hệ thống quy tắcnày được gọi là lexicon, bao gồm một danh sách các từ mang nghĩa tích cực (nhưtốt, đẹp, hữu ích, thú vi ) và danh sách các từ mang nghĩa tiêu cực (như tệ, xấu,
khó chịu, gây thất vọng )
Khi được tiếp nhận một văn bản hệ thong sẽ thực hiện nhiệm vu đếm các từtích cực và tiêu cực xuất hiện trong văn bản đó, từ đó kết luận được lớp cảm xúctương ứng Những câu chứa nhiều từ mang ý tích cực hơn sẽ được phân vào lớp tíchcực Điều này dẫn tới một số hạn chế của phương pháp này, mô hình sẽ không thể
nhận diện được các từ không thuộc lexicon hay xác định được ý của từ dựa theo ngữ
cảnh khiến việc xác định các câu đa nghĩa, châm biếm hay mia mai trở nên khókhăn Ngoài ra hệ thống cũng gặp vấn đề đối với các trường hợp có số lượng từ tíchcực và tiêu cực băng nhau (Sharma & Aakanksha, 2014)
Tat nhiên có thé cải thiện hệ thống bang cách áp dụng thêm những kỹ thuậtphân tích phức tạp hơn, hay cập nhật hệ thống quy tắc với những từ vựng thê hiệncảm xúc mới Và việc thêm vào các quy tắc mới cũng có thể gây ảnh hưởng tới cáckết quả có được trước đó Vì hệ thống này cần thường xuyên được cập nhật và bảo
trì nên cân được đâu tư rât nhiêu.
2.2.2 Phân lớp bằng các thuật toán tự động
Trang 35TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Trái ngược với hệ thống dựa trên quy tắc, phương pháp này không cần đến
những quy tắc được thiết lập bởi con người mà dựa trên các thuật toán học máy Hệ
thống sẽ tự tìm ra các khuôn mẫu và quy tắc riêng của các lớp qua quá trình luyện
tập và dựa vào đó đê xử lý các văn bản sau này.
Quá trình luyện tập và đưa ra dự đoản
tính của chúng thành các vector, và các cặp vector và thẻ sẽ được đưa vào thuật toán
dé tao dung một mô hình hoàn chỉnh
Trong quá trình dự đoán (b), các đặc tính đã được trích xuất sẽ được sử dụng
Trang 36TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
này sẽ được đưa vào mô hình dé dự đoán kết quả (thẻ) là các lớp cảm xúc tương
ứng.
Quá trình trích xuất đặc tính từ văn bản
Bước đầu tiên trong hệ thống phân lớp văn bản chính là quá trình phân tíchvăn bản sau khi đã được vector hóa, và hai phương pháp thường được dùng nhấtcho quá trình này chính là phân tích tần xuất của các gói từ (bag of words) hoặc cácgói N-gram! Ngoài ra quá trình này có thể được thực hiện dựa trên WordEmbedding (hệ thong các vector từ), các từ có nghĩa tương tự nhau sẽ được biểudiễn gần giống nhau trong không gian vector, điều này sẽ giúp kết quả của quá trình
phân lớp được chính xác hơn.
Một số thuật toán phân lớp thường được sử dung
e Naive Bayes bao gom một họ các thuật toán phân loại theo xác suất dựa
vào Định lý Bayes để đưa ra các dự đoán cho văn bản Điều này cónghĩa là đối với một tài liệu đ, sau khi tính toán các xác suất dé đ có thérơi vào một trong số tat cả các lớp c € C là P(c|đ), mô hình phân lớp
cho nó vào lớp ê có xác suất cao nhất (Jurafsky & Martin, 2020)
So với các thuật toán khác thi Naive Bayes là một thuật toán kha đơn
giản, điều này giúp nó học và kiểm tra nhanh hơn các thuật toán phứctạp Và tất nhiên cũng không kiến nó trở nên kém chính xác hơn các
thuật toán khác, theo như một nghiên cứu so sánh khả năng phân tích
! n-gram : là một chuỗi n phần tử ký tự (từ) xuất hiện trong một mẫu văn bản
hay lời nói cho trước Ví dụ như “phân tích” là một 2-gram, “phân tích cảm xúc” là
một 4-gram (Srinidhi, 2019)
Trang 37TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
của một số thuật toán phân lớp (Bayhaqy, Sfenrianto, Nainggolan, &
@dventure scenes are fun 2
It manages to be whimsical 1 and romantic while laughing 1
al lhe conventions of the 1 fairy tale genre | would 1
recommend it to just about 1
anyone I've seen il several satirical 1
times, and I'm always happy adventure 1
1o see It again whenever | genre 1 have a friend who hasn't fairy 1 seen it yet! humor 1
have 1 greal 1
Hình 2.10 Phân tích của thuật toán Multinomial Naive Bayes cho một
bình luận về phim Vị trí của các từ trong gói từ sẽ không được xét đến, thay
vào đó là mô hình sẽ xử lý với tan suất của từ (Jurafsky & Martin, 2020)
e Support Vector Machine (SVM) là một trong số những thuật toán phổ
biến nhất trong số các thuật toán học có giám sát Công thức tổng quát
của mô hình này là một hàm tuyến tính, khá giống với hồi quy tuyến
tính Và kết quả của mô hình trả về không phải là một con số thể hiệnxác suất như hồi quy logistic, mà thay vào đó là dự đoán về phân lớpcủa đầu vào (văn bản) SVM sẽ dự đoán văn ban mang ý tích cực nếukết quả của hàm tuyến tính dương, và ngược lại Điều đáng chú ý là, ditliệu sẽ phải trải qua một phép biến đổi (phương pháp kernel) giúp các
Trang 38TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
tính, để có thể đưa được vào mô hình (Goodfellow, Bengio, &
Courville, 2016).
Support vectors (class -1) ⁄
® @
Hyperplane =.
Support vectors (class 1)
Hình 2.11 Minh họa các quan sát thành hai lớp bằng một đường thang
(TechVidvan)
Hình 2.12 Các quan sat được mô phỏng đưới dang 3D và được chia
thành hai lớp bằng một mặt phẳng (Bambrick & AYLIEN, 2017)
Trang 39TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Trong trường hợp phức tap hơn, khi không thé chia được ở dang 2d, dữliệu có thé được đưa về dạng 3 chiều và được chia thành 2 lớp bang mộtmặt phăng Số chiều có thể tiếp tục tăng thêm cho đến khi mô hình tìm
được một siêu phang phù hợp cho quá trình phân lớp.
e Học sâu (Deep Learning) được coi là một nhánh của học máy (Machine
Learning) thuộc trí tuệ nhân tao (Artificial Intelligent — AI), và được
phát triển dựa trên quá trình tư duy của chính con người Các mô hìnhhọc máy sẽ liên tục phân tích dữ liệu với một cau trúc logic nhat dinh
dé có thé đưa ra được kết luận tương tự như con người Đề làm được
điều này, thuật toán của học sâu bao gồm một cấu trúc gồm các lớp thuật toán được gọi là mạng nơ ron Các lớp riêng lẻ của cấu trúc mạng nơ-ron có thé được coi là một bộ lọc thực hiện các phân tích từ dễ đến
khó giúp tăng khả năng phát hiện và đưa ra các kết quả chính xác
Phương thức hoạt động của học máy cũng tương tự như quá trình tư
duy của con người, khi hệ thống tiếp nhận được những thông tin mới,
nó sẽ có gắng so sánh những thông tin ay với những gi đã biết dé hiểu
hơn về chúng Một số thuật toán học sâu phổ biến thường được sử dụng
trong bài toán phân lớp như Simple Neural Network, Convolutional
Neural Network (Severyn & Moschitti, 2015), Long Short Term
Memory (J., A., & R., 2017)
Trang 40TRƯỜNG ĐẠI HỌC KINH TE QUOC DÂN
KHOA TOÁN KINH TẾ
Ngoài ra còn rat nhiều thuật toán phân lớp tự động khác có thé ứng dụng trong
bài toán phân lớp cảm xúc như Decision Tree (Suresh & Bharathi, 2016), K-nearest
neighbor (Bayhaqy, Sfenrianto, Nainggolan, & Kaburuan, 2018), Random Forest
(Liu, Wu, & Pan, 2018)
2.3 Deep learning trong bai toán phân lớp
2.3.1 Deep Feedforward Network
Một mạng no-ron với nhiều hơn hai layer còn được gọi là multilayer neural network,
deep feedforward network hoặc feedforward neural network Từ feedforward được
hiểu là dữ liệu đi thang từ đầu vào tới đầu ra theo các mũi tên mà không quay lại ở điểm nào Mô hình này được xây dựng bang cách kết hợp nhiều hàm khác nhau va
nó có thể được thé hiện bằng băng một đồ thị gồm các điểm nút và mũi tên thể hiện