1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích cảm xúc khách hàng thông qua các Đánh giá sản phẩm và dịch vụ tài chính Ở mỹ và dự Đoán khả năng Đồng hành cùng họ

44 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích cảm xúc khách hàng thông qua các Đánh giá sản phẩm và dịch vụ tài chính Ở Mỹ và dự Đoán khả năng Đồng hành cùng họ
Tác giả Dinh Minh Duong, Khuong Thộ Duy
Người hướng dẫn TS. Đặng Nhõn Cỏch
Trường học ĐẠI HỌC UEH
Chuyên ngành DỮ LIỆU LỚN VÀ ỨNG DỤNG
Thể loại Báo cáo môn học
Định dạng
Số trang 44
Dung lượng 5,05 MB

Nội dung

Phân tích cảm xúc, một lĩnh vực quan trọng trong phân tích dữ liệu lớn, không chỉ giúp các doanh nghiệp nắm bắt được tâm tư, nguyện vọng của khách hàng mà còn dự đoán được xu hướng và hả

Trang 1

ĐẠI HỌC UEH TRUONG CONG NGHE VA THIET KE KHOA CONG NGHE THONG TIN KINH DOANH

DU LIEU LON VA UNG DUNG

Dé tai:

PHAN TICH CAM XUC KHACH HANG THONG QUA CAC DANH GIA SAN

PHAM VA DICH VU TAI CHINH O MY VA DU DOAN KHA NANG DONG

HANH CUNG HO

Nhóm thực hiện: Nhóm 6 GVHD: TS Đặng Nhân Cách

Trang 2

Chương 1: Tổng quan và giới thiệu

đề tài

1.1 Ly do chon dé tai

1.2 Giới thiệu về bộ dir liu

1.3 Khái quát các phương pháp, công

cụ, mô hinh và kĩ thuật được sử dụng

Chương 2: Cơ sở lý thuyết

2.1 Big Data 2.2 Cac thu vién duoc su dung Chuong 3: Quy trinh va Phuong pháp xử lý dữ liệu

3.1 Các bước xử ly dữ liệu 3.2 Đề xuất các mô hình triển khai

Chương 4: Triển khai và đánh giá

các ket quả 4.1 Triển khai các mô hình phân tích

Trang 3

MỤC LỤC

MUC LUC — 2

LOT CAM ON ố.ố.ốẽ.ẻẽ ẻẽ 7 I0 967008 ố.ẻ.ẽ ẽ 8 CHƯƠNG 1: TONG QUAN VE DE TAL 0 ccccscsssescecssssssecessneseeeesieseesnineeeeennsenens 9

co na ố.ố ẽ ẽ ẽ.ẻẽ ` 9

1.1.1 Tổng quan về bối cảnh để tài 52 1111 111111111111111 1111 1111211171111 xe 9

1.1.2 Mục đích của đề tài 222 2222112222112 1.1.1 9

1.2 Tông quan về bộ đữ liệu 5 5c S1 2 152121111211111111 1111 1101211011100 a 10

1.3 Khai quat về các công cụ và thư viện được dùng - ccc 2211222222222 10

CHƯƠNG 2: CƠ SỞ LÝ THUYỀẾT 2222: 2222111122211111222111112212111 21111 xi 11

2.4.2 Mô hình VADEE c1 12111112114 1111111111111111 1111111 11 1111 11011101101 de, 14

2.4.3 M6 hinh dy doan Logistic Regression cccccccccccccccstecctecsceesseeesseeesesstseeees 16 2.5 Các phương pháp đánh g1á 0 2C 0220112011110 11131 111111111 11111 1111111111111 12 x12 17 Phu» on 17 2.5.2 Recall 18

Trang 4

2.5.3 FrSCOLC o.oo lee AAAaAa 18 2.5.4 Ứng dụng và ý nghĩa của các chỉ sỐ : s St St S211 2111521711517121 E11 1e xe 19

CHƯƠNG 3: QUY TRÌNH VÀ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU - 20 3.1 Nhập đữ liệu 2-2222 2212211 1122212112111211221211211122121221221 212g 20 3.2 Tiến hành xử lý đữ liệu - 5 s1 S1111E1111E11E121121111E11112112111121111111111 1211 rre 21

3.3 Trực quan hóa dữ liệu - L2 22122012123 1123 1123131511151 1 1511111111111 1 11511111 re cay 29

4.1 Triển khai các mô hình phân tích cảm XÚC - S2 1 113 EEEEEEEEEEEEEEE1221212225E te 35

4.2 Đánh giá mô hỉnh 2: 222122012123 1123 1123111531151 1 111111111111 110111111181 11 key 37 4.3 Dự đoán lòng trung thành của khách hàng: 22 22222222122 221122112221222xx+2 38

5.2 Hướng phát triỂn ¿+ 2111111111111 1111 111121 1111 1121111211111 41

Trang 5

DANH MỤC HÌNH ẢNH

Hinh I Minh họa một phần i T2 9 Hình 2 Mô hình 5V trong Big Data (Nguồn) - S1 T111 1121112112121 tre 10 Hình 3 Minh họa một phương pháp tiếp cận phân tích cảm xúc với mô hình VADER

0/10 ce ccccccccceccssssecsessessesecsessucseesessusecssesessieseesessucerssessesseteetectieseesisseesesiesinseesesecess 14

Hinh 4 Minh hoa mé hinh dy doan Logistic Regression (N@UON) c0cccesceceeeeeeseees 16

Hình 5 Lệnh lấy bộ dữ liệu từ Google Drive - s11 11111E111121111211 112101 te 19 Hinh 6 Lénh doc va xuat 10 dong dau tiên của đữ liệu 5 n2 2E 112 2z 19

Hinh 7 Tổng quan bộ đữ liệu -. 2L 222 1201112111211 1211112111 1112211 111120111 11821 1111122 x4 19 Hình 8 Lệnh tạo data Frame có cột ”“1SSU€”” LH HT HT 121v ng 21111 nn nhe 20 Hình 9 Tổng qua data Frame đã tạo 5-5 2121111211 212111111 1 1111111121121 1n 20 Hình 10 Lệnh tạo hàm word couIt - - 1 20 1221112211121 1 1121115211121 1 11521111118 x12 21 Hinh 11 Két qua sau khi str dung ham word coumtt 0.c.ccccccsccscccssesseecssesseseesessesesseseen 21 Hình 12 Lệnh tìm 10 từ phố biến nhất rong đata Frame 22 2S 921222222 xe2 22 Hình 13 Lệnh gọi công cụ từ thư vIiỆn - L2 220111211 12211 1211112111221 1 1811118 1tr 22 Hình 14 Lệnh tạo các biểu đỗ trực quan về các từ khóa theo tần suất -.s-scs52: 23 Hình 15 Biêu đồ Top 25 most common wOrdl s5 S19 1211112112121111 21212 cty 23 Hình 16 Biều đồ “Top 25 least common WOFS” - s T2 1 122121111211111112111 11x 24

Hình 17 Biều đồ '°Word Rank” s- 2: 2212 22112221227112211227127112122121211 1.1 tre 24 Hình 18 Lệnh xóa bỏ các ký tự gây nhiỄu 5: S1 111 21118121111 1211101221118 25

Hình 19 Lệnh tạo cột “text” trong data Fraime - -L 2 22 222221111323 1 1111511112 xss2 25 Hình 20 Lệnh tạo hàm lemmatize-fext - 1111111121111 1S E192 1 11kg na 26 Hình 21 Lệnh thêm cột “lemimp tweet” và “temp_ tweef” c2 HH nha 26 Hình 22 Lệnh tạo danh sách stopwords c0 2211221111211 12 2111 1111111221181 1g 27 Hình 23 Lệnh tạo hàm “text _process” và “remove_wofrđS” - c c2 se, 27 Hình 24 Lệnh thêm cột “temp” và “tokens” vào data Frame - +5 22+ + s25 x 2522 28 Hình 25 Lệnh tạo sơ đồ Word Cloud - S c2 111111 51515111151 1151 1511112111118111 12181 tre 29

Hình 26 Sơ đồ Word Cloud :-22+2222+222222212231271127111211271127112712111111211 21.6 29

Hình 27 Lệnh tạo bigraim - - 0 2200222111211 111111211111 1111111110111 11 22 11H20 111k 30 Hình 28 Lệnh tạo danh sách bigram và tuần suất của chúng 55-5222 E1zzx2 30 Hình 29 Danh sách 25 bigrams phô biến nhất 2 S2 E9 E1EE1EEEEEEE1EEE712121 7111 xe 31 Hinh 30 Lénh tao so d6 Word Net.o.ccccccccccccccscscscsccscevscsessevsessesesesestevsvseeevsvesettevevseseseees 32

Hình 31 Sơ đồ Word Net 20: 2122112 21127112211222121111111211211121121112121121 0e 33

Hình 32 Tải thư viện vader_ Ïlexe1on - - c0 2211122111111 1211 1111121111011 1182111111 34

Hình 34 Tạo danh sách cảm XxÚc - Q11 1112111111115 1111 11515151211121212121 1x1 na 35 Hình 35 Tính toán các giá trỊ cảm XÚC 2 2 2201222011201 111121 1111551111 1551 11111 1s 35 Hình 36 Tạo data Frame cho “negative”, “positive”, “neutral” ccc eres 35

Trang 6

Hinh 37 Tao ham count values 1n_column - 5-2 22222222112 2221 2211222211222 zx+2 35 Hình 38 Dáng nhãn cho từng loại - 0 0 2201221211121 1 15111115211 1111221111112 811 11g 36 Hình 39 Tạo sơ đồ hình tròn theo tỷ lỆ các cảm XÚC - L2 2 2201121211111 13211111 sse2 36

Hình 40 Biểu đồ Pie kết quả phân tích cảm XÚC - 2-5-5 SE 111111111111111 E111 1x6 36 Hình 41.Lệnh đánh giá mô hình theo các kết quả khác nhau s52 52 S2 SS225czzEczz 522 37 Hình 42 Kết quả đánh giá 5 c1 111111111111 1 11 11 1.11121112111111 1121 ng 37

Hình 43 Tạo cot “loyal” trong data Frame L2 2011112111221 1111521111158 11 112g 37 Hình 44 Tạo tập huấn luyên và tập kiểm tra - 5s S2 2E SE152112127111211711E121 2c 38

Hình 45 Khởi chạy và đánh giá kết quả - S1 S1111111112112111111210121111101 ru 38 Hình 46 Dự đoán và in kết quả s-5c s21 SE 2E121211211 1121111111111 101 111gr reo 38 Hình 47 Lưu kết quả và tạo biểu đồ - - s11 21121211211112111111111 11 010111 rưg 38

Hình 48 Sơ đồ Pie dự đoán khả năng đồng hành của khách hàng 5-5 52225252 39

Trang 7

LOI CAM ON

Chúng em xin gửi lời cảm ơn sâu sắc tới thầy Ts.Đặng Nhân Cách - giảng viên đã tận tình hướng dẫn và hỗ trợ chúng em trong suốt quá trình học tập và nghiên cứu về các vấn đề căn bản của Dữ liệu lớn và ứng dụng Sự tận tâm, kiến thức sâu rộng và kinh nghiệm thực tế của thầy không chỉ giúp chúng em hiểu sâu hơn về chủ để quan trọng này

mà còn trang bị cho chúng em những kỹ năng cần thiết để có thế áp dụng vào thực tế công việc sau này, đặc biệt là trong những công việc liên quan đến Dữ liệu lớn

Chúng em hy vọng rằng báo cáo này không chỉ mang lại những kiến thức bổ ích

mà còn cung cấp những giá trị thực tiễn, đóng góp tích cực vào quá trình học tập và nghiên cứu Một lần nữa, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến thay

Trang 8

LỜI MỞ ĐẦU

Trong bối cảnh cạnh tranh ngày cảng khốc liệt và sự phát triển không ngừng của công nghệ thông tin, việc hiểu rõ cảm xúc và ý kiến của khách hàng về dịch vụ và sản phẩm đã trở thành yếu tố then chốt giúp doanh nghiệp duy trì và nâng cao lợi thế cạnh tranh Phân tích cảm xúc, một lĩnh vực quan trọng trong phân tích dữ liệu lớn, không chỉ giúp các doanh nghiệp nắm bắt được tâm tư, nguyện vọng của khách hàng mà còn dự đoán được xu hướng và hảnh vi tiêu dùng trong tương lai

Bài báo cáo này tập trung vào việc triển khai và ứng dụng các phương pháp phân tích cảm xúc từ phản hồi của khách hàng Chúng em sẽ đi sâu vào việc thu thập, xử lý và phân tích dữ liệu Mục tiêu của bài báo cáo là không chỉ trình bày những kỹ thuật và công

cụ hiện đại về phân tích cảm xúc, mà còn đề xuất các giải pháp khả thí đề doanh nghiệp

có thê áp dụng hiệu quả nhằm cải thiện chất lượng dịch vụ và tăng cường sự hài lòng của khách hàng

Qua nghiên cứu này, chúng em hy vọng sẽ mang lại cái nhìn tổng quan về tiềm năng và lợi ích của việc phân tích cảm xúc khách hàng, từ đó khẳng định tam quan trọng của việc áp dụng công nghệ dữ liệu lớn trong kinh doanh hiện đại Chúng em tin rang, với những kiến thức và kinh nghiệm thu được từ việc khai thác dữ liệu lớn, doanh nghiệp

sẽ có thê đưa ra các quyết định chiến lược chính xác và nâng cao hiệu quả hoạt động kinh doanh trong tương lai

Trang 9

CHUONG 1: TONG QUAN VE DE TAI

1.1 Giới thiệu đề tài

1.1.1 Tổng quan về bối cảnh đề tài

Trong bối cảnh nền kinh tế số hóa ngày càng phát triển, lượng dữ liệu được tạo ra

và thu thập từ các hoạt động trực tuyến ngày càng trở nên phong phú và đa dạng Đặc biệt, trong ngành tài chính, khách hàng không chỉ sử dụng các dịch vụ trực tuyến mà còn

dé lại nhiều phản hồi, đánh giá về trải nghiệm của họ Việc phân tích những đữ liệu này mang lại những giá trị to lớn, giúp các công ty tài chính hiểu rõ hơn về khách hàng, từ đó cải thiện chất lượng dịch vụ và nâng cao trải nghiệm người dùng

Bên cạnh đó, việc phân tích những dữ liệu từ khách hàng cũng mang lại những giá trị đặc biệt quan trọng đến các doanh nghiệp và công ty Cụ thể hơn, dựa vào các kết quả phân tích mà người quản lý có thê đưa ra những biện pháp, cách thức giữ chân khách hàng hiệu quả hơn, kịp thời thay đổi những định hướng phát triển của công ty đề bắt kịp

xu hướng của khách hàng,

Và đề thực hiện cũng như đạt được các kết quả phân tích trên, các tô chức tài chính cần quan tâm đến việc phân tích khách hàng qua những phản hỏi đã thu thập được, tir do ma co thé hiểu rõ hơn cảm xúc của khách hàng và mức độ hàng lòng của họ đối với các sản phâm dịch vụ của công ty

1.1.2 Mục đích của đề tài

Nói đến tài chính thì không thê nhắc đến Mỹ, là một quốc gia có các trung tâm tài chính lớn nhất thế giới, với những thành phố như New York, Chicago va San Francisco đóng vai trò chủ chốt trong nền kinh tế toàn cầu Bên cạnh đó, những công ty tài chính tại đây đặc biệt lâu đời, có nhiều kinh nghiệm phát triển cũng như áp dụng những công nghệ tiên tiễn vào việc quản lý và chăm sóc khách hàng Do đó, nêu bản thân có quan tâm đến thị trường tài chính ở Mỹ thì có thế sử dụng những bộ đữ liệu sẵn có về tông hợp các đánh giá dịch vụ chăm sóc khách hàng của CFPB (Consumer Financial Protection Bureau-Cục bảo vệ người tiêu dùng tại Mỹ) dé phân tích tiềm năng, xu hướng của khách hàng từ đó đưa ra các quyết định như đầu tư hoặc thay đổi mô hình phát triển của công ty nếu đối tượng khách hàng chính đến từ thị trường phương Tây này

Và đề đạt được mục tiêu trên, nhóm chúng em sẽ xây dựng một mô hình thu thập những bình luận, đánh giá của người dùng về các sản phẩm, địch vụ tài chính từ bộ đữ liệu mà chúng em đã chọn Sau đó, chúng em sẽ thực việc phân tích đữ liệu trên để có thể xem xét cảm xúc của khách hàng, cũng như dự đoán khả năng họ tiếp tục đồng hành với công ty tài chính

Trang 10

1.2 Tổng quan về bộ dữ liệu

Link download bộ dữ liệu: Link

Bộ dữ liệu chúng em sử dụng được tham khảo từ Kaggle (bài tham khảo: “US

Consumer Finance Complaints”) co tên là customer_complaints.csv Về nguồn gốc

chính thống thì bộ đữ liệu trên được CFPB tông hợp bằng cách gửi các khuyến nại của

khách hàng đến các công ty sản phẩm và dịch vụ tài chính liên quan với mục đích chính

là giúp cho người tiêu đùng có thê lên tiếng về quan điểm của mình, từ đó giúp cải thiện

thị trường tài chính

date_received product sub produet issue sub issue consumer_complaint_narrative company publíc response company state zipcode tags consumer_conse

0t In XX/XX/XKXX I filed a police Company beli

nh Debt sit acted ŨẲ

191335 03/19/2015 coection phone Teport regardin appropriat a KY 400XX Servicemember Co

191417 03/26/2015 collection Debt 4, Lreeelved services froma health tr provide apublicresponse —_ Services, Company chooses not to Financial vụ ong ex Se ` (

Inc

collection Debt 1 Go notknow Ihave reached outto the company However, th providea public response Banks, Inc Company chooses motto SunTrust „mo az sự = ‘

191858 — 03/19/2015 ollection Ấn" Reached o Company believes it acted FCHoldCo appropriately as aut u „un 207v Seryicemember oo

Javitch,

ed oper conta After retai ig Col in 3 Company Ost Block a m ^

192023 — 03/19/2015 collection Debt Credit card MPrOper of sharing of info contact M1 Aiter retaining l provide a public r Company cho Rathbone Block & — O44 442xx Older American Ca

LL€

et Q After retaining co x ankof °

195065 03/20/2015 , gìn - Gieditcard ter retaining cou : An 0H 4426 Older American Co

Hình I Minh hoa mét phan đữ liệu

1.3 Khái quát về các công cụ và thư viện được dùng

Đề bài toán được toán được giải quyết tối ưu và trực quan nhất, nhóm chúng em

đã quyết định sử dụng môi trường Google Colab đề thực hiện, trong đó gồm:

e Các thư viện chứa săn các mã code xây dựng mô hình: numpy, pandas, nltk, re,

collections, matplotlib, textblob, itertools, networkx,

® Cac m6 hinh duoc su dung: Sentiment Analysis, VADER, WordCloud,

WordNet

Trang 11

CHUONG 2: CO SO LY THUYET

2.1 Big Data

Big Data là một thuật ngữ chỉ các tập dữ liệu có kích thước lớn và độ phức tap cao đến mức mà các công cụ và phương pháp xử lý đữ liệu truyền thống không thê xử lý một cách hiệu quả Big Data không chỉ bao gồm lượng dữ liệu không lồ mà còn chứa đựng

các loại dữ liệu đa dạng, từ dữ liệu có cầu trúc như cơ sở dữ liệu quan hệ đến dữ liệu phi câu trúc như văn bản, hình ảnh, video, và dữ liệu bán cầu trúc như logs va JSON

Những đặc trưng của Big Data thường được mô tả bằng "5V": Volume (khối

lượng), Variety (đa dạng), Velocity (tốc độ), Veracity (độ xác thực) và Value (giá trị)

Variety Velocity Q Value

Hình 2 Mô hình 5V trong Big Data (Nguồn)

@ Volume (Khéi lượng):Khối lượng đữ liệu trong Big Data rất lớn, thường là hàng

terabyte (TB) đến petabyte (PB) hoặc thậm chí hơn Dữ liệu này được thu thập từ nhiều nguồn khác nhau như mạng xã hội, cảm biến loT, giao dịch thương mại điện

tử, và các hệ thông thông tin doanh nghiệp

®_ Variety (Đa dạng): Dữ liệu trong Big Data không chỉ bao gồm dữ liệu có cấu trúc

như cơ sở đữ liệu quan hệ mà còn bao gồm đữ liệu phi cấu trúc như văn bản, hình ảnh, video, âm thanh, và đữ liệu bán cấu trúc như logs hệ thống và dữ liệu từ web

Sự đa dạng này đòi hỏi các phương pháp xử lý khác nhau cho từng loại dữ liệu

e®_ Velocity (Tốc độ):Big Data được tạo ra và xử lý với tốc độ rất nhanh, đòi hỏi khả năng xử lý dữ liệu gan thời gian thực hoặc theo thời gian thực Điều này đặc biệt

quan trọng đối với các ứng dụng yêu cầu phản hồi nhanh như quảng cáo trực

tuyến, giao dịch tài chính, và phân tích an ninh mạng

10

Trang 12

®_ Veracity (Độ xác thực):Chất lượng và độ tin cậy của dữ liệu trong Big Data có thế rất khác nhau Dữ liệu có thê chứa nhiều lỗi, thiếu sót hoặc không đồng nhất, đòi

hỏi các kỹ thuật dé làm sạch và xác minh dữ liệu nhằm đảm bảo tính chính xác của

các phân tích vả quyết định dựa trên dữ liệu

@ Value (Gia tri):Mac di Big Data c6 thé chira rat nhiều thông tin, nhưng giá trị thực

sự của nó chỉ được khai thác khi dữ liệu được phân tích va sử dụng để tạo ra

những hiểu biết mới, cải thiện quyết định kinh đoanh, tối ưu hóa quy trình hoạt

động, và tạo ra các cơ hội kinh doanh mới

Hiện tại có thế nói Big data là một trong những nguồn tài nguyên tiềm năng nhất

của con người vì nếu có thể tận đụng những thông tin từ việc phân tích các đữ liệu trên

một cách hiệu quả, con người có thể không ngừng cải tiễn và phát triển trên mọi lĩnh vực

2.2 Các thư viện được sử dụng

2.2.1 Thư viện nltk

Ra đời vào năm 2001, Thu vién NLTK (Natural Language Toolkit) 1a mét thu

viện mạnh mẽ và phố biến trong Python được sử dụng cho xứ lý ngôn ngữ tự nhiên

(NLP) Nó cung cấp các công cụ để làm việc với văn bản như phân tích từ loại, tách từ,

phân loại văn bản, dịch máy, NLTK đồng thời cũng cung cấp quyền truy cập vào

nhiều tài nguyên ngôn ngữ khác mà, tiêu biếu là WordNet, là bộ sưu tập lớn văn bản có

thé duoc str dung dé lập mô hình ngôn ngữ cũng như thực hiện các nhiệm vụ NLP khác

2.2.2 Thư viện itertools

itertools là một thư viện chuân của Python cung cấp các công cụ mạnh mẽ đề tạo

và làm việc với các iterator (đối tượng có thể lặp lại) Các công cụ trong itertools cho

phép bạn dễ dàng thực hiện các phép toán tô hợp, tạo chuỗi, và thao tác với các iterables

2.2.3 Thư viện textblob

TextBlob là một thư viện Python dùng đề xử lý văn bản và phân tích ngôn ngữ tự nhiên Nó xây dựng trên nền tảng của các thư viện khác như NLTK va Pattern, cung cap một giao diện đơn giản đề thực hiện các tác vụ NLP thông thường

2.2.4 Thư viện Networkx

Là một thư viện đặc biệt dùng để tạo, quan ly va nghiên cứu các biểu đồ Đặc biệt, thư viện Networkx là một công cụ mạnh mẽ đề phân tích cấu trúc và chức năng của các

mạng phức tạp và có thể dùng đề mô hình hóa nhiều hệ thống trong thực tế

11

Trang 13

2.3 Kỹ thuật xử lý dữ liệu

2.3.1 Lemmatization

Lemmatization là một kỹ thuật trong xử lý ngôn ngữ tự nhiên (NLP) được sử dụng

đề chuyên đổi các từ về dạng gốc của chúng (lemma) Khác với stemming, lemmatization không chỉ loại bỏ các hậu tố từ mà còn sử dụng từ điển ngôn ngữ đề chuyên đối các từ về dạng có nghĩa đầy đủ và đúng ngữ pháp

Thư viện phổ biến:

@ NLTK (Natural Language Toolkit): Cung cap céng cy WordNetLemmatizer cho lemmatization

@® Nắm bắt mối quan hệ ngữ nghĩa giữa các từ

® Phát hiện các cụm từ phố biến và cấu trúc ngữ pháp trong văn bản

Vi du:

@ Van ban: "The quick brown fox"

@ Bigrams: [("The", "quick"), ("quick", "brown"), ("brown", "fox")]

Thư viện phổ biến:

® NLTK: Cung cấp công cụ đề tạo biprams từ danh sách các từ

12

Trang 14

2.4 Các mô hình được sử dụng

2.4.1 Tổng quan về phân tích cảm xtc (Sentiment Analysis)

Phân tích cảm xúc là quá trình sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP), khai phá dữ liệu và học máy đề xác định và trích xuất thông tin chu quan từ các nguồn văn bản Mục tiêu chính của phân tích cảm xúc là xác định thái độ của người viết đối với một chủ đề nào đó, thường được phân loại thành các cảm xúc tích cực, tiêu cực hoặc trung tính

Các phương pháp phân tích cảm xúc

Phương pháp dựa trên từ điển (Lexicon-based methods):

® Scntiment Lexicon: Sử dụng các từ điển cảm xúc (sentiment lexicons) chứa các từ

và cụm tu đã được gán nhãn cảm xúc (positive, negative, neutral)

@® Rulc-bascd approach: Áp dụng các quy tắc để phân loại cảm xúc dựa trên sự xuất hiện của các từ cảm xúc trong văn bản

Phuong phap dia trén hoc may (Machine Learnine-based methods):

@ Supervised Learning: Su dung cac m6 hinh hoc có giám sát nhu Naive Bayes, SVM hoặc các mạng nơ-ron sâu (Deep Learning) đề phân loại cảm xúc Các mô hình này được huấn luyện trên các tập dữ liệu đã được gán nhãn trước

@ Unsupervised Learning: Su dung cac k¥ thuat không giám sát như Clustering hoặc Topic Modeling đề phát hiện các xu hướng cảm xúc trong đữ liệu không có gán nhãn

Phương pháp kết hợp (Hybrid methods):

® Kết hợp các phương pháp dựa trên từ điển và học máy đề tăng cường độ chính xác

và hiệu suất của hệ thống phân tích cảm xúc

2.4.2 Mô hình VADER

VADER (Valence Aware Dictionary and sEntiment Reasoner) la m6t m6 hình phân tích cảm xúc dựa trên từ dién duoc thiết kế đề phân tích cảm xúc trong các văn bản ngắn như tweet, nhận xét hoặc bải viết trên mạng xã hội VADER được phát triển để xử

lý tốt các yêu tố đặc trưng của ngôn ngữ trực tuyến như từ viết tắt, các biểu tượng cảm xúc và từ ngữ mạnh

13

Trang 15

Đặc điểm cia VADER

® Từ điền cảm xúc phong phú: VADER sử dụng một từ điên cảm xúc lớn chứa các

từ, cụm từ và biêu tượng cảm xúc, mỗi mục được gán một điểm số cảm xúc (valence score) tir -4 đến +4

® Xử lý ngôn ngữ trực tuyến: VADER đặc biệt hiệu quả trong việc xử lý các ngôn ngữ phi chính thống, viết tắt và các biểu tượng cảm xúc phô biến trong các văn bản trực tuyến

14

Trang 16

@ Diém sé tong hop: VADER cung cap mét diém sé téng hop (compound score) tir -

1 (rat tiéu cực) đến +l (rất tích cực), dựa trên trung bình trọng số của các điểm số

từ điển

Ứng dụng của VADER

VADER được sử dụng rộng rãi trong các ứng dụng phân tích đữ liệu trực tuyến như:

@ Phân tích mạng xã hội: Đánh giá cảm xúc của các bài viết trên Twitter, Facebook

Ưu điểm của VADER so với các mô hình khác

@ Tính đơn giản và hiệu quả: VADER không yêu cầu huấn luyện lại mô hình và có

thê áp dụng ngay vào các văn bản mới, khác với các mô hình học máy phức tạp

đòi hỏi đữ liệu huấn luyện lớn

® Độ chính xác: Mặc dù VADER không luôn đạt độ chính xác cao như các mô hình học sâu hiện đại, nhưng nó cung cấp một phương pháp nhanh chóng và hiệu quả cho nhiều ứng dụng phân tích cảm xúc thực tế

VADER là một công cụ mạnh mẽ và linh hoạt cho phân tích cảm xúc, đặc biệt hữu ích trong việc xử lý ngôn ngữ trực tuyến Khi kết hợp với các phương pháp khác, nó có thê cung cấp những thông tin chỉ tiết quan trọng về cảm xúc từ các văn bản đa dạng Phân tích cảm xúc tiếp tục phát triển và đóng vai trò quan trọng trong nhiều lĩnh vực từ nghiên cứu thị trường đến phát triển sản phẩm và dịch vụ khách hàng

2.4.3 Mo hinh dw doan Logistic Regression

Logistic regression là một mô hình thống kê được sử dụng đề dự đoán xác suất của một biến phụ thuộc nhị phân dựa trên một hoặc nhiều biến độc lập Đây là một mô hình rất phô biến trong học máy và thống kê do tính đơn giản và hiệu quả của nó Đây là một phương pháp phân loại nhị phân

Mục tiêu cua logistic regression la dự đoán xác suât xảy ra của một sự kiện nhị phân dựa trên các biên đầu vảo (biên độc lập)

Dac diem

@® Biến phụ thuộc nhị phân: Kết quả dự đoán chỉ có hai gia tri (0 hoac 1)

15

Trang 17

@ Ham sigmoid: Bién déi dau ra của mô hình tuyến tính thành xác suất (giá trị từ 0 dén 1)

@ Hàm los-likelihood: Được sử dụng để ước lượng các tham số của mô hình thông qua phương pháp tối đa hóa

Logistic Regression Model

@ Tài chính: Dự đoán khả năng vỡ nợ

@® Tiếp thị: Dự đoán khách hàng tiềm năng

@ Khoa hoc x4 hoi: Dự đoán hành vị con người

2.5 Các phương pháp đánh giá

2.5.1 Precision

Precision là tỷ lệ giữa sô lượng dự đoán chính xác là tích cực so với tông sô dự đoán là tích cực Chỉ sô nảy tập trung vào độ chính xác của các dự đoán tích cực, nghĩa là trong số các mầu mà mô hình dự đoán là tích cực, có bao nhiêu mầu thực sự là tích cực Công thức tính Precision:

Precision — m.rp

16

Trang 18

@ TP (True Positives): Số lượng mẫu được dự đoán là tích cực và thực sự là tích cực

@ FP (False Positives): Số lượng mẫu được dự đoán là tích cực nhưng thực sự là tiêu cực

Recall là tỷ lệ giữa số lượng dự đoán chính xác là tích cực so với tong số mẫu thực

sự là tích cực Chỉ số này tập trung vào khả năng của mô hình trong việc phát hiện các mẫu tích cực thực sự

Công thc tinh Recall:

@ TP (True Positives): Số lượng mẫu được dự đoán là tích cực và thực sự là tích cực

@® EN (False Negatives): Số lượng mẫu thực sự là tích cực nhưng bị mô hình dự đoán

Công thức tính F¬score:

17

Trang 19

® Rccall cao nhưng Precision thấp: Mô hình phát hiện hầu hết các mẫu tích cực thực

sự, nhưng cũng bao gồm nhiều dương tính giả Điều này thích hợp trong các tinh huống mà cần nhận diện tất cả các mẫu tích cực, ví dụ như trong y học khi phát hiện bệnh

® F-scorc cao: Cho thấy mô hình có sự cân bằng tốt giữa Precision và Recall, đặc biệt hữu ích khi cả hai chỉ số đều quan trọng

Việc sử dụng Precision, Recall và F-score giúp đánh giá toàn diện hiệu suất của

mô hình phân tích cảm xtc nh VADER Mỗi chỉ số mang lại góc nhìn khác nhau và tùy thuộc vào mục tiêu cụ thể, ta có thé tập trung vào chỉ số phủ hợp để cải thiện và đánh giá

mô hình một cách hiệu quả

18

Trang 20

CHƯƠNG 3: QUY TRÌNH VÀ PHƯƠNG PHÁP XỬ

LÝ DỮ LIỆU

3.1 Nhập dữ liệu

Đầu tiên, ta cần nhập đường dẫn của bộ đữ liệu vào hệ thống Ở đây, file đữ liệu

đã được lưu tại Google Drive của nhóm từ trước (file tên là “eustomer_complaints.csv”)

google colab drive mount

consumer_complaints =

Hinh 5 Lénh lay bộ dit liéu tie Google Drive

Nếu muốn xem qua sơ lược nội dung bộ dữ liệu trước khi tiến hành phân tích, ta

có thê sử dụng thư viện pandas (pd) để xem trước đữ liệu Cụ thê như hình bên dưới, nhóm có giới hạn số dòng hiến thị là 10 và loại bỏ đi những mẫu có các trường mang giá trị NaN bằng phương thức ‘dropna()’

Trang 22

191335 Cont'd attempts collect debt not owed

191417 Cont'd attempts collect debt not owed

191636 Cont'd attempts collect debt not owed

191858 Cont'd attempts collect debt not owed

192023 Improper contact or sharing of info

552509 Cont'd attempts collect debt not owed

552574 Cont'd attempts collect debt not owed

552893 Cont'd attempts collect debt not owed

552923 Cont'd attempts collect debt not owed

len(sentence spl1t

.describe

Hinh 10 Lénh tao ham word count

Với kết quả nhận được, thì có khoảng 1483 dòng trong trường “issue” được đếm, trong đó mỗi câu có số lượng từ trung bình (mean) là khoảng 4,877 từ Bên cạnh đó, một vài chỉ số liên quan cũng được hiển thị bao gồm standard deviation (std), min ,25% (diém

phân vị thứ nhất), 50%(median-trung vi), 75% (điểm phân vị thứ 3) và max

21

Ngày đăng: 14/10/2024, 16:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w