Chuyên đề tốt nghiệp: Ứng dụng mô hình hồi quy Logistic trong phân tích cảm xúc trên mạng xã hội Twitter

Mục tiêu hướngđến của phân tích quan điểm là xây dựng các hệ thống tự động xác định các quan điểm, tinh cảm, đánh giá, thái độ và cảm xúc của con người cho các thực thể hoặc các thuộc tí

Trang 1

TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN

KHOA TOAN KINH TE

Giảng viên hướng dẫn: TS Nguyễn Quang Huy

Họ và tên sinh viên: Định Nhật Minh

Mã sinh viên: 11193387

-Lớp chuyên ngành: Toán Kinh tê 61

HÀ NỘI - 2022

Trang 2

LOI CAM ON

Dé hoàn thành khóa luận nay, em xin tỏ lòng biết on sâu sắc đến TS Nguyễn Quang Huy

đã tận tình hướng dẫn trong suốt quá trình viết Chuyên đề tốt nghiệp

Em chân thành cảm ơn quý thay, cô trong khoa Toán Kinh tế, Trường Đại Học Kinh tế

Quốc dân đã tận tình truyền đạt kiến thức trong những năm em học tập Với vốn kiến

thức được tiếp thu trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu

khóa luận mà còn là hành trang quý dé báu dé em bước vào đời một cách vững chắc và tự

tin.

Cuối cùng em kính chúc quý thay, cô dồi dao sức khỏe va thành công trong sự nghiệp

trồng người cao quý

Em xin chân thành cảm ơn các thây cô!

Trang 3

LỜI CAM ĐOAN

Tác giả xin cam đoan Chuyên đề tốt nghiệp này là tự do bản thân thực hiện, có sự

hỗ trợ từ giáo viên hướng dẫn và không sao chép các công trình nghiên cứu của người

khác Các dữ liệu thông tin thứ cấp sử dụng trong Chuyên đề là có nguồn gốc và được

trích dẫn rõ ràng.

Tác giả xin chịu trách nhiệm hoàn toàn về lời cam đoan nay!

Sinh viên Dinh Nhat Minh

Trang 4

DANH MỤC HÌNH ANH TH ghe tegtrenegtegtrertrertretrertrertrertrertretrertrertrertrerretrertrertreeree 4

CHUONG 1: TONG QUAN —- ,ô,ÔỎ 5

In e0 in 5 1.2 Mure ti@u Va nhi6Mm VU ou 6

1.3 BO CUC cecccccscescssessssssssscsussusssessessucsussusssscsucsussussasssscsucsussatsasssucsussussussucsussutsatssecsussussassaeesecsussetsneease 6

CHƯƠNG 2: CƠ SỞ LY LUẬN uisccscsssssssssssssssssesssssesssssessssssesenssocssnesessscssessacssessseeseesees 8

2.1 _ Khái niệm phân tích cảm XÚC - «5 E1 9191 1012111 vn TH Hi TH Thi HH ghế 8

2.2 Tình hình nghiên cứu thé giới ¿- ¿+ ©++E+++EE++EESEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrrkerkrre 8

2.3 Phương pháp học máyy - «k1 vn TT HT TT HT TH TH HH TH HH re 10

2.3.1 Học có giám Sất - CS s11 TH Hà HT TT HT TT HT TH TH TH Hi 10 2.3.2 Học không giám sát - «5 11k TH TH HT To Hà HT Tà HH TT Hàn 10

2.3.3 Phương pháp tiếp cận dựa trên luật cesseccssscsesssssssesssesssessssssssssssssesssscssecssesssesssssecarecsseessesses 11 2.3.4 Phương pháp tiếp cận dựa vào NOC MAY esessesssesssesssesssesssesssessesssesssecssesssessusssssesesssecssesssesses 11 2.4 Phương pháp Hồi quy Logistic (Logistic regresSiOn) -2- sc©cx2xxecxerxeerxeerxrrrxerrerree 12

Z TNN 1.18 nh eẮ 12 2.4.2 Mô hình LOGISTIC SÁT TH TT TH HT Tà HH TH HT Tà Hàn kệ 12 2.4.3 Hàm Logistic và các ti ÏỆ - - + + 1n vn nh TH TH HH TH TH TH HT nh Tp 14

2.4.3.1 Định nghĩa ham logistic (+ 11121 E1 91 519311 HH TT HH TH HT HH ngờ 14

2.4.3.2 Các tính chất hàm LLOgÏSfC ¿5-55 2S ỆEESEEEEEE2EEE2112711271271211711 71111.211.111 cre 15

2.4.3.3 Hồi quy Logistic được sử dụng nhiều trong bài toán phân lớp -. ¿- ¿5c ©cs++zscc+s 16 2.4.3.4 Đường ranh giới của HOi quy Logistic là một siêu phẳng - 22-552 ©cscccseczscrrs 16

2.4.3.5 Hồi quy Logistic không yêu cầu giả thiết có thé phân tách tuyến tinh - 16 2.4.3.6 Ngưỡng quyết định có thé thay đổi - ¿-5¿25£©2S£2SE‡EEESEkESEECEEEEEEEEEEEEEEEkrrkrrrkrrrerree 17

CHƯƠNG 3: UNG DUNG PHAN TÍCH QUAN DIEM VỚI BỘ DU LIEU TIN

NHẮN TWITTER s 5< s< se vsseEvseeEvseersseersseersssersssersserrssersssersssersssesssee 18

3.1 Hệ thống phân tích quan điểm -2-++++©++++E++vEEE+2EEESEEEEEEEtEEEErEEkrerkkrrrkkerrksrrrrrrrree 18

3.2 Tông quan về bộ dữ liệu tin nhắn T'Wi€T ¿2c ©+<+SE£2EE£SEE2EEEE13E7122712211211711711211 21121 cr1 19 3.3 Tiền xử lý dữ liệu và gán nhãn - 2-22 +s£++E+SEE£EEEEEEE2EEE2E121171571127171171111171 11111 cre 21

3.3.1 True quan hoa ditt 0 22

3.3.2 Tid xt LY 00018 7 27

CHUONG 4: THUC NGHIEM VA ĐÁNH GIÁ

4.1 Xây dựng mô hình - ó6 41211 1 TT TH Tu TH HH Tp

Trang 5

4.2 Phương pháp đánh giá mô hình

4.3 Kết quả thực nghiệm

CHUONG 5: KET LUẬN "— _ "— ".ÔỎ 40

5.1 Kết QUA at AUOC T1 ằ.e

5.2 Han chế va định hướng trong tương lai

TÀI LIEU THAM KHẢO 2s se ssevsssessseessersserssersserssersserssersssessse 4

PHU LUC cesccssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssss 42

Code xay dung m6 hinh T88 42

Trang 6

Hình 3.

DANH MỤC HÌNH ANH

1: Quy trình phân tích quan điểm - 2-2 2 + x+Ex££++£x££x++xezxe+rezrerrxerxee 18

2 Tệp dữ liệu tin nhắn Twitter sử dụng dé huấn luyỆn -ccc<c<eckesees 20

3 Tệp dit liệu tin nhắn Twitter thâm định - 55c ©5z25+2z+2z+zzzrxerxered 21

4: Trực quan hóa tệp dữ liệu TrainnIng - -. «+ xxx ngư 22

5: Trực quan hóa tệp dữ liệu kiểm định c6 xe tckeEEkeEerkekerkexerkererree 22

6 :Những từ ngữ thường xuyên xuất hiện ở mục Positive - -‹: ‹- 23

7 :Những từ ngữ thường xuyên xuất hiện ở mục Negative -‹ -: 24

8: Những từ ngữ thường xuyên xuất hiện ở mục IrreleVant -. -‹- + 25

9: Những từ ngữ thường xuyên xuất hiện ở mục Neutral - -.: - 26

10: Mức độ quan tâm & cảm xúc phân loại theo các chủ đề . - 27

11: Tệp dữ liệu trainning sau khi được thêm cỘI - - 5 ++<£+<++sc+sxsx2 28

12: Tệp dữ liệu validation sau khi được thêm cỘt - <5 +-<<++<++<cx+see 28 13: Tệp dữ liệu trainning sau khi đã xử lý - -.- 5s kS*sssiieirskg 29

14: Số lượng từ sau khi được Xử lý ¿- ¿¿+e++k+Ek+EkeExerkerkerkerkerrerrrrree 30

15: Câu bình luận sau khi được tách từ . - 55+ +33 kksssseeseeee 30

16: Minh họa một số từ dừng từ thư viện NLTK :¿-+5cs++-5++¿ 31

Trang 7

CHƯƠNG 1: TONG QUAN

Phân tích cam xúc là một lĩnh vực được các nhà nghiên cứu va các nhà phát triển

trong lĩnh vực Internet dành nhiều sự quan tâm trong thập niên vừa qua Mục tiêu hướngđến của phân tích quan điểm là xây dựng các hệ thống tự động xác định các quan điểm,

tinh cảm, đánh giá, thái độ và cảm xúc của con người cho các thực thể hoặc các thuộc

tính của chúng được thể hiện trong các văn bản bằng ngôn ngữ tự nhiên

11 Giới thiệu

Các thực thé mà phân tích quan điểm quan tâm rat rộng Nó có thé là các thông tin

về thị trường, các sản phẩm hoặc dich vụ, các sự kiện nồi bật, những thông tin về kinh tế

- chính trị Các thực thể này thường được thể hiện qua các cuộc thảo luận, tin tức, bình

luận, phản hồi đánh giá Dé hệ thống có thé tự động thực hiện các nhiệm vụ đề ra, phân

tích quan điểm dựa trên ngôn ngữ tính toán, khai thác văn bản, truy vấn thông tin, xử lý

ngôn ngữ tự nhiên, thông kê, phân tích dự đoán và học máy

Phân tích quan điểm thường sử dụng kết hợp giữa các giải pháp xử lý ngôn ngữ tựnhiên và phương pháp trong học máy đề phân lớp, trích xuất và xác định quan điểm được

thể hiện trong văn bản hoặc tài liệu

Trong những năm gan đây với sự phát triên mạnh mẽ của công nghệ và đặt biệthơn là các mạng xã hội, không những cung cấp cho người dùng việc trao đổi và chia sẻ

các thông tin với nhau mà còn giúp quảng bá sản pham hay các sự kiện của công ty, tô

chức đến với mọi người Việc mạng xã hội phát triển đem theo các hệ quả rất lớn kèm

theo Hiện nay có khá nhiều các mạng xã hội như Twitter, Facebook, lên tới hàng tỷ

lượt sử dụng Ngày nay, thay vì sử dụng cách thu thập đánh giá, phát phiếu thăm dò cũngnhư hỏi trực tiếp, trưng cầu ý kiến qua các trang web, các cá nhân hay tô chức đã phân

tích tự động lượng dữ liệu đánh giá lớn từ các trang mạng xã hội, các diễn đàn, các trang

đánh giá sản phẩm nhằm tận dụng nguồn thông tin hữu ích giúp tiết kiệm phan nào chi

phí

Trang 8

Hành vi sử dụng mang xã hội của người dùng hiện tại không chi nằm ở mức giảitrí, kết nối mọi người với nhau mà còn với rất nhiều nhu cầu cá nhân như mua bán, quảng

cáo v.v Với sự phát triển về công nghệ như hiện nay, các doanh nghiệp đã có các chiếndịch Marketing cũng như quảng bá doanh nghiệp trên các nền tảng mạng xã hội Các nền

tảng mạng xã hội hiện nay cũng chính là một thị trường cực lớn mà các doanh nghiệp,

nhà sản xuất hướng đến nên việc nắm bắt được cảm xúc khách hàng khi trải nghiệm sản

phẩm, khi quảng bá thương hiệu là một điều vô cùng cấp thiết mà doanh nghiệp nào cũng

muôn hướng tới.

Với sự phát triển của mạng xã hội như hiện nay, các mạng xã hội có hàng tỷ lượt

sử dụng, vấn đề đặt ra là làm thế nào biết được một chủ đề hoặc một sự kiện có bao nhiêu

đánh giá tiêu cực hay tích cực, trong khi số lượng đánh giá rất lớn, vượt qua khả năng củacon người Chính vì vậy bài toán phân tích quan điểm được đặt ra dé giải quyết van đề

trên Hiện nay, có nhiều kỹ thuật cho bài toán nhưng hiệu quả nhất là sử dụng kỹ thuật

học máy.

Vi ly do đó, luận văn này trình bày các giải thuật dựa trên lý thuyết máy học và

mô hình Logistic Regression dé đưa ra các mô hình nhằm phân tích cảm xúc cho các dữ

liệu tin nhăn trên nên tảng mạng xã hội Twitter

1.2 Muc tiêu và nhiệm vu

Luận văn định hướng tìm hiểu phương pháp phân tích cảm xúc, trên cơ sở đó đề xuất

phương pháp và thử nghiệm các kỹ thuật học máy trong bài toán phân tích cảm xúc, cụ

thể là các tin nhắn bình luận trên nền tảng mạng xã hội Twitter, từ bộ dữ liệu thu thập, em

xin được dé xuất nghiên cứu và đưa ra mô hình ứng dụng Mô hình bao gồm các bước từ

thu thập dữ liệu, tiền xử lý dữ liệu, vectơ hóa dữ liệu đến lựa chọn mô hình học máy và

huấn luyện Cuối cùng là đưa ra những đánh giá hiệu quả của thuật toán, bộ dữ liệu, kết

quả đạt được và đánh giá về tính khả thi ứng dụng mô hình.

143 Bố cục

Luận văn được bô trí thành bôn chương có nội dung như sau:

6

Trang 9

Chương 1: Giới thiệu tổng quan về bài toán phân tích cảm xúc thông qua tin

nhăn, bình luận trên mạng xã hội Twitter Mục tiêu và nhiệm vụ cua bai chuyên dé

Chương 2: Đưa ra các nghiên cứu trước đây liên quan tới việc phân lớp cảm xúc

và đưa ra các lý thuyết về học máy, thuật toán Logistic Regression, các phương pháp biến

đổi dữ liệu và các phương pháp đánh giá mô hình.

Chương 3: Ứng dụng phân tích quan điểm với bộ dữ liệu

Chương 4: Thực nghiệm và đánh giá Xây dựng cài đặt mô hình, huấn luyện môhình tiến hành thử nghiệm, đánh giá mô hình

Kết luận: Tổng kết quá trình thực hiện luận văn, những kết quả đạt được và địnhhướng phát triển bài toán trong tương lai

Trang 10

CHƯƠNG 2: CƠ SỞ LÝ LUẬN

2.1 Khai niệm phân tích cảm xúc

Trong những năm gần dây, phân tích cảm xúc (SA) được cộng đồng nghiên cứuthuộc lĩnh vực NLP được đông đảo cộng đồng trong lẫn ngoài nước rất quan tâm Đây là

quá trình xác định và phân loại văn bản thành các cảm xúc khác nhau, ví dụ cảm xúc tích

cực, tiêu cực hoặc trung tính, hoặc cảm xúc chăng hạn như vui, buôn, tức giận hoặc ghêtom dé xác định thái độ của con người đối với chủ thê hoặc thực thể cụ thé Phân tích

cảm xúc cũng là một trong những công tác quan trọng trong lĩnh vực NLP Nó không chỉ

có ý nghĩa quan trọng trong học thuật, nghiên cứu mà còn có ý nghĩa cực kì thiết yếu

trong các ngành công nghiệp — dịch vụ, cụ thê là việc nhận biết hành vi và thái độ của

khách hàng về sản phẩm và dịch vụ mà họ sử dụng Với ngành công nghiệp - dịch vụ nóichung, SA được sử dụng như một công cụ mạnh mẽ để tự động hóa quy trình phân tích

và đánh giá ý kiến của người dùng Đối với các lĩnh vực kinh doanh hiện nay nói riêng,

các ý kiến người dùng đó thường được thu thập từ các trang mạng xã hội, hoặc các trangthu thập nhận xét của khách hàng về chất lượng cũng như mức độ hài lòng Hiện nay, bàitoán phân tích cảm xúc có ba cấp độ chính đó là cấp độ câu văn (sentence-level), văn bản(document-level), và khía cạnh (aspect-level) Ở cấp độ câu văn, mục tiêu của bài toán là

phân loại một câu văn thành các lớp tiêu cực (negative), tích cực (positive), hoặc trung

tính (neutral) Cấp độ văn bản được dùng dé xác định mức độ cảm xúc của một đoạn văn(gồm hai hay nhiều câu văn) là tiêu cực, tích cực, hay trung tính Và cấp độ khía cạnh

được dùng để xác định mức độ cảm xúc cho mỗi khía cạnh của thực thé đề cập trong mộtvăn bản Trong phạm vi của khóa luận, giới hạn nghiên cứu nhóm sẽ chỉ năm ở mỗi khía

cạnh cấp độ câu văn.

2.2 _ Tình hình nghiên cứu thế giới

Từ những năm 2000 cho đến nay, phân tích ý kiến cũng như phân tích ý kiến theokhía cạnh đã và đang thu hút được các nhà nghiên cứu quan tâm, phát triển và đưa

vào ứng dụng thực tế Khái niệm phân tích cảm xúc (sentiment analysis) xuất hiện lầnđầu tiên trong công trình của Nasukawa và Yi Khái niệm phân tích ý kiến (opinion

Trang 11

mining) xuất hiện lần đầu tiên trong công trình của Dave, Lawrence and Pennock.

Tuy nhiên, nghiên cứu được xem là đầu tiên đặt nền móng cho phân tích ý kiến là

nghiên cứu của Pang và các cộng sự Ké từ đó các nghiên cứu trong bài toán này ngàycàng được quan tâm và phát triển Công trình đã tiến hành nghiên cứu về phân tích ý

kiến từ các phản hồi của người dùng đối với miền dữ liệu điện ảnh (movie domain)

với hai phân lớp được quan tâm đến trong nghiên cứu là tích cực và tiêu cực Ba

phương pháp máy học (Naive bayes, maximum entropy classification và support

vector machine) được sử dung dé giải quyết van dé phân loại các ý kiến trong nghiêncứu này Năm 2010, Thet và các cộng sự tiễn hành thực hiện nghiên cứu không chỉ

quan tâm đến việc phân tích ý kiến mà còn phân tích chỉ tiết các định hướng cảm xúc

và sức mạnh của cảm xúc của đánh giá đối với các khía cạnh khác nhau trong miền

dữ liệu điện ảnh Phương pháp được dé xuất là sử dụng điểm số cảm xúc của bộ

SentiWordNet dé tiến hành tính toán cảm xúc cho các khía cạnh khác nhau Công

trình của Kim Schouten và Flavius Frasincar giới thiệu tổng quan về bài toán phân

tích ý kiến trên khía cạnh Trong công trình này, tác giả đưa ra các bài toán con của

bài toán phân tích ý kiến theo khía cạnh, cách phương pháp đánh giá và khảo sát các

mô hình và kết quả thử nghiệm được đề xuất đưa vào nghiên cứu trước đó đối với các

bài toán con khác nhau Haque va cộng sự đã sử dụng các bai đánh giá sản phẩm của

Amazon trong ba lĩnh vực: điện thoại di động và phụ kiện, âm nhạc và thiết bị điện

tử Họ đã phân loại cảm xúc thông qua Linear SVM, Multinomial Na "1ve Bayes,

Stochastic Gradient Descent, Random Forest, Hồi quy logistic và Cây quyết định

Singla và cộng sự đã thực hiện phân tích tình cảm các đánh giá về điện thoại di độngtrên Amazon, họ đã phân loại văn bản thành các phân cực bao gồm tích cực và tiêu

cực, và cảm xúc tức giận, mong đợi, sợ hãi, vui vẻ, buồn bã, ghê tom, ngạc nhiên và

tin tưởng Việc phân loại được thực hiện thông qua Logistic Regression với đến độ

chính xác là 84,85% Và, kết quả mang lại, thương hiệu Samsung nhận được nhiều

phản hồi tích cực nhất từ khách hàng Những kết quả này rất hữu ích cho các nhà sản

xuât vì họ có thê làm việc trên các phản hôi đê cải thiện chât lượng sản phâm.

Trang 12

2.3 Phuong pháp hoc máy

Học máy là một lĩnh vực nhỏ của khai phá dữ liệu sử dụng các phương pháp thống kê,

mô hình toán và sức mạnh tính toán của máy tinh dé giả lập phương pháp học của con

người bang dữ liệu Lượng dữ liệu càng lớn, độ chính xác cua mô hình khai pha dữ liệu

càng cao Trong lịch sử của loài người, chúng ta luôn luôn học từ lỗi sai của mình hoặc

tìm cách dé làm tốt hơn một van đề nhất định Các chương trình máy tính thông thường

hầu hết chỉ sử dụng logic và không thể sử dụng kết quả đầu ra để củng cố cho quá trình

thực thi các câu lệnh, vậy nên các chương trình máy tính đó chỉ có thé trả lại một hoặc

một vài thông tin có định từ một dữ liệu đầu vào Đến năm 1952, Samuel là nhà khoa hocđầu tiên phát minh ra một chương trình có thé tự chơi cờ ca-rô và có thé học được nhữngnước cờ đề cho những lần sau có thể chơi tốt hơn (Claude Sammut, 2017, pp 1123 -

1124) Các phương pháp học máy có thê chia nhỏ hơn thành học có giám sát và học

không giám sát, tuỳ thuộc vào yêu câu bài toán và dữ liệu dau vào.

2.3.1 Học có giám sát

Học có giám sát (supervised learning) là quy trình học máy sử dung cả dữ liệu đầu

vào (các biến độc lập) và dữ liệu của biến phụ thuộc hay còn gọi là nhãn của dữ liệu

trong quá trình học dé xây dựng nên mô hình có thể đưa ra được đầu ra là biến phụ thuộc

(Claude Sammut, 2017, pp 1213-1214) Đối với các bài toán hoc có giám sát, dữ liệu đầuvào của bài toán là tập m là mẫu dữ liệu vector x gới ¡ = 1, ,m và nhãn tương ứngđược đánh chính xác qua quan sát thực tế y Mục đích chính của phương pháp này là

sử dụng dữ liệu đầu vào nói trên dé xây dựng một mô hình ƒ(x;Ø) = 67@ Bởi vì

vectors Ø được tính toán trực tiếp từ tap x nên toàn bộ các vector đầu vào đều có ảnh

hưởng it nhiều đến mô hình Vậy nên, việc trích chọn ra được các đặc trưng, biến tốt để

có thê tăng khả năng chính xác của mô hình được xây dựng nên

2.3.2 Học không giám sát

Học không giám sát (unsupervised learning) là quá trình sử dụng đữ liệu đầu vào

dé tìm ra được câu trúc của dữ liệu, từ đó gợi ý ra được các quy luật, phân nhóm cho các

10

Trang 13

dữ liệu hiện tại và sau này (Claude Sammut, 2017, p 1304) Việc học không giám sát là

tìm ra một đại diện © cho mô hình ®(x) Từ đó ta có thể tối ưu được © dé các vectors đạidiện @ = ®(z;®) được tối ưu hơn là dữ liệu đầu vào x

2.3.3 Phương pháp tiếp cận dựa trên luật

Các hệ thống này tự động thực hiện phân tích quan điểm dựa trên một tập hợp cácluật được tạo thủ công do con người tạo ra giúp xác định tính chủ quan, quan điểm tích

cực, quan điểm tiêu cực, trung tính hoặc chủ đề của một ý kiến Các luật này có thé bao

gồm các kỹ thuật NLP khác nhau được phát triển trong ngôn ngữ hoc tính toán như tạo

mã nguồn, mã hóa, phân tích cú pháp và dựa vào danh sách từ điển và từ vựng

(LexIcons) Cơ chế hoạt động cơ bản của hệ thống 16 dựa trên luật: 1 Xác định hai danh

sách các từ phân cực, các từ tiêu cực như quá xấu, quá tệ, chat lượng quá kém, tồi qua

và các từ tích cực như rất tốt, rất đẹp, thật tuyệt 2 Đếm số từ tích cực và tiêu cực xuất

hiện trong một văn bản nhất định 3 Nếu số lần xuất hiện từ tích cực nhiều hơn số lần

xuất hiện từ tiêu cực, hệ thống sẽ trả về cảm xúc tích cực và ngược lại Nếu các con số làchăn, hệ thống sẽ trả về một cảm giác trung tính Các hệ thống dựa trên luật rất đơn giản

vì chúng không tính đến cách các từ được kết hợp theo một trình tự Tắt nhiên, các kỹ

thuật xử lý nâng cao hơn có thé được sử dụng va các luật mới được thêm vào đề hỗ trợ

các cách diễn đạt và từ vựng mới Tuy nhiên, việc thêm các luật mới có thể ảnh hưởng

đến các kết quả trước đó và toàn bộ hệ thống có thể trở nên rất phức tạp Vì các hệ thốngdựa trên luật thường yêu cầu tinh chỉnh và bảo trì, chúng cũng sẽ cần dau tư thường

xuyên.

2.3.4 Phương pháp tiếp cận dựa vào học máy

Các phương pháp tiếp cận dựa vào học máy không dựa trên các luật được tạo thủ

công, mà dựa trên các kỹ thuật máy học Một nhiệm vụ phân tích quan điểm thường được

mô hình hóa như một bài toán phân lớp, theo đó một bộ phân lớp được cung cấp đầu vào

là một văn bản và trả về đầu ra là một danh mục, ví dụ: tích cực, tiêu cực hoặc trung tính.

Một bộ phân lớp học máy có thê được phát triển nếu nó được xây dựng dựa trên kho ngữ

11

Trang 14

liệu huấn luyện cĩ chứa nhãn chính xác cho mỗi đầu vào Một số phương pháp tiếp cận

học máy là sử dụng tập dữ liệu đã biết dé đưa ra dự đốn kết quả đầu ra Các kỹ thuật

truyền thống yêu cầu hai bộ tài liệu: bộ huấn luyện và bộ kiểm thử Dé học các thuộc tínhkhác nhau của tài liệu, tập huấn luyện được sử dụng và đề đánh giá tập kiểm tra trình

phân lớp hiệu suất được sử dụng Các thuật tốn học máy được sử dụng phơ biến trong

bài tốn phân tích quan điểm: Nạve Bayes, Maximum Entropy, Support Vector Machine

(SVM), Logistic Regression, Deep Learning Các thuật tốn này cĩ hiệu quả trong bài

tốn phân tích quan điểm

2.4 Phương pháp Hồi quy Logistic (Logistic regression)

2.4.1 Giới thiệu

Một thuật tốn rất nổi tiếng trong thống kê được sử dụng dé dự đốn một số giá trị(Y) cho một tập hợp các tính năng (X) Thuật tốn Hồi quy Logistic thuộc học máy cĩ

giám sát dé phân loại dit liệu Mơ hình hồi quy Logistic áp dụng cho biến phụ thuộc là

biến định tính hoặc định lượng chỉ cĩ hai giá tri (cĩ hoặc khơng) hay nhị phân là 0 hoặc

1 Điều này phù hợp với bài tốn phân loại bình luận người dùng cụ thê là phân tích quan

điểm Đầu ra của bài tốn đĩ là xác định bình luận đĩ là tích cực hay tiêu cực

2.4.2 Mơ hình Logistic

Đầu tiên, ta sẽ xem xét mơ hình logistic như sau: Hãy xem xét một mơ hình cĩ haiyêu tố dự đốn, x¡ va x2, và một biến phản hồi nhị phân Y, mà chúng tơi biéu thị p = P (Y

= 1) Giả định mối quan hệ tuyến tính giữa các biến dự đốn và tỷ lệ cược log của sự kiện

Y = 1 Mối quan hệ tuyến tính này cĩ thé được viết dưới dạng tốn học sau (trong đĩ £ là

tỷ lệ cược log, b là cơ số của logarit và B là các thơng số của mơ hình):

Pp

b= logy 7s, = Bo + Pixs + Boxe

Cĩ thé sử dụng lũy thừa dé phuc hồi tỉ lệ cược ta cĩ:

——— = pBotBixitB2x2

1-p

12

Trang 15

Bang thao tác đại số (chia cả tử và mẫu số cho bfð*#1#:†2#2) ta thu được xácsuất Y = 1 là:

bPo†1x1+2*2 1

p= pBotBix14+B2x2 + 1 = 1 + p~@Borthix1+B2x2) = Sp(Bo + Bix1 + 232)

Trong đó Sb là ham sigmoid với cơ sở b Công thức trên cho thay rang sau khi B; được sửa, chúng ta có thể dễ dàng tính toán tỷ lệ cược Y = 1 cho một quan sát nhất định,

hoặc xác suất Y = 1 cho một quan sát nhất định Trường hợp sử dụng chính của mô hìnhlogistic là đưa ra một quan sát (x1,x2) và ước tính xác suất p mà Y = 1 Trong hầu hết cácứng dụng, cơ số b của lôgarit thường được coi là e Tuy nhiên, trong một số trường hợp,

việc truyền đạt kết quả có thé dé dang hơn bằng cách làm việc trong cơ sở 2 hoặc cơ sở

10 Chúng tôi xem xét một ví dụ với b = 10 và By = —3,¡ =1,B =2

Cụ thể, mô hình là:

logio 1=; = ? = —3 + xX, + 2X2

Trong đó, p là xác suất của sự kiện khi Y=1

Có thé hiểu như sau:

Bo =—3 là chặn y Đó là tỷ lệ cược của sự kiện Y = 1, khi các yếu tổ dự đoán xi =xa= 0 Bằng cách tinh lũy thừa, chúng ta có thé thấy rằng khi x1 = xa= 0 tỷ lệ cược của

trường hợp Y = 1 là 1/ (1000 + 1) = 1/1001 Tương tự, xác suất của sự kiện Y = 1 khi x1

=x2= 0 có thê được tính là 1/ (1000 + 1) = 1/1001

Bi = 1 có nghĩa là tăng x1 lên 1 sẽ làm tăng tỷ lệ lên 1 Vì vậy, nếu x1 tăng 1, tỷ lệ

cược rằng Y = | tăng theo hệ số của 101 Lưu ý rằng xác suất của Y = | cũng đã tăng lên,

nhưng nó không tăng nhiều vì tỷ lệ cược đã tăng lên

8 = 2 có nghĩa là tăng x2 lên 1 sẽ làm tăng ty lệ lên 2 Vì vậy, nếu x2 tăng 1, tỷ

lệ cược răng Y = | sẽ tăng theo hệ số của 102 Lưu ý rằng anh hưởng của x2 lên tỷ lệ

13

Trang 16

cược đăng nhập lớn gap đôi ảnh hưởng của x1, nhưng ảnh hưởng đến tỷ lệ cược lớn hơn

10 lần Nhưng ảnh hưởng đến xác suất của Y = 1 không lớn hơn 10 lần, nó chỉ ảnh hưởng

đến tỷ lệ cược lớn hơn 10 lần Đề ước tính các tham số B từ dữ liệu, người ta phải thực

hiện hồi quy logistic

2.4.3 Ham Logistic và các tỉ lệ

2.4.3.1 Định nghĩa ham logistic

Một ham Logistic chuẩn là một hàm Sigmoid, nhận bất ky dau vao thuc t va xuat

ra giá trị từ 0 đến 1 Đối với logit, điều này có nghĩa là với bat kỳ tỉ lệ logit đầu vào sẽ có

đâu ra là xác suât Hàm Logistic chuân được định nghĩa như sau:

et 1

o(t) ~ et+1 1+ert

Minh họa, trường hợp t liên tục trong khoảng từ -6 đến 6 ta có

Giả sử t là một hàm tuyến tính một biến x khi đó ta có:

t= pot Bi

14

Trang 17

Và khi đó, ta có thể có ham logistic tổng quát dang p(x) > (0,1) là:

1

1+e~ (o+1#1)

P(x) = o(t) =

Như trong mô hình Logistic, xác suất p(x) được hiểu là phụ thuộc vào giá trị đầu

ra của Y =1 thay vì Y=0 Rõ rang, các biến có độ phản hồi Y; là không giống nhau với

các diém dữ liệu Xi Vì vậy ta có ma trận X và các tham sô chia sẻ B

Đặt By + fạx = WTx khi đó ta sẽ có công thức tính xác suất cho ham logistictổng quát có dạng như sau:

- Hàm tăng trên miền xác định

- Hàm đối xứng qua diém (0, 1⁄2), không phải hàm chan cũng không phải hàm lẻ

- BỊ giới hạn trên và dưới

- Không có cực trị địa phương

- Tiệm cận ngang: y = 0 vay=1

- Không có tiệm cận đứng

- Mượt (smooth) nên có đạo hàm mọi nơi, có thê được lợi trong việc tôi ưu ham

Sigmoid Tính chất của logistic regression

15

Trang 18

2.4.3.3 Hồi quy Logistic được sử dụng nhiều trong bài toán phân lópHồi quy Logistic là bài toán hồi quy nhưng lại được sử dụng nhiều cho các bàitoán phân lớp Việc xác định một điểm dữ liệu thuộc các lớp khác nhau sau khi đã xây

dựng được mô hình sẽ tùy thuộc vào xác suất của điểm dit liệu đó là:

P (y = 1)1 x; w); P (y = Olx; w)

Néu lớp nào có xác suất lớn hơn thì điểm dữ liệu sẽ được kết luận thuộc lớp đó

Do tổng của hai xác suất trong công thức trên là 1, vậy ta chỉ cần xác định xác suất P (y =

1) | x; w) có lớn hon 0,5 hay không.

Ưu điểm của phương pháp Hồi quy Logistic: Học dự đoán thay vì phân 25 lớp

ra xác suất của lớp sẽ hợp lý hơn Hồi quy Logistic dùng hàm phân lớp phi tuyến tính nên

thường thuộc các mô hình cho kết quả tốt hơn

2.4.3.4 Đường ranh giới của Hồi quy Logistic là một siêu phẳng

Như ở trên đã chỉ ra, rõ ràng khi điểm dữ liệu có đầu ra xác suất là lớn hơn 0.5 thì

thuộc lớp 1 vậy ta có:

1

eTFW'x

Như vậy, tập hợp các điểm dit liệu thuộc lớp 1 tạo thành một nửa không gian 0 T

w X > và tập hợp các điểm dữ liệu còn lại thuộc nửa không gian ngược lại Vậy, ranh giớicủa hai nửa không gian là siêu phăng 0 T w x = Điều này dẫn đến phân lớp cua logistic

regression được coi là một bộ phân lớp tuyến tính

2.4.3.5 Hồi quy Logistic không yêu câu giả thiết có thé phân tách tuyến tínhHồi quy Logistic lợi thé hơn so với PLA là giả thiết của dữ liệu đầu vào theo hailớp không cần yêu cầu phân tách tuyến tính Tuy vậy, ranh giới tìm được vẫn ở có dạng

tuyến tính Vì vậy, mô hình này chỉ phù hợp với dạng mô hình đữ liệu chỉ có một số điểm

dữ liệu phá vỡ tính phân tách tuyến tính của hai lớp hay nói cách khác nó gần với phân

tách tuyến tính

16

Trang 19

2.4.3.6 Ngưỡng quyết định có thể thay đổiViệc xây dựng ngưỡng phụ thuộc vào P (y = I) | x; w); vì vậy ta hoàn toàn có thélựa chọn thay đổi ngưỡng phù hợp với mục đích của bài toán Ví dụ, nhiều trường hợp,việc đánh giá nội dung tin nhắn trên một lĩnh vực nào đó trên mạng xã hội là quan trọng.

Vậy đề tránh chỉ tiêu này có sự nhằm lẫn giữa đánh giá đúng sai thì xác suất lựa chọn

ngưỡng hoàn toàn có thé thay đồi từ 0.5 thành 0.6 hoặc ngược lại đánh thành 0.4 tùy vào

yêu câu của bài toán đánh giá.

17

Trang 20

CHƯƠNG 3: UNG DUNG PHAN TÍCH QUAN DIEM VỚI BỘ DU LIEU TIN

NHAN TWITTER

3.1 Hé thong phan tich quan diém

Hiện nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền dữ

liệu khác nhau nhưng đêu bao gôm các bước chính như sau:

Huan luyện mô hình

Danh giá mô hình

:

Trực quan hóa

Dashboards biểu diễn

kết quả Python, Google API và

| Tableau Desktop

Đề xuất |

Hình 3 1: Quy trình phân tích quan điểm

18

Trang 21

- Thu thập, phân tích, chuẩn bị dữ liệu: thành phan tự động lấy dữ liệu, cụ thé

là những phản hồi, bình luận của khách hàng từ các hệ thống trực tuyến, các trang web

đánh giá của người dùng hay các cộng đông mạng xã hội.

» Tiên xử lý dữ liệu và gan nhãn: tại bước này có nhiệm vu xử lý dữ liệu, gôm

các công việc như: chuân hóa chữ thường, tách từ, loại bỏ dâu câu, các ký tự đặc biệt Dữ

liệu sẽ được làm sạch, chuân hóa rôi gan nhãn làm đâu vào cho bước tiép theo.

* Trích chọn đặc trưng: sử dụng kỹ thuật biéu diễn văn bản như mô hình Bag ofword (Bow), Term Frequency — Inverse Document Frequency (TFIDF), N-Gram dé biéu

diễn các văn ban dau vào thành các vector đặc trưng.

- Lựa chọn mô hình học máy (Machine Learning): xây dựng mô hình huấn luyện

và dự đoán cho các mô hình truyền thống Mô hình huấn luyện sử dụng tập dữ liệu huấn

luyện làm đầu vào và có nhiệm vụ học một mô hình dự đoán Mô hình dự đoán có nhiệm

vụ tính toán đê phân lớp quan điêm cho các vector biêu diễn văn bản từ đâu vào.

3.2 Tổng quan về bộ dữ liệu tin nhắn Twitter

Bài nghiên cứu sử dụng bộ dữ liệu những tin nhắn bình luận ở trên mạng xã hộiTwitter Mỗi người khác nhau sẽ có quan điểm đánh giá khác nhau không theo một chuẩnquy tắc ngữ pháp nào Bộ dữ liệu là tổng hợp các bình luận về rất nhiều chủ đề được quantâm hiện nay, bộ dữ liệu được chia làm 2 tệp dữ liệu Tệp dữ liệu đầu tiên là tệp dữ liệu

twitter_trainning.csv với 74682 value và đã được phân chia sẵn theo bồn thé loại:

19

Trang 22

1 train=pd.read_csv('D://Chuyende//twitter_training.csv', header=None)

2 train

0 2401 Borderlands Positive im getting on borderlands and i will murder yo

1 2401 Borderlands Positive ! am coming to the borders and | will kill you

2 2401 Borderlands Positive im getting on borderlands and i will kill you

3 2401 Borderlands Positive im coming on borderlands and i will murder you

4 2401 Borderlands Positive im getting on borderlands 2 and i will murder

T4677 9200 Nvidia Positive Just realized that the Windows partition of my

T4678 8200 Nvidia Positive Just realized that my Mac window partition is

T4679 8200 Nvidia Positive Justrealized the windows partition of my Mac

74680 8200 Nvidia Positive Justrealized between the windows partition of

74681 9200 Nvidia Positive Just like the windows partition of my Mac is L

74682 rows x 4 columns

Hình 3 2 Tép dữ liệu tin nhắn Twitter sử dung dé huấn luyện

- Positive: Phản hồi mang tính tích cực

- Negative: Phản hồi mang tính tiêu cực

- Neutral: Phản hồi mang tính trung tính

- Irrelevant: Phản hồi không liên quan đến chủ dé

Tp dữ liệu thứ hai là tệp dữ liệu twitter_ validation.csv là tệp dữ liệu sử dụng dé thầm

định

20

Trang 23

1 val=pd.read_csv('D://Chuyende//twitter_validation.csv', header=None)

2 val

0 1 2 3

0 3364 Facebook Irrelevant | mentioned on Facebook that! was struggling

1 352 Amazon Neutral BBC News - Amazon boss Jeff Bezos rejects clai

2 8312 Microsoft Negative @Microsoft Why do | pay for WORD when it funct

3 4371 CS-GO Negative CSGO matchmaking is so full of closet hacking

4 4433 Google Neutral Now the President is slapping Americans in the

995 4891 GrandTheftAuto(GTA) Irrelevant sy Toronto is the arts and culture capital of

996 4359 CS-GO Irrelevant tHỊS IS ACTUALLY A GOOD MOVE TOT BRING MORE VI

997 2652 Borderlands Positive Today sucked so it’s time to drink wine n play

998 38069 Microsoft Positive Bought a fraction of Microsoft today Small wins.

999 6960 johnson&johnson Neutral Johnson & Johnson to stop selling talc baby po

Hình 3 3: Tép dữ liệu tin nhắn Twitter thẩm định

3.3 Tiền xử lý dữ liệu và gán nhãn

Tiền xử lý dữ liệu và gán nhãn là một trong những bước quan trọng nhất trong

khai thác dữ liệu, đặc biệt là trong khai thác dữ liệu văn bản vì có rất nhiều sự khác biệt

về nội dung văn bản trên các kênh truyên thông điện tử.

21

Trang 24

3.3.1 Trực quan hóa dữ liệu

Trang 25

Tiếp theo, ta cần biết các từ phố biến trong từng hạng mục, dé trực quan hóa phannày một cách dé nắm bắt nhất, ta sẽ sử dụng thư viện WordCloud của Python, dưới đây làphần trực quan thực hiện trên tệp dữ liệu trainning.

w1n https + ead.

assassin s unk

io E ị nen SG well

n feel ° Cal yy beaut ful Look really

XSF! kno excited nay people

nice awesome : 5

finally league MaKe ng, > tae

s creed today red dead _new.thing

Hình 3 6 :Những từ ngữ thường xuyên xuất hiện ở muc Positive

23

Trang 26

wes make didn t

ll goog]

even

need Đ “=still aay

ve bad: t1me + xbox

Trang 27

twitch rypeople pubg mdoesn t

thing ,,,, 0CCUurred sees

amazingeveryone ve

yutu See detallsS best

call thank italy italysee

onesta ing team

Tiêu đề	Ứng Dụng Mô Hình Hồi Quy Logistic Trong Phân Tích Cảm Xúc Trên Mạng Xã Hội Twitter
Tác giả	Định Nhật Minh
Người hướng dẫn	TS. Nguyễn Quang Huy
Trường học	Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành	Toán Kinh Tế
Thể loại	chuyên đề tốt nghiệp
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	55
Dung lượng	10,66 MB