Mục tiêu hướngđến của phân tích quan điểm là xây dựng các hệ thống tự động xác định các quan điểm, tinh cảm, đánh giá, thái độ và cảm xúc của con người cho các thực thể hoặc các thuộc tí
Trang 1TRƯỜNG ĐẠI HỌC KINH TE QUOC DAN
KHOA TOAN KINH TE
Giảng viên hướng dẫn: TS Nguyễn Quang Huy
Họ và tên sinh viên: Định Nhật Minh
Mã sinh viên: 11193387
-Lớp chuyên ngành: Toán Kinh tê 61
HÀ NỘI - 2022
Trang 2LOI CAM ON
Dé hoàn thành khóa luận nay, em xin tỏ lòng biết on sâu sắc đến TS Nguyễn Quang Huy
đã tận tình hướng dẫn trong suốt quá trình viết Chuyên đề tốt nghiệp
Em chân thành cảm ơn quý thay, cô trong khoa Toán Kinh tế, Trường Đại Học Kinh tế
Quốc dân đã tận tình truyền đạt kiến thức trong những năm em học tập Với vốn kiến
thức được tiếp thu trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu
khóa luận mà còn là hành trang quý dé báu dé em bước vào đời một cách vững chắc và tự
tin.
Cuối cùng em kính chúc quý thay, cô dồi dao sức khỏe va thành công trong sự nghiệp
trồng người cao quý
Em xin chân thành cảm ơn các thây cô!
Trang 3LỜI CAM ĐOAN
Tác giả xin cam đoan Chuyên đề tốt nghiệp này là tự do bản thân thực hiện, có sự
hỗ trợ từ giáo viên hướng dẫn và không sao chép các công trình nghiên cứu của người
khác Các dữ liệu thông tin thứ cấp sử dụng trong Chuyên đề là có nguồn gốc và được
trích dẫn rõ ràng.
Tác giả xin chịu trách nhiệm hoàn toàn về lời cam đoan nay!
Sinh viên Dinh Nhat Minh
Trang 4DANH MỤC HÌNH ANH TH ghe tegtrenegtegtrertrertretrertrertrertrertretrertrertrertrerretrertrertreeree 4
CHUONG 1: TONG QUAN —- ,ô,ÔỎ 5
In e0 in 5 1.2 Mure ti@u Va nhi6Mm VU ou 6
1.3 BO CUC cecccccscescssessssssssscsussusssessessucsussusssscsucsussussasssscsucsussatsasssucsussussussucsussutsatssecsussussassaeesecsussetsneease 6
CHƯƠNG 2: CƠ SỞ LY LUẬN uisccscsssssssssssssssssesssssesssssessssssesenssocssnesessscssessacssessseeseesees 8
2.1 _ Khái niệm phân tích cảm XÚC - «5 E1 9191 1012111 vn TH Hi TH Thi HH ghế 8
2.2 Tình hình nghiên cứu thé giới ¿- ¿+ ©++E+++EE++EESEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrrkerkrre 8
2.3 Phương pháp học máyy - «k1 vn TT HT TT HT TH TH HH TH HH re 10
2.3.1 Học có giám Sất - CS s11 TH Hà HT TT HT TT HT TH TH TH Hi 10 2.3.2 Học không giám sát - «5 11k TH TH HT To Hà HT Tà HH TT Hàn 10
2.3.3 Phương pháp tiếp cận dựa trên luật cesseccssscsesssssssesssesssessssssssssssssesssscssecssesssesssssecarecsseessesses 11 2.3.4 Phương pháp tiếp cận dựa vào NOC MAY esessesssesssesssesssesssesssessesssesssecssesssessusssssesesssecssesssesses 11 2.4 Phương pháp Hồi quy Logistic (Logistic regresSiOn) -2- sc©cx2xxecxerxeerxeerxrrrxerrerree 12
Z TNN 1.18 nh eẮ 12 2.4.2 Mô hình LOGISTIC SÁT TH TT TH HT Tà HH TH HT Tà Hàn kệ 12 2.4.3 Hàm Logistic và các ti ÏỆ - - + + 1n vn nh TH TH HH TH TH TH HT nh Tp 14
2.4.3.1 Định nghĩa ham logistic (+ 11121 E1 91 519311 HH TT HH TH HT HH ngờ 14
2.4.3.2 Các tính chất hàm LLOgÏSfC ¿5-55 2S ỆEESEEEEEE2EEE2112711271271211711 71111.211.111 cre 15
2.4.3.3 Hồi quy Logistic được sử dụng nhiều trong bài toán phân lớp -. ¿- ¿5c ©cs++zscc+s 16 2.4.3.4 Đường ranh giới của HOi quy Logistic là một siêu phẳng - 22-552 ©cscccseczscrrs 16
2.4.3.5 Hồi quy Logistic không yêu cầu giả thiết có thé phân tách tuyến tinh - 16 2.4.3.6 Ngưỡng quyết định có thé thay đổi - ¿-5¿25£©2S£2SE‡EEESEkESEECEEEEEEEEEEEEEEEkrrkrrrkrrrerree 17
CHƯƠNG 3: UNG DUNG PHAN TÍCH QUAN DIEM VỚI BỘ DU LIEU TIN
NHẮN TWITTER s 5< s< se vsseEvseeEvseersseersseersssersssersserrssersssersssersssesssee 18
3.1 Hệ thống phân tích quan điểm -2-++++©++++E++vEEE+2EEESEEEEEEEtEEEErEEkrerkkrrrkkerrksrrrrrrrree 18
3.2 Tông quan về bộ dữ liệu tin nhắn T'Wi€T ¿2c ©+<+SE£2EE£SEE2EEEE13E7122712211211711711211 21121 cr1 19 3.3 Tiền xử lý dữ liệu và gán nhãn - 2-22 +s£++E+SEE£EEEEEEE2EEE2E121171571127171171111171 11111 cre 21
3.3.1 True quan hoa ditt 0 22
3.3.2 Tid xt LY 00018 7 27
CHUONG 4: THUC NGHIEM VA ĐÁNH GIÁ
4.1 Xây dựng mô hình - ó6 41211 1 TT TH Tu TH HH Tp
Trang 54.2 Phương pháp đánh giá mô hình
4.3 Kết quả thực nghiệm
CHUONG 5: KET LUẬN "— _ "— ".ÔỎ 40
5.1 Kết QUA at AUOC T1 ằ.e
5.2 Han chế va định hướng trong tương lai
TÀI LIEU THAM KHẢO 2s se ssevsssessseessersserssersserssersserssersssessse 4
PHU LUC cesccssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssss 42
Code xay dung m6 hinh T88 42
Trang 6Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
Hình 3.
DANH MỤC HÌNH ANH
1: Quy trình phân tích quan điểm - 2-2 2 + x+Ex££++£x££x++xezxe+rezrerrxerxee 18
2 Tệp dữ liệu tin nhắn Twitter sử dụng dé huấn luyỆn -ccc<c<eckesees 20
3 Tệp dit liệu tin nhắn Twitter thâm định - 55c ©5z25+2z+2z+zzzrxerxered 21
4: Trực quan hóa tệp dữ liệu TrainnIng - -. «+ xxx ngư 22
5: Trực quan hóa tệp dữ liệu kiểm định c6 xe tckeEEkeEerkekerkexerkererree 22
6 :Những từ ngữ thường xuyên xuất hiện ở mục Positive - -‹: ‹- 23
7 :Những từ ngữ thường xuyên xuất hiện ở mục Negative -‹ -: 24
8: Những từ ngữ thường xuyên xuất hiện ở mục IrreleVant -. -‹- + 25
9: Những từ ngữ thường xuyên xuất hiện ở mục Neutral - -.: - 26
10: Mức độ quan tâm & cảm xúc phân loại theo các chủ đề . - 27
11: Tệp dữ liệu trainning sau khi được thêm cỘI - - 5 ++<£+<++sc+sxsx2 28
12: Tệp dữ liệu validation sau khi được thêm cỘt - <5 +-<<++<++<cx+see 28 13: Tệp dữ liệu trainning sau khi đã xử lý - -.- 5s kS*sssiieirskg 29
14: Số lượng từ sau khi được Xử lý ¿- ¿¿+e++k+Ek+EkeExerkerkerkerkerrerrrrree 30
15: Câu bình luận sau khi được tách từ . - 55+ +33 kksssseeseeee 30
16: Minh họa một số từ dừng từ thư viện NLTK :¿-+5cs++-5++¿ 31
Trang 7CHƯƠNG 1: TONG QUAN
Phân tích cam xúc là một lĩnh vực được các nhà nghiên cứu va các nhà phát triển
trong lĩnh vực Internet dành nhiều sự quan tâm trong thập niên vừa qua Mục tiêu hướngđến của phân tích quan điểm là xây dựng các hệ thống tự động xác định các quan điểm,
tinh cảm, đánh giá, thái độ và cảm xúc của con người cho các thực thể hoặc các thuộc
tính của chúng được thể hiện trong các văn bản bằng ngôn ngữ tự nhiên
11 Giới thiệu
Các thực thé mà phân tích quan điểm quan tâm rat rộng Nó có thé là các thông tin
về thị trường, các sản phẩm hoặc dich vụ, các sự kiện nồi bật, những thông tin về kinh tế
- chính trị Các thực thể này thường được thể hiện qua các cuộc thảo luận, tin tức, bình
luận, phản hồi đánh giá Dé hệ thống có thé tự động thực hiện các nhiệm vụ đề ra, phân
tích quan điểm dựa trên ngôn ngữ tính toán, khai thác văn bản, truy vấn thông tin, xử lý
ngôn ngữ tự nhiên, thông kê, phân tích dự đoán và học máy
Phân tích quan điểm thường sử dụng kết hợp giữa các giải pháp xử lý ngôn ngữ tựnhiên và phương pháp trong học máy đề phân lớp, trích xuất và xác định quan điểm được
thể hiện trong văn bản hoặc tài liệu
Trong những năm gan đây với sự phát triên mạnh mẽ của công nghệ và đặt biệthơn là các mạng xã hội, không những cung cấp cho người dùng việc trao đổi và chia sẻ
các thông tin với nhau mà còn giúp quảng bá sản pham hay các sự kiện của công ty, tô
chức đến với mọi người Việc mạng xã hội phát triển đem theo các hệ quả rất lớn kèm
theo Hiện nay có khá nhiều các mạng xã hội như Twitter, Facebook, lên tới hàng tỷ
lượt sử dụng Ngày nay, thay vì sử dụng cách thu thập đánh giá, phát phiếu thăm dò cũngnhư hỏi trực tiếp, trưng cầu ý kiến qua các trang web, các cá nhân hay tô chức đã phân
tích tự động lượng dữ liệu đánh giá lớn từ các trang mạng xã hội, các diễn đàn, các trang
đánh giá sản phẩm nhằm tận dụng nguồn thông tin hữu ích giúp tiết kiệm phan nào chi
phí
Trang 8Hành vi sử dụng mang xã hội của người dùng hiện tại không chi nằm ở mức giảitrí, kết nối mọi người với nhau mà còn với rất nhiều nhu cầu cá nhân như mua bán, quảng
cáo v.v Với sự phát triển về công nghệ như hiện nay, các doanh nghiệp đã có các chiếndịch Marketing cũng như quảng bá doanh nghiệp trên các nền tảng mạng xã hội Các nền
tảng mạng xã hội hiện nay cũng chính là một thị trường cực lớn mà các doanh nghiệp,
nhà sản xuất hướng đến nên việc nắm bắt được cảm xúc khách hàng khi trải nghiệm sản
phẩm, khi quảng bá thương hiệu là một điều vô cùng cấp thiết mà doanh nghiệp nào cũng
muôn hướng tới.
Với sự phát triển của mạng xã hội như hiện nay, các mạng xã hội có hàng tỷ lượt
sử dụng, vấn đề đặt ra là làm thế nào biết được một chủ đề hoặc một sự kiện có bao nhiêu
đánh giá tiêu cực hay tích cực, trong khi số lượng đánh giá rất lớn, vượt qua khả năng củacon người Chính vì vậy bài toán phân tích quan điểm được đặt ra dé giải quyết van đề
trên Hiện nay, có nhiều kỹ thuật cho bài toán nhưng hiệu quả nhất là sử dụng kỹ thuật
học máy.
Vi ly do đó, luận văn này trình bày các giải thuật dựa trên lý thuyết máy học và
mô hình Logistic Regression dé đưa ra các mô hình nhằm phân tích cảm xúc cho các dữ
liệu tin nhăn trên nên tảng mạng xã hội Twitter
1.2 Muc tiêu và nhiệm vu
Luận văn định hướng tìm hiểu phương pháp phân tích cảm xúc, trên cơ sở đó đề xuất
phương pháp và thử nghiệm các kỹ thuật học máy trong bài toán phân tích cảm xúc, cụ
thể là các tin nhắn bình luận trên nền tảng mạng xã hội Twitter, từ bộ dữ liệu thu thập, em
xin được dé xuất nghiên cứu và đưa ra mô hình ứng dụng Mô hình bao gồm các bước từ
thu thập dữ liệu, tiền xử lý dữ liệu, vectơ hóa dữ liệu đến lựa chọn mô hình học máy và
huấn luyện Cuối cùng là đưa ra những đánh giá hiệu quả của thuật toán, bộ dữ liệu, kết
quả đạt được và đánh giá về tính khả thi ứng dụng mô hình.
143 Bố cục
Luận văn được bô trí thành bôn chương có nội dung như sau:
6
Trang 9Chương 1: Giới thiệu tổng quan về bài toán phân tích cảm xúc thông qua tin
nhăn, bình luận trên mạng xã hội Twitter Mục tiêu và nhiệm vụ cua bai chuyên dé
Chương 2: Đưa ra các nghiên cứu trước đây liên quan tới việc phân lớp cảm xúc
và đưa ra các lý thuyết về học máy, thuật toán Logistic Regression, các phương pháp biến
đổi dữ liệu và các phương pháp đánh giá mô hình.
Chương 3: Ứng dụng phân tích quan điểm với bộ dữ liệu
Chương 4: Thực nghiệm và đánh giá Xây dựng cài đặt mô hình, huấn luyện môhình tiến hành thử nghiệm, đánh giá mô hình
Kết luận: Tổng kết quá trình thực hiện luận văn, những kết quả đạt được và địnhhướng phát triển bài toán trong tương lai
Trang 10CHƯƠNG 2: CƠ SỞ LÝ LUẬN
2.1 Khai niệm phân tích cảm xúc
Trong những năm gần dây, phân tích cảm xúc (SA) được cộng đồng nghiên cứuthuộc lĩnh vực NLP được đông đảo cộng đồng trong lẫn ngoài nước rất quan tâm Đây là
quá trình xác định và phân loại văn bản thành các cảm xúc khác nhau, ví dụ cảm xúc tích
cực, tiêu cực hoặc trung tính, hoặc cảm xúc chăng hạn như vui, buôn, tức giận hoặc ghêtom dé xác định thái độ của con người đối với chủ thê hoặc thực thể cụ thé Phân tích
cảm xúc cũng là một trong những công tác quan trọng trong lĩnh vực NLP Nó không chỉ
có ý nghĩa quan trọng trong học thuật, nghiên cứu mà còn có ý nghĩa cực kì thiết yếu
trong các ngành công nghiệp — dịch vụ, cụ thê là việc nhận biết hành vi và thái độ của
khách hàng về sản phẩm và dịch vụ mà họ sử dụng Với ngành công nghiệp - dịch vụ nóichung, SA được sử dụng như một công cụ mạnh mẽ để tự động hóa quy trình phân tích
và đánh giá ý kiến của người dùng Đối với các lĩnh vực kinh doanh hiện nay nói riêng,
các ý kiến người dùng đó thường được thu thập từ các trang mạng xã hội, hoặc các trangthu thập nhận xét của khách hàng về chất lượng cũng như mức độ hài lòng Hiện nay, bàitoán phân tích cảm xúc có ba cấp độ chính đó là cấp độ câu văn (sentence-level), văn bản(document-level), và khía cạnh (aspect-level) Ở cấp độ câu văn, mục tiêu của bài toán là
phân loại một câu văn thành các lớp tiêu cực (negative), tích cực (positive), hoặc trung
tính (neutral) Cấp độ văn bản được dùng dé xác định mức độ cảm xúc của một đoạn văn(gồm hai hay nhiều câu văn) là tiêu cực, tích cực, hay trung tính Và cấp độ khía cạnh
được dùng để xác định mức độ cảm xúc cho mỗi khía cạnh của thực thé đề cập trong mộtvăn bản Trong phạm vi của khóa luận, giới hạn nghiên cứu nhóm sẽ chỉ năm ở mỗi khía
cạnh cấp độ câu văn.
2.2 _ Tình hình nghiên cứu thế giới
Từ những năm 2000 cho đến nay, phân tích ý kiến cũng như phân tích ý kiến theokhía cạnh đã và đang thu hút được các nhà nghiên cứu quan tâm, phát triển và đưa
vào ứng dụng thực tế Khái niệm phân tích cảm xúc (sentiment analysis) xuất hiện lầnđầu tiên trong công trình của Nasukawa và Yi Khái niệm phân tích ý kiến (opinion
Trang 11mining) xuất hiện lần đầu tiên trong công trình của Dave, Lawrence and Pennock.
Tuy nhiên, nghiên cứu được xem là đầu tiên đặt nền móng cho phân tích ý kiến là
nghiên cứu của Pang và các cộng sự Ké từ đó các nghiên cứu trong bài toán này ngàycàng được quan tâm và phát triển Công trình đã tiến hành nghiên cứu về phân tích ý
kiến từ các phản hồi của người dùng đối với miền dữ liệu điện ảnh (movie domain)
với hai phân lớp được quan tâm đến trong nghiên cứu là tích cực và tiêu cực Ba
phương pháp máy học (Naive bayes, maximum entropy classification và support
vector machine) được sử dung dé giải quyết van dé phân loại các ý kiến trong nghiêncứu này Năm 2010, Thet và các cộng sự tiễn hành thực hiện nghiên cứu không chỉ
quan tâm đến việc phân tích ý kiến mà còn phân tích chỉ tiết các định hướng cảm xúc
và sức mạnh của cảm xúc của đánh giá đối với các khía cạnh khác nhau trong miền
dữ liệu điện ảnh Phương pháp được dé xuất là sử dụng điểm số cảm xúc của bộ
SentiWordNet dé tiến hành tính toán cảm xúc cho các khía cạnh khác nhau Công
trình của Kim Schouten và Flavius Frasincar giới thiệu tổng quan về bài toán phân
tích ý kiến trên khía cạnh Trong công trình này, tác giả đưa ra các bài toán con của
bài toán phân tích ý kiến theo khía cạnh, cách phương pháp đánh giá và khảo sát các
mô hình và kết quả thử nghiệm được đề xuất đưa vào nghiên cứu trước đó đối với các
bài toán con khác nhau Haque va cộng sự đã sử dụng các bai đánh giá sản phẩm của
Amazon trong ba lĩnh vực: điện thoại di động và phụ kiện, âm nhạc và thiết bị điện
tử Họ đã phân loại cảm xúc thông qua Linear SVM, Multinomial Na "1ve Bayes,
Stochastic Gradient Descent, Random Forest, Hồi quy logistic và Cây quyết định
Singla và cộng sự đã thực hiện phân tích tình cảm các đánh giá về điện thoại di độngtrên Amazon, họ đã phân loại văn bản thành các phân cực bao gồm tích cực và tiêu
cực, và cảm xúc tức giận, mong đợi, sợ hãi, vui vẻ, buồn bã, ghê tom, ngạc nhiên và
tin tưởng Việc phân loại được thực hiện thông qua Logistic Regression với đến độ
chính xác là 84,85% Và, kết quả mang lại, thương hiệu Samsung nhận được nhiều
phản hồi tích cực nhất từ khách hàng Những kết quả này rất hữu ích cho các nhà sản
xuât vì họ có thê làm việc trên các phản hôi đê cải thiện chât lượng sản phâm.
Trang 122.3 Phuong pháp hoc máy
Học máy là một lĩnh vực nhỏ của khai phá dữ liệu sử dụng các phương pháp thống kê,
mô hình toán và sức mạnh tính toán của máy tinh dé giả lập phương pháp học của con
người bang dữ liệu Lượng dữ liệu càng lớn, độ chính xác cua mô hình khai pha dữ liệu
càng cao Trong lịch sử của loài người, chúng ta luôn luôn học từ lỗi sai của mình hoặc
tìm cách dé làm tốt hơn một van đề nhất định Các chương trình máy tính thông thường
hầu hết chỉ sử dụng logic và không thể sử dụng kết quả đầu ra để củng cố cho quá trình
thực thi các câu lệnh, vậy nên các chương trình máy tính đó chỉ có thé trả lại một hoặc
một vài thông tin có định từ một dữ liệu đầu vào Đến năm 1952, Samuel là nhà khoa hocđầu tiên phát minh ra một chương trình có thé tự chơi cờ ca-rô và có thé học được nhữngnước cờ đề cho những lần sau có thể chơi tốt hơn (Claude Sammut, 2017, pp 1123 -
1124) Các phương pháp học máy có thê chia nhỏ hơn thành học có giám sát và học
không giám sát, tuỳ thuộc vào yêu câu bài toán và dữ liệu dau vào.
2.3.1 Học có giám sát
Học có giám sát (supervised learning) là quy trình học máy sử dung cả dữ liệu đầu
vào (các biến độc lập) và dữ liệu của biến phụ thuộc hay còn gọi là nhãn của dữ liệu
trong quá trình học dé xây dựng nên mô hình có thể đưa ra được đầu ra là biến phụ thuộc
(Claude Sammut, 2017, pp 1213-1214) Đối với các bài toán hoc có giám sát, dữ liệu đầuvào của bài toán là tập m là mẫu dữ liệu vector x gới ¡ = 1, ,m và nhãn tương ứngđược đánh chính xác qua quan sát thực tế y Mục đích chính của phương pháp này là
sử dụng dữ liệu đầu vào nói trên dé xây dựng một mô hình ƒ(x;Ø) = 67@ Bởi vì
vectors Ø được tính toán trực tiếp từ tap x nên toàn bộ các vector đầu vào đều có ảnh
hưởng it nhiều đến mô hình Vậy nên, việc trích chọn ra được các đặc trưng, biến tốt để
có thê tăng khả năng chính xác của mô hình được xây dựng nên
2.3.2 Học không giám sát
Học không giám sát (unsupervised learning) là quá trình sử dụng đữ liệu đầu vào
dé tìm ra được câu trúc của dữ liệu, từ đó gợi ý ra được các quy luật, phân nhóm cho các
10
Trang 13dữ liệu hiện tại và sau này (Claude Sammut, 2017, p 1304) Việc học không giám sát là
tìm ra một đại diện © cho mô hình ®(x) Từ đó ta có thể tối ưu được © dé các vectors đạidiện @ = ®(z;®) được tối ưu hơn là dữ liệu đầu vào x
2.3.3 Phương pháp tiếp cận dựa trên luật
Các hệ thống này tự động thực hiện phân tích quan điểm dựa trên một tập hợp cácluật được tạo thủ công do con người tạo ra giúp xác định tính chủ quan, quan điểm tích
cực, quan điểm tiêu cực, trung tính hoặc chủ đề của một ý kiến Các luật này có thé bao
gồm các kỹ thuật NLP khác nhau được phát triển trong ngôn ngữ hoc tính toán như tạo
mã nguồn, mã hóa, phân tích cú pháp và dựa vào danh sách từ điển và từ vựng
(LexIcons) Cơ chế hoạt động cơ bản của hệ thống 16 dựa trên luật: 1 Xác định hai danh
sách các từ phân cực, các từ tiêu cực như quá xấu, quá tệ, chat lượng quá kém, tồi qua
và các từ tích cực như rất tốt, rất đẹp, thật tuyệt 2 Đếm số từ tích cực và tiêu cực xuất
hiện trong một văn bản nhất định 3 Nếu số lần xuất hiện từ tích cực nhiều hơn số lần
xuất hiện từ tiêu cực, hệ thống sẽ trả về cảm xúc tích cực và ngược lại Nếu các con số làchăn, hệ thống sẽ trả về một cảm giác trung tính Các hệ thống dựa trên luật rất đơn giản
vì chúng không tính đến cách các từ được kết hợp theo một trình tự Tắt nhiên, các kỹ
thuật xử lý nâng cao hơn có thé được sử dụng va các luật mới được thêm vào đề hỗ trợ
các cách diễn đạt và từ vựng mới Tuy nhiên, việc thêm các luật mới có thể ảnh hưởng
đến các kết quả trước đó và toàn bộ hệ thống có thể trở nên rất phức tạp Vì các hệ thốngdựa trên luật thường yêu cầu tinh chỉnh và bảo trì, chúng cũng sẽ cần dau tư thường
xuyên.
2.3.4 Phương pháp tiếp cận dựa vào học máy
Các phương pháp tiếp cận dựa vào học máy không dựa trên các luật được tạo thủ
công, mà dựa trên các kỹ thuật máy học Một nhiệm vụ phân tích quan điểm thường được
mô hình hóa như một bài toán phân lớp, theo đó một bộ phân lớp được cung cấp đầu vào
là một văn bản và trả về đầu ra là một danh mục, ví dụ: tích cực, tiêu cực hoặc trung tính.
Một bộ phân lớp học máy có thê được phát triển nếu nó được xây dựng dựa trên kho ngữ
11
Trang 14liệu huấn luyện cĩ chứa nhãn chính xác cho mỗi đầu vào Một số phương pháp tiếp cận
học máy là sử dụng tập dữ liệu đã biết dé đưa ra dự đốn kết quả đầu ra Các kỹ thuật
truyền thống yêu cầu hai bộ tài liệu: bộ huấn luyện và bộ kiểm thử Dé học các thuộc tínhkhác nhau của tài liệu, tập huấn luyện được sử dụng và đề đánh giá tập kiểm tra trình
phân lớp hiệu suất được sử dụng Các thuật tốn học máy được sử dụng phơ biến trong
bài tốn phân tích quan điểm: Nạve Bayes, Maximum Entropy, Support Vector Machine
(SVM), Logistic Regression, Deep Learning Các thuật tốn này cĩ hiệu quả trong bài
tốn phân tích quan điểm
2.4 Phương pháp Hồi quy Logistic (Logistic regression)
2.4.1 Giới thiệu
Một thuật tốn rất nổi tiếng trong thống kê được sử dụng dé dự đốn một số giá trị(Y) cho một tập hợp các tính năng (X) Thuật tốn Hồi quy Logistic thuộc học máy cĩ
giám sát dé phân loại dit liệu Mơ hình hồi quy Logistic áp dụng cho biến phụ thuộc là
biến định tính hoặc định lượng chỉ cĩ hai giá tri (cĩ hoặc khơng) hay nhị phân là 0 hoặc
1 Điều này phù hợp với bài tốn phân loại bình luận người dùng cụ thê là phân tích quan
điểm Đầu ra của bài tốn đĩ là xác định bình luận đĩ là tích cực hay tiêu cực
2.4.2 Mơ hình Logistic
Đầu tiên, ta sẽ xem xét mơ hình logistic như sau: Hãy xem xét một mơ hình cĩ haiyêu tố dự đốn, x¡ va x2, và một biến phản hồi nhị phân Y, mà chúng tơi biéu thị p = P (Y
= 1) Giả định mối quan hệ tuyến tính giữa các biến dự đốn và tỷ lệ cược log của sự kiện
Y = 1 Mối quan hệ tuyến tính này cĩ thé được viết dưới dạng tốn học sau (trong đĩ £ là
tỷ lệ cược log, b là cơ số của logarit và B là các thơng số của mơ hình):
Pp
b= logy 7s, = Bo + Pixs + Boxe
Cĩ thé sử dụng lũy thừa dé phuc hồi tỉ lệ cược ta cĩ:
——— = pBotBixitB2x2
1-p
12
Trang 15Bang thao tác đại số (chia cả tử và mẫu số cho bfð*#1#:†2#2) ta thu được xácsuất Y = 1 là:
bPo†1x1+2*2 1
p= pBotBix14+B2x2 + 1 = 1 + p~@Borthix1+B2x2) = Sp(Bo + Bix1 + 232)
Trong đó Sb là ham sigmoid với cơ sở b Công thức trên cho thay rang sau khi B; được sửa, chúng ta có thể dễ dàng tính toán tỷ lệ cược Y = 1 cho một quan sát nhất định,
hoặc xác suất Y = 1 cho một quan sát nhất định Trường hợp sử dụng chính của mô hìnhlogistic là đưa ra một quan sát (x1,x2) và ước tính xác suất p mà Y = 1 Trong hầu hết cácứng dụng, cơ số b của lôgarit thường được coi là e Tuy nhiên, trong một số trường hợp,
việc truyền đạt kết quả có thé dé dang hơn bằng cách làm việc trong cơ sở 2 hoặc cơ sở
10 Chúng tôi xem xét một ví dụ với b = 10 và By = —3,¡ =1,B =2
Cụ thể, mô hình là:
logio 1=; = ? = —3 + xX, + 2X2
Trong đó, p là xác suất của sự kiện khi Y=1
Có thé hiểu như sau:
Bo =—3 là chặn y Đó là tỷ lệ cược của sự kiện Y = 1, khi các yếu tổ dự đoán xi =xa= 0 Bằng cách tinh lũy thừa, chúng ta có thé thấy rằng khi x1 = xa= 0 tỷ lệ cược của
trường hợp Y = 1 là 1/ (1000 + 1) = 1/1001 Tương tự, xác suất của sự kiện Y = 1 khi x1
=x2= 0 có thê được tính là 1/ (1000 + 1) = 1/1001
Bi = 1 có nghĩa là tăng x1 lên 1 sẽ làm tăng tỷ lệ lên 1 Vì vậy, nếu x1 tăng 1, tỷ lệ
cược rằng Y = | tăng theo hệ số của 101 Lưu ý rằng xác suất của Y = | cũng đã tăng lên,
nhưng nó không tăng nhiều vì tỷ lệ cược đã tăng lên
8 = 2 có nghĩa là tăng x2 lên 1 sẽ làm tăng ty lệ lên 2 Vì vậy, nếu x2 tăng 1, tỷ
lệ cược răng Y = | sẽ tăng theo hệ số của 102 Lưu ý rằng anh hưởng của x2 lên tỷ lệ
13
Trang 16cược đăng nhập lớn gap đôi ảnh hưởng của x1, nhưng ảnh hưởng đến tỷ lệ cược lớn hơn
10 lần Nhưng ảnh hưởng đến xác suất của Y = 1 không lớn hơn 10 lần, nó chỉ ảnh hưởng
đến tỷ lệ cược lớn hơn 10 lần Đề ước tính các tham số B từ dữ liệu, người ta phải thực
hiện hồi quy logistic
2.4.3 Ham Logistic và các tỉ lệ
2.4.3.1 Định nghĩa ham logistic
Một ham Logistic chuẩn là một hàm Sigmoid, nhận bất ky dau vao thuc t va xuat
ra giá trị từ 0 đến 1 Đối với logit, điều này có nghĩa là với bat kỳ tỉ lệ logit đầu vào sẽ có
đâu ra là xác suât Hàm Logistic chuân được định nghĩa như sau:
et 1
o(t) ~ et+1 1+ert
Minh họa, trường hợp t liên tục trong khoảng từ -6 đến 6 ta có
Giả sử t là một hàm tuyến tính một biến x khi đó ta có:
t= pot Bi
14
Trang 17Và khi đó, ta có thể có ham logistic tổng quát dang p(x) > (0,1) là:
1
1+e~ (o+1#1)
P(x) = o(t) =
Như trong mô hình Logistic, xác suất p(x) được hiểu là phụ thuộc vào giá trị đầu
ra của Y =1 thay vì Y=0 Rõ rang, các biến có độ phản hồi Y; là không giống nhau với
các diém dữ liệu Xi Vì vậy ta có ma trận X và các tham sô chia sẻ B
Đặt By + fạx = WTx khi đó ta sẽ có công thức tính xác suất cho ham logistictổng quát có dạng như sau:
- Hàm tăng trên miền xác định
- Hàm đối xứng qua diém (0, 1⁄2), không phải hàm chan cũng không phải hàm lẻ
- BỊ giới hạn trên và dưới
- Không có cực trị địa phương
- Tiệm cận ngang: y = 0 vay=1
- Không có tiệm cận đứng
- Mượt (smooth) nên có đạo hàm mọi nơi, có thê được lợi trong việc tôi ưu ham
Sigmoid Tính chất của logistic regression
15
Trang 182.4.3.3 Hồi quy Logistic được sử dụng nhiều trong bài toán phân lópHồi quy Logistic là bài toán hồi quy nhưng lại được sử dụng nhiều cho các bàitoán phân lớp Việc xác định một điểm dữ liệu thuộc các lớp khác nhau sau khi đã xây
dựng được mô hình sẽ tùy thuộc vào xác suất của điểm dit liệu đó là:
P (y = 1)1 x; w); P (y = Olx; w)
Néu lớp nào có xác suất lớn hơn thì điểm dữ liệu sẽ được kết luận thuộc lớp đó
Do tổng của hai xác suất trong công thức trên là 1, vậy ta chỉ cần xác định xác suất P (y =
1) | x; w) có lớn hon 0,5 hay không.
Ưu điểm của phương pháp Hồi quy Logistic: Học dự đoán thay vì phân 25 lớp
ra xác suất của lớp sẽ hợp lý hơn Hồi quy Logistic dùng hàm phân lớp phi tuyến tính nên
thường thuộc các mô hình cho kết quả tốt hơn
2.4.3.4 Đường ranh giới của Hồi quy Logistic là một siêu phẳng
Như ở trên đã chỉ ra, rõ ràng khi điểm dữ liệu có đầu ra xác suất là lớn hơn 0.5 thì
thuộc lớp 1 vậy ta có:
1
P(y=]l)lx;w)>0.5 Sư —->0.5 © e WTx<1«<©WTx>0
eTFW'x
Như vậy, tập hợp các điểm dit liệu thuộc lớp 1 tạo thành một nửa không gian 0 T
w X > và tập hợp các điểm dữ liệu còn lại thuộc nửa không gian ngược lại Vậy, ranh giớicủa hai nửa không gian là siêu phăng 0 T w x = Điều này dẫn đến phân lớp cua logistic
regression được coi là một bộ phân lớp tuyến tính
2.4.3.5 Hồi quy Logistic không yêu câu giả thiết có thé phân tách tuyến tínhHồi quy Logistic lợi thé hơn so với PLA là giả thiết của dữ liệu đầu vào theo hailớp không cần yêu cầu phân tách tuyến tính Tuy vậy, ranh giới tìm được vẫn ở có dạng
tuyến tính Vì vậy, mô hình này chỉ phù hợp với dạng mô hình đữ liệu chỉ có một số điểm
dữ liệu phá vỡ tính phân tách tuyến tính của hai lớp hay nói cách khác nó gần với phân
tách tuyến tính
16
Trang 192.4.3.6 Ngưỡng quyết định có thể thay đổiViệc xây dựng ngưỡng phụ thuộc vào P (y = I) | x; w); vì vậy ta hoàn toàn có thélựa chọn thay đổi ngưỡng phù hợp với mục đích của bài toán Ví dụ, nhiều trường hợp,việc đánh giá nội dung tin nhắn trên một lĩnh vực nào đó trên mạng xã hội là quan trọng.
Vậy đề tránh chỉ tiêu này có sự nhằm lẫn giữa đánh giá đúng sai thì xác suất lựa chọn
ngưỡng hoàn toàn có thé thay đồi từ 0.5 thành 0.6 hoặc ngược lại đánh thành 0.4 tùy vào
yêu câu của bài toán đánh giá.
17
Trang 20CHƯƠNG 3: UNG DUNG PHAN TÍCH QUAN DIEM VỚI BỘ DU LIEU TIN
NHAN TWITTER
3.1 Hé thong phan tich quan diém
Hiện nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền dữ
liệu khác nhau nhưng đêu bao gôm các bước chính như sau:
Huan luyện mô hình
Danh giá mô hình
:
Trực quan hóa
Dashboards biểu diễn
kết quả Python, Google API và
| Tableau Desktop
Đề xuất |
Hình 3 1: Quy trình phân tích quan điểm
18
Trang 21- Thu thập, phân tích, chuẩn bị dữ liệu: thành phan tự động lấy dữ liệu, cụ thé
là những phản hồi, bình luận của khách hàng từ các hệ thống trực tuyến, các trang web
đánh giá của người dùng hay các cộng đông mạng xã hội.
» Tiên xử lý dữ liệu và gan nhãn: tại bước này có nhiệm vu xử lý dữ liệu, gôm
các công việc như: chuân hóa chữ thường, tách từ, loại bỏ dâu câu, các ký tự đặc biệt Dữ
liệu sẽ được làm sạch, chuân hóa rôi gan nhãn làm đâu vào cho bước tiép theo.
* Trích chọn đặc trưng: sử dụng kỹ thuật biéu diễn văn bản như mô hình Bag ofword (Bow), Term Frequency — Inverse Document Frequency (TFIDF), N-Gram dé biéu
diễn các văn ban dau vào thành các vector đặc trưng.
- Lựa chọn mô hình học máy (Machine Learning): xây dựng mô hình huấn luyện
và dự đoán cho các mô hình truyền thống Mô hình huấn luyện sử dụng tập dữ liệu huấn
luyện làm đầu vào và có nhiệm vụ học một mô hình dự đoán Mô hình dự đoán có nhiệm
vụ tính toán đê phân lớp quan điêm cho các vector biêu diễn văn bản từ đâu vào.
3.2 Tổng quan về bộ dữ liệu tin nhắn Twitter
Bài nghiên cứu sử dụng bộ dữ liệu những tin nhắn bình luận ở trên mạng xã hộiTwitter Mỗi người khác nhau sẽ có quan điểm đánh giá khác nhau không theo một chuẩnquy tắc ngữ pháp nào Bộ dữ liệu là tổng hợp các bình luận về rất nhiều chủ đề được quantâm hiện nay, bộ dữ liệu được chia làm 2 tệp dữ liệu Tệp dữ liệu đầu tiên là tệp dữ liệu
twitter_trainning.csv với 74682 value và đã được phân chia sẵn theo bồn thé loại:
19
Trang 221 train=pd.read_csv('D://Chuyende//twitter_training.csv', header=None)
2 train
0 2401 Borderlands Positive im getting on borderlands and i will murder yo
1 2401 Borderlands Positive ! am coming to the borders and | will kill you
2 2401 Borderlands Positive im getting on borderlands and i will kill you
3 2401 Borderlands Positive im coming on borderlands and i will murder you
4 2401 Borderlands Positive im getting on borderlands 2 and i will murder
T4677 9200 Nvidia Positive Just realized that the Windows partition of my
T4678 8200 Nvidia Positive Just realized that my Mac window partition is
T4679 8200 Nvidia Positive Justrealized the windows partition of my Mac
74680 8200 Nvidia Positive Justrealized between the windows partition of
74681 9200 Nvidia Positive Just like the windows partition of my Mac is L
74682 rows x 4 columns
Hình 3 2 Tép dữ liệu tin nhắn Twitter sử dung dé huấn luyện
- Positive: Phản hồi mang tính tích cực
- Negative: Phản hồi mang tính tiêu cực
- Neutral: Phản hồi mang tính trung tính
- Irrelevant: Phản hồi không liên quan đến chủ dé
Tp dữ liệu thứ hai là tệp dữ liệu twitter_ validation.csv là tệp dữ liệu sử dụng dé thầm
định
20
Trang 231 val=pd.read_csv('D://Chuyende//twitter_validation.csv', header=None)
2 val
0 1 2 3
0 3364 Facebook Irrelevant | mentioned on Facebook that! was struggling
1 352 Amazon Neutral BBC News - Amazon boss Jeff Bezos rejects clai
2 8312 Microsoft Negative @Microsoft Why do | pay for WORD when it funct
3 4371 CS-GO Negative CSGO matchmaking is so full of closet hacking
4 4433 Google Neutral Now the President is slapping Americans in the
995 4891 GrandTheftAuto(GTA) Irrelevant sy Toronto is the arts and culture capital of
996 4359 CS-GO Irrelevant tHỊS IS ACTUALLY A GOOD MOVE TOT BRING MORE VI
997 2652 Borderlands Positive Today sucked so it’s time to drink wine n play
998 38069 Microsoft Positive Bought a fraction of Microsoft today Small wins.
999 6960 johnson&johnson Neutral Johnson & Johnson to stop selling talc baby po
Hình 3 3: Tép dữ liệu tin nhắn Twitter thẩm định
3.3 Tiền xử lý dữ liệu và gán nhãn
Tiền xử lý dữ liệu và gán nhãn là một trong những bước quan trọng nhất trong
khai thác dữ liệu, đặc biệt là trong khai thác dữ liệu văn bản vì có rất nhiều sự khác biệt
về nội dung văn bản trên các kênh truyên thông điện tử.
21
Trang 243.3.1 Trực quan hóa dữ liệu
Trang 25Tiếp theo, ta cần biết các từ phố biến trong từng hạng mục, dé trực quan hóa phannày một cách dé nắm bắt nhất, ta sẽ sử dụng thư viện WordCloud của Python, dưới đây làphần trực quan thực hiện trên tệp dữ liệu trainning.
w1n https + ead.
assassin s unk
io E ị nen SG well
n feel ° Cal yy beaut ful Look really
XSF! kno excited nay people
nice awesome : 5
finally league MaKe ng, > tae
s creed today red dead _new.thing
Hình 3 6 :Những từ ngữ thường xuyên xuất hiện ở muc Positive
23
Trang 26wes make didn t
ll goog]
even
need Đ “=still aay
ve bad: t1me + xbox
Trang 27twitch rypeople pubg mdoesn t
thing ,,,, 0CCUurred sees
amazingeveryone ve
yutu See detallsS best
call thank italy italysee
onesta ing team