Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 193 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
193
Dung lượng
19,21 MB
Nội dung
IăH CăQU CăGIAăTP H ăCHệăMINH TR NGă IăH CăBÁCHăKHOA TR N KH I THI N PHÂNăT́CHăC MăX́CăTRÊNăC ăS ăTR ăC MăX́Că CHUY NăD CHăTHEOăNG ăC NHăCHOăTI NGăVI T LU NăÁNăTI NăS TP.ăH ăCHệăMINHă- N Mă2021 TR IăH CăQU CăGIAăTP.ăHCM NGă IăH CăBÁCHăKHOA TR N KH I THI N PHÂNăT́CHăC MăX́CăTRÊNăC ăS ăTR ăC MăX́Că CHUY NăD CHăTHEOăNG ăC NHăCHOăTI NGăVI T ChuyênăngƠnh:ăKhoaăh cămáyătínhă Mưăs ăchuyênăngƠnh:ă62.48.01.01 Ph năbi năđ c l p: PGS TS Lê Hoàng Thái Ph năbi năđ căl p: PGS.ăTS.ăNguy năTu nă ng Ph năbi n: PGS.ăTS.ă inhă i n Ph năbi n: PGS.ăTS.ă ăV năNh n Ph năbi n: PGS.ăTS.ăPh măTr năV NG IăH NGăD N: GS TS Phan Th T i L IăCAMă OAN Tácăgi ăxinăcamăđoanăđơy lƠăcơngătrìnhănghiênăc uăc aăb năthơnătácăgi ăCácăk tăqu ă nghiênăc uăvƠăcácăk tălu nătrongălu năánănƠyălƠătrungăth c,ăvƠăkhôngăsaoăchépăt ăb tăk ă m tăngu nănƠoăvƠăd có)ăđưăđ iăb tăk ăhìnhăth cănƠo.ăVi căthamăkh oăcácăngu nătƠiăli uă(n uă căth căhi nătríchăd năvƠăghiăngu nătƠiăli uăthamăkh oăđúngăquyăđ nh Tácăgi ălu năán Tr năKh iăThi n i TịMăT TăLU NăÁN Nhi uăcơngătrình,ăcơngăc ăvƠă ngăd ngăphơnătíchăc măxúcăđưăđ thácăcácăỦăki nătrongăn iădungădoăng căphátătri năđ ăkhaiă iădùngăt oătrênăcácătrangăm ng.ăTuyănhiên,ăhi uă n ngăc aăcácăh ăth ngănƠyăch aăcaoădoăt ăb năch tăphơnătíchăc măxúcălƠăbƠiătốnăx ălỦă ngơnăng ăt ănhiênăph căt p.ăCácăcơngătrìnhănƠyăv năch aăhi uăqu ătrongăvi căx ălỦăm tă s ăhi năt ngăngônăng ,ăch ngăh nănh ăcácăhi năt ngăd chăchuy năc măxúcăvƠăv năb nă mangăỦăki năh năh p Lu năánăkhaiăthácăcácătr ngăh păgơyăhi năt ngăd chăchuy năc măxúcătrongăv năb nă ti ngăVi tănh măth căhi năhaiăm cătiêu chính:ă1)ăTh ănh t,ăxơyăd ngăkhoăt ăv ngăc mă xúcăchoăti ngăVi tăph căv ăphơnătíchăc măxúc m căt ă- c măt vƠăm căkhíaăc nh 2) Th ăhai,ăti păc năph ngăphápăđ nhăh ngăng ăngh aăk tăh păv iăcácăk ăthu tăh cămáy,ă mơăhìnhăh căsơuăvƠoăh căt ăh pănh măx ălỦăbƠiătốnăphơnăl păc măxúc m căv năb n Th cănghi măchoăth yăvi căquanătơmăđ năd chăchuy năc măxúcăvƠăvi căs ăd ngăk tăh pă nhi uăph ngăphápălƠăchìaăkhóaăđ ăh ăth ngăcóăđ ii căk tăqu ăchínhăxácăh n.ă ABSTRACT Various sentiment analysis works, tools, and applications have been developed to exploit opinions in user-generated content on social media However, the performance of these systems is not great because sentiment analysis itself is a complex natural language processing problem These works are still ineffective in dealing with some linguistic phenomena, such as context valence shifting and mixed opinion text The dissertation explores cases of contextual valence shifting in Vietnamese text to accomplish two objectives: 1) to build a sentiment vocabulary database in Vietnamese and 2) to combine the semantic-oriented approach with machine-learning techniques, and deep-learning methodology to handle the sentiment classification challenge Experiments show that paying attention to contextual valence shifting and using a combination of various methods are key for the system to yield more accurate results iii L IăCÁMă N TơiăxinăbƠyăt ălịngăbi tă năsơuăs cănh tăđ năCơăGS.ăTS.ăNGND.ăPhanăTh ăT tìnhăh iăđưăt nă ngăd n,ăđ ngăviên,ăch ăb o,ăvƠăđóngăgópăỦăki năđ ătơiăcóăth ănghiênăc uăvƠăhoƠnă thƠnhălu năánăTi năs Tơiăxinăg iăl iăcámă năđ năcácăTh y,ăCơătrongăKhoaăKhoaăh căvƠăK ăthu tăMáyătínhă tr ngă iăh căBáchăKhoaăTP.ăH ăChíăMinh,ăcácăanhăch ănghiênăc uăsinhăđưăđóngăgópă nhi uăỦăki năquỦăbáuăchoătơi.ă TơiăxinăchơnăthƠnhăcámă năBanăgiámăhi u,ăPhịngăđƠoăt oăSauăđ iăh cătr ngă iăh că BáchăKhoaăTP.ăH ăChíăMinhăđưăh tr ăkinhăphíăvƠăt oăđi uăki năthu năl iăđ ătơiăcóăth ă hoƠnăthƠnhăch ngătrìnhănghiênăc uăsinh Tơiăxinăcámă năcácăđ ngănghi pă ăKhoaăCôngăngh ăthôngătinătr ngă iăh căNgo iăng ă - Tinăh căTP.ăH ăChíăMinhăđưălnăđ ngăviên,ăkhíchăl ,ăvƠăt oăđi uăki năthu n l iăchoă tôiăhoƠnăthƠnhăLu năán.ă Tôiăc ngăxinăchơnăthƠnhăcámă năH iăđ ngăqu nătr ,ăBanăgiámăhi uătr ngă iăh căNgo iă ng ă- Tinăh căTP.ăH ăChíăMinhăđưăh ătr ăkinhăphíăvƠăt oăđi uăki năcơngătácăthu năl iă đ ătơiăcóăth ăhoƠnăthƠnhăch ngătrìnhănghiênăc uăsinh Cu iăcùngătơiăxinăbƠyăt ălịngăbi tă năsơuăs căvƠămnăvƠnătìnhăuăđ quaăđ iăvƠăng iăm ăquáăc ăc aătôi,ăđ năv ,ăcon,ănh ngăng iăchaăv aă iălnăbênăc nhăvƠăh ătr ă tơiătrongăsu tăth iăgianăqua TP.ăH ăChíăMinh,ăthángă04ăn mă2021 Nghiênăc uăsinh Tr năKh iăThi n iv M CăL C DANHăM CăCÁCăHỊNHă NH viii DANHăM CăB NGăBI U ix DANHăM CăCÁCăT ăVI TăT T xi CH NGă1 GI IăTHI U tăv năđ ăxu tănghiênăc u M căđíchăvƠăph măviănghiênăc u .4 Cácăđóngăgópăc aălu năán C uătrúcăc aălu năán CH NGă2 PHỂNăTệCHăC MăXÚCăVĨăS ăD CHăCHUY NăC MăXÚC Phơnătíchăc măxúc M tăs ăh ngăti păc năchoăphơnătíchăc măxúc 2.2.1 Ti păc năh 2.2.2 Ti păc nătheoăh cămáy 19 2.3 ngăđ ăngh a 10 S ăd chăchuy năc măxúcăvƠănh ngăv năđ ăc nănghiênăc u 25 2.3.1 Hi năt 2.3.2 Kho ngătr ngătrongănghiênăc u 27 2.4 ngăd chăchuy năc măxúc 25 T ngăk tăch CH NGă3 C MăT XÁCă 29 ngă2 28 NHăS ăD CHăCHUY NăTR ăC MăXÚCăC AăT ăVĨă ngăc ănghiênăc u 29 Mơăhìnhătínhătốnătr ăc măxúcăvƠăs ăd chăchuy năc măxúcăc aăt ,ăc măt ătrongă cácănh năxétăti ngăVi t 30 3.2.1 Xácăđ nhătr ăc măxúcăchoăt 31 3.2.2 Xácăđ nhătr ăc măxúcăchoăc măt 40 3.2.3 Phơnătíchăđánhăgiá 45 T ngăk tăch ngă3 50 CH NGă4 PHÁTăHI NăKHệAăC NHăVĨăTR ăC MăXÚCăTRONGăCÁCă NH NăXÉTăTI NGăVI T 52 Gi iăthi uăbƠiătốnăphơnătíchăc măxúcăm căkhíaăc nh .52 4.1.1 Xácăđ nhăvƠărútătríchăkhíaăc nh 52 v Xácăđ nhăc măxúcăc aăkhíaăc nh 53 4.1.2 4.1.3 Khaiăthácăm iăquanăh ăph ăthu căc aăcácăt ăđ ărútătríchăđ ngăth iăkhíaă c nhăvƠăt ăc măxúcăt ngă ng 54 Mơăhìnhăphátăhi năkhíaăc nhăvƠătr ăc măxúc 55 4.2.1 T pălu tărútătríchăkhíaăc nhăvƠăt ămangăc măxúcăt mgă ng 56 4.2.2 Xơyăd ngăontologyăđ ăgomănhómăcácăkhíaăc nh 60 4.2.3 Th cănghi m 61 ngăd ng 66 4.3.1 H ăth ngătraăc uăthôngătinăkháchăs n 66 4.3.2 Xơyăd ngăc ăs ătríăth căkháchăs n 67 4.3.3 Xơyăd ngăb ăx ălỦăngônăng ăti ngăVi t 68 4.3.4 Nh năxétăđánhăgiá 70 T ngăk tăch ngă4 71 CH NGă5 ăXU TăPH NGăPHÁPăH CăT ăH PăCHOăPHỂNăL PăC Mă XÚC CÁC NH NăXÉTăTI NGăVI T 73 ngăc ănghiênăc u 74 Mơăhìnhăh căt ăh păchoăphơnăl păc măxúc 77 5.2.1 H căt ăh p 77 5.2.2 Phátăhi năđ cătr ngăgơyăd chăchuy nătr ăc măxúcăvƠăđ cătr ngăti mă n 77 5.2.3 Cácăb ăh căthƠnhăph năvƠăb ăh căt ăh p 84 5.2.4 Mơăhìnhăh căt ăh păđ ăxu t 87 5.2.5 Th cănghi m 87 5.2.6 Phơnătíchăđánhăgiá 93 Mơăhìnhăh căt ăh păh 5.3.1 B ăh căthƠnhăph năs ăd ngăc ăch ăattentionă(attentionăclassifier) 97 5.3.2 Th cănghi m 99 T ngăk tăch CH ngăđ ăc nhăchoăphơnăl păc măxúc 96 NGă6 ngă5 107 K TăLU N 108 CÁCăCỌNGăTRỊNHăKHOAăH CăC AăTÁCăGI 111 TĨIăLI U THAMăKH O 113 PH ăL Că1.ăS ăL Că CăTR NGăNGỌNăNG ăTI NGăVI T .i A.ăTínhăt ătrongăti ngăVi t i vi B.ă ngăt ătrongăti ngăVi t ii C.ăPhóăt ătrongăti ngăVi t iii PH ăL Că2.ăDANHăSÁCHăM TăS ăC MăT ăC MăXÚC vii PH ăL Că3.ăV NăPH MăPH ăTHU C x A.ăV năph măph ăthu c x B M iăquanăh ăph ăthu căc aăm tăs ăt ălo iătrongăti ngăVi t xii B.1ăQuanăh ăph ăthu căgi aădanhăt ăvƠăđ ngăt xii B.2ăQuanăh ăph ăthu căgi aădanhăt ăvƠătínhăt xiii B.3ăQuanăh ăph ăthu căgi aăđ ngăt ăvƠătínhăt xiii B.4ăQuanăh ăph ăthu căgi aăđ ngăt ăvƠăđ ngăt xiv B.5ăLiênăt xiv vii DANH M C CÁC HÌNH NH Hình 2.1: Ki n trúc chung c a m t h th ng phân tích c m xúc .8 Hìnhă3.1:ăQătrìnhăxácăđ nh tính toán tr c m xúc c a t c m t mang c m xúc 31 Hìnhă3.2:ă ng h i quy n tính phù h p v i t p d li u (theo Wikipedia) 33 Hìnhă3.3:ă ng H i quy Logistic phù h p v i t p d li u (theo medium.com) .35 Hình 4.1: ABSA - mơ hình rút trích khía c nh t mang c m xúc d a vào t n c m xúc, ontology lu t rút trích 56 Hìnhă4.2:ăOntologyătr ngăđ i h c, t ch c khái ni m thành m t c u trúc phân c p, m iănútăđ i di n cho m t khái ni m khía c nh c aătr ng 61 Hìnhă4.3:ăSoăsánhăk tăqu ăhaiăph ngăphápăbi u th căchínhăquyăvƠăquanăh ăng ăngh a 64 Hình 4.4: Ki n trúc h th ng tra c u thông tin nh n xét khách s n 67 Hình 4.5: Ontology khách s n, t ch c khái ni m thành m t c u trúc phân c p, m iănútăđ i di n cho m t khái ni m khía c nh c a khách s n 68 Hình 4.6: Màn hình c a ng d ng: Tra c u thông tin nh n xét v khách s n b ng ngôn ng t nhiên ti ng Vi t .70 Hình 4.7: Màn hình ch p t web agoda.com c a nh năxétăắPhòngăh iănh , ng t ng t”ă v iăđi m s tích c c (6/10) 71 Hìnhă5.1:ăS ăđ hu n luy n ki m th h c máy có giám sát 73 Hìnhă5.2:ăQătrìnhărútătríchăcácăđ cătr ngăb ăm tă[120] 82 Hình 5.3: Bi u di n vector c a t King, Queen, Woman, Princess 83 Hìnhă5.4:ăQătrìnhărútătríchăcácăđ cătr ngăsơuăti mă nă[120] 84 Hình 5.5: B h c t h p s d ng mơ hình Meta Classifier [126] 85 Hình 5.6: Ki nătrúcămơăhìnhăphơnăl p c m xúc d aătrênăph ngăphápăh c t h p [127] 87 Hình 5.7: K t qu th c nghi mătrênăt păd ăli uăUIT-VSFC 90 Hình 5.8: K t qu th c nghi mătrênăt păd ăli uăHOTEL-Review 90 Hình 5.9: K t qu th c nghi m t păd ăli uăElectronics 92 Hình 5.10: K t qu th c nghi m t păd ăli uăDVD 92 Hình 5.11: K t qu th c nghi m t păng ăli uăBooks 93 Hình 5.12: K t qu th c nghi m t păng ăli uăKitchen .93 Hìnhă5.13:ă chínhăxácătrungăbìnhătheoăph ngăphápăc a Xia c ng s [44] .94 Hìnhă5.14:ă xác trung bình c aămơăhìnhăđ xu t CEM(6C-WLLR) [127] 95 Hình 5.15: Mơ hình h c t h păquanătơmăh ngăđ n ng c nh [126] 97 Hình 5.16: Ki n trúc mơ hình phân l p s d ng m ng BiLSTM v iăc ăch attention [136] 99 Hình 5.17: K t qu th c nghi mătrênăt păd ăli uăHOTEL-Reviews 103 Hình 5.18: K t qu th c nghi mătrênăt păd ăli uăUIT-VSFC 104 viii ... CH NGă2 PHỂNăTệCHăC MăXÚCăVĨăS ăD CHăCHUY NăC MăXÚC Phơn? ?tích? ?c m? ?xúc M tăs ăh ngăti păc n? ?cho? ?phơn? ?tích? ?c m? ?xúc 2.2.1 Ti păc năh 2.2.2 Ti păc n? ?theo? ?h cămáy 19... aăvƠăcơuăl nh SQL 69 B ngăă5.1:ăCácăcơngătrìnhănghiênăc uăđángăchúăỦăđưăápăd ngăph ngăphápăh căt ăh pă cho phân tích c m xúc 75 B ng 5.2: M t s nghiên c u m i v phân l p c m xúc. .. Ví d v đ đoăc m xúc c a c m tính t tính theo cơng th c (3.8) 42 B ng 3.6: Ví d v đ đoăc m xúc c măđ ng t tính theo cơng th c (3.12) 45 B ng 3.7: So sánh t n VNSD v i t n c m xúc th gi i