Nowaday, It is currently applied to inmany different fields in real world as: market analysis, financial, review customer, .. machine learning approaches for sentiment ana
LỜI CAM ĐOAN Tôi ng Quang xin cam kt Lut nghip cơng trình nghiên cu ca bi s ng dn ca PGS.TS Nguyễn Thị Kim Anh, Vin CNTTi h c Bách Khoa Hà Ni Các kt qu nên Lut nghi p trung th ca bt k cơng trình khác Hà N Hc viên thc hin lu ng Quang 1706674950328940afb07-3926-46c6-ac64-b86efd6d0ed1 17066749503287af929fc-b688-436c-93db-b1d031d81126 1706674950328aaa64989-4a92-4851-ba8c-fb46e570d7ca Lời cảm ơn c g i li cn th y giáo, cô giáo thuc ng i hc Bách Khoa Hà N c bit th y giáo, cô giáo thu c Vin Công ngh Thông tin Truyn thông Các th cho em nhng kin thc quý báu thi gian em hc tp nghiên c u tng c gi li c c bi n PGS.TS Nguyn Kim Anh Cơ dn tn tình, cho em nh ng kinh nghi em có th hồn thành lu t nghi em q trình nghiên cu hồn thi n lu ng th i li c n GS.TS Atsuhiro Takasu, thuc vin công ngh thông tin quc gia, Nht Tht, ch bng dn, chia s kinh nghi m nghiên cu khoa hc n Minh Quang anh ch nghiên c u sinh, thu c vin công ngh thông tin quc gia Nhn giúp em hoàn thin lu Em xin gi li cn bè My tng lc cho em ln tic Tóm tắt nội dung Phân tích cảm xúc mt c quan trng Nó có kh c áp dng nhi c th c t phân tích th ci dùng, khám nghi m pháp y Trong thc t , d liu kim tra luôn i, có th khơng n m min vi tp hun luyn Vi nhng ng hp này, cách ti p cn gi i quyt tốn phân tích cảm xúc xác tốn phân tích cm xúc d m xúc vi d liu mn cc gii quyt h ọc chuyển đổi m xác t tp d lin, c tp d liu có phân phi xác sut biên kha, d lin ti rt phong phú, có th có mt phn c tn d xác cho tốn phân tích cảm xúc Phân tích m xúc sử dụng cách tiếp cận học chuyển đổi Lu xut m p cn m gii quyt hi u qu tốn phân tích c m xúc Lu xut mt thut toán hc chuyi s d ng tp d liu cn t xác c a tốn phân tích cm xúc mt min khác Ngồi lu xut m có th s dng ca tp d lin m i, hai thut toán quynh t p d liu cm xúc tt nh t nên hc quynh xem tp d lic s d ha lu Lu gii quyt tốn phân tích c m xúc Lu xut mc chuyi mi vi chic hc tp d liu n tim bo sau trình hc xác su t c a tp hu n luyn tp kim tra g n nht Lu xut m nh khong cách ca tp d liu mt s ng dng ca Th nghim ch r xuc kt qu tn thut toán hc chuyn i v t toán hmáy vector h tr (SVMsng hp tp hun luyn ca d li nghèo nàn, xây dc mt hình phân loi tt cho tp d liu mi Abstract Sentiment Analysis is an important field Nowaday, It is currently applied into many different fields in real world as: market analysis, financial, review customer, However, the domain of target datas always change, and it can be inconsistent with model built by source domain Therefore, the traditional machine learning approaches for sentiment analysis problem might not be efficient for this case Within my knowledge, transfer learning can improve the accuracy by using very rich existed data sets, evenwhen their marginal probability distribution are different with new test sets Because of the above reasonsSentiment Analysis using Transfer Learning My thesis proposed a novel approach to solve sentiment analysis problem Specifically, I have proposed a method to solve classisify polarity problem (one of sub-problems of sentiment analysis) that use existed sentiment data set to improve the accuracy on new domains of datasetare as follows We present a novel approach to a formalism for solving the problem by adopting transfer learning We propose a new method that uses a existed sentiment data set, which is labeled to improve performance We propose a measure and a threshold to decide whether the system will learn a data set or not The experiments show that my proposal has better result than inductive transfer learning, and other machine learning algorithms such as Support vector machin (SVMs) when new training set is not big enough to construct model to classify new data set Mục Lục Phn I: Phn m u 12 Lý ch tài .12 Lch s nghiên cu 12 3, Mu ca lu ng, phm vi nghiên cu 14 Tóm tt lu 14 Phn II: Ni dung 17 m xúc 17 Các nhim v ca tốn phân tích cm xúc .17 c 18 c chuyi 28 Lch s ca hc chuyi 28 Các ký hi .31 Phân loi k thut hc chuyi 33 ng hc chuyi cho toán phân loi cm xúc cc 41 Thut toán AdaBoost 41 Thut toán TrAdaBoost 44 Thut toán MulTrAdaBoost 47 Thut toán Unilateral TrAdaBoost .50 xut 54 t th nghi 59 Phn III: Kt lun 69 Phn IV: Danh m c tài liu tham kho .70 Danh sách từ viết tắt thuật ngữ SVMs SMSs MaxEntropy SA LSA AdaBoost TrAdaBoost MMD MDS over-fitting WeakLearn LS-SVM RKHS OC PC SPD Support Vector Machines Short Message Services Maximum Entropy Sentiment Analysis Latent Sentiment Analysis Adaptive Boosting Transfer AdaBoost Maximum Mean Discrepancy Mean Discrepancy of Set Over fitting Weak Learner Least Square Support Vector Machine Reproducing Kernel Hillbert Space Opinion Classification Polarity Classification Symmetric Positive Define Danh sách hình vẽ S khác ca tin trình h c (a) hc máy truyn thng (b) hc chuyi 29 Tng quan v s khác bit ca loi hc chuy 37 Thut toán AdaBoost 44 Thut toán TrAdaBoost 47 Thut toán MulTrAdaBoost 50 Chic hc ca TrAdaBoost MulTrAdaBoost 51 Chic hc ca Unilateral – TrAdaBoost 52 Thut toán Unilateral MulTrAdaBoost 54 Mi liên h khong cách phân phi kh 58 10 Thut tốn quynh xem có nên hc hay khơng 58 11 Thut tốn chn tp d liu tt nht ng vi mi 59 12 xác ca Unilateral – TrAdaBoost MulTrAdaBoost 65 13 xác ca Unilaterial – TrAdaBoost thut toán h 10 67