Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
1,16 MB
Nội dung
LỜI CAM ĐOAN Tôi – Vương Hồng Quang – xin cam kết Luận văn tốt nghiệp công trình nghiên cứu thân hướng dẫn PGS.TS Nguyễn Thị Kim Anh, Viện CNTT, trường Đại học Bách Khoa Hà Nội Các kết nên Luận văn tốt nghiệp trung thực, không chép toàn văn công trình khác Hà Nội, ngày 04 tháng 09 năm 2014 Học viên thực luận văn Vương Hồng Quang Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin Truyền thông Các thầy cô trang bị cho em kiến thức quý báu thời gian em học tập nghiên cứu trường Em xin gửi lời cảm ơn đặc biệt đến PGS.TS Nguyễn Kim Anh Cô người dẫn tận tình, cho em kinh nghiệm quý báu để em hoàn thành luận văn tốt nghiệp Cô động viên, giúp đỡ em trình nghiên cứu hoàn thiện luận văn Đồng thời em xin gửi lời cảm ơn chân thành đến GS.TS Atsuhiro Takasu, thuộc viện công nghệ thông tin quốc gia, Nhật Thầy dìu dắt, bảo, hướng dẫn, chia sẻ kinh nghiệm nghiên cứu khoa học Em cảm ơn PGS.TS Lê Đình Duy, TS Nguyễn Văn Kiên, TS Trần Minh Quang anh chị nghiên cứu sinh, thuộc viện công nghệ thông tin quốc gia Nhật, đóng góp ý kiến giúp em hoàn thiện luận văn Em xin gửi lời cảm ơn tới gia đình, bạn bè Mọi người động viên thúc đẩy tạo động lực cho em tiến lên phía trước Tóm tắt nội dungPhântíchcảmxúc lĩnh vực quan trọng Nó có khả áp dụng nhiều lĩnh vực thực tế khác là: phântích thị trường, phântích đánh giá người dùng, khám nghiệm pháp y Trong thực tế, liệu kiểm tra luôn thay đổi, không nằm miền với tập huấn luyện Với trường hợp này, cáchtiếpcận giải toán phântíchcảmxúc trước không cho độ xác mong muốn Do đó, vấn đề nâng cao độ xác toán phântíchcảmxúc dự đoán cảmxúc với liệu đến cần giải Trong họcchuyểnđổi phương pháp giúp tăng cường độ xác từ tập liệu có sẵn, tập liệu có phân phối xác suất biên khác Hơn nữa, liệu tồn phong phú, có phần tận dụng để nâng cao độ xác cho toán phântíchcảmxúc Vì lý trên, chọn đề tài: ―Phân tíchcảmxúcsửdụngcáchtiếpcậnhọcchuyển đổi‖ Luận văn đề xuất phương pháp tiếpcận để giải hiệu toán phântíchcảmxúc Luận văn đề xuất thuật toán họcchuyểnđổisửdụng tập liệu cảmxúc tồn để tăng độ xác toán phântíchcảmxúc miền khác Ngoài luận văn đề xuất độ đo để đo khả sửdụng tập liệu cũ cho miền mới, hai thuật toán để định tập liệu cảmxúc tốt nên học để định xem tập liệu có nên sửdụng để học hay không Đóng góp luận văn là: Luận văn đưa phương pháp để giải toán phântíchcảmxúc Luận văn đề xuất phương pháp họcchuyểnđổi với chiến lược học tập liệu tồn tại, đảm bảo sau trình học xác suất tập huấn luyện tập kiểm tra gần Luận văn đề xuất độ đo xác định khoảng cách tập liệu số ứng dụng Thử nghiệm rằng, đề xuất thu kết tốt thuật toán họcchuyểnđổi với phương pháp tương tự trước đây, thuật toán học máy máy vector hỗ trợ (SVMs) trường hợp tập huấn luyện liệu tương lai nghèo nàn, không đủ xây dựng hình phân loại tốt cho tập liệu Abstract Sentiment Analysis is an important field Nowaday, It is currently applied into many different fields in real world as: market analysis, financial, review customer, forensic analysis… However, the domain of target datas always change, and it can be inconsistent with model built by source domain Therefore, the traditional machine learning approaches for sentiment analysis problem might not be efficient for this case Within my knowledge, transfer learning can improve the accuracy by using very rich existed data sets, evenwhen their marginal probability distribution are different with new test sets Because of the above reasons, I chose topic: ―Sentiment Analysis using Transfer Learning‖ My thesis proposed a novel approach to solve sentiment analysis problem Specifically, I have proposed a method to solve classisify polarity problem (one of sub-problems of sentiment analysis) that use existed sentiment data set to improve the accuracy on new domains of dataset Thesis’s main contributions are as follows We present a novel approach to a formalism for solving the problem by adopting transfer learning We propose a new method that uses a existed sentiment data set, which is labeled to improve performance We propose a measure and a threshold to decide whether the system will learn a data set or not The experiments show that my proposal has better result than inductive transfer learning, and other machine learning algorithms such as Support vector machin (SVMs) when new training set is not big enough to construct model to classify new data set Mục Lục Phần I: Phần mở đầu 12 Lý chọn đề tài .12 Lịch sử nghiên cứu 12 3, Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu 14 Tóm tắt luận điểm đóng góp 14 Phần II: Nội dung 17 Chương I Phântíchcảmxúc 17 Các nhiệm vụ toán phântíchcảmxúc .17 Các phương thức 18 Chương II Họcchuyểnđổi 28 Lịch sửhọcchuyểnđổi 28 Các ký hiệu định nghĩa .31 Phân loại kỹ thuật họcchuyểnđổi 33 Chương III Áp dụnghọcchuyểnđổi cho toán phân loại cảmxúc cực 41 Thuật toán AdaBoost 41 Thuật toán TrAdaBoost 44 Thuật toán MulTrAdaBoost 47 Thuật toán Unilateral – TrAdaBoost .50 Độ đo giá trị ngưỡng đề xuất 54 Cài đặt thử nghiệm đánh giá 59 Phần III: Kết luận 69 Phần IV: Danh mục tài liệu tham khảo .70 Danh sách từ viết tắt thuật ngữ SVMs SMSs MaxEntropy SA LSA AdaBoost TrAdaBoost MMD MDS over-fitting WeakLearn LS-SVM RKHS OC PC SPD Support Vector Machines Short Message Services Maximum Entropy Sentiment Analysis Latent Sentiment Analysis Adaptive Boosting Transfer AdaBoost Maximum Mean Discrepancy Mean Discrepancy of Set Over fitting Weak Learner Least Square Support Vector Machine Reproducing Kernel Hillbert Space Opinion Classification Polarity Classification Symmetric Positive Define Danh sách hình vẽ Sự khác tiến trình học (a) học máy truyền thống (b) họcchuyểnđổi ……………………………………………………… 29 Tổng quan khác biệt loại họcchuyển đổi…………… 37 Thuật toán AdaBoost…………………………………………… 44 Thuật toán TrAdaBoost…………………………………………… 47 Thuật toán MulTrAdaBoost………………………………………… 50 Chiến lược học TrAdaBoost MulTrAdaBoost……………… 51 Chiến lược học Unilateral – TrAdaBoost……………………… 52 Thuật toán Unilateral – MulTrAdaBoost…………………………… 54 Mối liên hệ khoảng cáchphân phối khả học……………… 10 Thuật toán định xem có nên học hay không……………… 58 58 11 Thuật toán dùng để chọn tập liệu tốt ứng với miền đích…… 59 12 So sánh độ xác Unilateral – TrAdaBoost MulTrAdaBoost…………………………………………………… 65 13 So sánh độ xác Unilaterial – TrAdaBoost thuật toán học sở…………………………………………………………… 10 67 Cuối tập liệu SemEval-2013, thu thập từ số lượng lớn chủ đề Các chủ để trộn thực thể tồn (như là: Gaddafi, Steve Jobs, ), sản phẩm (như là: Kindle, Android phone, ), kiện (như là, Japan earthquake, NHL playoffs, ) Bởi khác trình xử lý thu thập trên, nên miền tập liệu khác kết hiển nhiên Chúng sửdụng tập liệu thực tập liệu tổng hợp với thuật toán Unilateral-TrAdaBoost để chứng minh ổn định độ hiệu thuật toán, đồng thời so sánh với thuật toán sở SVM TrAdaBoost (MulTrAdaBoost) Ngoài để minh hoạ tính hiệu độ đo ngưỡng, sửdụng SVM với tập liệu tổng hợp từ Sanders trình bày để thể điều Bốn thí nghiệm tiến hành là: Thí nghiệm 1: kiểm tra với tập liệu tổng hợp, thoả mãn lần ( lượt tương ứng ) ( ) ( ) Thí nghiệm 2: Chúng so sánh Unilateral−TrAdaBoost với Sanders đóng vai trò , SemEval-2013 đóng vai trò , tập kiểm tra thay đổi Thí nghiệm 3: Chúng so sánh Unilateral−TrAdaBoost với Sanders đóng vai trò , SemEval-2013 đóng vai trò , tỉ lệ tập huấn luyện so với tập kiểm tra S thay đổi Thí nghiệm 4: Chúng so sánh độ xác SVM tập huấn luyện thay đổi b Phương pháp đánh giá Trong thí nghiệm, đánh giá độ xác hai trường hợp với tập liệu tổng hợp tập liệu thực Hàm nhân sửdụng cho khoảng cách tới tâm trung bình ( ) ( ) hàm nhân Gaussian 62 ( ) ‖ ‖ / Chúng sửdụng mô hình SVM LR học sở TrAdaBoost, MulTrAdaBoost, Unilateral-TrAdaBoost Tuy nhiên biết TrAdaBoost thuật toán phân loại nhị phân với SVM cổ điển, toán thực tế phântíchcảmxúc toán đa lớp Hơn MulTrAdaBoost TrAdaBoost lại có chiến lược học trọng số mẫu Vì sửdụng MulTrAdaBoost thay TrAdaBoost sở để so sánh Trong thí nghiệm, sửdụng LIBLINEAR [Fan R.-E et al., 2008] để tiến hành thí nghiệm với phân loại SVM, LR Tôi so sánh phương thức SVM LR tập huấn luyện có và có có thay đổi ứng với trường hợp: ( ) ( ) ( ) ( ) Ngoài ra, phântíchcảm xúc, quan tâm đến cảmxúc cực quan tâm đến cảmxúc trung lập, lĩnh vực phântích pháp y Các thời điểm cảmxúc tiêu cực có ý nghĩa lớn đến việc khoanh vùng điều tra Do đó, quan tâm đến trung bình độ xác cảmxúctích cực tiêu cực Chúng sửdụng trung bình độ đo để so sánh 63 ( (a) So sánh độ xác hai chiến lược học ( (b) So sánh độ xác hai chiến lược học ) ) ( ) Hình 12: So sánh độ xác Unilateral – TrAdaBoost MulTrAdaBoost (Trục x biểu diễn độ tỷ lệ kích thước tập S so với kích thước tập Trục y biểu diễn độ xác F-score công thức (19)) ( Ở ( ) ( ) ( ) ) độ đo F phân loại cảmxúctích cực, ( ) độ đo F phân loại cảmxúc tiêu cực c Các kết bàn luận i Thí nghiệm Như nhắc đến trên, tiến hành thí nghiệm với tập liệu tổng hợp mà thoả mãn ( ) Như thể hình 12(a), thấy rằng, độ xác thuật toán tương tự Bởi vậy, phân phối X (tập kết hợp ) sau huấn luyện không khác nhiều so 64 với tập kiểm tra, hay không khác nhiều so với Do chiến lược học đề xuất nhiều khác biệt so với chiến lược cũ Còn trường hợp thứ hai, với ( ) ( ) , tức là, khoảng cách đủ lớn Để sau trình học, ta thu liệu X với phân phối chung đủ khác biệt so với phân phối tương ứng Khi thấy, hình 12(b), kết chiến lược tốt hơn, đặc biệt trường hợp tập huấn luyện có phân phối với tập kiểm tra không đủ lớn để tạo mô hình đủ tốt cho nhiệm vụ phân loại ii Thí nghiệm Trong thí nghiệm này, hai thuật toán cài đặt Unilateral – TrAdaBoost thuật toán học sở, với SemEval-2013 Sanders Ở thể kết TrAdaBoost hay MulTrAdaBoost hai thuật toán sớm bị dừng lại điều kiện hàm lỗi không lớn 0.5 Do cài đặt chúng, kết cuối chúng thực thuật toán học sở Bảng thể kết thí nghiệm Từ bảng này, ta thấy độ xác thuật toán sở SVM tập liệu kiểm tra Twitter cao nhiều so với tập liệu tập liệu kiểm tra SMS (0.6524 với 0.5411) Điều lý giải độ phù hợp tập liệu huấn luyện với tập liệu kiểm tra Twitter tốt hơn, hay nói cách khác khoảng cáchphân phối xác suất tập huấn luyện với phân phối xác suất tập kiểm tra Twitter gần so với phân phối xác suất tập liệu kiểm tra SMS Do mô hình xây dựng từ tập liệu huấn luyện dùng cho tập liệu Twitter cho kết tốt Trong đó, với thuật toán Unilaterial – TrAdaBoost, độ xác tương ứng 0.6251 với 0.6237 tập kiểm tra thay đổi Từ đó, thấy thuật toán Unilaterial – TrAdaBoost ổn định hơn, thích nghi tốt với thay đổi tập kiểm tra 65 Twitter SMS Trung bình Unilaterial – TrAdaBoost (SVM) 0.6251 0.6237 0.6244 SVM - TrAdaBoost 0.6524 0.5411 0.5968 (Sanders) Bảng 7: Kết so sánh độ xác tập kiểm tra bị thay đổi Hình 13: So sánh độ xác Unilaterial – TrAdaBoost thuật toán học sở (Trục y biểu diễn độ xác F-score, trục X biểu diễn phần trăm mẫu sửdụng cho tập huấn luyện) iii Thí nghiệm Tôi cài đặt thuật toán Unilateral – TrAdaBoost thuật toán học sở (tôi không sửdụng TrAdaBoost hay MulTrAdaBoost độ xác thuật toán thấp, nên thuật toán dừng lại sớm phân loại thuật toán sở) với tập liệu Sanders and SemEval2013 mà tỷ lệ tập huấn luyện bị thay đổi Ở đây, sửdụng Sanders với vai trò là vaf SemEval2013 đóng vai trò Trong tập huấn luyện lấy ngẫu nhiên từ với tỷ lệ thay đổi từ 1% đến 90% Với tỷ lệ, phân tách thành 20 trường hợp khác (đều 66 lấy ngẫu nhiên), tiến hành xác định độ xác trường hợp Độ xác thể hình 13 kết trung bình 20 trường hợp Từ hình 13, thấy Unilateral – TrAdaBoost tăng cường độ xác hai trường hợp : tập huấn luyện nhỏ tập huấn luyện đủ lớn Đầu tiên, ta thấy thuật toán học sở không phân loại hiệu Bởi tập huấn luyện nhỏ, khó khăn việc xây dựng mô hình tốt mà phù hợp với tập test Tuy nhiên, chứa đặc trưng mô hình, Unilateral – TrAdaBoost học đặc trưng để tăng cường tính hiệu Trong trường hợp thứ hai, thuật toán sở đủ ổn định để lựa chọn mẫu từ để tăng cường độ xác Về lý giải thích cho tăng cường độ xác Unilateral – TrAdaBoost, quan sát thấy rằng, số vòng lặp đủ lớn, đủ tốt để mô tả toán, phân phối xác suất phối xác suất gần với phân lấy tập huấn luyện lớn Do đó, kết tốt điều dễ thấy iv Thí nghiệm Cuối cùng, kiểm tra độ xác khoảng cách vaf thay đổi Thí ( ) hiệu Chúng ta sẻ dụng SVM thuật toán LR làm thuật toán sở, nghiệm để thể giá trị ngưỡng khoảng cách tới tâm trung bình hai liệu Sanders Sent140 Với liệu ta thấy: Tập test SVM (SMS) SVM (Twitter) 0.5411 0.6524 67 Sanders 0.5152 0.6386 Sent140 0.5263 0.5673 Bảng 8: So sánh độ xác SVM (LR) ( ( { ) ) ( ) bị thay đổi ( ) ( ) Bảng thể kết thu từ thí nghiệm Những kết cho thấy độ xác giảm không đáng kể tập sửdụng Sanders với khoảng cách nhỏ ngưỡng khoảng cách tới tâm trung bình ) Ngược lại độ Sent140 lại giảm cách nhanh chóng Điều cho thấy xác sửdụng rằng, giá trị ( ( ) sửdụng giá trị ngưỡng phân tách hiệu Và làm sở để chọn tập liệu để học 68 Phần III: Kết luận Xuất phát từ yêu cầu thực tế toán phântíchcảmxúc phải đối mặt với mẫu mới, chúng không nằm miền với liệu huấn luyện Do kết phântíchcảmxúc không đảm bảo yêu cầu độ xác Đề tài Phântíchcảmxúcsửdụngcáchtiếpcậnhọcchuyểnđổi đã: Đề xuất phương pháp tiếpcận để giải sai khác miền huấn luyện miền kiểm tra Hay nói cụ thể sai khác phân phối xác suất biên miền đặc trưng hai tập Đề xuất thuật toán họcchuyểnđổi áp dụng cho toán phântíchcảmxúc cực Đề xuất độ đo, giá trị ngưỡng, chứng minh đưa ứng dụng thí nghiệm Cài đặt thử nghiệm chứng tính đắn, hiệu thuật toán, độ đo, giá trị ngưỡng ba tập liệu Twitter SMSs Tuy giải vấn đề xác suất biên khác nhau, toán giả thiết xác suất gán nhãn cho mẫu miền giống Ngoài ra, luận văn sửdụngphần tập liệu tồn hạn chế toán họcchuyểnđổi dựa mẫu Do đó, định hướng nghiên cứu tương lai, giải hai vấn đề Một hướng nghiên cứu khác, nghiên cứu áp dụnghọcchuyểnđổi cho ba lớp toán lại phântíchcảmxúc (như nêu Phần II, chương I) 69 Phần IV: Danh mục tài liệu tham khảo Andriotis P, Takasu A, and Tryfonas T, 2014, Forensic investigation in smartphones using lexicon-based mood analysis and text mining methods, Proceedings of the 10th international conference on digital forensics Blitzer J, Dredze M, and Pereira F, 2012, Biographies, bollywood, boomboxes and blenders: domain adaptation for sentiment classification , Proceedings of association for computational linguistics , pp 432-439 Blum A and Mitchell T, 1998, Combining Labeled and Unlabeled Data with Co-Training, Proceedings 11th Annual conference Computational Learning Theory , pp 92-100 Bonilla E, Chai K.M, and Williams C, 2008, Multi-task gaussian process prediction, Eletronic Proceedings of neural information processing systems , pp 153-160 Borgwardt K.M, Gretton A, Rasch M.J, Kriegel H.-P, Bernhard Sch¨olkopf, and Smola A.J, 2006, Integrating structured biological data by kernel maximum mean discrepancy, Proceedings of the international society for computational biology, pp 49-57 Caruana R, 1997, Multitask Learning, Machine Learning, Volume 28(1), pp 41-75 Cortes C; and Vapnik V.N, 1995, Support-Vector Networks, Machine Learning, 20 Crammer K and Singer Y, 2000, On the learnability and design of output codes for multiclass problems, Proceedings of the conference on computational learning theory, pp 35-46 Crammer K and Singer Y, 2002, On the algorithmic implementation of multiclass kernel-based vector machines, Journal of machine learning research, Volume 2, pp 265–292 70 10 Dai W, Yang Q, Xue G, and Yu Y, 2007, Boosting for transfer learning, Proceedings of the international conference on machine learning, pp 193200 11 Dai W, Yang Q, Xue G, and Yu Y, 2008, Self-Taught Clustering, Proceedings 25th International Conference Machine Learning, pp 200-207 12 Daume III H and Marcu D, 2006, Domain Adaptation for Statistical Classifiers, Jounal of Artificial Intelligence Research, Volume 26, pp 101126 13 Daniel Ramage, David Hall, Ramesh Nallapati, and Christopher D Manning, 2009, Labeled lda: a supervised topic model for credit attribution in multi- labeled corpora In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Volume 1, pages 248–256, Stroudsburg, PA, USA 14 Davis J and Domingos P, 2008, Deep Transfer via Second-Order Markov Logic, Proceedings of the Association for the Advancement of Artificial Intelligence (AAAI ’08) Workshop Transfer Learning for Complex Tasks 15 Ding X, Liu B, and Yu P.S, 2008, A holistic lexicon-based approach to opinion mining, Proceedings of the 2008 International Conference on Web Search and Data Mining, pp 231-240 16 Drucker H, Schapire R, and Simard P, 1993, Boosting performance in neural networks, International Journal Pattern Recognition Artificial Intelligence, Volumn 4, 705–719 17 Evgeniou T and Pontil M, 2004, Regularized multi-task learning, Proceedings of the ACM SIGKDD international conference on knowledge discovery and data mining, pp 109-117 71 18 Fan R.-E, Chang K.-W, Hsieh C.-J, Wang X.-R, and Lin C.-J, 2008, LIBLINEAR: A library for large linear classification, Journal of machine learning research, Volume 9, pp 1871-1874 19 Go A., Bhayani R, and Huang L, 2009, Twitter sentiment classification using distantSupervision, Technical report stanford digital library technologies project 20 Huang J, Smola A, Gretton A, Borgwardt K.M, and Scholkopf B, 2007, Correcting sample selection bias by unlabeled data, Advances in Neural Information Processing Systems, Volume 19, pp 601-608 21 Huettner A and Subasic P, 2000, Fuzzy typing for document management, ACL 2000 companion volume: tutorial abstracts and demonstration notes, pp 26-27 22 Jiang J and Zhai C, 2007, Instance weighting for domain adaptation in NLP, Proceedings of the Association of Computational Linguistics, 264-271 23 Joachims T, 1999, Transductive Inference for Text Classification Using Support Vector Machines, Proceedings 16th International Conference Machine Learning, pp 825-830 24 Keerthi S.S, Sundararajan S, Chang K.-W, Hsieh C.-J, and Lin C.-J, 2008, A sequential dual method for large scale multiclass linear SVMs, Proceedings of the ACM SIGKDD international conference on knowledge discovery and data mining, pp 408-416 25 Kullback S, 1987, Letter to the editor: The KullbackLeibler distance, Journal of the american statistician, Volume 41(4), pp 340-341 26 Kuncheva L.I and Rodrłguez J.J, 2007, Classifier Ensembles with a Random Linear Oracle, IEEE Trans Knowledge and Data Eng, Volume 19(4), pp 500-508 72 27 Kuzborskij I, Orabona F, and Caputo B, 2013, From N to N+1: Multiclass transfer incremental learning, Proceedings of the computer vision and pattern recognition, pp 3358–3365 28 Laboreiro G, Sarmento L, Teixeira J, and Oliveira E, 2010, Tokenizing microblogging messages using a text classification approach, Proceedings of the workshop on analytics for noisy unstructured text data, pp 81-88 29 Lawrence N.D and Platt J.C, 2004, Learning to learn with the informative vector machine, Proceedings of the twenty-first international conference on machine learning, pp 65 30 Lu B, 2010, Identifying opinion holders and targets with dependency parser in Chinese news texts, Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL (HLTNAACL-2010), pp 46-51 31 Mihalkova L and Mooney R.J, 2008, Transfer Learning by Mapping with Minimal Target Data, Proceedings of the Association for the Advancement of Artificial Intelligence (AAAI ’08) Workshop Transfer Learning for Complex Tasks 32 Mihalkova L, Huynh T, and Mooney R.J, 2007, Mapping and Revising Markov Logic Networks for Transfer Learning, Proceedings 22nd Assoc for the Advancement of Artificial Intelligence (AAAI) Conference Artificial Intelligence, pp 608-614 33 Melville P, Gryc W, and Lawrence R.D, 2009, Sentiment analysis of blogs by combining lexical knowledge with text classification, Proceedings of the conference on knowledge discovery and data mining, pp 1275-1284 34 Mihalcea R; Banea C and Wiebe J, 2007, Learning Multilingual Subjective Language via Cross-Lingual Projections, Proceedings of the Association for Computational Linguistics (ACL), pp 976–983 73 35 Nigam K, McCallum A.K, Thrun S, and Mitchell T, 2000, Text Classification from Labeled and Unlabeled Documents Using EM, Machine Learning, Volume 39(2), pp 103-134 36 Pan S.J ,and Yang Q, 2010, A survey on transfer learning, Journal of IEEE transactions on knowledge and data engineering, Volume 22(10), pp 13451359 37 Pan S.J, Kwok J.T and Yang Q, 2008, Transfer learning via dimensionality reduction, Proceedings of the conference on artificial intelligence, pp 677682 38 Pang B, Lee L, Vaithyanathan S, 2002, Thumbs up? Sentiment classification using machine learning techniques, Proceedings of the conference on empirical methods in natural language processing, Volume 10, pp 79-86 39 Pang B, Lee L, 2008, 4.1.2 Subjectivity Detection and Opinion Identification, Opinion Mining and Sentiment Analysis, Now Publishers Inc 40 Press W.H; Teukolsky S.A.; Vetterling W.T.; Flannery B.P, 2007, Section 16.5 Support Vector Machines Numerical Recipes: The Art of Scientific Computing (3rd Edition) New York: Cambridge University Press ISBN 9780-521-88068-8 41 Ortony A, Clore G; Collins A, 1988, The Cognitive Structure of Emotions, Cambridge Univ Press 42 Vuong Hong Quang, Takasu A, 2014, Transfer learning for Emotional Polarity Classification, Proceedings of the International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), Volume 2, pp 95-101 74 43 Vuong Hong Quang, Takasu A, 2015, Transfer Learning for Bibliographic Information Extraction, Proceedings of the International Conference on Pattern Recognition Applications and Methods, pp 374-379 44 Raina R, Battle A, Lee H, Packer B, and Ng A.Y, 2007, Self-taught learning: transfer learning from unlabeled data, Proceedings of international conference on machine learning, pp 759-766 45 Sebastiani F, 2002, Machine learning in automated text categorization, Journal of ACM computing surveys, Volume 1, pp 1-47 46 Si Si, Dacheng Tao, and Kwok-Ping Chan, 2011, Distribution Calibration in Riemannian Symmetric Space, IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics focuses on cybernetics, Volume 41(4), pp 921-930 47 Si Si, Dacheng Tao, and Bo Geng, 2010, Bregman divergence-based regularization for transfer subspace learning, Knowledge and data engineering, IEEE transactions on, Volume 22(7), pp 929-942 48 Si Si, Dacheng Tao, Meng Wang, and Kwok-Ping Chan, 2010, Evolutionary cross-domain discriminative Hessian eigenmaps, Image processing, IEEE transactions on, Volume 14(4), pp 1075-1086 49 Si Si, Dacheng Tao, Meng Wang, and Kwok-Ping Chan, 2012, Social image annotation via cross-domain subspace learning, Multimedia tools and applications, Volume 56(1), pp 91-108 50 Steinwart I, 2001, On the influence of the kernel on the consistency of support vector machines, Journal of machine learning research, Volume 2, pp 67-93 51 Suykens J and Vandewalle J, 1999, Least squares support vector machine classifiers, Journal of neural processing letters, pp 293-300 52 Thrun S and Pratt L, 1998, Learning to Learn, Kluwer Academic Publishers 75 53 Tong.R.M, 2001, An operational system for detecting and tracking opinions in on-line discussions, the workshop on operational text classification, pp 70-77 54 Turney P, 2002, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews, Proceedings of the Association for Computational Linguistics, pp 417–424 55 Wang Z, Song Y, and Zhang C, 2008, Transferred Dimensionality Reduction, Proceedings European Conference Machine Learning and Knowledge Discovery in Databases, pp 550-565 56 Yang Q, Ling C, Chai X, and Pan R, 2006, Test-Cost Sensitive Classification on Data with Missing Values, IEEE Trans Knowledge and Data Eng, Volume 18(5), pp 626-638 57 Yin X, Han J, Yang J, and Yu P.S, 2006, Efficient Classification across Multiple Database Relations: A Crossmine Approach, IEEE Trans Knowledge and Data Eng, Volume 18(6), pp 770-783 58 Zadrozny B, 2004, Learning and evaluating classifiers under sample selection bias, Proceedings of the international conference on machine learning, pp 114 59 Zhu X, 2006, Semi-Supervised Learning Literature Survey, Technical Report 1530, Univ of Wisconsin-Madison 60 Zhu X and Wu X, 2006, Class Noise Handling for Effective CostSensitive Learning by Cost-Guided Iterative Classification Filtering, IEEE Trans Knowledge and Data Eng, Volume 18(10), pp 1435-1440 76 ... có phân phối xác suất biên khác Hơn nữa, liệu tồn phong phú, có phần tận dụng để nâng cao độ xác cho toán phân tích cảm xúc Vì lý trên, chọn đề tài: Phân tích cảm xúc sử dụng cách tiếp cận học. .. học chuyển đổi‖ Luận văn đề xuất phương pháp tiếp cận để giải hiệu toán phân tích cảm xúc Luận văn đề xuất thuật toán học chuyển đổi sử dụng tập liệu cảm xúc tồn để tăng độ xác toán phân tích cảm. .. có phân phối xác suất biên khác Hơn nữa, liệu tồn phong phú, có phần tận dụng để nâng cao độ xác cho toán phân tích cảm xúc Vì lý trên, chọn đề tài: Phân tích cảm xúc sử dụng cách tiếp cận học