Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
1,37 MB
Nội dung
LỜI CAM ĐOAN Tôi – Vương Hồng Quang – xin cam kết Luận văn tốt nghiệp cơng trình nghiên cứu thân hướng dẫn PGS.TS Nguyễn Thị Kim Anh, Viện CNTT, trường Đại học Bách Khoa Hà Nội Các kết nên Luận văn tốt nghiệp trung thực, không chép tồn văn cơng trình khác Hà Nội, ngày 04 tháng 09 năm 2014 Học viên thực luận văn Vương Hồng Quang Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội Đặc biệt thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin Truyền thông Các thầy cô trang bị cho em kiến thức quý báu thời gian em học tập nghiên cứu trường Em xin gửi lời cảm ơn đặc biệt đến PGS.TS Nguyễn Kim Anh Cơ người dẫn tận tình, cho em kinh nghiệm quý báu để em hồn thành luận văn tốt nghiệp Cơ ln động viên, giúp đỡ em trình nghiên cứu hoàn thiện luận văn Đồng thời em xin gửi lời cảm ơn chân thành đến GS.TS Atsuhiro Takasu, thuộc viện công nghệ thông tin quốc gia, Nhật Thầy dìu dắt, bảo, hướng dẫn, chia sẻ kinh nghiệm nghiên cứu khoa học Em cảm ơn PGS.TS Lê Đình Duy, TS Nguyễn Văn Kiên, TS Trần Minh Quang anh chị nghiên cứu sinh, thuộc viện cơng nghệ thơng tin quốc gia Nhật, đóng góp ý kiến giúp em hoàn thiện luận văn Em xin gửi lời cảm ơn tới gia đình, bạn bè Mọi người động viên thúc đẩy tạo động lực cho em ln tiến lên phía trước Tóm tắt nội dung Phân tích cảm xúc lĩnh vực quan trọng Nó có khả áp dụng nhiều lĩnh vực thực tế khác là: phân tích thị trường, phân tích đánh giá người dùng, khám nghiệm pháp y Trong thực tế, liệu kiểm tra ln ln thay đổi, không nằm miền với tập huấn luyện Với trường hợp này, cách tiếp cận giải tốn phân tích cảm xúc trước khơng cho độ xác mong muốn Do đó, vấn đề nâng cao độ xác tốn phân tích cảm xúc dự đốn cảm xúc với liệu đến cần giải Trong học chuyển đổi phương pháp giúp tăng cường độ xác từ tập liệu có sẵn, tập liệu có phân phối xác suất biên khác Hơn nữa, liệu tồn phong phú, có phần tận dụng để nâng cao độ xác cho tốn phân tích cảm xúc Vì lý trên, tơi chọn đề tài: ―Phân tích cảm xúc sử dụng cách tiếp cận học chuyển đổi‖ Luận văn đề xuất phương pháp tiếp cận để giải hiệu tốn phân tích cảm xúc Luận văn đề xuất thuật toán học chuyển đổi sử dụng tập liệu cảm xúc tồn để tăng độ xác tốn phân tích cảm xúc miền khác Ngồi luận văn đề xuất độ đo để đo khả sử dụng tập liệu cũ cho miền mới, hai thuật toán để định tập liệu cảm xúc tốt nên học để định xem tập liệu có nên sử dụng để học hay khơng Đóng góp luận văn là: Luận văn đưa phương pháp để giải tốn phân tích cảm xúc Luận văn đề xuất phương pháp học chuyển đổi với chiến lược học tập liệu tồn tại, đảm bảo sau trình học xác suất tập huấn luyện tập kiểm tra gần Luận văn đề xuất độ đo xác định khoảng cách tập liệu số ứng dụng Thử nghiệm rằng, đề xuất thu kết tốt thuật toán học chuyển đổi với phương pháp tương tự trước đây, thuật toán học máy máy vector hỗ trợ (SVMs) trường hợp tập huấn luyện liệu tương lai nghèo nàn, khơng đủ xây dựng hình phân loại tốt cho tập liệu Abstract Sentiment Analysis is an important field Nowaday, It is currently applied into many different fields in real world as: market analysis, financial, review customer, forensic analysis… However, the domain of target datas always change, and it can be inconsistent with model built by source domain Therefore, the traditional machine learning approaches for sentiment analysis problem might not be efficient for this case Within my knowledge, transfer learning can improve the accuracy by using very rich existed data sets, evenwhen their marginal probability distribution are different with new test sets Because of the above reasons, I chose topic: ―Sentiment Analysis using Transfer Learning‖ My thesis proposed a novel approach to solve sentiment analysis problem Specifically, I have proposed a method to solve classisify polarity problem (one of sub-problems of sentiment analysis) that use existed sentiment data set to improve the accuracy on new domains of dataset Thesis’s main contributions are as follows We present a novel approach to a formalism for solving the problem by adopting transfer learning We propose a new method that uses a existed sentiment data set, which is labeled to improve performance We propose a measure and a threshold to decide whether the system will learn a data set or not The experiments show that my proposal has better result than inductive transfer learning, and other machine learning algorithms such as Support vector machin (SVMs) when new training set is not big enough to construct model to classify new data set Mục Lục Phần I: Phần mở đầu 12 Lý chọn đề tài .12 Lịch sử nghiên cứu 12 3, Mục đích nghiên cứu luận văn, đối tượng, phạm vi nghiên cứu 14 Tóm tắt luận điểm đóng góp 14 Phần II: Nội dung 17 Chương I Phân tích cảm xúc 17 Các nhiệm vụ tốn phân tích cảm xúc .17 Các phương thức 18 Chương II Học chuyển đổi 28 Lịch sử học chuyển đổi 28 Các ký hiệu định nghĩa .31 Phân loại kỹ thuật học chuyển đổi 33 Chương III Áp dụng học chuyển đổi cho toán phân loại cảm xúc cực 41 Thuật toán AdaBoost 41 Thuật toán TrAdaBoost 44 Thuật toán MulTrAdaBoost 47 Thuật toán Unilateral – TrAdaBoost .50 Độ đo giá trị ngưỡng đề xuất 54 Cài đặt thử nghiệm đánh giá 59 Phần III: Kết luận 69 Phần IV: Danh mục tài liệu tham khảo .70 Danh sách từ viết tắt thuật ngữ SVMs SMSs MaxEntropy SA LSA AdaBoost TrAdaBoost MMD MDS over-fitting WeakLearn LS-SVM RKHS OC PC SPD Support Vector Machines Short Message Services Maximum Entropy Sentiment Analysis Latent Sentiment Analysis Adaptive Boosting Transfer AdaBoost Maximum Mean Discrepancy Mean Discrepancy of Set Over fitting Weak Learner Least Square Support Vector Machine Reproducing Kernel Hillbert Space Opinion Classification Polarity Classification Symmetric Positive Define Danh sách hình vẽ Sự khác tiến trình học (a) học máy truyền thống (b) học chuyển đổi ……………………………………………………… 29 Tổng quan khác biệt loại học chuyển đổi…………… 37 Thuật toán AdaBoost…………………………………………… 44 Thuật toán TrAdaBoost…………………………………………… 47 Thuật toán MulTrAdaBoost………………………………………… 50 Chiến lược học TrAdaBoost MulTrAdaBoost……………… 51 Chiến lược học Unilateral – TrAdaBoost……………………… 52 Thuật toán Unilateral – MulTrAdaBoost…………………………… 54 Mối liên hệ khoảng cách phân phối khả học……………… 10 Thuật tốn định xem có nên học hay khơng……………… 58 58 11 Thuật toán dùng để chọn tập liệu tốt ứng với miền đích…… 59 12 So sánh độ xác Unilateral – TrAdaBoost MulTrAdaBoost…………………………………………………… 65 13 So sánh độ xác Unilaterial – TrAdaBoost thuật toán học sở…………………………………………………………… 10 67 Cuối tập liệu SemEval-2013, thu thập từ số lượng lớn chủ đề Các chủ để trộn thực thể tồn (như là: Gaddafi, Steve Jobs, ), sản phẩm (như là: Kindle, Android phone, ), kiện (như là, Japan earthquake, NHL playoffs, ) Bởi khác trình xử lý thu thập trên, nên miền tập liệu khác kết hiển nhiên Chúng sử dụng tập liệu thực tập liệu tổng hợp với thuật toán Unilateral-TrAdaBoost để chứng minh ổn định độ hiệu thuật toán, đồng thời so sánh với thuật tốn sở SVM TrAdaBoost (MulTrAdaBoost) Ngồi để minh hoạ tính hiệu độ đo ngưỡng, sử dụng SVM với tập liệu tổng hợp từ Sanders trình bày để thể điều Bốn thí nghiệm tiến hành là: Thí nghiệm 1: kiểm tra với tập liệu tổng hợp, thoả mãn lần ( lượt tương ứng ) ( ) ( ) Thí nghiệm 2: Chúng tơi so sánh Unilateral−TrAdaBoost với Sanders đóng vai trị , SemEval-2013 đóng vai trị , tập kiểm tra thay đổi Thí nghiệm 3: Chúng tơi so sánh Unilateral−TrAdaBoost với Sanders đóng vai trị , SemEval-2013 đóng vai trị , tỉ lệ tập huấn luyện so với tập kiểm tra S thay đổi Thí nghiệm 4: Chúng tơi so sánh độ xác SVM tập huấn luyện thay đổi b Phương pháp đánh giá Trong thí nghiệm, chúng tơi đánh giá độ xác hai trường hợp với tập liệu tổng hợp tập liệu thực Hàm nhân sử dụng cho khoảng cách tới tâm trung bình ( ) ( ) hàm nhân Gaussian 62 ( ) ‖ ‖ / Chúng sử dụng mơ hình SVM LR học sở TrAdaBoost, MulTrAdaBoost, Unilateral-TrAdaBoost Tuy nhiên biết TrAdaBoost thuật toán phân loại nhị phân với SVM cổ điển, tốn thực tế phân tích cảm xúc toán đa lớp Hơn MulTrAdaBoost TrAdaBoost lại có chiến lược học trọng số mẫu Vì chúng tơi sử dụng MulTrAdaBoost thay TrAdaBoost sở để so sánh Trong thí nghiệm, chúng tơi sử dụng LIBLINEAR [Fan R.-E et al., 2008] để tiến hành thí nghiệm với phân loại SVM, LR Tôi so sánh phương thức SVM LR tập huấn luyện có và có có thay đổi ứng với trường hợp: ( ) ( ) ( ) ( ) Ngoài ra, phân tích cảm xúc, quan tâm đến cảm xúc cực quan tâm đến cảm xúc trung lập, lĩnh vực phân tích pháp y Các thời điểm cảm xúc tiêu cực có ý nghĩa lớn đến việc khoanh vùng điều tra Do đó, chúng tơi quan tâm đến trung bình độ xác cảm xúc tích cực tiêu cực Chúng tơi sử dụng trung bình độ đo để so sánh 63 ( (a) So sánh độ xác hai chiến lược học ( (b) So sánh độ xác hai chiến lược học ) ) ( ) Hình 12: So sánh độ xác Unilateral – TrAdaBoost MulTrAdaBoost (Trục x biểu diễn độ tỷ lệ kích thước tập S so với kích thước tập Trục y biểu diễn độ xác F-score cơng thức (19)) ( Ở ( ) ( ) ( ) ) độ đo F phân loại cảm xúc tích cực, ( ) độ đo F phân loại cảm xúc tiêu cực c Các kết bàn luận i Thí nghiệm Như nhắc đến trên, tiến hành thí nghiệm với tập liệu tổng hợp mà thoả mãn ( ) Như thể hình 12(a), thấy rằng, độ xác thuật tốn tương tự Bởi vậy, phân phối X (tập kết hợp ) sau huấn luyện không khác nhiều so 64 với tập kiểm tra, hay khơng khác nhiều so với Do chiến lược học tơi đề xuất khơng có nhiều khác biệt so với chiến lược cũ Còn trường hợp thứ hai, với ( ) ( ) , tức là, khoảng cách đủ lớn Để sau trình học, ta thu liệu X với phân phối chung đủ khác biệt so với phân phối tương ứng Khi thấy, hình 12(b), kết chiến lược tốt hơn, đặc biệt trường hợp tập huấn luyện có phân phối với tập kiểm tra không đủ lớn để tạo mô hình đủ tốt cho nhiệm vụ phân loại ii Thí nghiệm Trong thí nghiệm này, hai thuật tốn cài đặt Unilateral – TrAdaBoost thuật toán học sở, với SemEval-2013 Sanders Ở thể kết TrAdaBoost hay MulTrAdaBoost hai thuật tốn sớm bị dừng lại điều kiện hàm lỗi không lớn 0.5 Do cài đặt chúng, kết cuối chúng thực thuật toán học sở Bảng thể kết thí nghiệm Từ bảng này, ta thấy độ xác thuật toán sở SVM tập liệu kiểm tra Twitter cao nhiều so với tập liệu tập liệu kiểm tra SMS (0.6524 với 0.5411) Điều lý giải độ phù hợp tập liệu huấn luyện với tập liệu kiểm tra Twitter tốt hơn, hay nói cách khác khoảng cách phân phối xác suất tập huấn luyện với phân phối xác suất tập kiểm tra Twitter gần so với phân phối xác suất tập liệu kiểm tra SMS Do mơ hình xây dựng từ tập liệu huấn luyện dùng cho tập liệu Twitter cho kết tốt Trong đó, với thuật tốn Unilaterial – TrAdaBoost, độ xác tương ứng 0.6251 với 0.6237 tập kiểm tra thay đổi Từ đó, thấy thuật tốn Unilaterial – TrAdaBoost ổn định hơn, thích nghi tốt với thay đổi tập kiểm tra 65 Twitter SMS Trung bình Unilaterial – TrAdaBoost (SVM) 0.6251 0.6237 0.6244 SVM - TrAdaBoost 0.6524 0.5411 0.5968 (Sanders) Bảng 7: Kết so sánh độ xác tập kiểm tra bị thay đổi Hình 13: So sánh độ xác Unilaterial – TrAdaBoost thuật toán học sở (Trục y biểu diễn độ xác F-score, trục X biểu diễn phần trăm mẫu sử dụng cho tập huấn luyện) iii Thí nghiệm Tơi cài đặt thuật tốn Unilateral – TrAdaBoost thuật tốn học sở (tơi khơng sử dụng TrAdaBoost hay MulTrAdaBoost độ xác thuật toán thấp, nên thuật toán dừng lại sớm phân loại thuật toán sở) với tập liệu Sanders and SemEval2013 mà tỷ lệ tập huấn luyện bị thay đổi Ở đây, tơi sử dụng Sanders với vai trị là vaf SemEval2013 đóng vai trị Trong tập huấn luyện lấy ngẫu nhiên từ với tỷ lệ thay đổi từ 1% đến 90% Với tỷ lệ, phân tách thành 20 trường hợp khác (đều 66 lấy ngẫu nhiên), tiến hành xác định độ xác trường hợp Độ xác thể hình 13 kết trung bình 20 trường hợp Từ hình 13, thấy Unilateral – TrAdaBoost tăng cường độ xác hai trường hợp : tập huấn luyện nhỏ tập huấn luyện đủ lớn Đầu tiên, ta thấy thuật tốn học sở khơng phân loại hiệu Bởi tập huấn luyện nhỏ, khó khăn việc xây dựng mơ hình tốt mà phù hợp với tập test Tuy nhiên, chứa đặc trưng mơ hình, Unilateral – TrAdaBoost học đặc trưng để tăng cường tính hiệu Trong trường hợp thứ hai, thuật toán sở đủ ổn định để lựa chọn mẫu từ để tăng cường độ xác Về lý giải thích cho tăng cường độ xác Unilateral – TrAdaBoost, quan sát thấy rằng, số vòng lặp đủ lớn, đủ tốt để mơ tả tốn, phân phối xác suất phối xác suất gần với phân lấy tập huấn luyện lớn Do đó, kết tốt điều dễ thấy iv Thí nghiệm Cuối cùng, tơi kiểm tra độ xác khoảng cách vaf thay đổi Thí ( ) hiệu Chúng ta sẻ dụng SVM thuật toán LR làm thuật toán sở, nghiệm để thể giá trị ngưỡng khoảng cách tới tâm trung bình hai liệu Sanders Sent140 Với liệu ta thấy: Tập test SVM (SMS) SVM (Twitter) 0.5411 0.6524 67 Sanders 0.5152 0.6386 Sent140 0.5263 0.5673 Bảng 8: So sánh độ xác SVM (LR) ( ( { ) ) ( ) bị thay đổi ( ) ( ) Bảng thể kết thu từ thí nghiệm Những kết cho thấy độ xác giảm khơng đáng kể tập sử dụng Sanders với khoảng cách nhỏ ngưỡng khoảng cách tới tâm trung bình ) Ngược lại độ Sent140 lại giảm cách nhanh chóng Điều cho thấy xác sử dụng rằng, giá trị ( ( ) sử dụng giá trị ngưỡng phân tách hiệu Và làm sở để chọn tập liệu để học 68 Phần III: Kết luận Xuất phát từ yêu cầu thực tế tốn phân tích cảm xúc ln phải đối mặt với mẫu mới, chúng khơng nằm miền với liệu huấn luyện Do kết phân tích cảm xúc khơng đảm bảo u cầu độ xác Đề tài Phân tích cảm xúc sử dụng cách tiếp cận học chuyển đổi đã: Đề xuất phương pháp tiếp cận để giải sai khác miền huấn luyện miền kiểm tra Hay nói cụ thể sai khác phân phối xác suất biên miền đặc trưng hai tập Đề xuất thuật toán học chuyển đổi áp dụng cho toán phân tích cảm xúc cực Đề xuất độ đo, giá trị ngưỡng, chứng minh đưa ứng dụng thí nghiệm Cài đặt thử nghiệm chứng tính đắn, hiệu thuật toán, độ đo, giá trị ngưỡng ba tập liệu Twitter SMSs Tuy giải vấn đề xác suất biên khác nhau, tốn cịn giả thiết xác suất gán nhãn cho mẫu miền giống Ngoài ra, luận văn sử dụng phần tập liệu tồn hạn chế toán học chuyển đổi dựa mẫu Do đó, định hướng nghiên cứu tương lai, giải hai vấn đề Một hướng nghiên cứu khác, nghiên cứu áp dụng học chuyển đổi cho ba lớp tốn cịn lại phân tích cảm xúc (như nêu Phần II, chương I) 69 Phần IV: Danh mục tài liệu tham khảo Andriotis P, Takasu A, and Tryfonas T, 2014, Forensic investigation in smartphones using lexicon-based mood analysis and text mining methods, Proceedings of the 10th international conference on digital forensics Blitzer J, Dredze M, and Pereira F, 2012, Biographies, bollywood, boomboxes and blenders: domain adaptation for sentiment classification , Proceedings of association for computational linguistics , pp 432-439 Blum A and Mitchell T, 1998, Combining Labeled and Unlabeled Data with Co-Training, Proceedings 11th Annual conference Computational Learning Theory , pp 92-100 Bonilla E, Chai K.M, and Williams C, 2008, Multi-task gaussian process prediction, Eletronic Proceedings of neural information processing systems , pp 153-160 Borgwardt K.M, Gretton A, Rasch M.J, Kriegel H.-P, Bernhard Schăolkopf, and Smola A.J, 2006, Integrating structured biological data by kernel maximum mean discrepancy, Proceedings of the international society for computational biology, pp 49-57 Caruana R, 1997, Multitask Learning, Machine Learning, Volume 28(1), pp 41-75 Cortes C; and Vapnik V.N, 1995, Support-Vector Networks, Machine Learning, 20 Crammer K and Singer Y, 2000, On the learnability and design of output codes for multiclass problems, Proceedings of the conference on computational learning theory, pp 35-46 Crammer K and Singer Y, 2002, On the algorithmic implementation of multiclass kernel-based vector machines, Journal of machine learning research, Volume 2, pp 265–292 70 10 Dai W, Yang Q, Xue G, and Yu Y, 2007, Boosting for transfer learning, Proceedings of the international conference on machine learning, pp 193200 11 Dai W, Yang Q, Xue G, and Yu Y, 2008, Self-Taught Clustering, Proceedings 25th International Conference Machine Learning, pp 200-207 12 Daume III H and Marcu D, 2006, Domain Adaptation for Statistical Classifiers, Jounal of Artificial Intelligence Research, Volume 26, pp 101126 13 Daniel Ramage, David Hall, Ramesh Nallapati, and Christopher D Manning, 2009, Labeled lda: a supervised topic model for credit attribution in multi- labeled corpora In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Volume 1, pages 248–256, Stroudsburg, PA, USA 14 Davis J and Domingos P, 2008, Deep Transfer via Second-Order Markov Logic, Proceedings of the Association for the Advancement of Artificial Intelligence (AAAI ’08) Workshop Transfer Learning for Complex Tasks 15 Ding X, Liu B, and Yu P.S, 2008, A holistic lexicon-based approach to opinion mining, Proceedings of the 2008 International Conference on Web Search and Data Mining, pp 231-240 16 Drucker H, Schapire R, and Simard P, 1993, Boosting performance in neural networks, International Journal Pattern Recognition Artificial Intelligence, Volumn 4, 705–719 17 Evgeniou T and Pontil M, 2004, Regularized multi-task learning, Proceedings of the ACM SIGKDD international conference on knowledge discovery and data mining, pp 109-117 71 18 Fan R.-E, Chang K.-W, Hsieh C.-J, Wang X.-R, and Lin C.-J, 2008, LIBLINEAR: A library for large linear classification, Journal of machine learning research, Volume 9, pp 1871-1874 19 Go A., Bhayani R, and Huang L, 2009, Twitter sentiment classification using distantSupervision, Technical report stanford digital library technologies project 20 Huang J, Smola A, Gretton A, Borgwardt K.M, and Scholkopf B, 2007, Correcting sample selection bias by unlabeled data, Advances in Neural Information Processing Systems, Volume 19, pp 601-608 21 Huettner A and Subasic P, 2000, Fuzzy typing for document management, ACL 2000 companion volume: tutorial abstracts and demonstration notes, pp 26-27 22 Jiang J and Zhai C, 2007, Instance weighting for domain adaptation in NLP, Proceedings of the Association of Computational Linguistics, 264-271 23 Joachims T, 1999, Transductive Inference for Text Classification Using Support Vector Machines, Proceedings 16th International Conference Machine Learning, pp 825-830 24 Keerthi S.S, Sundararajan S, Chang K.-W, Hsieh C.-J, and Lin C.-J, 2008, A sequential dual method for large scale multiclass linear SVMs, Proceedings of the ACM SIGKDD international conference on knowledge discovery and data mining, pp 408-416 25 Kullback S, 1987, Letter to the editor: The KullbackLeibler distance, Journal of the american statistician, Volume 41(4), pp 340-341 26 Kuncheva L.I and Rodrłguez J.J, 2007, Classifier Ensembles with a Random Linear Oracle, IEEE Trans Knowledge and Data Eng, Volume 19(4), pp 500-508 72 27 Kuzborskij I, Orabona F, and Caputo B, 2013, From N to N+1: Multiclass transfer incremental learning, Proceedings of the computer vision and pattern recognition, pp 3358–3365 28 Laboreiro G, Sarmento L, Teixeira J, and Oliveira E, 2010, Tokenizing microblogging messages using a text classification approach, Proceedings of the workshop on analytics for noisy unstructured text data, pp 81-88 29 Lawrence N.D and Platt J.C, 2004, Learning to learn with the informative vector machine, Proceedings of the twenty-first international conference on machine learning, pp 65 30 Lu B, 2010, Identifying opinion holders and targets with dependency parser in Chinese news texts, Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL (HLTNAACL-2010), pp 46-51 31 Mihalkova L and Mooney R.J, 2008, Transfer Learning by Mapping with Minimal Target Data, Proceedings of the Association for the Advancement of Artificial Intelligence (AAAI ’08) Workshop Transfer Learning for Complex Tasks 32 Mihalkova L, Huynh T, and Mooney R.J, 2007, Mapping and Revising Markov Logic Networks for Transfer Learning, Proceedings 22nd Assoc for the Advancement of Artificial Intelligence (AAAI) Conference Artificial Intelligence, pp 608-614 33 Melville P, Gryc W, and Lawrence R.D, 2009, Sentiment analysis of blogs by combining lexical knowledge with text classification, Proceedings of the conference on knowledge discovery and data mining, pp 1275-1284 34 Mihalcea R; Banea C and Wiebe J, 2007, Learning Multilingual Subjective Language via Cross-Lingual Projections, Proceedings of the Association for Computational Linguistics (ACL), pp 976–983 73 35 Nigam K, McCallum A.K, Thrun S, and Mitchell T, 2000, Text Classification from Labeled and Unlabeled Documents Using EM, Machine Learning, Volume 39(2), pp 103-134 36 Pan S.J ,and Yang Q, 2010, A survey on transfer learning, Journal of IEEE transactions on knowledge and data engineering, Volume 22(10), pp 13451359 37 Pan S.J, Kwok J.T and Yang Q, 2008, Transfer learning via dimensionality reduction, Proceedings of the conference on artificial intelligence, pp 677682 38 Pang B, Lee L, Vaithyanathan S, 2002, Thumbs up? Sentiment classification using machine learning techniques, Proceedings of the conference on empirical methods in natural language processing, Volume 10, pp 79-86 39 Pang B, Lee L, 2008, 4.1.2 Subjectivity Detection and Opinion Identification, Opinion Mining and Sentiment Analysis, Now Publishers Inc 40 Press W.H; Teukolsky S.A.; Vetterling W.T.; Flannery B.P, 2007, Section 16.5 Support Vector Machines Numerical Recipes: The Art of Scientific Computing (3rd Edition) New York: Cambridge University Press ISBN 9780-521-88068-8 41 Ortony A, Clore G; Collins A, 1988, The Cognitive Structure of Emotions, Cambridge Univ Press 42 Vuong Hong Quang, Takasu A, 2014, Transfer learning for Emotional Polarity Classification, Proceedings of the International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), Volume 2, pp 95-101 74 43 Vuong Hong Quang, Takasu A, 2015, Transfer Learning for Bibliographic Information Extraction, Proceedings of the International Conference on Pattern Recognition Applications and Methods, pp 374-379 44 Raina R, Battle A, Lee H, Packer B, and Ng A.Y, 2007, Self-taught learning: transfer learning from unlabeled data, Proceedings of international conference on machine learning, pp 759-766 45 Sebastiani F, 2002, Machine learning in automated text categorization, Journal of ACM computing surveys, Volume 1, pp 1-47 46 Si Si, Dacheng Tao, and Kwok-Ping Chan, 2011, Distribution Calibration in Riemannian Symmetric Space, IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics focuses on cybernetics, Volume 41(4), pp 921-930 47 Si Si, Dacheng Tao, and Bo Geng, 2010, Bregman divergence-based regularization for transfer subspace learning, Knowledge and data engineering, IEEE transactions on, Volume 22(7), pp 929-942 48 Si Si, Dacheng Tao, Meng Wang, and Kwok-Ping Chan, 2010, Evolutionary cross-domain discriminative Hessian eigenmaps, Image processing, IEEE transactions on, Volume 14(4), pp 1075-1086 49 Si Si, Dacheng Tao, Meng Wang, and Kwok-Ping Chan, 2012, Social image annotation via cross-domain subspace learning, Multimedia tools and applications, Volume 56(1), pp 91-108 50 Steinwart I, 2001, On the influence of the kernel on the consistency of support vector machines, Journal of machine learning research, Volume 2, pp 67-93 51 Suykens J and Vandewalle J, 1999, Least squares support vector machine classifiers, Journal of neural processing letters, pp 293-300 52 Thrun S and Pratt L, 1998, Learning to Learn, Kluwer Academic Publishers 75 53 Tong.R.M, 2001, An operational system for detecting and tracking opinions in on-line discussions, the workshop on operational text classification, pp 70-77 54 Turney P, 2002, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews, Proceedings of the Association for Computational Linguistics, pp 417–424 55 Wang Z, Song Y, and Zhang C, 2008, Transferred Dimensionality Reduction, Proceedings European Conference Machine Learning and Knowledge Discovery in Databases, pp 550-565 56 Yang Q, Ling C, Chai X, and Pan R, 2006, Test-Cost Sensitive Classification on Data with Missing Values, IEEE Trans Knowledge and Data Eng, Volume 18(5), pp 626-638 57 Yin X, Han J, Yang J, and Yu P.S, 2006, Efficient Classification across Multiple Database Relations: A Crossmine Approach, IEEE Trans Knowledge and Data Eng, Volume 18(6), pp 770-783 58 Zadrozny B, 2004, Learning and evaluating classifiers under sample selection bias, Proceedings of the international conference on machine learning, pp 114 59 Zhu X, 2006, Semi-Supervised Learning Literature Survey, Technical Report 1530, Univ of Wisconsin-Madison 60 Zhu X and Wu X, 2006, Class Noise Handling for Effective CostSensitive Learning by Cost-Guided Iterative Classification Filtering, IEEE Trans Knowledge and Data Eng, Volume 18(10), pp 1435-1440 76 ... học chuyển đổi, tổng hợp mối quan hệ học máy truyền thống loại học chuyển đổi bảng Ở phân loại học chuyển đổi thành loại, học chuyển đổi qui nạp, học chuyển đổi chuyển nạp, học chuyển đổi không... chuyển đổi? ?? Luận văn đề xuất phương pháp tiếp cận để giải hiệu tốn phân tích cảm xúc Luận văn đề xuất thuật toán học chuyển đổi sử dụng tập liệu cảm xúc tồn để tăng độ xác tốn phân tích cảm xúc. .. phân phối xác suất biên khác Hơn nữa, liệu tồn phong phú, có phần tận dụng để nâng cao độ xác cho tốn phân tích cảm xúc Vì lý trên, chọn đề tài: ? ?Phân tích cảm xúc sử dụng cách tiếp cận học chuyển