1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm

140 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 140
Dung lượng 1 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ —————————————– TÍCH HỢP ĐẶC TRƯNG NGƠN NGỮ VÀO MƠ HÌNH HỌC THỐNG KÊ CHO PHÂN TÍCH TÌNH CẢM LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH HÀ NỘI, 2021 Mục lục Trang Lời cam đoan Lời cảm ơn Tóm tắt MỞ ĐẦU Đặt vấn đề Mục tiêu, đối tượng, phương pháp nghiên cứu luận án Các đóng góp luận án 10 Bố cục luận án 11 Chương TỔNG QUAN VỀ CÁC KỸ THUẬT PHÂN TÍCH TÌNH CẢM 12 1.1 Phân tích tình cảm khai phá quan điểm 12 1.1.1 Giới thiệu 12 1.1.2 Nghiên cứu phân tích tình cảm, khai phá quan điểm giới nước 13 1.1.3 Các miền ứng dụng phân tích tình cảm 17 1.1.4 Công cụ kỹ thuật phân tích liệu 18 1.2 Các tốn nghiên cứu phân tích tình cảm 19 1.2.1 Phân tích tình cảm mức tài liệu/câu 19 1.2.2 Phân tích tình cảm mức thực thể/khía cạnh 22 1.3 Phân tích nội dung nghiên cứu 25 1.3.1 Dữ liệu nghiên cứu 25 1.3.2 Phân loại tính chủ quan 27 1.3.3 Phân tích tình cảm/quan điểm theo khía cạnh 29 1.3.4 Các phương pháp biểu diễn văn 31 1.3.5 Phương pháp đánh giá hiệu 34 1.4 Kết luận chương 37 Chương KỸ THUẬT CHUẨN HÓA DỮ LIỆU TIẾNG VIỆT TRONG PHÂN TÍCH TÌNH CẢM 38 2.1 Giới thiệu 38 i 2.2 Phương pháp kiểm tra tả cho liệu tình cảm tiếng Việt dạng Microblog sử dụng n-gram lớn 40 2.2.1 Động nghiên cứu 40 2.2.2 Một số lỗi tả thường gặp 42 2.2.3 Phương pháp kiểm tra tả đề xuất 43 2.2.4 Tiền xử lý liệu 44 2.2.5 Thuật tốn kiểm tra tả mở rộng ngữ cảnh hai phía 45 2.2.6 Mơ hình ngơn ngữ n-gram lớn nén n-gram 46 2.2.7 Thực nghiệm đánh giá kết 49 2.3 Phương pháp tách từ cho liệu tình cảm tiếng Việt dạng Microblog 53 2.3.1 Động nghiên cứu 53 2.3.2 Hiện tượng nhập nhằng tách từ tiếng Việt 55 2.3.3 Phương pháp tách từ liệu tình cảm tiếng Việt dạng Microblog 56 2.3.4 Phương pháp tách từ sử dụng kiểm tra tả 62 2.3.5 Thực nghiệm đánh giá kết 66 2.4 Kết luận chương 70 Chương PHÂN LOẠI CÂU CHỦ QUAN DỰA TRÊN TRÍCH CHỌN CÁC ĐẶC TRƯNG TỪ CÁC MẪU NGỮ PHÁP 71 3.1 Phát biểu toán 72 3.2 Giới thiệu 72 3.3 Phương pháp trích xuất đặc trưng ngôn ngữ dựa mẫu ngữ pháp cho phân loại câu chủ quan áp dụng cho liệu tiếng Anh 73 3.3.1 Động nghiên cứu 73 3.3.2 Mơ hình phân loại câu chủ quan tiếng Anh 75 3.3.3 Trích xuất đặc trưng 76 3.3.4 Thực phân loại tính chủ quan 81 3.3.5 Thực nghiệm đánh giá kết 83 3.4 Phương pháp học tự động mẫu cho toán xác định câu chủ quan tiếng Việt 86 3.4.1 Động nghiên cứu 86 3.4.2 Quá trình học mẫu từ loại 88 3.4.3 Dữ liệu huấn luyện 89 3.4.4 Định nghĩa mẫu 90 3.4.5 Trích xuất đánh giá mẫu 92 3.4.6 Thực phân loại tính chủ quan 95 3.4.7 Thực nghiệm đánh giá kết 95 3.5 Kết luận chương ii 103 Chương PHÂN TÍCH TÌNH CẢM/QUAN ĐIỂM THEO KHÍA CẠNH VỚI MƠ HÌNH CNN 104 4.1 Phát biểu toán 104 4.2 Động nghiên cứu 105 4.3 Mơ hình hóa tốn 107 4.4 Mơ hình đề xuất 109 4.4.1 Mơ hình CNN hai pha cho phân tích tình cảm/quan điểm theo khía cạnh 109 4.4.2 Mơ hình CNN với đặc trưng 112 4.5 Thực nghiệm đánh giá kết 113 4.5.1 Dữ liệu Công cụ, môi trường thực nghiệm 113 4.5.2 Tiền xử lý liệu 114 4.5.3 Các mơ hình kết 115 4.5.4 Đánh giá kết 115 4.6 Kết luận chương 117 Kết luận 118 Các kết đóng góp luận án 118 Những hạn chế hướng nghiên cứu 120 iii Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 3.1 Kiến trúc phương pháp kiểm tra tả Thuật toán kiểm tra sửa lỗi tả Ảnh hưởng kích thước ngữ liệu đến hiệu phương pháp Sơ đồ thuật toán phát nhập nhằng chồng chéo - ghép cặp lớn từ bên trái Sơ đồ thuật toán phát nhập nhằng chồng chéo - ghép cặp lớn từ bên phải Thuật toán phát nhập nhằng liên kết Phương pháp tách từ sử dụng kiểm tra tả Thuật toán kiểm tra lỗi viết tắt 44 47 51 58 60 61 62 64 3.3 3.4 3.5 3.6 Quá trình thực trích chọn đặc trưng ngơn ngữ cho phân loại câu chủ quan tiếng Anh Sơ đồ thuật toán trích xuất cụm từ sử dụng mẫu ngữ pháp cho câu vào xét Quá trình học mẫu từ loại Sơ đồ thuật tốn trích xuất mẫu kiểu Sơ đồ thuật tốn trích xuất mẫu kiểu Kết phân loại sử dụng 1-gram 2-gram 4.1 4.2 4.3 Mơ hình CNN cho phân tích tình cảm/quan điểm theo khía cạnh 109 Hai pha phân tích tình cảm/quan điểm theo khía cạnh 111 Mơ hình CNN với đặc trưng 113 3.2 iv 75 82 89 94 96 98 Danh sách bảng 1.1 Ma trận nhầm lẫn 35 2.1 2.2 2.3 50 52 Các kết nén n-gram Ảnh hưởng ngữ cảnh đến hiệu phương pháp So sánh độ xác phương pháp đề xuất phương pháp kiểm tra tả Copcon 2.4 Phát nhập nhằng chồng chéo 2.5 Phát nhập nhằng liên kết 2.6 Từ điển từ viết tắt 2.7 Dữ liệu huấn luyện phương pháp kiểm tra tả 2.8 Dữ liệu đánh giá 2.9 Tách từ cho liệu chuẩn liệu dạng Microblog 2.10 Một số lỗi kiểm tra tả lỗi viết tắt ảnh hưởng đến hiệu tách từ 2.11 Tách từ liệu Microblog sau kiểm tra tả 2.12 Các trường hợp kiểm tra tả sai 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 Các mẫu ngữ pháp chứa tính từ Các mẫu ngữ pháp chứa trạng từ Các mẫu ngữ pháp chứa động từ Các mẫu ngữ pháp chứa danh từ Thống kê số lượng mẫu ngữ pháp trích xuất từ câu chủ quan khách quan Bảng so sánh độ xác phương pháp Bảng ví dụ gán nhãn chủ quan khách quan cho liệu Microblog tiếng Việt Các mẫu kiểu Các mẫu kiểu Các kết phân loại 1-gram and 2-gram Các kết phân loại 1-gram 2-gram (%) Các kết phân loại học mẫu kiểu Các kết phân loại học mẫu loại Các mẫu học từ kiểu Các mẫu học từ kiểu Các kết phân lớp liệu đánh giá v 53 57 59 63 67 67 68 68 69 69 78 79 80 81 84 86 90 91 91 98 98 99 100 100 100 101 4.1 Các kết đánh giá 116 vi Thuật ngữ từ viết tắt Từ viết tắt Từ gốc NLP Natural Language Processing SA Sentiment Analysis OM Opinion Mining ML Machine Learning TF term frequency TF-IDF term frequency – inverse document frequency VS.TF Normalized term frequency as in vector space model BM25.TF VS.IDF BM25.IDF POS LDA CRF HMM KNN CNN ABSA LSTM VLSP CBOW DB PCA Giải nghĩa - Tạm dịch Xử lý ngơn ngự tự nhiêm Phân tích tình cảm khai phá quan điểm Học máy Tần suất xuất Tần suất xuất tài liệu Chuẩn hóa tần suất xuất mơ hình khơng gian vector normalized term frequency as Chuẩn hóa tần suất xuất in BM25 mơ hình xác suất (BM25) normalized IDF as in VS Chuẩn hóa tần xuất xuất hiên tài liệu mơ hình khơng gian vector normalized IDF as in BM25 Chuẩn hóa tần xuất xuất hiên tài liệu mơ hình xác suất (BM25) part-of-speech Nhãn từ loại Latent Dirichlet Allocation Phân bố Dirichlet ẩn Conditional Random Fields Các trường ngẫu nhiên có điều kiện Hidden Markov Model Mơ hình Markov ẩn k-nearest neighbors K-láng giềng gần Convolutional Neural Network Mạng nơ-ron tích chập Aspect Based Sentiment Anal- Phân tích tình cảm theo ysis khía cạnh Long Short Term Memory Mơ hình nhớ dài ngắn Vietnamese Language and Xử lý tiếng nói xử lý ngơn Speech Processing ngữ tiếng Việt Continuous Bag of Words Véc-tơ từ dựa tập từ Double propagation Phương pháp lan truyền kép Principal Component Analysis Phân tích thành phần vii SOM Self Organizing Maps RNN ME SVM CC CD DT IN Recurrent Neural Network Maximum Entropy Suport Vector Machine Coordinating conjunction Cardinal number Determiner Preposition or subordinating conjunction Adjective Adjective, comparative Adjective, superlative Modal Noun, singular or mass JJ JJR JJS MD NN NNS NNP NNPS PDT PRP PRP$ RB RBR RBS TO VB VBD VBG VBN VBP VBZ Noun, plural Proper noun, singular Proper noun, plural Predeterminer Personal pronoun Possessive pronoun Adverb Adverb, comparative Adverb, superlative to Verb, base form Verb, past tense Verb, gerund or present participle Verb, past participle Verb, non-3rd person singular present Verb, 3rd person singular present viii Mạng nơ-ron nhân tạo tự tổ chức Mạng hổi quy Phân loại dựa vào Entropy Máy véc-tơ hỗ trợ Từ nối Số đếm Mạo từ Giới từ từ kết nối phụ thuộc Tính từ Tính từ so sánh Tính từ so sánh Trợ động từ Danh từ đếm không đếm Danh từ số nhiều Danh từ riêng số Danh từ riêng số nhiều Từ định Đại từ nhân xưng Đại từ sở hữu Trạng từ Trạng từ so sánh Trạng từ so sánh Giới từ Động từ Động từ khứ Danh động từ phân từ Quá khứ phân từ Động từ thứ số Động từ ngơi thứ số Lời cam đoan Tơi xin cam đoan luận án “Tích hợp đặc trưng ngơn ngữ vào mơ hình học thống kê cho phân tích tình cảm” cơng trình nghiên cứu tơi thực hướng dẫn PGS TS Lê Anh Cường GS TS Nguyễn Lê Minh Bộ mơn Khoa học Máy tính, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Các số liệu kết trình bày luận án trung thực, chưa công bố tác giả hay cơng trình khác Tác giả Trong phân loại tính chủ quan tiếng Việt, luận án giới thiệu phương pháp thống kê để trích xuất đặc trưng ngữ pháp thể quan điểm dựa mẫu học cách tự động Việc học tự động mẫu từ liệu huấn luyện gán nhãn làm cho mơ hình linh hoạt dễ thích ứng với miền liệu khác Sử dụng mẫu tốt học để trích xuất thơng tin hữu ích làm đầu vào cho thuật toán phân loại SVM NB để xác định xem câu thuộc lớp chủ quan hay khách quan thực nghiệm liệu thuộc miền sản phẩm công nghệ thu thập từ trang sản phẩm diễn đàn Luận án phân tích việc kết hợp đặc trưng với 1-gram, 2-gram để làm tăng hiệu thực phương pháp Kết tốt 84,04% phân loại bình luận chủ quan SVM tốt phương pháp khác liên quan • Mơ hình học sâu CNN tích hợp đặc trưng ngồi cho phân tích tình cảm/quan điểm theo khía cạnh Luận án nghiên cứu việc sử dụng mơ hình CNN, tiếp cận dựa phương pháp học sâu cho kết thực tốt nhiều lĩnh vực nhằm nâng cao hiệu cho phân tích tình cảm/quan điểm theo khía cạnh Luận án đề xuất mơ hình tích hợp đặc trưng giàu thơng tin bên ngồi vào mơ hình mạng nơ-ron tích chập để làm tăng hiệu thực cho mơ hình, sử dụng đặc trưng đầu vào véc-tơ biểu diễn từ Các đặc trưng trích xuất dựa vào TF-IDF từ loại tính từ động từ Luận án thực nghiệm phương pháp tập liệu ABSA 2016 gán nhãn bình luận tiếng Anh cho liệu đánh giá nhà hàng Kết phương pháp có điểm F1 tốt nhất, tốt nhiều so với số mơ hình nghiên cứu khác trước cho toán so sánh liệu • Chuẩn hóa liệu tình cảm dạng Microblog tiếng Việt - Phân tích đặc điểm liệu dạng bình luận ngắn trực tuyến (Microblog) thu thập từ trang diễn đàn trang sản phẩm đánh giá cho sản phẩm công nghệ tiếng Việt, liệu thường câu ngắn viết không theo chuẩn ngữ pháp, ngồi cịn chứa nhiều lỗi từ viết tắt hay ngôn ngữ ký hiệu riêng giới trẻ Đây nguyên nhân gây xuất nhiều từ khơng có từ điển, gây khó khăn cho việc xác định từ mục tiêu quan điểm, từ thể quan điểm bình luận Vì cần thiết phải có hệ thống nhận dạng sửa lỗi cho từ làm cho chúng trở lên thống dễ hiểu 117 Trên thực tế, số phương pháp tiền xử lý liệu tiếng Việt hầu hết phát triển cho liệu thống, nên áp dụng cho liệu dạng Microblog khơng hiệu Do đó, luận án đề xuất hai phương pháp chuẩn hóa để tiền xử lý phù hợp cho liệu Microblog tiếng Việt là: i) Phương pháp kiểm tra tả sử dụng n-gram huấn luyện từ kho ngữ liệu lớn ii) Phương pháp tách từ sử dụng kiểm tra từ viết tắt kiểm tra tả Các phương pháp áp dụng cho liệu quan điểm tiếng Việt dạng Microblog kết thu chứng minh chúng ảnh hưởng tốt đến độ xác phương pháp phân tích tình cảm/quan điểm Các phương pháp áp dụng cho bước tiền xử lý liệu quan điểm phân loại câu chủ quan khách quan tiếng Việt luận án Những hạn chế hướng nghiên cứu • Bài tốn phân loại tính chủ quan Việc trích chọn đặc trưng hữu ích dựa mẫu ngữ pháp xây dựng tay cho liệu tiếng Anh cho hiệu thực cao Tuy nhiên, tác giả nhận thấy phương pháp chưa phù hợp với miền liệu khác đặc điểm thể tình cảm quan điểm cho đối tượng đánh giá khác Tác giả tiếp tục nghiên cứu cách thức để trích chọn đặc trưng theo mẫu hiệu kết hợp với đặc trưng khác xây dựng mơ hình dựa tiếp cận học sâu nhằm nâng cao kết thực cho tốn Bài tốn phân loại tính chủ quan cho liệu tiếng Việt, việc xây dựng phương pháp trích xuất đặc trưng từ mẫu học cách tự động cho kết phân loại khả quan SVM Tiếp theo, tác giả tiếp tục mở rộng đặc trưng cách sử dụng nhãn từ loại khác kết hợp nhiều loại đặc trưng làm tăng thêm hiệu phân loại sử dụng đặc trưng hữu ích mơ hình học sâu hiệu nhằm cải thiện hiệu cho phân loại chủ quan • Bài tốn phân tích tình cảm/quan điểm theo khía cạnh Luận án giới thiệu Mơ hình CNN hai pha Mơ hình CNN với đặc trưng ngồi mơ hình CNN với đặc trưng ngồi (là từ đặc 118 trưng trích chọn dựa vào tính điểm TF-IDF) cho kết thực phân loại tốt tốt nhiều so với mơ hình khác Trong nghiên cứu tiếp theo, tác giả tiếp tục xem xét tích hợp đặc trưng hữu ích khác vào mơ hình cải tiến cho mơ hình nhằm cải thiện hiệu hệ thống phát triển phương pháp đề xuất cho phân tích tình cảm/quan điểm theo khía cạnh tiếng Việt • Bài tốn chuẩn hóa liệu quan điểm dạng Microblog tiếng Việt Trong phương pháp kiểm tra tả, tác giả nhận thấy việc kiểm tra tả cảm ngữ cảnh với kiểm tra từ viết tắt giúp cải thiện hiệu thực cách đáng kể Tuy nhiên, liệu Microblog, tác giả chưa xem xét ký hiệu thể cảm xúc người dùng bình luận Đây đầu mối quan trọng để thể tình cảm, quan điểm người dùng Trong nghiên cứu tiếp theo, tác giả tiếp tục kiểm tra đặc trưng nhằm xây dựng tập từ tình cảm tương ứng nhằm thu nhận nhiều đặc trưng cho nhiệm vụ phân tích tình cảm Trong mơ hình tách từ sử dụng kiểm tra tả kiểm tra viết tắt đề xuất giúp cải thiện chất lượng tách từ thực liệu Microblog Quá trình giúp liệu Microblog trở nên thống giảm từ chưa biết (các từ khơng xuất từ điển) Tuy nhiên, thực tế hiệu tách từ giảm hiệu giảm hệ thống kiểm tra tả giảm Điều xảy hệ thống kiểm tra tả chọn ứng cử viên khơng xác để sửa lỗi thưa thớt liệu huấn luyện Mặt khác, thích nghi liệu huấn luyện cho miền khác làm giảm hiệu Do đặc điểm liệu Microblog thường viết ngắn nên hệ thống xét việc so khớp cực đại từ trái sang phải từ phải sang trái, nghiên cứu tác giả tiếp tục phát triển phương pháp xử lý nhập nhằng với nhiều cụm chồng lấn nhằm nâng cao hiệu tách từ cho liệu 119 Danh mục cơng trình khoa học tác giả liên quan đến luận án Huong Nguyen Thi Xuan, Vo Cong Hieu, and Anh-Cuong Le (2018) “Adding External Features to Convolutional Neural Network for Aspectbased Sentiment Analysis”, In In Proc The 5th NAFOSTED Conference on Information and Computer Science (NICS), pp 53-59 Nguyen Thi Xuan Huong, Tran-Thai Dang, Anh-Cuong Le (2014), “Adapting Vietnamese Word Segmentation for Microblog-Style Data”, In In Proc., The Third Asian Conference on Information Systems, pp 164-171 Tran-Thai Dang, Nguyen Thi Xuan Huong and Anh-Cuong Le and Van-Nam Huynh (2014), “Automatically Learning Patterns in Subjectivity Classification for Vietnamese”, In Proc The Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), pp 675-690 Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung Nguyen, AnhCuong Le (2014), “Using Large N-gram for Vietnamese Spell Checking”, In Proc The Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), pp 655-674 Huong Nguyen Thi Xuan, Anh-Cuong Le and Le Minh Nguyen, (2012), “Linguistic Features for Subjectivity Classification.”, In Proc of the 6th International Conf The International Conference on Asian Language Processing (IALP 2012), pp 17-20 Danh mục gồm 05 cơng trình 120 Tài liệu tham khảo [1] M Abdul-Mageed, M T Diab, and M Korayem Subjectivity and sentiment analysis of modern standard arabic In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: Short Papers - Volume 2, pages 587–591, 2011 [2] T N Anh, T T Dao, and P T Nguyen Identifying coordinated compound words for vietnamese word segmentation In 2013 International Conference on Soft Computing and Pattern Recognition, SoCPaR 2013, Hanoi, Vietnam, December 15-18, 2013, pages 31–36 IEEE, 2013 [3] T N Anh, N P Thai, D T Tinh, and N H Quan Identifying reduplicative words for vietnamese word segmentation In The 2015 International Conference on Computing Communication Technologies - Research, Innovation, and Vision for Future, RIVF 2015, Can Tho, Vietnam, January 25-28, 2015, pages 77–82 IEEE, 2015 [4] T N Anh, D T Tinh, and N P Thai Một phương pháp hiệu khử nhập nhằng theo ngữ cảnh toán tách từ tiếng việt In Tạp chí Khoa học Kỹ thuật, HVKTQS HVKTQS, Vol 145, 2011 [5] T N Anh, D T Tinh, and N P Thai An effective context-based method for vietnamese-word segmentation In Proceedings of First International Workshop on Vietnamese Language and Speech Processing (VLSP 2012) In Conjunction with 9th IEEE-RIVF Conference on Computing and Communication Technologies (RIVF 2012), 2012 [6] T N Anh and Đào Thanh Tĩnh Kỹ thuật mã hoá âm tiết tiếng việt mơ hình ngram - Ứng dụng kiểm lỗi cách dùng từ cụm từ tiếng việt Tạp chí Cơng nghệ Thông tin Truyền thông, 6, 2011 121 [7] S Baccianella, A Esuli, and F Sebastiani Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining In LREC European Language Resources Association, 2010 [8] T Bang, C Haruechaiyasak, and V Sornlertlamvanich Vietnamese sentiment analysis based on term feature selection approach 11 2015 [9] T S Bang, C Haruechaiyasak, and V Sornlertlamvanich Vietnamese online hotel reviews classification bases on term features selection In Information Modelling and Knowledge Bases XXVIII, 26th International Conference on Information Modelling and Knowledge Bases EJC 2016), volume 292 of Frontiers in Artificial Intelligence and Applications, pages 135–144 IOS Press, 2016 [10] P Basile, V Basile, M Nissim, N Novielli, and V Patti Sentiment Analysis of Microblogging Data, pages 1–17 01 2017 [11] F Benamara, B Chardon, Y Y Mathieu, and V Popescu Towards context-based subjectivity analysis In Fifth International Joint Conference on Natural Language Processing, IJCNLP 2011, Chiang Mai, Thailand, November 8-13, 2011, pages 1180–1188, 2011 [12] A Bermingham and A Smeaton On using twitter to monitor political sentiment and predict election results In Proceedings of the Workshop on Sentiment Analysis where AI meets Psychology (SAAIP 2011), pages 2–10 Asian Federation of Natural Language Processing, 2011 [13] P Bojanowski, E Grave, A Joulin, and T Mikolov Enriching word vectors with subword information CoRR, 2016 [14] E Cambria, P Gastaldo, F Bisio, and R Zunino An elm-based model for affective analogical reasoning Neurocomputing, 149:443 – 455, 2015 Advances in neural networks Advances in Extreme Learning Machines [15] A Carlson and I Fette Memory-based context-sensitive spelling correction at web scale In The Sixth International Conference on Machine Learning and Applications,ICMLA 2007, Cincinnati, Ohio, USA, 13-15 December 2007, pages 166–171, 2007 [16] A J Carlson, J Rosen, and D Roth Scaling up context-sensitive text correction In Proceedings of the Thirteenth Innovative Applications of 122 Artificial Intelligence Conference, August 7-9, 2001, Seattle, Washington, USA, pages 45–50, 2001 [17] I Chaturvedi, E Cambria, S Poria, and R Bajpai Bayesian deep convolution belief networks for subjectivity detection In 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW), pages 916–923, 2016 [18] X Chen, L Xu, Z Liu, M Sun, and H Luan Joint learning of character and word embeddings In Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence, IJCAI 2015, Buenos Aires, Argentina, July 25-31, 2015, pages 1236–1242, 2015 [19] Y.-Z Chen, S.-H Wu, P.-C Yang, T Ku, and G.-D Chen Improve the detection of improperly used chinese characters in students’ essays with error model Int J of Continuing Engineering Education and Life-Long Learning, 21:103 – 116, 04 2011 [20] S Cucerzan and E Brill Spelling correction as an iterative process that exploits the collective knowledge of web users In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing , EMNLP 2004, A meeting of SIGDAT, a Special Interest Group of the ACL, held in conjunction with ACL 2004, 25-26 July 2004, Barcelona, Spain, pages 293–300, 2004 [21] S R Das and M Y Chen Yahoo for amazon: Sentiment extraction from small talk on the web Management Science, 53(9):1375–1388, 2007 [22] X Ding, B Liu, and P S Yu A holistic lexicon-based approach to opinion mining In Proceedings of the International Conference on Web Search and Web Data Mining, WSDM 2008, Palo Alto, California, USA, February 1112, 2008, pages 231–240, 2008 [23] D D Droba Methods used for measuring public opinion American Journal of Sociology, 37(3):410–423, 1931 [24] N T Duyen, N X Bach, and T M Phuong An empirical study on sentiment analysis for vietnamese In 2014 International Conference on Advanced Technologies for Communications (ATC 2014), pages 309–314, 2014 123 [25] R Feldman, B Rosenfeld, R Bar-Haim, and M Fresko The stock sonar - sentiment analysis of stocks based on a hybrid approach volume 2, 01 2011 [26] A R Golding and D Roth A winnow-based approach to context-sensitive spelling correction Machine Learning, 34(1-3):107–130, 1999 [27] G Groh and J Hauffa Characterizing social relations via nlp-based sentiment analysis 01 2011 [28] Q.-T Ha, T.-T Vu, H.-T Pham, and C.-T Luu An upgrading featurebased opinion mining model on vietnamese product reviews In Proceedings of the 7th International Conference on Active Media Technology, AMT’11, pages 173–185, 2011 [29] Y Hong and S Skiena The wisdom of bookies? sentiment analysis versus the nfl point spread 01 2010 [30] M Hu and B Liu Mining and summarizing customer reviews pages 168–177, 2004 [31] N Jakob and I Gurevych Extracting opinion targets in a single- and cross-domain setting with conditional random fields pages 1035–1045, 2010 [32] S Jebbara and P Cimiano Aspect-based sentiment analysis using a twostep neural network architecture CoRR, abs/1709.06311, 2017 [33] L Jiang, M Yu, M Zhou, X Liu, and T Zhao Target-dependent twitter sentiment classification In The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA, pages 151–160, 2011 [34] W Jin and H H Ho A novel lexicalized hmm-based learning framework for web opinion mining pages 465–472, 2009 [35] B Kieu and S Pham Sentiment analysis for vietnamese In 2010 Second International Conference on Knowledge and Systems Engineering, pages 152 – 157, 11 2010 [36] L.-W Ku, Y.-T Liang, and H.-H Chen Opinion extraction, summarization and tracking in news and blog corpora pages 100–107, 2006 124 [37] H P Le, N T M Huyen, A Roussanaly, and H T Vinh A hybrid approach to word segmentation of vietnamese texts In Language and Automata Theory and Applications, Second International Conference, LATA 2008, Tarragona, Spain, March 13-19, 2008 Revised Papers, pages 240– 249, 2008 [38] J Li and X Wang Combining trigram and automatic weight distribution in chinese spelling error correction J Comput Sci Technol., 17(6):915– 923, 2002 [39] H.-S Lim Improving knn based text classification with well estimated parameters pages 516–523, 2004 [40] B Liu Sentiment analysis and subjectivity In Handbook of Natural Language Processing, Second Edition., pages 627–666 2010 [41] B Liu Sentiment Analysis - Mining Opinions, Sentiments, and Emotions Cambridge University Press, 2015 [42] C.-L Liu, M.-H Lai, K.-W Tien, Y.-H Chuang, S.-H Wu, and C.-Y Lee Visually and phonologically similar characters in incorrect chinese words: Analyses, identification, and applications ACM, 10(2), June 2011 [43] P Liu, X Qiu, and X Huang Recurrent neural network for text classification with multi-task learning In Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence, IJCAI 2016, pages 2873–2879, 2016 [44] Y Liu, M Zhang, W Che, T Liu, and D Yihe Micro blogs oriented word segmentation system In Proceedings of the Second CIPS-SIGHAN Joint Conference on Chinese Language Processing, Tianjin, China, December 20-21, 2012, pages 85–89, 2012 [45] C Long, J Zhang, and X Zhut A review selection approach for accurate feature rating estimation In Proceedings of the 23rd International Conference on Computational Linguistics: Posters, COLING ’10, pages 766–774 Association for Computational Linguistics, 2010 [46] L Mai and B Le Aspect-Based Sentiment Analysis of Vietnamese Texts with Deep Learning, pages 149–158 01 2018 125 [47] M V Mantyla, D Graziotin, and M Kuutila The evolution of sentiment analysis - a review of research topics, venues, and top cited papers CoRR, abs/1612.01556, 2016 [48] M McGlohon, N S Glance, and Z Reiter Star quality: Aggregating reviews to rank products and merchants 01 2010 [49] S Mohammad From once upon a time to happily ever after: Tracking emotions in novels and fairy tales In Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pages 105–114, 2011 [50] K Moilanen, S Pulman, and Y Zhang Packed feelings and ordered sentiments: Sentiment parsing with quasi-compositional polarity sequencing and compression In In Proceedings of the 1st Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (WASSA 2010, pages 36–43, 2010 [51] S Mukund and R K Srihari A vector space model for subjectivity classification in urdu aided by co-training volume 2, pages 860–868, 01 2010 [52] T Nakagawa, K Inui, and S Kurohashi Dependency tree-based sentiment classification using crfs with hidden variables In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, HLT ’10, 2010 [53] C.-T Nguyen, T.-K Nguyen, X H Phan, and L.-M N andQuang Thuy Ha Vietnamese word segmentation with crfs and svms: An investigation In Proceedings of the 20st Pacific Asia Conference on Language, Information and Computation, PACLIC 20, 2006 [54] V D Nguyen, K V Nguyen, and N L Nguyen Variants of long shortterm memory for sentiment analysis on vietnamese students’ feedback corpus In 2018 10th International Conference on Knowledge and Systems Engineering (KSE), pages 306–311, 2018 [55] B O’Connor, R Balasubramanyan, B R Routledge, and N A Smith From tweets to polls: Linking text sentiment to public opinion time series volume 11, 01 2010 [56] B Pang and L Lee A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts In Proceedings of the 126 42nd Annual Meeting of the Association for Computational Linguistics, 21-26 July, 2004, Barcelona, Spain., pages 271–278, 2004 [57] B Pang and L Lee Opinion mining and sentiment analysis Foundations and Trends in Information Retrieval, 2(1-2):1–135, 2007 [58] B Pang, L Lee, and S Vaithyanathan Thumbs up ? sentiment classification using machine learning techniques In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, EMNLP 2002, Philadelphia, PA, USA, July 6-7, 2002, 2002 [59] D.-H Pham and A.-C Le Learning multiple layers of knowledge representation for aspect based sentiment analysis Data Knowl Eng., 114:26–39, 2018 [60] H Pham, T Vu, M Tran, and Q Ha A solution for grouping vietnamese synonym feature words in product reviews In 2011 IEEE Asia-Pacific Services Computing Conference, pages 503–508, 2011 [61] S Poria, E Cambria, and A F Gelbukh Aspect extraction for opinion mining with a deep convolutional neural network Knowl.-Based Syst., 108:42–49, 2016 [62] G Qiu, B Liu, J Bu, and C Chen Opinion word expansion and target extraction through double propagation Computational Linguistics, 37(1):9–27, 2011 [63] G Qiu, B Liu, J Bu, and C Chen Opinion word expansion and target extraction through double propagation Comput Linguist., pages 9–27, 2011 [64] N H T Quang Language model and word segmentation in Vietnamese Spell Checking University of Engineering and Technology, Hanoi National University, 2012 [65] S Raaijmakers and W Kraaij Polarity classification of blog trec 2008 data with a geodesic kernel 01 2008 [66] S Raaijmakers, K P Truong, and T Wilson Multimodal subjectivity analysis of multiparty conversation In 2008 Conference on Empirical Methods in Natural Language Processing, EMNLP 2008, pages 466–474, 2008 127 [67] J A Richmond Spies in ancient greece Greece and Rome, 45(1):1–18, 1998 [68] E Riloff, S Patwardhan, and J Wiebe Feature subsumption for opinion analysis In EMNLP, pages 440–448, 2006 [69] E Riloff and J Wiebe Learning extraction patterns for subjective expressions In Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP 2003, Sapporo, Japan, July 11-12, 2003, 2003 [70] S Ruder, P Ghaffari, and J G Breslin Insight-1 at semeval-2016 task 5: Deep learning for multilingual aspect-based sentiment analysis pages 330–336, 2016 [71] P Sakunkoo and N Sakunkoo Analysis of social influence in online book reviews In Proceedings of the Third International Conference on Weblogs and Social Media, ICWSM 2009, San Jose, California, USA, May 17-20, 2009, 2009 [72] M Sokolova and G Lapalme Opinion classification with non-affective adjectives and adverbs In Proceedings of the International Conference on Recent Advances in Natural Language Processing, Borovets, Bulgaria, sep 2009 [73] M Taboada, J Brooke, M Tofiloski, K Voll, and M Stede Lexicon-based methods for sentiment analysis Comput Linguist., 37(2):267–307, 2011 [74] A Tamchyna and K Veselovska (ufal) at semeval-2016 task 5: Recurrent neural networks for sentence classification pages 367–371, 2016 [75] D Tang, B Qin, and T Liu Aspect level sentiment classification with deep memory network In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016, pages 214–224, 2016 [76] J Thorley Athenian Democracy Athenian Democracy Routledge, 2004 [77] O T Tran, C A Le, T Q Ha, and Q H Le An experimental study on vietnamese pos tagging In 2009 International Conference on Asian Language Processing, IALP 2009, Singapore, December 7-9, 2009, pages 23–27, 2009 128 [78] T Tran and T Thi Phan A hybrid approach for building a vietnamese sentiment dictionary Journal of Intelligent and Fuzzy Systems, 35:1–12, 07 2018 [79] T K Tran and T T Phan Computing sentiment scores of adjective phrases for vietnamese In Multi-disciplinary Trends in Artificial Intelligence - 10th International Workshop, MIWAI 2016, Chiang Mai, Thailand, December 7-9, 2016, Proceedings, pages 288–296, 2016 [80] T K Tran and T T Phan Computing sentiment scores of verb phrases for vietnamese In Proceedings of the 28th Conference on Computational Linguistics and Speech Processing, ROCLING 2016, National Cheng Kung University, Tainan, Taiwan, October 6-7, 2015, 2016 [81] P D Turney Thumbs up or thumbs down ? semantic orientation applied to unsupervised classification of reviews In ACL, pages 417–424, 2002 [82] Vivek, I Arora, and A B Bhatia Fast and accurate sentiment classification using an enhanced naive bayes model pages 194–201, 2013 [83] H Vo, T Tin Nguyen, H.-A Pham, and T Van Le An efficient hybrid model for vietnamese sentiment analysis pages 227–237, 02 2017 [84] Q.-H Vo, H.-T Nguyen, B Le, and M.-L Nguyen Multi-channel lstm-cnn model for vietnamese sentiment analysis pages 24–29, 10 2017 [85] T.-T Vu, H.-T Pham, C.-T Luu, and Q.-T Ha A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese, pages 23–33 Springer Berlin Heidelberg, Berlin, Heidelberg, 2011 [86] X Wan Using bilingual knowledge and ensemble techniques for unsupervised chinese sentiment analysis In Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP ’08, pages 553–561, 2008 [87] H Wang, Y Lu, and C Zhai Latent aspect rating analysis on review text data: a rating regression approach pages 783–792, 2010 [88] H Wang, Y Lu, and C Zhai Latent aspect rating analysis without aspect keyword supervision pages 618–626, 2011 [89] L Wang, D F Wong, L S Chao, and J Xing Crfs-based chinese word segmentation for micro-blog with small-scale data In Proceedings of the 129 Second CIPS-SIGHAN, Joint Conference on Chinese Language Processing, pages 51–57, 2012 [90] Y Wang, M Huang, X Zhu, and L Zhao Attention-based lstm for aspectlevel sentiment classification In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA, November 1-4, 2016, pages 606–615, 2016 [91] Y Wang, M Huang, X Zhu, and L Zhao Attention-based (lstm) for aspect-level sentiment classification pages 606–615, 2016 [92] B Wei and C Pal Cross lingual adaptation: An experiment on sentiment classifications In Proceedings of the ACL 2010 Conference Short Papers, ACLShort 2010, pages 258–262, 2010 [93] J Wiebe Learning subjective adjectives from corpora In AAAI IAAI, pages 735–740, 2000 [94] J Wiebe, R F Bruce, and T P O’Hara Development and use of a goldstandard data set for subjectivity classifications In 27th Annual Meeting of the Association for Computational Linguistics, University of Maryland, College Park, Maryland, USA, 20-26 June 1999., 1999 [95] J Wiebe and E Riloff Finding mutual benefit between subjectivity analysis and information extraction IEEE Trans Affective Computing, 2(4):175–191, 2011 [96] T Wilson and S Raaijmakers Comparing word, character, and phoneme n-grams for subjective utterance recognition In INTERSPEECH 2008, 9th Annual Conference of the International Speech Communication Association, Brisbane, Australia, September 22-26, 2008, pages 1614–1617, 2008 [97] S.-H Wu, Y.-Z Chen, P.-C Yang, T Ku, and C.-L Liu Reducing the false alarm rate of chinese character error detection and correction In CIPS-SIGHAN Joint Conference on Chinese Language Processing, Beijing, China, August 28-29, 2010, 2010 [98] X Xueke, C Xueqi, T Songbo, L Yue, and H Shen Aspect-level opinion mining of online customer reviews Communications, China, 10:25–41, 03 2013 130 [99] T Young, D Hazarika, S Poria, and E Cambria Recent trends in deep learning based natural language processing [review article] IEEE Comp Int Mag., 13(3):55–75, 2018 [100] K Zhang, M Sun, and C Zhou Word segmentation on chinese mirco-blog data with a linear-time incremental model In Proceedings of the Second -CIPS-SIGHAN- Joint Conference on Chinese Language Processing, Tianjin, China, December 20-21, 2012, pages 41–46, 2012 [101] L Zhang, L Li, Z He, H Wang, and N Sun Improving chinese word segmentation on micro-blog using rich punctuations In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, ACL 2013, pages 177–182, 2013 [102] L Zhang and B Liu Identifying noun product features that imply opinions In ACL (Short Papers), pages 575–580, 2011 [103] L Zhang, M Zhou, C Huang, and H Pan Automatic detecting/correcting errors in chinese text by an approximate word-matching algorithm In 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong, China, October 1-8, 2000., 2000 [104] X Zhang, S Huang, J Zhao, X Du, and F He Exploring deep recurrent convolution neural networks for subjectivity classification IEEE Access, 7:347–357, 2019 [105] W X Zhao, J Jiang, H Yan, and X Li Jointly modeling aspects and opinions with a maxent-lda hybrid pages 56–65, 2010 [106] L Zhuang, F Jing, and X Zhu Movie review mining and summarization pages 43–50, 2006 131 ... hình học máy cho tốn phân tích tình cảm, tác giả phân tích đặc trưng ngơn ngữ trích chọn dựa mẫu có sẵn mẫu học tự động tích hợp vào mơ hình học thống kê cho phân loại tính chủ quan áp dụng cho. .. chọn đặc trưng ngơn ngữ tích hợp chúng vào mơ hình học thống kê cho tốn phân tích tình cảm, đặc biệt mơ hình học sâu ứng dụng cho phân tích liệu tiếng Anh tiếng Việt Bài tốn phân loại tính chủ... Danh động từ phân từ Quá khứ phân từ Động từ thứ số Động từ ngơi thứ số Lời cam đoan Tơi xin cam đoan luận án ? ?Tích hợp đặc trưng ngơn ngữ vào mơ hình học thống kê cho phân tích tình cảm? ?? cơng trình

Ngày đăng: 26/03/2023, 22:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w