1. Trang chủ
  2. » Tất cả

Tích hợp đặc trưng ngôn ngữ vào mô hình học thống kê cho phân tích tình cảm

147 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HOC QUOC GIA HÀ N I TRƯ NG ĐẠI HOC CÔNG NGH —————————————– TÍCH H P Đ C TRƯNG NGÔN NGữ VÀO MÔ HÌNH HOC THONG KÊ CHO PHÂN TÍCH TÌNH CẢM LU N ÁN TIEN SĨ KHOA HOC MÁY TÍNH HÀ N I, 2021 Mnc lnc ( viii[.]

ĐẠI HOC QUOC GIA HÀ N I TRƯ NG ĐẠI HOC CƠNG NGH —————————————– TÍCH H P Đ C TRƯNG NGƠN NGữ VÀO MƠ HÌNH HOC THONG KÊ CHO PHÂN TÍCH TÌNH CẢM LU N ÁN TIEN SĨ KHOA HOC MÁY TÍNH HÀ N I, 2021 Mnc lnc Trang L i cam đoan L i cảm ơn Tóm tat M ĐAU Đ t van đe .8 Mục tiêu, đoi tượng, phương pháp nghiên cáu lu n án Các đóng góp lu n án 10 Bo cục lu n án 11 Chương TONG QUAN VE CÁC KỸ THU T PHÂN TÍCH TÌNH CẢM .12 1.1 Phân tích tình cảm khai phá quan điem 12 1.1.1 Giới thi u 12 1.1.2 Nghiên cúu ve phân tích tình cảm, khai phá quan điem the giới nước .13 1.1.3 Các mien úng dụng phân tích tình cảm 17 1.1.4 Công cụ kỹ thu t phân tích dũ li u 18 1.2 Các tốn nghiên cáu phân tích tình cảm 19 1.2.1 Phân tích tình cảm múc tài li u/câu 19 1.2.2 Phân tích tình cảm múc thực the/khía cạnh .22 1.3 Phân tích n®i dung nghiên cáu 25 1.3.1 Dũ li u nghiên cúu 25 1.3.2 Phân loại tính chủ quan .27 1.3.3 Phân tích tình cảm/quan điem theo khía cạnh 29 1.3.4 Các phương pháp bieu dien văn 31 1.3.5 Phương pháp đánh giá hi u .34 1.4 Ket lu n chương 37 Chương KỸ THU T CHUAN HÓA Dữ LI U TIENG VI T i TRONG PHÂN TÍCH TÌNH CẢM 38 2.1 Giới thi u 38 2.2 Phương pháp kiem tra tả cho dǎ li u tình cảm tieng Vi t dạng Microblog sả dụng n-gram lớn 40 2.2.1 Đ ng nghiên cúu 40 2.2.2 M t so loi tả thường g p 42 2.2.3 Phương pháp kiem tra tả đe xuat 43 2.2.4 Tien xủ lý dũ li u 44 2.2.5 Thu t tốn kiem tra tả mở r ng ngũ cảnh hai phía 45 2.2.6 Mơ hình ngơn ngũ n-gram lớn nén n-gram 46 2.2.7 Thực nghi m đánh giá ket 49 2.3 Phương pháp tách tà cho dǎ li u tình cảm tieng Vi t dạng Microblog 53 2.3.1 Đ ng nghiên cúu 53 2.3.2 Hi n tượng nh p nhang tách tù tieng Vi t 55 2.3.3 Phương pháp tách tù dũ li u tình cảm tieng Vi t dạng Microblog 56 2.3.4 Phương pháp tách tù sủ dụng kiem tra tả .62 2.3.5 Thực nghi m đánh giá ket 66 2.4 Ket lu n chương 70 Chương PHÂN LOẠI CÂU CHỦ QUAN DỰA TRÊN TRÍCH CHON CÁC Đ C TRƯNG TỪ CÁC MȀU NGữ PHÁP 71 3.1 Phát bieu toán .72 3.2 Giới thi u 72 3.3 Phương pháp trích xuat đ c trưng ngôn ngǎ dựa mau ngǎ pháp cho phân loại câu chủ quan áp dụng cho dǎ li u tieng Anh 73 3.3.1 Đ ng nghiên cúu 73 3.3.2 Mơ hình phân loại câu chủ quan tieng Anh .75 3.3.3 Trích xuat đ c trưng 76 3.3.4 Thực hi n phân loại tính chủ quan 81 3.3.5 Thực nghi m đánh giá ket 83 3.4 Phương pháp hoc tự đ®ng mau cho tốn xác định câu chủ quan tieng Vi t 86 ii 3.4.1 Đ ng nghiên cúu 86 3.4.2 Quá trình hoc mau tù loại 88 3.4.3 Dũ li u huan luy n .89 3.4.4 Định nghĩa mau 90 3.4.5 Trích xuat đánh giá mau 92 3.4.6 Thực hi n phân loại tính chủ quan 95 3.4.7 Thực nghi m đánh giá ket 95 3.5 Ket lu n chương 103 Chương PHÂN TÍCH TÌNH CẢM/QUAN ĐIEM THEO KHÍA CẠNH V I MƠ HÌNH CNN 104 4.1 Phát bieu toán .104 4.2 Đ®ng nghiên cáu .105 4.3 Mơ hình hóa tốn 107 4.4 Mô hình đe xuat 109 4.4.1 Mơ hình CNN hai pha cho phân tích tình cảm/quan điem theo khía cạnh 109 4.4.2 Mơ hình CNN với đ c trưng 112 4.5 Thực nghi m đánh giá ket .113 4.5.1 Dũ li u Công cụ, môi trường thực nghi m .113 4.5.2 Tien xủ lý dũ li u 114 4.5.3 Các mơ hình ket .115 4.5.4 Đánh giá ket 115 4.6 Ket lu n chương 117 Ket lu n 118 Các ket đóng góp lu n án 118 Nhǎng hạn che hướng nghiên cáu tiep theo 120 iii Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Kien trúc phương pháp kiem tra tả 44 Thu t toán kiem tra sảa loi tả 47 Ảnh hưởng kích thước ngǎ li u đen hi u phương pháp 51 Sơ đo thu t toán phát hi n nh p nhang chong chéo - ghép c p lớn nhat tà bên trái 58 Sơ đo thu t toán phát hi n nh p nhang chong chéo - ghép c p lớn nhat tà bên phải .60 Thu t toán phát hi n nh p nhang liên ket 61 Phương pháp tách tà sả dụng kiem tra tả 62 Thu t toán kiem tra loi viet tat .64 3.1 Q trình thực hi n trích chon đ c trưng ngôn ngǎ cho phân loại câu chủ quan tieng Anh 75 3.2 Sơ đo thu t tốn trích xuat cụm tà sả dụng mau ngǎ pháp cho m®t câu vào xét 82 3.3 Quá trình hoc mau tà loại .89 3.4 Sơ đo thu t tốn trích xuat mau kieu 94 3.5 Sơ đo thu t tốn trích xuat mau kieu 96 3.6 Ket phân loại sả dụng 1-gram 2-gram .98 4.1 Mơ hình CNN cho phân tích tình cảm/quan điem theo khía cạnh 109 4.2 Hai pha phân tích tình cảm/quan điem theo khía cạnh 111 4.3 Mơ hình CNN với đ c trưng ngồi 113 iv Danh sách bảng 1.1 Ma tr n nham lan .35 2.1 Các ket nén n-gram 50 2.2 Ảnh hưởng ngǎ cảnh đen hi u phương pháp 52 2.3 So sánh đ® xác phương pháp đe xuat phương pháp kiem tra tả Copcon .53 2.4 Phát hi n nh p nhang chong chéo 57 2.5 Phát hi n nh p nhang liên ket 59 2.6 Tà đien tà viet tat 63 2.7 Dǎ li u huan luy n phương pháp kiem tra tả 67 2.8 Dǎ li u đánh giá 67 2.9 Tách tà cho dǎ li u chuȁn dǎ li u dạng Microblog .68 2.10 M®t so loi kiem tra tả loi viet tat ảnh hưởng đen hi u tách tà 68 2.11 Tách tà dǎ li u Microblog sau kiem tra tả 69 2.12 Các trường hợp kiem tra tả sai 69 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 Các mau ngǎ pháp cháa tính tà 78 Các mau ngǎ pháp cháa trạng tà 79 Các mau ngǎ pháp cháa đ®ng tà 80 Các mau ngǎ pháp cháa danh tà 81 Thong kê so lượng mau ngǎ pháp trích xuat tà câu chủ quan khách quan 84 Bảng so sánh đ® xác phương pháp 86 Bảng ví dụ gán nhãn chủ quan khách quan cho dǎ li u Microblog tieng Vi t 90 Các mau kieu 91 Các mau kieu 91 Các ket phân loại 1-gram and 2-gram 98 Các ket phân loại 1-gram 2-gram (%) 98 Các ket phân loại hoc mau kieu 99 Các ket phân loại hoc mau loại .100 Các mau hoc tà kieu 100 Các mau hoc tà kieu 100 Các ket phân lớp dǎ li u đánh giá 101 v 4.1 Các ket đánh giá .116 vi Thu t ngfi tfi viet tat Tfi viet tat NLP SA OM ML TF TF-IDF VS.TF BM25.TF VS.IDF BM25.IDF POS LDA CRF HMM KNN CNN ABSA LSTM VLSP CBOW DB PCA Tfi goc Natural Language Processing Sentiment Analysis Opinion Mining Machine Learning term frequency term frequency – inverse document frequency Normalized term frequency as in vector space model Giải nghĩa - Tạm dịch Xả lý ngơn ngự tự nhiêm Phân tích tình cảm khai phá quan điem Hoc máy Tan suat xuat hi n Tan suat xuat hi n tài li u Chuȁn hóa tan suat xuat hi n mơ hình khơng gian vector normalized term frequency as Chuȁn hóa tan suat xuat in BM25 hi n mơ hình xác suat (BM25) normalized IDF as in VS Chuȁn hóa tan xuat xuat hiên tài li u mơ hình khơng gian vector normalized IDF as in BM25 Chuȁn hóa tan xuat xuat hiên tài li u mơ hình xác suat (BM25) part-of-speech Nhãn tà loại Latent Dirichlet Allocation Phân bo Dirichlet ȁn Conditional Random Fields Các trường ngau nhiên có đieu ki n Hidden Markov Model Mơ hình Markov ȁn k-nearest neighbors K-láng gieng gan nhat Convolutional Neural Network Mạng nơ-ron tích ch p Aspect Based Sentiment Anal- Phân tích tình cảm theo ysis khía cạnh Long Short Term Memory Mơ hình b® nhớ dài ngan Vietnamese Language and Xả lý tieng nói xả lý ngơn Speech Processing ngǎ tieng Vi t Continuous Bag of Words Véc-tơ tà dựa t p tà Double propagation Phương pháp lan truyen kép Principal Component Analysis Phân tích thành phan vii SOM RNN ME SVM CC CD DT IN JJ JJR JJS MD NN NNS NNP NNPS PDT PRP PRP$ RB RBR RBS TO VB VBD VBG VBN VBP VBZ Self Organizing Maps Mạng nơ-ron nhân tạo tự tő chác Recurrent Neural Network Mạng hői quy Maximum Entropy Phân loại dựa vào Entropy Suport Vector Machine Máy véc-tơ ho trợ Coordinating conjunction Tà noi Cardinal number So đem Determiner Mạo tà Preposition or subordinating Giới tà ho c tà ket noi phụ conjunction thu®c Adjective Tính tà Adjective, comparative Tính tà so sánh Adjective, superlative Tính tà so sánh Modal Trợ đ®ng tà Noun, singular or mass Danh tà đem không đem Noun, plural Danh tà so nhieu Proper noun, singular Danh tà riêng so Proper noun, plural Danh tà riêng so nhieu Predeterminer Tà định Personal pronoun Đại tà nhân xưng Possessive pronoun Đại tà sở hǎu Adverb Trạng tà Adverb, comparative Trạng tà so sánh Adverb, superlative Trạng tà so sánh to Giới tà Verb, base form Đ®ng tà Verb, past tense Đ®ng tà q Verb, gerund or present par- Danh đ®ng tà hi n ticiple phân tà Verb, past participle Quá phân tà Verb, non-3rd person singular Đ®ng tà hi n khơng phải present ngơi thá so Verb, 3rd person singular Đ®ng tà hi n ngơi thá present so viii L i cam đoan Tôi xin cam đoan lu n án “Tích h p đ c trưng ngơn ngfi vào mơ hình hoc thong kê cho phân tích tình cảm” cơng trình nghiên cáu tơi thực hi n hướng dan PGS TS Lê Anh Cường GS TS Nguyen Lê Minh B® mơn Khoa hoc Máy tính, Khoa Cơng ngh Thơng tin, Trường Đại hoc Cơng ngh , Đại hoc Quoc gia Hà N®i Các so li u ket trình bày lu n án trung thực, chưa công bo bat kỳ tác giả hay bat kỳ cơng trình khác Tác giả ... hình hoc máy cho tốn phân tích tình cảm, tác giả phân tích đ c trưng ngơn ngǎ trích chon dựa mau có sȁn mau hoc tự đ®ng tích hợp vào mơ hình hoc thong kê cho phân loại tính chủ quan áp dụng cho. .. vi c trích chon đ c trưng ngơn ngǎ tích hợp chúng vào mơ hình hoc thong kê cho tốn phân tích tình cảm, đ c bi t mơ hình hoc sâu dụng cho phân tích dǎ li u tieng Anh tieng Vi t Bài tốn phân loại... Các mien úng dụng phân tích tình cảm 17 1.1.4 Cơng cụ kỹ thu t phân tích dũ li u 18 1.2 Các toán nghiên cáu phân tích tình cảm 19 1.2.1 Phân tích tình cảm múc tài li u/câu

Ngày đăng: 26/03/2023, 22:57

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w