Luận án tiến sĩ khoa học máy tính phát triển các mô hình dựa trên mạng nơ ron cho phân tích quan điểm theo khía cạnh

LỜI CẢM ƠN Luận án tiến sĩ ngành Khoa học Máy tính Chính phủ Việt Nam hỗ trợ phần kinh phí thơng qua Đề án 911 thực Bộ mơn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội hỗ trợ mặt thủ tục Phịng Tài kế tốn, Trường Đại học Cơng nghệ Bên cạnh cịn có hỗ trợ kinh phí cơng bố có số SCIE, SCI Trường Đại học Điện lực đề tài NAFOSTED, mã số 102.01-2014.22 thuộc Quỹ Phát triển khoa học công nghệ Quốc gia Tôi xin chân thành cảm ơn đơn vị, tổ chức giúp đỡ thời gian nghiên cứu Luận án cịn có hợp tác hỗ trợ cá nhân, người đóng góp nhiều q trình hồn thành vấn đề nghiên cứu luận án Trước hết xin chân thành cảm ơn PGS.TS Lê Anh Cường trực tiếp hướng dẫn, giúp đỡ ln sẵn lịng tạo điều kiện thuận lợi cho tơi q trình học tập nghiên cứu Tôi xin gửi lời cảm ơn chân thành tới PGS.TS Hoàng Xuân Huấn, PGS.TS Phan Xuân Hiếu, TS Nguyễn Văn Vinh, TS Lê Nguyên Khôi, TS Nguyễn Bá Đạt, TS Nguyễn Thị Ngọc Điệp (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), PGS TS Trần Đăng Hưng (Trường Đại học Sư Phạm Hà Nội), TS Đặng Thị Thu Hiền (Trường Đại học Thủy lợi) góp ý chân thành thẳng thắn, giúp cho luận án tơi hồn thiện tốt Tôi biết ơn chân thành PGS.TS Nguyễn Lê Minh (Viện Khoa học công nghệ Tiên tiến Nhật Bản), TS Trần Quốc Long (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội) Hai thầy trực tiếp giảng dạy, chia sẻ cho nhiều hiểu biết liên quan đến nội dung nghiên cứu Tôi xin gửi lời cảm ơn đến tất anh, chị, em bạn bè đồng nghiệp, nghiên cứu sinh Bộ mơn Khoa học máy tính, Khoa Cơng nghệ thơng tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội giúp đỡ tơi hồn thành kế hoạch thủ tục hành thời gian làm nghiên cứu sinh Tôi muốn cảm ơn đến anh/chị/em đồng nghiệp, giảng viên khoa Công nghệ Thông tin, Trường Đại học Điện lực cổ vũ động viên sát cánh bên tơi suốt q trình nghiên cứu Cuối cùng, tơi muốn nói lời cảm ơn đặc biệt tới vợ Lê Thị Kim Chung, trai tơi Phạm Cơng Phúc dành cho tơi tình u cảm thông, cho phép dành nhiều thời gian, tập trung cho công việc nghiên cứu Tôi hết lịng biết ơn bố mẹ tơi tình u cống hiến to lớn để trưởng thành ngày hôm nay, cảm ơn anh, chị, em tơi tình u gia đình quan tâm giúp đỡ họ cho công việc LỜI CAM ĐOAN Tôi xin cam đoan luận án kết nghiên cứu tôi, thực hướng dẫn PGS.TS Lê Anh Cường Các nội dung trích dẫn từ nghiên cứu tác giả khác mà tơi trình bày luận án ghi rõ nguồn phần tài liệu tham khảo Phạm Đức Hồng ii Mục lục Lời cảm ơn i Lời cam đoan ii Mục lục iii Danh mục chữ viết tắt vii Danh mục bảng ix Danh mục hình vẽ xi Lời mở đầu 1 Tổng quan vấn đề nghiên cứu 1.1 Giới thiệu toán 1.2 Các tốn phân tích quan điểm 1.2.1 Tổng quan hệ thống phân tích quan điểm 1.2.2 Phân tích quan điểm cho tồn văn 1.2.3 Phân tích quan điểm theo khía cạnh 1.2.4 Các tốn phân tích quan điểm theo khía cạnh Các nghiên cứu liên quan 10 1.3.1 Trích xuất từ thể khía cạnh 10 1.3.2 Xác định khía cạnh 11 1.3.3 Phân đoạn khía cạnh 11 1.3.4 Phân loại quan điểm theo khía cạnh 12 1.3 iii 1.3.5 Xếp hạng khía cạnh 12 1.3.6 Xác định hạng trọng số khía cạnh ẩn 13 1.4 Các tiếp cận giải toán 14 1.5 Nghiên cứu giới Việt nam 15 1.6 Thảo luận 16 Kiến thức sở 18 2.1 Các ký hiệu khái niệm liên quan 18 2.2 Các mơ hình học máy sở cho phân tích quan điểm theo khía cạnh 21 2.2.1 Mơ hình hồi quy đánh giá ẩn 21 2.2.2 Thuật tốn xác suất xếp hạng khía cạnh 22 Các mơ hình học biểu diễn mức từ, câu, đoạn/văn 25 2.3.1 Mơ hình Word2Vec 25 2.3.2 Mơ hình GloVe 26 2.3.3 Mơ hình véc-tơ Paragraph 27 2.3.4 Mơ hình mạng nơ-ron tích chập CNN 30 2.3.5 Mơ hình véc-tơ kết hợp 33 Kết luận thảo luận 34 2.3 2.4 Đề xuất mơ hình dựa mạng nơ-ron xác định hạng trọng số khía cạnh thực thể 35 3.1 Giới thiệu 35 3.2 Mơ hình hóa tốn 36 3.2.1 Bài toán xác định hạng trọng số khía cạnh ẩn thực thể 36 3.2.2 Bài tốn xác định trọng số khía cạnh chung thực thể 37 Phương pháp đề xuất 38 3.3 3.3.1 3.3.2 Xác định hạng trọng số khía cạnh ẩn thực thể sử dụng mơ hình mạng nơ-ron lớp ẩn 38 Xác định hạng trọng số khía cạnh ẩn thực thể sử dụng mơ hình học biểu diễn đa tầng 45 iv 3.3.3 3.4 3.5 Xác định trọng số khía cạnh chung thực thể sử dụng mơ hình mạng nơ-ron 52 Thực nghiệm 54 3.4.1 Các độ đo 57 3.4.2 Cài đặt mơ hình 58 3.4.3 Kết thực nghiệm 59 3.4.4 Đánh giá 60 3.4.5 Hiệu tham số mơ hình LRNN-ASR 63 Kết luận 66 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh 68 4.1 Giới thiệu 68 4.2 Mơ hình hóa toán 69 4.2.1 Bài toán tinh chỉnh véc-tơ biểu diễn từ 70 4.2.2 Bài toán học véc-tơ biểu diễn từ 71 Phương pháp đề xuất 72 4.3.1 Mơ hình tinh chỉnh véc-tơ biểu diễn từ 72 4.3.2 Mơ hình học véc-tơ biểu diễn từ SSCWE 77 Thực nghiệm 82 4.4.1 Dữ liệu thực nghiệm độ đo 82 4.4.2 Các độ đo 82 Cài đặt đánh giá mơ hình tinh chỉnh véc-tơ từ WEFT 83 4.5.1 Cài đặt mơ hình 83 4.5.2 Đánh giá mơ hình 83 Cài đặt đánh giá mơ hình SSCWE 85 4.6.1 Cài đặt mơ hình 85 4.6.2 Đánh giá mô hình 85 4.6.3 So sánh hai mơ hình WEFT SSCWE 88 Kết luận 90 4.3 4.4 4.5 4.6 4.7 v Mơ hình đa kênh dựa CNN nhằm khai thác đa véc-tơ biểu diễn từ ký tự cho phân tích quan điểm theo khía cạnh 91 5.1 Giới thiệu 92 5.2 Mô tả toán 93 5.3 Phương pháp đề xuất 94 5.3.1 Thành phần tích chập 94 5.3.2 Mơ hình mạng nơ-ron tích chập đa kênh cho phân tích quan điểm theo khía cạnh 95 5.4 5.5 Thực nghiệm 100 5.4.1 Dữ liệu thực nghiệm cài đặt mơ hình MCNN 100 5.4.2 Môi trường thời gian thực nghiệm 101 5.4.3 Đánh giá 101 5.4.4 Hiệu loại tham số 105 Kết luận 109 Kết luận 110 Danh mục cơng trình khoa học tác giả liên quan đến luận án 112 Tài liệu tham khảo 113 vi Danh mục chữ viết tắt LRNN LRR ASR NNAWs CNN MCNN NLP POS SVM Latent Rating Neural Network (Mạng nơ-ron đánh giá ẩn) Latent Rating Regression (Hồi quy đánh giá ẩn) Aspect Semantic Representation (Biểu diễn ngữ nghĩa khía cạnh) Neural Network Aspect Weights (Mạng nơ-ron trọng số khía cạnh) Convolutional Neural Network (Mạng nơ-ron tích chập) Multichannel Convolutional Neural Network (Mạng nơ-ron đa kênh tích chập) Natural Language Processing (Xử lý ngôn ngữ tự nhiên) Part Of Speech (Nhãn từ loại) Support Vector Machine (Máy véc-tơ hỗ trợ) vii Danh sách bảng 3.1 Các từ hạt nhân lựa chọn cho thuật tốn phân đoạn khía cạnh 55 3.2 Thống kế liệu thực nghiệm 55 3.3 Kết dự đoán hạng khách sạn 59 3.4 Kết xác định trọng số khía cạnh khách sạn 59 3.5 So sánh mô hình LRNN với phương pháp LRR bốn trường hợp biểu diễn khía cạnh 61 3.6 Top 10 từ có trọng số tích cực tiêu cực khía cạnh 61 3.7 Các kết thực nghiệm so sánh mơ hình việc xác định hạng khía cạnh 62 3.8 Kết so sánh chất lượng trọng số khía cạnh chung 63 3.9 Các kết thực nghiệm trường hợp khởi tạo trọng số khía cạnh 64 3.10 Kết thực nghiệm mơ hình đề xuất sử dụng trọng số khía cạnh chung so với sử dụng riêng 65 4.1 Thống kê tập liệu thứ 82 4.2 Kết xác định khía cạnh 84 4.3 Kết phân loại quan điểm theo khía cạnh 84 4.4 Bốn từ gần ngữ nghĩa với từ cho mơ hình 85 4.5 Các kết xác định khía cạnh 87 4.6 Các kết phân loại quan điểm 87 4.7 Năm từ gần ngữ nghĩa với từ cho mơ hình 88 4.8 So sánh kết phân loại quan điểm mơ hình WEFT SSCWE 89 4.9 So sánh thời gian thực mơ hình WEFT SSCWE 90 5.1 Thống kê số lượng câu sử dụng thực nghiệm 100 viii 5.2 Bảng từ điển ký tự tiếng Anh 100 5.3 Kết xác định khía cạnh mơ hình MCNN mơ hình sở 104 5.4 Kết dự đốn phân loại quan điểm theo khía canh mơ hình MCNN mơ hình sở 105 5.5 Các từ gần xác định véc-tơ biểu diễn từ kênh CNN3106 5.6 So sánh kết quả, thời gian sử dụng kỹ thuật dropout mơ hình MCNN cộng việc xác định khía cạnh 106 5.7 So sánh kết quả, thời gian sử dụng kỹ thuật dropout mơ hình MCNN cơng việc phân loại quan điểm khía cạnh 106 5.8 Kết xác định khía cạnh mơ hình MCNN với mức lựa chọn số chiều véc-tơ ký tự nhúng khác 107 5.9 Kết phân loại quan điểm mơ hình MCNN với mức lựa chọn số chiều véc-tơ ký tự nhúng khác 107 5.10 Kết xác định khía cạnh mơ hình MCNN sử dụng số lượng lọc khác 108 5.11 Kết phân loại quan điểm mơ hình MCNN sử dụng số lượng lọc khác 108 ix Danh sách hình vẽ 1.1 Kiến trúc tổng quan hệ thống phân tích quan điểm 2.1 Ví dụ ý kiến khách hàng thể quan điểm dịch vụ khách sạn Vinpearl Phu Quoc Resort 19 2.2 Ví dụ Hạng chung sản phẩm iPhone X 64GB 20 2.3 Mơ hình hồi quy đánh giá khía cạnh ẩn [1] 22 2.4 Mơ hình Word2Vec với hai kiến trúc CBOW Skip-gram 25 2.5 Mơ hình véc-tơ Paragraph học biểu diễn câu, đoạn văn [2] 28 2.6 Minh họa mơ hình túi từ phân phối véc-tơ Paragraph [2] 29 2.7 Minh họa tích chập ma trận câu 31 2.8 Minh họa mơ hình phân lớp câu sử dụng mạng CNN [3] 32 2.9 Minh họa việc sử dung mơ hình véc-tơ kết hợp cho biểu diễn mức câu 34 3.1 Ví dụ: đầu vào, đầu tốn xác định hạng trọng số khía cạnh ẩn 37 3.2 Ví dụ: đầu vào, đầu tốn xác định trọng số khía cạnh chung 38 3.3 Các cơng việc cần giải tốn xác định hạng trọng số khía cạnh ẩn thực thể 39 3.4 Minh họa mơ hình mạng nơ-ron LRNN xếp hạng ẩn 41 3.5 Các cơng việc cần giải tốn xác định hạng, trọng số khía cạnh ẩn sử dụng mơ hình học biểu diễn đa tầng 45 Minh họa mơ hình học biểu diễn đa tầng cho phân tích quan điểm theo khía cạnh 46 3.7 Minh họa mơ hình xác định hạng khía cạnh chung 52 3.8 Quy trình thực nghiệm, đánh giá mơ hình LRNN 56 3.9 Quy trình thực nghiệm, đánh giá mơ hình LRNN-ASR 56 3.6 x cạnh hay khơng Theo mơ hình có hàm giá cho câu ` sau: ∧ k ∧ m ∧ ∧ H(a` , a` , o` , o` ) = − ∑ aì log aì − ∑ oì log oì (4.19) i=1 i=1 Hàm lỗi (cross-entropy loss) cho tập liệu D là: E(θ ) = ∧ ∧ ∑0 H(a`, a`, o`, o`) (4.20) `∈D với θ = [W,V ,V , b1 , b2 ] tham số mơ hình Học mơ hình Để học mơ hình đề xuất, luận án kết hợp hai hàm lỗi hai thành phần thành hàm lỗi (hàm giá) chung sau: E(θ ) = ∧ ∧ ∧ ∑ ∑ H(ei, ei) + ∑0 H(a`, a`, o`, o`) + λθ kθ k2 `∈D i∈N` (4.21) `∈D với θ = [W,U, u0 ,V ,V , b1 , b2 ], λθ tham số kθ k2 = ∑ θi tham số chuẩn hóa i Để xác định giá trị tham số θ , cần xây dựng thuật tốn tối ưu để cực tiểu hóa hàm giá Từng thành phần trọng số θ cập nhật thời điểm t + theo công thức sau: θ (t + 1) = θ (t) − η 80 ∂ E(θ ) ∂θ (4.22) với η hệ số học Thuật toán 7: Thuật toán học véc-tơ biểu diễn từ Đầu vào: Tập câu văn đánh giá sản phẩm/dịch vụ D = {`1 ,`2 , ,`|D| }; câu văn ` ∈ D gán hai nhãn khía cạnh quan điểm khía cạnh a` o` khơng gán nhãn Đầu ra: Ma trận véc-tơ biểu diễn từ W ∈ Rnx|V| Bước 1: Khởi tạo giá trị cho: hệ số học η, ngưỡng lỗi ε, ngưỡng vòng lặp I, tham số chuẩn hóa λ , trọng số chia sẻ đặc trưng γ; Khởi tạo tham số θ Bước 2: for t=1 to I for câu văn đánh giá ` ∈ D 2.1 for ngữ cảnh i ∈ N` 2.1.1 Tính véc-tơ ngữ cảnh theo cơng thức 4.11; 2.1.2 Tính véc-tơ từ sinh từ i theo công thức 4.12; endfor 2.2 if câu ` gán hai nhãn a` o` then Tính véc-tơ biểu diễn câu ` theo cơng thức 4.16; ∧ Tính véc-tơ khía cạnh a` theo biểu thức 4.17; ∧ Tính véc-tơ quan điểm khía cạnh o` theo công thức 4.18; endif endfor 2.3 Cập nhật tham số tập θ thời điểm t+1 sử dụng biểu thức 4.9; 2.4 Tính giá trị hàm lỗi theo cơng thức 4.21 Thuật tốn dừng giá trị hàm lỗi nhỏ ngưỡng lỗi ε; thuật tốn lặp đủ I vịng; endfor Thuật tốn thuật toán tối ưu lặp, xây dựng dựa thuật tốn lan truyền ngược chuẩn, q trình lan truyền tiến thực Bước 2.1 2.2 Trong đó, q trình lan truyền ngược thực Bước 2.3, có nhiệm vụ cập nhật lại giá trị trọng số cho tham số mơ hình Thời gian thực thuật tốn phụ thuộc vào số lượng tham số, số lượng vòng lặp, số lượng ngữ cảnh câu Trong thực tế, làm việc với tập liệu lớn số lượng ngữ cảnh tính tồn tập liệu lớn, thời gian cần thiết để thực Thuật toán lớn Để giải vấn đề này, áp dụng kỹ thuật tính tốn tối ưu Huffman tree [86] q trình cài đặt thuật tốn 81 4.4 4.4.1 Thực nghiệm Dữ liệu thực nghiệm độ đo Để đánh giá hai mơ hình đề xuất, luận án sử dụng hai tập liệu miền liệu sản phẩm/dịch vụ Nhà hàng Tập liệu thứ gồm 3,111,239 câu không gán nhãn trích xuất từ 229,907 ý kiến đánh giá1 Tập liệu thứ hai gồm 190,655 câu trích xuất từ 52,574 ý kiến đánh giá2 Gồm câu gán nhãn khía cạnh Food, Price, Service, Ambience, Anecdotes, Miscellaneous Và nhãn quan điểm Positive, Negative, Neutral Conflict Từng câu gán hai nhãn khía cạnh quan điểm khía cạnh 75% câu lấy ngẫu nhiên cho việc học véc-tơ từ, lại 25% sử dụng để đánh giá chất lượng mơ hình WEFT mơ hình SSCWE (Semantic-SentimentCategory Word Embedding) Các thống kê tập liệu thứ trình bày Bảng 4.1 Bảng 4.1: Thống kê tập liệu thứ Số lượng câu sử dụng cho Khía cạnh Học véc-tơ từ Đánh giá véc-tơ từ Food 4,386 1,462 Price 44,912 14,970 Service 22,470 7,489 Ambience 17,729 5,909 Anecdotes 18,396 6,132 Miscellaneous 35,100 11,700 Tổng 142,993 47,662 4.4.2 Các độ đo Các mô hình học véc-tơ biểu diễn từ đánh giá gián tiếp thơng qua hai cơng việc phân tích quan điểm theo khía cạnh: xác định khía cạnh phân loại quan điểm khía cạnh Trong q trình đánh giá so sánh mơ hình, luận án sử dụng ba độ đo: precision, recall, F-score: Precision = https://www.yelp.com/datasetchallenge/ http://spidr-ursa.rutgers.edu/datasets/ 82 nc np (4.23) Recall = F − score = nc nt × Precision × Recall Precision + Recall (4.24) (4.25) với nc số lượng câu dự đốn theo mơ hình dự đốn so với nhãn thực tế, n p số lượng câu dự đoán vào lớp nt số lượng câu nhãn biết theo thực tế Ngoài ra, để xác định mối quan hệ gần (ngữ nghĩa) từ, luận án sử dụng độ đo tương đồng để xác định Đối với hai từ tương ứng với hai véc-tơ biểu diễn t e tính theo cơng thức cosine similarity [100] sau: te ∑ni=1 ti ei p =p n cos(t, e) = ktkkek ∑i=1 (ti )2 ∑ni=1 (ei )2 (4.26) cos(t, e) có giá trị khoảng (0,1), giá trị lớn có nghĩa hai từ có ngữ nghĩa gần nhau, ngược lại xa 4.5 Cài đặt đánh giá mơ hình tinh chỉnh véc-tơ từ WEFT 4.5.1 Cài đặt mơ hình Thuật tốn huấn luyện mơ hình WEFT thực với tham số sau: kích thước cửa sổ lọc h1 = 1, h2 = and h3 = 3; số chiều đầu 100; kích thước mini-batch 60; hệ số chuẩn hóa λW = λU1 = λU2 = λU3 = 10−4 , λu1 = λu2 = λu3 = 10−5 , λV1 = λb1 = λV2 = λb2 = 10−3 ; ma trận trọng số U ,U ,U ,V ,V khởi tạo ngẫu nhiên đoạn [−1, 1]; véc-tơ độ lệch u1 , u2 , u3 , b1 , b2 khởi tạo 0; hệ số học η = 0.025; ngưỡng vòng lặp I = 50 Ma trận véc-tơ từ nhúng khởi tạo véc-tơ từ nhúng từ mơ hình Word2Vec; 4.5.2 Đánh giá mơ hình Mơ hình WEFT đánh giá thơng qua véc-tơ từ học từ mơ hình: CBOW, skip-gram Word2Vec (Mikolov cộng [57]) GloVe (Pennington cộng [58]) Ký hiệu phiên mơ hình WEFT sau: WEFT-rand sử dụng véc-tơ từ khởi tạo ngẫu nhiên sau chỉnh sửa q trình huấn luyện mơ hình Các mơ hình WEFT-SG, WEFT-CB WEFT-GV tinh chỉnh véc-tơ từ học từ mơ hình tương ứng skip-gram, CBOW GloVe Trong 83 Bảng 4.2: Kết xác định khía cạnh Phương pháp SG CB GloVec WEFT-rand WEFT-SG WEFT-CB WEFT-GV Precision 74.96 79.21 80.53 79.11 80.16 81.08 83.45 Recall 81.01 77.88 77.89 83.89 82.88 82.45 80.77 F1 score 77.87 78.54 79.19 81.43 81.50 81.76 82.09 Bảng 4.3: Kết phân loại quan điểm theo khía cạnh Phương pháp SG CB GV WEFT-rand WEFT-SG WEFT-CB WEFT-GV Pos-F1 87.05 86.93 87.10 88.65 90.87 93.12 93.61 Neg-F1 52.03 52.25 51.07 64.18 64.63 64.70 64.77 Neu-F1 65.74 66.60 71.02 74.13 73.82 77.03 77.11 Con-F1 55.46 55.93 57.85 56.40 60.23 61.17 61.43 Accuracy 78.77 79.22 80.35 82.15 83.82 84.05 84.23 thực nghiệm sử dụng công cụ sau: Word2Vec3 GloVe4 để học véc-tơ từ, kích thước véc tơ từ cấu hình 300 kích thước cửa sổ ngữ cảnh Trong thực tế, đánh giá trực tiếp các véc-tơ từ nhúng, khơng có liệu giả thiết ground-truth từ tập liệu cho Vì thế, đạt kết quả, luận án lựa chọn cách đánh giá gián tiếp véc-tơ từ thông qua hai tốn phân tích quan điểm dựa khía cạnh: xác định khía cạnh phân loại quan điểm khía cạnh Cụ thể, luận án sử dụng mơ hình CNN [3] mơ hình dự đốn cho toán Cùng với độ đo, kết dự đốn trường hợp thấp có nghĩa chất lượng véc-tơ từ học trường hợp thấp Xác định khía cạnh: Trong Bảng 4.2, luận án trình bày độ đo F1-score cơng việc xác định khía cạnh cho phương pháp Trong quan sát chung, sử dụng véc-tơ từ tinh chỉnh từ mơ hình WEFT cho kết tốt mơ hình khác Ngồi ra, mơ hình WEFT-rand bắt thơng tin khía cạnh quan điểm khía cạnh câu gán nhãn, thực tốt mơ hình CBOW, skip-gram GloVe Điều xác nhận thông tin khía cạnh quan điểm khía cạnh đóng vai trò quan trọng véc-tơ biểu diễn từ học từ mơ hình đề xuất Phân loại quan điểm theo khía cạnh: Trong Bảng 4.3, luận án trình bày kết đạt phương pháp Trong hầu hết trường hợp, sử dụng véc-tơ từ https://github.com/piskvorky/gensim/ https://nlp.stanford.edu/projects/glove/ 84 chỉnh sửa từ mô hình WEFT giúp cải thiện kết dự đốn quan điểm khía cạnh Truy vấn từ ngữ nghĩa gần: Để đánh giá khả bắt mối quan hệ từ mơ hình đề xuất Luận án khảo sát số véc-tơ từ học từ mơ hình khác quan sát mức độ gần gần gũi thông qua giá trị độ đo tương đồng Nội dung Bảng 4.4 luận án trình bày số từ gần với từ cho trước Các từ xác định công thức đo độ tương đồng 4.26 Chúng ta thấy véc-tơ tinh chỉnh mơ hình đề xuất có xu hướng tốt chúng không tinh chỉnh Bảng 4.4: Bốn từ gần ngữ nghĩa với từ cho mơ hình Mơ hình GloVe WEFT-rand WEFT-GV 4.6 4.6.1 good excellant decent fantastic costco delight goodness millionaires paycheck excellent great wonderfull bron bad poor awful horrible terrible horrible alien calling poor terrible lousy worse poor food props postings vary gosh snacks resturant hospitality fashion snacks foods meal variation price prices pricing penny albeit prices pricey pricing 350 prices pricing bills pricey Cài đặt đánh giá mô hình SSCWE Cài đặt mơ hình Mơ hình SSCWE cài đạt Thuật toán với tham số khởi tạo sau: kích thức ngữ cảnh C = 4, tham số chuẩn hóa λW = λU = 10−4 , λV1 = λb1 = 10−3 and λV2 = λb2 = 10−4 , ma trận trọng số W, U, V1 , V2 khởi tạo ngẫu nhiên khoảng [−1, 1], véc-tơ độ lệch u0 , b1 , b2 khởi tạo 0, hệ số học η = 0.025 ngưỡng vòng lặp I = 50 4.6.2 Đánh giá mơ hình Mơ hình đề xuất so sánh với mơ hình sở sau: • Word2Vec: Mikolov cộng [57] phát triển Word2Vec với hai kiến trúc 85 mơ hình, CBOW skip-gram Ở luận án sử dụng mơ hình CBOW với code cung cấp địa chỉ: https://github.com/piskvorky/gensim/, mơ hình sử dụng thành phần nhúng ngữ nghĩa mơ hình SSCWE • GloVe (Pennington cộng [58]): sử dụng mơ hình hồi quy tồn cục logbilinear để học véc-tơ từ Code cung cấp địa https://nlp.stanford.edu/projects/glove/ • SCWE: Chúng tơi coi thành phần SCWE phiên mơ hình SSCWE Nó thực ngữ cảnh từ, sử dụng véc-tơ từ ngẫu nhiên, sau véc-tơ từ chỉnh sửa q trình huấn luyện • SSCWE*: Mơ hình coi phiên mơ hình SSCWE, sử dụng câu gán nhãn làm đầu vào để học véc-tơ từ Hai mơ hình Word2Vec GloVe sử dụng tập liệu huấn luyện kích thước ngữ cảnh tương tự mơ hình SSCWE, chúng khơng sử dụng thơng tin khía cạnh quan điểm Cả hai mơ hình SCWE SSCWE* sử dụng 142,993 câu gán nhãn, số chiều véc-tơ từ sử dụng tất mơ hình 300 Ngồi ra, luận án sử dụng véc-tơ từ Word2Vec GloVe học từ tập liệu khác để so sánh với mơ hình Word2Vec lấy sử dụng từ địa , chúng học từ liệu Google News, ký hiệu Pre-Word2Vec GloVe lấy sử dụng từ địa (Pennington cộng sự, 2014), ký hiệu véc-tơ Pre-GloVe Trong thực tế, luận án đánh giá trực tiếp chất lượng véc-tơ từ, khơng có véc-tơ từ giả thiết cung cấp từ tập liệu huấn luyện Vì vậy, đạt kết quả, luận án chọn cách đánh giá véc-tơ từ gián tiếp thông qua việc sử dụng chúng đầu vào mơ hình dự đốn cho hai tốn xác định khía cạnh phân loại quan điểm khía cạnh Luận án sử dụng mơ hình mạng nơ-ron tích chập CNN [3]7 mơ hình dự đốn cho hai tốn Các kết dự đoán trường hợp thực nghiệm thấp có nghĩa chất lượng véc-tơ từ sử dụng trường hợp thấp Xác định khía cạnh: Trong Bảng 4.5 luận án thể giá trị độ đo đạt mô hình Trong quan sát chung, mơ hình SSCWE thực tốt mơ hình khác Điều xác nhận véc-tơ từ học từ mơ hình SSCWE tốt mơ hình khác Đối với véc-tơ từ nhúng ngữ nghĩa, thấy véc-tơ từ https://code.google.com/archive/p/Word2Vec/ http://nlp.stanford.edu/projects/glove/ https://github.com/yoonkim/CNN_sentence 86 Bảng 4.5: Các kết xác định khía cạnh Phương pháp Word2Vec GloVec Pre-Word2Vec Pre-GloVec SCWE SSCWE* SSCWE Precision 79.21 80.53 78.13 79.67 79.93 82.56 83.16 Recall 77.88 77.89 76.37 78.36 80.15 81.68 82.38 F1 score 78.54 79.19 77.24 79.01 80.04 82.12 82.77 Bảng 4.6: Các kết phân loại quan điểm Phương pháp Word2Vec GloVec Pre-Word2Vec Pre-GloVec SCWE SSCWE* SSCWE Positive-F1 86.93 87.10 82.04 83.95 89.54 93.78 93.80 Negative-F1 52.25 51.07 49.53 53.04 64.00 63.81 64.70 Neutral-F1 66.60 71.02 68.44 65.04 74.01 76.58 76.13 Conflict-F1 55.93 57.85 53.16 54.04 56.30 61.93 63.02 Accuracy 79.22 80.35 79.01 80.13 81.41 83.85 84.69 (Word2Vec GloVe) huấn luyện tập liệu dịch vụ Nhà hàng tốt vec-tơ từ huấn luyện tập liệu khác (Pre-Word2Vec Pre-GloVe) Đối với véc-tơ từ nhúng thơng tin khía cạnh quan điểm khía cạnh, mơ hình SCWE (Sentiment-Category Word Embedding) phiên mơ hình SSCWE, bắt thơng tin khía cạnh quan điểm khía cạnh, thực tốt mơ hình Word2Vec Glove Điều cho thấy thơng tin khía cạnh quan điểm khía cạnh đóng vai trị quan trọng véc-tơ biểu diễn từ Dự đốn quan điểm theo khía cạnh: Bảng 4.6 thể giá trị độ đo F1-score đạt nhãn quan điểm khía cạnh độ đo độ xác Accuracy cơng việc phân loại quan điểm phương pháp Trong hầu hết trường hợp, hai mơ hình SCWE SSCWE thực tốt mơ hình khác Điều xác nhận véc-tơ từ học từ mơ hình đề xuất giúp cải thiện kết dự đốn quan điểm theo khía cạnh Truy vấn từ ngữ nghĩa gần: Các véc-tơ từ đánh giá chất lượng thông qua công việc truy vấn từ Cho trước số từ quan điểm khía cạnh từ khía cạnh, tìm từ gần ngữ nghĩa với họ Trong Bảng 4.7 thể kết từ gần nghĩa cho bốn từ cho trước “good”, “bad”, “food”, “price” Hai mơ hình GloVe SSCWE bắt tương đồng ngữ nghĩa, mơ hình SCWE bắt ngữ nghĩa hai từ khía cạnh “food” “price” 87 Bảng 4.7: Năm từ gần ngữ nghĩa với từ cho mơ hình Mơ hình GloVe SCWE SSCWE good excellant decent fantastic costco parm delight goodness millionaires paycheck best excellent great better wonderfull unbeatable bad poor awful horrible terrible lousy horrible alien calling deveined discriminating terrible worse poor lousy aweful food props postings vary gosh cuisine snacks resturant hospitality fashion soooooo meal foods snacks variation cuisine price prices pricing penny albeit praise prices pricing pricey 150 500 prices pricey pricing bills buck không bắt tốt ngữ nghĩa hai từ quan điểm “good” “bad”, ngun nhân mơ hình SCWE khơng sử dụng đầu vào ngữ cảnh từ Mơ hình đầy đủ SSCWE bắt ba loại thơng tin ngữ nghĩa, khía cạnh quan điểm khía cạnh mà xem cho kết truy vấn từ tốt mơ hình GloVe SCWE Điều xác nhận lại việc thêm thơng tin mức khía cạnh quan điểm khía cạnh thực mã hóa véc-tơ biểu diễn từ quan trọng Hiệu việc chọn số chiều cho véc-tơ từ: Để đánh giá chi tiết hiệu số chiều véc-tơ từ, luận án chọn số chiều véc-tơ từ từ 50 đến 500 Trong biểu đồ 4.6, luận án thể kết đạt mơ hình Chúng ta thấy mơ hình đề xuất cho kết tốt mơ hình khác tất trường hợp Mơ hình Word2Vec GloVe thực tốt số chiều véc-tơ từ chọn 200 Trong mơ hình SCWE SSCWE thực tốt với số chiều 150 Họ không cải thiện kết dự đoán số chiều véc-tơ từ tăng từ 200 đến 500 4.6.3 So sánh hai mô hình WEFT SSCWE Đặc điểm chung hai mơ hình hỗ trợ véc-tơ biểu diễn từ bắt ba loại thơng tin: ngữ nghĩa, khía cạnh, quan điểm khía cạnh Mơ hình mạng nơ-ron tích chập WEFT sử dụng đầu vào câu gán nhãn ma trận véc-tơ từ, khởi tạo kết đạt từ mô hình học véc-tơ nhúng ngữ nghĩa Word2Vec, Glove Mơ hình SSCWE sử dụng câu đầu vào, gồm câu gán nhãn câu không gán nhãn Ma trận véc-tơ từ khởi tạo ngẫu nhiên Xét kiến trúc, mơ hình WEFT có vai trị giống với thành phần SCWE mơ hình SSCWE, 88 Hình 4.6: Hiệu số chiều véc-tơ từ công việc dự đốn quan điểm khía cạnh nhiên thành phần SCWE đơn giản sử dụng tầng ẩn Q trình học mơ hình WEFT q trình tinh chỉnh véc-tơ biểu diễn từ, cịn q trình học mơ hình SSCWE q trình học liên hợp, đồng thời hai thành phần SWE SCWE Bảng 4.8 thể kết đạt mơ hình WEFT so với mơ hình SSCWE, hầu hết trường hợp mơ hình SSCWE cho kết nhỉnh mơ hình WEFT Điều chứng tỏ việc học liên hợp mơ hình SSCWE tốt việc tinh chỉnh mơ hình WEFT Bảng 4.8: So sánh kết phân loại quan điểm mơ hình WEFT SSCWE Phương pháp WEFT-SG WEFT-CB WEFT-GV SSCWE Positive-F1 90.87 93.12 93.61 93.80 Negative-F1 64.63 64.70 64.77 64.70 Neutral-F1 73.82 77.03 77.11 76.13 Conflict-F1 60.23 61.17 61.43 63.02 Accuracy 83.82 84.05 84.23 84.69 Xét thời gian thực hiện, hai mơ hình cài đặt ngơn ngữ lập trình R Core Java mơi trường NetBean IDE 7.2 máy tính ASUS PC với xử lý Intel TM i5-2450M CPU @ 2.50 GHz, 4.00 GB memory Hệ điều hành Window Ultimate Service Pack Nhưng, để khách quan so sánh thời gian huấn luyện mơ hình WEFT với mơ hình SSCWE, luận án tính q trình huấn luyện mơ hình Word2Vec Glove tạo ma trận véc-tơ biểu diễn từ khởi tạo cho mơ hình WEFT Nội dung Bảng 4.9 thể thời gian thực học véc-tơ biểu diễn từ với kích cỡ chiều véc-tơ 300 mơ hình 89 Bảng 4.9: So sánh thời gian thực mơ hình WEFT SSCWE Mơ hình WEFT-SG WEFT-CB WEFT-GV SSCWE Thời gian thực 4045 1823 1087 46832 Thời gian thực mơ hình SSCWE 46832 giây (tương đương 13 41 phút 32 giây), mơ hình WEFT-SG 4045 giây (tương đương phút 25 giây) Lý có chênh lệch lớn mơ hình SSCWE cài đặt theo thuật toán lan truyền ngược chuẩn, cịn mơ hình WEFT-SG sử dụng kỹ thuật tính tốn tối ưu Huffman tree [86] nên thời gian huấn luyện giảm nhiều 4.7 Kết luận Trong chương này, luận án trình bày hai mơ hình học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh Mơ hình thứ mơ hình mạng nơ-ron tích chập WEFT chỉnh sửa véc-tơ học từ mơ hình Word2Vec Glove Mơ hình thứ hai mơ hình SSCWE, sử dụng kết hợp kỹ thuật học giám sát không giám sát để học véc-tơ từ cho công việc phân tích quan điểm theo khía cạnh Các kết thực nghiệm cho thấy rằng, sử dụng véc-tơ từ học từ mơ hình đề xuất cho cơng việc: xác định khía cạnh phân loại quan điểm, kết dự đoán cải thiện so với việc sử dụng véc-tơ từ học từ mơ hình Word2Vec hay GloVe Mơ hình WEFT SSCWE với kết thực nghiệm cơng bố cơng trình [3] [4], xuất kỷ yếu hội nghị quốc tế uy tín, TSD 2017 PACLING 2017 Trong tương tai, định hướng tập trung cải tiến kỹ thuật mơ hình SSCWE để q trình huấn luyện rút ngắn thời gian Chúng sử dụng véc-tơ biểu diễn từ vào công việc khác phân tích quan điểm theo khía cạnh, dự đốn hạng khía cạnh, xác định trọng số khía cạnh Đặc biệt mơ hình mở rộng thực tập liệu sản phẩm/dịch vụ tiếng Việt, giải toán ứng dụng thực tế Ngân hàng, Bất động sản, Chứng khốn Kiến trúc mơ hình học véc-tơ từ khác nhau, véc-tơ biểu diễn từ học từ mơ hình mã hóa thông tin ngôn ngữ khác Trong chương tiếp theo, luận án trình bày vấn đề khai thác đa tập véc-tơ từ cho phân tích quan điểm theo khía cạnh 90 Chương Mơ hình đa kênh dựa CNN nhằm khai thác đa véc-tơ biểu diễn từ ký tự cho phân tích quan điểm theo khía cạnh Trong mơ hình học máy nào, liệu trước hết phải chuyển đổi dạng cấu trúc phù hợp để đưa vào mơ hình Ví dụ câu đầu vào trước đưa vào mơ hình CNN phải chuyển đổi dạng ma trận số thực dựa việc từ đại diện vec-tơ số thực Các cách biểu diễn liệu khác chuyển đổi lượng thơng tin khác vào mơ hình học hệ thống Trong chương đặt vấn đề làm để tích hợp nguồn thông tin khác (từ việc biểu diễn liệu đầu vào khác nhau) để tạo nên mơ hình tích hợp mạnh Trong chương đề xuất mơ hình tích hợp thơng tin dựa mạng đa kênh CNN (Convolutional Neural Network) Các nguồn thông tin khác đồng thời sử dụng bao gồm mơ hình Word2Vec khác mơ hình Character2Vec Các nguồn thơng tin tích hợp cách hiệu thông qua tầng CNN kết hợp tầng CNN Đầu tiên luận án trình bày giới thiệu nghiên cứu liên quan mô tả đầu vào/ra Tiếp đến, trình bày mơ hình đề xuất để giải toán Cuối cùng, luận án đánh giá mơ hình đề xuất thơng qua hai tốn phân tích quan điểm theo khía cạnh: (1) Xác định khía cạnh; (2) Phân loại quan điểm theo khía cạnh 91 5.1 Giới thiệu Cùng với phát triển mạnh mẽ mơ hình học biểu diễn véc-tơ từ, nhiều tập véc-tơ từ đưa cho cộng đồng khai thác áp dụng vào công việc cụ thể NLP Bài toán khai thác đa tập véc-tơ biểu diễn từ cho trước tập véc-tơ biểu từ học từ nhiều mơ hình khác Word2Vec, Glove Nhiệm vụ cần xây dựng mơ hình học biểu diễn khai thác hiệu mức biểu diễn cho công việc cụ thể phân tích quan điểm theo khía cạnh Nhiều mơ hình mạng nơ-ron tích chập CNN sử dụng véc-tơ biểu diễn từ làm đầu vào chứng minh hiệu nhiều công việc xử lý ngơn ngữ tự nhiên [101–103] Các mơ hình CNN có khả học biểu diễn thơng tin hiệu mức cao đối tượng văn đầu vào Nhiều nghiên cứu sử dụng đa kênh CNN cho phân loại câu, Kim [3] đề xuất kiến trúc học biểu diễn đa kênh dựa lọc với kích cỡ khác Nhưng mơ hình đa kênh họ làm việc với phiên Word2Vec, cụ thể, kênh sử dụng véc-tơ Word2Vec tĩnh, kênh lại thực việc tinh chỉnh lại véc-tơ Word2Vec Yin cộng [104] phát triển mơ hình đa kênh CNN khai thác đa véc-tơ biểu diễn từ, nhiên mơ hình họ u cầu véc-tơ biểu diễn từ phải có số nhiều Zhang cộng [105] cải tiến mơ hình Yin cộng [104] cách coi phiên biểu diễn từ nhóm khác nhau, họ áp dụng mơ hình CNN cho nhóm Đối với véc-tơ biểu diễn ký tự, số nghiên cứu sử dụng riêng chúng làm đầu vào sử dụng kết hợp với véc-tơ biểu diễn từ Zhang cộng [81] thiết kế mô hình mạng nơ-ron tích chập sâu gồm tầng thực véc-tơ biểu diễn ký tự cho tốn phân loại văn Mơ hình đạt kết tốt phương pháp truyền thống, mơ hình hồi quy sử dụng đặc trưng túi từ BoW, Bag-of-ngrams véc-tơ trung bình biểu diễn từ Ngồi mơ hình họ nhỉnh mơ hình học sâu LSTM (Long-Short Term Memory), mơ hình mạng nơ-ron tích chập thực đầu vào véc-tơ Word2Vec Tuy nhiên việc thiết kế triển khai mơ hình mạng CNN gồm tầng địi hỏi cấu hình phần cứng máy tính cao Santos cộng [82] đề xuất mạng nơ-ron tích chập với đầu vào véc-tơ ký tự véc-tơ biểu diễn từ Word2Vec cho toán phân loại văn ngắn Kim cộng [83] đề xuất mơ hình mạng nơ-ron ngơn với đầu vào véc-tơ ký tự, họ sử dụng mơ hình mạng nơ-ron tích chập để sinh véc-tơ biểu diễn từ, sau véc-tơ từ sử dụng làm vào cho mơ hình LSTM mơ hình mạng nơ-ron ngôn ngữ hồi quy (recurrent neural network language model) 92 5.2 Mơ tả tốn Bài tốn xác định khía cạnh phân loại quan điểm theo khía cạnh trình bày phần 4.2 Chương Trong phần luận án xem việc khai thác đa véc-tơ biểu diễn từ ký tự công việc thực đồng thời trình học mơ hình dự đốn cho tốn Đối với tốn (xác định khía cạnh phân loại quan điểm theo khía cạnh) phân tích quan điểm theo khía cạnh, để học mơ hình dự đoán, cần sử dụng tập liệu huấn luyện gồm câu gán nhãn trích xuất từ tập văn đánh giá thực thể (ví dụ: thực thể sản phẩm/dịch vụ quán ăn) Sau học mơ hình dự đốn, câu văn dự đốn nhãn thích hợp tương ứng cho Hình 5.1 mơ tả cơng việc cần giải toán Đầu tiên sử dụng tập câu văn D = `1 , `2 , , `|D| gán nhãn, nhãn tương ứng với nhãn tốn phân tích quan điểm theo khía cạnh cần giải (ví dụ: tốn Xác định khía cạnh), sau tập liệu D thơng qua giai đoạn tiền xử lý liệu Tiếp theo tập liệu D sử dụng với tập véc-tơ Word2vec, tập véc-tơ GloVe, tập véc-tơ one-hot biểu diễn ký tự làm đầu vào cho mơ hình khai thác mức biểu diễn từ ký tự Mơ hình có nhiệm vụ học để dự đoán nhãn câu (chưa gán nhãn) cho đầu giá trị tham số mơ hình dự đốn Hình 5.1: Mơ tả đầu vào, đầu công việc khai thác đa véc-tơ biểu diễn từ, biểu diễn ký tự cho phân tích quan điểm theo khía cạnh Trong nghiên cứu chúng tơi, để đơn giản khơng tính hiệu mơ hình đề xuất, giống nghiên cứu [106], coi câu văn gồm 93 Hình 5.2: Minh họa thành phần tích chập nhãn khía cạnh nhãn quan điểm khía cạnh 5.3 Phương pháp đề xuất Mạng nơ-ron tích chập (CNN) chứng tỏ phù hợp hiệu việc khai thác đa phiên véc-tơ biểu diễn từ [3, 104, 105], hay véc-tơ biểu diễn ký tự [81–83] cho toán cần giải mức câu mức văn ngắn Trong phần này, luận án trình bày thành phần tích chập gồm hai tầng, tầng tích chập tầng thu thập đặc trưng Sau đó, thành phần tích chập sử dụng để trình bày mơ hình đề xuất, giải toán khai thác mức biểu diễn cho phân tích quan điểm theo khía cạnh 5.3.1 Thành phần tích chập Luận án định nghĩa thành phần tích chập giống mơ hình mạng nơ-ron tích chập truyền thống Kiến trúc thành phần tích chập minh họa Hình 5.2 Ngồi hai tầng: tích chập thu thập đặc trưng, cịn có tầng đầu vào đầu Khi muốn áp dụng thành phần CNN lên chuỗi ký tự đầu vào gồm véc-tơ biểu diễn mức thấp mức biểu diễn chuỗi ký tự, đầu véc-tơ biểu diễn cuối chuỗi ký tự Ký hiệu e1 , e2 , , en dãy chuỗi str (chẳng hạn chuỗi từ/câu) 94