Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 92 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
92
Dung lượng
2,85 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ THỊ THỦY PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC LUẬN ÁN TIẾN SĨ KĨ THUẬT TP HỒ CHÍ MINH - NĂM 2022 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ THỊ THỦY PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số chuyên ngành: 62.48.01.01 Phản biện độc lập: PGS TS Nguyễn Tuấn Đăng Phản biện độc lập: PGS TS Lê Hoàng Thái Phản biện: PGS TS Đinh Điền Phản biện: PGS TS Đỗ Văn Nhơn Phản biện: PGS TS Phạm Trần Vũ NGƯỜI HƯỚNG DẪN: GS TS PHAN THỊ TƯƠI LỜI CAM ĐOAN Tác giả xin cam đoan cơng trình nghiên cứu thân tác giả Các kết nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả luận án Chữ ký Lê Thị Thủy i TÓM TẮT LUẬN ÁN Phân giải đồng tham chiếu phân tích cảm xúc hai tốn phổ biến xử lý ngôn ngữ tự nhiên, nhiều nhà nghiên cứu quan tâm với cách tiếp cận khác Đến có nhiều cơng trình kết hợp tốn phân giải đồng tham chiếu với tốn phân tích cảm xúc nhằm nâng cao độ xác Để tốn phân tích cảm xúc có kết đầy đủ, chi tiết mang lại lợi ích thực tiễn, luận án đề xuất giải tốn phân giải đờng tham chiếu đới tượng cho phân tích cảm xúc Đây mục tiêu luận án Kết toán đề xuất ba đối tượng, khía cạnh cảm xúc sản phẩm hay dịch vụ miền chuyên biệt Giới hạn luận án áp dụng văn cảm xúc tiếng Anh Để giải toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận án đề xuất xây dựng hệ thống với cách tiếp cận sở tri thức - ontology cảm xúc, kết hợp giải thuật xử lý ngôn ngữ tự nhiên phương pháp học máy, học sâu kho ngữ liệu văn có cảm xúc, có ngữ cảnh Dựa đặc điểm văn cảm xúc mục tiêu toán, luận án cần giải vấn đề sau Thứ nhất, đề xuất ontology cảm xúc đồ thị đồng tham chiếu hỗ trợ giải toán luận án Thứ hai, đề xuất mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có đối tượng Thứ ba, đề xuất mơ hình làm giàu ontology cảm xúc cho miền chun biệt Thứ tư, đề xuất mơ hình xác định khía cạnh ẩn văn cảm xúc Thứ năm, đề xuất mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng Phần thực nghiệm luận án thực kho ngữ liệu văn cảm xúc bình luận sản phẩm, dịch vụ trang web Amazon YouNetMedia Các kết thực nghiệm phản ánh tính khả thi giải thuật, mơ hình đề xuất luận án ii ABSTRACT Coreference resolution and aspect-based sentiment analysis are popular problems in natural language processing (NLP) and are going under research by the NLP community with different approaches Up to now, many works combine co-referencing resolution into the sentiment analysis problem to improve accuracy In order for the sentiment analysis problem to have complete and detailed results that bring practical benefits, the thesis proposes to solve the object coreference resolution problem for sentiment analysis This is the aim of the thesis Results of the problem are triplets of object-aspect-sentiment, which belong to special products or services on a domain The limit of the thesis is applied to English sentiment texts To build object coreference resolution in sentiment analysis, the thesis proposes a fairly popular knowledge-based approach, sentiment ontology, combining natural language processing algorithms, machine learning, and deep learning on contextual sentiment corpus Based on the characteristics of the sentiment text and the goal of the problem, the thesis must solve the following problems Firstly, the thesis proposes sentiment ontology and the coreference graph to support the problem of object coreference resolution in sentiment analysis Secondly, the thesis proposes the model of object coreference resolution on texts with one object Thirdly, the thesis proposes the instance-based enrichment of the sentiment ontology model depending on the special domain Fourthly, the thesis proposes the implicit aspect identification model in sentiment texts Finally, the thesis proposes object coreference resolution in sentiment analysis with more than one object The experiments of the thesis are carried out on the corpus of sentiment texts commenting on products and services on the Amazon website and the YouNetMedia Company The experimental results reflect the feasibility of the proposed algorithms and models in the thesis iii LỜI CẢM ƠN Trong q trình hồn thành luận án, Thầy Cô nơi sở đào tạo giúp đỡ tận tình, quan nơi cơng tác tạo mọi điều kiện thuận lợi gia đình cùng bạn bè thường xuyên động viên khích lệ Luận án hoàn thành với hướng dẫn tận tình, giúp đỡ động viên quý báu nhiều từ GS.TS Phan Thị Tươi, cán hướng dẫn mà tơi tơn trọng bày tỏ lịng biết ơn sâu sắc Qua đây, tơi bày tỏ lịng biết ơn thầy cô khoa Khoa học Kỹ thuật Máy tính trường Đại học Bách Khoa Tp.Hồ Chí Minh tạo điều kiện thuận lợi cho tơi trình học tập nghiên cứu Khoa Lời cảm ơn tơi xin gửi đến Phịng Quản lý Sau Đại học hỗ trợ thủ tục q trình hồn thành luận án Đồng thời, muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa Tp.HCM, Phịng Khoa học Cơng nghệ & Dự án, Phòng Quản lý Sau Đại học tài trợ cho thực đề tài cấp trường năm 2016 Cuối cùng cảm ơn tất bạn bè người thân góp nhiều ý kiến những lời động viên khích lệ q báu giúp tơi vượt qua khó khăn để hồn thành tốt luận án Tác giả luận án Lê Thị Thủy iv MỤC LỤC DANH MỤC CÁC HÌNH ẢNH vii DANH MỤC BẢNG BIỂU ix DANH MỤC CÁC TỪ VIẾT TẮT x CHƯƠNG GIỚI THIỆU 1.1 Động nghiên cứu 1.2 Mục tiêu phạm vi nghiên cứu 1.3 Mơ hình đề xuất 1.4 Đóng góp luận án 10 1.5 Cấu trúc luận án 13 CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN VÀ CÁC KIẾN THỨC NỀN TẢNG 14 2.1 Phân giải đồng tham chiếu 14 2.2 Phân tích cảm xúc 15 2.3 Phân giải đồng tham chiếu đối tượng khía cạnh cho phân tích cảm xúc 19 2.4 Xác định khía cạnh ẩn 25 2.5 Ontology cảm xúc làm giàu ontology 27 2.6 Các kiến thức tảng 33 2.6.1 Mạng nơ-ron nhân tạo – ANN 33 2.6.2 Mơ hình ngơn ngữ - Tiền huấn luyện 35 2.7 Kết luận 38 CHƯƠNG PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CÓ MỢT ĐỐI TƯỢNG 39 3.1 Mô hình xác định khía cạnh ẩn - IAI 39 3.1.1 Giới thiệu 39 3.1.2 Tiền xử lý dữ liệu 41 3.1.3 Mơ hình xác định khía cạnh ẩn 42 3.1.4 Thực nghiệm 46 3.2 Mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có đối tượng 53 3.2.1 Parse – Phân tích cú pháp 54 3.2.2 Anaphora & Entity CR - Phân giải đồng tham chiếu đại từ thực thể 55 v 3.2.3 Aspect-based sentiment analysis - Phân tích cảm xúc mức khía cạnh 56 3.2.4 Ontology cảm xúc 56 3.2.5 Đồ thị đồng tham chiếu (CoReference Graph – CRG) 59 3.2.6 Mô-đun OBASCore 60 3.2.7 Kết thực nghiệm 63 3.2.8 Đánh giá thực nghiệm 65 3.3 Kết luận 66 CHƯƠNG LÀM GIÀU ONTOLOGY CẢM XÚC HỖ TRỢ PHÂN GIẢI ĐỒNG THAM CHIẾU CHO PHÂN TÍCH CẢM XÚC 67 4.1 Giới thiệu 67 4.2 Mơ hình làm giàu ontology cảm xúc ESO (Enriched Sentiment Ontology) 68 4.3 Thực nghiệm đánh giá 75 4.4 Kết luận 79 CHƯƠNG PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CÓ NHIỀU ĐỐI TƯỢNG 80 5.1 Đặt vấn đề 80 5.2 Mơ hình phân giải đồng tham chiếu cho phân tích cảm xúc có nhiều đối tượng CROAS 81 5.2.1 Giai đoạn huấn luyện 81 5.2.2 Giai đoạn thử nghiệm 86 5.2.3 Đánh giá thực nghiệm 90 5.3 Kết luận 97 CHƯƠNG KẾT LUẬN 99 6.1 Kết đạt 99 6.2 Hướng phát triển 102 CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 103 TÀI LIỆU THAM KHẢO 104 PHỤ LỤC 118 vi DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc Hình 2.1 Kiến trúc mơ hình OAC2 hướng tri thức [87] 22 Hình 2.2 Ví dụ ontology tởng qt [8] 28 Hình 2.3 T-Box ontology công nghiệp [8] 29 Hình 2.4 A-Box ontology công nghiệp [8] 29 Hình 2.5 Tởng quan OntoSenticNet [104] 31 Hình 2.6 Kiến trúc làm giàu ontology [113] 32 Hình 2.7 Một nơ-ron nhân tạo – Perceptron 34 Hình 2.8 Kiến trúc mạng nơ-ron nhân tạo ANN 34 Hình 2.9 Word embedding từ “king” “queen” 36 Hình 2.10 Word embeddings từ “bank” khơng ngữ cảnh 36 Hình 2.11 Biểu diễn đầu vào mơ hình BERT [92] 37 Hình 3.1 Kho ngữ liệu có chứa dấu hiệu xác định khía cạnh ẩn “beautiful” 40 Hình 3.2 Kiến trúc mơ hình xác định khía cạnh ẩn IAI 43 Hình 3.3 Kiến trúc mạng nơ ron nhân tạo tầng ẩn - mô-đun Training 45 Mơ-đun Training có 69.905 mẫu dữ liệu trích xuất từ Corpus12 với 389.103 văn cảm xúc điện thoại thông minh (smartphone), đó: dữ liệu huấn luyện có 64.374 mẫu dữ liệu thử nghiệm có 5.598 mẫu độ xác 0,82 Định dạng Corpus12 mô tả chi tiết Hình 3.4, đó: 47 Hình 3.5 Minh họa định dạng dữ liệu Corpus12 47 Hình 3.6 So sánh mơ hình IAI với phương pháp ML-KB* 53 Hình 3.7 Mơ hình phân giải đồng tham chiếu cho phân tích cảm xúc có đối tượng 55 Hình 3.8 Kiến trúc Ontology cảm xúc 58 Hình 3.9 Đồ thị CRG Ví dụ 3.8 62 Hình 3.10 Giải thuật mơ-đun OBASCore 61 Hình 3.11 Đồ thị CRG Ví dụ 3.8 sau bước giải thuật Hình 3.10 62 Hình 3.12 CRG Ví dụ 3.8 thực bởi giải thuật Hình 3.10 63 Hình 4.1 Mơ hình đề xuất ESO làm giàu ontology cảm xúc 69 Hình 4.2 Quan hệ văn phạm “compound” [146] 69 Hình 4.3 Tập từ đồng nghĩa danh từ “quality” WordNet 70 Hình 4.4 Cấu trúc phân cấp từ “quality” với nghĩa 70 Hình 4.5 Cấu trúc phân cấp WordNet 72 Hình 4.6 Cấu trúc phân cấp WordNet 74 Hình 4.7 Cấu trúc Opinion Lexicon (OL) [138] 74 Hình 4.8 Hiệu mơ hình ESO 614 câu 78 Hình 5.1 Kiến trúc mơ hình CROAS 81 Hình 5.2 Mơ-đun Training mơ hình CROAS 82 vii Hình 5.3 Mạng nơ-ron xác định trọng số W2 83 Hình 5.4 Kết phân lớp Ví dụ 5.1 89 Hình 5.5 CRG Ví dụ 5.1 90 Hình 5.6 Mối quan hệ giữa khoảng cách Euclid trung bình số bước lặp mơ-đun huấn luyện với 300.000 500.000 bước tiền huấn luyện 93 Hình 5.7 Kết mơ-đun phân lớp D1 D2 với (a) 300.000 (b) 500.000 bước tiền huấn luyện 94 Hình 5.8 Kết mơ-đun phân lớp ví dụ với (a) 300.000 (b) 500.000 bước tiền huấn luyện 94 Hình 5.9 Đánh giá kết CROAS 1.000 văn cảm xúc 97 viii Các cột thứ hai, thứ ba thứ tư biểu diễn kết đánh giá mơ-đun mơ hình ở Hình 3.7, cột thứ tư thứ năm kết đánh giá mô-đun cuối cùng với hai cách xác định khía cạnh ẩn kết mơ hình ở Hình 3.7 Kết đánh giá mơ hình với OBASCore* áp dụng cho văn cảm xúc có đối tượng đạt độ xác 76% độ truy hồi 79% Với OBASCore**, độ xác độ truy hồi cao OBASCore*, cụ thể tăng 2% 1% Điều chứng tỏ việc đề xuất mơ hình IAI với phương pháp mang lại hiệu tốt cho toán phân giải đồng tham chiếu đối tượng Kết phân giải đồng tham chiếu phân tích cảm xúc cao kết toán phân giải đồng tham chiếu cho phân tích cảm xúc cao Với kết Bảng 3.10, phương pháp phân giải đồng tham chiếu dựa ontology đồ thị CRG phân tích cảm xúc cho dạng câu đơn giản câu ghép đạt kết tương đối khả quan 3.3 Kết luận Ứng dụng ontology cảm xúc SO luận án xây dựng cho tốn phân tích cảm xúc mức khía cạnh kết hợp phân giải đồng tham chiếu xác định đối tượng cụ thể với khía cạnh kèm theo cảm xúc người viết sản phẩm văn Ngoài ra, với hỗ trợ mơ hình xác định khía cạnh ẩn IAI tốn phân giải đồng tham chiếu cho phân tích cảm xúc có đối tượng thu kết tốt so với sử dụng SO đơn Tuy nhiên kết hợp số hạn chế bỏ sót đối tượng khơng có đồng tham chiếu đại từ hoặc thực thể; phân giải đồng tham chiếu khơng xác có những giới từ phủ định; rút trích cụm danh từ chưa đầy đủ Đây những vấn đề mà luận án giải ở chương sau Ngoài để nâng cao hiệu đồng tham chiếu giữa đối tượng – khía cạnh, khía cạnh – cảm xúc việc phát triển, mở rộng ontology cảm xúc toán mà luận án đặt để giải 66 CHƯƠNG LÀM GIÀU ONTOLOGY CẢM XÚC HỖ TRỢ PHÂN GIẢI ĐỒNG THAM CHIẾU CHO PHÂN TÍCH CẢM XÚC Chương trình bày tốn làm giàu ontology giới thiệu mơ hình đề xuất làm giàu thể (instances) cho ontology cảm xúc (SO) hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc số cơng cụ sử dụng mơ hình Cuối chương trình bày thực nghiệm cho mơ hình ESO dữ liệu thực nghiệm đánh giá ESO độ xác độ truy hồi Mơ hình làm giàu ontology cảm xúc ESO công bố [Error! Reference s ource not found.] 4.1 Giới thiệu Ontology cảm xúc SO hỗ trợ phân giải đồng tham chiếu đối tượng văn có cảm xúc sở tri thức nhằm suy luận ba đối tượng - khía cạnh - cảm xúc đề cập văn có ý kiến, cảm xúc sản phẩm, mặt hàng Để ontology cảm xúc có đầy đủ tri thức khả dụng cho tốn phân giải đồng tham chiếu đối tượng - khía cạnh - cảm xúc văn có cảm xúc việc xây dựng làm giàu SO yêu cầu tất yếu Cách tiếp cận làm giàu ontology luận án kết hợp văn phạm phụ thuộc, luật dựa phân tích cú pháp từ điển cảm xúc SentiWordnet Xét ví dụ sau để làm rõ tầm quan trọng việc làm giàu ontology Ví dụ 4.1: “I have just bought a Samsung Galaxy Note7 I like it because it looks beautiful However, it is expensive It has a camera I took a photo and it is amazing.” Văn Ví dụ 4.1 tiền xử lý phân tích cú pháp: tách câu, tách từ, gán nhãn từ loại, tạo quan hệ văn phạm Sau SO nhận dạng từ, cụm từ thuộc lớp đối tượng, khía cạnh hay cảm xúc Kết thu ba sau: “Samsung Galaxy Note7” - “photo” - “amazing”; “Samsung Galaxy Note7” - “design” - “beautiful”; “Samsung Galaxy Note7” - “price” - “expensive” Trong Ví dụ 4.1, ontology cảm xúc suy luận đầy đủ ba theo yêu cầu tốn Tuy nhiên khơng phải đoạn văn giải đúng, xác đầy đủ Ngun nhân chủ yếu SO khơng chứa đầy đủ tri thức, dữ liệu 67 (instances) Vậy việc bổ sung, cập nhật thêm tri thức cho ontology mục tiêu luận án : “Làm giàu liệu cho ontology cảm xúc hỗ trợ phân giải đồng tham chiếu đới tượng cho phân tích cảm xúc” 4.2 Mơ hình làm giàu ontology cảm xúc ESO (Enriched Sentiment Ontology) Để ontology cảm xúc (SO) hỗ trợ phân giải đồng tham chiếu đối tượng, khía cạnh cảm xúc hiệu luận án đề xuất mơ hình làm giàu SO, thể ở Hình 4.1 Cách tiếp cận cho mơ hình ở Hình 4.1 kết hợp phương pháp dựa theo luật, độ tương tự ngữ nghĩa giữa từ, nhận diện tính phân cực cảm xúc dựa từ điển phổ dụng WordNet Opinion Lexicon lĩnh vực xử lý ngôn ngữ tự nhiên Document đầu vào mô hình ESO có dạng văn khơng cấu trúc đề cập đến đối tượng có ý kiến, cảm xúc khía cạnh đối tượng Parse: phân tích cú pháp Luận án sử dụng công cụ parse Stanford [63] để thực việc gán nhãn từ loại phân tích cú pháp theo văn phạm phụ thuộc (DG) Các nhãn từ loại sau phân tích cú pháp danh từ riêng (NNP), danh từ chung (NN), động từ (VERB), tính từ (ADJ) trạng từ (ADV) Đây năm loại nhãn từ luận án lọc để phân lớp ngữ nghĩa Ngoài gán nhãn từ loại, cơng cụ Parse cịn xuất mối quan hệ văn phạm giữa từ loại như: compound(NNP, NN); advmod(VERB, ADV); amod(NN, ADJ), v.v Phần phân tích văn phạm phụ thuộc (DG) xác định quan hệ ngữ nghĩa giữa từ sau gán nhãn ngữ nghĩa Cuối cùng mô-đun Parse loại bỏ từ khơng có giá trị ngữ nghĩa (stopword) cho miền chun biệt, ví dụ từ thời gian “yesterday”, “last”, “week”, v.v 68 Hình 4.1 Mơ hình đề xuất ESO làm giàu ontology cảm xúc Annotating of semantics: Gán nhãn ngữ nghĩa Các từ, cụm từ tương ứng với từ loại (NNP, NN, VERB, ADJ, ADV) lọc ở mô-đun Parse phân lớp ngữ nghĩa SO Những từ cịn lại khơng thuộc vào lớp SO (không tồn tại) gán nhãn UNKN Coreference resolution: Phân giải đồng tham chiếu (NNP) Sử dụng DG “compound” xác định danh từ riêng đồng tham chiếu với “Compound” quan hệ văn phạm giữa danh từ hoặc danh từ riêng thống kê Hình 4.2 Hình 4.2 Quan hệ văn phạm “compound” [146] Ví dụ, Samsung Galaxy A8, có: Tagging: Samsung/NNP Galaxy/NNP A8/NNP 69 Dependence Grammar: compound(A8, Samsung); compound(A8, Galaxy) → Ta có danh từ riêng đồng tham chiếu đến “A8” “Samsung A8”, “Galaxy A8”, “Samsung Galaxy A8” Ngoài để phân lớp cho Obj, tác giả sử dụng phương pháp so trùng giữa Object với lớp WordNet: [136,137] sở tri thức phân cấp tiếng Anh sử dụng sở dữ liệu từ vựng chứa 155.287 từ 117.659 tập đồng nghĩa cho từ loại danh từ, động từ, tính từ danh từ Tất tập đồng nghĩa có quan hệ ngữ nghĩa Ví dụ Hình 4.3 giới thiệu tập đồng nghĩa từ “quality” với từ loại danh từ có ngữ nghĩa Hình 4.3 Tập từ đồng nghĩa danh từ “quality” WordNet Với ngữ nghĩa, từ “quality” có từ đồng nghĩa với Hình 4.4 giới thiệu cấu trúc phân cấp với ngữ nghĩa danh từ “quality” Hình 4.4 Cấu trúc phân cấp từ “quality” với nghĩa 70 Classify Aspect: Phân lớp khía cạnh Để thực phân lớp khía cạnh, luận án sử dụng độ đo Semantic Similarity between Words (SSW) [147] WordNet Dựa cấu trúc phân cấp sở tri thức để xác định khoảng cách ngữ nghĩa giữa từ Cấu trúc phân cấp từ điển mô tả Hình 4.5 Các từ tở chức thành tập đồng nghĩa sở tri thức với ngữ nghĩa quan hệ tới tập đồng nghĩa khác Vì có thể tìm lớp mạng ngữ nghĩa phân cấp từ gần nghĩa chung (subsumer) từ so sánh Phương pháp trực tiếp tính độ tương tự độ dài đường ngắn giữa hai từ Ví dụ Hình 4.5, đường ngắn giữa từ “boy” “girl” “boymale-person-female-girl”, độ dài đường ngắn “person” gọi subsumer “boy” “girl” Xét thêm ví dụ, theo Hình 4.5, độ dài ngắn từ “boy” đến “animal” ngắn từ “boy” đến “teacher” Nhưng rõ ràng “boy” có độ tương tự ngữ nghĩa với “teacher” “animal” Vậy mạng ngữ nghĩa phân cấp, với từ ở cấp có ngữ nghĩa khái quát độ tương tự ngữ nghĩa thấp hơn, ngược lại từ ở cấp có ngữ nghĩa chi tiết hơn, độ tương tự giữa từ cao Tóm lại, độ tương tự giữa từ xác định bởi độ dài đường giữa chúng độ sâu subsumer Cho hai từ w1 w2, độ tương tự s(w1, w2) theo cơng thức (4.1) 𝑠(𝑤1 , 𝑤2 ) = 𝑓 (𝑙, ℎ) - Với l : độ dài đường ngắn giữa w1 w2 - Với h: độ sâu subsumer giữa w1 w2 (4.1) Cơng thức (4.1) có thể viết lại theo công thức (4.2) giá trị s(w1,w2) khoảng từ đến 𝑠(𝑤1 , 𝑤2 ) = 𝑓1 (𝑙) ∙ 𝑓2 (ℎ) ❖ Cách tính độ dài l giữa hai từ có thể xảy ba trường hợp sau: - w1, w2 đồng nghĩa: l = 71 (4.2) Hình 4.5 Cấu trúc phân cấp WordNet - w1, w2 không đồng nghĩa có từ đồng nghĩa giống nhau: l = w1, w2 khơng đồng nghĩa, khơng có từ đồng nghĩa giống nhau, l tính theo cơng thức (4.3) Trong số tốt 0.2 với Wordnet theo [148] 𝑓1 (𝑙) = 𝑒 −∝𝑙 (4.3) ❖ Độ sâu h giữa từ w1, w2 tính theo cơng thức (4.4), với số tốt 0.45 với Wordnet theo [148] 𝑒 𝛽ℎ − 𝑒 −𝛽ℎ 𝑓2 (ℎ) = 𝛽ℎ 𝑒 + 𝑒 −𝛽ℎ (4.4) Từ (4.3) (4.4), ta có s(w1,w2) viết lại theo (4.5), với ∈ [0,1], 𝛽 ∈ (0,1] 𝑠(𝑤1 , 𝑤2 ) = 𝑒 −𝛼𝑙 ∙ 𝑒 𝛽ℎ − 𝑒 −𝛽ℎ 𝑒𝛽ℎ + 𝑒 −𝛽ℎ Giá trị phụ thuộc vào sở tri thức sử dụng 72 (4.5) Khía cạnh danh từ, cụm danh từ hoặc có thể động từ Trong SO có ba lớp lớp Aspect Device, Attribute Application Với những từ loại động từ phân lớp Attribute, từ loại danh từ sử dụng WordNet để tìm độ tương tự SSW với ba lớp Aspect Nếu SSW lớn thuộc lớp tương ứng Ví dụ từ “quality” thuộc từ loại danh từ, độ tương tự SSW từ “quality” với lớp Device, Attribute Application tính sau Hình 4.6 ví dụ phần cấu trúc phân cấp WordNet có chứa từ “quality” ba lớp lớp Aspect ontology cảm xúc Áp dụng cấu trúc này, tính SSW “quality” với ba lớp kết trình bày Bảng 4.1 với l h độ dài chiều sâu từ công thức 4.5 Kết SSW giữa “quality” lớp Attribute lớn 0,716, “quality” phân lớp “Attribute” Bảng 4.1 Kết SSW “quality” ba lớp lớp Aspect “quality” l h SSW Các lớp Aspect Application Attribute Device 10 10 0,097 0,716 0,057 Classify Sentiment: Phân lớp cảm xúc Bộ từ vựng cảm xúc Opinion Lexical (OL) [138] danh sách từ cảm xúc có phân cực, tích cực (positive) tiêu cực (negative) tiếng Anh chứa 6.800 từ Danh sách biên soạn qua nhiều năm bao gồm hai tập tin chứa từ cảm xúc Hình 4.7 Tập tin thứ positive-words.txt chứa 2.006 từ quan điểm tích cực tập tin thứ hai negative-word.txt có 4.783 từ quan điểm tiêu cực Từ mơ hình ESO, mơ-đun phân lớp cảm xúc sử dụng OL để phân lớp từ loại tính từ, trạng từ động từ vào ba lớp positive, negative neutral Xét ví dụ 4.6, phân lớp từ ví dụ với ba từ “outstanding/ADJ,” “flawless/ADJ,” and “amazingly/ADV” Các từ cùng chứa tập tin positive-words.txt, chúng thuộc lớp positive 73 Hình 4.6 Cấu trúc phân cấp WordNet Hình 4.7 Cấu trúc Opinion Lexicon (OL) [138] 74 Xác định quan hệ Ngoài instance cần làm giàu quan hệ giữa chúng thành phần không thể thiếu để tạo nên sở tri thức khả dụng Sau phân lớp ngữ nghĩa cho từ, cụm từ, tác giả sử dụng văn phạm phụ thuộc [146] xác định mối quan hệ giữa thành phần Obj-Asp Asp-Sen Trong phạm vi đề tài, luận án lọc quan hệ văn phạm có tác động lên từ loại NN, NNP, VERB, ADJ ADV Một số quan hệ văn phạm điển hình thể bảng Bảng 4.2 Bảng 4.2 Một số quan hệ văn phạm phụ thuộc Thứ tự Quan hệ Tham số Tham số Ý nghĩa Nmod:of NN NN Danh từ bổ trợ cho danh từ Nmod:of NN NNP Danh từ riêng bổ trợ cho danh từ Advmod VB ADV Trạng từ bổ trợ cho động từ Amod NN ADJ Tính từ bở trợ cho danh từ Obj ADV NN Nsubj ADJ NN Danh từ chủ thể tính từ Để chuyển đổi từ quan hệ văn phạm sang quan hệ SO, luận án sử dụng kết phân lớp ngữ nghĩa phân lớp cảm xúc, khía cạnh kết hợp quan hệ văn phạm phụ thuộc để tìm mối quan hệ isCore, isAsp, isSen, isPos, isNeg, v.v isCore thể mối quan hệ đồng tham chiếu giữa Obj, isAsp quan hệ giữa Obj Asp sử dụng quan hệ thứ bảng Bảng 4.2, isSen quan hệ giữa Asp Sen sử dụng quan hệ thứ bảng Bảng 4.2, v.v Mỗi quan hệ SO tùy thuộc vào lớp ngữ nghĩa từ quan hệ văn phạm phụ thuộc tương ứng 4.3 Thực nghiệm và đánh giá Mơ hình ESO 75 Mơ hình ESO thực nghiệm tập dữ liệu thu thập từ YouNetMedia.com trình bày mục 3.1.4, chương Tập dữ liệu thực nghiệm dữ liệu SO trước làm giàu mô tả Bảng 4.3 Trong bảng trình bày cấu trúc dữ liệu ban đầu SO theo lớp: OBJ, ASP SEN Cột cuối cùng bảng thông tin mô tả chi tiết số từ, cụm từ tương ứng lớp xuất 614 câu văn cảm xúc Bảng 4.3 Bảng mô tả SO trước làm giàu tập dữ liệu thực nghiệm Lớp Số lớp Số từ SO Số từ 614 câu OBJ 842 110 ASP 81 260 SEN 32 176 Với 614 câu có ý kiến nhận xét smartphone, luận án thu từ, cụm từ cho lớp Obj, Asp Sen tương ứng 106, 250 167 từ, thể Bảng 4.4 Bảng 4.4 Kết làm giàu dữ liệu ESO 614 câu văn cảm xúc Lớp Số từ OBJ Kết Đúng Sai 106 94 12 ASP 250 181 69 SEN 167 139 28 Cột Đúng Bảng 4.4 cho biết số từ phân lớp theo lớp Aspect, ngược lại cột Sái Hiệu mơ hình ESO tính bởi tham số độ xác độ truy hồi theo phương pháp trình bày sau Gọi số từ phân lớp fp số từ phân lớp sai tập phân lớp Gọi fn số từ phân lớp sai tập phân lớp mong muốn Khi độ xác P độ truy hồi R tính theo cơng thức (4.6) (4.7) 𝑃= 𝑅= 𝑡𝑝 𝑡𝑝+𝑓𝑝 𝑡𝑝 𝑡𝑝+𝑓𝑛 76 (4.6) (4.7) Áp dụng phương pháp trên, luận án thu kết đánh Bảng 4.5 Kết thực nghiệm theo bảng Bảng 4.5 cao, độ truy hồi lớp Object 94% với hỗ trợ văn phạm phụ thuộc 89% độ xác Với lớp Sentiment sử dụng Opinion lexicon hiệu quả, đạt 79% độ truy hồi, 83% độ xác Cuối cùng lớp Aspect có kết thấp so với hai lớp Object Sentiment Đây vấn đề xảy với thực tế khía cạnh thường danh từ hoặc động từ xuất với tần suất khơng nhỏ Bên cạnh cịn số ngun nhân làm giảm hiệu mơ hình ESO Với lớp Object có số danh từ riêng khơng thuộc lớp đối tượng miền chuyên biệt, lớp Aspect bị bỏ sót những từ, cụm từ khơng có từ điển WordNet tương tự, lớp Sentiment có số từ khơng có Opinion lexicon Bảng 4.5 Đánh giá kết thực nghiệm mơ hình ESO 614 câu Lớp P R OBJ 0,89 0,94 ASP 0,72 0,69 SEN 0,83 0,79 Hình 4.8 biểu đồ trực quan hóa kết Bảng 4.4 Bảng 4.5, cột màu xanh biểu diễn số từ đoạn thẳng màu vàng độ xác Rõ ràng đối tượng mơ tả với nhiều khía cạnh khía cạnh có thể đề cập bởi từ cảm xúc giống Hình 4.8 thể rõ mối quan hệ giữa số từ độ xác tỷ lệ nghịch Tần suất xuất OBJ thấp so với ASP SEN văn cảm xúc, nhiên độ xác OBJ cao Bởi phân tích từ mối quan hệ văn phạm Compound từ cụm từ tên riêng mang đầy đủ đặc trưng miền chuyên biệt, “Samsung Galaxy A8” xác định đối tượng đồng tham chiếu (cụm danh từ, “Samsung A8”, “Galaxy A8”, “A8” với độ xác cao Đối với lớp ASP, khía cạnh có thể danh từ hoặc động từ phạm vi ý nghĩa hai loại từ rộng mặc dù luận án giới hạn làm giàu ontology miền chuyên biệt Điều dẫn đến độ xác ASP khơng cao Lớp SEN có độ xác tốt ASP, từ thuộc lớp SEN văn cảm xúc thường tính từ, trạng từ có tính phân cực tích cực, tiêu cực hoặc trung lập rõ nét Đó lý việc nhận dạng khía cạnh chưa cao so với OBJ SEN 77 Hình 4.8 Hiệu mơ hình ESO 614 câu Hiệu SO sau làm giàu Luận án thực nghiệm lại mơ hình toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có đối tượng (OCR1Obj) ở mục 3.2 với hỗ trợ ontology cảm xúc sau làm giàu Kết mơ hình toán OCR1Obj đánh giá 320 văn (mục 3.2.7) ở Bảng 4.6 Trong cột OBASCore-SO1 kết đánh giá toán OCR1Obj với ontology cảm xúc trước làm giàu (Bảng 3.10, cột OBASCore*), OBASCore-SO2 với ontology cảm xúc sau làm giàu dữ liệu mơ hình ESO Rõ ràng sau làm giàu SO, thể lớp SO tăng việc nhận dạng đối tượng, khía cạnh cảm xúc xuất văn đầy đủ hơn, khơng bị bỏ sót thơng tin Độ xác độ truy hồi OCR1Obj tăng lên 80% 82% so với kết trước làm giàu ontology (76% 79%) Bảng 4.6 Đánh giá hiệu SO sau làm giàu dữ liệu Độ đo OBASCore-SO1 OBASCore-SO2 R 0,79 0,82 P 0,76 0,80 Xét Ví dụ 4.2, ví dụ minh chứng cho việc bỏ sót thơng tin trước ontology cảm xúc làm giàu 78 Ví dụ 4.2: “My Samsung s7 is super buggy Its power button and volume button are no longer work The WiFi always stops working I like the S7 It is an impressive phone for playing the game and listening to the music.” Trong ví dụ này, “Samsung s7”, “S7” thể đối tượng; “buggy” thể cảm xúc; “power button”, “volumn button” thể khía cạnh Đây những từ, cụm từ khơng tồn SO trước làm giàu Sau áp dụng mơ hình làm giàu ontology (ESO), với kết ở Bảng 4.4, từ cụm từ: “Samsung s7”, “S7”, “buggy”, “power button”, “volumn button” cập nhật vào SO Việc làm giàu dữ liệu cho ontology nhu cầu cần thiết để nâng cao độ xác cho toán phân giải đồng tham chiếu đối tượng 4.4 Kết luận Ontology cảm xúc sở tri thức hỗ trợ hiệu cho tốn phân tích cảm xúc việc làm giàu SO cần thiết Với đặc thù riêng cấu trúc SO hỗ trợ toán phân giải đồng tham chiếu cho phân tích cảm xúc nên lớp khái niệm có những tiếp cận khác để làm giàu thể cho lớp Mô hình ESO sử dụng cú pháp câu ngữ nghĩa từ để làm giàu cho ontology dựa vào WordNet Opinion Lexicon Cụ thể, lớp đối tượng sử dụng văn phạm phụ thuộc, lớp khía cạnh sử dụng sở tri thức WordNet lớp cảm xúc dựa từ vựng cảm xúc Với phụ thuộc mơ hình vào sở tri thức có (WordNet, Opinion Lexical) điểm hạn chế phương pháp đề xuất, nhiên những sở tri thức đáng tin cậy cộng đồng xử lý ngôn ngữ tự nhiên sử dụng rộng rãi cơng trình nghiên cứu 79 CHƯƠNG PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CĨ NHIỀU ĐỚI TƯỢNG Chương trình bày chi tiết toán phân giải đồng tham chiếu đối tượng, khía cạnh cảm xúc có nhiều đối tượng đề xuất mơ hình CROAS giải tốn OCR2Obj Ngồi việc giới thiệu mơ hình đề xuất CROAS, chương trình bày giải thuật mô-đun CROAS huấn luyện, phân lớp thực phân giải đồng tham chiếu Để làm rõ hoạt động CROAS, luận án đưa số ví dụ minh họa cho số bước xử lý phức tạp giải thuật Cuối cùng phần thực nghiệm, so sánh đánh giá kết mơ hình đề xuất Mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng cơng bố [1] 5.1 Đặt vấn đề Hiện nay, với công nghệ Internet nhu cầu mua sắm người cao những đoạn văn có nhiều ý kiến sản phẩm trang web ngày phong phú Đặc biệt, việc so sánh, đánh giá nhiều sản phẩm cùng văn hay đoạn văn nhiều Với văn có đối tượng việc xác định cảm xúc đề cập đến khía cạnh đối tượng đơn giản so với văn có từ hai đối tượng Trong văn có nhiều quan điểm, cảm xúc đề cập đến nhiều khía cạnh đối tượng khác làm cho toán phân giải đồng tham chiếu sở cảm xúc trở nên phức tạp Vậy làm để xác định xác cảm xúc đến khía cạnh đối tượng cụ thể văn Ví dụ 5.1: “I gave my 6s_plus to my wife and bought for myself an Apple iPhone7 two days ago iPhone7 is beautiful The battery is amazing But what I really appreciate is the speaker producing good sound and its 128g storage.” Trong Ví dụ 5.1 xuất hai đối tượng “6s_plus” “Apple iPhone7” (nói ngắn gọn “iPhone7”) Ngồi có số khía cạnh “battery”, “speaker”, “sound”, “storage” từ cảm xúc “beautiful”, “amazing”, “appreciate”, “good” Vậy từ khía cạnh cảm xúc đề cập đến đối tượng hai đối tượng Với người đọc có thể dễ nhận thấy “battery” - “amazing”, “speaker” - “appreciate”, “sound” - “good” “beautiful” cùng nói “Apple iPhone7” Nhưng “beautiful” từ 80