1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân Giải Đồng Tham Chiếu Đối Tượng Cho Phân Tích Cảm Xúc

28 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 837,04 KB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA LÊ THỊ THỦY PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC Ngành: KHOA HỌC MÁY TÍNH Mã số ngành: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ TP HỒ CHÍ MINH - NĂM 2022 Cơng trình hồn thành Trường Đại học Bách Khoa – ĐHQG-HCM Người hướng dẫn 1: GS TS Phan Thị Tươi Phản biện độc lập: PGS TS Nguyễn Tuấn Đăng Phản biện độc lập: PGS TS Lê Hoàng Thái Phản biện: PGS TS Đinh Điền Phản biện: PGS TS Đỗ Văn Nhơn Phản biện: PGS TS Phạm Trần Vũ Luận án bảo vệ trước Hội đồng đánh giá luận án họp phòng 301B4, Đại học Bách Khoa - Đại học Quốc gia Thành phố Hồ Chí Minh, vào lúc 45 ngày 05 tháng 08 năm 2022 Có thể tìm hiểu luận án thư viện: - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM - Thư viện Đại học Quốc gia Tp.HCM - Thư viện Khoa học Tổng hợp Tp.HCM PGS TS Quản Thành Thơ (Phan Thị Tươi, Võ Thanh Hùng, Mai Đức Trung, Lê Thị Thủy), “Kết hợp rút trích nét đối tượng học máy để phân tích cảm xúc khía cạnh cho văn tiếng Việt.” B2018-20-07, ĐHQG-HCM 2018 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỚ Tạp chí quốc tế T Le Thi, T Phan Thi, and T Quan Thanh, "Machine learning using context vectors for object coreference resolution," Computing, vol Online, 2021 https://doi.org/10.1007/s00607-021-00902-4 Tạp chí nước T Le Thi, T Phan Thi, and T Quan Thanh, "Coreference resolution Ontology-based in sentiment analysis," Science and Technology Development Journal, vol 20, no K9, pp 23-30, 2019 Kỷ yếu hội nghị quốc tế T Le Thi, T Phan Thi, and T Quan Thanh, "Instance-Based Enrichment of Sentiment Ontology," in 2019 IEEE-RIVF International Conference on Computing and Communication Technologies, March 20-22, Danang, Vietnam, pp 1-6, 2019 T Le Thi, T Quan Thanh, and T Phan Thi, "Ontology-Based Entity Coreference Resolution For Sentiment Analysis," in Proceedings of the Eighth International Symposium on Information and Communication Technology, December 7-8, Nha Trang City, Viet Nam, pp 50-56, 2017 T Le Thi, H Vo Thanh, T Mai Duc, T Quan Thanh, and T Phan Thi, "An Ontology-based Coreference Resolution Approach for Aspect-level Sentiment Analysis," in 2016 IEEE RIVF International Conference on Computing & Communication Technologies, Research, Innovation, and Vision for the Future, November 7-9, Hanoi, Vietnam, pp 17-22, 2016 T Le Thi, H Vo Thanh, T Mai Duc, T Quan Thanh, and T Phan Thi, "Sentiment Analysis Using Anaphoric Coreference Resolution and Ontology Inference," in Multi-disciplinary Trends in Artificial Intelligence - 10th International Workshop, MIWAI 2016, December 7-9, Chiang Mai, Thailand, pp 297-303, 2016 Đề tài nghiên cứu khoa học PGS TS Quản Thành Thơ (Phan Thị Tươi, Lê Thị Thủy, Võ Thanh Hùng, Trần Khải Thiện), “Phân giải đồng tham chiếu cho tiếng Việt trình phân tích cảm xúc hướng đến khía cạnh.” C2016-20-36, ĐHQG-HCM 2016 GS TS Phan Thị Tươi, Lê Thị Thuỷ, “Phân giải đồng tham chiếu đối tượng, khía cạnh sở cảm xúc nhận xét tiếng Anh.” TNCS-KHMT-2016-09, ĐHBK-HCM 2018 CHƯƠNG 1.1 GIỚI THIỆU Động nghiên cứu Phân giải đồng tham chiếu toán xuất phổ biến lĩnh vực Xử lý ngôn ngữ tự nhiên Trong văn bản, đối tượng hay khía cạnh của đối tượng nhắc nhắc lại nhiều lần cụm từ ban đầu cụm từ khác người đọc tham chiếu đối tượng hay khía cạnh Việc xác định liên kết hay gọi tham chiếu của cụm từ đến đối tượng cụ thể Xử lý ngôn ngữ tự nhiên gọi toán phân giải đồng tham chiếu Hiện nay, đa dạng mặt hàng loại sản phẩm, nhu cầu của người ngày khắt khe việc lựa chọn sản phẩm với công nghệ Internet, mạng xã hội toàn cầu phát triển mạnh nên nguồn liệu văn có nhiều ý kiến sản phẩm trang web ngày giàu phong phú Những đoạn văn có ý kiến gọi văn có cảm xúc việc quan tâm đến vấn đề phân tích văn cảm xúc nhu cầu tất yếu của thực tiễn khoa học Phân tích cảm xúc (Sentiment analysis) hay gọi khai phá ý kiến (Opinion mining) lĩnh vực phân tích ý kiến, tình cảm, ước lượng, đánh giá, thái độ cảm xúc của người thực thể sản phẩm, dịch vụ, tổ chức, cá nhân, vấn đề, kiện, chủ đề thuộc tính của chúng Bài tốn phân tích cảm xúc chia thành ba mức: mức văn bản, mức câu, mức khía cạnh Tuy có nhiều phương pháp tiếp cận cho tốn phân tích cảm xúc mức, tiếp cận dừng kết văn bản, câu hay khía cạnh đối tượng đề cập có tính phân cực cảm xúc mà chưa quan tâm mối quan hệ cảm xúc, khía cạnh đối tượng Vấn đề nghiên cứu cịn để mở động nghiên cứu của luận án 1.2 Mục tiêu phạm vi nghiên cứu Mục tiêu luận án xây dựng mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc sử dụng giải thuật xử lý ngôn ngữ tự nhiên, hỗ trợ của ontology cảm xúc phương pháp máy học, học sâu để giải toán phân giải đồng tham chiếu nhiều đối tượng cho phân tích cảm xúc mức khía cạnh Việc xác định cảm xúc cho khía cạnh của đối tượng cụ thể cho thấy chi tiết chất lượng của sản phẩm mà khách hàng quan tâm Trên sở phân giải đồng tham chiếu văn có cảm xúc, tác giả luận án đề xuất (1) bài toán phân giải đồng tham chiếu đối tượng để tìm ba gồm đối tượng, khía cạnh và cảm xúc Tuy nhiên với văn có từ hai đối tượng trở lên việc tìm khía cạnh, cảm xúc thuộc đối tượng khó nhiều Xét ví dụ sau: Ví dụ 1.1: “I gave my 6s plus to my wife and bought for myself an Apple iPhone7 two days ago iPhone7 is beautiful The battery is amazing But what I really appreciate is the speaker producing good sound and its 128g storage.” Trong ví dụ 1.1 xuất hai đối tượng “6s plus” “Apple iPhone7” (nói ngắn gọn “iPhone7”) Ngồi có số khía cạnh “battery”, “speaker”, “sound”, “storage” từ cảm xúc “beautiful”, “amazing”, “appreciate”, “good” Vậy từ khía cạnh cảm xúc đề cập đến đối tượng hai đối tượng Với người đọc dễ nhận thấy “battery” “amazing”, “speaker” - “appreciate”, “sound” - “good” “beautiful - khía cạnh ẩn” nói “Apple iPhone7” Văn có từ hai đối tượng trở lên, việc xác định khía cạnh, cảm xúc cho đối tượng cụ thể trở nên phức tạp Dựa đặc điểm của loại văn bản, yêu cầu của toán đặt tiếp cận nay, luận án đề xuất (2) hướng giải đồng tham chiếu đối tượng cho cảm xúc từ văn đơn giản có đối tượng đến văn có từ hai đối tượng trở lên Thực tế, văn cảm xúc đề cập từ hai đối tượng trở lên nhiều khách hàng thường có so sánh sản phẩm với Với văn có đề cập nhiều đối tượng, để xác định khía cạnh cảm xúc của đối tượng vấn đề trọng tâm của toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc Hiện nay, vấn đề cịn cơng trình khoa học cơng bố 1.3 Mơ hình đề xuất Mơ hình tổng quan của hệ thống phân giải đồng tham chiếu đối tượng mà luận án đề xuất thể qua Hình 1.1, với mơ-đun sau Document: Một văn cảm xúc, bình luận sản phẩm theo miền PARSE: Mơ-đun phân tích cú pháp văn gán nhãn, xác đinh mối quan hệ văn phạm phụ thuộc, v.v RECOAS: Nhận dạng thành phần văn theo cấu trúc của ontology cảm xúc, đối tượng, khía cạnh, cảm xúc mối quan hệ thành phần OCR1Obj: Mô-đun phân giải đồng tham chiếu đối tượng văn đề cập đến đối tượng OCR2Obj: Mô-đun phân giải đồng tham chiếu đối tượng văn đề cập, có từ hai đối tượng trở lên EMBEDDING CONTEXT WORD (ECW): Mô-đun chuyển đổi từ thành véc-tơ dựa theo ngữ cảnh trái phải của từ của câu đoạn văn COREFERENCE RESOLUTION: Sử dụng đồ thị đồng tham chiếu truy xuất ba: đối tượng – khía cạnh – cảm xúc đối tượng đề cập văn SENTIMENT ONTOLOGY: Cơ sở tri thức chứa thể của đối tượng, khía cạnh, cảm xúc loại sản phẩm mối quan hệ thành phần Hình 1.1 Mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc POPULATION: Mơ-đun làm giàu sở tri thức ontology cảm xúc SENTIMENT ONTOLOGY TRIPLETS OF OBJECT – ASPECT – SENTIMENT: Kết của mơ hình ba: đối tượng – khía cạnh – cảm xúc đối tượng Document Để xây dựng mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận án cần giải số toán sau Bài toán 1: Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có đối tượng - OCR1Obj Bài tốn 2: Làm giàu ontology cảm xúc hỗ trợ phân giải đồng tham chiếu đối tượng Bài toán 3: Xác định khía cạnh ẩn hỗ trợ phân giải đồng tham chiếu đối tượng Bài toán 4: Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng – OCR2Obj 1.3 Đóng góp luận án • Đóng góp thứ nhất: Xây dựng ontology cảm xúc SO đồ thị đồng tham chiếu CRG hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc Đóng góp thứ cơng bố cơng trình [2,4] • Đóng góp thứ hai: Mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn có đối tượng Đóng góp thứ hai cơng bố cơng trình [2,4] • Đóng góp thứ ba: Đề xuất mơ hình làm giàu ontology cảm xúc Đóng góp thứ ba cơng bố cơng trình [3] • Đóng góp thứ tư: Đề xuất mơ hình xác định khía cạnh ẩn văn cảm xúc • Đóng góp thứ năm: Xây dựng mơ hình phân giải đồng tham chiếu đối tượng cho văn cảm xúc có từ hai đối tượng trở lên Đóng góp thứ năm cơng bố cơng trình [1] 1.4 Cấu trúc luận án Luận án chia thành sáu chương phụ lục Chương trình bày mục tiêu, phạm vi nghiên cứu của luận án đóng góp của luận án; giới thiệu cấu trúc của luận án Chương trình bày nghiên cứu liên quan phân giải đồng tham chiếu, phân tích cảm xúc, phân giải đồng tham chiếu cho phân tích cảm xúc, xác định khía cạnh ẩn, xây dựng làm giàu ontology miền chuyên biệt Chương trình bày mơ hình, giải thuật phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc của văn có đối tượng Chương trình bày mơ hình làm giàu ontology cảm xúc hỗ trợ phân giải đồng tham chiếu Chương trình bày mơ hình, giải thuật phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn có nhiều đối tượng Chương phần tổng kết trình bày kết mà luận án đạt dự định nghiên cứu tương lai CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Phân giải đồng tham chiếu đối tượng khía cạnh cho phân tích cảm xúc Cơng trình Ding X Liu B xác định từ, cụm từ đối tượng (object) thuộc tính (attribute) tham chiếu đến thực thể Trong đối tượng thực thể có tên, tên sản phẩm dịch vụ Các tác giả sử dụng tiếp cận học máy có giám sát với mơ hình đề xuất huấn luyện 12 đặc trưng Sau 10 năm, cơng trình cải tiến Chen J cộng với tiếp cận định hướng tri thức (knowledge-driven), cải tiến đề xuất khai phá tự động tri thức miền chuyên biệt từ liệu văn thô áp dụng tri thức theo miền chuyên biệt cho phân lớp đồng tham chiếu đối tượng, khía cạnh Cơng trình Zhao Y xây dựng phân lớp khía cạnh - đối tượng để đánh giá cặp cần phân lớp sử dụng Integer linear programming (ILP) để suy luận kết cuối của tốn 2.2 Phân tích cảm xúc mức khía cạnh Phân tích cảm xúc mức khía cạnh (ABSA) theo Liu B xác định ý kiến thực thể đặc tính của Mỗi thực thể hay đối tượng văn cảm xúc thường đề cập đến khía cạnh kèm với cảm xúc, quan điểm Bài toán cần xác định từ cảm xúc tham chiếu đến khía cạnh văn Bài tốn phân tích mức tập trung vào việc xác định cặp khía cạnh - cảm xúc đánh giá cảm xúc của khía cạnh 2.3 Xây dựng ontology cảm xúc làm giàu ontology Theo định nghĩa của Tung Thanh Nguyen, ontology cảm xúc cặp tập khái niệm tập quan hệ Ontology tổng quát bao gồm T-Box A-Box TBox bao gồm khái niệm khía cạnh, khái niệm cảm xúc mối quan hệ để nâng cao độ xác cho việc xác định khía cạnh ẩn, mô-đun Fine-Tuning1 sử dụng W huấn luyện tiếp liệu tương ứng với từ cảm xúc Kết của Fine-Tuning1 mơ hình, ký hiệu W1s, dùng để phân lớp cho mô-đun tiếp theo, Fine-Tuning2 Tương tự Fine-Tuning1, mô-đun Fine-Tuning2 tiếp tục huấn luyện từ W1s tập liệu cảm xúc tham chiếu đến khía cạnh mang tính chất thuộc tính (khơng phải thiết bị, thành phần của đối tượng) để thu hẹp phạm vi khía cạnh ẩn cần xác định cho kết W2s, nâng cao độ xác cho mơ-đun cuối cùng, Classifying Implicit Aspect Classifying Implicit Aspect mô-đun cuối cùng, xác định khía cạnh ẩn cho từ cảm xúc dựa vào W2s của Fine-Tuning2 Với đầu vào từ cảm xúc biểu diễn véc-tơ cảm xúc, phân lớp sử dụng mơ hình tương ứng với cảm xúc để xác định khía cạnh ẩn 3.1.2 Thực nghiệm và đánh giá Mơ-đun Training có 69.905 mẫu liệu trích xuất từ Corpus12 với 389.103 văn cảm xúc điện thoại thơng minh (smartphone), đó: liệu huấn luyện có 64.374 mẫu liệu thử nghiệm có 5.598 mẫu độ xác 0,82 Mơ hình IAI đánh giá 110 văn cảm xúc smartphone qua mô-đun: Training (IAI1), Fine-Tuning1 (IAI2) FineTuning2 (IAI3) Kết độ xác đạt của IAI3 (0,88) lớn IAI2 IAI1 Ngồi IAI so sánh với cơng trình của Rana TA (0,71) cho thấy kết tốt nhiều 3.2 Mơ hình phân giải đồng tham chiếu cho phân tích cảm xúc có đối tượng Mơ hình phân giải đồng tham chiếu đối tượng cho văn cảm xúc có đối tượng xác định đồng tham chiếu ba: đối tượng - khía cạnh - cảm xúc luận án đề xuất trình bày Hình 3.2 10 Hình 3.2 Mơ hình phân giải đồng tham chiếu cho phân tích cảm xúc có đối tượng 3.2.1 Parse – Phân tích cú pháp Thực gán nhãn từ loại, nhãn quan hệ ngữ pháp, tạo cú pháp v.v 3.2.2 Anaphora & Entity CR - Phân giải đồng tham chiếu đại từ, thực thể Từ đặc điểm của văn bản, luận án chia thành hai trường hợp riêng biệt xác định đồng tham chiếu văn cho mô-đun Anaphora & Entity CR, là: (1) xác định đại từ đề cập đến đối tượng, thực thể ban đầu gọi phân giải đồng tham chiếu đại từ; (2) xác định cụm danh từ đề cập đến đối tượng, thực thể ban đầu gọi phân giải đồng tham chiếu thực thể có tên 3.2.3 Aspect-based sentiment analysis - Phân tích cảm xúc mức khía cạnh Xác định mối quan hệ đối tượng - cảm xúc, khía cạnh - cảm xúc văn 11 3.2.4 Ontology cảm xúc Kiến trúc ontology cảm xúc minh họa hình 3.3 Hình 3.3 Kiến trúc Ontology cảm xúc Ontology cảm xúc gồm ba lớp: lớp OBJECT bao gồm tên đối tượng theo miền, ký hiệu Obj; Lớp thứ hai ASPECT, bao gồm khía cạnh của đối tượng, ký hiệu Asp; Lớp thứ ba SENTIMENT, ý kiến, cảm xúc hay nhận xét khía cạnh của đối tượng ký hiệu Sen Ngoài ba lớp khái niệm, ontology cảm xúc cịn có mối quan hệ lớp với thành phần (instance) Ontology cảm xúc với kiến trúc Hình 3.3 có thể: nhận diện từ thuộc lớp đối tượng, khía cạnh cảm xúc; xác định khía cạnh (aspect) ẩn cho cảm xúc; xác định khía cạnh (aspect) với đối tượng (object); ontology giải đồng tham chiếu thực thể cụm danh từ; xác định cảm xúc tích cực hay tiêu cực 3.2.5 Đồ thị đồng tham chiếu (CoReference Graph – CRG) Đồ thị đồng tham chiếu (CRG), công cụ cuối để sinh ba đối tượng, khía cạnh cảm xúc CRG đồ thị có hướng có trọng số với đỉnh từ, cụm từ thuộc đồng tham chiếu đại từ, thực thể có tên phân tích cảm xúc mức khía cạnh Trọng số của cạnh khoảng cách 12 lớp mà từ, cụm từ thuộc lớp Luận án áp dụng thuật tốn tìm kiếm, duyệt để xác định ba đối tượng - khía cạnh - cảm xúc miền chun biệt 3.2.6 Mơ-đun OBASCore Hình 3.4 trình bày chi tiết giải thuật của OBASCore Kết thực bước của giải thuật hình 3.4 minh họa hình 3.5 Đồ thị CRG xác định đối tượng Samsung Galaxy Note7 có ba cặp khía cạnh - cảm xúc photo amazing, design - beautiful, price - expensive 3.2.7 Thực nghiệm và đánh giá Kết thực nghiệm mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có đối tượng 320 văn cảm xúc smartphone đạt độ xác 76% (sử dụng SO xác định khía cạnh ẩn) 78% (có kết hợp mơ hình IAI) Với hỗ trợ của SO CRG giải toán OCR1Obj đạt kết tốt Tuy nhiên tốn cịn phụ thuộc vào liệu của SO, việc làm giàu cho SO cần thiết Hình 3.4 Giải thuật của mơ đun OBASCore 13 Hình 3.5 CRG của ví dụ 1.1 thực giải thuật hình 3.4 3.3 Kết luận Ứng dụng ontology cảm xúc SO, đồ thị đồng tham chiếu CRG luận án đề xuất cho toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có đối xác định đối tượng, khía cạnh kèm theo cảm xúc Trong văn Ngoài ra, với hỗ trợ của mơ hình xác định khía cạnh ẩn IAI toán OCR1Obj thu kết tốt so với sử dụng SO đơn CHƯƠNG LÀM GIÀU ONTOLOGY CẢM XÚC HỖ TRỢ PHÂN GIẢI ĐỒNG THAM CHIẾU CHO PHÂN TÍCH CẢM XÚC 4.1 Giới thiệu Làm giàu liệu ontology (Ontology Population) nhiệm vụ cập nhật thêm liệu hay gọi làm giàu tri thức cho lớp khái niệm ontology Q trình làm giàu liệu cho ontology khơng làm thay đổi cấu trúc của ontology, ví dụ hệ thống phân cấp khái niệm mối quan hệ không phân loại (non-taxonomic) giữ nguyên Sự thay đổi tập thực hóa (instances) của khái niệm mối quan hệ phạm vi miền 4.2 Giới thiệu số mơ hình làm giàu dữ liệu ontology cảm xúc Hiện có nhiều cơng trình nghiên cứu làm giàu liệu cho ontology với phương pháp tiếp cận khác Phương pháp học máy có giám sát 14 khơng giám sát, sử dụng mơ hình phân lớp để xác định thể (D Celjuska cộng sự, M Jiang cộng sự, v.v) Phương pháp học sâu sử dụng thuật toán CNN, RNN để xác định nguồn liệu phụ thuộc miền (D Zeng cộng sự, A Ayadi cộng sự, C Liu cộng sự) Ngồi ra, có phương pháp dựa theo luật, thống kê kết hợp phương pháp để áp dụng miền chuyên biệt khác 4.3 Mơ hình làm giàu ontology cảm xúc ESO (Enriched Sentiment Ontology) Mơ hình làm giàu SO, thể hình 4.1, với tiếp cận kết hợp phương pháp dựa theo luật, độ tương tự ngữ nghĩa từ, nhận diện tính phân cực của cảm xúc dựa từ điển phổ dụng WordNet Opinion Lexicon lĩnh vực xử lý ngôn ngữ tự nhiên Document đầu vào của mô hình ESO có dạng văn khơng cấu trúc đề cập đến đối tượng có ý kiến, cảm xúc khía cạnh của đối tượng Parse thực phân tích cú pháp Luận án sử dụng công cụ parse của Stanford để thực việc gán nhãn từ loại phân tích cú pháp theo văn phạm phụ thuộc (DG) Các nhãn từ loại sau phân tích cú pháp danh từ riêng (NNP), danh từ chung (NN), động từ (VERB), tính từ (ADJ) trạng từ (ADV) Đây năm loại nhãn từ luận án lọc để phân lớp ngữ nghĩa Annotating of semantics dùng để gán nhãn ngữ nghĩa theo SO cho từ với nhãn từ loại NNP, NN, VERB, ADJ ADV Những từ cịn lại khơng thuộc vào lớp của SO (không tồn tại) gán nhãn UNKN Coreference resolution sử dụng DG “compound” xác định danh từ riêng đồng tham chiếu với “Compound” quan hệ văn phạm danh từ danh từ riêng Ngoài để phân lớp cho Obj, tác giả sử dụng phương pháp so trùng Object với lớp WordNet (G.A Miller )là sở tri thức phân cấp tiếng Anh sử dụng sở liệu từ vựng chứa 155.287 từ 117.659 tập đồng nghĩa 15 cho từ loại danh từ, động từ, tính từ danh từ Tất tập đồng nghĩa có quan hệ ngữ nghĩa Classify Aspect mơ-đun phân lớp khía cạnh, sử dụng độ đo tương tự ngữ nghĩa từ (Semantic Similarity between Words - SSW) WordNet Cơng thức tính SSW áp dụng theo công thức (4.1) 𝑠(𝑤1 , 𝑤2 ) = 𝑒 −𝛼𝑙 ∙ 𝑒 𝛽ℎ −𝑒 −𝛽ℎ 𝑒 𝛽ℎ +𝑒 −𝛽ℎ (4.1) Hình 4.1 Mơ hình đề xuất ESO làm giàu ontology cảm xúc Giá trị của   phụ thuộc vào sở tri thức sử dụng Trong công thức (4.1), l độ dài đường ngắn hai từ w1 w2, h độ sâu của lớp mạng ngữ nghĩa phân cấp từ gần nghĩa chung của w1 w2 (subsumer) Classify Sentiment, phân lớp cảm xúc sử dụng từ vựng cảm xúc Opinion Lexical (H Minqing L Bing) để phân lớp từ loại tính từ, trạng từ động từ vào ba lớp positive, negative neutral 16 Determining Relation, xác định mối quan hệ thành phần Obj-Asp Aso-Sen Luận án sử dụng quan hệ văn phạm phụ thuộc có tác động lên từ loại NN, NNP, VERB, ADJ ADV để áp dụng kết phân lớp cảm xúc, phân lớp khía cạnh phân giải đồng tham chiếu 4.4 Thực nghiệm đánh giá Mơ hình ESO thực nghiệm tập liệu thu thập từ YouNetMedia.com Với 614 câu có ý kiến nhận xét smartphone, luận án thu từ, cụm từ cho lớp Obj, Asp Sen tương ứng 106, 250 167 từ Đối với lớp Obj, độ xác đạt 89%, lớp Asp đạt 72% lớp Sen đạt 83% Kết phản ánh thực tế khía cạnh thường danh từ động từ xuất với tần suất khơng nhỏ ESO cịn phụ thuộc vào WordNet Opinion Lexical, hạn chế của mơ hình 4.5 Kết luận Với đặc thù riêng cấu trúc của SO hỗ trợ toán phân giải đồng tham chiếu cho phân tích cảm xúc nên lớp khái niệm có tiếp cận khác để làm giàu thể cho lớp Cụ thể, lớp đối tượng sử dụng văn phạm phụ thuộc, lớp khía cạnh sử dụng sở tri thức WordNet lớp cảm xúc dựa từ vựng cảm xúc CHƯƠNG PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CĨ NHIỀU ĐỚI TƯỢNG 5.1 Đặt vấn đề Trong văn có nhiều quan điểm, cảm xúc đề cập đến nhiều khía cạnh của đối tượng khác làm cho toán phân giải đồng tham chiếu cho cảm xúc trở nên phức tạp Với toán phân giải đồng tham chiếu đối tượng xác định ba đối tượng - khía cạnh - cảm xúc văn có nhiều đối tượng, luận án kết hợp sở tri thức với học máy, học sâu, văn phạm phụ thuộc đồ thị đồng tham chiếu để giải 17 5.2 Mơ hình phân giải đồng tham chiếu cho phân tích cảm xúc có nhiều đối tượng – CROAS Mơ hình CROAS gồm hai giai đoạn huấn luyện thử nghiệm, trình bày Hình 5.1 5.2.1 Giai đoạn huấn luyện Giai đoạn sử dụng kho ngữ liệu văn Corpus12 để tiền huấn luyện (Pre-training) Corpus1, SO để huấn luyện (Training) Kho ngữ liệu Corpus12 bao gồm văn đề cập đến đối tượng (Corpus1) văn đề cập từ hai đối tượng trở lên (Corpus2) Từ kho ngữ liệu ban đầu Corpus12, giai đoạn sử dụng mơ hình BERT sinh trọng số W1 biểu diễn véc-tơ có ngữ cảnh Mơ-đun huấn luyện học Corpus1 để xác định Hình 5.1 Kiến trúc của mơ hình CROAS trọng số W2 dùng để phân lớp đối tượng cho từ khía cạnh cảm xúc mà chúng tham chiếu đến Hình 5.2 trình bày cấu trúc mơ-đun huấn luyện, bao gồm ba mô-đun con: nhúng từ (Embedding Word –EW), tạo liệu huấn luyện (Creating Data) huấn luyện (Learning) Trong mô-đun Creating Data lọc cặp liệu Asp-Obj Sen-Obj dựa SO văn phạm phụ thuộc Tiếp theo mô-đun Learning huấn luyện theo giải thuật 5.1 18 Hình 5.2 Mơ đun Training của mơ hình CROAS Các biến sau sử dụng giải thuật 5.1 - E hàm mát y 𝑦̂ - dW2 giá trị cần cập nhật cho W2 - db giá trị cần cập nhật cho độ lệch b - W2 cập nhật thông qua hệ số học η dW2 Giải thuật 5.1 Huấn luyện mô-đun Training Input: Example(x, y) Output: Weight W2 1: InitialRandom(W2) 2: for i = to steps 3: 𝑦̂ = FeedForward(W2, x) 4: E = CalcLoss(𝑦̂, y) 5: dW2 = Calc_dW2(E, x) 6: db = CalcBias(E) 7: W2 = UpdateWeight(η, dW2) 8: b = UpdateBias(η, db) 9: end for Q trình xác định W2 hồn thành kết thúc giai đoạn huấn luyện 5.2.2 Giai đoạn thử nghiệm Trong mô-đun Classifying (giải thuật 5.2), BERT sử dụng để chuyển đổi từ Document sang véc-tơ số thực có ngữ cảnh, ký hiệu Vs Khi 19 đó, SO lọc véc-tơ của từ đối tượng, khía cạnh cảm xúc theo phạm vi miền liệu (chuyên biệt) Giải thuật 5.2 Mô-đun Classifying Input: Document D, SO, W1, W2 Output: Pairs of Object-Aspect, Object-Sentiment P 1: Vs = EmbeddingWord(D, W1) 2: x, y = FiltingVector(Vs, SO) 3: 𝑦̂ = FeedForward(x, W2) 4: for i = to size(𝑦̂) 5: j = MinDistance(𝑦̂i, y) 6: P.addPair(xi , yj) 7: end for Giải thuật 5.2 mô tả bước thực thi của Classifying với đầu vào x véctơ khía cạnh cảm xúc, đầu y véc-tơ đối tượng Document Để xác định khía cạnh cảm xúc thuộc đối tượng nào, thuật toán sử dụng khoảng cách Euclidean để tính khoảng cách giá trị dự đoán y ̂ với véc-tơ y Khi khía cạnh cảm xúc phân lớp cho đối tượng có khoảng cách Euclidean nhỏ Đầu của giải thuật 5.2 cặp P: đối tượng- khía cạnh đối tượng-cảm xúc Các cặp P đưa vào đồ thị CRG mô-đun Coreference Resolution (hình 5.5) thu ba đối tượng, khía cạnh cảm xúc Q trình thực của mơ-đun trình bày giải thuật 5.3 (mơ-đun Coreference Resolution) Kết từ giải thuật 5.2 xây dựng đồ thị CRG ban đầu với đỉnh từ P phương thức AddVertices Khi cạnh tạo đỉnh nhờ mối quan hệ văn phạm phụ thuộc phương thức AddEdges Các quan hệ của văn phạm phụ thuộc giúp nâng cao độ xác của mơ hình CROAS Bước tiếp theo, trọng số của đồ thị cập nhật dựa vào SO Trọng số của cạnh tạo hai đỉnh đồng tham chiếu thực thể (ví dụ: Apple iPhone7 iPhone7) Trọng số hai đỉnh thuộc cặp đối tượng, khía cạnh (iPhone7, battery) khía cạnh, cảm xúc (battery, amazing) Trọng số hai đỉnh thuộc cặp đối tượng, cảm xúc 20 (iPhone7, beautiful).amazing) Trọng số hai đỉnh thuộc cặp đối tượng, cảm xúc beautiful) Resolution Giải thuật 5.3 (iPhone7, Mô-đun Coreference Input: Pairs of Object-Aspect, Object-Sentiment P; Pairs of dependency grammar DG; Sentiment ontology SO Output: Triplets of Object, Aspect, and Sentiment 1: Initializing CRG(v1,v2) 2: AddVertices(P, CRG) 3: AddEdges(DG, CRG) 4: DG.v2 = true 5: if P.v2 != true then 6: AddEdges(P, CRG) 7: end if 8: UpdateWeight(CRG, SO) 9: if weight(v.Obj, vi) = then 10: asp = SO.Asp(vi) 11: addEdge(v.Obj, asp) 12: addEdge(asp, vi) 13: end if Để có đầu cuối ba, cạnh có trọng số thay hai cạnh có chung đỉnh đỉnh khía cạnh ẩn tương ứng với đỉnh cảm xúc cạnh Đỉnh chung xác định hai phương pháp sử dụng SO sử dụng IAI để tìm khía cạnh ẩn Xét lại ví dụ 1.1: “I gave my 6s plus to my wife and bought for myself an Apple iPhone7 two days ago iPhone7 is beautiful The battery is amazing But what I really appreciate is the speaker producing good sound and its 128g storage.” Kết thử nghiệm ví dụ 1.1 kết cuối thể đồ thị CRG Hình 5.3 Từ Hình 5.3, ta có bốn ba: (1) iPhone7, sound, good; (2) iPhone7, speaker, appreciate; (3) iPhone7, battery, amazing; (4) iPhone7, design, beautiful Đây kết cuối của toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng 21 Hình 5.3 CRG của ví dụ 1.1 5.2.3 Thực nghiệm đánh giá Tập liệu và cài đặt tham số: Miền liệu của Corpus12, Corpus1 Document văn cảm xúc điện thoại thông minh thu thập từ trang web Amazon (https://www.amazon.com/, http://snap.stanford.edu/data/) http://www.younetmedia.com) Corpus12 với 389.103 văn bản, tương đương với 3.203.008 mẫu liệu huấn luyện mơ hình BERTLARGE (24 tầng, số nút ẩn 1.024 16 selfattention heads) với 300.000 500.000 bước Corpus1 với 74,3MB (9.456 mẫu) Để đánh giá hiệu của mơ hình, luận án sử dụng Document có 1.000 văn cảm xúc Phần cứng và phần mềm: Mơ hình CROAS phát triển môi trường Colab.Google với GPU 8-core TPU Mô-đun Pre-training Training sử dụng siêu tham số: batch size, số bước huấn luyện, hệ số học số bước epoch trình bày Bảng 5.1 Bảng 5.1 Các thông số cài đặt của Pre-training Training Pre-training Số bước lặp Training 300.000 500.000 500.000 32 32 16 5e-5 5e-5 1,0 Số bước/epoch 100.094 100.094 591 Thời gian thực thi 3,9 ngày 6,5 ngày 5,2 ngày (với TPU) (với TPU) (với GPU) Kích thước Batch Hệ số học 22 Kết đánh giá: Bảng 5.2 trình bày kết qủa độ xác độ truy hồi của mơ hình CROAS Trong CROAS* CROAS** tương ứng với CROAS có sử dụng SO IAI để xác định khía cạnh ẩn Bảng 5.2 Kết đánh giá CROAS 1.000 văn bình luận smartphone Số bước huấn luyện Pre-training 300.000 500.000 Mơ hình Độ xác Độ truy hồi (%) (%) CROAS* 77,00 75,04 ** 81,74 79,66 * CROAS 88,00 85,76 CROAS** 90,64 88,33 CROAS Bảng 5.2 cho thấy, tăng số bước tiền huấn luyện lên 500.000 CROAS** có độ xác đạt 90,64% độ truy hồi 88,33% cao CROAS* so với 300.000 bước tiền huấn luyện Bảng 5.3 so sánh kết thực nghiệm của CROAS với hai cơng trình Baseline dựa cặp đồng tham chiếu đối tượng, khía cạnh Kết OA1 (với 300.000 bước tiền huấn luyện) OA2 (500.000 bước) tốt so với Baseline1 (X Ding, B Liu) Baseline2 (Y Zhao cộng sự) Bảng 5.3 So sánh kết thực nghiệm của CROAS hai cơng trình Baseline Phương pháp 5.3 Độ xác (%) Độ truy hồi (%) Baseline1 69,80 74,23 Baseline2 77,96 76,16 OA1 79,00 77,02 OA2 89,10 86,87 Kết luận Mơ hình CROAS kết hợp máy học véc-tơ có ngữ cảnh với SO, CRG văn phạm phụ thuộc đạt hiệu tốt Ngoài kết hợp IAI CROAS, kết cao so với SO Tuy nhiên, CROAS chưa hiệu văn có chứa chuỗi so sánh (more … than …) 23 CHƯƠNG KẾT LUẬN Kết nghiên cứu phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc giải bốn toán của luận án: xác định khía cạnh ẩn, làm giàu ontology cảm xúc, phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có đối tượng nhiều đối tượng Về mặt thực tiễn, luận án ứng dụng thực tế gần với nhu cầu thực tiễn của người dùng Về ý nghĩa khoa học, luận án khai thác giải thuật của xử lý ngôn ngữ tự nhiên; khai thác tiếp cận học máy, học sâu xử lý ngôn ngữ tự nhiên; khai thác ngữ cảnh của từ ngữ câu, văn bản; có đề xuất phương pháp luận cho bốn tốn cụ thể với đóng góp sau 6.1 Các đóng góp luận án • Đóng góp thứ nhất: Xây dựng ontology cảm xúc đồ thị đồng tham chiếu CRG hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc • Đóng góp thứ hai: Mơ hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn có đối tượng • Đóng góp thứ ba: Đề xuất mơ hình làm giàu ontology cảm xúc • Đóng góp thứ tư: Xây dựng mơ hình xác định khía cạnh ẩn • Đóng góp thứ năm: Xây dựng mơ hình phân giải đồng tham chiếu đối tượng cho văn cảm xúc có nhiều đối tượng 6.2 Hướng phát triển Mặc dù đạt kết tốt đánh giá thực nghiệm, luận án số vấn đề nhỏ cần quan tâm phát triển tương lai Vấn đề 1: Phát triển làm giàu ontology cảm xúc phương pháp tự động nhu cầu cần thiết Vấn đề 2: Phát triển mơ hình CROAS để khắc phục vấn đề phụ thuộc bước tiền huấn luyện Vấn đề 3: Phát triển mơ hình của luận án văn cảm xúc tiếng Việt có ý nghĩa khoa học thực tiễn cao lĩnh vực NLP Việt Nam 24 ... (0,71) cho thấy kết tốt nhiều 3.2 Mơ hình phân giải đồng tham chiếu cho phân tích cảm xúc có đối tượng Mơ hình phân giải đồng tham chiếu đối tượng cho văn cảm xúc có đối tượng xác định đồng tham chiếu. .. phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc giải bốn toán của luận án: xác định khía cạnh ẩn, làm giàu ontology cảm xúc, phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc. .. của đối tượng khác làm cho toán phân giải đồng tham chiếu cho cảm xúc trở nên phức tạp Với toán phân giải đồng tham chiếu đối tượng xác định ba đối tượng - khía cạnh - cảm xúc văn có nhiều đối tượng,

Ngày đăng: 29/10/2022, 01:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w