Xây dựng và đánh giá hiệu suất chương trình phân tích cảm xúc tiếng việt kết hợp khía cạnh bằng vietnamese treebank

58 31 0
Xây dựng và đánh giá hiệu suất chương trình phân tích cảm xúc tiếng việt kết hợp khía cạnh bằng vietnamese treebank

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VÕ HUY HOÀNG XÂY DỰNG VÀ ĐÁNH GIÁ HIỆU SUẤT CHƯƠNG TRÌNH PHÂN TÍCH CẢM XÚC TIẾNG VIỆT KẾT HỢP KHÍA CẠNH BẰNG VIETNAMESE TREEBANK Ngành : KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, tháng 11 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG –HCM Cán hướng dẫn khoa học : PGS.TS QUẢN THÀNH THƠ Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KTMT ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN VÕ HUY HOÀNG MSHV: 1570737 Ngày, tháng, năm sinh: 12/04/1989 Nơi sinh: An Giang Ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01.01 I TÊN ĐỀ TÀI: XÂY DỰNG VÀ ĐÁNH GIÁ HIỆU SUẤT CHƯƠNG TRÌNH PHÂN TÍCH CẢM XÚC TIẾNG VIỆT KẾT HỢP KHÍA CẠNH BẰNG VIETNAMESE TREEBANK II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng đánh giá hiệu suất chương trình phân tích cảm xúc tiếng Việt kết hợp khía cạnh Vietnamese Treebank, câu phân tích nhận xét người dùng thiết bị công nghệ III NGÀY GIAO NHIỆM VỤ : 10/07/2017 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 03/12/2017 V CÁN BỘ HƯỚNG DẪN: PGS.TS QUẢN THÀNH THƠ Tp HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT (Họ tên chữ ký) (Họ tên chữ ký) i Lời cám ơn Xin gửi lời cảm ơn đến thầy Quản Thành Thơ hướng dẫn hỗ trợ để tơi hồn thành tốt đề tài Ngồi ra, tơi xin cảm ơn bạn Lại Hoàng Nam hỗ trợ tích cực việc xây dựng Vietnamese Parser kiểm tra chỉnh sửa liệu! ii Tóm tắt luận văn thạc sĩ * Nội dung Tiếng Việt Xây dựng đánh giá hiệu suất chương trình phân tích cảm xúc tiếng Việt Vietnamese Treebank kết hợp khía cạnh câu nhận xét người dùng thiết bị công nghệ * Nội dung Tiếng Anh Aspect sentiment analysis using recursive neural tensor network on Vietnamese treebank iii Lời cam đoan tác giả luận văn Tôi xin cam đoan Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS QUẢN THÀNH THƠ Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian địa điểm cơng bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm iv MỤC LỤC DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii CHƯƠNG MỞ ĐẦU 1 Giới thiệu đề tài Mục tiêu, giới hạn đối tượng nghiên cứu Phương pháp nghiên cứu Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT Định nghĩa vấn đề Recursive Neural Network (RNN) Matrix-Vector RNN (MV-RNN) .5 Recursive Neural Tensor Network (RNTN) 5 Hàm mục tiêu 6 Giải thuật huấn luyện mơ hình RNTN CoreNLP 6.1 Tiền điều kiện giá trị ban đầu 6.2 Hàm (main): .8 6.3 Hàm tính đạo hàm câu batch .11 6.4 Hàm tính cảm xúc câu vector đại diện cho 12 6.5 Hàm tính đạo hàm lỗi nút câu .14 Mơ hình phân tích cảm xúc CoreNLP 16 CHƯƠNG PHƯƠNG PHÁP HIỆN THỰC 17 Tiền xử lý .17 1.1 Dữ liệu huấn luyện dành cho phân tích cú pháp 18 1.2 Dữ liệu huấn luyện dành cho phân tích cảm xúc 18 Tích hợp vnTokenizer vào CoreNLP .20 v Tích hợp vnTagger để gán POS cho tiếng Việt vào CoreNLP 21 Tích hợp Syntactic Parsing cho tiếng Việt vào CoreNLP .21 4.1 VietnameseHeadFinder 22 4.2 VietnamesePennTreebankLanguagePack 24 4.3 VietnameseTreebankParserParams 25 4.4 EvaluateTreebank 25 Tích hợp phân tích cảm xúc cho tiếng Việt vào CoreNLP 25 5.1 Đề xuất sở liệu cho Vietnamese Sentiment Treebank 26 5.2 Đề xuất bước để tiến hành xây dựng Vietnamese Sentiment Treebank 29 5.3 Giải thuật để gán nhãn cảm xúc tự động 30 5.4 Giải thuật huấn luyện với khía cạnh 32 CHƯƠNG THỰC NGHIỆM 34 Dataset 34 Kết 36 2.1 Kết huấn luyện phân tích cú pháp 36 2.2 Kết huấn luyện mơ hình cảm xúc RNTN 37 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 39 Kết đạt hạn chế 39 Hướng phát triển .40 CÁC TÀI LIỆU THAM KHẢO 41 PHỤ LỤC: Hướng dẫn cài đặt 42 Chương trình 42 1.1 Mã nguồn 42 1.2 Môi trường 42 1.3 Tiến hành cài đặt 42 1.4 Hướng dẫn chạy huấn luyện parser 45 vi 1.5 Hướng dẫn chạy huấn luyện cảm xúc 45 Công cụ hỗ trợ .45 2.1 Giao diện website 45 2.2 Treeviewer 46 2.3 Tiện ích khác 46 vii DANH MỤC CÁC BẢNG Bảng 2.1 – Một số tham số quan trọng giải thuật huấn luyện cảm xúc CoreNLP Bảng 3.1 – Các bước làm để chuẩn hóa liệu huấn luyện cho phân tích cú pháp Bảng 3.2 – Các luật tìm thành phần cho tiếng Việt Bảng 3.3 – Thông tin cột bảng products Bảng 3.4 – Thông tin cột bảng reviews Bảng 3.5 – Thông tin cột bảng accessory Bảng 3.6 – Thông tin cột bảng words Bảng 4.1 – Thống kê liệu huấn luyện Vietnamese Treebank Bảng 4.2 – Bảng thống kê chi tiết Vietnamese Sentiment Treebank Bảng 4.3 – Bảng tổng hợp kết chi tiết kết huấn luyện phân tích cú pháp Bảng 4.4 – Bảng thống kê kết huấn luyện độc lập (khơng có khía cạnh) với số chiều khác Bảng 4.5 – Bảng thống kê kết huấn luyện kết hợp khía cạnh với số chiều khác ... TÀI: XÂY DỰNG VÀ ĐÁNH GIÁ HIỆU SUẤT CHƯƠNG TRÌNH PHÂN TÍCH CẢM XÚC TIẾNG VIỆT KẾT HỢP KHÍA CẠNH BẰNG VIETNAMESE TREEBANK II NHIỆM VỤ VÀ NỘI DUNG: Xây dựng đánh giá hiệu suất chương trình phân tích. .. Nội dung Tiếng Việt Xây dựng đánh giá hiệu suất chương trình phân tích cảm xúc tiếng Việt Vietnamese Treebank kết hợp khía cạnh câu nhận xét người dùng thiết bị công nghệ * Nội dung Tiếng Anh... đầu khả quan, 80% xác định khía cạnh 75% cho cảm xúc khía cạnh câu có nhiều khía cạnh cảm xúc Mặt khác, tiếng Việt, việc phân tích cảm xúc khía cạnh sản phẩm chủ yếu dựa vào luật Với cách làm có

Ngày đăng: 26/01/2021, 06:48

Tài liệu cùng người dùng

Tài liệu liên quan