Tóm tắt Luận án Tiến sĩ: Nghiên cứu học máy thống kê cho phân tích quan điểm

30 13 0
Tóm tắt Luận án Tiến sĩ: Nghiên cứu học máy thống kê cho phân tích quan điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục tiêu của luận án ”Nghiên cứu học máy thống kê cho phân tích quan điểm” tập trung vào nhiệm vụ ”Đề xuất các phương pháp cho phân loại khách quan và phân loại quan điểm theo khía cạnh”. Phương pháp tiếp cận của luận án là xây dựng các mẫu để trích chọn các thông tin ngữ pháp hữu ích cho các mô hình học phân loại.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Xuân Hương NGHIÊN CỨU HỌC MÁY THỐNG KÊ CHO PHÂN TÍCH QUAN ĐIỂM TĨM TẮT LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN Hà Nội - 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Xuân Hương NGHIÊN CỨU HỌC MÁY THỐNG KÊ CHO PHÂN TÍCH QUAN ĐIỂM Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SỸ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Lê Anh Cường PGS.TS Nguyễn Lê Minh Hà Nội - 2018 Mục lục GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Các kết luận án 1.3 Bố cục luận án 1 2 TỔNG QUAN 2.1 Phân tích quan điểm 2.1.1 Phân tích tình cảm (Sentiment Analysis) hay khai thác quan điểm (Opinion Mining) 2.2 Phát biểu toán 2.2.1 Bài tốn phân tích quan điểm 2.2.2 Phân loại tính chủ quan (Subjectivity Classification 2.2.3 Phân loại quan điểm (Setiment classification) 2.2.4 Phân loại quan điểm theo khía cạnh (Aspect based sentiment classification) 2.2.5 Đặc trưng cho tốn phân tích quan điểm 2.2.6 Các miền liệu liệu Microblog 2.3 Các thảo luận mục tiêu nghiên cứu đề tài 2.3.1 Bài tốn Phân loại tính chủ quan 2.3.2 Bài toán phân loại quan điểm theo khía cạnh 2.3.3 Phân tích quan điểm tiếng Việt liệu dạng Microblog 3 3 3 4 5 5 6 9 10 11 12 12 ĐIỂM THEO KHÍA CẠNH 13 13 13 14 PHÂN LOẠI TÍNH CHỦ QUAN 3.1 Giới thiệu 3.2 Phương pháp đề xuất sử dụng đặc trưng ngôn ngữ cho phân lớp khách quan 3.2.1 Trích đặc trưng 3.2.2 Thực nghiệm đánh giá 3.3 Phương pháp đề xuất học tự động mẫu cho toán xác định câu chủ quan tiếng Việt 3.3.1 Dữ liệu huấn luyện 3.3.2 Định nghĩa khuôn dạng 3.3.3 Trích xuất đánh giá mẫu 3.3.4 Kết thực nghiệm thảo luận 3.3.5 Đánh giá mẫu học 3.3.6 Kết luận PHÂN TÍCH QUAN 4.1 Giới thiệu 4.2 Mô tả tốn 4.3 Mơ hình đề xuất i 4.3.1 Mơ hình CNN hai pha cho phân tích quan điểm theo khía cạnh (A two-phase CNN model for Aspect based Sentiment Analysis) 4.3.2 Mơ hình CNN với đặc trưng (The CNN Model with External Features) Thực nghiệm 4.4.1 Dữ liệu 4.4.2 Tiền xử lý liệu 4.4.3 Các mơ hình kết 4.4.4 Các kết Kết luận 14 16 16 16 16 17 17 17 PHÂN TÍCH QUAN ĐIỂM TIẾNG VIỆT 5.1 Giới thiệu 5.2 Phương pháp kiểm tra tả cho liệu MicroBlogs sử dụng n-gram lớn 5.2.1 Một số lỗi tả thường gặp 5.2.2 Mơ hình kiểm tra tả đề xuất 5.2.3 Tiền xử lý liệu 5.2.4 Thuật tốn kiểm tra tả mở rộng ngữ cảnh hai bên 5.2.5 Mơ hình N-gram lớn nén N-gram 5.2.6 Thực nghiệm 5.3 Phương pháp tách từ cho liệu Micro-blogs tiếng Việt 5.3.1 Tiếp cận cho toán tách từ liệu Micro-blogs 5.3.2 Hệ thống tách từ có sử dụng kiểm tra tả (Adaption to word segmentation by spell-checking system) 5.3.3 Các thực nghiệm 5.4 Kết luận 18 18 18 18 18 19 19 20 20 22 22 Danh mục công trình khoa học 26 4.4 4.5 ii 23 23 24 Chương GIỚI THIỆU 1.1 Đặt vấn đề Phân tích quan điểm người dùng lĩnh vực thu hút quan tâm cộng đồng nhà nghiên cứu nhà phát triển ứng dụng công nghiệp Trong năm gần đây, phát bùng nổ lượng liệu đánh giá người dùng trang mạng xã hội, diễn đàn, trang đánh giá sản phẩm, việc phát triển phương pháp công cụ nhằm phân tích rút trích quan điểm giúp hiểu xu người bình luận hay đánh giá thực thể mục tiêu Kết nghiên cứu hữu ích cho cá nhân doanh nghiệp họ cần tham khảo thông tin đánh giá thực thể mục tiêu mà họ quan tâm Đã có nhiều tiếp cận nghiên cứu khác đề xuất cho nhiệm vụ phân tích quan điểm Các tiếp cận thường dựa việc trích chọn đặc trưng thể quan điểm, nhận xét, đánh giá, tình cảm hay cảm xúc người dùng thực thể đánh giá cho toán mục tiêu Trong luận án này, chúng tơi tập trung nghiên cứu việc trích chọn đặc trưng ngữ pháp hữu ích cho số nhiệm vụ tốn phân tích quan điểm với hai loại liệu tiếng Anh tiếng Việt Bài tốn thứ chúng tơi đề cập phân loại chủ quan Đây toán quan trọng phân tích quan điểm nhằm phân loại câu hay tài liệu chủ quan chứa quan điểm câu hay tài liệu khách quan không chứa quan điểm Đối với tốn này, chúng tơi đề xuất hai phương pháp, trích đặc trưng ngơn ngữ dựa mẫu cú pháp cho liệu tiếng Anh, hai đề xuất phương pháp học tự động dựa theo thống kê mẫu ngữ pháp để phân loại câu chủ quan tiếng Việt Bài toán thứ hai phân loại quan điểm theo khía cạnh với tài liệu chứa quan điểm Chúng tơi đề xuất mơ hình tích hợp đặc trưng giàu thơng tin bên ngồi vào mơ hình mạng nơ ron tích chập để tăng hệu suất thực cho mơ hình Trong q trình phát triển phương pháp phân tích quan điểm đối tượng liệu tiếng Việt, nhận thấy liệu bình luận tiếng Việt diễn đàn thường câu ngắn viết không theo chuẩn ngữ pháp, ngồi cịn chứa nhiều lỗi từ viết tắt hay ngôn ngữ ký hiệu riêng giới trẻ Loại liệu gọi liệu dạng Microblog Một số phương pháp tiền xử lý liệu tiếng Việt hầu hết phát triển cho liệu thống, nên áp dụng cho liệu dạng Microblog khơng hiệu Do đó, để xử lý liệu phục vụ cho bào toán nghiên cứu, chứng đề xuất phương pháp kiểm tra tả cho liệu Microbog tieensg Việt sử dụng n-ram huấn luyện từ kho ngữ liệu lớn Chúng tơi đề xuất mơ hình sử dụng hệ thống kiểm tra từ viết tắt kiểm tra tả tách từ tiếng Việt để phù hợp với liệu dạng Microblog Mục tiêu luận án ”Nghiên cứu học máy thống kê cho phân tích quan điểm” tập trung vào nhiệm vụ ”Đề xuất phương pháp cho phân loại khách quan phân loại quan điểm theo khía cạnh” Phương pháp tiếp cận luận án xây dựng mẫu để trích chọn thơng tin ngữ pháp hữu ích cho mơ hình học phân loại Đối tượng nghiên cứu luận án liệu bình luận tiếng Anh tiếng Việt Trong trình xây dựng ngữ liệu bình luận tiếng Việt, thực nghiên cứu nhàm cải thiện chất lượng liệu bình luận dạng Microblog với hai đề xuất xây dựng mơ hình kiểm tra tả tách từ thích ứng với liệu Microblog 1.2 Các kết luận án Các kết nghiên cứu luận án góp phần bổ sung hoàn thiện cho phương pháp phân tích quan điểm Cụ thể, luận án có số đóng góp sau: — Đề xuất số phương pháp xác định văn chứa quan điểm Chúng đề xuất phương pháp phân loại câu khách quan câu chủ quan cho liệu tiếng Anh công bố kỷ yếu hội nghị IALP năm 2012 Chúng đề xuất phương pháp thống kê tự động trích mẫu cho phân loại chủ quan tiếng Việt Đóng góp cơng bố kỷ yếu hội thảo quốc tế Knowledge and Systems Engineering (KSE) năm 2014 — Đề xuất phương pháp thêm đặc trưng cho mạng nơ ron phân tích quan điểm theo khía cạnh Đóng góp công bố kỷ yếu hội thảo quốc tế NAFOSTED Conference on Information and Computer Science (NICS) năm 2018 — Đề xuất số phương pháp để tiền xử lý cho liệu Microblog tiếng Việt Chúng đề xuất hai phương pháp: Phương pháp thứ dùng để kiểm tra tả cho liệu tiếng Việt Đóng góp công bố kỷ yếu hội thảo quốc tế Knowledge and Systems Engineering (KSE) năm 2014 Phương pháp thứ hai dùng để tách từ cho liệu Microblog tiếng Việt công bố kỷ yếu hội thảo quốc tế Asian Conference on Information Systems (ACIS) năm 2014 1.3 Bố cục luận án Ngoài phần mở đầu kết luận, luận án tổ chức thành chương, với bố cục sau: Chương 1: Giới thiệu Chương 2: Tổng quan Trong chương này, chúng tơi trình bày tổng quan vấn đề nghiên cứu luận án Chúng tơi phân tích, đánh giá cơng trình nghiên cứu liên quan; nêu số vấn đề tồn mà luận án tập trung giải quyết; xác định nội dung nghiên cứu luận án Chương 3: Phân loại khách quan Chúng tơi trình bày nội dung, kết nghiên cứu cho nhiệm vụ xác định văn chứa quan điểm Chương 4: Phân tích quan điểm theo khía cạnh Trong đó, chúng tơi trình bày nội dung, kết nghiên cứu phân tích quan điểm theo khía cạnh Chương 5: Phân tích phân tích quan điểm tiếng Việt dạng nhật ký trực tuyến ngắn (Microblog) Chúng tơi trình bày nội dung, kết nghiên cứu cho số bước chuẩn hóa liệu Microblog tiếng Viêt Kết luận Chúng tơi trình bày nhận xét kết luận kết thực luận án hướng nghiên cứu Chương TỔNG QUAN 2.1 2.1.1 Phân tích quan điểm Phân tích tình cảm (Sentiment Analysis) hay khai thác quan điểm (Opinion Mining) Phân tích tình cảm (Sentiment Analysis - SA) hay khai thác quan điểm (Opinion Mining - OM) lĩnh vực nghiên cứu phân tích quan điểm, tình cảm, đánh giá, thái độ cảm xúc người cho thực thể thuộc tính chúng thể văn Các thực thể sản phẩm, dịch vụ, tổ chức, cá nhân, kiện, vấn đề chủ đề Một số tên gọi khác liên quan như, phân tích tình cảm(sentiment analysis), khai thác quan điểm opinion mining, phân tích quan điểm (opinion analysis), trích quan điểm (opinion extraction), khai thác tình cảm (sentiment mining), phân tích chủ quan (subjectivity analysis), phân tích khía cạnh (affect analysis), phân tích cảm xúc (emotion analysis), phân tích đánh giá (review mining) nằm phạm vi phân tích tình cảm Trong luận án này, sử dụng hai thuật ngữ cho tốn "Phân tích tình cảm"( Sentiment Analysis (SA)) hay "Phân tích quan điểm" (Opinion Analysis (OA)) 2.2 2.2.1 Phát biểu toán Bài toán phân tích quan điểm Đã có nhiều nhiệm vụ phân tích quan điểm nghiên cứu ứng dụng thực tế Có nhiều quan điểm khác việc phân chia nhiệm vụ phân tích quan điểm Tuy nhiên, chúng tơi đề cập đến loại tốn sau: Phân loại chủ quan - Subjectivity classification Phân loại quan điểm - Sentiment classification Phân loại quan điểm theo khía cạnh - Aspect-based Sentiment Classification Tóm tắt quan điểm - Opinion Summarization Phát quan điểm giả mạo hay lừa đảo - Detecting Fake or Deceptive Opinions 2.2.2 Phân loại tính chủ quan (Subjectivity Classification Phân loại tính chủ quan xác định câu/tài liệu chủ quan hay khách quan Phân loại tính chủ quan tốn quan trọng phân tích quan điểm Kết toán sử dụng đầu vào cho nhiều bước phân tích lĩnh vực 2.2.3 Phân loại quan điểm (Setiment classification) Phân loại quan điểm phân chia câu/tài liệu chứa quan điểm vào mức độ phân cực tích cực, tiêu cực hay trung lập (hay thứ hạng, 1*, 2*, 3*, 4*, 5*) Phân loại quan điểm mức tài liệu có số hạn chế tài liệu bình luận có nhiều đánh giá nhiều thực thể định hướng quan điểm thực thể khác khác Người đưa đánh giá có ý kiến tích cực số thực thể tiêu cực người khác Trong trường hợp này, nhiệm vụ phân loại quan điểm mức tài liệu trở nên có ý nghĩa khơng phù hợp để gán quan điểm cho tồn tài liệu Do đó, phân loại quan điểm mức tài liệu phân loại thô cho ứng dụng thực tế Để làm mịn hơn, ta phân loại quan điểm mức câu từ giúp trích xuất khía cạnh thể quan điểm làm mịn dần tiếp cận mức khía cạnh Phân loại quan điểm mức câu giống phân loại cấp tài liệu câu coi văn ngắn 2.2.4 Phân loại quan điểm theo khía cạnh (Aspect based sentiment classification) Phân loại quan điểm khía cạnh gồm hai nhiệm vụ chính: trích khía cạnh (Aspect extraction) phân loại quan điểm với khía cạnh trích (Aspect sentiment classification) Trích khía cạnh: nhiệm vụ trích khía cạnh thực thể đánh giá Phân loại quan điểm theo khía cạnh: nhiệm vụ xác định quan điểm khía cạnh trích tích cực, tiêu cực hay trung lập 2.2.5 Đặc trưng cho tốn phân tích quan điểm Một số đặc trưng sử dụng tốn phân tích quan điểm: 1.Tần suất xuất - Term presence and Frequency Mơ hình ngơn ngữ - n-gram Thông tin nhãn từ loại - Parts of Speech Thơng tin phân tích cú pháp - Syntax Passer Biểu diễn véc tơ từ - Word Embedding Véc tơ biểu diễn ký tự - Character Embedding 2.2.6 Các miền liệu liệu Microblog — Dữ liệu quan điểm miền liệu Có hai loại văn truyền thông xã hội: đăng độc lập đánh giá, nhận xét hay bình luận thực thể mục tiêu xác định đó, đối thoại trực tuyến có tính tương tác thường liên quan trao đổi tương tác hai nhiều người tham gia.Trong nghiên cứu chúng tôi, giới hạn xét đến tài liệu/câu quan điểm độc lập — Dữ liệu Microblog Các viết đánh giá trang mạng xã hội, diễn đàn, blog thường gồm câu ngắn, không theo chuẩn quy tắc ngữ pháp thông thường, có từ viết tắt hay sử dụng ký hiệu từ lóng cần thiết phải chuẩn hóa liệu trước thực phân tích quan điểm 2.3 Các thảo luận mục tiêu nghiên cứu đề tài Bằng công việc khảo cứu nhiệm vụ nghiên cứu với vấn đề nêu phân tích quan điểm, chúng tơi xác định số nhiệm vụ nghiên cứu cho đề tài sau: 2.3.1 Bài tốn Phân loại tính chủ quan Qua khảo cứu phân tích từ nghiên cứu trước đây, nhận thấy việc nâng cao hiệu suất nhiệm vụ Phân loại tính chủ quan cần thiết cho bước nghiên cứu phân tích quan điểm Do đó, chúng tơi nghiên cứu việc trích chọn thơng tin hữu ích giúp phân lớp câu khách quan hay chủ quan cho liệu tiếng Anh tiếng Việt Các nghiên cứu ứng dụng phân tích quan điểm tiếng Việt thu hút quan tâm cộng động vài năm gần Do đó, việc phát triển nghiên cứu cho tốn thực có ý nghĩa lĩnh vực nghiên cứu lẫn công nghiệp 2.3.2 Bài tốn phân loại quan điểm theo khía cạnh Phân loại quan điểm theo đặc trưng mức phân loại chi tiết cho phân loại quan điểm mức câu tài liệu Khi bình luận chứa nhiều đánh giá cho khía cạnh khác mục tiêu đánh giá, việc xác định tình cảm gắn với khía cạnh giúp cho việc tổng hợp tóm tát quan điểm trở lên dễ thực giúp cho người dùng có nhìn tổng quan nhận xét cho đối tượng họ quan tâm Các nghiên cứu áp dụng thuật toán sử dụng mạng nơ ron học sâu có nhiều kết hứa hẹn Do chúng tơi chọn nghiên cứu việc tích hợp đặc trưng giàu thông tin để làm tăng hiệu suất thực cho mơ hình 2.3.3 Phân tích quan điểm tiếng Việt liệu dạng Microblog Dữ liệu vấn đề then chốt việc xây dựng thuật tốn xử lý Đối với tốn phân tích quan điểm cho tiếng Việt, liệu người dùng bình luận, đánh thu thập từ từ trang mạng xã hội, diễn đàn, blog thường khơng chuẩn chứa nhiều lỗi tả viết tắt, gọi liệu kiểu Microblog Trong đó, cơng cụ có chủ yếu phát triển cho văn thống chưa xử lý hiệu cho việc chữa lỗi Kết việc sửa lỗi từ ảnh hưởng đến toán tách từ cho loại liệu Microblog Do đó, chúng tơi nhận thấy cần có bước thực hai nhiệm vụ kiểm tra tả tách từ để phù hợp cho liệu Microblog tiếng Việt Chương PHÂN LOẠI TÍNH CHỦ QUAN 3.1 Giới thiệu Trong chương này, chúng tơi trình bày nhiệm vụ phân loại chủ quan số phương pháp đề xuất chúng tơi cho tốn Chúng tơi đề xuất phương pháp xác định câu chủ quan dựa thơng tin trích từ mẫu ngữ pháp cho liệu tiếng Anh Chúng giới thiệu phương pháp thống kê để giúp hệ thống học mẫu cú pháp tự động đánh giá chúng từ liệu huấn luyện có gắn nhãn tiếng Việt 3.2 Phương pháp đề xuất sử dụng đặc trưng ngôn ngữ cho phân lớp khách quan Trong phần chúng tơi giới thiệu mơ hình phân loại khách quan sử dụng đặc trưng ngôn ngữ trích dựa mẫu xác định trước mô tả sau: — — — — — Bước 1: Tiền xử lý liệu Bước 2: Sử dụng cơng cụ phân tích cú pháp cho ngữ liệu ban đầu Bước 3: Trích đặc trưng dựa mẫu cú pháp Bước 4: Chuẩn bị liệu cho phương pháp phân loại Bước 5: Sử dụng phương pháp phân loại Maximum Entropy để phân loại ngữ liệu văn câu thành hai lớp, khách quan chủ quan Bảng 3.9: Các kết phân loại học mẫu kiểu ngưỡng tag-tag[+1] tag-tag[-1] tag-tag[+2] 0.5 0.6 0.7 0.8 0.9 82.81% 81.16% 75.47% 67.92% 50.03% 82.82% 79.54% 79.41% 50.03% 50.03% 83.29% 81.41% 80.56% 76.19% 71.32% tag-tag[-1] & tag[+1] 82.66% 81.46% 78.27% 76.17% 72.74% tag-tag[-2] 82.62% 81.67% 80.99% 76.81% 68.95% Bảng 3.10: Các kết phân loại học mẫu loại ngưỡng 0.5 0.6 0.7 0.8 0.9 3.3.5 wordtag[+1] 82.95% 82.77% 82.66% 82.82% 82.42% word-tag[1] 82.87% 83.06% 83.02% 83.21% 83.37% wordtag[+2] 82.69% 82.91% 82.91% 82.97% 83.06% word-tag[-1] & tag[+1] 82.89% 82.89% 82.96% 82.86% 82.82% word-tag[2] 82.76% 82.77% 82.57% 82.69% 82.71% Đánh giá mẫu học Chúng tơi phân tích hiệu tập đặc trưng: n-gram, từ cụm từ trích từ mẫu học Các kết đưa bảng 3.11 Bảng 3.11: Các kết phân lớp liệu đánh giá unigram bigram unigram + bigram words of patterns (type 1) words of patterns (type 2) words and phrases of patterns (type 1) words and phrases of patterns (type 2) words (type 1) + unigram + bigram words (type 2) + unigram + bigram 3.3.6 # Các đặc trưng 3894 3210 7104 2972 1655 4472 3062 9847 8421 SVM 82.29% 64.25% 82.54% 82.56% 82.68% 82.56% 82.68% 83.47% 84.03% Naive Bayes 79.28% 59.24% 79.67% 77.46% 68.27% 77.46% 68.27% 78.22% 76.72% Kết luận Chúng giới thiệu hai phương pháp cho phân tích chủ quan, phương pháp trích đặc trưng ngơn ngữ dựa vào mẫu cú pháp sử dụng phân loại MEM cho độ xác cao (92.1%) cho liệu đánh giá phim ảnh tiếng Anh Phương pháp thống kê thứ giới thiệu để làm giàu đặc trưng dựa mẫu từ loại cho phân lớp khách quan tiếng Việt phát triển dựa ý tưởng phương pháp thứ Sử dụng SVM NB để phân loại chủ quan, cách kết hợp unigram, Bigram từ trích xuất từ mẫu từ loại, hệ thống đạt độ xác 84,04 % với trường hợp tốt phân loại SVM Trong tương lai, mở rộng đặc trưng cách sử dụng nhãn từ loại khác khai thác thêm khuôn mẫu 12 Chương PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH 4.1 Giới thiệu Phân tích quan điểm theo khía cạnh có hai giai đoạn riêng biệt, phát khía cạnh phân loại quan điểm tương ứng với khía cạnh phát Trong công việc này, đề xuất mơ hình dựa CNN xây dựng để phân loại nhiều nhãn thiết kế cho hai nhiệm vụ: phát khía cạnh quan điểm gán với phân loại khía cạnh Mơ hình hai pha chúng tơi có đầu giai đoạn (để phát khía cạnh) sử dụng giai đoạn 2, sau mơ hình cuối giai đoạn tạo quan điểm gắn liền với khía cạnh tương ứng Chúng tơi đề xuất mơ hình CNN mở rộng nhằm tích hợp đặc trưng bên ngồi vào mơ hình CNN thơng thường Các đặc trưng bên phải từ nguồn giàu thông tin để bổ sung thêm thông tin cho mơ hình Chúng tơi sử dụng tiêu chí TF-IDF để chọn mẫu ngôn ngữ thông tin đặc trưng ngồi 4.2 Mơ tả tốn Example 4.1 Mơ tả tốn phân tích quan điểm theo khía cạnh Cho văn sau:: 10 < sentences > This place has got to be the best Japanese restaurant the New York area I had a great experience Food is great Service is top notch I have been going back again and again < sentences > Nhiệm vụ xác định đặc trưng đề cập văn quan điểm tương ứng gắn với đặc trưng Từ ví dụ trên, cần nhận nhận được: < sentiment > RESTAURANT - GENERAL: positive FOOD - QUALITY: positive SERVICE - GENERAL: positive Trong đó, RESTAURANT-GENERAL, FOOD-QUALITY and SERVICE-GENERAL khía cạnh, mức độ gán nhãn đánh giá tích cực (positive)(trong trường hợp 13 phân cực quan điểm gồm: positive, negative, and neutral) Nhiệm vụ chúng tơi xây dựng mơ hình thực nhiệm vụ cách sử dụng tập liệu huấn luyện, văn gắn nhãn với khía cạnh lớp quan điểm tương ứng Sau mơ hình hố chúng tơi cho tốn này: Giả sử, chúng tơi cần thực nhận xét/đánh giá đối tượng, định nghĩa tập sau: A tập khía cạnh đối tượng bao gồm s khía cạnh biểu diễn sau: A = {a1 , a2 , , as } C tập gồm k lớp mức độ phân cực quan điểm biểu diễn sau: C = {c1 , c2 , , ck } Một tập liệu huấn luyện D bao gồm N tài liệu biểu diễn sau: D = {d1 , d2 , , dN } Trong đó: tài liệu di bình luận đánh giá sản phẩm dịch vụ Lưu ý khía cạnh quan điểm chúng gán bên toàn văn di , Điều làm cho cơng việc trở nên khó khăn (so với trường hợp đặc trưng quan điểm chúng gán cho câu) Ví dụ sau mẫu cho tài liệu gán nhãn từ Task - subtask 2, SemEval 2016 < sentences > $ d_ $ < sentences > < sentiment > $ a_ $ : $ c_ $ Nhiệm vụ cần thực làm tạo mơ hình từ tập liệu huấn luyện, giúp sinh ra đặc trưng lớp quan điểm tương ứng từ tài liệu đầu vào 4.3 4.3.1 Mô hình đề xuất Mơ hình CNN hai pha cho phân tích quan điểm theo khía cạnh (A two-phase CNN model for Aspect based Sentiment Analysis) Hình 4.1: Mơ hình CNN cho phân tích quan điểm theo khía cạnh 14 Một mạng nơ-ron tích chập (CNN) bao gồm tầng co giãn tầng gộp Kiến trúc chung thành phần tích chập thể hình 4.1 Giả sử cho câu vào có chứa danh sách từ e1 , e2 , , en , cách sử dụng công cụ Word2vec, có x1 , x2 , , xn tương ứng vectơ biểu diễn cho từ Lớp tích chập (Convolution layer) Lớp nhận x1 , x2 , , xn làm đầu vào sử dụng phép tính tích chập để thu vectơ đại diện Ví dụ, cách áp dụng phép tính chập, thu vectơ y11 , y21 , , yn1 theo phương trình sau: yi1 = f (U xi:i+h−1 +b), (4.1) đó: xi:i+h−1 biểu thị liên kết vectơ nhúng xi , xi+1 , , xi+h−1 , h kích thước cửa sổ cho vectơ nhúng cần kết hợp, f (.) hàm phi tuyến kích hoạt phần tử, chúng tơi sử dụng hàm f (t) = tanh(t) = frace t −e −t e t +e −t ), U rmR C lnm b rmR C tham số thành phần học giai đoạn huấn luyện C chiều đầu Lớp kết nối (Pooling layer) Chúng tơi áp dụng phép tốn tổng hợp lớn để kết hợp đặc trưng từ lớp tích chập thành vector có kích thước cố định: 1 )], y = [max (yi1 ), max (yi2 ), , max (yiC (4.2) yij1 biểu thị chiều thứ j yi1 , y inR C vectơ đầu thành phần convolution Hình 4.2: Hai pha phân tích quan điểm theo khía cạnh Lớp kết nối đầy đủ với nhiều lớp (Fully-connected Layer with multiple layer) Nhận liệu đầu vào véc tơ số thực từ biểu diễn đầu vào dùng cho nhiệm vụ dự đoán nhãn Để dự đốn nhiều nhãn (cho nhiều khía cạnh), sử dụng hàm Sigmoid để lấy xác suất cho phần tử mảng đầu Mọi nhãn khía cạnh có xác suất cao ngưỡng xác định khía cạnh dự đốn 15 4.3.2 Mơ hình CNN với đặc trưng (The CNN Model with External Features) Chúng tơi đề xuất mơ hình CNN hai pha tích hợp đặc trưng ngồi để cải thiện chất lượng mơ hình liệu thưa Hình 4.3: CNN with External Features 4.4 4.4.1 Thực nghiệm Dữ liệu Trong công việc này, thực phương pháp đề xuất tập liệu ABSA 2016 Chúng sử dụng liệu từ Task 5, Subtask (mức văn bản) gồm tập hợp đánh giá khách hàng liệu nhà hàng Mục tiêu xác định tập bộ{khía cạnh (aspect), Mức độ phân cực (polarity)} để tóm tắt ý kiến thể đánh giá 4.4.2 Tiền xử lý liệu Biểu diễn từ cho mơ hình CNN (Word Embeddings for CNN) Trích đặc trưng ngồi (Extracting external features) Chúng tơi chọn 150 từ đặc trưng ngồi cho xác định khía cạnh 300 từ đặc trưng cho phân loại quan điểm chi khía cạnh Với văn đầu vào, chúng tơi chọn tập đặc trưng ngồi sau tạo one-hot vectơ để tạo thành vectơ đặc trưng bên ngồi http://alt.qcri.org/semeval2016/task5/ 16 4.4.3 Các mơ hình kết Chúng thực hai mô hình: mơ hình mơ hình CNN để phân loại nhiều nhãn; mơ hình thứ hai mơ hình CNN với đặc trưng ngồi Hai mơ hình mơ tả phần 4.3 Trong phần đây, mô tả mơ hình (sử dụng đặc trưng bên ngồi) Lưu ý mơ hình 1, chúng tơi loại bỏ đặc trưng bên ngồi khỏi mơ hình Phương pháp thực theo hai giai đoạn: Giai đoạn 1: Phát khia cạnh Giai đoạn 2: Phân loại phân cực quan điểm Đối với nhiệm vụ phân loại phân cực quan điểm, nối đầu CNN với vectơ vectơ thu từ pha 1, sau chuyển tiếp chúng qua lớp kết nối đầy đủ Chúng huấn luyện ba mơ hình tương ứng với ba lớp quan điểm (tích cực, tiêu cực trung tính) Sau đó, chúng tơi tóm tắt ba kết đầu cho kết cuối 4.4.4 Các kết Bảng 4.1: Các kết đánh giá Model Nghiên cứu Soufian Precision Recall F1 65.90 71.00 68.40 66.30 69.70 67.90 65.10 70.80 67.80 65.50 70.60 67.90 Nghiên cứu Sebastian 68.11 Các mơ hình chúng tơi 91.07 61.70 73.53 Word2Vec+POS Word2Vec+POS+Sentics Word2Vec-Retro+POS Word2Vec-Retro+POS+Sentics INSIGHT-1 CNN+multi-class+two-phases CNN+multi-class+two-phases +External-Features 4.5 90.23 68.45 77.84 Kết luận Trong chương này, đề xuất mơ hình dựa CNN cho tốn phân tích quan điểm theo khía cạnh Chúng tơi thêm đặc trưng bên ngồi vào mơ hình để cải thiện hiệu suất hệ thống Thực nghiệm cho thấy mơ hình chúng tơi thực hiệu đạt kết tốt nhiều so với nghiên cứu trước so sánh tập liệu Mơ hình dựa CNN với đặc trưng bên mơ hình hiệu Trong nghiên cứu tiếp theo, chúng tơi tiếp tục xem xét tích hợp đặc trưng hữu ích khác vào mơ hình nhằm cải thiện hiệu suất hệ thống 17 Chương PHÂN TÍCH QUAN ĐIỂM TIẾNG VIỆT 5.1 Giới thiệu Trong thời gian gần đây, nhiều nghiên cứu phân tích cảm tính khai thác ý kiến liệu tiếng Việt áp dụng vào thực tế để khai thác liệu từ trang mạng xã hội, diễn đàn, blog Dữ liệu xử lý ứng dụng thường khơng chuẩn chứa nhiều lỗi tả viết tắt, gọi liệu kiểu Microblog Để thực nghiên cứu loại liệu này, nhiệm vụ cần thực bước tiền xử lý văn kiểm tra tả tách từ Các nghiên cứu cơng cụ sử dụng để kiểm tra tả cho văn tiếng Việt hạn chế mục tiêu ban đầu thực liệu thống Đối với nhiệm vụ tách từ, hầu hết cơng trình nghiên cứu cơng cụ có thực cho liệu chuẩn tiếng Việt đạt kết cao Tuy nhiên, độ xác giảm áp dụng cho kiểu liệu Microblog Do đó, việc phát triển phương pháp tiền xử lý văn tiếng Việt cho liệu Microblog thực cần thiết Trong chương này, giới thiệu hai tiếp cận cho vấn đề phương pháp sử dụng n-gram lớn cho kiểm tra lỗi tả tiếng Việt tách từ tiếng Việt cho liệu Micoblog 5.2 5.2.1 Phương pháp kiểm tra tả cho liệu MicroBlogs sử dụng n-gram lớn Một số lỗi tả thường gặp Trong ngơn ngữ nói chung, lỗi tả xem xét nghiên cứu trước bao gồm: Lỗi tả khơng phải từ (non-word error) lỗi tả từ thực (real-word error) Lỗi từ: Lỗi soạn thảo: Example: “bof” -> “bị” Lỗi từ thực: • Lỗi phát âm: (Tones making error) Ví dụ: “hõi” -> “hỏi” • Lỗi phụ âm đầu (Initial consonant error) Ví dụ: “bức chanh” -> “bức tranh” • Lỗi phụ âm cuối (End consonant error) Ví dụ: “bắt buột” -> “bắt buộc” • Lỗi vùng miền (Region error): Việt Nam có nhiều vùng có phương ngữ khác nhau, cần phải thay đổi sang ngơn ngữ phổ thơng) Ví dụ: “kím” -> “kiếm” 5.2.2 Mơ hình kiểm tra tả đề xuất Chúng sử dụng tiếp cận dựa ngữ cảnh cho hệ thống kiểm tra tả Trong đó, chúng tơi thực tính tốn độ đo mối quan hệ âm tiết láng giềng chúng đánh giá kết để chọn âm tiết nhiều khả Chúng mở rộng ngữ cảnh hai phía âm tiết sử dụng kho ngữ liệu lớn để huấn luyện n-gram nén để tối ưu hóa nhớ Kiến trúc hệ thống minh họa hình: 18 Hình 5.1: Kiến trúc hệ thống kiểm tra tả 5.2.3 Tiền xử lý liệu Giai đoạn tiền xử lý có ba bước: • Bước 1: Nhận biết âm tiết đặc biệt địa web, email, số ˙ thay chúng ký hiệu đặc biệt • Bước 2: Tách tài liệu thành câu hai âm tiết câu khác khơng có mối quan hệ với câu khác • Bước 3: Xóa tất dấu ngắt câu câu chúng khơng có mối quan hệ ý nghĩa với từ 5.2.4 Thuật toán kiểm tra tả mở rộng ngữ cảnh hai bên Thành phần hệ thống kiểm tra tả chúng tơi bao gồm hai bước: • Bước 1: Xây dựng tập hợp lỗi cho âm tiết dựa khoảng cách soạn thảo vàcác đặc điểm ngôn ngữ tiếng Việt chọn • Bước 2: Tính tốn độ đo mối quan hệ âm tiết với láng giềng dựa mơ hình N-gram để định xem âm tiết có hay khơng sau chọn ứng cử viên có khả để sửa Hệ thống chúng tơi sử dụng ngữ cảnh cửa sổ trượt bán kính âm tiết xung quanh Có nghĩa biểu thị âm tiết w0 ngữ cảnh w−1 , w−2 , w1 , w2 Chúng ta mơ hình hóa phụ thuộc w0 vào âm tiết hàng xóm xác suất có điều kiện sau: P(w0 | w−2 , w−1 , w1 , w2 ) Xác suất náy ước lượng hàm sau: P(w0 |w−2 ,w−1 ,w1 ,w2 ) = f(P(w0 |w−2 ,w−1 ), P(w0 |w−1 ,w1 ), P(w0 |w1 ,w2 )) Trong f hàm trung bình nhân (geometric mean function) Để tính xác suất này, cần 5-gram 4-gram Điều thực số lượng kết họp lớn liệu rải rác Thay vào đó, tính xác suất: P(w0 | w−2 , w−1 , w1 , w2 ) ước lượng xác suất 3: P(w0 |w−2 , w−1 ), P(w0 |w−1 , w1 ), P(w0 | 19 w1 , w2 ) Các n-gram có xác suất p logarit trung bình nhân ba xác suất Chúng tơi chọn hàm trung bình hình học tên thực thể tên người tổ chức làm yếu liên kết âm tiết với ngữ cảnh Các lỗi xuất âm tiết xác định lỗi, thực lỗi tả Để giảm số lỗi này, sử dụng hệ số heuristic gọi ”ngưỡng lỗi” (error threshold) ”ngưỡng chênh lệch” (difference threshold), viết tắt e thresh d thresh Giả sử âm tiết w0 có giá trị N-gram p âm tiết từ tập lỗi w0 có giá trị N-gram p’, w0 xem "tốt hơn" w0 thỏa mãn hai bất đẳng thức sau: • p’ > e thresh • p’ > p + d thresh e thresh số xác định dựa liệu phát triển, đảm bảo âm tiết sử dụng để sửa âm tiết xác suất phải cao ngưỡng định; điều giúp giảm sai số thực thể tên 5.2.5 Mơ hình N-gram lớn nén N-gram Để tính xác suất 3, phải xác định tần suất 2-gram (bigrams) 3-gram (trigrams) Nén n-gram Trong q trình mã hóa, chúng tơi thu thập từ điển âm tiết tiếng Việt bao gồm khoảng 6800 âm tiết Mỗi âm tiết biểu diễn số cần từ đến 6800 để biểu diễn, số cần hai byte để lưu trữ Đối với 2-gram (bigram), thể lưu trữ byte (một số nguyên) cần byte để mã hóa 3-gram (trigram) 5.2.6 5.2.6.1 Thực nghiệm chúng tơi Dữ liệu thực nghiệm • Training data Để xây dựng mơ hình N-gram, chúng tơi thu thập liệu từ nhiều nguồn khác Wikipedia.org, dantri.com.vn, vnExpress.net Dữ liệu gồm nhiều chủ đề như: toán học, vật lý, khoa học, văn học, triết học, lịch sử, kinh tế, thể thao, luật, tin tức, giải trí Kích thước kho ngữ liệu chúng tơi khoảng 2GB Chúng tơi tính tần suất unigram, bigram, trigram sau loại bỏ n-gram có tần suất nhỏ • Testing data Chúng tơi tạo hai thử nghiệm để đánh giá hệ thống Trước tiên, thu thập văn từ Internet Trong tập đầu tiên, kiểm tra thủ cơng để đảm bảo khơng có lỗi tả Sau đó, chúng tơi tạo lỗi tả giả kiểm tra đánh dấu lỗi để đánh giá hiệu suất hệ thống Trong tập thứ hai, chúng tơi tìm đánh dấu lỗi tả Tập đánh giá sử dụng thử nghiệm 2, tập thứ hai thử nghiệm 3, tương ứng Tập đánh giá chứa 2500 câu câu thứ hai chứa 632 câu 5.2.6.2 Các kết thực nghiệm Trước đánh giá hiệu suất hệ thống kiểm tra tả, chúng tơi áp dụng phương pháp nén n-gram xây dựng từ liệu đào tạo Các kết nén minh họa bảng: 5.2.6.3 Thực nghiệm 1: Phân tích ảnh hưởng kích thước ngữ liệu huấn luyện n-gram hiệu suất hệ thống Chia ngữ liệu thành đoạn khoảng 100 MB Một ngữ liệu nhỏ tạo 20 Bảng 5.1: Các kết nén N-gram # số n-gram unigram bigram trigram kích thước liệu trước nén 77.9 KB 15.6 MB 84 MB 6776 1208943 4886364 kích thước liệu sau nén 13.55 KB 4.6 MB 28 MB cách ghép đoạn lại với Chúng đánh giá F-score hệ thống với ngữ liệu nhỏ Hình 5.2: Ảnh hưởng kích thước ngữ liệu đến hiệu suất hệ thống 5.2.6.4 Thực nghiệm 2: Chúng đánh giá ảnh hưởng ngữ cảnh đến độ xác hệ thống Bảng đưa kết đánh giá ngữ cảnh Bảng 5.2: Ảnh hưởng ngữ cảnh đến hiệu suất hệ thống Context w−2 , w−1 w−1 , w1 w1 , w2 w−2 , w−1 , w1 , w2 5.2.6.5 DP 89.42% 94.04% 93.83% 94.68% DR 52.22% 91.53% 73.63% 94.26% CP 97.31% 98.26% 96.79% 99.32% DF 65.93% 92.76% 82.51% 94.46% FPR 0.12% 0.11% 0.09% 0.1% Thực nghiệm 3: Chúng tơi so sánh hệ thống với hệ thống kiểm tra tả khác cho tiếng Việt: copcon 5.0.3 beta footnote link: http://chinhta.vn Chúng so sánh độ xác việc phát kiểm tra lỗi chúng thử nghiệm thứ hai Kết thể bảng 5.3 21 Bảng 5.3: So sánh độ xác hệ thống chúng tơi hệ thống kiểm tra tả Copcon Our system Copcon 5.0.3 beta 5.3 DP 92.62% 80.8% DR 91.12% 77.6% CP 95.45% 87.5% DF 91.86% 79.2% FPR 0.2% 0% Phương pháp tách từ cho liệu Micro-blogs tiếng Việt Trong phần này, giới thiệu phương pháp tách từ cho liệu Micro-blogs tiếng Việt Trong ngôn ngữ Tiếng Việt, từ không phân tách khoảng trắng Trên thực tế, từ tiếng Việt chứa nhiều âm tiết Do có nhập nhằng ranh giới từ làm cho nhiệm vụ tách từ trở lên khó khăn Có hai loại nhập nhằng đề cập đến gồm: ”Nhập nhằng chồng chéo” ”Nhập nhằng liên kết” Chúng tơi dùng hệ thống kiểm tra tả giới thiệu để chuẩn hóa liệu Microblogs trước áp dụng thuật toán tách từ 5.3.1 Tiếp cận chúng tơi cho tốn tách từ liệu Micro-blogs Chúng giới thiệu số cải tiến để cải thiện nhược điểm phương pháp kết hợp dài Hệ thống bao gồm bước, (1) sử dụng phương pháp nhận dạng tên riêng (name entity recognitio - NER),(2) Phát nhập nhằng, (3) Lựa chọn khả thích hợp Để phát nhập nhằng: thay dùng thuật tốn kết hợp dài chúng tơi phát tồn nhập nhằng câu nhập vào để đưa trường hợp tách từ dựa vào mơ hình N-gram để tính tốn xác suất ứng cử chia tách để lựa chọn khả thích hợp - Để xử lý nhập nhằng chồng chéo chúng tơi tìm từ có từ điển hai phía để phát hai từ liên tiếp có âm tiết chung Nếu ứng cử tách khơng có nhầm lẫn chồng chéo, trường hợp ngược lại chúng tơi tính tốn xác suất ứng cử để chọn thích hợp Chúng ta theo dõi bảng Bảng 5.4: Phát nhập nhằng chồng chéo w1 (matching from left to right) w2 (matching from right to left) segmented candidate Tốc độ truyền thông tin ngày tăng Tốc độ truyền thông tin ngày tăng Trong ví dụ trên, có nhầm lẫn chồng chéo ứng cử tách khác Sau đó, chúng tơi tính P (w1 ) P (w2 ) chọn w2 P (w2 ) > P (w1 ) chọn w1 trường hợp: P (w1 ) > P (w2 ) - Để phát nhập nhằng liên kết, tách từ dài thành từ ngắn Ví dụ, câu: “Bàn cơng cụ học tập” Sử dụng thuật tốn ghép cặp lớn nhất, thu số từ ghép sau: “bàn ”, “công cụ”, “học tập”, tách từ ghép từ trái sang phải tương ứng Sau đó, chúng rơi tính xác suất ứng cử tạo chọn tốt trước chuyển sang từ dài Công việc giúp tránh tạo số lượng lớn kết hợp Chúng sử dụng mơ hình N-gram để tính tốn xác suất ứng cử Ví dụ, sau sử dụng thuật tốn ghép cặp dài nhất, câu “Bàn công cụ học tập” tách sau: Bàn công cụ học tập Sau tách từ ghép thứ “Bàn ” chúng tơi có ứng cử bảng 5.5 Nếu P (w2 ) > P (w1 ), w chọn làm câu có khả phân đoạn thời điểm này, ngược lại, chọn w1 Sau đó, chúng tơi thực hiệnlàm tương tự cho từ ”công cụ”, ”học tập” câu phân đoạn chọn sau tách ”Bàn ” 22 Bảng 5.5: Phát nhập nhằng liên kết Ứng cử tách Bàn công cụ học tập Bàn công cụ học tập w1 w2 để có kết cuối Trong hệ thống chúng tôi, nhập nhằng chồng chéo phát trước nhập nhằng liên kêt Hình 5.3: Hệ thống tách từ có sử dụng sửa lỗi tả 5.3.2 Hệ thống tách từ có sử dụng kiểm tra tả (Adaption to word segmentation by spell-checking system) Trong phần này, đề xuất cách sử dụng kiểm tra tả đề xuất để chuẩn hóa cho văn Micro-blogs để cải thiện hiệu suất tách từ (1) Kiểm tra viết tắt: Để phát từ viết tắt, sau thay chúng từ cụm từ xác.(2) Kiểm tra tả dựa ngữ cảnh: Để phát sửa lỗi tả thơng thường 5.3.3 Các thực nghiệm Bảng 5.6: Dữ liệu huấn luyện hệ thống kiểm tra tả Unigram Bigram Trigram # Số phần tử 6776 1208943 4886364 Kích thước trước mã hóa 77.9 KB 15.6 MB 84 MB 23 Kích thước sau mã hóa 13.55 KB 4.6 MB 28 MB Bảng 5.7: Dữ liệu test Fomal data Informal data 5.3.3.1 # Số câu 2000 2000 kích thước 285 KB 322 KB # số lỗi 4754 Chuẩn bị liệu Chúng sử dụng từ điển tiếng Việt VCL SP7.2 (SP7.2) bao gồm khoảng 35000 từ Tập liệu huấn luyện gốm 77000 câu tách từ, dùng để xử lý nhập nhằng tay Chúng tơi trích xuất thêm 5000 từ từ tập liệu huấn luyện để làm phong phú thêm từ điển VCL SP7.2 Thu thập hai loại liệu văn bản, liệu văn thống gồm nhiều nguồn khác (huấn luyện n-gram cho hệ thống kiểm tra tả cảm ngữ cảnh - GB)và liệu Micro-blogs từ trang diễn đàn kỹ thuật Từ điển từ viết tắt xây dựng từ liệu Microblog, thu 281 từ viết tắt Dữ liệu test gồm bộ: 2000 câu từ liệu văn thức 2000 câu từ liệu Microblog cho hai thử nghiệm Bộ kiểm tra Microblog kiểm tra tả theo cách thủ cơng 5.3.3.2 Các kết thực nghiệm thảo luận Hiệu suất tách từ thử nghiệm liệu Microblog Hiệu suất tách từ Bảng 5.8: Word segmentation on formal data and Microblog-Style data Data Formal data Microblog data Precsion 97.48% 94.35% Recall 98.41% 95.21% F-measure 97.94% 94.78% liệu Microblog sau sử dụng tính kiểm tra tả theo ngữ cảnh kiểm tra từ viết tắt Bảng 5.9: Tách từ liệu Microblog-Style sau sử dụng kiểm tra tả Dữ liêu Original Microblog data Context-sensitive checking Abbreviation correction Abbreviation correction and context-sensitive checking 5.4 Precsion 94.35% 95.13% 96.17% 97% Recall 95.21% 95.26% 97.05% 97.12% F-measure 94.78% 95.2% 96.61% 97.06% Kết luận Chúng tơi trình bày hai đề xuất xây dựng hệ thống kiểm tra tả cho liệu Microblogs-Style hệ thống tách từ cho liệu thống kiểm tra tả cảm ngữ cảnh kiểm tra viết tắt Việc sử dụng kiểm tra tả trước tách giúp liệu Microblog thích ứng với trình phân đoạn từ hiệu suất tăng lên đáng kể Kết đóng góp vào việc làm tăng hiệu suất phân tích quan điểm tiếng Việt liệu http://vlsp.vietlp.org:8080/demo/ ?&lang=en 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tóm lược kết đóng góp luận án Luận án tập trung vào nghiên cứu việc trích chọn đặc trưng ngữ pháp hữu ích áp dụng cho phân tích quan điểm liệu tiếng Anh tiếng Việt Chúng đề xuất hai phương pháp cho phân loại chủ quan cho liệu tiếng Việt tiếng Anh Với liệu tiếng anh, giới thiệu mô hình trích đặc trưng ngơn ngữ dựa mẫu cú pháp cho để phân loại câu chủ quan Chúng thử nghiệm phương pháp liệu đánh giá phim ảnh Với toán phân loại quan điểm theo khía cạnh chúng tơi đề xuất mơ hình tích hợp đặc trưng giàu thơng tin bên ngồi vào mơ hình mạng nơ ron tích chập để tăng hệu suất thực cho mơ hình Trong q trình phát triển phương pháp phân tích quan điểm đối tượng liệu tiếng Việt, đề xuất mơ hình kiểm tra tả cho liệu Microblog tiếng Việt mơ hình tách từ sử dụng hệ thống kiểm tra từ viết tắt kiểm tra tả tách từ tiếng Việt để phù hợp với liệu dạng Microblog nhằm tăng hiệu xuất thực cho phân tích quan điểm tiếng Việt Những hạn chế hướng nghiên cứu luận Bài tốn phân loại chủ quan: chúng tơi tiếp tục xem xét việc tích hợp đặc trưng hữu ích cho mơ hình học sâu nhằm nâng cao hiệu suất thực Đối với phân tích tính chủ quan liệu tiếng Việt, chúng tơi tiếp tục mở rộng đặc trưng cách sử dụng nhãn từ loại khác khai thác thêm khn mẫu Bài tốn phân loại quan điểm theo khía cạnh, chúng tơi tiếp tục khai thác mơ hình học sâu mạnh xem xét tích hợp đặc trưng hữu ích khác vào mơ hình nhằm cải thiện hiệu suất hệ thống Chúng tơi tiếp tục nghiên cứu tốn cho hai đối tượng liệu tiếng Anh tiếng Việt 25 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC Huong Nguyen Thi Xuan, Vo Cong Hieu, and Anh-Cuong Le (2018) “Adding External Features to Convolutional Neural Network for Aspect-based Sentiment Analysis”, In In Proc The 5th NAFOSTED Conference on Information and Computer Science (NICS), pp 53-59 Nguyen Thi Xuan Huong, Tran-Thai Dang, Anh-Cuong Le (2014), “Adapting Vietnamese Word Segmentation for Microblog-Style Data”, In In Proc., The Third Asian Conference on Information Systems, pp 164-171 Tran-Thai Dang, Nguyen Thi Xuan Huong and Anh-Cuong Le and Van-Nam Huynh (2014), “Automatically Learning Patterns in Subjectivity Classification for Vietnamese”, In Proc The Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), pp 675-690 Nguyen Thi Xuan Huong, Tran-Thai Dang, The-Tung Nguyen, Anh-Cuong Le (2014), “Using Large N-gram for Vietnamese Spell Checking”, In Proc The Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), pp 655-674 Huong Nguyen Thi Xuan, Aanh-Cuong Le and Le Minh Nguyen, (2012), “Linguistic Features for Subjectivity Classification.”, In Proc of the 6th International Conf The International Conference on Asian Language Processing (IALP 2012), pp 17-20 Danh mục gồm 05 cơng trình 26 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Xuân Hương NGHIÊN CỨU HỌC MÁY THỐNG KÊ CHO PHÂN TÍCH QUAN ĐIỂM Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN... hình sử dụng hệ thống kiểm tra từ viết tắt kiểm tra tả tách từ tiếng Việt để phù hợp với liệu dạng Microblog Mục tiêu luận án ? ?Nghiên cứu học máy thống kê cho phân tích quan điểm? ?? tập trung vào... kết nghiên cứu phân tích quan điểm theo khía cạnh Chương 5: Phân tích phân tích quan điểm tiếng Việt dạng nhật ký trực tuyến ngắn (Microblog) Chúng tơi trình bày nội dung, kết nghiên cứu cho

Ngày đăng: 17/09/2021, 14:58

Mục lục

  • 1 GIỚI THIỆU

    • 1.1 Đặt vấn đề

    • 1.2 Các kết quả chính của luận án

    • 1.3 Bố cục của luận án

    • 2 TỔNG QUAN

      • 2.1 Phân tích quan điểm

        • 2.1.1 Phân tích tình cảm (Sentiment Analysis) hay khai thác quan điểm (Opinion Mining)

        • 2.2 Phát biểu bài toán

          • 2.2.1 Bài toán phân tích quan điểm

          • 2.2.2 Phân loại tính chủ quan (Subjectivity Classification

          • 2.2.3 Phân loại quan điểm (Setiment classification)

          • 2.2.4 Phân loại quan điểm theo khía cạnh (Aspect based sentiment classification)

          • 2.2.5 Đặc trưng cho toán phân tích quan điểm

          • 2.2.6 Các miền dữ liệu và dữ liệu Microblog

          • 2.3 Các thảo luận và mục tiêu nghiên cứu của đề tài

            • 2.3.1 Bài toán Phân loại tính chủ quan

            • 2.3.2 Bài toán phân loại quan điểm theo khía cạnh

            • 2.3.3 Phân tích quan điểm tiếng Việt và dữ liệu dạng Microblog

            • 3 PHÂN LOẠI TÍNH CHỦ QUAN

              • 3.1 Giới thiệu

              • 3.2 Phương pháp đề xuất sử dụng các đặc trưng ngôn ngữ cho phân lớp khách quan

                • 3.2.1 Trích các đặc trưng

                • 3.2.2 Thực nghiệm và đánh giá.

                • 3.3 Phương pháp đề xuất học tự động các mẫu cho bài toán xác định câu chủ quan tiếng Việt

                  • 3.3.1 Dữ liệu huấn luyện

                  • 3.3.2 Định nghĩa các khuôn dạng

                  • 3.3.3 Trích xuất và đánh giá các mẫu

                  • 3.3.4 Kết quả thực nghiệm và thảo luận

Tài liệu cùng người dùng

Tài liệu liên quan