Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

27 86 0
Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục tiêu của luận án là đề xuất mô hình mạng nơ-ron xác định hạng và trọng số khía cạnh ẩn sản phẩm/dịch vụ. Sử dụng các véc-tơ biểu diễn khía cạnh được học từ mô hình véc-tơ Paragraph làm đầu vào. Đề xuất mô hình mạng nơ-ron xác định trọng số khía cạnh chung của sản phẩm/dịch vụ.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— PHẠM ĐỨC HỒNG KHAI PHÁ VÀ PHÂN TÍCH QUAN ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET Chuyên ngành: Khoa học máy tính Mã số: 62 48 01 01 TĨM TẮT LUẬN ÁN Hà Nội - 2018 Cơng trình hồn thành tại: Trường Đại học Cơng nghệ, Đại học Quốc Gia Hà Nội Người hướng dẫn khoa học: PGS.TS Lê Anh Cường Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội vào hồi ngày tháng năm 2018 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội Chương Tổng quan 1.1 Giới thiệu Trong khoảng 15 năm trở lại đây, với phát triển công nghệ Web 2.0, hệ thống thương mại trực tuyến phát triển nhanh, tiêu biểu hệ thống Amazon1 , Yelp2 , Tripadvisor3 Thegioididong4 Đặc điểm chung hệ thống thương mại cho phép khách hàng đặt/mua hàng trực tuyến sản phẩm mà họ u thích Ngồi ra, hệ thống cho phép họ thể ý kiến đánh giá sản phẩm mà họ quan tâm thông qua hệ thống Những ý kiến đánh giá phần quan trọng hệ thống, cung cấp thơng tin tới nhà quản lý hệ thống thương mại với khách hàng khác, giúp họ có hiểu biết định sản phẩm hay dịch vụ hệ thống Hình 1.1 ví dụ ý kiến đánh giá sản phẩm iPhone X 64GB hệ thống www.thegioididong.com Nhằm hỗ trợ hệ thống thương mại cung cấp thông tin hiệu tới người quản lý khách hàng, lĩnh vực chuyên ngành xử lý ngôn ngữ tự nhiên đời giai đoạn “Khai phá phân tích quan điểm” Khai phá phân tích quan điểm người dùng nghiên cứu tính tốn quan điểm, đánh giá, thái độ cảm xúc người thực thể khía cạnh thực thể Thực thể thơng thường đề cập tới sản phẩm, dịch vụ tổ chức riêng biệt, v.v Các khía cạnh thuộc tính thành phần thực thể Ví dụ Hình ý kiến khách hàng thảo luận thực thể “iPhone X 64GB” với khía cạnh “Hệ điều hành”, “ Loa nghe”, “Pin” Các tốn phân tích quan điểm thực ba mức độ mức văn bản, www.amazon.com www.yelp.com www.tripadvisor.com www.thegioididong.com Hình 1.1: Ví dụ ý kiến đánh giá sản phẩm iPhone X 64GB mức câu, mức khía cạnh Trong đó, phân tích quan điểm mức văn tốn nghiên cứu sớm rộng rãi (Pang cộng sự, 2002) Bài toán phân loại văn đánh giá sản phẩm/dịch vụ cách đưa quan điểm tổng thể tích cực hay tiêu cực Xem xét toàn tài liệu đơn vị thơng tin giả thiết tài liệu biết có quan điểm Ở mức câu, việc phân loại quan điểm áp dụng cho câu tài liệu (Ellen cộng sự, 2005) Tuy nhiên, câu văn đánh giá có quan điểm Do đó, nhiều nghiên cứu thực tốn xác định câu quan điểm người dùng trước (Mihalcea cộng sự, 2007) Các câu có quan điểm xác định sau phân loại câu thể ý kiến quan điểm tích cực tiêu cực Mặc dù việc khai thác ý kiến mức văn mức câu hữu ích nhiều trường hợp, nhiều điều mong muốn Một văn đánh giá tích cực thực thể cụ thể khơng có nghĩa người dùng có ý kiến tích cực khía cạnh thực thể Tương tự, văn đánh giá tiêu cực cho thực thể khơng có nghĩa người dùng khơng thích tất khía cạnh thực thể Ví dụ, đánh giá sản phẩm, người đánh giá thường ghi khía cạnh tích cực tiêu cực sản phẩm, quan điểm chung sản phẩm tích cực tiêu cực Để có nhiều phân tích ý kiến tốt hơn, cần phải nghiên cứu sâu khía cạnh Ý tưởng dẫn đến việc khai thác ý kiến dựa khía cạnh, lần gọi khai phá phân tích quan điểm theo khía cạnh cơng trình nghiên cứu Hu cộng (2004) 1.2 Một số khái niệm toán phân tích quan điểm theo khía cạnh 1.2.1 Một số khái niệm 1.2.2 Một số toán 1.3 Các nghiên cứu liên quan 1.4 Tình hình nghiên cứu Trong năm gần số mơ hình học biểu diễn đạt nhiều kết xuất sắc lĩnh vực xử lý ngôn ngữ tự nhiên Các mơ hình học biểu diễn đề xuất với mức, mức từ, mức câu, mức đoạn văn mức văn Học biểu diễn (representation learning) hay gọi học đặc trưng (feature learning)(Bengio cộng sự, 2014) lĩnh vực học máy Hầu hết kỹ thuật học biểu diễn xây dựng dựa mơ hình mạng nơ-ron với nhiều tầng ẩn làm việc thực thông qua hàm chuyển phi tuyến hàm tanh, sigmod Lĩnh vực xử lý tín hiệu nhận dạng tiếng nói lĩnh vực áp dụng kỹ thuật học biểu diễn sớm (Bengio cộng sự, 1993), tiếp đến lĩnh vực phân loại ảnh (Hinton cộng sự, 2006) Trong lĩnh vực xử lý ngôn ngữ tự nhiên, học biểu diễn giới thiệu lần đầu vào năm 1986 Hinton cộng phát triển vào năm 2003 với mơ hình mạng nơ-ron ngơn ngữ Bengio cộng Tuy nhiên bùng nổ kỹ thuật học biểu diễn cho lĩnh vực xử lý ngôn ngữ tự nhiên năm 2013 đến Một số mơ hình tiêu biểu, học biểu diễn mức từ Word2Vec (Mikolov cộng sự, 2013) Glove (Pennington cộng sự, 2013) Học biểu diễn mức câu hay mức đoạn văn văn bản, có mơ hình học khơng giám sát Paragraph (Quoc cộng sự, 2014), mô hình học biểu diễn câu giám sát thơng qua cơng việc cụ thể mơ hình mạng nơ-ron tích chập (Kim cộng sự, 2014) Một số nghiên cứu khai phá phân tích quan điểm dựa trện khía cạnh áp dụng kỹ thuật biểu diễn để khắc phục điểm yếu ngữ nghĩa từ Và đạt mức độ ngữ nghĩa câu, qua kết tốn cải thiện như: (Pavlopoulos cộng sự, 2014) mở rộng phương pháp trích xuất khía cạnh (Zhuang cộng sự, 2006) cách dùng véc-tơ từ Poria cộng (2016) đề xuất mô hình mạng nơ-rơn tích chập nhiều tầng cho cơng việc trích xuất từ thể khía cạnh (Wang cộng sự, 2016) đề xuất mơ hình long short term memory Tang cộng (2016) đề xuất mơ hình mạng nơ-ron nhớ sâu cho tốn phân loại quan điểm khía cạnh Tuy nhiên, hầu hết nghiên cứu giải toán mức câu sử dụng véc-tơ biểu diễn từ học từ mơ hình học khơng giám sát Word2Vec GloVe Cả hai mơ hình Word2Vec GloVe bắt mối quan hệ ngữ nghĩa từ dựa ngữ cảnh bị trượt thông tin khía cạnh quan điểm khía cạnh Hai thơng tin khía cạnh quan điểm khía cạnh hai thơng tin quan trọng, thể rõ thơng qua từ câu ý kiến đánh sản phẩm/dịch vụ Theo hiểu biết chúng tôi, chưa có nghiên cứu học biểu diễn mức khía cạnh cho tốn xác định hạng trọng số khía cạnh ẩn sản phẩm/dịch vụ Cũng chưa có nghiên cứu khai thác đa phiên véc-tơ biểu diễn từ cho cơng việc phân tích quan điểm theo khía cạnh, hầu hết mơ hình học biểu diễn mức từ không bắt ba loại thông tin: ngữ nghĩa, khía cạnh quan điểm khía cạnh 1.5 Các đóng góp luận án Luận án trình bày 05 kết đề xuất chính, góp phần giải vấn đề nêu • Thứ nhất, luận án coi khía cạnh đề cập ý kiến đánh giá sản phẩm/dịch vụ gồm nhiều câu văn coi nội dung văn khía cạnh đoạn văn Sau luận án đề xuất mơ hình học biểu diễn khía cạnh thực dự đốn hạng khía cạnh, trọng số khía cạnh ẩn dựa mơ hình đề xuất Đề xuất công bố kỷ yếu hội nghị quốc tế Computational Social Network (CSoNet) năm 2016 • Thứ hai, để khai thác thông tin chung mức độ quan trọng khía cạnh sản phẩm/dịch vụ cho nhà quản lý sản phẩm/dịch vụ, luận án đề xuất mơ hình xác định trọng số khía cạnh chung Mơ hình đề xuất giả thiết khía cạnh sản phẩm/dịch vụ chịu ảnh hưởng trọng số, mức độ quan trọng chung Mơ hình đề xuất cơng bố tạp chí quốc tế Indian Journal of Science and Technology năm 2016 • Thứ ba, để tăng khả biểu diễn mức câu mức khía cạnh phù hợp với tự nhiên Đồng thời hạn chế nhược điểm mơ hình học biểu diễn không giám sát Luận án đề xuất mô hình học biểu diễn đa tầng cho tốn xác định hạng khía cạnh trọng số khía cạnh ẩn Mơ hình đề xuất dựa giả thiết khía cạnh có mối quan hệ với biểu diễn khía cạnh tồn mối quan hệ Đề xuất cơng bố tạp chí ISI-SCIE: Data and Knowledge Engineering (DKE) năm 2018 • Thứ tư, luận án khắc phục điểm yếu mơ hình học biểu diễn từ khơng giám sát đề xuất mơ hình học giám sát Đề xuất giúp cho véc-tơ biểu diễn từ bắt ba loại thơng tin: ngữ nghĩa, khía cạnh quan điểm Đề xuất công bố kỷ yếu hội nghị quốc tế Text, Speech, and Dialogue (TSD) năm 2017, kỷ yếu hội nghị quốc tế the Pacific Association for Computational Linguistics (PACLING) năm 2017 • Thứ năm, để khai thác hiệu kết hợp nhiều thông tin khác nhau, cụ thể thông tin mức từ mức ký tự cho công việc phân tích quan điểm theo khía cạnh Luận án đề xuất mơ hình khai thác đa phiên véc-tơ biểu diễn từ véc-tơ biểu diễn ký tự Mơ hình đề xuất giả thiết véc-tơ biểu diễn học từ mơ hình với tập liệu khác có khả bắt khía cạnh khác ngơn ngữ Đề xuất cơng bố tạp chí ISI-SCI: International Journal of Approximate Reasoning năm 2018 1.6 Bố cục luận án Ngoài phần mở đầu kết luận, luận án tổ chức thành 05 chương phù hợp với công bố liên quan luận án, với bố cục sau: • Chương Giới thiệu tổng quan vấn đề nghiên cứu luận án Luận án phân tích, đánh giá chung cơng trình nghiên cứu liên quan; nêu số vấn đề tồn mà luận án tập trung giải quyết; xác định vấn đề đóng góp luận án • Chương Trình bày tiếp cận cho phân tích quan điểm theo khía cạnh học biểu diễn • Chương Trình bày nội dung, kết nghiên cứu mơ hình đề xuất xếp hạng xác định trọng số ẩn khía cạnh sản phẩm/dịch vụ Bên cạnh đó, mơ hình xác định trọng số khía cạnh chung trình bày • Chương Trình bày nội dung, kết nghiên cứu hai mơ hình học véc-tơ từ cho phân tích quan điểm theo khía cạnh • Chương Trình bày nội dung, kết nghiên cứu mơ hình khai thác đa véc-tơ biểu diễn từ véc-tơ biểu diễn ký tự cho phân tích quan điểm theo khía cạnh Chương Các tiếp cận cho phân tích quan điểm theo khía cạnh học biểu diễn 2.1 2.1.1 Các tiếp cận cho phân tích quan điểm theo khía cạnh Trích xuất khía cạnh Sử dụng danh từ cụm danh từ thường xuyên Sử dụng mối quan hệ từ thể quan điểm khía cạnh Thuật tốn phân đoạn khía cạnh (Aspect Segmentation) 2.1.2 Xếp hạng khía cạnh Xếp hạng dựa thuật tốn PRank Thuật tốn xếp hạng khía cạnh Good Grief 2.1.3 2.2 2.2.1 Thuật toán xác suất xếp hạng khía cạnh Các mơ hình học biểu diễn mức từ, câu, đoạn văn Mơ hình học biểu diễn véc-tơ từ Word2Vec Mơ hình Word2Vec mơ hình học biểu diễn từ thành véc-tơ có phần tử mang giá trị diễn tả mối quan hệ từ với từ khác Mikolov cộng (2013) đề xuất Mơ hình Word2Vec có khả làm việc với tập liệu có hai kiến trúc mạng nơ-ron đơn giản: Mơ hình túi từ liên tục (Continuous Bag-of-Words (CBOW)) mơ hình Skip-gram 2.2.2 Mơ hình véc-tơ Paragraph Mơ hình Word2Vec học véc-tơ biểu diễn từ mà bắt ngữ nghĩa từ Trong mơ hình véc-tơ paragraph, Lê Việt Quốc cộng (2014) mở rộng mơ hình học biểu từ Word2Vec để học biểu diễn mức cao cho mức câu, mức đoạn văn, văn Thông qua kết thực nghiệm, tác giả mơ hình véc-tơ Paragraph đạt kết thực tốt mơ hình trước tốn phân loại văn phân tích ngữ nghĩa 2.2.3 Mơ hình mạng nơ-ron tích chập CNN Mơ hình mạng CNN lần đầu giới thiệu vào năm 1988 Lecun cộng CNN mơ hình học sâu gồm số tầng tích chập kết hợp với hàm kích hoạt phi tuyến (nonlinear activation function) ReLU hay Tanh để tạo thông tin trừu tượng (abstract/higher-level) cho tầng tiếp theo, tầng tích chập tương ứng với vài lọc (filter) tích chập áp dụng học đặc trưng (feature) cho đối tượng đầu vào tốt Tích chập (Convolution) ma trận câu Trong lĩnh vực xử lý ngôn ngữ tự nhiên mức câu, áp dụng mơ hình CNN cơng việc mơ hình mạng CNN phải thực thực phép tốn tích chập ma trận câu Giả sử có ma trận Amxn biểu diễn cho câu gồm có m từ, hàng biểu diễn cho véc-tơ từ - n chiều thuộc câu Khi đó, hình thức, xem tích chập cửa sổ trượt (sliding window) whxk áp dụng lên ma trận Amxn , điều kiện h < m Mơ hình phân lớp câu quan điểm sử dụng mạng tích chập CNN 2.2.4 Mơ hình véc-tơ kết hợp Mitchell cộng (2008) sử dụng luật kết hợp với phép toán cộng nhân véc-tơ biểu diễn từ để sinh mức biểu diễn tốt hơn, cho mức cao mức câu, đoạn văn Dựa luật véc-tơ kết hợp, Hermann cộng (2014) giới thiệu hai hàm kết hợp véc-tơ biểu diễn từ, tên ADD BI cho học biểu diễn câu văn Hàm ADD thực biểu diễn câu cách cộng tất véc-tơ biểu diễn từ lại với Hàm BI thiết kế để bắt lấy thông cặp từ kết hợp với nhau, họ sử dụng hàm khơng tuyến tính (hàm tanh) thực thông qua cặp từ (bi-gram pairs) Chương Xác định hạng trọng số khía cạnh sản phẩm/dịch vụ sử dụng mơ hình mạng nơ-ron Trong chương này, luận án trình bày ba đề xuất liên quan đến toán Xác định hạng trọng số khía cạnh sản phẩm/dịch vụ Ba đề xuất gồm: (1) mơ hình mạng nơ-ron lớp ẩn xác định hạng trọng số ẩn sản phẩm/dịch vụ sử dụng biểu diễn đặc trưng khía cạnh học mơ hình Paragraph; (2) mơ hình mạng nơ-ron đa lớp ẩn xác định hạng trọng số ẩn sản phẩm/dịch vụ; (3) mơ hình học trọng số khía cạnh chung giám sát hạng khía cạnh hạng chung sản phẩm/dịch vụ 3.1 Xác định hạng trọng số ẩn sản phẩm/dịch vụ sử dụng mơ hình mạng nơ-ron lớp ẩn Các cơng việc toán xác định hạng trọng số ẩn riêng sản phẩm/dịch vụ gồm công việc: (1) Tiền xử lý liệu; (2) Phân đoạn khía cạnh; (3) Học biểu diễn khía cạnh; (4) Xác định hạng trọng số khía cạnh 3.1.1 Phân đoạn khía cạnh (Aspect Segmentation) 3.1.2 Học biểu diễn khía cạnh mơ hình véc-tơ Paragraph 3.1.3 Xác định hạng trọng số khía cạnh ẩn sử dụng mơ hình mạng nơ-ron lớp ẩn Chúng giả thiết trọng số khía cạnh hạng khía cạnh ẩn mơ hình mạng nơ-ron chúng tơi gọi mơ hình mơ hình mạng nơ-ron xếp hạng bao gồm ma trận trọng số véc-tơ độ lệch tương ứng với khía cạnh Ai ; ký hiệu V = [V1∗ , V2∗ , , Vk∗ ] tập tham số cho việc học biểu diễn khía cạnh tầng biểu diễn khía cạnh, tương ứng với k khía cạnh Trong đó, Vi∗ = {Vi , vi0 } gồm ma trận trọng số véc tơ độ lệch tương ứng với khía cạnh Ai ; ký hiêu W = [w1∗ , w2∗ , , wk∗ ] tập tham số cho vệc xác định hạng khía cạnh, với wi∗ = {wi , wi0 } gồm véc-tơ trọng số wi độ lệch wi0 tương ứng với khía cạnh Ai , i = 1, , k Để học mơ hình LRNN-ASR, chúng tơi xây dựng thuật toán lặp dựa thuật toán lan truyền ngược (backpropagation) xác định cực tiểu hàm mục tiêu 3.2.4 3.3 Xác định trọng số khía cạnh chung sản phẩm/dịch vụ Hình 3.3 minh họa mơ hình (được đặt tên NNAWs (Neural Network Aspect Weights)) xác định trọng số khía cạnh chung sản phẩm/dịch vụ mà luận án đề xuất Hình 3.3: Minh họa mơ hình xác định hạng khía cạnh chung Đầu vào véc-tơ hạng khía cạnh sản phẩm/dịch vụ, đầu hạng chung tương ứng Trọng số khía cạnh chung (overall aspect weights) giả thiết trọng số mơ hình Q trình xác định trọng số khía cạnh chung q trình học mơ hình dự đốn hạng chung (overall rating) Để học mơ hình NNAWs, chúng tơi xây dựng thuật tốn lặp dựa thuật toán lan truyền ngược 3.4 Thực nghiệm Tập liệu sử dụng thực nghiệm cung cấp (Wang cộng 2013)http://times.cs.uiuc.edu/wang296/Data Gồm 174,615 ý kiến đánh giá 1,768 khách sạn Tập ý kiến dịch vụ khách sạn gồm 11 năm khía cạnh: Value, Room, Location, Cleanliness, Service Từng ý kiến đánh giá gán với hạng chung cho khách sạn khía cạnh gán với hạng khía cạnh Các hạng gán từ đến Đối với sản phẩm/dịch vụ khách sạn, xây dựng văn đánh giá cách hợp tất ý kiến đánh giá vào văn chung Hạng chung văn tính trung cộng hạng chung ý kiến đánh giá Ngoài ra, để giá trị hạng chung hạng khía cạnh theo giả thiết phù hợp với giá trị hàm dự đốn theo mơ hình đề xuất, chúng tơi chuẩn hóa hạng chung hạng khía cạnh thành số thực nằm đoạn [0, 1] cách lấy giá trị hạng chia cho Áp dụng thuật toán phân đoạn (Wang cộng sự, 2013) để xác định khía cạnh phân đoạn văn đánh giá 3.4.1 Đánh giá Để đánh giá phương pháp đề xuất, luận án sử dụng biểu diễn đặc trưng khía cạnh theo trường hợp sau: Túi từ (Bag of words): gồm 3987 từ để biểu diễn khía cạnh; Trung bình véc-tơ từ (Word vector averaging): Sử dụng véc-tơ biểu diễn từ học từ mô hình Word2Vec1 với cỡ ngữ cảnh 7, tần số xuất tối thiếu từ Từng khía cạnh văn đánh giá biểu diễn cách lấy trung bình cộng véc-tơ từ; Trung bình véc tơ câu (Sentence vector averaging): áp dụng mơ hình Sentence2Vec2 với kích cỡ cửa sổ ngữ cảnh 7, với khía cạnh văn đánh giá biểu biểu diễn cách lấy trung bình véc-tơ câu; Véc-tơ paragraph (Paragraph vector): Ap dụng mơ hình Doc2Vec3 với kích cỡ cửa sổ ngữ cảnh 7, ngưỡng tần suất xuất từ 7, số chiều véc-tơ paragraph 200 để học biểu diễn khía cạnh Mơ hình sở hồi quy đánh giá ẩn Latent Rating Regression model (LRR) (Wang cộng sự, 2013) Ba độ đo sử dụng cho đánh giá dự đốn hạng khía cạnh, bao gồm: (1) Độ lệch trung bình bình phương hạng khía cạnh, ký hiệu ∆aspect (∆aspect mà nhỏ có nghĩa tốt hơn), (2) Độ đo tương quan hạng khía cạnh (ρaspect , cao có nghĩa tốt ), (3) Độ đo tương quan loại hạng khía cạnh thơng qua tồn tập liệu đánh giá (ρreview cao có nghĩa tốt hơn) Trong bảng 3.1 thể ba độ đo đạt phương pháp trường hợp biểu diễn đặc trưng khía cạnh Trong tất trường hợp thấy mơ hình LRR LRNN thực tốt https://github.com/piskvorky/gensim/ https://github.com/klb3713/sentence2vec https://github.com/piskvorky/gensim/ 12 Bảng 3.1: So sánh mơ hình xác định hạng khía cạnh ẩn bốn trường hợp biểu diễn khía cạnh Feature kind Method ∆aspect Paspect Preview Bag of words LRR LRNN 0.752 0.817 0.341 0.445 0.621 0.587 Word vector averaging LRR LRNN 0.756 0.753 0.398 0.459 0.644 0.641 Sentence vector averaging LRR LRNN 0.781 0.770 0.432 0.465 0.646 0.645 Paragraph vector LRR LRNN 0.747 0.742 0.424 0.432 0.658 0.667 LRNN-ASR FULL-LRNN-ASR 0.703 0.596 0.497 0.512 0.675 0.741 khia sử dụng mơ hình véc-tơ paragraph học biểu diễn trực tiếp cho khía cạnh Để đánh giá chất lượng mơ hình NNAWs, chúng tơi thực ba phương pháp liên quan Thứ mơ hình hồi quy xác suất LRR (Wang cộng sự, 2013), để xác định trọng số khía cạnh chung, chúng tơi lấy trung bình cộng trọng số khía cạnh riêng khách sạn Ký hiệu véc-tơ trọng số cho phương pháp αP RR Thứ hai phương pháp xác định trọng số khía cạnh chung (Zha cộng sự, 2014) (ký hiệu véc-tơ αF ) cách thống kê tần xuất xuất từ thể quan điểm Thứ ba phương pháp LRNN, giống với phương pháp LRR, tính trọng số khía cạnh chung phương pháp cách lấy trung bình cộng trọng số khía cạnh riêng sản phẩm, ký hiệu véc-tơ αLRN N Kết thực nghiệm cho thấy trọng số khía cạnh chung αN N AW s có chất lượng 3.5 Kết luận Trong chương chúng tơi trình bày ba phương pháp sử dụng mơ hình mạng nơ-ron cho việc xác định hạng trọng số khía cạnh Thứ phương pháp xác định hạng trọng số khía cạnh ẩn sử dụng mạng nơ-ron lớp ẩn, thứ hai phương pháp xác định hạng trọng số khía cạnh ẩn sử dụng mạng nơ-ron đa lớp ẩn Phương pháp thứ ba mơ hình mạng nơ-ron xác định trọng số khía cạnh chung cho sản phẩm/dịch vụ 13 Chương Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh 4.1 Giới thiệu Mặc dù véc-tơ biểu diễn từ học từ mơ hình dựa ngữ cảnh sử dụng hiệu nhiều công việc xử lý ngôn ngữ tư nhiên (Collobert cộng sự, 2008), chúng xem biểu diễn thiếu thông tin áp dụng vào công việc cụ thể (Tang cộng sự, 2014) Trong phân tích quan điểm dựa khía cạnh, véc-tơ biểu diễn từ trượt thơng tin khía cạnh quan điểm Ví dụ, cho câu “Rất thích dùng BIDV, nhân viên lúc thân thiện nhiệt tình” gán hai nhãn, nhãn khía cạnh “Dịch vụ” nhãn quan điểm “Tích cực”, với câu mơ hình học véc-tơ biểu diễn dựa ngữ cảnh không bắt thơng tin khía cạnh “Dịch vụ” thơng tin quan điểm “Tích cực” Bài tốn làm mã hóa loại thông tin vào véc-tơ biểu diễn từ Trong chương đề xuất hai mơ hình sử dụng tập liệu gồm câu gán nhãn câu không gán nhãn để học véc-tơ biểu diễn từ cho phân tích quan điểm dựa khía cạnh 4.2 Các tốn học biểu diễn từ cho phân tích quan điểm theo khía cạnh 4.3 Phương pháp đề xuất Luận án đề xuất hai mơ hình học véc-tơ biểu diễn từ Hai mơ hình sử dụng số ký hiệu cần thiết sau: 14 Cho tập câu D = {d1 ,d2 , ,d|D| } trích xuất từ tập ý kiến đánh giá sản phẩm/dich vụ cụ thủ (ví dụ: dịch vụ nhà hàng) Ký hiệu k số lượng nhãn khía cạnh m số lượng nhãn quan điểm khía cạnh Ký hiệu ad ∈ Rk véc-tơ nhị phân nhãn khía cạnh câu d Từng giá trị ad xác nhận câu d có thảo luận khía cạnh hay không Ký hiệu od ∈ Rm véc-tơ nhị phân quan điểm câu d Từng thành phần véc-tơ od xác nhận câu d có thảo luận quan điểm khía cạnh hay khơng 4.3.1 Mơ hình tinh chỉnh véc-tơ biểu diễn từ Mơ hình tinh chỉnh véc-tơ biểu diễn từ đề xuất mơ hình mạng nơ-ron tích chập Thực tinh chỉnh véc-tơ học từ mơ hình khơng giam sát Word2Vec hay Glove Hình 4.1 minh họa mơ hình tinh chỉnh véc-tơ biểu diễn từ Word Embedding Fine-Tuning (WEFT) Hình 4.1: Minh họa mơ hình tinh chỉnh véc-tơ biểu diễn từ WEFT Hàm mục tiêu mơ hình tập câu huấn luyện D sau: k E(θ) = − ( m ∧ adi log adi + d∈D i=1 ∧ i=1 ∧ ∧ odi log odi ) + λθ θ 2 (4.3.1) với adi odi tính theo mơ hình θ = [U , U , U , W, V , V , u1 , u2 , u3 , b1 , b2 ], λθ số chuẩn hóa Để học mơ hình WEFT, chúng tơi xây dựng thuật tốn lặp dựa thuật toán lan truyền ngược (backpropagation) để cực tiểu hóa hàm mục tiêu 15 4.3.2 Mơ hình học véc-tơ biểu diễn từ SSCWE Mơ hình học véc-tơ biểu diễn từ SSCWE gồm hai thành phần: Thành phần nhúng ngữ nghĩa véc-tơ từ thành phần nhúng khía cạnh quan điểm Hình 4.2 minh họa hai thành phần Trong đó, thành phần nhúng ngữ nghĩa làm việc tương tự mơ hình CBOW Word2Vec (Mikolov cộng sự, 2013), thành phần nhúng khía cạnh quan điểm sử dụng thơng tin khía cạnh quan điểm khía cạnh làm giám sát đầu mơ hình (a) Thành phần nhúng ngữ nghĩa (b) Thành phần nhúng khía cạnh quan điểm Hình 4.2: Hai thành phần mơ hình học véc-tơ biểu diễn từ SSCWE Hàm mục tiêu mơ hình tập câu huấn luyện D sau: Nd E(θ) = ∧ ∧ H(ad , ad , od , od ) + λθ θ ∧ H(ei , ei ) + d∈D i=1 (4.3.2) d∈D với θ = [W, U, u0 , V , V , b1 , b2 ], λθ tham số λθ số chuẩn hóa Để học mơ hình SSCWE, chúng tơi xây dựng thuật tốn lặp dựa thuật toán lan truyền ngược (backpropagation) để cực tiểu hóa hàm mục tiêu 4.4 4.4.1 Thực nghiệm Dữ liệu thực nghiệm độ đo Luận án sử dụng hai tập liệu miền liệu sản phẩm/dịch vụ Nhà hàng cho công việc thực nghiệm Tập liệu thứ gồm 3,111,239 câu khơng gán nhãn trích xuất từ 229,907 ý kiến đánh giá1 Tập liệu thứ hai https://www.yelp.com/datasetchallenge/ 16 gồm 190,655 câu trích xuất từ 52,574 ý kiến đánh giá2 Gồm câu gán nhãn khía cạnh Food, Price, Service, Ambience, Anecdotes, Miscellaneous Và nhãn quan điểm Positive, Negative, Neutral Conflict Từng câu gán hai nhãn: khía cạnh quan điểm khía cạnh 75% số lượng câu gán nhãn sử dụng để học véc-tơ từ, lại 25% sử dụng để đánh giá chất lượng mơ hình WEFT mơ hình SSCWE 4.5 Đánh giá mơ hình WEFT Mơ hình WEFT đánh giá thơng qua véc-tơ từ học từ mơ hình: CBOW, skip-gram Word2Vec GloVe Ký hiệu phiên mơ hình WEFT sau: WEFT-rand sử dụng véc-tơ từ khởi tạo ngẫu nhiên sau chỉnh sửa q trình huấn luyện mơ hình Các mơ hình WEFT-SG, WEFT-CB WEFT-GV tinh chỉnh véc-tơ từ học từ mơ hình tương ứng skip-gram, CBOW GloVe Sử dụng công cụ Word2Vec3 GloVe4 để học véc-tơ từ, kích thước véc tơ từ cấu hình 300 kích thước cửa số ngữ cảnh Trong bảng 4.1 4.2 luận án thể kết véc-tơ tinh chỉnh (học từ mơ hình WEFT) sử dụng hai cơng việc phân tích quan điểm theo khía cạnh: Xác định khía cạnh phân tích quan điểm Bảng 4.1: Kết XĐKC Method SG CB GV WEFT-rand WEFT-SG WEFT-CB WEFT-GV 4.5.1 F1 score 77.87 78.54 79.19 81.43 81.50 81.76 82.09 Bảng 4.2: Kết phân loại quan điểm khía cạnh Method SG CB GV WEFT-rand WEFT-SG WEFT-CB WEFT-GV Pos-F1 87.05 86.93 87.10 88.65 90.87 93.12 93.61 Neg-F1 52.03 52.25 51.07 64.18 64.63 64.70 64.77 Neu-F1 65.74 66.60 71.02 74.13 73.82 77.03 77.11 Con-F1 55.46 55.93 57.85 56.40 60.23 61.17 61.43 Accuracy 78.77 79.22 80.35 82.15 83.82 84.05 84.23 Đánh giá mơ hình SSCWE Mơ hình chúng tơi với mơ hình sở sau: Word2Vec, GloVe, SCWE: gồm thành phần SCWE mơ hình SSCWE, SSCWE*: sử dụng câu gán nhãn làm đầu vào để học véc-tơ từ Số chiều véc-tơ tất mơ hình 300 Ngồi ra, sử dụng véc-tơ từ học http://spidr-ursa.rutgers.edu/datasets/ https://github.com/piskvorky/gensim/ https://nlp.stanford.edu/projects/glove/ 17 từ tập liệu khác để so sánh với mơ hình này, gồm Pre-Word2Vec Word2Vec Pre-GloVe véc-tơ GloVe6 Trong bảng 4.3 4.4 luận án thể kết véc-tơ sử dụng hai cơng việc phân tích quan điểm theo khía cạnh: Xác định khía cạnh phân tích quan điểm Bảng 4.3: Kết XĐKC Method Word2Vec GloVec Pre-Word2Vec Pre-GloVec Our SCWE Our SSCWE* Our SSCWE 4.5.2 F1 score 78.54 79.19 77.24 79.01 80.04 82.12 82.77 Bảng 4.4: Kết phân loại quan điểm Phương pháp Word2Vec GloVec Pre-Word2Vec Pre-GloVec Our SCWE Our SSCWE* Our SSCWE Pos-F1 86.93 87.10 82.04 83.95 89.54 93.78 93.80 Neg-F1 52.25 51.07 49.53 53.04 64.00 63.81 64.70 Neu-F1 66.60 71.02 68.44 65.04 74.01 76.58 76.13 Con-F1 55.93 57.85 53.16 54.04 56.30 61.93 63.02 Accuracy 79.22 80.35 79.01 80.13 81.41 83.85 84.69 So sánh hai mơ hình WEFT SSCWE Trong bảng 4.5 luận án thể kết đạt mô hình WEFT so với mơ hình SSCWE, hầu hết trường hợp mơ hình SSCWE cho kết nhỉnh mơ hình WEFT Điều chứng tỏ việc học liên hợp mơ hình SSCWE tốt việc tinh chỉnh mơ hình WEFT Bảng 4.5: So sánh kết phân loại quan điểm mơ hình WEFT SSCWE Phương pháp WEFT-SG WEFT-CB WEFT-GV Our SSCWE 4.6 Pos-F1 90.87 93.12 93.61 93.80 Neg-F1 64.63 64.70 64.77 64.70 Neu-F1 73.82 77.03 77.11 76.13 Con-F1 60.23 61.17 61.43 63.02 Accuracy 83.82 84.05 84.23 84.69 Kết luận Trong chương này, luận án trình bày hai mơ hình học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh Mơ hình thứ mơ hình mạng nơ-ron tích chập WEFT chỉnh sửa véc-tơ học từ mơ hình Word2Vec Glove Mơ hình thứ hai mơ hình SSCWE, sử dụng kết hợp kỹ thuật học giám sát không giám sát để học véc-tơ từ cho công việc phân tích quan điểm dựa khía cạnh Kết đạt tốt mơ hình sở https://code.google.com/archive/p/Word2Vec/ http://nlp.stanford.edu/projects/glove/ 18 Chương Khai thác đa véc-tơ biểu diễn từ ký tự cho phân tích quan điểm theo khía cạnh 5.1 Giới thiệu Nhằm sử dụng khai thác hiệu phiên véc-tơ biểu diễn từ công bố sẵn mạng internet kết hợp với véc-tơ biểu diễn ký tự Trong chương luận án đề xuất mơ hình mạng nơ-ron đa kênh tích chập khai thác đa véc-tơ biểu diễn từ véc-tơ biểu diễn ký tự cho công việc phân tích quan điểm theo khía cạnh Mục tiêu giúp mơ hình đề xuất bắt thơng tin kết hơp véc-tơ biểu diễn từ véc-tơ ký tự để sinh mức biểu diễn tốt cho câu Thông qua mục tiêu kết dự đốn phân tích quan điểm theo khía cạnh cải thiện 5.2 Các nghiên cứu liên quan 5.3 Mơ tả đầu vào/ra tốn khai thác mức biểu diễn cho phân tích quan điểm theo khía cạnh 5.4 Phương pháp đề xuất Trong đoạn này, chúng tơi trình bày thành phần tích chập gồm hai tầng, tầng tích chập tầng pooling Sau chúng tơi áp dụng để trình bày mơ hình mạng nơ-ron tích chập đa tầng cho phân tích quan điểm theo khía cạnh 19 5.4.1 Thành phần tích chập Một mơ hình mạng nơ-ron tích chập truyền thống gồm có tầng tích chập tầng thu thập đặc trưng (pooling layer) Chúng sử dụng thành phần mơ hình đề xuất chúng tơi, mà chúng tơi gọi thành phần tích chập Hình 5.1: Minh họa thành phần tích chập 5.4.2 Mơ hình mạng nơ-ron tích chập đa kênh cho phân tích quan điểm theo khía cạnh Mơ hình đề xuất minh họa hình 5.2, gồm có ba kênh CNN, hai kênh đầu tiên, kênh làm việc với véc-tơ biểu diễn từ WordVec, kênh làm việc với véc-tơ biểu diễn từ Glove kênh thứ ba sử dụng véc-tơ biểu diễn ký tự làm đầu vào Hình 5.2: Mơ hình mạng nơ-ron tích chập đa kênh MCNN (Multichannel Convolutional Neural Network ) cho cơng việc xác định khía cạnh 20 5.5 5.5.1 Thực nghiệm Dữ liệu thực nghiệm cài đặt mơ hình MCNN Dữ liệu thực nghiệm1 gồm 190,655 câu trích xuất từ 52,574 văn đánh giá, tập liệu sử dụng nghiên cứu (Brody cộng sự) Gồm sáu nhãn khía cạnh Price, Food, Service, Ambience, Anecdotes, Miscellaneous, bốn nhãn quan điểm khía cạnh Positive, Negative, Neutral and Conflict Từng câu gán hai nhãn khía cạnh quan điểm tương ứng khía cạnh 75% số lượng câu cho làm liệu huấn luyện 25% số lượng câu lại sử dụng để đánh giá chất lượng mơ hình Đối với tập véc-tơ biểu diễn từ từ điển ký tự, sử dụng hai tập véc-tơ biểu diễn từ sử dụng rộng rãi công bố internet Word2Vec địa chỉ2 GloVe địa chỉ3 Bộ từ điển ký tự sử dụng gồm 52 ký tự thông thường tiếng Anh 5.5.2 Đánh giá Mơ hình đề xuất gồm ba nhóm: - (1) Nhóm mơ hình bao gồm mơ hình sử dụng kênh CNN đơn lẻ, CNN1 mô hình với Kênh 1, sử dụng véc-tơ Word2Vec làm đầu vào; CNN2 gồm Kênh với véc-tơ Glove sử dụng làm đầu vào; CNN3 mô hình gồm Kênh với đầu vào véc-tơ one-hot ký tự - (2) Nhóm mơ hình bao gồm mơ hình lai tạo từ kết hợp kênh CNN1+CNN2 mơ hình lai Kênh Kênh 2; CNN1+CNN2+CNN3 mơ hình lai Kênh 1, Kênh Kênh - (3) Nhóm mơ hình bao gồm mơ hình sử dụng kết hợp kênh CNN1+CNN2 mơ hình kết hợp Kênh Kênh 2; MCNN mơ hình kết hợp ba kênh CNN1, CNN2, CNN3 Khác với mơ hình lai nhóm mơ hình (2), q trình học nhóm mơ hình thực cách học liên hợp để tạo mơ hình chung gồm kênh kết hợp Các mơ hình sở khác lựa chọn cho đánh sau: NLSE model (Astudillo cộng sự, 2015): Một mơ hình mạng nơ-ron đơn giản sử dụng tầng ẩn học véc-tơ biểu diễn từ cho phân tích quan điểm Đầu vào mơ hình véc-tơ Word2Vec, sau véc-tơ ánh xạ vào không gian ngữ nghĩa với số chiều nhỏ so với số chiều Word2Vec trước http://spidr-ursa.rutgers.edu/datasets/ https://code.google.com/archive/p/Word2Vec/ http://nlp.stanford.edu/projects/glove/ 21 Q trình học mơ hình q trình học véc-tơ biểu diễn từ học phân loại quan điểm cho văn đầu vào Hybrid Feature Learning (Zhou cộng sự, 2015): Một mơ hình mạng nơ-ron học lai đặc trưng cho cơng việc xác định khía cạnh, chúng tơi ký hiệu mơ hình HFL Mơ hình gồm hai mơ hình con, mơ hình học biểu diễn mức câu tầng ẩn cho phân loại tất nhãn khía cạnh mức câu, mơ hình học biểu diễn mức câu tầng ẩn cho nhãn khía cạnh Đặc trưng lai đạt véc-tơ biểu diễn câu cách nối hai véc-tơ biểu câu tầng ẩn hai mơ hình với CNN-non-static model (Kim cộng sự, 2014): Mơ hình mạng nơ-ron gồm tầng chập thực tinh chỉnh véc-tơ biểu diễn từ cho phân loại mức câu Đầu vào mơ hình véc-tơ Word2Vec, sau véc-tơ Word2Vec tính chỉnh q trình học mơ hình Q trình tinh chỉnh Word2Vec giúp mơ hình dự đốn phân loại véc-tơ Word2Vec đạt mức biểu diễn tốt không gian ngữ nghĩa CNN-multichannel model (Kim cộng sự, 2014): Mơ hình mạng nơron sử dụng hai kênh tích chập sử dụng véc-tơ Word2Vec làm đầu vào Trong đó, véc-tơ Word2Vec giữ nguyên kênh, kênh lại thực tinh chỉnh Word2Vec qua trình huấn luyện mơ hình CharSCNN model (dos Santos cộng sự, 2014): Mơ hình mạng nơ-ron sử dụng hai tầng tích chập khai thác thơng tin mức từ mức ký tự cho phân tích quan điểm văn ngắn Đối với thông tin mức họ sử véc-tơ học từ mơ hình Word2Vec, thơng tin mức ký tự họ sử dụng véc-tơ one-hot tương tự mơ hình MCNN Quan sát thơng tin kết đạt mơ hình bảng 5.1 bảng 5.2, thấy rằng: Trong nhóm mơ hình 1, hầu hết mơ hình thực khơng tốt mơ hình sở Điều mơ hình sở (ngoại trừ mơ hình HFL) thực tinh chỉnh véc-tơ biểu diễn từ trình huấn luyện Các véc-tơ biểu diễn từ cải thiện, dẫn đến mức biểu diễn câu đầu vào tốt nên kết dự đoán nhãn khía cạnh tốt Mơ hình học lai HFL không thực tinh chỉnh véc-tơ biểu diễn từ thực nhỉnh mơ hình CNN1, CNN2 CNN3 Điều cho thấy rằng, đặc trưng lai sử dụng biểu diễn mức câu quan trọng so với việc sử dụng riêng lẻ đặc trưng biểu diễn câu kênh CNN1, CNN2, CNN3 Trong nhóm mơ hình 2, mơ hình khơng thực tinh chỉnh véc-tơ biểu diễn từ trình huấn luyện mơ hình sở, mơ hình thực tốt mơ hình (trừ mơ hình CharSCNN) mơ hình nhóm Ngồi ra, thầy mơ hình lai CNN1+CNN2+CNN3 22 Bảng 5.1: Kết xác định khía canh mơ hình MCNN mơ hình sở Baselines Our Method NLSE HFL CNN-non-static CNN-multichannel CharSCNN CNN1 CNN2 CNN3 CNN1+CNN2 (hybrid) CNN1+CNN2+CNN3 (hybrid) CNN1+CNN2 MCNN Precision 77.82 79.11 79.08 80.18 82.30 78.45 80.02 77.78 81.88 81.91 83.40 83.94 Recall 81.53 80.97 81.23 81.41 80.17 76.87 78.57 73.18 79.79 80.25 81.27 81.61 F1 score 79.63 80.03 80.14 80.79 81.22 77.65 79.29 75.41 80.82 81.07 82.32 82.76 thực nhỉnh mơ hình lai CNN1+CNN2 Kết xác nhận vai trị thơng tin mức ký tự sử dụng kỹ thuật lai đặc trưng cho mức câu Bảng 5.2: Kết dự đốn phân loại quan điểm theo khía canh mơ hình MCNN mơ hình sở Baselines Our 5.6 Method NLSE HFL CNN-non-static CNN-multichannel CharSCNN CNN1 CNN2 CNN3 CNN1+CNN2 (hybrid) CNN1+CNN2+CNN3 (hybrid) CNN1+CNN2 MCNN Accuracy 81.49 81.71 82.13 82.79 83.35 79.97 80.50 77.83 82.81 83.02 83.68 84.16 Kết luận Trong chương 5, luận án trình bày mơ hình mạng nơ-ron tích chập đa kênh để khai thác đa véc-tơ biểu diễn từ véc-tơ biểu diễn ký tự Các kết thực nghiệm cho thấy tính hiệu mơ hình đề xuất Đặc biệt thông tin mức ký tự cho thấy vai trò quan trọng việc kết hợp với thông tin mức từ 23 KẾT LUẬN Các mô hình học biểu diễn đặc trưng mức từ, mức câu, mức khía cạnh có hiệu cơng việc phân tích quan điểm theo khía cạnh Trong phần này, chúng tơi tóm lược lại kết đóng góp luận án Ngồi ra, chúng tơi trình bày định hướng phát triển cho nghiên cứu tương lai Các đóng góp luận án bao gồm: • Đề xuất mơ hình mạng nơ-ron xác định hạng trọng số khía cạnh ẩn sản phẩm/dịch vụ Sử dụng véc-tơ biểu diễn khía cạnh học từ mơ hình véc-tơ Paragraph làm đầu vào • Đề xuất mơ hình mạng nơ-ron xác định trọng số khía cạnh chung sản phẩm/dịch vụ • Đề xuất mơ hình mạng nơ-ron học đa tầng biểu diễn cho toán xác định hạng trọng số khía cạnh ẩn • Đề xuất hai mơ hình học véc-tơ biểu diễn từ: mơ hình thực tinh chỉnh véc-tơ học từ mơ hình Word2Vec Glove; mơ hình học véc-tơ biểu diễn từ gồm hai thành phần: thành phần thiết kế dựa mơ hình Word2Vec thực bắt mối quan hệ ngữ nghĩa từ, thành phần sử dụng thông tin giám sát để bắt lấy thơng tin khía cạnh quan điểm khía cạnh • Đề xuất mơ hình mạng nơ-ron đa kênh tích chập khai thác đa phiên véc-tơ biểu diễn từ véc-tơ biểu diễn ký tự Tất mơ hình đề xuất thực nghiệm đánh giá chi tiết thông qua tập liệu tiếng Anh, miền liệu sản phẩm/dịch vụ gồm khía cạnh khách hàng thảo luận/đánh giá ý kiến Nhìn chung kết đạt mơ hình đề xuất nhỉnh phương pháp truyền thống Đặc biệt với việc sử dụng mơ hình mạng nơ-ron nhiều tầng học biểu diễn xác định hạng trọng số khía cạnh ẩn chứng tỏ hiệu vượt trội so với phương pháp khác Trong tương lai chúng tơi tìm hiểu thực đánh giá mơ hình đề xuất tập liệu tiếng Anh khác Chúng định hướng trọng việc áp dụng mô hình đề xuất vào hệ thống phân tích liệu thực tế tiếng Việt, liệu Ngân hàng, Chứng khoán, Điện thoại di động 24 Danh mục cơng trình khoa học tác giả liên quan đến luận án [1] Duc-Hong Pham, and Anh-Cuong Le, “Exploiting Multiple Word Embeddings and One-hot Character Vectors for Aspect-Based Sentiment Analysis”, International Journal of Approximate Reasoning (IJAR), 103, 2018, pp 1-10 (ISI-SCI) [2] Duc-Hong Pham, and Anh-Cuong Le, “Learning Multiple Layers of Knowledge Representation for Aspect Based Sentiment Analysis”, Journal: Data&Knowledge Engineering (DKE), 114, 2018, pp 26-39 (ISI-SCIE) [3] Duc-Hong Pham, Thi-Thanh-Tan Nguyen, and Anh-Cuong Le, “Fine-Tuning Word Embeddings for Aspect-based Sentiment Analysis”, Proceedings of the 20th International Conference on Text, Speech and Dialogue (TSD), 2017, pp 500-508 (Rank B1) [4] Duc-Hong Pham, Anh-Cuong Le, and Thi-Kim-Chung Le, “Learning Word Embeddings for Aspect-based Sentiment Analysis”, Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics (PACLING), 2017, pp 28-40 (Rank B) [5] Duc-Hong Pham, Anh-Cuong Le, and Thi-Thanh-Tan Nguyen, “Determing Aspect Ratings and Aspect Weights from Textual Reviews by Using Neural Network with Paragraph Vector Model ”, Proceedings of the 5th International Conference on Computational Social Networks (CSONet), 2016, pp 309-320 (SCOPUS) [6] Duc-Hong Pham, and Anh-Cuong Le, “A Neural Network based Model for Determining Overall Aspect Weights in Opinion Mining and Sentiment Analysis”, Indian Journal of Science and Technology, 2016, pp 1-6 (SCOPUS) 25 ... tới người quản lý khách hàng, lĩnh vực chuyên ngành xử lý ngôn ngữ tự nhiên đời giai đoạn ? ?Khai phá phân tích quan điểm? ?? Khai phá phân tích quan điểm người dùng nghiên cứu tính tốn quan điểm, đánh... mở đầu kết luận, luận án tổ chức thành 05 chương phù hợp với công bố liên quan luận án, với bố cục sau: • Chương Giới thiệu tổng quan vấn đề nghiên cứu luận án Luận án phân tích, đánh giá chung... tưởng dẫn đến việc khai thác ý kiến dựa khía cạnh, lần gọi khai phá phân tích quan điểm theo khía cạnh cơng trình nghiên cứu Hu cộng (2004) 1.2 Một số khái niệm toán phân tích quan điểm theo khía

Ngày đăng: 02/07/2020, 22:40

Hình ảnh liên quan

ẩn (Latent Rating Neural Network Model (LRNN)). Hình 3.1. là một minh họa kiến trúc mô hình LRNN. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

n.

(Latent Rating Neural Network Model (LRNN)). Hình 3.1. là một minh họa kiến trúc mô hình LRNN Xem tại trang 11 của tài liệu.
Hình 3.2 minh họa kiến trúc mô hình mạng nơ-ron học đa tầng đề xuất của chúng tôi. Trong mô hình này, từng từ từ văn bản đánh giá sản phẩm/dịch vụ đầu vào được chuyển vào trong véc-tơ biểu diễn từ tương ứng bằng mô hình Word2Vec (Mikolov và các cộng sự, 2 - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

Hình 3.2.

minh họa kiến trúc mô hình mạng nơ-ron học đa tầng đề xuất của chúng tôi. Trong mô hình này, từng từ từ văn bản đánh giá sản phẩm/dịch vụ đầu vào được chuyển vào trong véc-tơ biểu diễn từ tương ứng bằng mô hình Word2Vec (Mikolov và các cộng sự, 2 Xem tại trang 12 của tài liệu.
Để học mô hình LRNN-ASR, chúng tôi xây dựng 1 thuật toán lặp dựa trên thuật toán lan truyền ngược (backpropagation) xác định cực tiểu hàm mục tiêu 3.2.4 . - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

h.

ọc mô hình LRNN-ASR, chúng tôi xây dựng 1 thuật toán lặp dựa trên thuật toán lan truyền ngược (backpropagation) xác định cực tiểu hàm mục tiêu 3.2.4 Xem tại trang 13 của tài liệu.
Bảng 3.1: So sánh các mô hình xác định hạng khía cạnh ẩn trong bốn trường hợp biểu diễn khía cạnh - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

Bảng 3.1.

So sánh các mô hình xác định hạng khía cạnh ẩn trong bốn trường hợp biểu diễn khía cạnh Xem tại trang 15 của tài liệu.
4.3.1 Mô hình tinh chỉnh véc-tơ biểu diễn từ - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

4.3.1.

Mô hình tinh chỉnh véc-tơ biểu diễn từ Xem tại trang 17 của tài liệu.
4.3.2 Mô hình học véc-tơ biểu diễn từ SSCWE - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

4.3.2.

Mô hình học véc-tơ biểu diễn từ SSCWE Xem tại trang 18 của tài liệu.
Hình 5.1: Minh họa thành phần tích chập - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

Hình 5.1.

Minh họa thành phần tích chập Xem tại trang 22 của tài liệu.
Một mô hình mạng nơ-ron tích chập truyền thống gồm có một tầng tích chập và một tầng thu thập đặc trưng (pooling layer) - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

t.

mô hình mạng nơ-ron tích chập truyền thống gồm có một tầng tích chập và một tầng thu thập đặc trưng (pooling layer) Xem tại trang 22 của tài liệu.
Bảng 5.1: Kết quả xác định khía canh của mô hình MCNN và các mô hình cơ sở MethodPrecisionRecallF1 score - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

Bảng 5.1.

Kết quả xác định khía canh của mô hình MCNN và các mô hình cơ sở MethodPrecisionRecallF1 score Xem tại trang 25 của tài liệu.
thực hiện nhỉnh hơn mô hình lai CNN1+CNN2. Kết quả này xác nhận vai trò của thông tin mức ký tự sử dụng trong kỹ thuật lai đặc trưng cho mức câu. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Khai phá và phân tích quan điểm người dùng trên mạng internet

th.

ực hiện nhỉnh hơn mô hình lai CNN1+CNN2. Kết quả này xác nhận vai trò của thông tin mức ký tự sử dụng trong kỹ thuật lai đặc trưng cho mức câu Xem tại trang 25 của tài liệu.

Từ khóa liên quan

Mục lục

  • Tổng quan

    • Giới thiệu

    • Một số khái niệm và bài toán cơ bản trong phân tích quan điểm theo khía cạnh

      • Một số khái niệm

      • Một số bài toán

      • Các nghiên cứu liên quan

      • Tình hình nghiên cứu hiện nay

      • Các đóng góp của luận án

      • Bố cục của luận án

      • Các tiếp cận cho phân tích quan điểm theo khía cạnh và học biểu diễn

        • Các tiếp cận cho phân tích quan điểm theo khía cạnh

          • Trích xuất khía cạnh

          • Xếp hạng khía cạnh

          • Thuật toán xác suất xếp hạng khía cạnh

          • Các mô hình học biểu diễn mức từ, câu, đoạn hoặc cả văn bản

            • Mô hình học biểu diễn véc-tơ từ Word2Vec

            • Mô hình véc-tơ Paragraph

            • Mô hình mạng nơ-ron tích chập CNN

            • Mô hình véc-tơ kết hợp

            • Xác định hạng và trọng số khía cạnh của sản phẩm/dịch vụ sử dụng mô hình mạng nơ-ron

              • Xác định hạng và trọng số ẩn của sản phẩm/dịch vụ sử dụng mô hình mạng nơ-ron một lớp ẩn

                • Phân đoạn khía cạnh (Aspect Segmentation)

                • Học biểu diễn khía cạnh bằng mô hình véc-tơ Paragraph

                • Xác định hạng và trọng số khía cạnh ẩn sử dụng mô hình mạng nơ-ron một lớp ẩn

                • Xác định hạng và trọng số ẩn của sản phẩm/dịch vụ sử dụng mô hình mạng nơ-ron đa lớp ẩn

                • Xác định trọng số khía cạnh chung của sản phẩm/dịch vụ

                • Thực nghiệm

                  • Đánh giá

Tài liệu cùng người dùng

Tài liệu liên quan