Phân tích ý kiến người dùng theo khá cạnh

Một phần của tài liệu Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu (Trang 35 - 38)

2.5.1 Tổng quan

Phân tích ý kiến người dùng theo khía cạnh là xác định xem bài đăng hay bình luận liên quan đến khía cạnh nào của sản phẩm hay dịch vụ. Đó có thể là chất lượng, giá thành các món ăn với một nhà hàng, dịch vụ chăm sóc khách hàng với một khách sạn hoặc là tốc độ đường truyền với một nhà cung cấp dịch vụ Internet. .

Bài tốn phân tích ý kiến trên khía cạnh thu hút đơng đảo các nhà nghiên cứu và công ty đầu tư nghiên cứu và phát triển. Khoảng từ những năm 2000, việc khai thác ý kiến và phân tích ý kiến bắt đầu xuất hiện và trở thành chủ đề thảo luận sôi nổi trong lĩnh vực xử lý ngôn ngữ tự nhiên. Marzieh et al [2] cũng đã thực hiện phân tích các khía cạnh và phân lớp ý kiến (tích cực, tiêu cực) trên bộ dữ liệu Senti-hood của các câu trả lời trên nền tảng Yahoo! mà người dùng để lại về những đánh giá và quan điểm của họ trên những địa danh và khu vực lân cận của thành phố Luân Đôn. ABSA cho tiếng Anh và những ngôn ngữ khác (khơng phải tiếng Việt) được giới thiệu điển hình là SemEval 2014, 2015 với nhiều bộ dữ liệu và phương pháp được cơng bố. Từ đó thúc đẩy lĩnh vực nghiên cứu này ngày càng được nhiều nhóm nghiên cứu mạnh trên thế giới tập trung đề xuất các phương pháp. Cơng trình của Kim Schouten và Flavius Frasincar [3] giới thiệu tổng quan về bài tốn phân tích ý kiến trên khía cạnh. Trong cơng trình này,

34

tác giả đưa ra các bài tốn con của bài tốn phân tích ý kiến theo khía cạnh, cách phương pháp đánh giá và khảo sát các mơ hình và kết quả thử nghiệm được đề xuất đưa vào nghiên cứu trước đó đối với các bài tốn con khác nhau. Bộ ngữ liệu của Marianna Apidianaki và các cộng sự [4] xây dựng trên hai miền dữ liệu nhà hàng và viện bảo toàn trên ngơn ngữ tiếng Pháp. Trong cơng trình này, bộ ngữ liệu được xây dựng ở cấp độ câu với 2365 câu đối với lĩnh vực nhà hàng và 655 câu đối với lĩnh vực viện bảo toàn. Đồng thời, ngữ liệu này được xây dựng theo hai nhiệm vụ của hội thảo SemEval2016 [5] là cấp độ câu đánh giá trong miền dữ liệu đối với miền dữ liệu nhà hàng và ngoài miền dữ liệu đối với miền dữ liệu viện bảo toàn.

2.5.2 Hướng tiếp cận và giải quyết bài toán

Đối với bài tốn phân tích ý kiến theo khía cạnh cho tiếng Việt thì có các cơng trình như sau: Vu và cộng sự [6] trình bày một nghiên cứu về việc khai thác ý kiến dựa trên khía cạnh đánh giá sản phẩm bằng cách trích xuất các ý kiến rõ ràng hoặc ngụ ý sử dụng quy tắc cú pháp tiếng Việt. Tiếp theo, Le và các cộng sự [7] đề xuất phương pháp học bán giám sát GK-LDA cho việc trích xuất và phân loại các thuật ngữ khía cạnh cho văn bản tiếng Việt.Thuy cùng các cộng sự [8] xây dựng bộ ngữ liệu tiếng Việt đối với miền dữ liệu nhà hàng ở cấp độ câu và giải quyết nhiệm vụ phát hiện khía cạnh bằng việc kết hợp giữa ngữ liệu gán nhãn bằng tay và bộ ngữ liệu tiếng Anh được dịch sang tiếng Việt.

Cùng với đó đề xuất sử dụng word embedding làm đặc trưng cho mơ hình và đạt được kết quả trên độ đo F1 là 70.62%. Năm 2018, cộng đồng xử lý ngôn ngữ tự nhiên (Vietnamese Language and Speech Processing - VLSP) đã tiến hành tổ chức cuộc thi và sử dụng bộ ngữ liệu cho bài tốn phân tích ý kiến và phân tích ý kiến trên khía cạnh đối với miền dữ liệu nhà hàng và khách sạn của Huyên và các cộng sự [9]. Bộ ngữ liệu được xây dựng ở mức độ đoạn cho bài tốn phân tích ý kiến trên khía cạnh với 4751 đoạn bình luận đối với miền dữ liệu nhà hàng và 5600 đoạn bình luận đối với miền dữ liệu khách sạn.

Ngoài ra, Với và các cộng sự [13] cũng đã xây dựng ra một bộ dữ liệu có tên là “Vietnamese Sentiment” gồm 17,500 phản hồi của người dùng trên trang thương mại điện tử. Họ đã giới thiệu một mơ hình mới tích hợp các điểm nổi trội của mạng nơ-ron Convolutional Neural Network (CNN) và LSTM. Mơ hình này cho các kết quả tốt hơn

35

CNN, LSTM, và Support Vector Machine trên bộ dữ liệu phân tích ý kiến trên tiếng Việt. Tuy nhiên việc phân tích ý kiến thì lại phát triển mạnh mẽ trên nhiều miền dữ liệu đa dạng. Trong đó “The 2018 10th International Conference on Knowledge and Systems Engineering (KSE 2018)” với bộ dữ liệu được phát triển và xây dựng về phân tích ý kiến là “UIT-VSFC: Vietnamese Students’ Feedback Corpus for Sentiment Analysis” với các tác giả đóng góp gồm Kiet và các cộng sự [14].

2.5.3 Hướng đề xuất nghiên cứu

Trong các nghiên cứu thực tế cho thấy, việc xử lý bài tốn phân tích ý kiến người dùng theo khía cạnh cịn nhiều khó khăn thách thức. Một trong số đó là bình luận của khách hàng mang nhiều hàm ý và ý kiến khơng phân định rõ ràng, sai chính tả. Điều này địi hỏi cơ sở dữ liệu phải rất đa dạng, các thuật tốn nhận dạng phải có khả năng tổng qt hóa, khơng bị ảnh hưởng nhiều bởi các từ ngữ có thể làm sai lệch đến ý nghĩa văn bản. Ngoài ra, cấu hình máy tính cũng phải đáp ứng được u cầu tối thiểu cho thơng số hình ảnh đầu vào. Sử dụng mạng nơron thực hiện cả hai việc trích chọn đặc trưng và phân lớp trong bài tốn phân tích ý kiến người dùng theo khía cạnh. Tuy nhiên, cấu trúc mạng sẽ phức tạp. Bên cạnh đó, một số thuật tốn trích chọn đặc trưng có ưu việt hơn do giảm được số chiều dữ liệu đồng thời vẫn trích chọn được các đặc trưng cơ bản của văn bản. Vì thế, thơng thường chỉ nên sử dụng mạng nơron cho việc phân lớp dữ liệu phân tích. Để nâng cao chất lượng hoạt động, mạng nơron nên được kết hợp với một thuật tốn trích chọn đặc trưng. Từ việc khảo sát các thuật tốn phân lớp tơi nhận thấy việc kết hợp mạng nơron học sâu và phương pháp trích chọn đặc trưng cho kết quả tốt phù hợp cho việc phân tích ý kiến theo khía cạnh. Trong nghiên cứu của chúng tơi, giới thiệu một phương pháp mới bằng cách sử dụng phương pháp học sâu lai để phân tích ý kiến theo khía cạnh. Chúng tơi kết hợp các tính năng ưu việt của Mạng nơ-ron tích chập của riêng tơi (CNN) (được sử dụng để trích xuất các tính năng) và mơ hình học sâu Mạng nơ-ron ngắn hạn dài (LSTM) để phân lớp ý kiến.

36

CHƯƠNG 3 MƠ HÌNH ĐỀ XUẤT

Chương này tơi xin trình bày tổng quan về mơ hình đề xuất của tơi, các phương pháp học được áp dụng trong mơ hình, mơ hình học sâu kết hợp MultiCNN-LSTM, cách thức triển khai mơ hình trong việc giải quyết bài tốn phân tích ý kiến người dùng theo khía cạnh và phương pháp đánh giá kết quả của tôi.

Một phần của tài liệu Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu (Trang 35 - 38)

Tải bản đầy đủ (PDF)

(76 trang)