b. Kịch bản 2
3.5. Nhận xét thực nghiệm và kết luận
Khi áp dụng thuật tốn Co-Class vào trong bài tốn xác định ý định người dùng, ta nhận thấy:
- Khi áp dụng gán nhãn trên 1 chủ đề nhất định, thì thuật tốn phân lớp Nạve Bayes đem lại kết quả cao hơn so với thuật tốn SVM. Cĩ thể nĩi, thuật tốn Nạve Bayes phù hợp với bài tốn phân loại dữ liệu trên cùng miền hơn so với thuật tốn SVM. Và ngược lại, thuật tốn SVM đem lại kết quả cao hơn khi áp dụng thử nghiệm với trường hợp dữ liệu chéo miền.
- Thuật tốn SVM đưa ra kết quả chính xác với các văn bản ngắn 50- 70 từ, khi xác định với văn bản dài lớn hơn 150 từ và bị ảnh hưởng bởi dữ liệu nhiễu dẫn đến thuật tốn SVM xác định thiếu chính xác. - Khi thực nghiệm xác định trên 1 tập dữ liệu, với thuật tốn EM, cho
kết quả xác định ý định kém chính xác hơn so với 2 thuật tốn cịn lại là thuật tốn FS-EM và thuật tốn Co-Class
- Khi thực nghiệm trên 2 miền dữ liệu khác nhau, thuật tốn EM đưa kết quả chính xác thấp, và thuật tốn FS-EM đưa ra kết quả kém
chính xác hơn so với Co-Class. Việc để xác định được ý định của người dùng khi ta chưa thể thu thập được dữ liệu tập học của riêng chủ đề đĩ là vấn đề rất hay xảy ra, và thuật tốn Co-Class đã thể hiện được ưu điểm trong tình huống dữ liệu để học máy khơng thuộc một chủ đề nhất định (kịch bản gộp 3 chủ đề làm dữ liệu học) hay áp dụng dữ liệu học máy là của một chủ đề khác, khơng liên quan với chủ đề kiểm tra (kịch bản lấy dữ liệu 1 chủ đề khác khơng cùng miền dữ liệu làm dữ liệu học).
- Kết quả thực nghiệm của Co-Class với dữ liệu trái miền đem lại kết quả cao và xấp xỉ bằng với kết quả khi xác định ý định văn bản trên dữ liệu cùng miền.
Như vậy, từ kết quả thực nghiệm thu được cho thấy Co-Class giúp cho việc xác định ý định văn bản đạt độ chính xác khá cao và sẽ khơng gặp khĩ khăn lớn khi áp dụng trên bất kỳ chủ đề nào và việc chưa cĩ dữ liệu học máy của chính chủ đề đĩ cũng sẽ khơng cịn là trở ngại lớn khi xác định ý định người dùng.
KẾT LUẬN VÀ KIẾN NGHỊ
Luận văn tập trung nghiên cứu phát hiện chính xác ý định của người viết trên diễn đàn thảo luận. Trong luận văn đã tập trung nghiên cứu sâu các phương pháp biểu diễn đặc trưng của văn bản (N-grams, TF-IDF), các phương pháp học máy để xây dựng mơ hình phân lớp dữ liệu (Nạve Bayes, SVM) và đưa ra bài tốn phát hiện ý định người dùng khi áp dụng trên 2 miền dữ liệu cùng miền và chéo miền. Cụ thể, luận văn đã đạt được một số kết quả sau:
- Nghiên cứu các mơ hình biểu diễn đặc trưng của văn bản, mơ hình phân lớp dữ liệu áp dụng bài tốn xác định ý định của người viết - Đề xuất một số cải tiến nhằm nâng cao độ chính xác của việc phát
hiện ý định người dùng thơng qua bài viết
- Áp dụng thuật tốn nâng cao độ chính xác, thực nghiệm và đánh giá kết quả
Trong tương lai, luận văn cĩ thể được phát triển theo các hướng:
- Nghiên cứu các phương pháp nâng cao độ chính xác và cải thiện tốc độ xử lý đối với việc phát hiện văn bản chứa ý định người dùng. - Nghiên cứu các phương pháp thu thập dữ liệu tự động, từ đĩ kết hợp
với các hệ thống tư vấn, quảng cáo để đưa ra quảng cáo phù hợp, với lượng người quan tâm cao.
PHỤ LỤC
Xây dựng ứng dụng
Ứng dụng hỗ trợ người dùng sẽ được xây dựng bằng ngơn ngữ Java sử dụng trên mơi trường máy tính, yêu cầu cấu hình máy tính cài đặt mơi trường: Java JDK7.
Chi tiết về chức năng, kiến trúc và giao diện được mơ tả dưới đây. Chức năng của ứng dụng bao gồm:
- Dựa vào văn bản người dùng đưa ra, ứng dụng xử lý và đưa ra ý định của văn bản là cĩ muốn mua sản phẩm hay khơng.
- Ứng dụng xử lý dữ liệu và đưa ra chủ đề và sản phẩm mà người dùng muốn mua hoặc muốn tìm hiểu thêm. Từ đĩ tích hợp với các hệ thống quảng cáo để đưa ra quảng cáo phù hợp với văn bản.
Giao diện ứng dụng như sau:
Hình 2: Mơ tả ứng dụng
Ứng dụng gồm 3 vùng dữ liệu chính:
- Vùng 1: Nhập dữ liệu, văn bản cần xác định ý định
- Vùng 2: Kết quả xác định ý định người dùng (Cĩ ý định hoặc khơng cĩ ý định)
- Vùng 3: Đưa ra chủ đề, sản phẩm văn bản đang nĩi đến. VD: Chủ đề điện thoại, TV…
Để sử dụng ứng dụng ta thực hiện các bước như sau: - Bước 1: Nhập văn bản vào vùng dữ liệu 1
- Bước 2: Nhấn vào nút xác định ý định người dùng để kiểm tra kết quả và kết quả sẽ hiện ta tại vùng dữ liệu 2 và 3 như trong hình trên.
TÀI LIỆU THAM KHẢO
[1] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for Resource- Poor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp. 322–331, 2015.
[2] Nguyen Thi Duyen, Ngo Xuan Bach, Tu Minh Phuong, “An Empirical Study on Sentiment Analysis for Vietnamese”. In Proceedings of the International Conference on Advanced Technologies for Communications (ATC), Special session on Computational Science and Computational Intelligence (CSCI), pp. 309-314, 2014.
[3] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, “Identifying Intention Posts in Discussion Forums”, 2013
[4] Honghua (Kathy) Dai, Lingzhi Zhao, Zaiqing Nie, Ji-Rong Wen, Lee Wang, Ying Li, “Detecting online commercial intention (OCI)”, 2006
[5] Steve R. Gunn, “Support Vector Machines for Classification and Regression”, 1998.
[6] R. A. S. C. Jayasanka, M. D. T. Madhushani, E. R. Marcus, I. A. A. U. Aberathne, S. C. Premaratne “Sentiment Analysis for Social Media”, 2014. [7] Hiroshi Kanayama, Tetsuya Nasukawa , “Textual demand analysis: detection
of users' wants and needs from opinions”, 2008
[8] Fariba Sadri, Weikun Wang, Afroditi Xafi, “Intention Recognition with Clustering”, 2012.