Với số lượng các câu đưa vào thử nghiệm đã trình bày ở mục 3.1, hệ thống sẽ tiến hành tiến hành phân về 2 lớp: câu so sánh và khơng phải câu so sánh.
Sử dụng kỹ thuật cross validation, tiến hành chia tập dữ liệu ban đầu thành 4 tập con bằng nhau, mỗi tập con gồm 1050 câu với cùng phân bổ 37% câu so sánh và 63% câu khơng phải so sánh. Chạy 4 lần thử nghiệm, sử dụng lần lượt 3 tập con làm dữ liệu huấn luện và 1 tập con cịn lại làm dữ liệu kiểm tra. Kết quả được ghi lại ở bảng 3.4 với các độ đo trung bình lần lượt là:
Precision – là tỷ lệ các câu so sánh được phân lớp đúng trên tổng số các câu được phân vào lớp câu so sánh: 62%
Recall – là tỷ lệ các câu so sánh được phân lớp đúng trên tổng số các câu thuộc lớp câu so sánh: 91%
F-score – là giá trị trung bình điều hịa cùa Precision và Recall: 73.7%
Như chúng tơi đã trình bày ở các phần trước, bài tốn xác định câu so sánh là bước tiền xử lý, làm đầu vào cho các bài tốn phân tích quan điểm khác nên ta chỉ quan tâm
trực tiếp vào kết quả phân lớp cho các câu so sánh. Kết quả phân lớp càng chính xác thì đầu vào càng tốt, giúp các ứng dụng phân tích quan điểm khác càng đạt được hiệu quả càng cao. Ở đây, độ đo Precision là 62%, cải thiện hơn rất nhiều so với kết quả 32% của phương pháp chỉ sử dụng từ khĩa [9] tuy nhiên vẫn cĩ một lượng khơng nhỏ các câu khơng phải so sánh bị phân lớp nhầm vào lớp câu so sánh. Đồng thời độ đo Recall trung bình đạt 91%, xấp xỉ phương pháp sử dụng từ khĩa. Điều này cho thấy sự hiệu quả của phương pháp tiếp cận đã thực nghiệm: duy trì độ đo Recall và cải thiện độ đo Precision (hình 3.7).
Bảng 3.4: Kết quả thực nghiệm
Lần thử
Độ đo (%)
Precision Recall F-score
1 62.9 90.4 74.2 2 59.3 89.1 71.2 3 64.8 97.2 77.8 4 60.8 87.1 71.6 Trung bình 62.0 91.0 73.7 Hình 3.7: So sánh các phương pháp 46% 32% 62% 64% 94% 91% 54% 48% 74% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Từ loại JJR, JJS, RBR, RBS Từ khĩa CSR & NB
Tiếp theo, để kiểm tra sự ảnh hưởng của số lượng dữ liệu huấn luyện với kết quả phân lớp, chúng tơi thực hiện thử nghiệm với tập kiểm tra cố định kích thước là 1000 câu và tập huấn luyện cĩ kích thước lần lượt là 2000 câu, 2500 câu, 3000 câu và 3225 câu (phân bổ 37:63). Dữ liệu biến thiên độ đo Precision cĩ xu hướng tăng nhưng rất nhỏ, do bước nhảy của kích thước tập huấn luyện là chưa đủ lớn (hình 3.8).
Hình 3.8: Biến thiên độ đo Precision khi thay đổi kích thước tập huấn luyện
63.2 63.2 63.2
63.3
2000 2500 3000 3225
Kích thước tập huấn luyện (câu)
KẾT LUẬN
Trong quá trình làm luận văn, chúng tơi đã đạt được các kết quả sau:
- Tập trung nghiên cứu các bài tốn trong miền ứng dụng phân tích quan điểm. Qua đây tìm hiểu các nhiệm vụ quan trọng của phân tích quan điểm, và thấy được tầm quan trọng của nhiệm vụ khai phá so sánh cụ thể là bài tốn xác định câu so sánh trong miền ứng dụng này.
- Tìm hiểu đặc điểm ngơn ngữ cũng như các cách tiếp cận để giải quyết bài tốn xác định câu so sánh trong tiếng Anh bằng phương pháp học máy cĩ giám sát kết hợp với luật tuần tự phân lớp.
- Thực nghiệm xây dựng mơ hình xác định câu so sánh với dữ liệu thực nghiệm sử dụng trực tiếp các bài đánh giá, các bài thảo luận diễn đàn cũng như phản hồi sản phẩm của khách hàng từ các trang mua bán hàng trực tuyến. Dữ liệu thực tế đem lại kết quả thực nghiệm với các độ đo Precision=62% và Recall=91%.
Trong thời gian tới, chúng tơi cĩ định hướng phát triển như sau:
- Tiếp tục cải tiến mơ hình, thực nghiệm với dữ liệu câu so sánh ở các lĩnh vực khác; thử nghiệm độ ổn định của mơ hình với tập dữ liệu lớn hơn.
- Thực nghiệm phân loại câu so sánh trong tiếng Anh về các lớp câu so sánh khác nhau như đã trình bày ở mục 2.1.
TÀI LIỆU THAM KHẢO
Tiếng Anh
[1] Bing Liu (2006), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data,
1st Edition, Springer, Chapter 11.
[2] Peter D. Turney (2002), Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews, ACL’02.
[3] Beatrice Santorini (1990) Part-of-Speech Tagging Guidelines for the Penn Treebank Project, Department of Computer and Information Science, University of Pennsylvania. [4] B. Pang, L. Lee, and S. Vaithyanathan (2002), Thumbs up? Sentiment Classification Using Machine Learning Techniques. EMNLP’02.
[5] K. Dave, S. Lawrence, and D. Pennock (2003), Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. WWW’03.
[6] Minqing Hu, Bing Liu (2006), Opinion Feature Extraction Using Class Sequential Rules, AAAI’06.
[7] A.-M. Popescu, and O. Etzioni (2005). Extracting Product Features and Opinions from Reviews. EMNLP’05.
[8] Nitin Jindal and Bing Liu (2006), Mining Comparative Sentences and Relations,
AAAI’06.
[9] Nitin Jindal and Bing Liu (2006), Identifying Comparative Sentences in Text Documents, SIGIR’06.
[10] Murthy Ganapathibhotla, Bing Liu (2008), Mining Opinions in Comparative Sentences, COLING 2008.
[11] F.Hou and G Li (2008), Mining Chinese comparative sentences by semantic role labeling, Machine Learning and Cybernetics 2008
[12] S.Yang and Y.Ko (2008), Extracting Comparative Sentences from Korean Text Documents Using Comparative Lexical Patterns and Machine Learning Techniques, ACL-IJCNLP2009
[13] Alaa El-Halees (2012), Opinion mining from Arabic Comparative, ACIT’2012
[14] Ben Coppin (2004), Artificial Intelligence Illuminated, Jones and Bartlett, Chapter 12. [15] Tom M. Mitchell (1997), Machine Learning, McGraw Hill, Chapter 6.
[16] Dan Jurafsky, Text Classification and Nạve Bayes, Standford University Lecture Slide, https://web.stanford.edu/class/cs124/lec/naivebayes.pdf