Dữ liệu sử dụng trong chương trình thực nghiệm được thu thập từ nhiều nguồn khác nhau:
Các đánh giá của khách hàng về sản phẩm: máy ảnh kỹ thuật số, đầu DVD, máy chơi nhạc MP3, và điện thoại di động. Những bài đánh này được tổng hợp từ trang
http://www.amazon.com/
Các bài thảo luận diễn đàn từ nhiều trang khác nhau trên các chủ đề so sánh giữa Intel với AMD, Coca với Pepsi, Microsoft với Google, Apple và Microsoft.
Một số bài viết ngẫu nhiên về ơ tơ, máy nghe nhạc iPod và bĩng đá.
Chúng tơi kế thừa bộ dữ liệu thực nghiệm được sử dụng trong [9] và [10] đồng thời tiến hành thu thập bổ sung thêm các bài đánh giá sản phẩm điện thoại, cũng như các thảo luận trên các bài đánh giá này từ các các website: http://www.cnet.com/,
http://www.macworld.co.uk/. Dữ liệu được gán nhãn thủ cơng thành 2 loại với phân bổ số lượng các câu trong bảng 3.1 và hình 3.2.
Bảng 3.1: Số lượng dữ liệu
Loại câu Số lượng Nhãn
Câu so sánh 1548 <cs-1>
Câu khơng phải so sánh 2677 <cs-x>
Tổng 4225
Hình 3.2: Tỷ lệ phân bổ dữ liệu
37%
63%
Đầu vào cho chương trình được lưu dưới dạng tệp văn bản.
Hình 3.3: Dữ liệu đầu vào
Các tham số cho chương trình
Bảng 3.2: Tham số cho giải thuật CSR-Apriori
Tham số Giá trị Mơ tả
RADIUS_OF_KEYWORD 3
Số lượng các từ ở hai phía của từ khĩa, sử dụng để sinh CSR CSR_MIN_SUP 0.08 Độ hỗ trợ tối thiểu – Minisup CSR_MIN_CONF 0.45 Độ tin cậy tối thiểu – Minconf
Thực hiện gán thẻ từ loại bằng cơng cụ Standford POS Tagger và sinh luật bằng giải thuật CSR-Apriori. Tại bước này, một danh sách các từ khĩa được sử dụng (bảng 3.3). Lý do và cách thức sử dụng đã được chúng tơi trình bày ở mục 2.3.2. Các tham số RADIUS_OF_KEYWORD, CSR_MIN_SUP, CSR_MIN_CONF cũng được thiết lập cho bước này, quá trình sinh luật được ghi lại trong hình 3.4 và 3.5.
Bảng 3.3: Từ khĩa
Thẻ JJR thrice after compare
Thẻ RBR half thrice top
Thẻ JJS same improve exceed
Thẻ RBS either equal lead
beat compete equivalent win
inferior number one together outstrip
outstrip one of few altogether none
both more alternate near
on par with like only unrivaled
choice behind outmatch dominate
choose similar ahead second
prefer identical fraction nonpareil
recommend versus outdo advantage
outperform first match unlike
superior outdistance unmatched least
all before peerless outclass
up against double differ outfox
less outsell one of few outdistance
favor nobody outwit most
defeat vs rival
Hình 3.4: Gán thẻ từ loại và xây dựng cơ sở dữ liệu luật
Hình 3.5: Thực hiện giải thuật CSR-Apriori
Sau khi xây dựng xong cơ sở dữ liệu gồm các luật, tiến hành huấn luyện cho mơ hình phân lớp Nạve Bayesian đã được chúng tơi xây dựng. Hình 3.6 ghi lại quá trình huấn luyện và phân lớp.
Hình 3.6: Huấn luyện và phân lớp 3.3 Kết quả thực nghiệm
Với số lượng các câu đưa vào thử nghiệm đã trình bày ở mục 3.1, hệ thống sẽ tiến hành tiến hành phân về 2 lớp: câu so sánh và khơng phải câu so sánh.
Sử dụng kỹ thuật cross validation, tiến hành chia tập dữ liệu ban đầu thành 4 tập con bằng nhau, mỗi tập con gồm 1050 câu với cùng phân bổ 37% câu so sánh và 63% câu khơng phải so sánh. Chạy 4 lần thử nghiệm, sử dụng lần lượt 3 tập con làm dữ liệu huấn luện và 1 tập con cịn lại làm dữ liệu kiểm tra. Kết quả được ghi lại ở bảng 3.4 với các độ đo trung bình lần lượt là:
Precision – là tỷ lệ các câu so sánh được phân lớp đúng trên tổng số các câu được phân vào lớp câu so sánh: 62%
Recall – là tỷ lệ các câu so sánh được phân lớp đúng trên tổng số các câu thuộc lớp câu so sánh: 91%
F-score – là giá trị trung bình điều hịa cùa Precision và Recall: 73.7%
Như chúng tơi đã trình bày ở các phần trước, bài tốn xác định câu so sánh là bước tiền xử lý, làm đầu vào cho các bài tốn phân tích quan điểm khác nên ta chỉ quan tâm
trực tiếp vào kết quả phân lớp cho các câu so sánh. Kết quả phân lớp càng chính xác thì đầu vào càng tốt, giúp các ứng dụng phân tích quan điểm khác càng đạt được hiệu quả càng cao. Ở đây, độ đo Precision là 62%, cải thiện hơn rất nhiều so với kết quả 32% của phương pháp chỉ sử dụng từ khĩa [9] tuy nhiên vẫn cĩ một lượng khơng nhỏ các câu khơng phải so sánh bị phân lớp nhầm vào lớp câu so sánh. Đồng thời độ đo Recall trung bình đạt 91%, xấp xỉ phương pháp sử dụng từ khĩa. Điều này cho thấy sự hiệu quả của phương pháp tiếp cận đã thực nghiệm: duy trì độ đo Recall và cải thiện độ đo Precision (hình 3.7).
Bảng 3.4: Kết quả thực nghiệm
Lần thử
Độ đo (%)
Precision Recall F-score
1 62.9 90.4 74.2 2 59.3 89.1 71.2 3 64.8 97.2 77.8 4 60.8 87.1 71.6 Trung bình 62.0 91.0 73.7 Hình 3.7: So sánh các phương pháp 46% 32% 62% 64% 94% 91% 54% 48% 74% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Từ loại JJR, JJS, RBR, RBS Từ khĩa CSR & NB
Tiếp theo, để kiểm tra sự ảnh hưởng của số lượng dữ liệu huấn luyện với kết quả phân lớp, chúng tơi thực hiện thử nghiệm với tập kiểm tra cố định kích thước là 1000 câu và tập huấn luyện cĩ kích thước lần lượt là 2000 câu, 2500 câu, 3000 câu và 3225 câu (phân bổ 37:63). Dữ liệu biến thiên độ đo Precision cĩ xu hướng tăng nhưng rất nhỏ, do bước nhảy của kích thước tập huấn luyện là chưa đủ lớn (hình 3.8).
Hình 3.8: Biến thiên độ đo Precision khi thay đổi kích thước tập huấn luyện
63.2 63.2 63.2
63.3
2000 2500 3000 3225
Kích thước tập huấn luyện (câu)
KẾT LUẬN
Trong quá trình làm luận văn, chúng tơi đã đạt được các kết quả sau:
- Tập trung nghiên cứu các bài tốn trong miền ứng dụng phân tích quan điểm. Qua đây tìm hiểu các nhiệm vụ quan trọng của phân tích quan điểm, và thấy được tầm quan trọng của nhiệm vụ khai phá so sánh cụ thể là bài tốn xác định câu so sánh trong miền ứng dụng này.
- Tìm hiểu đặc điểm ngơn ngữ cũng như các cách tiếp cận để giải quyết bài tốn xác định câu so sánh trong tiếng Anh bằng phương pháp học máy cĩ giám sát kết hợp với luật tuần tự phân lớp.
- Thực nghiệm xây dựng mơ hình xác định câu so sánh với dữ liệu thực nghiệm sử dụng trực tiếp các bài đánh giá, các bài thảo luận diễn đàn cũng như phản hồi sản phẩm của khách hàng từ các trang mua bán hàng trực tuyến. Dữ liệu thực tế đem lại kết quả thực nghiệm với các độ đo Precision=62% và Recall=91%.
Trong thời gian tới, chúng tơi cĩ định hướng phát triển như sau:
- Tiếp tục cải tiến mơ hình, thực nghiệm với dữ liệu câu so sánh ở các lĩnh vực khác; thử nghiệm độ ổn định của mơ hình với tập dữ liệu lớn hơn.
- Thực nghiệm phân loại câu so sánh trong tiếng Anh về các lớp câu so sánh khác nhau như đã trình bày ở mục 2.1.
TÀI LIỆU THAM KHẢO
Tiếng Anh
[1] Bing Liu (2006), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data,
1st Edition, Springer, Chapter 11.
[2] Peter D. Turney (2002), Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews, ACL’02.
[3] Beatrice Santorini (1990) Part-of-Speech Tagging Guidelines for the Penn Treebank Project, Department of Computer and Information Science, University of Pennsylvania. [4] B. Pang, L. Lee, and S. Vaithyanathan (2002), Thumbs up? Sentiment Classification Using Machine Learning Techniques. EMNLP’02.
[5] K. Dave, S. Lawrence, and D. Pennock (2003), Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. WWW’03.
[6] Minqing Hu, Bing Liu (2006), Opinion Feature Extraction Using Class Sequential Rules, AAAI’06.
[7] A.-M. Popescu, and O. Etzioni (2005). Extracting Product Features and Opinions from Reviews. EMNLP’05.
[8] Nitin Jindal and Bing Liu (2006), Mining Comparative Sentences and Relations,
AAAI’06.
[9] Nitin Jindal and Bing Liu (2006), Identifying Comparative Sentences in Text Documents, SIGIR’06.
[10] Murthy Ganapathibhotla, Bing Liu (2008), Mining Opinions in Comparative Sentences, COLING 2008.
[11] F.Hou and G Li (2008), Mining Chinese comparative sentences by semantic role labeling, Machine Learning and Cybernetics 2008
[12] S.Yang and Y.Ko (2008), Extracting Comparative Sentences from Korean Text Documents Using Comparative Lexical Patterns and Machine Learning Techniques, ACL-IJCNLP2009
[13] Alaa El-Halees (2012), Opinion mining from Arabic Comparative, ACIT’2012
[14] Ben Coppin (2004), Artificial Intelligence Illuminated, Jones and Bartlett, Chapter 12. [15] Tom M. Mitchell (1997), Machine Learning, McGraw Hill, Chapter 6.
[16] Dan Jurafsky, Text Classification and Nạve Bayes, Standford University Lecture Slide, https://web.stanford.edu/class/cs124/lec/naivebayes.pdf