Kết quả thực nghiệm

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định câu so sánh trong tài liệu văn bản tiếng anh 04 (Trang 50 - 53)

Lần thử

Độ đo (%)

Precision Recall F-score

1 62.9 90.4 74.2 2 59.3 89.1 71.2 3 64.8 97.2 77.8 4 60.8 87.1 71.6 Trung bình 62.0 91.0 73.7 Hình 3.7: So sánh các phương pháp 46% 32% 62% 64% 94% 91% 54% 48% 74% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Từ loại JJR, JJS, RBR, RBS Từ khĩa CSR & NB

Tiếp theo, để kiểm tra sự ảnh hưởng của số lượng dữ liệu huấn luyện với kết quả phân lớp, chúng tơi thực hiện thử nghiệm với tập kiểm tra cố định kích thước là 1000 câu và tập huấn luyện cĩ kích thước lần lượt là 2000 câu, 2500 câu, 3000 câu và 3225 câu (phân bổ 37:63). Dữ liệu biến thiên độ đo Precision cĩ xu hướng tăng nhưng rất nhỏ, do bước nhảy của kích thước tập huấn luyện là chưa đủ lớn (hình 3.8).

Hình 3.8: Biến thiên độ đo Precision khi thay đổi kích thước tập huấn luyện

63.2 63.2 63.2

63.3

2000 2500 3000 3225

Kích thước tập huấn luyện (câu)

KẾT LUẬN

Trong quá trình làm luận văn, chúng tơi đã đạt được các kết quả sau:

- Tập trung nghiên cứu các bài tốn trong miền ứng dụng phân tích quan điểm. Qua đây tìm hiểu các nhiệm vụ quan trọng của phân tích quan điểm, và thấy được tầm quan trọng của nhiệm vụ khai phá so sánh cụ thể là bài tốn xác định câu so sánh trong miền ứng dụng này.

- Tìm hiểu đặc điểm ngơn ngữ cũng như các cách tiếp cận để giải quyết bài tốn xác định câu so sánh trong tiếng Anh bằng phương pháp học máy cĩ giám sát kết hợp với luật tuần tự phân lớp.

- Thực nghiệm xây dựng mơ hình xác định câu so sánh với dữ liệu thực nghiệm sử dụng trực tiếp các bài đánh giá, các bài thảo luận diễn đàn cũng như phản hồi sản phẩm của khách hàng từ các trang mua bán hàng trực tuyến. Dữ liệu thực tế đem lại kết quả thực nghiệm với các độ đo Precision=62% và Recall=91%.

Trong thời gian tới, chúng tơi cĩ định hướng phát triển như sau:

- Tiếp tục cải tiến mơ hình, thực nghiệm với dữ liệu câu so sánh ở các lĩnh vực khác; thử nghiệm độ ổn định của mơ hình với tập dữ liệu lớn hơn.

- Thực nghiệm phân loại câu so sánh trong tiếng Anh về các lớp câu so sánh khác nhau như đã trình bày ở mục 2.1.

TÀI LIỆU THAM KHẢO

Tiếng Anh

[1] Bing Liu (2006), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data,

1st Edition, Springer, Chapter 11.

[2] Peter D. Turney (2002), Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews, ACL’02.

[3] Beatrice Santorini (1990) Part-of-Speech Tagging Guidelines for the Penn Treebank Project, Department of Computer and Information Science, University of Pennsylvania. [4] B. Pang, L. Lee, and S. Vaithyanathan (2002), Thumbs up? Sentiment Classification Using Machine Learning Techniques. EMNLP’02.

[5] K. Dave, S. Lawrence, and D. Pennock (2003), Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. WWW’03.

[6] Minqing Hu, Bing Liu (2006), Opinion Feature Extraction Using Class Sequential Rules, AAAI’06.

[7] A.-M. Popescu, and O. Etzioni (2005). Extracting Product Features and Opinions from Reviews. EMNLP’05.

[8] Nitin Jindal and Bing Liu (2006), Mining Comparative Sentences and Relations,

AAAI’06.

[9] Nitin Jindal and Bing Liu (2006), Identifying Comparative Sentences in Text Documents, SIGIR’06.

[10] Murthy Ganapathibhotla, Bing Liu (2008), Mining Opinions in Comparative Sentences, COLING 2008.

[11] F.Hou and G Li (2008), Mining Chinese comparative sentences by semantic role labeling, Machine Learning and Cybernetics 2008

[12] S.Yang and Y.Ko (2008), Extracting Comparative Sentences from Korean Text Documents Using Comparative Lexical Patterns and Machine Learning Techniques, ACL-IJCNLP2009

[13] Alaa El-Halees (2012), Opinion mining from Arabic Comparative, ACIT’2012

[14] Ben Coppin (2004), Artificial Intelligence Illuminated, Jones and Bartlett, Chapter 12. [15] Tom M. Mitchell (1997), Machine Learning, McGraw Hill, Chapter 6.

[16] Dan Jurafsky, Text Classification and Nạve Bayes, Standford University Lecture Slide, https://web.stanford.edu/class/cs124/lec/naivebayes.pdf

Một phần của tài liệu (LUẬN văn THẠC sĩ) xác định câu so sánh trong tài liệu văn bản tiếng anh 04 (Trang 50 - 53)

Tải bản đầy đủ (PDF)

(53 trang)