Bảng 2: Cấu hình phần cứng
Thành phần Chỉ số
CPU Intel Core i3 M330 2.13Ghz
RAM 4GB
HDD 500GB
OS Windows 7 Ultimate 64 bits
4.1.2. Công cụ phần mềm
30 Bảng 3: Danh sách các phần mềm sử dụng STT Tên phầm mềm Tác giả Nguồn 1 Eclipse- SDK-3.4.0- win64 http://www.eclipse.org/dowloads 2 vnTokenizer Lê Hồng Phương http://www.loria.fr/~lehong/tools/vnTo kenizer.php 4.2. Dữ liệu thực nghiệm
Do đặc trưng của dữ liệu đầu vào trong hệ thống RTE đòi hỏi rất nhiều các giả thiết về tri thức miền ứng dụng, ngữ cảnh. Các cặp câu văn bản – giả thuyết phải thuộc cùng một chủ đề. Dữ liệu tiếng Anh thường được sử dụng trong các hệ thống RTE là dữ liệu được cung cấp bởi hội nghị. Trong hội nghị RTE 3 bộ dữ liệu gồm 1600 cặp câu T-H, RTE 4 dữ liệu gồm 1000 cặp, RTE5 bộ dữ liệu gồm 1200 cặp (dữ liệu huấn luyện và kiểm tra).
Dữ liệu thực nghiệm em sử dụng là 1600 cặp câu văn bản – giả thuyết được dịch từ bộ dữ liệu chuNn trong hội nghị RTE 3 (TAC-RTE 2007). Cả dữ liệu huấn luyện và kiểm tra đều được gán nhãn kế thừa và đánh số cặp câu. Các cặp câu văn bản – giả thuyết có bao gồm nhiều chủ đề, lĩnh vực nên rất đa dạng phong phú về nội dung. Dữ liệu dùng trong thực nghiệm là dữ liệu chuNn nên việc đánh giá kết quả chương trình là chính xác và khách quan. Dữ liệu được gán nhãn dưới định dạng file xml.
31
4.3. Thử nghiệm chương trình
Các bước tiến hành thử nghiệm chương trình bao gồm:
Bước 1: Tiến hành loại bỏ các thẻ chứa nhãn và đánh số cặp câu đểđưa dữ liệu về dạng văn bản chỉ chứa các cặp câu văn bản và giả thuyết.
Bước 2: Sử dụng bộ công cụ tách câu tách từ Tokenizer để tiến hành tách câu tách từ cho toàn bộ dữ liệu. Bộ công cụ tách từ mà em sử dụng là vnTokenizer của Lê Hồng Phương, Nguyễn Thị Minh Huyền. vnTokenizer có thời gian chạy nhanh và độ chính xác cao trong việc tách từ ghép.
Bước 3: Sau khi có các cặp câu văn bản – giả thuyết đã được tách từ, em sử dụng từ điển đồng nghĩa tiếng Việt để so sánh sự tương đồng về mặt ngữ nghĩa của các từ trong câu. Những từ trong câu được thay thế bởi các từđồng nghĩa tương ứng để tạo ra sựđồng nhất giữa các từ trong văn bản và giả thuyết.
Bước 4: Tiến hành tính toán độ tương đồng dựa trên từ vựng.
Bước 5: Tiến hành xác định ngưỡng và tinh chỉnh ngưỡng.
Bước 6: Từ kết quả thu được ở bước 5 và ngưỡng thu được ở bước 5, hệ thống sẽấn định kế thừa cho các cặp văn bản-giả thuyết. Cặp văn bản-giả thuyết sẽ kế thừa nếu xác suất của nó nhỏ hơn hoặc bằng ngưỡng kế thừa. Nếu ngược lại thì không kế thừa.
Bước 7: Áp dụng ngưỡng kế thừa đó với tập kiểm tra tiến hành hai thí nghiệm với ngưỡng ban đầu và ngưỡng sau khi tinh chỉnh.
4.4. Đánh giá hệ thống
Hệ thống được đánh giá chất lượng thông qua ba độ đo: độ chính xác (precision), độ hồi tưởng (recall), và độđo F (F-measure). Ba độđo này được tính theo các công thức sau đây:
^% = "%"_% + #"%"_%"%"_% %" = "%"_% + #"%","%"_%
32
a =2 ∗ ^% ∗ %"^% + %"
Ý nghĩa của các giá trịđược chú thích trong bảng 5:
Giá trị Ý nghĩa
"%"_% Số các cặp văn bản-giả thuyết thực tế là kế thừa và hệ thống cũng phán quyết là kế thừa.
#"%"_% Số các cặp văn bản-giả thuyết thực tế là kế thừa và hệ thống phán quyết là không kế thừa.
"%", Số các cặp văn bản-giả thuyết thực tế là không kế thừa và hệ thống cũng phán quyết là không kế thừa.
#"%", Số các cặp văn bản-giả thuyết thực tế là không kế thừa và hệ thống phán quyết là kế thừa.
Bảng 4. Chú thích giá trị
4.5. Kết quả thử nghiệm
Em thực hiện thử nghiệm trên 1600 cặp văn bản-giả thuyết. Đầu tiên, em tiến hành chia ngẫu nhiên bộ dữ liệu thành 5 phần: 3 phần làm dữ liệu học, 1 phần làm dữ liệu tinh chỉnh ngưỡng và phần còn lại làm đánh giá phán quyết. Dữ liệu dùng để tinh chỉnh ngưỡng là hoàn toàn độc lập với dữ liệu học và dữ liệu kiểm tra. Dữ liệu học trong quá trình huấn luyện sẽ thu được các giá trị ngưỡng thích hợp. Lấy từng ngưỡng này chạy thực nghiệm với tập kiểm tra, sau đó qua bước tinh chỉnh ngưỡng và tiến hành kiểm tra lại. Do hạn chế về thời gian thực hiện nên trong quá trình thực nghiệm, hệ thống mới tiến hành tinh chỉnh ngưỡng theo hướng thứ nhất: tinh chỉnh theo tập kiểm tra.
33
Thí nghiệm 1: Thực nghiệm với ngưỡng trước tinh chỉnh.
Thí nghiệm 2: Thí nghiệm với ngưỡng sau tinh chỉnh Kết quảđược thể hiện ở bảng dưới đây:
TN
Ngưỡng Precision Recall F-measure
TrướcTC Sau TC Trước TC Sau TC Trước TC Sau TC TrướcTC Sau TC
TN1 -0.306 -0.3 0.621 0.621 0.535 0.54 0.575 0.577 TN2 -0.309 -0.315 0.615 0.652 0.515 0.561 0.56 0.603 TN3 0.335 -0.350 0.69 0.74 0.5 0.515 0.58 0.638 TN4 -0.346 -0.321 0.525 0.691 0.584 0.585 0.553 0.635 TN5 -0.305 -0.3 0.636 0.692 0.495 0.518 0.556 0.593 TN6 0.537 0.52 0.728 0.706 0.573 0.57 0.641 0.631 TN7 0.721 0.758 0.642 0.742 0.426 0.426 0.512 0.541 TN8 0.717 0.758 0.655 0.695 0.597 0.597 0.637 0.642 TN9 -0.344 -0.320 0.618 0.718 0.51 0.51 0.56 0.596 TN10 0.725 0.71 0.626 0.636 0.583 0.589 0.604 0.6115 TB 0.6056 0.705 0.532 0.541 0.579 0.606
34
Tổng hợp kết quả thực nghiệm
Hình 6: Kết quả thí nghiệm với trường hợp sau tinh chỉnh ngưỡng
Hình 7: Kết quả thí nghiệm với trường hợp trước tinh chỉnh ngưỡng
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 TN1 TN2 TN3 TN4 TN5 TN6 TN7 TN8 TN9 TN10 Precision Recall F-measure 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 TN1 TN2 TN3 TN4 TN5 TN6 TN7 TN8 TN9 TN10 Precision Recall F-measure
35
4.6. Đánh giá
Qua quá trình thực nghiệm, em nhận thấy rằng khi sử dụng mô hình độ tương đồng từ vựng kết hợp với từđiển đồng nghĩa và tinh chỉnh ngưỡng, kết quả thu được có cải tiến đáng kể. Trước và sau khi tinh chỉnh các độđo thu được đều tăng, trong đó độ đo F tăng 3%. Bước đầu thực nghiệm hệ thống phát hiện quan hệ kế thừa trong văn bản tiếng Việt đã cho kết quả khá tốt. Trong thời gian tới, em sẽ tiếp tục hoàn chỉnh quá trình tinh chỉnh ngưỡng theo hai cách: tinh chỉnh theo bộ kiểm tra và tinh chỉnh theo độđo tương tự của từ trong từđiển đồng nghĩa.
Bảng 7: Đánh giá kết quả thực nghiệm trong các kỳ hội nghị RTE [18]
Tuy nhiên, khóa luận chưa giải quyết được một số vấn đề bài toán gặp phải như:
• Chưa xét tới mặt cú pháp của câu thông qua cây cú pháp và nhận dạng thực thể trong câu để đưa ra kết quả chính xác hơn trong những trường hợp mà có sự nhập nhằng trong tên thực thể.
o Ví dụ: Obama, Barak Obama, tổng thống Mỹđều chỉ tới một người.
• Đối những cặp văn bản-giả thuyết có độ nhập nhằng về ngữ nghĩa thì độ chính xác của kết quả không cao
36
Kết luận và định hướng nghiên cứu tiếp theo
Trong khóa luận, ngoài việc giới thiệu khái quát về phát hiện kế thừa văn bản và một số phương pháp tiếp cận giải quyết bài toán phát hiện kế thừa qua các kỳ hội nghị RTE 1-7, em đề xuất một mô hình giải quyết bài toán áp dụng trên miền dữ liệu tiếng Việt. Nội dung em đã thực hiện được bao gồm:
• Xây dựng hệ thống phát hiện kế thừa văn bản dựa trên tính toán độ tương đồng từ vựng.
• Hệ thống đã có sự cải tiến về mặt ngữ nghĩa bằng cách sử dụng từđiển đồng nghĩa để tăng thêm độ chính xác.
Em tiến hành thực nghiệm đối với 1600 cặp văn bản với 2 tình huống cùng 10 thí nghiệm: (i) chưa tinh chỉnh ngưỡng, (ii) đã tinh chỉnh ngưỡng. Kết quả thực nghiệm cho thấy kết quả sử dụng từ điển và độ tương đồng từ vựng có tinh chỉnh ngưỡng có lợi thế dù chưa thật đáng kể song cũng là tiềm năng cho phát triển hướng nghiên cứu của bài báo.
Trong thời gian tới, em sẽ tiếp tục cải thiện hệ thống theo những hướng sau:
• Ngoài việc xét tới từ vựng, hệ thống sẽ tập trung vào việc phân tích câu về mặt cú pháp để nâng cao độ chính xác với những trường hợp nhập nhằng về ngữ nghĩa.
• Sử dụng thêm những tri thức miền phức hợp như wikipedia, từ điển trái nghĩa, phát hiện từđồng âm khác nghĩa, …
37
Tài liệu tham khảo
[1] Andrew McCallum and Kedar Bellare, “A Conditional Random Field for Discriminatively-trained Finite-state String Edit Distance”, Department of Computer Science, University of Massachusetts Amherst, Department of Computer and Information Science, University of Pennsylvania, pp. 2 - 4.
[2] Alvaro Rodrigo, Anselmo Penas, and Felisa Verdejo. “Towards an entity-based recognition of textual entailment”. In Proceedings of the Fourth PASCAL Challenges Workshop on Recognizing Textual Entailment. Gaithersburg, Maryland, USA. 2008.
[3] Bahadorreza Ofoghi, John Yearwood, “From Lexical Entailment to Recognizing Textual Entailment Using, Linguistic Resources”, Centre for Informatics & Applied, Optimization, University of Ballarat, 2008, pp. 1-2 [4] Braz, Pazienza, Rodrigo, M. T. Pazienza, M. Pennacchiotti, and F. M. Zanzotto
“Textual entailment as syntactic graph distance:A rule based and a SVM based approach” In Proceedings of the First PASCAL ChallengesWorkshop on Recognizing Textual Entailment, 2005, pp. 25–28. Southampton,UK.
[5] Christof Monz and Maarten de Rijke. “Lightweight entailment checking for computational semantics”. In Proceedings of the Workshop on Inference in Computational Semantics (ICoS-3), 2001.
[6] Dekang Lin. “An information-theoretic definition of similarity”. In ProceedingsofInternational Conferenceon Machine Learning, 1998.
[7] Erwin Marsi, Emiel Krahmer, and Wauter Bosma. “Dependency-based
paraphrasing for recognizing textual entailment”. In Proceedings of the ACL- PASCAL Workshop on Textual Entailment and Paraphrasing, Prague, 2007. [8] Erwin Marsi, Emiel Krahmer, Wauter Bosma. “Dependency-based
paraphrasing for recognizing textual entailment”. Proceedings of the Workshop on Textual Entailment and Paraphrasing, c 2007 Association for Computational Linguistics.
June 2007, pp. 83–88, Prague,.
[9] Gennaro Chierchia and Sally McConnell-Ginet. “Meaning and Grammar: An Introduction to Semantics”. MIT Press, 2nd edition, March 2000, pp. 2-5
[10] Graeme Hirst and David St-Onge. “Lexical chains as representation of context for the detection and correction of malapropisms”. In Fellbaum Christiane, editor, WordNet: An electronic lexical database. TheMITPress. 1998.
38
[11] Iftene, A. “Textual Entailment”, PhD. Thesis (Technical Report). "Al. I. Cuza", University, Romania, 2009, pp. 25-30.
[12] Ido Dagan, Bill Dolan, Bernardo Magnini, Dan Roth. “Recognizing textual entailement: Rational, evaluation and approaches”. In Natural Language Engineering15(4):i-xvii, Cambridge University Press 2009, pp. 5-8
[13] Marie Guegan and Nicolas Hernandez, “Recognizing Textual Parallelisms with edit distance and similarity degree”, LIMSI-CNRS, Universit´e de Paris-Sud, France
[14] Marta Tatu and Dan Moldovan. “A semantic approach to recognizing textual entailment”. In Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing (HLT-EMNLP), 2005, pp. 371–378.
[15] Milen Kouylekov and Bernardo Magnini, “Tree Edit Distance for Recognizing Textual Entailment: Estimating the Cost of Insertion” , ITC-irst, Centro per la Ricerca Scientifica e Tecnologica , University of Trento, 2005
[16] Oren Glickman, Ido Dagan, Moshe Koppel. “A Lexical Alignment Model for Probabilistic Textual Entailment”, 2006.
[17] Peter Clark and Phil Harrison. “Recognizing textual entailment with logic inference”. In Proceedings of the Fourth PASCAL Challenges Workshop on Recognizing Textual Entailment. Gaithersburg, Maryland, USA. 2008
[18] Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual Entailment”, PhD. Thesis, March 2011, pp 38 -42, pp 124 -130.
[19] Rui Wang, Günter Neumann. “Recognizing Textual Entailment Using Sentence Similarity based on Dependency Tree Skeletons”, 2007, pp. 1-3.
[20] Valentin Jijkoun and Maarten de Rijke, “Recognizing Textual Entailment Using Lexical Similarity”, Informatics Institute, University of Amsterdam, 2006
[21] W.E. Bosma and C. Callison-Burch. “Paraphrase substitution for recognizing textual entailment”. In Working Notes of CLEF, Alicante, Spain, 2006, pp. 1–8. [22] Ken-ichi Yokote, Danushka Bollegala, Mitsuru Ishizuka, “Similarity is not
39
Entailment” Proceedings of the 26th National Conference on Artificial Intelligence (AAAI 2012), to appear in July, 2012"
[23] Masaaki Tsuchida and Kai Ishikawa, “A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features” ,