Mơi trường thực nghiệm

4.1.1 Cấu hình phần cứng.

Bảng 3: Cấu hình phần cứng. Thành phần Phiên bản

CPU Intel Core i3 M330 2.13Ghz

RAM 4GB

HDD 320GB

OS Windows 10 32 bits

4.1.2 Cơng cụ phần mềm.

Bảng 4: Cơng cụ phần mềm.

STT Tên phầm mềm Tác giả Nguồn

1 Eclipse-SDK-3.4.0- win32

http://www.eclipse.org/dowloads

2 vnTokenizer Lê Hồng Phương http://www.loria.fr/~lehong/tools/vn Tokenizer.php

4.2 Dữ liệu thực nghiệm

Chúng tơi tiến hành thực nghiệm trên 1600 cặp câu văn bản trong hội nghị RTE-3, trong đĩ, câu văn bản T1 là câu văn bản trong tập dữ liệu RTE-3 đã được dịch sang tiếng

Việt, câu văn bản T2 là câu văn bản nguyên gốc trong tập dữ liệu RTE-3. Do đĩ, dữ liệu thực nghiệm là dữ liệu chuẩn, đáng tin cậy. Tập dữ liệu cĩ định dạng như hình dưới đây:

Hình 11: Dữ liệu thực nghiệm cho quá trình đào tạo (training) 4.3 Thực nghiệm

Để thử nghiệm chương trình, chúng tơi tiến hành các bước sau:

 Bước 1:Dịch câu văn bản T2 trong tập văn bản từ tiếng Anh sang tiếng Việt

bằng thành phần dịch máy.

 Bước 2:Sử dụng bộ cơng cụ mã nguồn mở vnTokenizer của tác giả Lê Hồng

Phương để tách từ cho tất cả các cặp câu văn bản và tiến hành loại bỏ từ dừng.  Bước 3: Từ tập các cặp văn bản đã được tách từ, chúng tơi tiến hành trích xuất

các đặc trưng bằng cách sử dụng các độ đo như đã giới thiệu ở chương ba cùng với việc sử dụng từ điển đồng nghĩa tiếng Việt.

 Bước 4: Nhĩm các giá trị đặc trưng thu được ở bước 3. Sau đĩ, sử dụng các

nhĩm đặc trưng này và tập dữ liệu huấn luyện để học mơ hình cho các bộ phân lớp SVM.

 Bước 5: Sau khi đã cĩ mơ hình học ở bước 4, chúng tơi áp dụng cho tập dữ liệu

kiểm tra để đưa ra phán quyết kế thừa.

Tập dữ liệu kiểm trasau khi qua các bộ phân lớp thì sẽ được phân lớp vào một trong các lớp sau:BI (bidirectional), FW (forward), BW (backward), và NE (no entailment). 4.4 Đánh giá hệ thống

Hệ thống được đánh giá chất lượng thơng qua ba độ đo: độ chính xác (precision), độ hồi tưởng (recall), và độ đo F (F-measure). Ba độ đo này được tính theo các cơng

thức sau đây: = + = + =2 ∗ ∗ +

Ý nghĩa của các giá trị được chú thích trong bảng dưới đây: Bảng 4: Ý nghĩa của các tham số

Giá trị Ý nghĩa

Số các cặp câu văn bản – giá thuyết thực tế là kế thừa và hệ thống cũng phán quyết là kế thừa.

Số các cặp câu văn bản – giả thuyết thực tế là kế thừa và hệ thống phán quyết là khơng kế thừa.

Số các cặp câu văn bản – giả thuyết thực tế là khơng kế thừa và hệ thống cũng phán quyết là khơng kế thừa. Số các cặp câu văn bản – giả thuyết thực tế là khơng kế thừa và hệ thống phán quyết là kế thừa.

4.4.1 Kết quả thực nghiệm.

Chúng tơi tiến hành thực nghiệm trên 1600 cặp câu văn bản từ tập dữ liệu chuẩn trong hội nghị RTE-3 (trong đĩ câu văn bản T1 đã được dịch sang tiếng Việt). Chúng tơi

sử dụng phương pháp đánh giá chéok-fold cross validationvới k=4để đánh giá kết quả

thực nghiệm. Chúng tơi chia dữ liệu thành bốn phần là Data1, Data2,Data3, Data4. Trong đĩ, một phần dữ liệu được sử dụng để làm dữ liệu kiểm tra, ba phần dữ liệu được sử dụng để làm dữ liệu huấn luyện cho hai bộ phân lớp SVM1 và SVM2.

Chúng tơi thực hiện các thí nghiệm như sau:

 Thí nghiệm 1: Tập dữ liệu kiểm tra: Data1, tập dữ liệu huấn luyện: Data2,

Data3,Data4.

 Thí nghiệm 2: Tập dữ liệu kiểm tra: Data2, tập dữ liệu huấn luyện: Data1, Data3,

Data4.

 Thí nghiệm 3: Tập dữ liệu kiểm tra: Data3, tập dữ liệu huấn luyện: Data1, Data2,

Data4.

 Thí nghiệm 4: Tập dữ liệu kiểm tra: Data4, tập dữ liệu huấn luyện: Data1, Data2,

Data3.

Kết quả của các thí nghiệm được thể hiện trong bảng dưới đây:

Bảng 5: Giá trị độ đo của các tập dữ liệu khi sử dụng

Đo

Test

Precision Recall F-measure

BI FW BW NE BI FW BW NE BI FW BW NE Data1 0.65 0.35 0.70 0.56 0.80 0.47 0.67 0.62 0.72 0.40 0.68 0.59 Data2 0.90 0.53 0.80 0.55 0.94 0.51 0.79 0.66 0.92 0.52 0.79 0.60 Data3 0.76 0.15 0.87 0.57 0.92 0.68 0.54 0.51 0.83 0.25 0.67 0.54 Data 4 0.92 0.27 0.78 0.38 0.52 0.51 0.90 0.36 0.66 0.35 0.84 0.37 TB 0.81 0.33 0.79 0.52 0.80 0.54 0.73 0.54 0.78 0.38 0.75 0.52

Dưới đây là biểu đồ thể hiện kết quả tổng hợp khi lấy giá trị trung bình kết quả theo đánh

Hình 12: Biểu đồ thể hiện kết quả trung bình của các thực nghiệm 4.4.2 Đánh giá hệ thống

Chúng tơi đã sử dụng ba độ đo: precision, recall và F-measure để đánh giá hệ thống. Qua quá trình tổng hợp và đánh giá các kết quả thực nghiệm, chúng tơi thấy rằng mơ hình hệ thống đề xuất ở chương ba cĩ tính khả thi với độ đo F trung bình đạt được là 0.61. 4.5 Tĩm tắt chương bốn

Trong chương này, luận văn đã tiến hành thực nghiệm trên mơ hình đề xuất trong chương ba. Dữ liệu thực nghiệm là bộ dữ liệu đã dịch sang tiếng Việt từ bộ dữ liệu chuẩn được lấy từ hội nghị RTE-3. Luận văn đã tiến hành bốn thực nghiệm với kết quả đạt được là độ đo F trung bình bằng 0.61. Kết quả này cho thấy được tính khả thi của mơ hình đề xuất. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 BI FW BW NE Precision Recall F-measure

Kết luận và định hướng nghiên cứu tiếp theo

Qua quá trình tìm hiểu và phân tích các phương pháp phát hiện kế thừa văn bản đa ngơn ngữ của một số nhĩm nghiên cứu trên thế giới và phát triển các kết quả nghiên cứu về phát hiện kế thừa văn bản tiếng Việt đã cĩ [11, 10], luận văn đề xuất một mơ hình phát hiện kế thừa văn bản đa ngơn ngữ trên các cặp câu văn bản Việt-Anh. Luận văn đạt được các kết quả sau đây:

- Hệ thống hĩa được bài tốn phát hiện kế thừa văn bản đa ngơn ngữcũng như phân tích các hướng tiếp cận để giải quyết bài tốn phát hiện kế thừa văn bản đa ngơn ngữ.

- Đề xuất và cài đặt mơ hình phát hiện kế thừa văn bản đa ngơn ngữtrên các cặp văn bản Việt – Anh.

- Thực nghiệm trên tập dữ liệu chuẩn của hội nghị RTE-3 với các cặp câu văn bản Việt – Anh. Kết quả thực nghiệm với độ đo F trung bình là 0.61 cho thấy được tính khả thi của luận văn.

Tuy nhiên, luận văn vẫn tồn tài mặt hạn chế như:chưa so sánh được độ tương đồng trực tiếp giữa cặp câu văn bản Việt – Anh, chưa mở rộng phát hiện kế thừa văn bản cho các ngơn ngữ khác (đĩng vai trị là văn bản T2) ngồi tiếng Anh.

Trong thời gian tới, chúng tơi sẽ tiếp tục nghiên cứu bài tốn phát hiện kế thừa văn bản đa ngơn ngữtheo hướng tiếp cận nâng cao như đã đề cập trong mục 2.2.2 với ý tưởng so sánh độ tương đồng trực tiếp trên cặp câu văn bản Việt-Anh mà khơng sử dụng dịch máy, mở rộng hệ thống phát hiện kế thừa văn bản đa ngơn ngữ trên nhiều ngơn ngữ khác nhau.

Tài liệu tham khảo.

[1] Eamonn Newman, NicolaStokes, John Dunnion, and JoeCarthy, “Textual

Entailment Recognition Using aLinguistically–Motivated Decision Tree Classifier”,Springer Berlin Heidelberg, 2006: 372-384.

[2] Fandong Meng, Hao Xiong and Qun Liu, “A Translation based Method for Cross-

lingual Textual Entailment”, In Proceedings of the 6th International Workshop on

Semantic Evaluation (SemEval 2012).

[3] Ido Dagan and Oren Glickman, “Generic Applied Modeling of Language

Variability”, In Proceedings of PASCAL Workshop on Learning Methods for Text

Understanding and Mining, Grenoble, France, 2004.

[4] Jiang Zhao, Man Lan, Zheng-Yu Niu, “ECNUCS: Recognizing Cross-lingual

Textual Entailment Using Multiple Text Similarity and Text Difference Measures”,

In Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013).

[5] Johan Bos and Katja Market, “When logical inference helps determining textual

entailment (and when it doesn’t)”, In Proceedings of Second PASCAL

Chanllenges Workshop on Recognising Textual Entailment, Venice, Italy, 2006.

[6] Julio Javier Castillo,“An approach to Recognizing Textual Entailment and TE

SearchTask using SVM”, Procesamiento del Lenguaje Natural, Nº44, marzo de

2010: 139-145, http://www.sepln.org/revistaSEPLN/revista/44/revista44.pdf.

[7] Katharina W¨aschle and Sascha Fendrich, “HDU: Cross-lingual Textual

Entailment with SMT Features”, In Proceedings of the 6th International Workshop

on Semantic Evaluation (SemEval 2012), pages 467–471, Montreal, Canada.

[8] Marco Turchi and Matteo Negri, “Word Alignment Features for Cross-lingual

Textual Entailment”, In Proceedings of the Seventh International Workshop on

Semantic Evaluation (SemEval 2013).

[9] Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu, “Using Machine

Translation for Recognizing Textual Entailment in Vietnamese Language”,InComputing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2012 IEEE RIVF International Conference}, pp.1-6, March, 2012.

[10] Minh-Tien Nguyen, Quang-Thuy Ha, Thi-Dung Nguyen, Tri-Thanh Nguyen and Le-Minh Nguyen, “Recognizing Textual Entailment in Vietnamese Text: An

Experimental Study”,KSE 2015 (submitted).

[11] Quang-ThuyHa, Thi-Oanh Ha, Thi-Dung Nguyen, and Thuy-Linh Nguyen Thi,

“Refinding the Judgment Threshold to Improve Recognizing Textual Entailment Using Simility”, ICCCI (2), 2012: 335-344.

[12] Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual

Entailment”, PhD Thesis, Saarland University, 2011.

[13] Yashar Mehdad, “Cross-Lingual Textual Entailment and Applications”, PhD

Thesis, University of Trento, 2012.

[14] Yashar Mehdad, Matteo Negri, Marcello Federico, “Towards Cross-Lingual

Textual Entailment”, In Proceedings of the 11th Annual Conference of the North

American Chapter of the Association for Computational Linguistics (NAACL HLT 2010).

[15] Yashar Mehdad, Matteo Negri, and Jose Guilherme C. de Souza, “FBK: cross-

lingual textual entailment without translation”. In Proceedings of the 6th

International Workshop on Semantic Evaluation (SemEval 2012), pages 701–705, Montreal, Canada.

[16] Yvette Graham, Bahar Salehi, Timothy Baldwin, “Cross-lingual Textual

Entailment with Word Alignment and String Similarity Features”, In Proceedings

of the Seventh International Workshop on Semantic Evaluation (SemEval 2013). [17] Ido Dagan, Dan Roth, Mark Sammons, and Fabio Massimo

Zanzotto, “Recognizing Textual Entailment: Models and Applications”, Morgan

Thành phần phát hiện kế thừa