Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
837,91 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ DUNG PHÁT HIỆN KẾ THỪA VĂN BẢN ĐA NGÔNNGỮ LUẬN VĂN THẠC SỸ HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ DUNG PHÁT HIỆN KẾ THỪA VĂN BẢN ĐA NGƠN NGỮ Ngành: Cơng nghệ thơng tin Chun ngành: Hệ thống thông tin Mã số:60480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY HÀ NỘI – 2015 i Lời cảm ơn Lời đầu tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy tận tình hướng dẫn bảo tơi suốt q trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn thầy, cô trường đại học Công Nghệ - đại học Quốc gia Hà Nội tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn đến anh chị, bạn phịng thí nghiệm KTLab hỗ trợ tơi nhiều kiến thức chun mơn q trình thực luận văn Cuối cùng, xin gửi lời cám ơn vơ hạn tới gia đình bạn bè, người bên cạnh, giúp động viên tơi q trình học tập suốt q trình thực luận văn Tơi xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2015 Học viên Nguyễn Thị Dung ii Lời cam đoan Tôi xin cam đoan phương pháp phát kế thừa văn đa ngơn ngữ với thực nghiệm trình bày luận văn thực hướng dẫn PGS.TS Hà Quang Thụy Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo iii MỤC LỤC Lời cảm ơn i Lời cam đoan ii MỤC LỤC iii Danh sách bảng v Danh sách hình vẽ vi Danh sách từ viết tắt vii Lời mở đầu Chương 1: Giới thiệu toán kế thừa văn đa ngôn ngữ 1.1 Khái quát kế thừa văn 1.1.1 Khái niệm kế thừa văn 1.1.2 Phát biểu toán phát kế thừa văn 1.2 Kế thừa văn đa ngôn ngữ 1.2.1 Động lực mục tiêu 1.2.2 Khái niệm kế thừa văn đa ngôn ngữ 1.3 Các ứng dụng toán phát kế thừa văn đa ngôn ngữ 1.4 Tóm tắt chương Chương 2: Các hướng tiếp cận toán RTE CLTE 2.1 Hướng tiếp cận cho toán RTE 2.1.1 Giới thiệu chung hướng tiếp cận sử dụng học máy 2.1.2 Một số hệ thống phát kế thừa văn có sử dụng học máy 12 2.2 Hướng tiếp cận cho toán CLTE 15 2.2.1 Hướng tiếp cận 15 2.2.2 Hướng tiếp cận nâng cao 18 2.3 Tiếp cận luận văn với phát kế thừa văn đa ngôn ngữ 23 2.4 Tóm tắt chương hai 24 Chương 3: Mơ hình phát kế thừa văn đa ngơn ngữ 25 3.1 Giới thiệu 25 3.2 Mơ hình đề xuất 26 3.2.1 Thành phần dịch máy 27 iv 3.2.2 Thành phần phát kế thừa 28 3.3 Tóm tắt chương ba 33 Chương 4: Thực nghiệm đánh giá 34 4.1 Môi trường thực nghiệm 34 4.1.1 Cấu hình phần cứng 34 4.1.2 4.2 4.3 Công cụ phần mềm 34 Dữ liệu thực nghiệm 34 Thực nghiệm 35 4.4 Đánh giá hệ thống 36 4.4.1 Kết thực nghiệm 36 4.4.2 Đánh giá hệ thống 38 4.5 Tóm tắt chương bốn 38 Kết luận định hướng nghiên cứu 39 Tài liệu tham khảo 40 v Danh sách bảng Bảng 1: Một số ví dụ kế thừa văn Bảng 2: Một số ví dụ kế thừa văn đa ngôn ngữ Bảng 3: Các đặc trưng sử dụng cho phân lớp định [1] 13 Bảng 4: Ý nghĩa tham số 36 Bảng 5: Giá trị độ đo tập liệu sử dụng 37 vi Danh sách hình vẽ Hình 1: Mơ hình phát kế thừa văn dựa học máy SVM Julio Javier Castillo [6] 13 Hình 2: Hệ thống CLTE theo hướng tiếp cận 16 Hình 3: Mơ hình đề xuất Fandong Meng cộng [2] 16 Hình 4: Hệ thống CLTE theo hướng tiếp cận nâng cao 19 Hình 5: Sử dụng bảng cụm từ để ánh xạ cụm từ văn giả thuyết 20 Hình 6: Sử dụng bảng cụm từ kết hợp với hai bảng diễn giải để ánh xạ cụm từ văn giả thuyết 21 Hình 7: Hệ Thống CLTE dựa đối sánh từ 22 Hình 8: Hệ thống phát kế thừa văn đa ngơn ngữ Việt-Anh 26 Hình 9: Thành phần dịch máy 27 Hình 10: Thành phần phát kế thừa văn 28 Hình 11: Dữ liệu thực nghiệm cho trình đào tạo (training) 35 Hình 12: Biểu đồ thể kết trung bình thực nghiệm 38 vii Danh sách từ viết tắt STT Tên viết tắt TE Cụm từ tiếng Anh Textual Entailment RTE Recognizing Textual Entailment NLP Natural Language Processing QA Question Answering System IR Information Retrieval MT Machine Translation IE Information Extraction SVMs Support Vector Machines CLTE Cross Lingual Textual Entailment Lời mở đầu Trong năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên thu hút quan tâm đặc biệt nhà nghiên cứu đạt nhiều thành tựu đáng kể Trong đó, thành cơng nhiều ứng dụng ngơn ngữ tự nhiên tự động việc hiểu xác ngữ nghĩa văn dựa theo cấu trúc cú pháp cách sử dụng máy tính Điều trở thành thách thức với văn diễn đạt ý nghĩa sử dụng cấu trúc cú pháp từ ngữ khác Các ứng dụng ngôn ngữ tự nhiên tự động tận dụng thành phần làm mịn để xử lý hiệu văn có cấu trúc phức tạp Một toán xử lý văn việc suy luận ngữ nghĩa đoạn văn từ đoạn trích văn tiềm khác Bài toán trở thành hướng nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên biết đến toán phát kế thừa văn (Recognizing Textual Entailment:RTE).Bài toán phát kế thừa văn lần Dagan Glickman đề xuất [3].Cho hai đoạn văn bản, toán phát kế thừa văn có mục đích xác định xem nghĩa văn suy luận (kế thừa) từ văn lại hay không Từ nhu cầu thực tế lĩnh vực khác xử lý ngơn ngữ tự nhiên, tốn phát kế thừa văn nhận quan tâm nhà khoa học nhóm nghiên cứu giới Từ năm 2004 đến nay, hội nghị RTE tổ chức thường niên hàng năm nhằm mục đích so sánh tổng hợp lại phương pháp phát kế thừa văn tốt Hội nghị RTE tiến hành khuôn khổ hội nghị thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007) Phân tích xử lý văn (TAC: Text Analysis Conference, từ năm 2008 tới nay) Gần đây, thách thức toán phát kế thừa văn phát mối quan hệ kế thừa cho văn viết ngôn ngữ khác nhau: Anh, Tây Ban Nha, Pháp,…Chính thế, tốn phát kế thừa văn đa ngơn ngữđã hình thành(Cross-lingual Textual Entailment - CLTE) Bài tốn CLTE lần Mehdadđề xuất [14] mở rộng kế thừa văn Bài toán CLTE sử dụng đồng hóa nội dung văn tổ chức khuôn khổ hội nghị Đánh giá ngữ nghĩa SemEval-20121 (Semantic Evaluation) Phát kế thừa văn nói chung phát kế thừa văn đa ngơn ngữnói riêng tốn Việt Nam Hiện tại, có nhóm nghiên cứu Việt Nam tìm hiểu nghiên cứu tốn Mặc dù có phương pháp phát kế thừa văn mang lại kết khả quan tiếng Anh tính hiệu chúng http://www.cs.york.ac.uk/semeval-2012/ 27 3.2.1 Thành phần dịch máy Trong năm gần đây, nhiều mơ hình dịch máy mang lại hiệu cao Tuy nhiên, mơ hình dịch máy yêu cầu tập ngữ liệu song ngữ để trích chọn quy tắc dịch, tập ngữ liệu song ngữ số cặp ngôn ngữ Anh-Việt, ViệtAnh khó để có Trong q trình khảo sát, chúng tơi nhận thấy “Microsoft Translate API” công cụ hiệu để dịch văn tiếng Anh sang văn tiếng Việt ngược lại Vì chúng tơi lựa chọn “Microsoft Translate API” để dịch văn tiếng Anh sang văn tiếng Việt Đầu vào: Tập cặp câu văn Việt-Anh Đầu ra: Tập cặp câu văn Việt-Việt Văn tiếng Anh Microsoft Translate API Văn tiếng Việt Hình 9: Thành phần dịch máy 28 3.2.2 Thành phần phát kế thừa Thành phần phát kế thừa văn thể hình vẽ đây: Tập huấn luyện Loại bỏ từ dừng Tách từ Tiền xử lý Đo độ tương đồng ngữ nghĩa từ vựng Cosin Manhattan Jaccard …… Trích chọn đặc trưng Tập kiểm tra SVM1 SVM2 Kết Hình 10: Thành phần phát kế thừa văn Với cặp câu văn bản, đầu tiên, tiến hành tiền xử lý với module tùy chọn Sau đó, chúng tơi tiến hành trích chọn đặc trưng sử dụng đặc trưng vào hai phân lớp SVM Cuối cùng, kết hợp kết từ hai phân lớp SVM vàđưa phán kế thừa cho cặp câu văn Các bước thự thành phần phát kế thừa văn thực sau: 3.2.2.1 Tiền xử lý Đầu vào: Tập cặp câu văn có sau văn thứ hai dịch sang tiếng Việt việc sử dụng thành phần dịch máy 29 Đầu ra: Tập cặp câu văn tách từ loại bỏ từ dừng Quá trình tiền xử lý thực sau: Tách từ: Cặp câu văn tách từ công cụ tách từ, tách câu vnTokenizer Loại bỏ từ dừng: Sau cặp câu văn tách thành từ chúng tơi loại bỏ từ dừng xuất 3.2.2.2 Trích chọn đặc trưng Đầu vào: Tập cặp câu văn tiền xử lý:được tách từ loại bỏ từ dừng Đầu ra: Các giá trị đặc trưng cặp câu văn Chúng tơi tính 20 đặc trưng thuộc từ vựng ngữ nghĩa Sau đây, chúng tơi xin trình bày số đặc trưng tiêu biểu Cho hai vector: ⃗ = ( , ……, ) ⃗ = ( , … , ) khơng gian vector n chiều Trong đó, n số từ phân biệt xuất T1, T2 , số lần xuất từ số từ phân biệt T1 T2 Ví dụ: T1: Vụ tai nạn xảy làm 50 người bị chết T2: 50 người bị chết vụ tai nạn giao thông Các từ phân biệt T1 T2 là: vụ, tai nạn, xảy ra, làm, 50, người, bị, chết, trong, giao thơng Khi đó, giá trị hai vector ⃗ ⃗ thể sau: ⃗= (1,1,1,1,1,1,1,1,0,0) ⃗ = (1,1,0,0,1,1,1,1,1.1) Khoảng cách Manhattan: Được biết đến khoảng cách City Block hay cách xác định theo công thức sau: ( ⃗, ⃗) = ∑ | Khoảng − | Khoảng cách Euclidean: Khoảng cách tính theo cơng thức: ( ⃗, ⃗) = ∑ ( − ) Độ tương đồng Cosin: Được định nghĩa theo công thức sau: Cos( ⃗, ⃗) = ⃗ ⃗ || ⃗||.|| ⃗|| Hệ số Matching:Gọi X tập từ phân biệt văn t, Y tập từ phân biệt giả thuyết h Khi đó, hệ số Matching |X ∩ Y| 30 Hệ số Dice:Được định nghĩa theo công thức sau: D= | ∩ | | | Hệ số Jaccard:Được định nghĩa theo công thức sau: J= | ∩ | | ∪ | Chuỗi chung dài nhất: Một chuỗi chung hai xâu chuỗi ký tự xuất hai xâu Chuỗi chung dài chuỗi chung có độ dài lớn Để tính độ đo T1 T2 văn chia nhỏ chúng thành token coi token kí tự độ dài T1 T2 tổng số token Ví dụ: T1: Vụ tai nạn xảy Hà Nội làm 50 người bị chết T2: 50 người bị chết vụ tai nạn giao thông Hà Nội Khi đó, chuỗi chung dài là: vụ- tai nạn-ở-Hà Nội Cho hai chuỗi T1 T2 Theo Levenshtein độ độ đo chuỗi chung dài tính theo cơng thức: lcs(T1,T2) = ( ( ( ( ), , )) ( )) Trong hầu hết trường hợp thông thường, min(Length(T1), Length(T2)) với Length(T2) giá trị biểu diễn đoạn [0,1] Phần trăm từ giả thuyết xuất văn nguồn Cho cặp văn T1 T2 Chúng đếm tổng số từ xuất T1 T2 Giả sử gọi W = {w1, w2, …, wk} tập từ có mặt T1 T2, W gồm có k phần tử ; Length(T1) độ dài văn T1 tính theo đơn vị từ Khi đó, chúng tơi có cơng thức tính phần trăm từ giả thuyết xuất văn nguồn: = ℎ( 1) Khoảng cách chuẩn Levenshtein dựa từ 31 Khoảng cách Levenshtein (được Vladimir Levenshtein đề vào năm 1965) thể khoảng cách khác biệt hai chuỗi kí tự Khoảng cách Levenshtein chuỗi T2 chuỗi T1 số bước biến đổi chuỗi T2 thành chuỗi T1 thơng qua ba phép biến đổi là: xóa kí tự, thêm kí tự thay kí tự thành kí tự khác Ví dụ: Khoảng cách chuỗi “kitten” “sitting” phải dùng ba lần biến đổi kitten -> sitten (thay "k" "s") sitten -> sittin (thay "e" "i") sittin -> sitting (thêm kí tự "g") Khoảng cách Levenshtein tính tốn cách sử dụng thuật tốn quy hoạch động, tính tốn mảng chiều (n+1).(m+1) với m, n độ dài chuỗi cần tính Sau đoạn mã (T2,T1 chuỗi cần tính khoảng cách n, m độ dài hai chuỗi) int LevenshteinDistance(char h[1 m], char t[1 n]) // d is a table with m+1 rows and n+1 columns declare int d[0 m, n] for i from to m d[i, 0] := i for j from to n d[0, j] := j for i from to m for j from to n { if h[i] = t[j] then cost := else cost := d[i, j] := minimum( d[i-1, j] + 1, // xoá d[i, j-1] + 1, // thêm d[i-1, j-1] + cost // thay 32 ) } return d[m, n] 3.2.2.3 Phân lớp kế thừa văn học máy SVM Chúng sử dụng học máy SVM cho phán kế thừa văn : Đầu vào : Tập đặc trưng thu từ bước trích chọn đặc trưng cặp câu văn T1, T2 Đầu : Tập cặp câu văn gán bốn nhãn kế thừa: “bidirectional”, “forward”, “backward”, “no entailment” Để gán bốn loại nhãn kế thừa cho câu cặp văn liệt kê trên, sử dụng hai phân lớp SVM nhị phân: Bộ phân lớp nhị phân SVM1 Đầu vào : Các đặc trưng cặp văn T1, T2 Trong đó, văn T2 đóng vai trị giả thuyết Đầu : Kết phân lớp với phương án hai phán kế thừa (“yes”, “no”) Nhãn “yes” tương đương với T1 kế thừa T2, nhãn “no” tương đương với T1 không kế thừa T2 Bộ phân lớp nhị phân SVM2 Đầu vào : Các đặc trưng cặp văn T1, T2 Trong đó, văn T1 đóng vai trị giả thuyết Đầu : Kết phân lớp với phương án hai phán kế thừa (“yes”, “no”) Nhãn “yes” tương đương với T2 kế thừa T1, nhãn “no” tương đương với T2 không kế thừa T1 Từ kế hai phân lớp SVM, kết hợp gán nhãn lại cho tập cặp câu văn sau : Gán nhãn “bidirectional” cho cặp câu văn cặp câu văn gán nhãn “yes” hai phân lớp SVM1 SVM2 Gán nhãn “forward” cho cặpcâu văn chúng gán nhãn “yes” phân lớp SVM1 gán nhãn “no” phân lớp SVM2 Gán nhãn “backward” cho cặpcâu văn chúng gán nhãn “no” phân lớp SVM1 gán nhãn “yes” phân lớp SVM2 Gán nhãn “no entailment” cho cặp câu văn chúng gán nhãn “no” hai phân lớp SVM1 SVM2 33 Việc phán kế thừa cho cặp câu văn – giả thuyết tương tự việc phân lớp văn Vì thế, để áp dụng học máy SVM vào toán phát kế thừa văn chúng tơi coi cặp câu văn nguồn - giả thuyết tương ứng với mẫu văn Mẫu thuộc lớp dương cặp câu văn nguồn - giả thuyết có quan hệ kế thừa, thuộc lớp âm cặp câu văn nguồn - giả thuyết khơng có quan hệ không kế thừa Tập giá trị đặc trưng tương ứng với vector trọng số Hai phân lớp SVM sử dụng liệu huấn luyện nhóm đặc trưng giống Nhóm đặc trưng bao gồm độ đo như: khoảng cách Manhattan, khoảng cách Euclidean, độ tương đồng Cosin, hệ số Matching, hệ số Dice, hệ số Jaccard, hệ số Jaro, số đặc trưng khác 3.3 Tóm tắt chương ba Trên sở nghiên cứu phân tích phương pháp, luận văn đề xuất mơ hình phát kế thừa văn đa ngôn ngữdựa hướng tiếp cận Mehdad cộng [13] trình bày bước thực hệ thống Trong chương bốn, luận văn trình bày phần thực nghiệm, sau đưa kết quả, nhận xét đánh giá 34 Chương 4: Thực nghiệm đánh giá Trong chương này, chúng tơi trình bày thực nghiệm mơ hình đề xuất chương ba Chúng tiến hành thực nghiệm 1600 cặp câu văn Trong đó, câu văn thứ văn dịch từ tập liệu tiếng Anh hội nghị RTE-3, câu văn thứ hai tập liệu tiếng Anh hội nghị RTE3 Dựa vào kết thực nghiệm, tiến hành đánh giá, nhận xét đưa định hướng Kết thực nghiệm cho thấy mô hình hệ thống đề xuất chương ba khả quan 4.1 Mơi trường thực nghiệm 4.1.1 Cấu hình phần cứng Bảng 3: Cấu hình phần cứng Thành phần Phiên CPU Intel Core i3 M330 2.13Ghz RAM 4GB HDD 320GB OS Windows 10 32 bits 4.1.2 Công cụ phần mềm Bảng 4: Công cụ phần mềm STT Tên phầm mềm Eclipse-SDK-3.4.0win32 vnTokenizer Tác giả Nguồn http://www.eclipse.org/dowloads Lê Hồng Phương http://www.loria.fr/~lehong/tools/vn Tokenizer.php 4.2 Dữ liệu thực nghiệm Chúng tiến hành thực nghiệm 1600 cặp câu văn hội nghị RTE-3, đó, câu văn T1 câu văn tập liệu RTE-3 dịch sang tiếng 35 Việt, câu văn T2 câu văn nguyên gốc tập liệu RTE-3 Do đó, liệu thực nghiệm liệu chuẩn, đáng tin cậy Tập liệu có định dạng hình đây: Hình 11: Dữ liệu thực nghiệm cho trình đào tạo (training) 4.3 Thực nghiệm Để thử nghiệm chương trình, chúng tơi tiến hành bước sau: Bước 1:Dịch câu văn T2 tập văn từ tiếng Anh sang tiếng Việt thành phần dịch máy Bước 2:Sử dụng công cụ mã nguồn mở vnTokenizer tác giả Lê Hồng Phương để tách từ cho tất cặp câu văn tiến hành loại bỏ từ dừng Bước 3: Từ tập cặp văn tách từ, chúng tơi tiến hành trích xuất đặc trưng cách sử dụng độ đo giới thiệu chương ba với việc sử dụng từ điển đồng nghĩa tiếng Việt Bước 4: Nhóm giá trị đặc trưng thu bước Sau đó, sử dụng nhóm đặc trưng tập liệu huấn luyện để học mơ hình cho phân lớp SVM 36 Bước 5: Sau có mơ hình học bước 4, áp dụng cho tập liệu kiểm tra để đưa phán kế thừa Tập liệu kiểm trasau qua phân lớp phân lớp vào lớp sau:BI (bidirectional), FW (forward), BW (backward), NE (no entailment) 4.4 Đánh giá hệ thống Hệ thống đánh giá chất lượng thơng qua ba độ đo: độ xác (precision), độ hồi tưởng (recall), độ đo F (F-measure) Ba độ đo tính theo cơng thức sau đây: = + = + = 2∗ ∗ + Ý nghĩa giá trị thích bảng đây: Bảng 4: Ý nghĩa tham số Giá trị Ý nghĩa Số cặp câu văn – giá thuyết thực tế kế thừa hệ thống phán kế thừa Số cặp câu văn – giả thuyết thực tế kế thừa hệ thống phán không kế thừa Số cặp câu văn – giả thuyết thực tế không kế thừa hệ thống phán không kế thừa Số cặp câu văn – giả thuyết thực tế không kế thừa hệ thống phán kế thừa 4.4.1 Kết thực nghiệm Chúng tiến hành thực nghiệm 1600 cặp câu văn từ tập liệu chuẩn hội nghị RTE-3 (trong câu văn T1 dịch sang tiếng Việt) Chúng sử dụng phương pháp đánh giá chéok-fold cross validationvới k=4để đánh giá kết thực nghiệm Chúng chia liệu thành bốn phần Data1, Data2,Data3, Data4 Trong đó, phần liệu sử dụng để làm liệu kiểm tra, ba phần liệu sử dụng để làm liệu huấn luyện cho hai phân lớp SVM1 SVM2 37 Chúng tơi thực thí nghiệm sau: Thí nghiệm 1: Tập liệu kiểm tra: Data1, tập liệu huấn luyện: Data2, Data3,Data4 Thí nghiệm 2: Tập liệu kiểm tra: Data2, tập liệu huấn luyện: Data1, Data3, Data4 Thí nghiệm 3: Tập liệu kiểm tra: Data3, tập liệu huấn luyện: Data1, Data2, Data4 Thí nghiệm 4: Tập liệu kiểm tra: Data4, tập liệu huấn luyện: Data1, Data2, Data3 Kết thí nghiệm thể bảng đây: Bảng 5: Giá trị độ đo tập liệu sử dụng Đo Precision Recall F-measure Test BI FW BW NE BI FW BW NE BI FW BW NE Data1 0.65 0.35 0.70 0.56 0.80 0.47 0.67 0.62 0.72 0.40 0.68 0.59 Data2 0.90 0.53 0.80 0.55 0.94 0.51 0.79 0.66 0.92 0.52 0.79 0.60 Data3 0.76 0.15 0.87 0.57 0.92 0.68 0.54 0.51 0.83 0.25 0.67 0.54 Data 0.92 0.27 0.78 0.38 0.52 0.51 0.90 0.36 0.66 0.35 0.84 0.37 TB 0.33 0.79 0.52 0.80 0.54 0.73 0.54 0.78 0.38 0.75 0.52 0.81 Dưới biểu đồ thể kết tổng hợp lấy giá trị trung bình kết theo đánh giá chéo 4-fold cross validation 38 0.9 0.8 0.7 0.6 Precision 0.5 Recall F-measure 0.4 0.3 0.2 0.1 BI FW BW NE Hình 12: Biểu đồ thể kết trung bình thực nghiệm 4.4.2 Đánh giá hệ thống Chúng sử dụng ba độ đo: precision, recall F-measure để đánh giá hệ thống Qua trình tổng hợp đánh giá kết thực nghiệm, thấy mơ hình hệ thống đề xuất chương ba có tính khả thi với độ đo F trung bình đạt 0.61 4.5 Tóm tắt chương bốn Trong chương này, luận văn tiến hành thực nghiệm mơ hình đề xuất chương ba Dữ liệu thực nghiệm liệu dịch sang tiếng Việt từ liệu chuẩn lấy từ hội nghị RTE-3 Luận văn tiến hành bốn thực nghiệm với kết đạt độ đo F trung bình 0.61 Kết cho thấy tính khả thi mơ hình đề xuất 39 Kết luận định hướng nghiên cứu Qua trình tìm hiểu phân tích phương pháp phát kế thừa văn đa ngôn ngữ số nhóm nghiên cứu giới phát triển kết nghiên cứu phát kế thừa văn tiếng Việt có [11, 10], luận văn đề xuất mơ hình phát kế thừa văn đa ngôn ngữ cặp câu văn Việt-Anh Luận văn đạt kết sau đây: - Hệ thống hóa tốn phát kế thừa văn đa ngơn ngữcũng phân tích hướng tiếp cận để giải toán phát kế thừa văn đa ngôn ngữ - Đề xuất cài đặt mơ hình phát kế thừa văn đa ngôn ngữtrên cặp văn Việt – Anh Thực nghiệm tập liệu chuẩn hội nghị RTE-3 với cặp câu văn Việt – Anh Kết thực nghiệm với độ đo F trung bình 0.61 cho thấy tính khả thi luận văn - Tuy nhiên, luận văn tồn tài mặt hạn chế như:chưa so sánh độ tương đồng trực tiếp cặp câu văn Việt – Anh, chưa mở rộng phát kế thừa văn cho ngơn ngữ khác (đóng vai trị văn T2) ngồi tiếng Anh Trong thời gian tới, chúng tơi tiếp tục nghiên cứu toán phát kế thừa văn đa ngôn ngữtheo hướng tiếp cận nâng cao đề cập mục 2.2.2 với ý tưởng so sánh độ tương đồng trực tiếp cặp câu văn Việt-Anh mà không sử dụng dịch máy, mở rộng hệ thống phát kế thừa văn đa ngôn ngữ nhiều ngôn ngữ khác 40 Tài liệu tham khảo [1] Eamonn Newman, NicolaStokes, John Dunnion, and JoeCarthy, “Textual Entailment Recognition Using aLinguistically–Motivated Decision Tree Classifier”,Springer Berlin Heidelberg, 2006: 372-384 [2] Fandong Meng, Hao Xiong and Qun Liu, “A Translation based Method for Crosslingual Textual Entailment”, In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval 2012) [3] Ido Dagan and Oren Glickman, “Generic Applied Modeling of Language Variability”, In Proceedings of PASCAL Workshop on Learning Methods for Text Understanding and Mining, Grenoble, France, 2004 [4] Jiang Zhao, Man Lan, Zheng-Yu Niu, “ECNUCS: Recognizing Cross-lingual Textual Entailment Using Multiple Text Similarity and Text Difference Measures”, In Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) [5] Johan Bos and Katja Market, “When logical inference helps determining textual entailment (and when it doesn’t)”, In Proceedings of Second PASCAL Chanllenges Workshop on Recognising Textual Entailment, Venice, Italy, 2006 [6] Julio Javier Castillo,“An approach to Recognizing Textual Entailment and TE SearchTask using SVM”, Procesamiento del Lenguaje Natural, N44, marzo de 2010: 139-145, http://www.sepln.org/revistaSEPLN/revista/44/revista44.pdf [7] Katharina Wăaschle and Sascha Fendrich, “HDU: Cross-lingual Textual Entailment with SMT Features”, In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval 2012), pages 467–471, Montreal, Canada [8] Marco Turchi and Matteo Negri, “Word Alignment Features for Cross-lingual Textual Entailment”, In Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) [9] Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu, “Using Machine Translation for Recognizing Textual Entailment in Vietnamese Language”,In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2012 IEEE RIVF International Conference}, pp.1-6, March, 2012 41 [10] Minh-Tien Nguyen, Quang-Thuy Ha, Thi-Dung Nguyen, Tri-Thanh Nguyen and Le-Minh Nguyen, “Recognizing Textual Entailment in Vietnamese Text: An Experimental Study”,KSE 2015 (submitted) [11] Quang-ThuyHa, Thi-Oanh Ha, Thi-Dung Nguyen, and Thuy-Linh Nguyen Thi, “Refinding the Judgment Threshold to Improve Recognizing Textual Entailment Using Simility”, ICCCI (2), 2012: 335-344 [12] Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual Entailment”, PhD Thesis, Saarland University, 2011 [13] Yashar Mehdad, “Cross-Lingual Textual Entailment and Applications”, PhD Thesis, University of Trento, 2012 [14] Yashar Mehdad, Matteo Negri, Marcello Federico, “Towards Cross-Lingual Textual Entailment”, In Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL HLT 2010) [15] Yashar Mehdad, Matteo Negri, and Jose Guilherme C de Souza, “FBK: crosslingual textual entailment without translation” In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval 2012), pages 701–705, Montreal, Canada [16] Yvette Graham, Bahar Salehi, Timothy Baldwin, “Cross-lingual Textual Entailment with Word Alignment and String Similarity Features”, In Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) [17] Ido Dagan, Dan Roth, Mark Sammons, and Fabio Massimo Zanzotto, “Recognizing Textual Entailment: Models and Applications”, Morgan & Claypool, 2013 ... tốn phát kế thừa văn văn tiếng Việt tốn khó Bởi lý này, luận văn giới thiệu khái quát phát kế thừa văn đơn ngônngữ đa ngôn ngữ, sau đó, đề xuất mơ hình phát kế thừa văn đa ngôn ngữtrên cặp câu văn. .. phát kế thừa văn đa ngôn ngữ 1.4 Tóm tắt chương Trong chương một, luận văn trình bày số nội dung liên quan đến kế thừa văn khái niệm phát kế thừa văn bản, khái niệm phát kế thừa văn đa ngơn ngữ. .. pháp phát kế thừa văn đa ngôn ngữ số nhóm nghiên cứu giới phát triển kết nghiên cứu phát kế thừa văn tiếng Việt có [11, 10], luận văn đề xuất mơ hình phát kế thừa văn đa ngôn ngữ cặp câu văn Việt-Anh