1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện kế thừa văn bản đa ngôn ngữ

21 247 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 653,99 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ DUNG PHÁT HIỆN KẾ THỪA VĂN BẢN ĐA NGÔN NGỮ LUẬN VĂN THẠC SỸ HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ DUNG PHÁT HIỆN KẾ THỪA VĂN BẢN ĐA NGƠN NGỮ Ngành: Cơng nghệ thơng tin Chun ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY HÀ NỘI – 2015 i Lời cảm ơn Lời đầu tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc tới PGS.TS Hà Quang Thụy tận tình hướng dẫn bảo tơi suốt trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn thầy, cô trường đại học Công Nghệ - đại học Quốc gia Hà Nội tạo điều kiện thuận lợi cho học tập nghiên cứu Tôi xin gửi lời cảm ơn đến anh chị, bạn phịng thí nghiệm KTLab hỗ trợ nhiều kiến thức chuyên môn trình thực luận văn Cuối cùng, tơi xin gửi lời cám ơn vơ hạn tới gia đình bạn bè, người bên cạnh, giúp động viên tơi q trình học tập suốt q trình thực luận văn Tơi xin chân thành cảm ơn! Hà Nội, ngày tháng năm 2015 Học viên Nguyễn Thị Dung ii Lời cam đoan Tôi xin cam đoan phương pháp phát kế thừa văn đa ngôn ngữ với thực nghiệm trình bày luận văn tơi thực hướng dẫn PGS.TS Hà Quang Thụy Tất tài liệu tham khảo từ nghiên cứu liên quan có nguồn gốc rõ ràng danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo iii MỤC LỤC Lời cảm ơn i Lời cam đoan ii MỤC LỤC iii Danh sách bảng v Danh sách hình vẽ vi Danh sách từ viết tắt vii Lời mở đầu Chương 1: Giới thiệu toán kế thừa văn đa ngôn ngữ 1.1 Khái quát kế thừa văn 1.1.1 Khái niệm kế thừa văn 1.1.2 Phát biểu toán phát kế thừa văn 1.2 Kế thừa văn đa ngôn ngữ 1.2.1 Động lực mục tiêu 1.2.2 Khái niệm kế thừa văn đa ngôn ngữ 1.3 1.4 Các ứng dụng toán phát kế thừa văn đa ngôn ngữ Tóm tắt chương Chương 2: Các hướng tiếp cận toán RTE CLTE 2.1 Hướng tiếp cận cho toán RTE 2.1.1 Giới thiệu chung hướng tiếp cận sử dụng học máy 2.1.2 Một số hệ thống phát kế thừa văn có sử dụng học máy Error! Bookmark not defined 2.2 Hướng tiếp cận cho toán CLTE Error! Bookmark not defined 2.2.1 Hướng tiếp cận Error! Bookmark not defined 2.2.2 Hướng tiếp cận nâng cao Error! Bookmark not defined 2.3 Tiếp cận luận văn với phát kế thừa văn đa ngôn ngữ Error! Bookmark not defined 2.4 Tóm tắt chương hai Error! Bookmark not defined Chương 3: defined Mơ hình phát kế thừa văn đa ngôn ngữ Error! Bookmark not iv 3.1 Giới thiệu Error! Bookmark not defined 3.2 Mơ hình đề xuất Error! Bookmark not defined 3.2.1 Thành phần dịch máy .Error! Bookmark not defined 3.2.2 Thành phần phát kế thừa Error! Bookmark not defined 3.3 Tóm tắt chương ba .Error! Bookmark not defined Chương 4: 4.1 Thực nghiệm đánh giá Error! Bookmark not defined Môi trường thực nghiệm .Error! Bookmark not defined 4.1.1 Cấu hình phần cứng Error! Bookmark not defined 4.1.2 Công cụ phần mềm Error! Bookmark not defined 4.2 Dữ liệu thực nghiệm Error! Bookmark not defined 4.3 Thực nghiệm Error! Bookmark not defined 4.4 Đánh giá hệ thống Error! Bookmark not defined 4.4.1 Kết thực nghiệm Error! Bookmark not defined 4.4.2 Đánh giá hệ thống Error! Bookmark not defined 4.5 Tóm tắt chương bốn Error! Bookmark not defined Kết luận định hướng nghiên cứu Error! Bookmark not defined Tài liệu tham khảo 11 v Danh sách bảng Bảng 1: Một số ví dụ kế thừa văn Bảng 2: Một số ví dụ kế thừa văn đa ngôn ngữ Bảng 3: Các đặc trưng sử dụng cho phân lớp định [1] Error! Bookmark not defined Bảng 4: Ý nghĩa tham số .Error! Bookmark not defined Bảng 5: Giá trị độ đo tập liệu sử dụng .Error! Bookmark not defined vi Danh sách hình vẽ Hình 1: Mơ hình phát kế thừa văn dựa học máy SVM Julio Javier Castillo [6] Error! Bookmark not defined Hình 2: Hệ thống CLTE theo hướng tiếp cận Error! Bookmark not defined Hình 3: Mơ hình đề xuất Fandong Meng cộng [2] Error! Bookmark not defined Hình 4: Hệ thống CLTE theo hướng tiếp cận nâng cao .Error! Bookmark not defined Hình 5: Sử dụng bảng cụm từ để ánh xạ cụm từ văn giả thuyết Error! Bookmark not defined Hình 6: Sử dụng bảng cụm từ kết hợp với hai bảng diễn giải để ánh xạ cụm từ văn giả thuyết Error! Bookmark not defined Hình 7: Hệ Thống CLTE dựa đối sánh từ Error! Bookmark not defined Hình 8: Hệ thống phát kế thừa văn đa ngôn ngữ Việt-Anh Error! Bookmark not defined Hình 9: Thành phần dịch máy Error! Bookmark not defined Hình 10: Thành phần phát kế thừa văn .Error! Bookmark not defined Hình 11: Dữ liệu thực nghiệm cho trình đào tạo (training) Error! Bookmark not defined Hình 12: Biểu đồ thể kết trung bình thực nghiệm Error! Bookmark not defined vii Danh sách từ viết tắt STT Tên viết tắt TE Cụm từ tiếng Anh Textual Entailment RTE Recognizing Textual Entailment NLP Natural Language Processing QA Question Answering System IR Information Retrieval MT Machine Translation IE Information Extraction SVMs Support Vector Machines CLTE Cross Lingual Textual Entailment Lời mở đầu Trong năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên thu hút quan tâm đặc biệt nhà nghiên cứu đạt nhiều thành tựu đáng kể Trong đó, thành cơng nhiều ứng dụng ngơn ngữ tự nhiên tự động việc hiểu xác ngữ nghĩa văn dựa theo cấu trúc cú pháp cách sử dụng máy tính Điều trở thành thách thức với văn diễn đạt ý nghĩa sử dụng cấu trúc cú pháp từ ngữ khác Các ứng dụng ngôn ngữ tự nhiên tự động tận dụng thành phần làm mịn để xử lý hiệu văn có cấu trúc phức tạp Một toán xử lý văn việc suy luận ngữ nghĩa đoạn văn từ đoạn trích văn tiềm khác Bài toán trở thành hướng nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên biết đến toán phát kế thừa văn (Recognizing Textual Entailment: RTE) Bài toán phát kế thừa văn lần Dagan Glickman đề xuất [3] Cho hai đoạn văn bản, tốn phát kế thừa văn có mục đích xác định xem nghĩa văn suy luận (kế thừa) từ văn cịn lại hay khơng Từ nhu cầu thực tế lĩnh vực khác xử lý ngôn ngữ tự nhiên, toán phát kế thừa văn nhận quan tâm nhà khoa học nhóm nghiên cứu giới Từ năm 2004 đến nay, hội nghị RTE tổ chức thường niên hàng năm nhằm mục đích so sánh tổng hợp lại phương pháp phát kế thừa văn tốt Hội nghị RTE tiến hành khuôn khổ hội nghị thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007) Phân tích xử lý văn (TAC: Text Analysis Conference, từ năm 2008 tới nay) Gần đây, thách thức toán phát kế thừa văn phát mối quan hệ kế thừa cho văn viết ngơn ngữ khác nhau: Anh, Tây Ban Nha, Pháp,…Chính thế, tốn phát kế thừa văn đa ngơn ngữ hình thành (Cross-lingual Textual Entailment - CLTE) Bài toán CLTE lần Mehdad đề xuất [14] mở rộng kế thừa văn Bài toán CLTE sử dụng đồng hóa nội dung văn tổ chức khuôn khổ hội nghị Đánh giá ngữ nghĩa SemEval-20121 (Semantic Evaluation) Phát kế thừa văn nói chung phát kế thừa văn đa ngôn ngữ nói riêng tốn Việt Nam Hiện tại, có nhóm nghiên cứu Việt Nam tìm hiểu nghiên cứu tốn Mặc dù có phương pháp phát kế thừa văn mang lại kết khả quan tiếng Anh tính hiệu chúng http://www.cs.york.ac.uk/semeval-2012/ tiếng Việt cịn cần kiểm nghiệm Vì thế, toán phát kế thừa văn văn tiếng Việt toán khó Bởi lý này, luận văn giới thiệu khái quát phát kế thừa văn đơn ngôn ngữ đa ngôn ngữ, sau đó, đề xuất mơ hình phát kế thừa văn đa ngôn ngữ cặp câu văn Việt-Anh, cài đặt mơ hình tiến hành thực nghiệm kiểm định mơ hình Luận văn chia thành bốn chương với nội dung: Chương 1: Giới thiệu khái quát toán phát kế thừa văn đơn ngôn ngữ đa ngôn ngữ Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu tốn phát kế thừa văn bản, sau đó, luận văn giới thiệu toán phát kế thừa văn đa ngôn ngữ Ở cuối chương, luận văn trình bày ứng dụng thực tiễn phát kế thừa văn Chương 2: Trình bày hướng tiếp cận giải toán phát kế thừa văn đa ngơn ngữ Đầu tiên, luận văn trình bày phương pháp phát kế thừa văn đa ngơn ngữ Sau đó, luận văn đánh giá lựa chọn hướng tiếp cận thích hợp để đưa mơ hình đề xuất Chương 3: Đề xuất mơ hình phát kế thừa văn đa ngôn ngữ cặp câu văn Việt-Anh Đầu tiên, luận văn đề xuất mơ hình phát kế thừa văn đa ngôn ngữ việc kết hợp phương pháp dịch máy mơ hình học máy SVM, sau luận văn trình bày chi tiết bước mơ hình Chương 4: Trình bày trình thực nghiệm, tiến hành cài đặt thử nghiệm mơ hình đề xuất với liệu thực nghiệm tập liệu chuẩn hội nghị RTE-3 dịch tiếng Việt Đồng thời, luận văn đưa kết đạt nhận xét Kết luận định hướng phát triển tiếp theo: Tóm lược kết đạt luận văn, khuyết điểm cần khắc phục đưa định hướng nghiên cứu 3 Chương 1: Giới thiệu tốn kế thừa văn đa ngơn ngữ 1.1 Khái quát kế thừa văn Trong sống ngày, việc sử dụng ngôn ngữ tự nhiên, diễn đạt vấn đề theo nhiều cách khác với từ ngữ cấu trúc cú pháp khác Vấn đề biến đổi biểu diễn ngữ nghĩa xem vấn đề nhập nhằng ngôn ngữ tự nhiên Các ứng dụng xử lý ngôn ngữ tự nhiên như: hệ hỏi đáp (QA), trích xuất thơng tin (IE), tóm tắt văn (Summarization), đánh giá dịch máy MT) cần mơ hình cho tượng biến đổi để phát xem ý nghĩa cụ thể có suy luận từ biến thể văn khác hay không Vào năm 2004, phát kế thừa văn (RTE) đề xuất toán tổng quát để thu thập nhu cầu liên quan đến suy luận ngữ nghĩa nhiều ứng dụng xử lý ngôn ngữ tự nhiên Từ năm 2004 đến nay, hội nghị RTE tổ chức thường niên hàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh phương pháp tiếp cận nhà nghiên cứu Ba hội nghị RTE (RTE-1 năm 2005, RTE-2 năm 2006 RTE-3 năm 2007) tổ chức chuỗi PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning) Các hội nghị RTE lại (RTE-4 năm 2008, RTE-5 năm 2009, RTE-6 năm 2010, RTE-7 năm 2011 RTE-8 năm 2012) tổ chức thuộc hội nghị Phân tích xử lý văn (TAC: Text Analysis Conference) NIST (National Institute of Standards and Technology) Hội nghị Phân tích xử lý văn TAC tổ chức để khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên ứng dụng liên quan cách cung cấp tập liệu kiểm thử lớn, thủ tục đánh giá diễn đàn để nhóm nghiên cứu chia sẻ kết họ 1.1.1 Khái niệm kế thừa văn Hiện nay, khái niệm kế thừa văn định nghĩa theo nhiều cách khác Theo Glickman Dagan [3], kế thừa văn mối quan hệ văn quán T với thể ngơn ngữ – giả thuyết H (H hệ T), ký hiệu T → H ý nghĩa H, đặt vào ngữ cảnh T suy ý nghĩa H Một cách chung văn T gọi kế thừa giả thuyết H thật H suy luận từ T Điều có nghĩa T bao hàm ý nghĩa H đọc hai Do vậy, ta nói T kế thừa H số biểu diễn H trùng khớp (qua số bước chuyển đổi bảo toàn ngữ nghĩa) với số (hoặc phần của) biểu diễn T, cấp độ chi tiết trừu tượng định Dưới số ví dụ minh họa để giải thích khái niệm kế thừa văn 4 Bảng 1: Một số ví dụ kế thừa văn STT Văn Giả thuyết Kế thừa Bountiful tới sau chiến tranh Bountiful tới San Francisco kết thúc, cập vịnh San Francisco vào vào tháng năm 1945 ngày 21 tháng năm 1945 Bountiful sau định làm tàu bệnh viện Yokosuka, khởi hành từ San Francisco vào ngày tháng 11 năm 1945 Yes Tập đoàn Boeing đặt Chicago Trụ sở tập đoàn Boeing hủy bỏ ba đơn hàng vào năm 2006 nằm Canada mà Air Canada đặt No Dưới tiêu đề "Greed instead of Hai quỹ đầu tư Anh quality", Die Tageszeitung Đức Mỹ thâu tóm Berliner nói chẳng có điều tốt đẹp việc thâu Verlag tóm nhà xuất Berliner Verlag hai quỹ đầu tư Anh Mỹ Yes Scott Island thuyền trưởng Thuyền trưởng Scott đặt William Colbeck người huy chân tới đảo Scott Island vào Morning, tàu cứu viện cho tháng 12 năm 1902 viễn chinh thuyền trưởng Robert F Scott, tìm vào tháng 12 năm 1902 No Chiếc xe va vào hòm thư Clark người họ hàng thuộc James Clark, 68 tuổi, Jones người quen gia đình James Jones No 1.1.2 Phát biểu toán phát kế thừa văn Phát kế thừa văn toán phát mối quan hệ kế thừa văn T giả thuyết H Bài toán phát biểu sau:  Đầu vào: Tập cặp văn – giả thuyết thuộc chủ đề 5  Đầu ra: Tập cặp văn – giả thuyết gán nhãn kế thừa “Yes” / “No” Nhãn “Yes” tương ứng với trường hợp văn T kế thừa giả thuyết H, nhãn “No” tương ứng với trường hợp văn T không kế thừa giả thuyết H 1.2 Kế thừa văn đa ngôn ngữ 1.2.1 Động lực mục tiêu Sự bùng nổ thông tin viết ngôn ngữ khác web giúp cho người sử dụng có hội tiếp cận truyền tải thông tin chủ đề ngôn ngữ họ Sự phát triển mạnh mẽ nội dung thông tin viết ngôn ngữ khác cho thấy nhu cầu cao người dùng ứng dụng xử lý ngôn ngữ tự nhiên đa ngôn ngữ Theo thống kế vể top mười ngôn ngữ sử dụng mạng Internet năm 2013 tỉ lệ thơng tin người dùng viết ngôn ngữ Anh, Trung Quốc, Tây Ban Nha, Bồ Đầu Nha web tương ứng 800.6, 649.4, 222.4, 121.8 (theo đơn vị nghìn người sử dụng)2 Điều cho thấy cần thiết công nghệ đa ngôn ngữ để giúp người dùng tiếp cận thông tin giao tiếp với Internet Phát kế thừa văn đơn ngôn ngữ mang lại nhiều lợi ích cho ứng dụng xử lý ngôn ngữ tự nhiên Tuy nhiên, ứng dụng xử lý ngôn ngữ tự nhiên đa ngôn ngữ đạt mục tiêu mong muốn bị khuyết thiếu thành phần phát kế thừa văn đa ngơn ngữ Chính thế, tốn phát kế thừa văn đa ngơn ngữ hình thành Từ nhu cầu thực tế đề cập trên, luận văn tìm hiểu tốn phát kế thừa văn đa ngơn ngữ, hướng tiếp cận để giải toán đề xuất mơ hình phát kế thừa văn đa ngôn ngữ cặp câu văn Việt - Anh 1.2.2 Khái niệm kế thừa văn đa ngôn ngữ Kế thừa văn đa ngôn ngữ (Cross-lingual Textual Entailment - CLTE) lần Mehdad [14] đề xuất mở rộng kế thừa văn Kế thừa văn đa ngôn ngữ định nghĩa mối quan hệ kế thừa hai văn viết ngôn ngữ khác Đưa cặp văn T1 T2 viết hai ngơn ngữ khác nhau, tốn phát kế thừa văn đa ngôn ngữ tốn xác định xem nghĩa văn T2 có suy luận từ nghĩa văn T1 hay khơng ngược lại Theo Mehdad [14], có bốn trường hợp xảy toán phát kế thừa văn đa ngôn ngữ với cặp văn T1-T2:  Kế thừa hai chiều - bidirectional (T1→T2 T2→T1): Hai văn kế thừa nhau, có nghĩa hai văn tương đương mặt nội dung http://www.internetworldstats.com/stats7.htm  Kế thừa theo chiều xuôi - forward (T1→T2 T2!→T1): T1 kế thừa T2 T2 không kế thừa T1  Kế thừa theo chiều ngược - backward (T1!→ T2 T2→T1): T2 kế thừa T1 T1 không kế thừa T2  Không kế thừa - no entailment (T1!→ T2 T2!→T1): Khơng có mối quan hệ kế thừa T1 T2 Dưới số ví dụ minh họa để giải thích khái niệm kế thừa văn đa ngôn ngữ với văn thứ viết tiếng Việt, văn thứ hai viết tiếng Anh: Bảng 2: Một số ví dụ kế thừa văn đa ngôn ngữ STT Văn Bountiful tới San Francisco vào tháng năm 1945 Văn Kế thừa Bountiful arrived after war's end, sailing into San Francisco Bay 21 August 1945 Bountiful was then assigned as hospital ship at Yokosuka, Japan, departing San Francisco November 1945 Backward Tập đoàn Boeing Chicago Boeing's headquarters is in hủy bỏ ba đơn đặt hàng vào năm Canada 2006 Air Canada No entailment Dưới tiêu đề "Greed instead of British and US-based quality", Die Tageszeitung investment funds acquire Đức nói chẳng có điều tốt đẹp Berliner Verlag việc thâu tóm nhà xuất Berliner Verlag hai quỹ đầu tư Anh Mỹ Scott Island thuyền Scott Island was discovered trưởng William Colbeck, người and landed upon in December huy Morning, tàu 1902 by Captain William Forward Bidirectional cứu viện cho viễn chinh Colbeck commander of the thuyền trưởng Robert F Morning, relief ship for Capt Scott, tìm vào tháng 12 năm Robert F Scott's expedition 1902 Chiếc xe va vào hòm thư Clark is a relative of Jones' James Clark, 68 tuổi, người quen gia đình James Jones No entailment Theo ví dụ trên:  Cặp văn thứ có mối quan hệ kế thừa “backward” văn thứ suy luận từ văn thứ hai văn thứ hai lại không suy luận từ văn thứ  Cặp văn thứ hai thứ năm có mối quan hệ “no entailment” văn thứ khơng suy luận từ văn thứ hai ngược lại  Cặp văn thứ ba có mối quan hệ kế thừa “forward” văn thứ hai suy luận từ văn thứ văn thứ lại không suy luận từ văn thứ hai  Cặp văn thứ tư có mối quan hệ kế thừa “bidirectional” văn thứ suy luận từ văn thứ hai ngược lại 1.3 Các ứng dụng toán phát kế thừa văn đa ngôn ngữ Kế thừa văn giúp việc hiểu ngơn ngữ tự nhiên tốt Ngồi ra, phát kế thừa văn ứng dụng rộng rãi nhiều lĩnh vực xử lý ngơn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thơng tin, tự động tóm tắt văn bản, đánh giá dịch máy, so sánh tài liệu (Comparable Documents), đọc hiểu (Reading Comprehension), đồng hóa nội dung tự động (Automatic Content Synchronization) Trong hệ thống hỏi đáp, phát kế thừa văn sử dụng để xác định câu trả lời có quan hệ kế thừa đưa gợi ý câu trả lời mong muốn từ câu hỏi người dùng Ví dụ, với câu hỏi đặt ra: “Ai người vẽ tranh Mona Lisa?” đoạn văn “Bức tranh nàng Mona Lisa Leonardo Da Vinci tạo cảm hứng cho nhiều nhà phân tích, từ nghệ thuật tới khoa học, từ phân tích quang học tới phân tích tâm lý học.” hay đoạn văn “Da Vinci bắt đầu vẽ Mona Lisa vào khoảng năm 1503, Thời Phục hưng Italia theo Vasari.” kế thừa câu trả lời mong muốn “Leonardo Da Vinci người vẽ tranh Mona Lisa.” 8 Trong đánh giá dịch máy (Machine Translation), dịch tự động gọi xác nghĩa tương đương với dịch theo chuẩn vàng, hai dịch nên kế thừa nhau.Vì thế, kế thừa văn dùng để đánh giá tương đương mặt ngữ nghĩa dịch Trong trích chọn thơng tin (Information Extraction), thơng tin trích chọn nên kế thừa văn Trong tóm tắt văn bản, kế thừa văn sử dụng để xác định rút gọn lượng thơng tin kế thừa văn cần tóm tắt, từ so sánh với văn khác Điều sử dụng để tránh dư thừa thông tin văn có đoạn kế thừa tri thức Áp dụng điều này, tóm tắt văn sử dụng quan hệ kế thừa để bỏ qua thông tin không cần thiết giúp rút ngắn độ dài văn mà giữ thơng tin quan trọng Đặc biệt, giải tốn đồng hóa nội dung cho hai văn viết ngôn ngữ khác Mehdad [13] toán phát kế thừa văn đa ngơn ngữ 1.4 Tóm tắt chương Trong chương một, luận văn trình bày số nội dung liên quan đến kế thừa văn khái niệm phát kế thừa văn bản, khái niệm phát kế thừa văn đa ngôn ngữ phát biểu tốn, cuối cùng, luận văn trình bày ứng dụng phát kế thừa văn lĩnh vực xử lý ngôn ngữ tự nhiên Chương trình bày chi tiết hướng tiếp cận cho toán kế thừa văn đa ngôn ngữ 9 Chương 2: Các hướng tiếp cận toán RTE CLTE 2.1 Hướng tiếp cận cho toán RTE Từ năm 2005 tới nay, hội nghị khoa học quốc tế thường niên phát kế thừa văn RTE (nhánh RTE hội nghị phân tích văn bản: Text Analysis Conference) tập hợp nhiều cơng trình nghiên cứu RTE Trải qua tám kỳ hội nghị với hàng trăm báo nhiều công trình nghiên cứu cơng bố, nhìn chung hướng tiếp cận mà tác giả sử dụng chủ yếu như: hướng tiếp cận sử dụng học máy với việc lựa chọn đặc trưng, hướng tiếp cận dựa đại diện mức độ khác xử lý ngôn ngữ tự nhiên (cú pháp, ngữ nghĩa), hướng tiếp cận dựa suy luận logic Hầu hết hướng tiếp cận dựa sở tri thức bên WordNet3 (một sở liệu từ vựng cho tiếng Anh WordNet cung cấp định nghĩa tổng quát liên quan đến từ vựng, hữu ích việc xử lý ngơn ngữ tự nhiên) Một sở liệu từ vựng tiếng Anh khác mà tác giả thường xuyên sử dụng FrameNet4 Nhìn chung, hướng tiếp cận có ưu điểm riêng thông thường giải khía cạnh tốn, khó đưa cách tiếp cận rõ ràng giải tất vấn đề kế thừa văn Trên sở tìm hiểu phương pháp tiếp cận, Rui Wang [12] nhận xét việc áp dụng học máy vào toán phát kế thừa văn có nhiều ưu điểm như: tránh việc phải xác định ngưỡng kế thừa, có khả làm việc với số lượng lớn đặc trưng, cho phép tích hợp thơng tin từ nhiều mức cú pháp, ngữ nghĩa kế hợp chúng 2.1.1 Giới thiệu chung hướng tiếp cận sử dụng học máy Theo Rui Wang [12], có hai bước cần thực áp dụng phương pháp học máy Bước tiến hành trích xuất đặc trưng từ cặp văn – giả thuyết đầu vào Bước việc sử dụng phân lớp với đặc trưng vừa trích xuất Các phân lớp thường sử dụng bao gồm: phân lớp định (Decision TreesDTs), máy vector hỗ trợ (Support Vector Machines-SVMs), Entropy cực đại (Maximum Entropy-ME), Naïve Bayes (NB) Kết phân lớp kế thừa không phụ thuộc vào phân lớp sử dụng, đặc trưng lựa chọn mà cịn phụ thuộc vào liệu huấn luyện Việc học liệu huấn luyện chia thành hai loại: học dựa đặc trưng intra-pair học dựa đặc trưng cross-pair Phát kế thừa văn toán kiểm tra tồn mối quan hệ kế thừa hai đoạn văn (văn T giả thuyết H) Hầu hết đặc trưng trích xuất dựa mối quan hệ T H (các http://wordnet.princeton.edu/ http://framenet.icsi.berkeley.edu/ 10 đặc trưng intra-pair), nhiên, có số đặc trưng khác tính dựa đặc trưng cặp T-H với (đặc trưng cross-pair) 2.1.1.1 Các đặc trưng Intra-pair (In-pair features) Các đặc trưng Intra-pair đặc trưng trích xuất từ việc so sánh cặp câu T H Nếu coi câu nhóm token (đơn vị từ vựng) trùng lặp từ vựng số tốt Ngoài ra, đặc trưng trích xuất dựa từ cấu trúc cú pháp đại diện ngữ nghĩa chí hình thức logic Nếu coi câu túi từ (bag of words) đặc trưng xem xét bao gồm: số lượng từ trùng lặp T H tỉ lệ số lượng từ trùng lặp với tổng số từ T H J Bos K Market [5] kết hợp phương pháp dựa trùng lặp từ phương pháp dựa suy luận logic Một số tác giả sử dụng đặc trưng phong phú cấp độ xử lý đa dạng khác Sự kết hợp từ T H phát giúp cho việc phân lớp giai đoạn A Newman cộng [1] đề xuất hai hệ thống, hệ thống sử dụng số độ đo tương tự, bao gồm ROUGE (Recall-Oriented Understudy for Gisting Evaluation: gói phần mềm với tập độ đo sử dụng cho việc đánh giá tóm tắt tự động phần mềm dịch máy xử lý ngôn ngữ tự nhiên), độ đo Cosin, độ đo tương đồng cho danh từ dựa WordNet Với đặc trưng dựa động từ, tác giả sử dụng mạng ngữ nghĩa VerbOcean (một tài nguyên từ vựng cung cấp mối quan hệ ngữ nghĩa động từ) Trên thực tế, hầu hết nhóm sử dụng đặc trưng từ vựng áp dụng độ tương đồng từ dựa vào từ điển WordNet nguồn tài nguyên từ vựng khác Theo Rui Wang [12] R Adam sử dụng khoảng cách chỉnh sửa từ vựng đặc trưng Về bản, tác giả đếm số token không ánh xạ sau so sánh cặp sau mở rộng độ dài H toán tử chèn từ phép chỉnh sửa T kế thừa H có chuỗi phép chuyển đổi áp dụng để biến T thành H với tổng thể chi phí ngưỡng cho phép Sự khác biệt tác giả tính tốn khoảng cách chỉnh sửa dựa phụ thuộc, bao gồm phép tốn: chèn, xóa thay Các chi phí để xóa thay hai từ tương đồng với dựa theo từ điển WordNet khác trường hợp khác Thêm nữa, Rui Wang [12] F Schilder B T McInnes sử dụng khoảng cách chỉnh sửa đặc trưng áp dụng độ đo tương tự xấp xỉ khác Đối với toán RTE, văn T thường dài giả thuyết H, văn T thường chứa thông tin nhiễu mà không liên quan đến việc phát mối quan hệ kế thừa (đây ngun nhân mà phép xóa có chi phí 0) 11 Tài liệu tham khảo [1] Eamonn Newman, NicolaStokes, John Dunnion, and JoeCarthy, “Textual Entailment Recognition Using aLinguistically–Motivated Decision Tree Classifier”, Springer Berlin Heidelberg, 2006: 372-384 [2] Fandong Meng, Hao Xiong and Qun Liu, “A Translation based Method for Crosslingual Textual Entailment”, In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval 2012) [3] Ido Dagan and Oren Glickman, “Generic Applied Modeling of Language Variability”, In Proceedings of PASCAL Workshop on Learning Methods for Text Understanding and Mining, Grenoble, France, 2004 [4] Jiang Zhao, Man Lan, Zheng-Yu Niu, “ECNUCS: Recognizing Cross-lingual Textual Entailment Using Multiple Text Similarity and Text Difference Measures”, In Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) [5] Johan Bos and Katja Market, “When logical inference helps determining textual entailment (and when it doesn’t)”, In Proceedings of Second PASCAL Chanllenges Workshop on Recognising Textual Entailment, Venice, Italy, 2006 [6] Julio Javier Castillo, “An approach to Recognizing Textual Entailment and TE SearchTask using SVM”, Procesamiento del Lenguaje Natural, N44, marzo de 2010: 139-145, http://www.sepln.org/revistaSEPLN/revista/44/revista44.pdf [7] Katharina Wăaschle and Sascha Fendrich, “HDU: Cross-lingual Textual Entailment with SMT Features”, In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval 2012), pages 467–471, Montreal, Canada [8] Marco Turchi and Matteo Negri, “Word Alignment Features for Cross-lingual Textual Entailment”, In Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) [9] Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu, “Using Machine Translation for Recognizing Textual Entailment in Vietnamese Language”, In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2012 IEEE RIVF International Conference}, pp.1-6, March, 2012 12 [10] Minh-Tien Nguyen, Quang-Thuy Ha, Thi-Dung Nguyen, Tri-Thanh Nguyen and Le-Minh Nguyen, “Recognizing Textual Entailment in Vietnamese Text: An Experimental Study”, KSE 2015 (submitted) [11] Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, and Thuy-Linh Nguyen Thi, “Refinding the Judgment Threshold to Improve Recognizing Textual Entailment Using Simility”, ICCCI (2), 2012: 335-344 [12] Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual Entailment”, PhD Thesis, Saarland University, 2011 [13] Yashar Mehdad, “Cross-Lingual Textual Entailment and Applications”, PhD Thesis, University of Trento, 2012 [14] Yashar Mehdad, Matteo Negri, Marcello Federico, “Towards Cross-Lingual Textual Entailment”, In Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL HLT 2010) [15] Yashar Mehdad, Matteo Negri, and Jose Guilherme C de Souza, “FBK: crosslingual textual entailment without translation” In Proceedings of the 6th International Workshop on Semantic Evaluation (SemEval 2012), pages 701–705, Montreal, Canada [16] Yvette Graham, Bahar Salehi, Timothy Baldwin, “Cross-lingual Textual Entailment with Word Alignment and String Similarity Features”, In Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013) [17] Ido Dagan, Dan Roth, Mark Sammons, and Fabio Massimo Zanzotto, “Recognizing Textual Entailment: Models and Applications”, Morgan & Claypool, 2013

Ngày đăng: 27/08/2016, 08:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w