PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA Hà Thị Oanh Khóa QH-2008-I/CQ, Ngành Công nghệ thông tin Tóm tắt Khóa luận tốt nghiệp Phát hiện quan hệ ngữ nghĩa sem
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Thị Oanh
PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin
Hà Nội – 2012
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Thị Oanh
PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS Phạm Quang Nhật Minh
Hà Nội – 2012
Trang 3VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Ha Thi Oanh
RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON LEXICAL AND
SYNONYM DICTIONARY
Major: Information Technology
Supervisor: Assoc Prof Ha Quang Thuy
Co-Supervisor: Masters Pham Quang Nhat Minh
HA NOI – 2012
Trang 4LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS Hà Quang Thụy, ThS Phạm Quang Nhật Minh đã tận tình chỉ bảo và hướng dẫn em thực hiện khóa luận tốt nghiệp
Em xin cảm ơn các thầy, cô trong trường Đại học Công nghệ đã giảng dạy và cho
em những kiến thức quý báu, làm nền tảng để em hoàn thành khóa luận, cũng như trong công việc tương lai
Em xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong phòng thí nghiệm KTLab: TS Phan Xuân Hiếu, CN Lê Đức Trọng, CN Trần Xuân Tứ, Nguyễn Thị Thùy Linh, … đã hỗ trợ em rất nhiều trong suốt quá trình làm khóa luận
Em cũng xin được gửi lời tri ân tới các bạn trong lớp K53CLC, K53CC đã luôn bên cạnh và ủng hộ em trong suốt quá trình học tập tại trường
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc tới gia đình và bạn bè - những người thân yêu luôn ở bên yêu thương che chở em để em vượt qua những khó khăn trong cuộc sống cũng như trong học tập
Em xin chân thành cảm ơn!
Sinh viên
Hà Thị Oanh
Trang 5PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN
TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
Hà Thị Oanh
Khóa QH-2008-I/CQ, Ngành Công nghệ thông tin
Tóm tắt Khóa luận tốt nghiệp
Phát hiện quan hệ ngữ nghĩa (semantic relation) là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản Phát hiện kế thừa văn bản (Recognizing Textual Entailment: RTE) là bài toán tìm mối quan hệ “kế thừa ngữ nghĩa” của một văn bản T từ một văn bản giả thuyết H, là một bài toán có ý nghĩa khoa học – công nghệ thời sự thu hút sự quan tâm của nhiều nhóm nghiên cứu trên thế giới Nhiều công trình nghiên cứu về RTE được công bố trên các tạp chí, tại các hội nghị khoa học quốc tế mà điển hình là nhánh hội nghị khoa học về RTE trong dãy hội nghị thường niên về phân tích văn bản (Text Analysis Conference: TAC) do Viện Tiêu chuNn và Công nghệ quốc gia Mỹ chủ trì
Khóa luận tập trung nghiên cứu bài toán và các phương pháp phát hiện kế thừa văn bản ti tại các hội nghị khoa học quốc tế RTE Trên cơ sở tìm hiểu và so sánh các hướng tiếp cận, khóa luận tập trung vào hướng tiếp cận xác định kế thừa văn bản dựa trên từ vựng và tri thức miền
Các nghiên cứu theo hướng tiếp cận này (Valentin Jijkoun và Maarten de Rijke, 2006 [20], Ken-ichi Yokote và cộng sự, 2012 [22]) cho thấy giá trị ngưỡng phán quyết kế thừa có ý nghĩa quan trọng Khóa luận đề xuất giải pháp xác định và tinh chỉnh ngưỡng phán quyết kế thừa trong tiếp cận phát hiện kế thừa văn bản dựa trên từ vựng và đề nghị một mô hình phát hiện kế thừa văn bản có tích hợp giải pháp xác định và tinh chỉnh ngưỡng phán quyết nói trên
Thực nghiệm mô hình đề xuất trên dữ liệu tiếng Việt chứng tỏ giải pháp đề xuất có tính hiệu quả: độ đo F1 của phán quyết sau khi tinh chỉnh trung bình tăng 3% so với chưa tinh chỉnh
Từ khóa: Kế thừa ngữ nghĩa, RTE, từ điển đồng nghĩa
Trang 6RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON
LEXICAL AND SYNONYM DICTIONARY
The thesis focused on researching and clarifying the RTE task and some methods to recognize textual entailment on the conferences On the basic of studying and comparing some appoaches, the thesis proposed a model to RTE based on lexical combined domain knowledge
This appoach (Valentin Jijkoun and Maarten de Rijke, 2006 [20], Ken-ichi Yokote et
al [22]) showed the significant meaning of the thresold value of recognizing textual entailment The thesis proposed a solution and model to identify and refine the thresold in recognizing textual entailment based on lexical
Empirical by Vietnamese data shows that the proposed solution is effective: F1-measure of recognization before and after refining threshold increases 3%
Keywords: semantic inference, RTE, synonym dictionary
Trang 7LỜI CAM ĐOAN
Em xin cam đoan mô hình phát hiện kế thừa văn bản dựa trên sự tương đồng tự vựng với giải pháp xác định và chỉnh sửa ngưỡng phán quyết cũng như thực nghiệm được trình bày trong khóa luận này là do em thực hiện dưới sự hướng dẫn của PGS
TS Hà Quang Thụy và ThS Phạm Quang Nhật Minh
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo
Hà Nội, ngày 17 tháng 05 năm 2012
Sinh viên
Hà Thị Oanh
Trang 8Nội dung
LỜI CẢM ƠN………i
PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN……… ii
LỜI CAM ĐOAN………iv
Danh sách các từ viết tắt……….vii
Danh sách bảng biểu……… viii
MỞ ĐẦU………1
Chương 1 : Giới thiệu chung………1
1.1 Động lực và mục tiêu nghiên cứu 2
1.2 Khái niệm kế thừa văn bản 4
1.3 Bài toán phát hiện kế thừa văn bản 5
1.4 Mối quan hệ giữa dịch máy và kế thừa văn bản 6
1.5 Dãy hội nghị RTE 7
1.6 Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản 9
1.7 Tóm tắt chương 1 11
Chương 2: Một số hướng tiếp cận giải quyết bài toán………12
2.1 Một số hướng tiếp cận giải quyết bài toán 12
2.2 Hướng tiếp cận dựa trên từ vựng 13
2.2.1 Một số công trình nghiên cứu liên quan 14
2.3 Hướng tiếp cận dựa trên tri thức 16
2.4 Kết luận 17
Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt……….19
3.1 Cơ sở lý thuyết 19
3.1.1 Thuật toán độ tương đồng từ vựng 19
3.1.2 Ngưỡng phán quyết kế thừa 20
3.1.3 Trọng số của từ 20
3.2 Độ đo độ tương đồng từ vựng (wordsim) 21
3.3 Tri thức miền từ điển đồng nghĩa tiếng Việt 22
3.4 Tinh chỉnh ngưỡng phán quyết kế thừa 23
3.4.1 Ngưỡng phán quyết 23
3.5 Phát biểu bài toán 25
Trang 93.6 Tóm tắt chương 3 28
Chương 4: Thực nghiệm……… 29
4.1 Môi trường thực nghiệm 29
4.1.1 Cấu hình phần cứng 29
4.1.2 Công cụ phần mềm 29
4.2 Dữ liệu thực nghiệm 30
4.3 Thử nghiệm chương trình 31
4.4 Đánh giá hệ thống 31
4.6 Đánh giá 35
Kết luận và định hướng nghiên cứu tiếp theo……….36
Tài liệu tham khảo………37
Trang 10Danh sách các từ viết tắt
IE Information Extraction Trích xuất thông tin
IR Information Retrieval Thu thập thông tin
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
RTE Recognizing Textual Entailment Phát hiện kế thừa văn bản
CD Comparison Documents Tài liệu so sánh
PP Paraphrase Acquisition Thu thập diễn giải
Trang 11Danh sách bảng biểu
Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3 5
Bảng 2: Cấu hình phần cứng……… 29
Bảng 3: Danh sách các phần mềm sử dụng 30
Bảng 4 Chú thích giá trị……… 32
Bảng 5: Kết quả thí nghiệm trước và sau tinh chỉnh ngưỡng 33
Bảng 6: Đánh giá kết quả thực nghiệm trong các kỳ hội nghị RTE [18] 35
Trang 12Danh sách hình vẽ
Hình 1: Tam giác dịch máy………6
Hình 2: Hình chữ nhật RTE………7
Hình 3: Một số hướng tiếp cận giải quyết bài toán……… 13
Hình 4: Mô hình giải quyết bài toán……….26
Hình 5: Dữ liệu thực nghiệm……… … 30
Hình 6: Kết quả thí nghiệm với trường hợp chưa tinh chỉnh ngưỡng……… 34
Hình 7: Kết quả thí nghiệm với trường hợp đã tinh chỉnh ngưỡng……… 34
Trang 13MỞ ĐẦU
Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách diễn đạt Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa trên sự thay đổi ngữ nghĩa Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ cảnh cụ thể Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời sống Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên Thông thường khi nói chuyện, chúng ta không hiểu theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy nghĩ của bản thân theo cách tường minh nhất Trong giao tiếp, con người xử lý rất tốt vấn đề này Tuy nhiên, máy tính thường khó suy luận và hiểu được những cuộc đối thoại của con người Do đó, nếu con người muốn xây dựng một hệ thống đối thoại thì phải xử lý với sự ngụ ý hoặc sự kế thừa này như là một thách thức chính cần giải quyết
Ý thức được lợi ích của các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán kế thừa văn bản nói riêng, em chọn hướng nghiên cứu nhằm giải quyết bài toán phát hiện kế thừa văn bản cho tiếng Việt làm đề tài khóa luận của mình
Cấu trúc của khóa luận được chia thành 4 chương:
• Chương 1: Giới thiệu khái quát về kế thừa văn bản, bài toán phát hiện quan hệ
kế thừa, mối quan hệ giữa kế thừa và dịch máy và ứng dụng của bài toán trong thực tiễn
• Chương 2: Trình bày một số hướng tiếp cận giải quyết bài toán trong các kỳ
hội nghị RTE 1-7 Trong đó, em đi sâu vào phân tích hướng tiếp cận dựa trên từ vựng cùng một số thuật toán áp dụng trên từ vựng đã được cài đặt trong các hệ thống RTE cho kết quả tốt
• Chương 3: Giới thiệu và trình bày một thuật toán phát hiện quan hệ kế thừa dựa trên từ vựng theo đề xuất của Valentin Jijkoun và cộng sự [20], khảo sát
một số đặc trưng tiêu biểu của miền dữ liệu thực nghiệm tiếng Việt Em đề xuất một mô hình giải quyết bài toán phát hiện quan hệ kế thừa văn bản tiếng Việt dựa trên từ vựng kết hợp với tri thức miền từ điển đồng nghĩa tiếng Việt và giải pháp tinh chỉnh ngưỡng
• Chương 4: Mô tả quy trình thực nghiệm, kết quả đạt được và kết luận định
hướng nghiên cứu tiếp theo
Trang 14Chương 1 : Giới thiệu chung
Trong cuộc sống thường nhật, con người sử dụng rất nhiều cách diễn đạt khác nhau đối với cùng một nội dung Cơ sở để xác định các diễn đạt khác nhau cùng nói về một nội dung hay không đó chính là đánh giá độ tương tự về ngữ nghĩa Kế thừa văn bản (TE) là mối quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một biểu diễn này có thể suy luận được từ một biểu diễn khác của văn bản Chương một của khóa luận giới thiệu khái quát về các khái niệm liên quan tới kế thừa văn bản, bài toán phát hiện quan hệ kế thừa cũng như ứng dụng thực tiễn của kế thừa văn bản trong lĩnh vực xử lý ngôn ngữ tự nhiên
Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách diễn đạt Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa trên sự thay đổi ngữ nghĩa Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ cảnh cụ thể Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời sống Giả sử một ai đó đang tìm hiểu về một vấn đề, họ sẽ tìm kiếm câu trả lời qua sách báo, bạn bè hay trên Web Trong hầu hết các trường hợp, thông tin nhận được có thể không chính xác mặc dù nó là đúng theo quan điểm của người nào đó Chính vì vậy, hậu quả của việc nắm bắt thông tin sai lệch là rất lớn Do đó, suy luận đóng một vài trò quan trọng trong việc xác nhận hoặc phủ nhận thông tin tìm kiếm ban đầu
Xét ví dụ: An muốn biết liệu sông Amazon có phải là con sông dài nhất thế giới hay không Một cách tự nhiên, bạn ấy có thể tìm độ dài chính xác của sông Amazon và các sông khác mà bạn ấy biết, sau đó so sánh chúng Tuy nhiên, bạn ấy biết được rằng
Ai Cập là đất nước có con sông dài nhất thế giới chảy qua, trong khi đó Ai Cập và Amazon không thuộc cùng một châu lục Tương tự như vậy, John không biết chắc chắn ai là tổng thống hiện tại của Mỹ Bush hay Obama, khi mà John nhận được câu trả lời do tìm kiếm là cả Bush và Obama đều là tổng thống của Mỹ Nếu anh ấy thực hiện một suy luận dựa trên tài liệu nhận được chứa câu: “George Bush đã về hưu”, câu trả lời đúng sẽ là Obama
Tóm lại, việc tìm được một thông tin hoàn toàn chính xác đối với câu hỏi đặt ra
là không phải luôn thực hiện được, nhưng suy luận có thể giúp rất nhiều Trong cả hai trường hợp trên, thông tin nhận được kế thừa (suy luận) từ câu trả lời thay vì là câu trả lời chính xác
Trang 15Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên Thông thường khi nói chuyện, chúng ta không hiểu theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy nghĩ của bản thân theo cách tường minh nhất
Xét đoạn hội thoại ngắn sau:
• A: Cậu đã nhìn thấy điện thoại Ipad mới của mình chưa?
• B: Ồ, đẹp! Mình cũng muốn có một cái
• A: Bạn phải có một cái
Đoạn hội thoại trên có vẻ không mạch lạc nếu chúng ta hiểu nó theo nghĩa đen và đọc hiểu từng câu A hỏi một câu hỏi có/không trong khi đó B lại trả lời theo một cách khác Tuy nhiên, người đọc và người nghe có thể thấy rõ ràng B đã đưa ra cho A một câu trả lời mong muốn
Nếu chúng ta giải thích theo nghĩa đen cuộc trò chuyện trên thì đây có thể là một khả năng:
• A: Đây là điện thoại Ipad của mình
• B: Mình chưa bao gờ nhìn thấy nó trước đó Nó thật đẹp Mình chưa có nhưng mình muốn có một cái như vậy
• A: Mình nghĩ bạn nên có nó
Mặc dù phiên bản trên có thể dễ dàng hơn cho máy tính hiểu và xử lý các cuộc đối thoại của con người Tuy nhiên người đọc lại thấy nó có vẻ rất vụng về trong ngôn ngữ giao tiếp và cuộc trò chuyện ban đầu xảy ra tự nhiên hơn trong cuộc sống hàng ngày của chúng ta Mỗi lời giải thích trong phiên bản trên là ngụ ý hoặc kế thừa một cách chính xác những câu trong hội thoại ban đầu Do đó, nếu con người muốn xây dựng một hệ thống đối thoại thì phải xử lý với sự ngụ ý hoặc sự kế thừa này như là một thách thức chính cần giải quyết [18]
Theo Chierchia và McConnell-Ginet (2000) [21], quan hệ giữa hai văn bản trên
là mối quan hệ kế thừa (Textual Entailment - TE) Hệ thống nhận dạng kế thừa văn bản (Recognizing Textual Entailment - RTE) đòi hỏi phải xác định được mối quan hệ
kế thừa giữa hai văn bản được đưa ra, thường được khai báo như là văn bản (T) và giả thuyết (H) Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phát hiện kế thừa văn bản được xem như một modun xử lý ngữ nghĩa chung, phục vụ các tác vụ khác Ví dụ, RTE đã được sử dụng rất thành công trong hệ hỏi đáp giúp xác nhận câu trả lời hợp lệ, trong
Trang 16trích chọn thông tin, đánh giá dịch máy Về lâu dài, RTE giữ vai trò quan trọng trong việc hiểu đối thoại trò chuyện, Nn dụ và thậm chí là giao tiếp người máy [18]
Kế thừa văn bản bắt nguồn từ kế thừa trong logic học Kế thừa văn bản (TE) là mối quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một biểu diễn có thể suy luận được từ một biểu diễn khác của văn bản Nói một cách chính xác hơn, kế thừa
văn bản có thể được hiểu là “một mối quan hệ giữa một văn bản nhất quán T với một ngôn ngữ thể hiện của nó – giả thuyết H Chúng ta nói T kế thừa H (H là một hệ quả của T), ký hiệu là T=>H, nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể suy ra được từ ý nghĩa của T.”
Hiện nay có khá nhiều cách tiếp cận về khái niệm kế thừa văn bản Một cách chung nhất thì văn bản T được gọi là kế thừa từ giả thuyết H nếu như sự thật về H có thể suy luận được từ T Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai Hình thức hơn, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định
Trong khóa luận này, em tiếp cận kế thừa văn bản theo cách định nghĩa của Iftene A [11] trong hội nghị RTE4 Nội dung khái niệm được phát biểu như sau:
“T kế thừa H nếu như tính chất đúng của H có thể suy ra được từ T trong bối cảnh mà
T sinh ra.”
Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản:
thừa
Blue Mountain Lumber là một chi
nhảnh của công ty lâm nghiệp đa quốc
gia Ernslaw One của Malaysia
Blue Mountain Lumber
sở hữu Ernlaw One
No
Tập đoàn Boeing đặt tại Chicago đã
hủy bỏ ba đơn hàng vào năm 2006 mà
đã được đặt bởi Air Canada
Trụ sở của tập đoàn Boeing nằm ở Canada
No
Trang 17Mưa lớn 200 mm đã được ghi nhận ở
một số nơi ở British Columbia, trên bờ
biển phía tây của Canada từ thứ hai
British Columbia nằm
ở Canada
Yes
Khi các nhà lãnh đạo tập hợp ở
Argentina trước các buổi hội đàm trong
khu vực, Hugo Chavez, tổng thống
theo phái dân túy của Venezuela, đã sử
dụng lợi thế về năng lượng để tìm kiếm
đồng minh và tạo dựng hình ảnh của
mình trong chủ nghĩa xã hội của thế kỷ
21
Chavez là một người theo chủ nghĩa xã hội
Yes
Chiếc xe hơi mà đã va vào hòm thư
thuộc về James Clark, 68 tuổi, một
người quen của gia đình James Jones
Clark là một người họ hàng của Jones
No
Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3
Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa văn bản T và giả thuyết H Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết
có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả thuyết
Phân loại kế thừa 3 lớp bao gồm các nhãn :
• Kế thừa: Khi T kế thừa H
• Mâu thuẫn: Khi T không kế thừa H
• Không xác định: Khi không có đủ điều kiện để xác định xem T kế thừa H hay không
Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và không xác định đều được phân vào lớp “Không kế thừa” 2 lớp sử dụng là:
• Kế thừa: Khi T kế thừa H
• Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong H hoặc không xác định được quan hệ giữa T và H
Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị phân (hai nhãn) Việc phán quyết kế thừa được gán nhãn là YES/NO (YES: trong trường
Trang 18hợp kế thừa và NO nếu ngược lại) Trong khóa luận này, em tiến hành thực nghiệm theo nhãn nhị phân như trên
Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:
Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ đề
Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp
Kế thừa văn bản và dịch máy có mối quan hệ với nhau [18] Cấu trúc của chúng
có nhiều nét tương tự nhau Nếu chúng ta tạo ra một minh họa tương tự như hình tam giác trong cộng đồng dịch máy (Machine Translation - MT) (Hình 1) thì có thể hình dung RTE như là một hình chữ nhật (Hình 2) Tam giác MT cho biết: văn bản được dịch từ ngôn ngữ ban đầu sang ngôn ngữ đích, trong quá trình dịch tồn tại nhiều đường
đi có thể Hệ thống có thể dịch trực tiếp dựa trên chuỗi biểu diễn hoặc trước khi dịch
áp dụng một số phân tích ngôn ngữ để có được ý nghĩa của hai văn bản Ngoài ra, độ sâu của phân tích ngôn ngữ là không cụ thể Do đó biểu diễn ý nghĩa bản dịch có thể thay đổi Tương tự như vậy, hình chữ nhật RTE không yêu cầu một diễn đạt rõ ràng hoặc đồng nghĩa Tiêu chí là để xác thực kết luận hay mối quan hệ giả thiết giữa hai bên
Hình 1: Tam giác dịch máy
Trang 19Hình 2: Hình chữ nhật RTE
Bên cạnh những điểm giống nhau thì MT và RTE có những điểm khác nhau như:
• Trong MT, với một văn bản ban đầu hệ thống phải tạo ra văn bản dịch tương ứng với ngôn ngữ muốn chuyển đổi Còn trong RTE, cả văn bản và giả thuyết đều được đưa ra, hệ thống có nhiệm vụ phải xác định quan hệ kế thừa
• Trong MT, văn bản nguồn và văn bản đích thuộc hai ngôn ngữ khác nhau Ngược lại, văn bản và giả thuyết trong RTE phải thuộc cùng một ngôn ngữ
• Trong MT, hai văn bản cùng có một nội dung và ý nghĩa Trong khi đó, RTE
có suy luận giữa hai ý nghĩa của văn bản và giả thuyết (có thể ở mức “sâu” hơn) Nói cách khác, nếu một hệ thống dịch máy hiểu và biểu diễn nội dung hoàn thiện của văn bản, thì chúng không cần những luật biến đổi Còn trong RTE phải có một quá trình so sánh cấu trúc nhận được từ những văn bản
Phát hiện kế thừa văn bản là bài toán mới trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và nhận được sự quan tâm rất lớn của các nhà nghiên cứu Đặc biệt, từ năm 2005 tới nay, hội thảo RTE được tổ chức hàng năm với mục đích là tổng hợp các phương pháp phát hiện kế thừa văn bản cho kết quả tốt thông qua các cuộc thi và nhận được sự quan tâm của nhiều nhóm nghiên cứu NLP trên thế giới Hội thảo RTE được tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài liệu (DUC - Document Understanding Conference, 2001-2007) và Phân tích xử lý văn
Trang 20bản (TAC - Text Analysis Conference, từ năm 2008 tới nay1) Tính tới nay, RTE đã trải qua 7 kỳ hội nghị với hàng trăm bài báo với rất nhiều các công trình nghiên cứu được công bố Hội nghị RTE 7 được tổ chức tại Gaithersburg, Maryland, USA vào tháng 12 năm 2011
Theo tổng hợp của Dagan và cộng sự, 2005 [9], RTE-1 được tổ chức vào năm
2005 đã đưa ra chuNn đầu tiên cho bài toán phát hiện kế thừa văn bản Tập dữ liệu RTE-1 bao gồm tập các đoạn văn bản thông thường, bao gồm văn bản (T) gồm một hoặc hai câu và giả thuyết (H) gồm một câu Các hệ thống tham gia được yêu cầu đưa
ra phán quyết cho mỗi cặp (T,H) về việc có kế thừa hay không Các cặp đại diện cho
sự phán quyết thành công hay thất bại của suy luận thuộc rất nhiều kiểu ứng dụng khác nhau như: QA, IE, IR và MT.Trong cuộc thi này, hầu hết các nhóm tham gia đều tập trung vào sự trùng lặp từ vựng giữa T và H, các hệ thống được xây dựng dựa trên hướng logic, các mô hình xác suất hoặc mô hình học máy có giám sát Bộ dữ liệu này được chia thành 2 tập con, tập phát triển (development set) bao gồm 567 cặp và tập
kiểm tra (test set) bao gồm 800 cặp Trong đó, số lượng các cặp tích cực (có kế thừa)
cân bằng với các cặp tiêu cực (không kế thừa)
Các hội nghị sau từ RTE-2 đến RTE-5 vẫn tiếp tục phát triển từ cuộc thi trước đó với mục đích chính là nâng cao độ dài của văn bản đánh giá (nâng lên mức độ đoạn và càng về sau thì độ dài trung bình của văn bản càng cao lên) Trong RTE-22 được tổ chức vào năm 2006 với vấn đề trọng tâm là: làm sao để cung cấp nhiều hơn các ví dụ thực tế của cặp văn bản-giả thuyết, chủ yếu dựa vào đầu ra của các hệ thống thực tiễn Tập dữ liệu của RTE-23 chứa 1600 cặp văn bản-giả thuyết và cũng được chia thành hai tập: tập phát triển và tập kiểm tra với số lượng mỗi tập là 800 cặp Các hệ thống cho
độ chính xác cao hơn, sử dụng thêm các thông tin về cú pháp và ngữ nghĩa từ rất nhiều nguồn khác nhau
Đặc biệt, các hội nghị RTE-6 và RTE-7 đã có sự khác biệt so với các hội nghị RTE trước đây Kế thừa văn bản được thực thi trên tập corpus thực sự và sử dụng tập hợp
cơ sở dữ liệu tri thức (knowledge base population: KBP) cho phát hiện kế thừa văn bản Cơ sở dữ liệu tri thức sẽ nâng cao kết quả cho bài toán phát hiện kế thừa văn bản Bài toán đặt ra là tập trung kế thừa dựa vào ngữ cảnh Trong đó, việc quyết định kế thừa dựa trên ngữ cảnh rộng hơn RTE-7 tập trung vào kế thừa văn bản trong hai thiết
Trang 21lập ứng dụng: tóm tắt và tập hợp cơ sở tri thức Bài toán chính trong RTE-7: Đưa ra một tập corpus và một tập các câu ứng viên được lấy ra từ tập corpus từ Lucence (một thư viện mã nguồn mở cho tìm kiếm toàn văn bản, được Dough Cutting phát triển Thư viện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm), hệ thống kế thừa văn bản được yêu cầu phải xác định các câu từ tập các câu ứng viên để
mà chúng kế thừa một giả thuyết đưa ra Dựa trên bài toán chính, bài toán phụ sẽ tập trung vào việc phát hiện tính mới, điều đó có nghĩa là các hệ thống kế thừa văn bản được yêu cầu phải đánh giá thông tin chứa trong giả thuyết H liệu có mới so với thông tin chứa trong tập corpus hay không Nếu các câu kế thừa được tìm thấy trong câu giả thuyết H được đưa ra thì nội dung của H là mới
Bộ dữ liệu trong hội nghị RTE được thu thập và chú thích bằng tay Nó bao gồm 7 tập con tương ứng với các ví dụ điển hình trong các ứng dụng khác nhau Đây là những bộ dữ liệu văn bản – giả thuyết chuNn và được thực hiện bởi những người trong ban tổ chức cuộc thi Trong mỗi ứng dụng các cặp văn bản giả thuyết được chọn bao gồm cả ví dụ kế thừa và không kế thừa Thông thường, T chứa một (hai hoặc ba) câu,
H thường là một câu ngắn [18]
Tìm kiếm thông tin (Information Retrieval - IR): Các giả thuyết (H) được tạo ra tương ứng với những câu truy vấn có nghĩa, biểu diễn một số quan hệ ngữ nghĩa cụ thể Những truy vấn này thường dài và cụ thể hơn so với một truy vấn từ khóa chuNn
và đại diện cho biến thể hướng ngữ nghĩa trong tìm kiếm thông tin Các truy vấn được lựa chọn bằng cách kiểm tra những câu nổi bật trong văn bản tin tức và sau đó được tìm kiếm trên máy tìm kiếm web Văn bản ứng viên (T) được lựa chọn từ những tài liệu nhận được từ máy tìm kiếm Trong đó, người ta chọn ra cả những trường hợp kế thừa và không kế thừa để đảm bảo tính khách quan, bao trùm của dữ liệu Vì vậy, trong lĩnh vực IR, RTE chiếm một vị trí quan trọng trong việc tìm kiếm thông tin dựa trên các nguồn dữ liệu có sẵn Các hệ thống tìm kiếm thông tin nhận đầu vào là các từ khóa và trả về tập dữ liệu chứa từ khóa đó Kết quả trả về từ máy tìm kiếm thường rất lớn Người sử dụng muốn có được thông tin chính xác phải tự mình duyệt các câu trả lời Trong nhiều trường hợp, máy tìm kiếm trả về những kết quả không liên quan mấy tới từ khóa hoặc bỏ qua những văn bản cần thiết Một số tài liệu không chứa từ truy vấn nhưng vẫn phù hợp Ví dụ, một tài liệu về “orange” có thể phù hợp với những truy vấn về “tropical fruit” , “tropical” hay “fruit” mặc dù những từ này không xuất
Trang 22hiện trong tài liệu RTE được sử dụng để xác định xem một tài liệu có phù hợp với câu truy vấn hay không bất kể sự xuất hiện hay vắng mặt của từ truy vấn
Tài liệu so sánh (Comparable Documents): Cặp T-H được xác định bằng cách kiểm tra cụm những bài báo tin tức bao trùm một câu chuyện phổ biến Sau đó con người kiểm tra cặp câu “liên kết” có thành phần từ vựng trùng nhau một phần nhưng ngữ nghĩa thì có hoặc không kế thừa Một số cặp được lấy trên Web sử dụng Google news, những cặp còn lại thu thập từ một nguồn có sẵn Động lực của việc thu thập này là việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng lặp ngữ nghĩa trong các tài liệu so sánh, ví dụ tóm tắt nhiều tài liệu
Đọc hiểu (Reading Comprehension - RC): RC tương ứng với bài kiểm tra đọc hiểu tiêu biểu trong việc dạy ngôn ngữ trong trường học, trong đó sinh viên được yêu cầu đánh giá khi nào thì một lời khẳng định cụ thể có thể suy ra từ một văn bản Người chú thích được yêu cầu tạo ra các giả thuyết liên quan tới văn bản lấy từ những câu chuyện mới, coi như một bài đọc hiểu cho học sinh cấp 3
Hệ hỏi đáp (Question Answering - QA): Người ta tạo ra cặp T-H bằng cách sử dụng hệ hỏi đáp dựa trên Web và các văn bản trực tuyến có sẵn, sử dụng một nguồn câu hỏi từ CLEF-QA5 và TREC6 nhưng cũng có thể xây dựng những câu hỏi của chính họ Với mỗi câu hỏi được đưa ra, người chú thích chọn đoạn văn bản liên quan đầu tiên được đề xuất bởi hệ hỏi đáp chứa câu trả lời đúng Sau đó chuyển câu hỏi thành câu khẳng định và dùng làm giả thuyết Ví dụ, với câu hỏi “Ai là Ariel Sharon?”
và câu trả lời ứng viên nhận được là: “Tổng thống Israel, Ariel Sharon đã tới thăm Prague” (T) Khi đó câu hỏi được chuyển thành câu giả thuyết: “Ariel Sharon là tổng thống của Israel” tạo nên cặp văn bản – giả thuyết Do đó, trong hệ hỏi đáp, với cùng một câu hỏi đưa ra, hệ thống sẽ tìm các câu trả lời có quan hệ kế thừa ứng với câu tìm kiếm và đưa ra được những câu trả lời chính xác nhất
Trích xuất thông tin (Information Extraction - IE): Nhiệm vụ này bắt nguồn từ ứng dụng trích xuất thông tin, thích hợp với cặp văn bản hơn là một văn bản và một mẫu cấu trúc Trong ứng dụng này, người chú thích sử dụng một tập dữ liệu có sẵn được gán nhãn cho mối quan hệ IE là “kill” và “birth place”, cũng như các câu chuyện tin tức nói chung trong đó họ xác định bằng tay các mối quan hệ IE điển hình Ví dụ, đưa
ra một trích chọn thông tin xác định các vụ giết hại người dân và một văn bản “Du kích đã giết hại một nông dân ở thành phố Flores” , giả thuyết tương ứng “Du kích đã giết chết một thường dân” sẽ tạo ra một cặp văn bản – giả thuyết kế thừa
Dịch máy (Machine Translation - MT): Hai bản dịch của cùng một văn bản, một được dịch tự động và một được dịch bởi con người, được so sánh và sửa đổi để có
Trang 23được một cặp văn bản – giả thuyết Bản dịch tự động được thay thế lần lượt bởi văn bản hoặc giả thuyết, khi đó một bản dịch đúng sẽ tương ứng với quan hệ kế thừa Các bản dịch đôi khi được chỉnh về mặt ngữ pháp để có thể chấp nhận được
Thu thập diễn giải (Paraphrase Acquisition - PP): Hệ thống thu thập diễn giải cố gắng tiếp cận cặp (hoặc bộ) biểu thức từ vựng, cú pháp để truyền đạt những nghĩa tương đương hoặc kế thừa Người chú thích chọn một văn bản T từ một vài câu chuyện tin tức chứa một mối quan hệ nhất định, một quy tắc diễn giải và một hệ thống thu thập diễn giải Kết quả của việc áp dụng các quy tắc diễn giải trên T được chọn như là H Giả thuyết diễn giải đúng được gợi ý bởi hệ thống, được áp dụng trong một ngữ cảnh thích hợp để tạo ra cặp văn bản – giả thuyết, ngược lại là một ví dụ sai Ví
dụ, với câu “Cô gái đã được tìm thấy trong Drummondville”, và bằng cách áp dụng
quy tắc diễn giải “X được tìm thấy trong Y = Y chứa X”, chúng ta sẽ có câu giả thuyết
là “Drummondville chứa các cô gái” (có thể không kế thừa một cách chắc chắn)
Trong chương này, khóa luận đã giới thiệu khái quát về kế thừa văn bản, bài toán phát hiện kế thừa văn bản thông qua việc tìm hiểu các kết quả tổng hợp và quá trình tiến hóa qua các kỳ hội nghị RTE-1-7 Chương 2 của khóa luận trình bày một số hướng tiếp cận đã và đang được sử dụng trong bài toán phát hiện kế thừa văn bản trong các
kỳ hội nghị
Trang 24Chương 2: Một số hướng tiếp cận giải quyết bài toán
Qua các kỳ hội nghị RTE, rất nhiều kỹ thuật và phương pháp được sử dụng để giải quyết bài toán phát hiện quan hệ kế thừa Với mục đích tìm hiểu các phương thức phát hiện kế thừa văn bản, chương 2 sẽ trình bày các hướng tiếp cận giải quyết bài toán và một số phương pháp đã được sử dụng trong các hệ thống phát hiện kế thừa văn bản và
cho kết quả tốt theo đánh giá của các hội nghị RTE
2.1 Một số hướng tiếp cận giải quyết bài toán
RTE đã trải qua 7 kỳ hội nghị với rất nhiều các hệ thống phát hiện kế thừa văn bản được công bố Hướng giải quyết bài toán mà các tác giả đưa ra là rất phong phú và đa dạng Nhìn chung, hướng tiếp cận mà các tác giả sử dụng trong những năm gần đây bao gồm [3]:
• Hướng tiếp cận dựa trên thuật ngữ (Term-based): Hầu hết các hệ thống dựa trên phương pháp này đều xét tới hình thái và các biến thể từ vựng của các thuật ngữ trong văn bản và giả thuyết Việc đưa ra các quan hệ kế thừa thường dựa trên
như mệnh đề hay hình thức logic khác
• Hướng tiếp cận dựa trên cú pháp (Syntax-based): Một số hệ thống hiện có tiến hành thực hiện một phân tích độ tương đồng giữa cây cú pháp được trích xuất
từ văn bản và giả thuyết để xác định các mối quan hệ kế thừa Ngoài ra cũng có những hệ thống cần phải có một chiến lược phát hiện các diễn giải (paraphrase)
để sinh ra một tập các biểu diễn khác nhau của giả thuyết với mục đích tìm kiếm một tập con trong số đó xuất hiện trong văn bản
• Hướng tiếp cận dựa trên vai trò ngữ nghĩa (Semantic role-based): Có những hệ thống lưu ý tới các câu của văn bản và giả thuyết với vai trò ngữ nghĩa (sử dụng trình phân tích ngữ nghĩa nông) và sau đó phân tích sự trùng lặp giữa hai tập được gán vai trò ngữ nghĩa
• Hướng tiếp cận dựa trên tri thức (Knowledge-based or Corpus-based): Việc sử dụng tri thức thế giới trong những hệ thống này giúp dễ dàng nhận ra các mối
Trang 25quan hệ kế thừa khi mà từ vựng hay tri thức ngữ nghĩa không đủ để đưa ra mối quan hệ kế thừa chính xác
Hình 3: Một số hướng tiếp cận giải quyết bài toán
Mỗi hướng tiếp cận trên thông thường đều chỉ giải quyết được một vài khía cạnh của bài toán (từ vựng, ngữ nghĩa, cú pháp, …) Rất khó để có thể nhận xét được phương pháp nào là tối ưu hơn phương pháp nào Cách tốt nhất để có thể giải quyết tốt bài toán RTE là kết hợp nhiều phương pháp theo nhiều khía cạnh giải quyết vấn đề Trong khóa luận này, em xây dựng một hệ thống phát hiện quan hệ kế thừa sử dụng hướng tiếp cận dựa trên thuật ngữ (từ vựng) và tri thức miền từ điển để tạo ra kết luận
về mối quan hệ kế thừa trong văn bản tiếng Việt Sau đây khóa luận sẽ đi sâu vào phân tích hai hướng tiếp cận: dựa trên từ vựng và tri thức
Bài toán phát hiện kế thừa văn bản (RTE) đã được đưa ra lần đầu tiên vào năm
2005 Trong các hướng tiếp cận giải quyết bài toán như trên thì hướng tiếp cận dựa trên thuật ngữ (từ vựng) là hướng nghiên cứu phổ biến nhất Nó có mặt trong hầu hết các hệ thống xuyên suốt từ hội nghị RTE1 tới RTE7 Cơ sở của sự tương đồng về nội dung, ngữ nghĩa là sự tương đồng trong cách diễn đạt, sử dụng từ ngữ mà điển hình là
sự trùng lặp từ vựng hoặc các từ đồng nghĩa, cấu trúc giống nhau Chính vì vậy, một
hệ thống phát hiện quan hệ kế thừa với dữ liệu thuộc ngôn ngữ nào thì hướng tiếp cận dựa trên từ vựng cũng là hướng tiếp cận được quan tâm xử lý đầu tiên Động lực của phương pháp này là việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng lặp ngữ nghĩa trong các cách diễn đạt, ví dụ trong tài liệu so sánh hay tóm tắt nhiều tài liệu
Số lượng các bài báo và công trình nghiên cứu về kế thừa văn bản dựa trên từ vựng
là rất lớn, các thuật toán mà các tác giả sử dụng là rất đa dạng Tiêu biểu trong chuỗi thuật toán từ vựng đó là các thuật toán liên quan tới việc chỉnh sửa xâu [11] [8] [14]