Hướng tiếp cận nâng cao

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện kế thừa văn bản đa ngôn ngữ 04 (Trang 27 - 32)

Chương 2 : Các hướng tiếp cận bài tốn RTE và CLTE

2.2 Hướng tiếp cận cho bài tốn CLTE

2.2.2 Hướng tiếp cận nâng cao

Ý tưởng của hướng tiếp cận này là tận dụng ưu điểm của việc tích hợp chặt chẽ dịch máy MT với các kỹ thuật, thuật tốn phát hiện kế thừa văn bản TE. Điều này giúp phát hiện kế thừa văn bản đa ngơn ngữmà khơng cần dịch văn bản với độ phức tạp thấp. Do đĩ, hướng tiếp cận này khơng bị phụ thuộc vào các thành phần dịch máy và nĩ cĩ thể kiểm sốt được tồn bộ hành vi của hệ thống. Khi xử lý với cụm từ dựa trên dịch máy thống kê, cĩ một hướng tiếp cận là trích chọn thơng tin từ bảng cụm từ để làm phong phú thêm các quy tắc suy luận và quy tắc kế thừa. Các quy tắc này cĩ thể được sử dụng trong hệ thống phát hiện kế thừa văn bản dựa trên khoảng cách.

Ví dụ: Mối quan hệ kế thừa giữa cụm từ “ordinateur portable” trong tiếng Pháp và cụm từ “laptop” trong tiếng Anh, hoặc cụm từ “ti vi” trong tiếng Việt và cụm từ “television” trong tiếng anh.

Hình vẽ dưới đây thể hiện kiến trúc của hệ thống phát hiện kế thừa văn bản đa ngơn ngữdựa theo hướng tiếp cận nâng cao:

Hình 4: Hệ thống CLTE theo hướng tiếp cận nâng cao

Thu thập kho dữ liệu song ngữ cho bài tốn CLTE

Theo Mehdadvà cộng sự [13],hạn chế của nguồn tài nguyên từ vựng song ngữlà một vấn đề đối với các ứng dụng đa ngơn ngữ. Ngữ liệu song ngữ là một giải pháp để khắc phục những bất cập của nguồn tài nguyên hiện cĩ để thực thi bài tốn CLTE. Để thực hiện mục tiêu này, các tác giả đã khai thác ngữ liệu song ngữ để: tìm hiểu các tiêu chí đối sánh giữa các thành phần cụm từ trong các ngơn ngữ khác nhau, sử dụng chúng để trích chọn tự động tri thức từ vựng dưới hình thức bảng cụm từ, và sử dụng các bảng cụm từ thu được để tạo các bảng diễn giải đơn ngữ.

Với một cặp văn bản T - H đa ngơn ngữ(với văn bản T được viết bằng ngơn ngữ L1 và giả thuyết H được viết bằng ngơn ngữL2), hướng tiếp cận của nhĩm tác giả là tận dụng số lượng lớn các tri thức từ vựng được cung cấp từ các bảng cụm từ và bảng diễn giải để ánh xạ H vào T. Nhĩm tác giả thực hiện ánh xạ với hai phương pháp khác nhau:

Phương pháp thứ nhất: sử dụng một bảng cụm từ để ánh xạ trực tiếp các cụm từ

Hình 5: Sử dụng một bảng cụm từ để ánh xạ các cụm từ giữa văn bản và giả thuyết

Phương pháp thứ hai: Kết hợp bảng cụm từ với hai bảng diễn giải đơn ngữ (một

bảng của L1 và một bảng của L2). Phương pháp này được thực hiện như sau:

1. Sử dụng bảng diễn giải trong L2 để tìm các diễn giải của các cụm từ được trích xuất từ H.

2. Ánh xạ các diễn giải trong bước 1 đến các mục trong bảng cụm từ và trích xuất các cụm từ tương đương trong L1

3. Sử dụng bảng diễn giải trong L1 để tìm các diễn giải của các đoạn được trích chọn trong L1.

Hình 6: Sử dụng bảng cụm từ kết hợp với hai bảng diễn giải để ánh xạ các cụm từ giữa văn bản và giả thuyết

Với phương pháp thứ hai, việc so khớp cụm từ giữa văn bản và giả thuyết được thực hiện gián tiếp thơng qua các diễn giải của các mục trong bảng cụm từ. Hai hình trên cho thấy cả hai phương pháp sử dụng các bảng cụm từ và diễn giải.

Quyết định phán quyết kế thừa cuối cùng cho một cặp T - H được thi hành bằng mơ hình học với các độ đo tương đồng được tính tốn dự trên việc so khớp các cụm từ (mệnh đề) được xác định. Đặc biệt, phán quyết “YES”, “NO” được xem xét dựa trên tỉ lệ các từ trong giả thuyết được tìm thấy trong văn bản.

Thực nghiệm: Dữ liệu được sử dụng trong thực nghiệm là tập dữ liệu Anh-Tây Ban Nha

cĩ nguồn gốc từ RTE-3. Các cặp T-H trong tập ngữ liệu kế thừa Anh –Tây Ban Nha được thu thập sẽ được chú thích bằng cách sử dụng cơng cụ TreeTagger và Snowball. Nhĩm tác giả sử dụng bảng cụm từ PT và bảng diễn giải PPT như là tri thức từ vựng để tính điểm số phù hợp. Nhĩm tác giả sử dụng mỗi điểm số như một đặc trưng, và sử dụng SVM light để kết hợp và trọng số của các đặc trưng ở các mức độ khác nhau của n-gram. Để so sánh với các bảng cụm từ và bảng diễn giải được trích chọn, nhĩm tác giả sử dụng

từ điển song ngữ và MultiWordNet như nguồn thay thếcủa tri thức từ vựng.

Theo hướng tiếp cận nâng cao, Marco Turchi và cộng sự [8] đã xây dựng một hệ thống phát hiện kế thừa văn bản dựa trên học cĩ giám sát. Dữ liệu đầu vào của hệ thống là cặp câu văn bản chưa được gán nhãn. Đầu ra của hệ thống là cặp câu văn bản được tự động gán một trong bốn nhãn kế thừa. Kiến trúc của hệ thống được mơ tả như hình vẽ dưới đây:

Hình 7: Hệ Thống CLTE dựa trên đối sánh từ

Thành phần chủ đạo trong hướng tiếp cận của Marco Turchi và cộng sự [8] là mơ hình đối sánh từ. Nhĩm tác giả sử dụng một tập các văn bản song ngữ cho cặp ngơn ngữ mục tiêu và thuật tốn đối sánh từ để trích chọn ra các đặc trưng. Sau đĩ, nhĩm tác giả sử dụng các đặc trưng, các cặp câu văn bản đã được gán nhãn và thuật tốn học máy để sinh ra mơ hình phát hiện kế thừa văn bản đa ngơn ngữ.

Các đặc trưng được nhĩm tác giả sử dụng:

 Phần trăm các từ đối sánh phù hợp trong câu.

 Tổng số chuỗi từ đối sánh khơng phù hợp được chuẩn hĩa bằng chiều dài của câu.  Chiều dài lớn nhất của chuỗi từ đối sánh khơng phù hợp được chuẩn hĩa bằng

chiều dài của câu.

 Chiều dài lớn nhất của chuỗi từ đối sánh phù hợp được chuẩn hĩa bằng chiều dài của câu.

 Chiều dài trung bình của các chuỗi từ đối sánh phù hợp.

 Chiều dài trung bình của các chuỗi từ đối sánh khơng phù hợp.

 Vị trí của từ đối sánh khơng phù hợp đầu tiên được chuẩn hĩa bằng chiều dài của câu.

 Vị trí của từ đối sánh khơng phù hợp cuối cùng được chuẩn hĩa bằng chiều dài của câu.

Về mơ hình CLTE: Nhĩm tác giả sử dụng hai bộ phân lớp SVM cho phán quyết kế

thừa. Một bộ phân lớp được sử dụng để phán quyết kế thừa theo chiều xuơi (T1 →

T2) và một bộ phân lớp được sử dụng để phán quyết theo chiều ngược (T2 → T1).

Kết quả đầu ra của hai bộ phân lớp được kết hợp lại để tạo thành bốn phán quyết định kế thừa hợp lệ:

 “Bidirectional”: Nếu kết quả của hai bộ phân lớp là “yes”.

 “Forward”: Nếu kết quả của bộ phân lớp một là “yes”, bộ phân lớp hai là “no”.  “Backward”: Nếu kết quả của bộ phân lớp một là “no”, bộ phân lớp hai là

“yes”.

 “No entailment”: Nếu kết quả của hai bộ phân lớp là “no”.

Nhĩm tác giả đã tiến hành thực nghiệm trên các cặp ngơn ngữ Đức – Anh, Tây Ban Nha – Anh, Pháp – Anh, Ý – Anh với độ chính xác trung bình là 0.43.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện kế thừa văn bản đa ngôn ngữ 04 (Trang 27 - 32)

Tải bản đầy đủ (PDF)

(50 trang)