Mô đun hậu xử lý cho phép người sử dụng tương tác để hồn thiện bản dịch đã có, từ đó cung cấp các cặp câu song ngữ mới làm giàu thêm kho ngữ liệu. Quá trình hậu xử lý này được kết hợp để đo các chỉ số cần thiết phục vụ cho đánh giá chất lượng của hệ thống dịch như đã mô tả ở Chương 2.
Xây dựng kho ngữ liệu ontology
Bước 1: Định nghĩa các lớp dựa vào ngữ cảnh hay lĩnh vực của kho nhằm xây dựng ontology.
+ Xác định domain
Luận án xây dựng ontology dùng cho dịch tự động phục vụ ngành du lịch. Đã có một số ontology cho ngành du lịch đã được xây dựng. Tuy nhiên, ontology phục vụ dịch tự động của ngành du lịch thì chưa được nghiên cứu.
+ Liệt kê, định nghĩa các khái niệm
Để chọn địa điểm đi du lịch ở quốc gia khác, du khách sẽ có nhiều tiêu chí, điều kiện để lựa chọn và đưa ra quyết định. Mỗi du khách sẽ có các tiêu chí lựa chọn cho riêng mình. Chẳng hạn du khách du lịch mạo hiểm sẽ có lựa chọn khác với du khách du lịch nghỉ dưỡng, người trẻ tuổi thường có các tiêu chí lựa chọn khác với người già. Có rất nhiều khái niệm, vấn đề được các du khách quan tâm, gồm: An ninh, Lưu trú, Ẩm thực,Vui chơi, Mua sắm, Danh lam thắng cảnh, Lịch sử, Văn hóa, Lễ hội, Sự kiện, Giao thơng, Thời tiết, Giải trí, Địa điểm… và các chủ đề khác.
Mỗi một vấn đề, khái niệm chính trên được chia ra nhiều vấn đề khác nhỏ hơn. Chẳng hạn:
- “Danh lam thắng cảnh” bao gồm nhiều loại như Bãi biển, Sông, Núi, Vịnh, Hang động….
- “Giao thơng” có nhiều vấn đề được du khách quan tâm là Tuyến đường, Thời gian biểu, Lịch trình,… của các phương thức vận tải khác nhau như Xe buýt, Taxi, Hàng khơng,…
- “Lưu trú” có nhiều loại là Khách sạn, Chung cư, Nhà trọ,….
+ Xác định các lớp, phân cấp lớp
Từ phân tích, tìm kiếm các vấn đề, khái niệm, chúng ta có được các lớp. Các lớp được xây dựng theo cấu trúc phân cấp cha-con như là một sự phân loại các đối tượng. Có tổng cộng 179 lớp, trong đó có 14 lớp chính và 165 lớp con. Hình dưới đây là minh họa của một số lớp và cấu trúc phân cấp của chúng.
(a) (b)