Sau khi câu truy vấn tiếng Việt được dịch và khử nhập nhằng ta sẽ có thêm 2 câu truy vấn: một câu tiếng Anh và một câu tiếng Hoa. Lúc này ta sẽ gửi cả 3 câu truy vấn (Việt – Anh – Hoa) cho hệ thống tìm kiếm đơn ngữ để nhận về các tài liệu có liên quan. Tiếp theo chương trình sẽ trộn cả 3 kết quả tìm được theo trình tự Việt – Anh – Hoa và hiển thị cho người dùng.
Trong các hệ thống tìm kiếm đơn ngữ trên Internet hiện nay, có thể nói Google là công cụ tìm kiếm mạnh nhất và rất được ưa chuộng nhờ vào tính chính xác và tốc độ của nó. Google có khả năng tìm kiếm rất tốt bằng cho nhiều ngôn ngữ khác nhau đặc biệt là tiếng Anh và tiếng Việt của chúng ta cũng được Google hỗ trợ khá tốt. Do đó , chúng tôi chọn Google là công cụ hỗ trợ tìm kiếm cho hệ thống tìm kiếm xuyên ngôn ngữ
của mình.
3.3.3.2 Hệ thống tìm kiếm Google:
Nguyên tắc hoạt động của Google [17] là tìm các trang theo đề tài hoặc chủđề có liên quan đến câu truy vấn. Khi người dùng nhập vào câu truy vấn bình thường thì Google sẽ mặc định dùng toán tử AND. Do đó nếu muốn tìm các tài liệu mà trong đó phải
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
chứa toàn bộ cụm từ trong câu truy vấn thì chúng ta đặt câu truy vấn trong ngoăc kép (“”). Điểm đặc biệt của Google là có tìm cả từ đồng nghĩa trong câu truy vấn. Kết quả
Google trả về là các trang đã được sắp xếp theo mức độ quan trọng của chúng. Mức độ
quan trọng này được đánh giá dựa vào số liên kết đến trang đó.
Để tăng hiệu quả cho hệ thống tìm kiếm của mình, chúng tôi còn thêm vào câu truy vấn các từđồng nghĩa. Kỹ thuật này gọi là “mở rộng câu truy vấn” (query expansion).
Đối với các từ đồng nghĩa tìm được chúng tôi sử dụng toán tử OR. Tuy nhiên, do từ điển còn hạn chế, chỉ có một số mục từ có từ đồng nghĩa nên kỹ thuật này vẫn chưa phát huy tính hiệu quả của nó.
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM
Chương này sẽ trình bày cụ thể các kỹ thuật cài đặt cho hệ thống đồng thời trình bày các thử nghiệm cũng như các kết quảđánh giá của hệ thống tìm kiếm. Nội dung cụ thể
như sau:
9 Cài đặt.
9 Thử nghiệm.
9 Đánh giá.