ĐÁNH GIÁ VỀ CÁC CÔNG CỤ TÌM KIẾM TIẾNG VIỆT

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 69 - 71)

1. MỤC ĐÍC H

2.4.ĐÁNH GIÁ VỀ CÁC CÔNG CỤ TÌM KIẾM TIẾNG VIỆT

Chúng tôi khảo sát, so sánh các công cụ tìm kiếm dựa trên các tiêu chí sau:

2.4.1.1. Vấn đề phức tạp về bộ mã tiếng Việt được giải quyết như thế nàỏ

Do sự không thống nhất về các bộ mã tiếng Việt, thông tin tiếng Việt trên mạng được cung cấp dưới nhiều bộ mã khác nhau, tùy thuộc vào vị trí và thói quen của người thiết kế Web. Có tới hàng chục bộ mã khác nhau, tuy nhiên số lượng các tài liệu sử dụng phông chữ theo chuẩn TCVN3, VNI và Unicode vẫn là nhiều nhất. Hiện nay, các trang Web tiếng Việt có xu hướng sử dụng phương thức mã hoá theo kiểu Unicodẹ

Nói chung các Search Engine tiếng Việt đều đã xử lý vần đề này tương đối tốt. Phần lớn dữ liệu đều đã được chuẩn hóa về mã UNICODE và hiển thị trên các trình duyệt khá tốt. Tất nhiên là dữ liệu càng nhiều thì càng có nhiều lỗị Thỉnh thoảng ta vẫn thấy xuất hiện những lỗi về lọc font chưa được tốt.

2.4.1.2. Phân tích truy vấn

Chúng tôi sử dụng 2 câu truy vấn là “bóng bóng bàn” và câu truy vấn không dấu của nó là “bong bong ban” để khảo sát các công cụ tìm kiếm. Chúng tôi sử dụng bộ test này vì chúng tôi thấy, đây là query mang tính ngữ nghĩa cao và đòi hỏi phải thực sự hiểu tiếng Việt mới có thể đưa ra kết quả chính xác.

Số kết quả nhận được là 100, các con số trên bảng là thứ tự đúng của kết quả:

Truy vấn Google Xalo Socbay

Bóng bóng bàn 26 9 1

Bong bong ban 15 -1 1

Bảng 8. Kết quả test từ trên các công cụ

Trong cả 3 bộ test, Google đều cho kết quả, tuy rằng đôi khi kết quả nằm ở trang thứ 2 (kết quả thứ 15) hoặc trang thứ 3 (kết quả thứ 26). Điều này thể hiện Google có lượng dữ liệu cực kỳ lớn với việc hiểu tiếng Việt thì không caọ

Xalo có hiểu tiếng Việt trong truy vấn thứ 2 nhưng truy vấn đầu có nháy mà lại không có kết quả thì hơi đáng ngạc nhiên về nền tảng bên trong của nó. Với câu truy vấn không dấu, nó hoàn toàn không hiểu đó là tiếng Việt và cách đánh chỉ mục của nó là phân biệt hoàn toàn tiếng Việt có dấu và tiếng Việt không dấụ

2.4.1.3. Tìm kiếm thông minh

Tìm kiếm thông minh có thể coi là công việc tìm đúng yêu cầu của người sử dụng trong trường hợp truy vấn không đúng và có thêm chức năng gợi ý cho người sử dụng. Với tiêu chí này thì Goole thông minh. Chức năng tìm kiếm MP3 của Socbay cũng được coi là thông minh với việc nhận dạng được ca sỹ, album, nhạc sỹ…

CHƯƠNG 3.

XÂY DỰNG CÔNG CỤ MP3 SEARCH

Với mục đích cụ thể hóa việc nghiên cứu về xây dựng một hệ thống Search Engine cho tiếng Việt, chúng tôi nghiên cứu về một bài toán rất nhỏ so với hệ thống tìm kiếm, đó là tìm kiếm MP3. Bài toán tìm kiếm MP3 về cơ bản là bài toán dễ hơn rất nhiều so với bài toán tìm kiếm tiếng Việt trên dữ liệu Web. Bởi vì dữ liệu MP3 là rất nhỏ, toàn bộ cơ sở dữ liệu chỉ khoảng mấy chục MB đến mấy trăm MB và con số này là cực kỳ nhỏ so với hàng nghìn TB dữ liệu Web. Đặc điểm thứ 2 về mặt ngôn ngữ là dữ liệu MP3 rất ngắn gọn, rõ ràng và có cấu trúc so với dữ liệu Web là phi cấu trúc thì phân tích dữ liệu MP3 dễ dàng hơn rấy nhiềụ Chúng tôi sẽ trình bày chi tiết quá trình xây dựng một hệ thống tìm kiếm MP3, đồng thời so sánh các công việc tương tự so với bài toán tìm kiếm Web để làm rõ kết quả công việc nghiên cứu của chúng tôị

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 69 - 71)