Một số tính năng của ASPseek

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 50 - 51)

a. Có khả năng đánh chỉ mục và tìm kiếm trong vài triệu tài liệu: Sử dụng Aspseek, ta có thể xây dựng một cơ sở dữ liệu và tìm kiếm trong rất nhiều site, và kết quả trả về cho mỗi câu truy vấn là rất nhanh ngay cả khi ta có hàng triệu trang web đã được đánh chỉ mục.

b. Tối ưu các kết quả trả về: Mục đích của một công cụ tìm kiếm là tìm được những gì mà người dùng yêu cầu. Các kết quả trả về của Aspseek được sắp xếp theo mức độ hợp lệ của trang web so với câu truy vấn của người dùng.

c. Khả năng tìm kiếm nâng cao: Hỗ trợ việc tìm kiếm theo cụm từ, để tìm kiếm một cụm từ, người dùng chỉ việc bao cụm từ bởi các dấu ngoặc kép (“”), chẳng hạn “many years ago”. Ngoài ra người dùng có thể thực hiện tìm kiếm theo các ký tự đại diện. Ví dụ nếu chúng ta biết chính xác cụm từ nhưng lại quên một từ ở giữa, chúng ta có thể thay thế từ đó bởi ký hiệu (*). Do đó, câu truy vấn “many * ago” sẽ trả lại các trang web có các cụm từ như “many years ago”, “many days ago”.

Hỗ trợ tìm kiếm sử dụng các biểu thức logic. Các biểu thức có thể kết hợp với nhau sử dụng các toán tử AND và OR. Các biểu thức con có thể được nhóm lại sử dụng các dấu ngoặc đơn:

Ví dụ: (some OR any) AND (days OR months OR years)

d. Hỗ trợ việc lưu trữ theo định dạng Unicode: Aspseek lưu trữ thông tin các trang web ở dạng Unicode, do đó ta có thể tìm kiếm và đánh chỉ mục các văn bản thuộc nhiều ngôn ngữ như tiếng Anh, tiếng Nga, tiếng Trung Quốc... trong cùng một cơ sở dữ liệu.

e. Hỗ trợ các giao thức HTTP, HTTPS, HTTP proxy và FPT proxy đồng thời có khả năng nhận dạng các văn bản ở định dạng HTML và plain text. Các định dạng văn bản khác có thể được hỗ trợ thông qua các chương trình mở rộng chuyển sang định dạng HTML hoặc plain text.

f. Được thiết kế chạy đa luồng: ASPseek sử dụng đa luồng POSIX, mỗi tiến trình có rất nhiều luồng chạy song song. Điều này không chỉ giúp cải thiện rất lớn tốc độ của quá trình đánh chỉ mục, do nếu chỉ chạy một luồng thì phần lớn thời gian là chờ tiếp nhận dữ liệu từ mạng.

g. Hỗ trợ việc đánh chỉ mục không đồng bộ theo thời gian thực:Một số máy tìm kiếm yêu cầu việc tìm kiếm phải dừng lại trong suốt thời gian cập nhật cơ sở dữ liệu. ASPseek không đòi hỏi điều này bằng cách hỗ trợ chế độ thời gian thực cho modul đánh chỉ mục. Tính năng này sẽ rất có ích khi chúng ta đang xây dựng một máy tìm kiếm chuyên biệt cho các trang Web có nội dung thay đổi liên tục ví dụ như các trang tin trực tuyến. Tuy nhiên số lượng tài liệu trong cơ sở dữ liệu thời gian thực bị giới hạn vào khoảng 1000 tài liệu. Nếu có càng nhiều tài liệu trong cơ sở dữ liệu thời gian thực thì tốc độ index vào cơ sở dữ liệu chính sẽ càng bị chậm.

h. Xử lý các từ dừng và đoán nhận mã chữ cái: Từ dừng là các từ mà bản thân nó không có ý nghĩa. Ví dụ các từ dừng trong tiếng Anh: “is, are, at, this”...Việc tìm kiếm trên các từ dừng là hoàn toàn vô nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi câu truy vấn. Các từ dừng cũng bị loại bỏ ra khỏi cơ sở dữ liệu trong suốt quá trình đánh chỉ mục bởi vậy cơ sỡ dữ liệu sẽ nhỏ hơn và nhanh hơn.

Một số server cấu hình không đúng sẽ không cho phía client biết tập mã ký tự của nội dung mà nó cung cấp. Trong trường hợp này, ASPseek sẽ sử dụng bộ đoán nhận mã ký tự để xác định tập ký tự đúng của văn bản.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU WEB VÀ MÁY TÌM KIẾM potx (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(68 trang)