Một số tính năng của ASPseek

Một phần của tài liệu Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa (Trang 50 - 51)

a. Cĩ khả năng đánh chỉ mục và tìm kiếm trong vài triệu tài liệu: Sử dụng Aspseek, ta cĩ thể xây dựng một cơ sở dữ liệu và tìm kiếm trong rất nhiều site, và kết quả trả về cho mỗi câu truy vấn là rất nhanh ngay cả khi ta cĩ hàng triệu trang web đã được đánh chỉ mục.

b. Tối ưu các kết quả trả về: Mục đích của một cơng cụ tìm kiếm là tìm được những gì mà người dùng yêu cầu. Các kết quả trả về của Aspseek được sắp xếp theo mức độ hợp lệ của trang web so với câu truy vấn của người dùng.

c. Khả năng tìm kiếm nâng cao: Hỗ trợ việc tìm kiếm theo cụm từ, để tìm kiếm một cụm từ, người dùng chỉ việc bao cụm từ bởi các dấu ngoặc kép (“”), chẳng hạn “many years ago”. Ngồi ra người dùng cĩ thể thực hiện tìm kiếm theo các ký tự đại diện. Ví dụ nếu chúng ta biết chính xác cụm từ nhưng lại quên một từ ở giữa, chúng ta cĩ thể thay thế từ đĩ bởi ký hiệu (*). Do đĩ, câu truy vấn “many * ago” sẽ trả lại các trang web cĩ các cụm từ như “many years ago”, “many days ago”.

Hỗ trợ tìm kiếm sử dụng các biểu thức logic. Các biểu thức cĩ thể kết hợp với nhau sử dụng các tốn tử AND và OR. Các biểu thức con cĩ thể được nhĩm lại sử dụng các dấu ngoặc đơn:

Ví dụ: (some OR any) AND (days OR months OR years)

d. Hỗ trợ việc lưu trữ theo định dạng Unicode: Aspseek lưu trữ thơng tin các trang web ở dạng Unicode, do đĩ ta cĩ thể tìm kiếm và đánh chỉ mục các văn bản thuộc nhiều ngơn ngữ như tiếng Anh, tiếng Nga, tiếng Trung Quốc... trong cùng một cơ sở dữ liệu.

e. Hỗ trợ các giao thức HTTP, HTTPS, HTTP proxy và FPT proxy đồng thời cĩ khả năng nhận dạng các văn bản ở định dạng HTML và plain text. Các định dạng văn bản khác cĩ thể được hỗ trợ thơng qua các chương trình mở rộng chuyển sang định dạng HTML hoặc plain text.

f. Được thiết kế chạy đa luồng: ASPseek sử dụng đa luồng POSIX, mỗi tiến trình cĩ rất nhiều luồng chạy song song. Điều này khơng chỉ giúp cải thiện rất lớn tốc độ của quá trình đánh chỉ mục, do nếu chỉ chạy một luồng thì phần lớn thời gian là chờ tiếp nhận dữ liệu từ mạng.

g. Hỗ trợ việc đánh chỉ mục khơng đồng bộ theo thời gian thực:Một số máy tìm kiếm yêu cầu việc tìm kiếm phải dừng lại trong suốt thời gian cập nhật cơ sở dữ liệu. ASPseek khơng địi hỏi điều này bằng cách hỗ trợ chế độ thời gian thực cho modul đánh chỉ mục. Tính năng này sẽ rất cĩ ích khi chúng ta đang xây dựng một máy tìm kiếm chuyên biệt cho các trang Web cĩ nội dung thay đổi liên tục ví dụ như các trang tin trực tuyến. Tuy nhiên số lượng tài liệu trong cơ sở dữ liệu thời gian thực bị giới hạn vào khoảng 1000 tài liệu. Nếu cĩ càng nhiều tài liệu trong cơ sở dữ liệu thời gian thực thì tốc độ index vào cơ sở dữ liệu chính sẽ càng bị chậm.

h. Xử lý các từ dừng và đốn nhận mã chữ cái: Từ dừng là các từ mà bản thân nĩ khơng cĩ ý nghĩa. Ví dụ các từ dừng trong tiếng Anh: “is, are, at, this”...Việc tìm kiếm trên các từ dừng là hồn tồn vơ nghĩa, bởi vậy các từ dừng sẽ bị loại bỏ khỏi câu truy vấn. Các từ dừng cũng bị loại bỏ ra khỏi cơ sở dữ liệu trong suốt quá trình đánh chỉ mục bởi vậy cơ sỡ dữ liệu sẽ nhỏ hơn và nhanh hơn.

Một số server cấu hình khơng đúng sẽ khơng cho phía client biết tập mã ký tự của nội dung mà nĩ cung cấp. Trong trường hợp này, ASPseek sẽ sử dụng bộ đốn nhận mã ký tự để xác định tập ký tự đúng của văn bản.

Một phần của tài liệu Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa (Trang 50 - 51)