Cỏc cõu lệnh truy vấn đối với hệ tỡm kiếm được hiểu chung là cỏc thụng tin yờu cầu tỡm kiếm được người dựng đưa vào. Cấu trỳc của hệ tỡm kiếm, đặc biệt là bộ tạo chỉ mục cú quan hệ chặt chẽ với việc quản lý cỏc cõu lệnh truy vấn. Mỗi mụ hỡnh hệ tỡm kiếm thường thớch hợp với một kiểu cõu lệnh truy vấn xỏc định. Tuy vậy, do yờu cầu thực tế của người dựng và do ngụn ngữ tự nhiờn của người dựng, cỏc hệ tỡm kiếm thường đỏp ứng nhiều kiểu cõu lệnh truy vấn khỏc nhau [1].
1.7.1 Liờn kết cỏc cõu lệnh truy vấn
Liờn kết cỏc cõu lệnh truy vấn là cỏch chuyển đổi cỏc yờu cầu của người dựng sang dạng mà hệ tỡm kiếm cú thể hiểu được. Mức đầu tiờn liờn quan đến khuụn dạng cỏc thụng tin, thường là cỏc từ mà người dựng đưa vào. Đú là cỏc cõu hỏi hoặc danh sỏch cỏc từ được nhập vào với cỏc liờn kết, ràng buộc khỏc nhau. Mức tiếp theo là hệ tỡm kiếm cần phải chuyển những từ này thành cỏc thẻ. Mức này cần phải kiểm tra khuụn dạng, kiểm tra chớnh tả,... Cuối cựng, mức 3 là hệ tỡm kiếm sử dụng cỏc thẻ này để tỡm kiếm tài liệu. Mức xử lý cõu lệnh truy vấn hỡnh 6.
Trong thực tế, người dựng làm việc theo kinh nghiệm và kỹ năng của họ, cú thể đưa vào cỏc lệnh truy vấn theo nhiều cỏch khỏc nhau như kết hợp cỏc từ nhờ vào cỏc toỏn tử logic; theo dạng cõu hỏi của ngụn ngữ tự nhiờn; hoặc danh sỏch cỏc từ
27
liờn tiếp;...Vấn đề nảy sinh là hệ tỡm kiếm khụng thể chấp nhận tất cả cỏc kiểu truy vấn khỏc nhau được.
Cỏc cõu lệnh truy vấn sử dụng toỏn tử logic AND, OR, NOT, tất nhiờn khụng thể được xử lý như tất cỏc cõu lệnh truy vấn với ngụn ngữ tự nhiờn. Chớnh vỡ vậy, cỏc hệ tỡm kiếm chỉ hỗ trợ một vài kiểu cõu lệnh truy vấn xỏc định và buộc người dựng phải học cỏch thức nhập thụng tin yờu cầu. Sau đõy là những kiểu truy vấn được sử dụng rộng rói nhất.
Mức 1
Ng-ời sử dụng nhập vào thông tin yêu cầu với một
định dạng nào đó
Câu lệnh truy vấn: banking + book + account
Mức 2
Search Engine chuyển từ các truy vấn này thành các
thẻ (token)
Các thẻ:banking, book, account Gốc từ: bank
Mức 3
Các thẻ đ-ợc sử dụng để tìm các tài liệu t-ơng ứng
Các tài liệu trả về chứa một trong các từ:bank, book, account
28
1.7.2 Truy vấn sử dụng toỏn tử logic
Cỏc cõu lệnh truy vấn sử dụng toỏn tử logic là cỏc cõu lệnh sử dụng cỏc toỏn tử AND, OR, NOT để liờn kết cỏc từ. Nếu người dựng muốn tỡm kiếm cỏc tài liệu cú chứa cả 2 từ „tiềm kiếm‟ và „thụng tin‟ thỡ cõu lệnh nhập vào sẽ là „tỡm kiếm AND thụng tin‟, nếu chỉ cần tỡm cỏc tài liệu hoặc là chứa một trong cỏc từ tỡm kiếm đú thỡ cõu lệnh nhập vào sẽ là „tỡm kiếm OR thụng tin”... Truy vấn sử dụng toỏn tử logic cho phộp mở rộng hay thu hẹp phạm vi tỡm kiếm một cỏch dễ dàng. Điểm yếu của chỳng là khụng phải người dựng nào (trừ những nhà toỏn học-tin học) cũng cú thể sử dụng thành thạo toỏn tử Boolean mặc dự chỳng rất đơn giản.
1.7.3 Truy vấn sử dụng ngụn ngữ tự nhiờn
Truy vấn sử dụng ngụn ngữ tự nhiờn là cỏc truy vấn mà người dựng đưa yờu cầu vào thụng qua cỏc cõu hỏi hay trả lời cỏc cõu hỏi mà hệ tỡm kiếm đưa ra. Vớ dụ “Tài liệu nào cú chứa thụng tin về lĩnh vực ngõn hàng”, hay “Bạn tỡm tài liệu thuộc lĩnh vực nào dưới đõy?”. Để xử lý cỏc cõu lệnh truy vấn sử dụng ngụn ngữ tự nhiờn, hệ tỡm kiếm phải phõn tớch cõu lệnh, xỏc định cỏc từ nào trong truy vấn cú trong dữ liệu index, từ nào là cỏc từ khụng cần thiết tỡm kiếm . Kiểu truy vấn này thuận tiện cho người dựng nhưng khú cho mỏy tớnh xử lý bởi mỏy tớnh khú xỏc định được ý nghĩa của từ trong một ngữ cảnh cụ thể.
1.7.4 Truy vấn sử dụng từ điển
Truy vấn sử dụng từ điển là kiểu truy vấn mà người dựng chọn cỏc từ truy vấn từ một tập cỏc từ xỏc định trước bởi hệ tỡm kiếm. Kiểu truy vấn này thường được sử dụng để tỡm kiếm một chuyờn ngành hẹp với cỏc thuật ngữ của ngành đú. Lợi ớch của kiểu truy vấn này là bước xử lý đầu tiờn đó được làm tự động cho người dựng. Do đú, người dựng khụng cần biết từ mỡnh chọn cú phải là từ tốt nhất cho tỡm
29
kiếm hay khụng. Hơn nữa, hệ tỡm kiếm cú thể bổ sung, gợi ý cỏc thuật ngữ mới mà người dựng chưa biết hoặc chưa nghĩ đến.
1.7.5 Truy vấn với thụng tin khụng chớnh xỏc
Khỏi niệm truy vấn với thụng tin khụng chớnh xỏc cú ý nghĩa tương tự như khỏi niệm chớnh xỏc thụng thường. Theo đú, cõu lệnh truy vấn cú cỏc từ khoỏ được hiểu theo nghĩa này hay nghĩa khỏc, từ này hay từ khỏc. Truy vấn khụng chớnh xỏc cho phộp xử lý vấn đề lỗi chớnh tả, so sỏnh với cỏc từ “bank”, “banking”, ”banker” cú cựng một gốc từ “bank”, vỡ vậy, chỳng cú thể được xử lý như nhau. Hay khi muốn tỡm tài liệu cú chứa từ “information retrieval”, nếu người sử dụng gừ sai là “infomration retrieval” (đảo chữ r và m) thỡ hệ thống vẫn cú thể tỡm ra chớnh xỏc từ này.
Với cỏc hệ tỡm kiếm cú sử dụng kiểu truy vấn khụng chớnh xỏc thỡ vấn đề xỏc định và sắp xếp mức độ liờn quan của cỏc tài liệu tỡm thấy với yờu cầu tỡm kiếm là rất quan trọng.
1.7.6 Truy vấn theo thống kờ -xỏc suất
Kiểu truy vấn này liờn quan đến cỏch thức hệ tỡm kiếm xỏc định mức độ liờn quan của tài liệu với cõu lệnh truy vấn. Sử dụng một hàm thống kờ như tớnh số từ xuất hiện trong tài liệu, tỡm cỏc từ đồng nghĩa,... để xỏc định kết quả trả về cho người truy vấn. Kiểu truy vấn này sử dụng nhiều phương phỏp đó được phỏt triển rất tốt trong lĩnh vực tỡm kiếm thụng tin.