Mô hình Boolean (Boolean Model)

Một phần của tài liệu Hệ thống trợ giúp tìm kiếm thông tin (Trang 67 - 70)

Đây là mô hình tìm kiếm thông tin c đi n, đượ ứổ ể c ng dụng trong r t ấ nhiều các HTTKTT thương mại hiện nay. Tìm kiếm thông tin theo mô hình Boolean d a trên Logic Boolean vự à lý thuyết tập hợp cổ điển, trong đó c tàả i liệu tìm được v câu truy vấn củà a ngư i dùờ ng đều đư c xem như ợ là tập c c á thuật ngữ. Tìm kiếm dựa trên việc kiểm tra xem tà ệu có i li chứa các thu t ngậ ữ của câu truy vấn không.

Cho một tập h u hữ ạn T = {t1, t2, ..., tm}đư c gợ ọi là các thuật ngữ chỉ mục; một tập hữu hạn D = {D1, D2, ..., Di, ..., Dn}trong đ Di ló à tài liệu.

Biểu thức Boolean Q biểu di n m t truy vễ ộ ấn như sau:

Q = (Wi OR Wk OR...) AND ... AND (Wj OR Ws OR...), với Wi = ti, Wk = tk, Wj = tj, Ws = ts, hoặc là Wi = NON ti, Wk = NON tk, Wj = NON tj, Ws = NON ts. Có NON đằng trư c nghĩa là ớ thuật ngữ tương ứng không xuất hiện trong tài liệu muốn tìm. Q ở đây là dạng chu n hẩ ội, tương t , Q cũự ng có thể ở dạng chuẩn tuyển.

Quá ìtr nh t m kiếm gồm hai bước: ì

Bước 1: Tập Sj cá àc t i li u thu đư c chứa hoặệ ợ c không ch a thuậứ t ng tj (tùy ữ thuộc vào Wj = tj hay Wj = NON tj): Sj = {Di | Di chứa ph n tầ ử Wj}

Bước 2: Cá àc t i li u tìm đư c, đáp ứng truy v n Q, là k t qu c a cáệ ợ ấ ế ả ủ c thao t c á tập hợp tương ng, tức l : UNION(INTERSECTION Sj)ứ à

Ví d :

Giả ử s úch ng ta có một kho tài liệu các vở ịch của Shakespeare v muố ìm k à n t v kở ịch c chứa c c từ Brutus, Caesar v không chứa từ Calpurnia (Brutus ó á à AND Caesar AND NOT Calpurnia). Shakespeare sử ụ d ng kho ng 32000 ả t ừ khác nhau. Mỗi từ có thể xuất hiện trong nhi u về ở ị k ch khác nhau. a xây T dựng đư c ma trận ảnh hưởợ ng thu t ng – tài li u như sau: ậ ữ ệ

Hình 2.1: Ma trn nh hưng thut ng – tài liu

Theo h ng ngang ta cà ó tên c c vở ịchá k , theo h ng dà ọc ta có các thuật ngữ đ ã sắp xếp theo bảng chữ cái. Phần tử (t,d) ở hàng t, cột d sẽ có á là gi trị 1 nếu v kở ịch d chứa thuật ngữ t. Ngược lại, phần tử (t,d) sẽ có á là 0. gi trị

Theo h ng ngang, ch ng taà ú có các vector cho các thuật ngữ, ví dụ: Vector Brutus (1,1,0,1,0,0,...) viết gọn lại là 110100...

Để ả ờ tr l i cho truy v n “Brutus AND Caesar AND NOT Calpurnia”, ta thực ấ hiện ph p AND trên c c vector Brutus, Caesar vé á à phủ định Calpurnia:

110100... AND 110111... AND 101111... = 100100...

Kết quả trả ời cho truy vấn n y l hai vở ịch Anthony and Cleopatra” và l à à k “

“Hamlet” (trong trường hợp v ụ ngắn gọn ở trên).í d

Mô hình Boolean cung cấp một cái nhìn khá trực quan, đơn giản và dễ hiểu cho người sử dụng của HTTKTT. Các câu hỏi truy vấn được xác định bởi biểu thức Boolean có ý nghĩa rõ ràng. Do tính đơn giản và dễ hiểu, mô hình này rất được quan tâm trong những năm trước đây và được ứng dụng khá phổ biến trong cáchệ thống thương mại.

Tuy nhiên, mô hình Boolean cũng có một số nhược iểm. ầu tiên, đ Đ chiến lược tìm kiếm của chúng dựa trên tiêu chuẩn quyết ịnh nhị phức (một đ tài liệu được quy định chỉ thuộc một trong hai khả năng là phù ợp hoặc h không phù hợp), không có bất kỳ ột khái niệm chia mức độ lựa chọn nào. m Do vậy, mô hình Boolean không đưa ra danh sách các tài liệu được sắp xếp

theo mức ộ liên quan ến yêu cầu của người sử dụng đ đ đã dẫn đến việc mô hình này không thoả mãn các yêu cầu trong các HTTKTT hiện nay như các công cụ tìm kiếm web. Mặt khác, trong khi các biểu thức Boolean có ngữ nghĩa rõ ràng, việc chuyển đổi một thông tin cần thiết thành một biểu thức Boolean là rất khó. Trong thực tế, người sử dụng rất khó khăn và lúng túng khi diễn ạt yêu cầu của họ thành biểu thđ ức Boolean. Hơn nữa sự so khớp chính xác có thể dẫn đến k t quả là trả về quá ít hoặc quá nhiều tài liệu. ế

2.2.1 Mô hình không gian vector (Vector Space Model)

Trong mô hình này, mỗi văn bản sẽ được biểu diễn thành một vector, mỗi thành phần của vector biểu diễn một giá trị thuật ngữ riêng biệt trong tập văn bản gốc (mỗi thành phần vector được gán một giá trị của hàm f của từng thuật ngữ trong văn bản). Giá trị này thường là trọng số của từ trong văn f bản, được xác định theo nhiều cách biểu diễn khác nhau.

Ví dụ dưới đây mô tả việc biểu diễn các vector văn bản trong không gian 2 chiều (chỉ có 2 thuật ngữ):

Thuật ngữ 2

Thuật ngữ 1 Văn bản 1

Văn bản 2

Văn bản 3

Văn bản 4

Hình 2.2: Biểu diễn các vector văn bản trong không gian chỉ có 2 thuật ngữ.

Một số mô hình kh ng gian vector thường được áp dụng trong bài toán ô xử lý văn bản như: mô hình Boolean, TF, IDF, TFxIDF.

Một phần của tài liệu Hệ thống trợ giúp tìm kiếm thông tin (Trang 67 - 70)

Tải bản đầy đủ (PDF)

(112 trang)