Một cách tương tự ta có thểđịnh nghĩa độ tương tự của tài liệu và câu truy vấn: Xét 1 câu truy vấn Qj cụ thể , Qj có thểđược biểu diễn dưới dạng vector như sau:
Qj (QTERMj1, QTERMj2,…,QTERMjt)
Vector Qj cũng được biểu diễn trong không gian t chiều như tập tài liệu
Độ tương tự của câu truy vấn so với tài liệu DOCi chính là cos của góc α tạo bởi 2 vector Qj và DOCi .
COS (DOCi, Qj) = ∑
√ ∑ √ ∑
Do giá trị của các vector Qj và DOCi luôn là 1 con số lớn hơn bằng 0, nên cosα >=0 => αlà góc trong khoảng [0, ∏ ] .
Do hàm số cos trong khoảng [ 0,∏ ] là hàm số nghịch biến nên cosα càng lớn thì α càng nhỏ có nghĩa là nếu 2 vector càng gần nhau thì độ tương tự càng lớn hay nội dung của tài liệu DOCi liên quan nhiều đến yêu cầu của câu truy vấn Qj.
3.1.4.1.4.Sử dụng mô hình vec-tơ Phân loại tài liệu: Phân loại tài liệu:
Dựa vào việc tính độ tương tự giữa các vector tài liệu ta có thể phân loại tài liệu, những tài liệu có độ tương tự gần nhau sẽ xếp vào 1 lớp
• Mục đích của việc phân tài liệu:
Là để tạo ra 1 tập tin cluster document. Dưới đây là ví dụ của tập tin cluster: (TERMik * QTERMjk) k=1 t (TERMik)^2 k=1 t (QTERMjk)^2 k=1 t
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Mỗi 1 điểm x ký hiệu cho 1 vector tài liệu, khoảng cách giữa 2 điểm x tỷ lệ
nghịch với độ tương tự (khoảng cách giữa 2 điểm x càng lớn có nghĩa là độ tương tự giữa 2 tài liệu càng nhỏ và ngược lại).
Mỗi đường tròn đại diện cho lớp tài liệu.
Để đặc trưng cho lớp đó người ta định nghĩa thêm 1 vector đặc biệt gọi là vector centroid , nó cũng giống như trọng tâm của tập các điểm x , được thể hiện trên hình vẽ là ‘o’.
• Cách tính vector centroid
Giả sử có m tài liệu thuộc lớp p, vector centroid của lớp p được biểu diễn như sau:
CENTROIDp = CTERMp1 , CTERMp2,….,CTERMpt Trong đó :
CTERMpk = ∑ TERMik
với TERMik là trọng số của term k của tài liệu i trong lớp p • Mục đích của việc đưa ra vector centroid:
Đầu tiên ,mỗi câu truy vấn sẽ được so sánh với các vector centroid để tính
độ tương tự giữa vector truy vấn và vector centroid thay vì phải tính với tất cả
các vector tài liệu . Nếu độ tương tựđó đủ lớn (có nghĩa là lớp tài liệu đó thích 1 m i=1 m x x x x x o x x x x o x x x o o x o o x x x
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
hợp) thì ta tiếp tục so sánh vector truy vấn với các vector tài liệu trong lớp mà vector centroid đó đại diện . Tài liệu nào có độ tương tự lớn sẽđược phục hồi
Giả sử có n tài liệu trong tập cơ sở dữ liệu tài liệu được phân chia thành x lớp (nên có x vector centroid) , mỗi lớp có khả năng chứa n/x tài liệu
Số lần so sánh giữa câu truy vấn và vector centroid là x lần.
Sau khi đã so sánh x lần với các vector centroid ta chọn được 1 vector centroid có độ tương tự lớn nhất và tiến hành so sánh với n/x tài liệu trong lớp có vector centroid đó đại diện
Tổng số lần so sánh là x + n/x (*)
Nếu không thiết lập tập tin cluster (tức là không định nghĩa vector centroid ) tổng số lần so sánh của 1 câu truy vấn với n tập tài liệu là n lần
Áp dụng bất đẳng thức Cauchy cho biểu thức (*): x + ≥ 2√ n
Dấu “=” xảy ra khi x = x = √ n
Vậy số lần so sánh ít nhất sẽ là 2√ n với số cluster trong tập tài liệu là x =
√ n
Đối với tập tài liệu lớn với các tài liệu có nhiều chủ đề khác nhau không
đồng nhất thì số lượng cluster (lớp) sẽ lớn, lúc đó số lần so sánh giữa vector truy vấn và các vector centroid sẽ lớn . Để giải quyết trường hợp này , một lần nữa ta lại áp dụng phương pháp tính độ tương tự giữa các vector centroid như
cách tính độ tương tự giữa các tài liệu để phân lớp cho tập vector centroid. Nói tóm lại việc tính độ tương tự giữa các tài liệu để phân lớp tài liệu tạo ra 1 vector đại diện cho lớp đó gọi là vector centroid , tương tự việc phân lớp vector centroid sẽ tạo ra 1 vector đại diện cho lớp vector centroid đó gọi là vector supercentroid và lớp đó được gọi là superclass
Do đó việc tìm kiếm tài liệu sẽđược thực hiện qua 3 bước:
i. Đầu tiên so sánh vector truy vấn với các vector supercentroid thuộc x
n
x n
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
ii. Sau đó so sánh câu truy vấn với các vector centroid của các superclass thoảở bước 1
iii. Cuối cùng so sánh câu truy vấn với các vector tài liệu của các lớp mà vector centroid thoảở bước 2
• Một ví dụ về cấu trúc của tập tin cluster:
Việc tổ chức các file cluster phải thích hợp với sự phát triển của tập cơ sở
dữ liệu tài liệu, bởi vì 1 tài liệu mới được thêm vào cơ sở dữ liệu cũng sẽđược thực hiện so sánh tương tự như đối với câu truy vấn. Các item của tài liệu sẽ được so sánh với các supercentroid và các centroid đã có , kết quả là tài liệu sẽ được thêm vào những cluster thích hợp mà độ tương tự giữa các cluster đủ lớn. Sau đó hệ thống phải tiến hành tính lại các vector supercentroid và centroid của những cluster vừa mới có thêm tài liệu mới
SUPERCENTROIDk SCTERMk1 , SCTERMk2 , …… , SCTERMkt
CENTROIDPOINTER i CENTROIDPOINTER j ….
CENTROIDi CTERMi1 , CTERMi2 , …… , CTERMit
DOCPOINTER i1 DOCPOINTER i2 …..
CENTROIDj CTERMj1 , CTERMj2 , …… , CTERMjt
DOCPOINTER j1 DOCPOINTER j2 ….
DOCi1 TERMi11 , TERMi12 , …… , TERMi1t
DOCi2 TERMi21 , TERMi22 , …… , TERMi22
DOCj1 TERMj11 , TERMj12 , …… , TERMj1t
DOCj2 TERMj21 , TERMj22 , …… , TERMj22
……
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Xác định tài liệu thích hợp trả về Cải tiến câu truy vấn:
Thủ tục cải tiến câu truy vấn của hệ thống SMART còn được gọi là quá trình gửi thông tin phản hồi về tính liên quan của tài liệu (Relevance feedback) việc
đánh giá độ liên quan mà người sử dụng cung cấp cho hệ thống dựa trên những tài liệu được phục hồi của câu truy vấn trước đó, để xây dựng lại mô hình vector truy vấn mới. Mục đích của quá trình này là xây dựng câu truy vấn mới có hiệu quả
thực thi tốt hơn
Thủ tục cải tiến câu truy vấn được thực thi như sau:
i. Các từ ngữ xuất hiện trong tài liệu được người dùng xác định là có liên quan sẽđược thêm vào mô hình vector truy vấn ban đầu hoặc trọng số của những từ
ngữ này (term) sẽđược tăng lên.
ii. Các từ ngữ xuất hiện trong tài liệu được người dùng xác định là không có liên quan sẽ được xoá ra khỏi câu truy vấn ban đầu hoặc trọng số của nó sẽ được giảm lên.Thủ tục cải tiến câu truy vấn sẽ được thực thi một cách tựđộng dựa vào thông tin phản hồi từ phía người dùng. Quá trình này có thểđược tiến hành nhiều lần để tìm ra câu truy vấn tối ưu nhất