Xếp hạng tài liệu (Ranking)

1.1 Cơ sở dữ liệu (CSDL) đa phương tiện

1.1.6 Xếp hạng tài liệu (Ranking)

Một truy vấn Boolean cho một máy tìm kiếm có thể đáp ứng tới hàng vài nghìn tài liệu phù hợp, nhưng một người sử dụng thông thường sẽ chỉ có thể xem xét đƣợc một số lƣợng nhỏ các tài liệu tìm đƣợc đó. Vì thế, xếp hạng các tài liệu phù hợp theo mức độ tương thích với người dùng là một vấn đề quan trọng, cũng là tiêu điểm trong việc đánh giá một phương pháp truy tìm.

Chỉ qua một phần thông tin của người sử dụng được trích lọc biểu thị qua truy vấn, hệ thống sẽ tìm kiếm và trả lời bằng một tập các tài liệu phù hợp. Yêu cầu đó không có thuật toán cụ thể, nhƣng đƣợc đảm bảo chiến lƣợc xếp hạng luôn ƣu tiên cho những tài liệu hữu ích, tài liệu đƣợc coi là “gần”

với truy vấn hơn sẽ đƣợc xếp lên trên tài liệu khác trong danh sách tài liệu trả lời. Trên thực tế, thuật toán xếp hạng trong hệ thống IR phần lớn dựa trên mô hình không gian vector các tài liệu. Một cách tiếp cận cổ điển để so sánh các truy vấn với các tài liệu:

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Biểu diễn các truy vấn nhƣ các vector thuật ngữ, thành phần vector nhận giá trị 1 nếu thuật ngữ xuất hiện trong truy vấn và 0 trong trường hợp ngược lại.

Biểu diễn vector thuật ngữ với các tài liệu sử dụng trọng số TF-IDF cho các thành phần trong vector

Sử dụng thước đo khoảng cách cosin để xếp hạng các tài liệu theo khoảng cách thuật ngữ với truy vấn.

Mô hình trọng số TF-IDF đƣợc chứng minh rất hữu ích trong thực tế.

Trong đó, TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗi thành phần trong một vector thuật ngữ đƣợc tính bởi số lần thuật ngữ đó xuất hiện trong tài liệu; IDF (Inverse Document Frequency) đƣợc tính bằng công thức IDF = log(N/ni), với N là toàn bộ tài liệu trong tập hợp và ni là số các tài liệu chứa thuật ngữ i. Với chỉ TF, nếu một thuật ngữ xuất hiện thường xuyên trong các tài liệu thì nó không phải là lựa chọn tốt làm thuật ngữ chỉ mục, vì nó không giúp phân biệt các tài liệu người sử dụng quan tâm với các tài liệu khác, tức là số lƣợng tài liệu đƣợc truy hồi lớn nhƣng độ chính xác không cao. IDF giúp cải thiện vấn đề này, trọng số của thuật ngữ sẽ rất cao nếu nó xuất hiện thường xuyên chỉ trong một vài tài liệu, tức là giúp tăng cường sự phân biệt.

Cho D = (di1, di2, …, diM) là tập các tài liệu, với truy vấn Q biểu diễn nhƣ một tài liệu. Trong đó, dij là trọng số thuật ngữ j trong tài liệu i, Qj biểu thị trọng số của thuật ngữ j trong truy vấn Q (i =1, 2.., N; j = 1, 2, .., M). Các trọng số dij và Qj có thể là 1 (nếu chứa thuật ngữ) hay 0 (nếu không chứa thuật ngữ) trong đại số quan hệ; hoặc tính bằng TF-IDF hoặc có thể bằng nhiều cách khác. Tài liệu Di được đánh giá là “gần” với truy vấn Q dựa vào thước đo sau:

Khoảng cách thuật ngữ (term distance):

j ij

j 1

(Q d )



 

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Khoảng cách cosin (cosin distance): Thước đo này được sử dụng khá phổ biến trong các mô hình thực tế và đƣợc mô tả nhƣ sau:

2 2

1 1

( )



 



 

j ij j

M M

j ij

j j

Q d

Q d

Trong trường hợp xấu nhất, cần đến O(N) phép so sánh, mỗi so sánh cho một tài liệu, mỗi so sánh cần O(M) thời gian cho từng thuật ngữ. Vậy, sẽ cần O(M×N) thời gian để tìm giải pháp tốt nhất. Kỹ thuật chỉ số ngữ nghĩa tiềm tàng (LSI) sẽ làm giảm đáng kể thời gian nói trên.

Xét ví dụ, với 10 tài liệu (ký hiệu: d1, d2,.., d10); và 6 thuật ngữ (ký hiệu: t1, t2, .., t6). Trong đó:

t1 = cơ sở dữ liệu t2 = SQL t3 = chỉ mục t4 = hồi quy t5 = khả năng t6 = đường kẻ

Ta sẽ lập đƣợc một ma trận tần số tài liệu - thuật ngữ M (106), trong đó mỗi phần tử ij (hàng i, cột j) chứa số lần xuất hiện của thuật ngữ j trong tài liệu i.

Bảng 1.1 Ma trận tài liệu - thuật ngữ

t1 t2 t3 t4 t5 t6

d1 24 21 9 0 0 3

d2 32 10 5 0 3 0

d3 12 16 5 0 0 0

d4 6 7 2 0 0 0

d5 43 31 20 0 3 0

d6 2 0 0 18 7 16

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

d7 0 0 1 32 12 0

d8 3 0 0 22 4 2

d9 1 0 0 34 27 25

d10 6 0 0 17 4 23

Giả sử, với một câu truy vấn Q chứa các thuật ngữ cơ sở dữ liệu và chỉ mục, ta có thể biểu diễn truy vấn dưới dạng vector Q = (1, 0, 1, 0, 0, 0), tức là thuật ngữ t1 và t3 xuất hiện trong truy vấn nên có giá trị là 1, còn lại nhận giá trị là 0.

Dựa vào ma trận tài liệu - thuật ngữ (bảng 1.1), ta tính đƣợc ma trận thuật ngữ - tài liệu với các thành phần trọng số TF-IDF, đƣợc biểu diễn trong bảng sau: Giả sử trong ví dụ này, thuật ngữ cơ sở dữ liệu có trọng số thấp hơn các thuật ngữ khác và ít có ý nghĩa vì nó xuất hiện trong hầu hết các tài liệu.

Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF

2.53 14.56 4.60 0 0 2.07

3.37 6.93 2.55 0 1.07 0

1.26 11.09 2.55 0 0 0

0.63 4.85 1.02 0 0 0

4.53 21.48 10.21 0 1.07 0

0.63 0 0 11.78 1.42 15.94

0.21 0 0 22.18 4.28 0

0.31 0 0 15.24 1.42 1.38

0.10 0 0 23.56 9.63 17.33

Sử dụng đơn vị đo khoảng cách cosin, tính độ tương đồng hay “gần”

giữa truy vấn với các tài liệu. Không giống với kết quả truy tìm trong đại số

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

quan hệ, đây là đại lƣợng đo khoảng cách mang lại sự xếp hạng cho mọi tài liệu, gồm ít nhất có một thuật ngữ phù hợp. Dựa vào bảng 1.1 và 1.2 tính khoảng cách tương ứng theo TF và TF-IDF.

Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu Document khoảng cách TF Khoảng cách TF-IDF

d1 0.70 0.32

d2 0.77 0.51

d3 0.58 0.24

d4 0.60 0.23

d5 0.79 0.43

d6 0.14 0.02

d7 0.06 0.01

d8 0.02 0.02

d9 0.09 0.01

d10 0.01 0.00

Kết quả tính đƣợc xếp hạng các tài liệu theo mức độ phù hợp. Kết quả trên cho thấy, sử dụng ma trận TF tài liệu d5 là “gần” nhất, còn với ma trận TF-IDF thì d2 đƣợc xem là “gần” nhất.

Hệ thống tìm kiếm thông tin (IR)

Chức năng của chương trình thử nghiệm