e. Lập chỉ mục cho tài liệu tiếng Việt
Lập chỉ mục cho tài liệu tiếng Việt cũng tương tự như cho tiếng Anh. Tuy nhiên có vài điểm khác biệt sau:
• Giai đoạn tách từ trong tiếng Anh chỉ đơn giản dựa vào khoảng trắng, cịn tiếng Việt là ngơn ngữ đơn lập, một từ có thể có nhiều tiếng. Giả sử sau giai đoạn tách từ, ta sẽ thu được một danh sách các từ riêng biệt.
• Đối với tiếng Việt, khơng phải qua giai đoạn loại bỏ hậu tố. • Nói chung, lập chỉ mục cho tài liệu tiếng Việt gồm các bước sau:
o Xác định các từ riêng biệt trong tài liệu;
o Loại bỏ các từ có tần số cao. (Trong tiếng Việt, cũng như tiếng Anh, ta có một danh sách Stop List chứa những từ không thể là nội dung của văn bản như: và, với, những, gì, sao, nào, …);
o Loại bỏ các từ có trọng số thấp.
• Các từ thu được sẽ được chọn làm các từ chỉ mục.
2.2.2 Mơ hình tìm kiếm khơng gian vector
2.2.2.1 Mơ hình tìm kiếm khơng gian vector cơ sở
Khái niệm mơ hình tìm kiếm Bool đơn giản và được sử dụng trong hầu hết các hệ thống thương mại. Tuy nhiên tương đối khó hình thành các câu truy vấn Bool và kết quả truy vấn rất nhậy cảm với công thức truy vấn. Trọng số thuật ngữ truy vấn thường khơng được sử dụng vì các câu truy vấn thường rất ngắn. Để tránh vấn đề này, các mơ hình tìm kiếm khác như không gian vector, thống kê và trên cơ sở cụm (cluster) được sử dụng để thay thế.
Mơ hình khơng gian vector giả sử rằng tồn tại tập cố định các thuật ngữ chỉ mục để đại diện tài liệu và câu truy vấn. Tài liệu Di và câu truy vấn Qjđược biểu diễn như hai vector:
Qj = [Qj1, Qj2,..., Qjk, ... , QjN]
trong đó, Tik là trọng số của thuật ngữ k trong tài liệu i, Qjk là trọng số của thuật ngữ k trong truy vấn j, và N là tổng số thuật ngữ sử dụng trong các tài liệu và truy vấn.
Các trọng số thuật ngữ Tik và Qjk có thể là nhị phân (1 hoặc 0) họăc sử dụng phương pháp đánh trọng số tf.idf hoặc các phương pháp khác.
Việc tìm kiếm trong mơ hình khơng gian vector được thực hiện dựa trên cơ sở tính tương đồng giữa câu truy vấn và các tài liệu. Độ tương đồng giữa tài liệu Di và câu truy vấn Qjđược tính như sau:
∑ = = N k jk ik j i Q T Q D S 1 . ) , (
Để bù vào độ chênh lệch giữa kích thước tài liệu và kích thước câu truy vấn, tính tương đồng nói trên có thể chuẩn hóa với θ là góc của hai vector (gọi là khoảng cách cosin) và được biểu diễn như dưới đây:
∑ ∑ ∑ = = = = = = N k jk N k ik N k jk ik j i j i j i Q T Q T Q D Q D Q D S 1 2 1 2 1 . . | || | . cos ) , ( θ
Đây là hệ số cosine quen thuộc giữa vector Di và Qj. Khi tìm kiếm, danh sách xếp hạng theo thứ tự tính tương đồng giảm dần sẽ được cho lại.
Thí dụ, có 4 tài liệu và truy vấn được đại diện bởi các vector sau: D1 = [0.2, 0.1, 0.4, 0.5]
D2 = [0.5, 0.6, 0.3, 0] D3 = [0.4, 0.5, 0.8, 0.3] D4 = [0.1, 0, 0.7, 0.8] Q= [0.5, 0.5, 0, 0]
S(D1, Q) = 0.31 S(D2, Q) = 0.931 S(D3, Q) = 0.66 S(D4, Q) = 0.07
Hệ thống sẽ cho lại danh sách tài liệu theo thứ tự D2, D3, D1 và D4.
Hạn chế chính của mơ hình khơng gian vector là nó coi các thuật ngữ khơng có quan hệ với nhau và nó chỉ làm việc tốt với tài liệu và câu truy vấn ngắn.
Nếu M là tổng số tài liệu, cần O(M) thời gian so sánh trong trường hợp tồi nhất. Nếu có N thuật ngữ, cần O(N) thời gian so sánh. Vậy tổng số thời gian địi hỏi tính tốn sẽ là O(N x M). Thông thường N x M là một số rất lớn, do vậy, người ta phải phát triển các kỹ thuật khác để tìm kiếm thuật ngữ trong tập tài liệu.
2.2.2.2. Kỹ thuật phản hồi phù hợp (Relevance Feedback Technique)
Các kỹ thuật áp dụng thông tin phản hồi phù hợp của người sử dụng được phát triển để nâng cao hiệu năng hệ thống. Phản hồi phù hợp lấy quyết định của người sử dụng về tính thích hợp của tài liệu và sử dụng chúng để điều chỉnh câu truy vấn hay chỉ mục tài liệu.
a. Điều chỉnh câu truy vấn
Điều chỉnh câu truy vấn trên cơ sở phản hồi thích hợp của người sử dụng sẽ sử dụng quy tắc sau:
• Các thuật ngữ xuất hiện trong tài liệu nhận ra trước đây là thích hợp thì được bổ sung vào câu truy vấn gốc, hay làm tăng trọng số của thuật ngữ.
• Các thuật ngữ xuất hiện trong các tài liệu nhận ra trước đây khơng thích hợp thì hủy khỏi câu truy vấn hay làm giảm trọng số của thuật ngữ.
Câu truy vấn mới được thay thế lần nữa để tìm kiếm tài liệu. Các quy tắc trên đây được diễn giải như sau:
∑ ∑ ∈ ∈ + = + − l Non D i l D i i i i i D D Q Q Re Re ) ( ) 1 ( α β
trong đó, Q(i+1)
là truy vấn mới, Q(i)
là truy vấn hiện hành, Di
là tập hợp các tài liệu tìm kiếm được từ câu truy vấn Q(i), α và β là các trọng số, tổng thứ nhất được thực hiện với tất cả tài liệu phù hợp trong D(i)
, và tổng thứ hai thực hiện trên tài liệu không phù hợp D(i)
.
Thực nghiệm cho thấy rằng hiệu năng sẽ được nâng cao nhờ sử dụng kỹ thuật này. Tóm lại, nguyên tắc của tiệm cận trên là tìm ra các tài liệu tương đồng với tài liệu đã kết luận là phù hợp với câu truy vấn. Các tài liệu thích hợp với câu truy vấn phải tương tự với nhau.
b. Điều chỉnh tài liệu
Trong điều chỉnh câu truy vấn trên cơ sở phản hồi phù hợp (relevance) của người sử dụng, các câu truy vấn được điều chỉnh nhờ các thuật ngữ trong tài liệu phù hợp. Người sử dụng khác khơng có lợi từ điều chỉnh này. Trong điều chỉnh tài liệu trên cơ sở phản hồi phù hợp của người sử dụng, các thuật ngữ chỉ mục tài liệu được điều chỉnh bằng các thuật ngữ truy vấn để sự thay đổi này tác động đến người sử dụng. Sử dụng các qui tắc trên cơ sở phản hồi phù hợp của người sử dụng như sau đây để điều chỉnh tài liệu:
• Thuật ngữ trong truy vấn, nhưng không trong các tài liệu mà người sử dụng kết luận là phù hợp, sẽ được bổ sung vào danh sách chỉ mục tài liệu với trọng số khởi đầu.
• Các trọng số của thuật ngữ chỉ mục trong câu truy vấn và trong các tài liệu phù hợp đều được tăng lên với giá trị nhất định.
• Các trọng số của các thuật ngữ chỉ mục ngoài câu truy vấn nhưng trong tài liệu liên quan được giảm đi một giá trị nhất định.
Khi các truy vấn tiếp theo sau tương tự các truy vấn sử dụng để hiệu chỉnh tài liệu được đưa ra thì hiệu năng được tăng cường. Tuy nhiên tiệm cận này có thể làm giảm hiệu năng nếu các truy vấn tiếp theo khác xa với cái được sử dụng để điều chỉnh tài liệu.
2.2.3. Thước đo hiệu năng
Giả sử trong tập tài liệu khi chúng ta tìm kiếm với câu truy vấn Q chúng ta có kết quả như sau:
Pert: Tập con tài liệu đúng với câu truy vấn Q trong thực tế
Retr: Tập con tài liệu mà hệ thống tìm ra