III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 1 Tìm hiểu chung về các hệ thống khai thác thông tin
4- q bao hàm thô dj (ngược với 3): Với q là một truy vấn ta có các trường hợp sau:
3.3 Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính xác của tài liệu.
chính xác của tài liệu.
Việc xác định độ chính xác giữa truy vấn của người sử dụng và các
tài liệu được khai thác chúng ta sử dụng hàm xếp hạng chính α:
Có một vấn đề trong việc khai thác thông tin từ các nhận xét về độ chính xác là chủ quan và không chắc chắn. Khi một số yếu tố để đưa ra sự nhận định về độ chính xác là tương đối phức tạp, chính vấn đề này đã được nhận biết rằng các mô hình khai thác thông tin không thể chọn chính xác tuyệt đối các tài liệu theo yêu cầu. Điều này đã gợi cho chúng ta xây dựng một hàm xếp hạng rời rạc dựa trên 12 cấp độ khai thác đồng thời xây dựng một hàm xếp hạng phụ cho cấp độ được xác định bởi [5-1] và [5-2].
Với các xấp xỉ dưới là tập các thành phần chắc chắn thuộc về tập các đối tượng cần tìm, và các xấp xỉ trên là tập các đối tượng có thể thuộc tập đó. Chúng ta có thể thấy các xấp xỉ dưới có vai trò mạnh mẽ và quan trọng hơn các xấp xỉ trên. Với đặc điểm này kết hợp với các yếu tố ở trên cho phép chúng ta thiết lập được một hàm xếp hạng độ chính xác cho 12 cấp độ khai thác thông tin của các tài liệu. Chúng ta xem xét 12 cấp độ khai thác
thông tin A11, A12 ,…, A52 theo thứ tự giảm dần của độ chính xác với một
truy vấn q bất kỳ và một hàm α(Q,dj) xác định mức độ mập mờ như nhau
đối với tất c các tài liệu trong cùng một cấp độ. Với hàm cấp độ này chúng ta
có thể thấy A11 là tập của các tài liệu hầu như chính xác đối với truy vấn q.
Một điểm quan trọng cần lưu ý là trong chiến lược của chúng ta trong các cấp độ A11 , A12 ,…,A43 cho chúng ta số lượng các tài liệu là không lớn lắm nhưng với cấp độ A51, A52 thì có thể mang lại số lượng lớn các tài liệu, điều này tỏ ra không thuận lợi đối với chúng ta. Để giải quyết vấn đề đó chúng ta sử dụng một hàm xếp hạng phụ thực hiện phân chia hai tập này vào các tập con trong đó các thành phần trong mỗi tập con là có cùng độ chính xác. Hàm xếp hạng phụ này được thiết lập thông qua hàm mập mờ được định nghĩa
trong (7). Trong thực tế mỗi tài liệu dj được chia vào một trong | Q | +1 nhóm
con dựa trên giá trị :
Chúng ta nhận thấy rằng các tài liệu trong mỗi nhóm con có cùng độ chính xác tương đương với chúng có cùng số từ khoá chung với truy vấn q. Một cách tổng quát chúng ta có được 2*| Q | +12 các nhóm con của các tài liệu với độ chính xác giảm dần. TRSM cũng phát triển một chiến lược xếp hạng khác từ chiến lược xếp hạng của ERSM thông qua việc lọc ra các xếp hạng rời rạc bởi công thức sau:
TSIM(Q , dj ) = | L(R,Q) ∩ L(R,dj) | / | L(R,Q) ∪ L(R,dj) |
+ | U(R,Q) ∩ U(R,dj) | / | U(R,Q) ∪ U(R,dj) | (13) Chúng ta không thể ức lượng so sánh một cách thực nghiệm giữa chiến lược xếp hạng của ERSM và TRSM bởi vì ERSM phụ thuộc mạnh vào cách xây dựng không gian xấp xỉ. Khi trọng lượng của các term là có sẵn,
với việc sử dụng hàm thành viên µ(tj,Q) trong (8) hàm xếp hạng có thể được
xác định như sau :