Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin

Một phần của tài liệu Khoá luận tốt nghiệp phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung (Trang 25 - 28)

tin

Trước hết, mô tả cách xác định các hàm I, Vvà p phù họp cho việc khai thác thông tin. Đầu tiên, để định nghĩa không gian dung sai chúng ta chọn tập vũ trụ Ư là tập r của tất cả các terms.

u = {ti, Í2,ím} =t (2.5)

Vấn đề cốt yếu trong công thức của TRSM trong khai thác thông tin là các lớp dung sai của các term. Có nhiều cách để xác định khái niệm các term tương tự. Các đặc điểm của các term được chọn bởi tính chất sau:

1- Nó mang lại sự giải thích có ý nghĩa trong văn cảnh của khai thác thông tin về sự phụ thuộc và quan hệ ngữ nghĩa của các term.

2- Nó là quan hệ đơn giản dễ máy tính hóa.

Cũng cần lưu ý rằng đặc điểm các term không có tính đối xứng và không thể được sử dụng tự động để xác định các lớp tương đương. Với c (tị, tj) là tần số xuất hiện đồng thời của hai term ti, tj trong D (tập các văn bản). Định nghĩa hàm không chính xác I phụ thuộc vào ngưỡng 9như sau:

Giả sử rằng tập r là đóng trong quá trình khai thác thông tin. Một truy vấn Q bao gồm các từ khóa từ T. Với giả thuyết này có thể cho rằng tất cả các

lớp dung sai của các term là các lớp con có cấu trúc (P(ffl (tị)) = 1 với tị t T). Với những định nghĩa trên đã đạt được không gian dung sai R = (r,I,v,P) trong đó xấp xỉ trên và xấp xỉ dưới trong R của các tập họp con X T có thể xác định như sau:

L(R,X) = {ti<= T I VỢE (ti),X) = 1} (2.9)

U(R,X) = {tịC T I vựe(ti),X) > 0} (2.10)

Kết quả mang lại giữa các truy vấn của người sử dụng và các tài liệu có thể thực hiện bởi việc kiểm tra các cấp độ khác nhau của các thành phàn thô giữa các xấp xỉ dung sai. Có 12 cấp độ của các thành phần giữa hai tập họp có thể xuất hiện trong khi so sánh tập các term trong truy vấn q với tập các term trong mỗi tài liệu dj. Đây là cấp độ đơn giản và chính xác nhưng rất hiếm khi tồn tại: q = dj.

1- Tương đương thô: Với các tập X, Y — T nếu L(R,X) = L(R,Y) thì X, Y được gọi là tương đương thô dưới. Tương tự nếu U(R,X) = U(R,Y) thì X, Y được gọi là tương đương thô ừên. Với truy vấn q ta có các trường hợp: q là tương đương thô với văn bản dj, q là tương đương thô dưới với văn bản dj, q là tương đương thô ừên với văn bản dj.

2- dj bao gồm thô q: Với các tập X, Y — T nếu L(R,X) ^ L(R,Y) thì X được gọi là thành phần thô dưới trong Y. Tương tự nếu Ư(R,X) — U(R,Y) thì X được gọi là thành phần thô trên trong Y. Khi X và Y thỏa mãn hai tính chất trên thì ta nói X là thành phần thô trong Y. Với các truy vấn q có trường hợp: q là thành phần thô trong với văn bản dj, q là thành phần thô dưới trong với văn bản dj, q là thành phần thô ừên ừong với văn bản dj.

3- q bao hàm thô dj (ngược với 2): Với q là một truy vấn có các trương hợp sau: Văn bản dj là thành phần thô trong q, văn bản dj là thành phần thô dưới trong q, văn bản dj là thành phàn thô trên trong q.

4- Chồng thô: Điều này có thể xảy ra khi xấp xỉ trên và dưới dung sai của q và dj chồng nhau

L(R,q) n L(R,dj) * 0 U(R,q) n U(R,dj) * 0

Thuật toán TRSM

All:= ^> All:= ■ • A52 •= 0/

For j = lto IDI do begin If Q = djthen An := All ư {dj};

Else

If L(R, Q) # 0 then

Begin A22 := A22Ư {dj};

If Ư(R, Q) = U(R, dj) then A21 := A21ư {dj} End; If U(R,Q) = U(R, dj) then A23:= A23u {dj};

Else

If L(R, Q) # 0 then If L(R, Q) <= L(R, dj) then Begin

Aị2-= {dj};

If U(R, Q) <= U(R, dj} then A31:= A31 u {dj} End; If Ư(R, Q) <= U(R, dj) then A33:= A33 Ư {dj};

Else

If L(R, Q) # 0 then If L(R, dj) c L(R, Q) then Begin

A42:= A42U {dj}; (adsbygoogle = window.adsbygoogle || []).push({});

If U(R, dj) <= U(R, Q) then A4,:= A4,ư {dj} End;

Else

If L(R, Q) n L(R, dj) # 0 then A51:= A51u {dj}; If U(R, Q) n U(R, dj) # 0 then A52:= A52u {dj}; End.

Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính xác của tài liệu

Việc xác định độ chính xác giữa truy vấn với người sử dụng và các tài liệu được khai thác sử dụng hàm xếp hạng chínhCL\

Q X D R+

Có một vấn đề trong việc khai thác thông tin từ nhận xét về độ chính xác chủ quan và không chắc chắn. Khi một số yếu tố để đưa ra nhận định về độ chính xác là tương đối phức tạp, chính vấn đề này đã được nhận biết rằng các mô hình khai thác thông tin không thể chọn chính xác tuyệt đối các tài liệu theo yêu cầu. Điều này đã gợi xây dựng một hàm xếp hạng rời rạc dựa ừên 12 cấp độ khai thác thông tin của các tài liệu. Xác định mức độ mập mờ như nhau đối với tất cả các tài liệu trong cùng một cấp độ.

Thấy rằng các tài liệu ừong mỗi nhóm con có cùng độ chính xác tương đương với chúng có cùng số từ khóa chung với truy vấn q. TRSM cũng phát triển một chiến lược xếp hạng khác từ chiến lược xếp hạng ERSM thông qua lọc các xếp hạng rời rạc.

Có thể ước lượng so sánh một cách thực nghiệm giữa các chiến lược xếp hạng của ERSM và TRSM bởi vì TRSM phụ thuộc mạnh vào cách xây dựng không gian xấp xỉ. Khi trọng lượng các term là có sẵn.

Một phần của tài liệu Khoá luận tốt nghiệp phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung (Trang 25 - 28)