III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN 1 Tìm hiểu chung về các hệ thống khai thác thông tin
P t1 card ({d 1D card ({d dA D( t) relevant dA (t )}) (t,d) is true})
3.1 Khái niệm tập thô và không gian dungsa
Lý thuyết tập thô được phát triển từ giả định rằng để định nghĩa một tập vũ trụ ta cần phải biết một số thông tin (hay tri thức) về các phần tử của tập vũ trụ. Trái với cách tiếp cận cổ điển, định nghĩa tập hợp một cách duy nhất dựa trên các phần tử của tập đó và không cần thêm bất cứ thông tin gì về các phần tử của tập (thông tin về các phần tử có thể biểu diễn. Ví dụ như dưới dạng thuộc tính-giá trị mà đôi khi được gọi là hệ thông tin). Hiển nhiên, là đối với một số phần tử, thông tin của chúng có thể tương tự nhau và do đó các phần tử này không thể phân biệt được một cách rõ ràng nếu chỉ nhìn từ
thông tin về chúng. Quan hệ không phân biệt được chính là điểm khởi đầu
của lý thuyết tập thô và quan hệ này chỉ ra rằng sự mập mờ và không chắc chắn có quan hệ chặt chẽ với tính không phân biệt được và chúng có thể định nghĩa dựa trên các cơ sở của quan hệ này.
Điểm đầu tiên của lý thuyết tập thô là mỗi tập X trong tập vũ trụ U có thể được xem xét một cách xấp xỉ bởi các xấp xỉ dưới và xấp xỉ trên trong
một không gian xấp xỉ R=(U,R) với R⊆ U×U là một quan hệ tương đương.
Hai đối tượng x,y ∈U được xem là không phân biệt được trong R nếu xRy.
Các xấp xỉ dưới và trên trong R của các tập X⊆U, biểu diễn bởi L(R,X) và
U(R,X) được định nghĩa bởi công thức sau: L(R,X)={x∈U :[x]R ⊆X} (1)
U(R,X)={x∈U :[x]R∩ X ≠∅} (2)
Trong đó: [x]R biểu diễn lớp các đối tượng tương đương không phân
biệt được với x trong quan hệ R .
Tất cả các công việc ban đầu của khai thác thông tin sử dụng tập thô
đều dựa trên ERSM dựa trên sự giả định tập τ của các term có thể được phân
chia vào các lớp tương đương xác định bởi quan hệ tương đương. Một quan hệ tương đương R đòi hỏi 3 tính chất sau:
1- Tính phản xạ : xRx
2- Tính đối xứng : xRy → yRx
3- Tính bắc cầu : xRy ∩ yRz → xRz
(∀ x,y,z ∈ U)
Tính bắc cầu không phải lúc nào cũng được thỏa mãn .
Các lớp chồng nhau có thể được sinh ra bởi quan hệ dung sai trong quan hệ này chỉ yêu cầu tính phản xạ và tính đối xứng. Với sự xuất hiện của quan hệ dung sai chúng ta có khái niệm không gian dung sai. Không gian dung sai là không gian trong đó bao gồm các lớp chồng nhau của các đối tượng trong tập vũ trụ. Một không gian dung sai được định nghĩa bởi công
thức chung R(U,I, ν,P) trong đó U là tập các đối tượng, I : U → 2u là hàm
không chắc chắn, ν:2ux2u→[0,1] là thành phần mập mờ, P: I(U) → [0,1] là
hàm cấu trúc.
Chúng ta xem xét một đối tượng x được cho bởi thông tin inf(x). Hàm
không chính xác I : U → 2u xác định I(x) như một lớp dung sai của tất cả
các đối tượng được xem xét có cùng thông tin với x. Hàm không chính xác
được định nghĩa là những hàm thoả mãn điều kiện: x ∈I(x) và y∈I(x) nếu
x∈I(y) với x,y∈U. Điều này tương đương với hàm tương ứng với một quan
hệ ς ⊆U x U trong đó xςy nếu y∈I(x). ς là một quan hệ dung sai bởi vì quan hệ này thoả mãn hai thuộc tính phản xạ và đối xứng .
Hàm mập mờ ν : 2u x 2u → [0,1] đánh giá mức độ của các tập trong
tập vũ trụ, trong trường hợp đặc biệt nó liên quan đến câu hỏi lớp dung sai
I(x) của đối tượng x∈U có thuộc tập X không ?
Trong hàm ν còn yêu cầu tính đơn điệu đối với tham số thứ hai :
Cuối cùng, với hàm cấu trúc P được đề xuất bởi việc phân tích với hình thái toán học. Trong việc xây dựng các xấp xỉ trên và dưới chỉ một số các tập dung sai được coi là các yếu tố có cấu trúc. Chúng ta định nghĩa hàm
P: I(U) → [0,1] các lớp I(x) với mỗi x∈U thuộc vào hai lớp: Các tập hợp
con có cấu trúc (P(I(x))=1) và không có cấu trúc (P(I(x))=0).
Xấp xỉ dưới L(R,X) và xấp xỉ trên U(R,X) trong R với X∈U được xác
định như sau:
L(R,X) = {x∈U \ P(I(x))=1 & ν(I(x),X)=1 } (3) U(R,X)= {x∈U \ P(I(x))=1 & ν(I(x),X) > 0} (4)
Vấn đề cơ bản của việc sử dụng không gian dung sai trong các ứng
dụng là làm thế nào để xác định được các hàm I, ν và P phù hợp.